Anda di halaman 1dari 261

GENERACIN DE PATRONES PARA LOCALIZACIN DE INFORMACIN, BASADO EN MECANISMOS DE CONTEXTUALIZACIN

Tesis que para obtener el grado de Doctor, en el programa de Computacin e Inteligencia Artificial, Informtica presenta: M. en C. Mauricio Jorge Procel Moreno. Instituto Politcnico Nacional ( Mxico ), UPIICSA. de la Universidad de la Facultad de de Madrid, Politcnica

Dirigido por: Dr. Jess Cardeosa Lera.

Ao 2002.

Para Clara.

CONTENIDO
GENERACIN DE PATRONES PARA LOCALIZACIN DE INFORMACIN, BASADO EN MECANISMOS DE CONTEXTUALIZACIN .................................................................................. 0 CONTENIDO ..................................................................................................................................... 3 NDICE DE ALGUNOS CONCEPTOS Y PRINCIPIOS. ............................................................. 6 INDICE DE FIGURAS:..................................................................................................................... 7 NDICE DE TABLAS ........................................................................................................................ 8 NDICE DE GRFICAS ................................................................................................................. 11 INTRODUCCIN............................................................................................................................ 12 CAPTULO 1.................................................................................................................................... 15 REPRESENTACIONES VECTORIALES EN LA RECUPERACIN DE INFORMACIN. 15 1.1 LAS IDEAS BSICAS.- ................................................................................................................ 15 1.2 EL VECTOR SPACE MODEL Y LOS TRMINOS.-....................................................................... 21 1.2.1 Discriminacin frecuentista.............................................................................................. 22 1.2.2 Semejanza vectorial. ......................................................................................................... 26 CAPTULO 2.................................................................................................................................... 39 DECIDIR CON BASE EN PROBABILIDADES. ......................................................................... 39 2.1 MODELO PROBABILSTICO BSICO. ........................................................................................... 39 2.2 REDES INFERENCIALES.............................................................................................................. 46 CAPTULO 3.................................................................................................................................... 56 ALGUNOS ELEMENTOS CONCEPTUALES DE LAS ASOCIACIONES LXICAS NO SINTCTICAS............................................................................................................................................... 56 3.1 RELACIONES SIGNIFICATIVAS. .................................................................................................. 58 3.1.1 La semejanza y el significado. .......................................................................................... 58 3.1.2 Determinar significados: definiciones y estructuras ....................................................... 62 3.1.3 La Denotacin, La Referencia y Los Mundos.- ................................................................ 65 3.1.4 El Sentido.- ....................................................................................................................... 71 3.2 CARACTERIZAR RELACIONES Y MANEJAR EXCEPCIONES. .......................................................... 77

3.2.1 asociaciones composicionales y no composicionales....................................................... 77 3.2.2 herencias........................................................................................................................... 84 3.3 SINTETIZAR LENGUAJE CON SIGNIFICADO: ................................................................................ 85
TOMOS Y GENERATIVISMO.-.......................................................................................................... 85

3.3.1 ncleos de lenguaje........................................................................................................... 86 3.3.2 componentes de sentido. ................................................................................................... 87 3.4 INDIVIDUOS.- ............................................................................................................................ 93 CAPTULO 4.................................................................................................................................... 96 ASOCIACIONISMO. ...................................................................................................................... 96 4.1 EL MALEFICIO DIMENSIONAL.- .............................................................................................. 96 4.1.1 Latent semantic indexing. ................................................................................................. 97 4.1.2 El Vector Space Model generalizado.............................................................................. 100 4.2 MODELOS SOBRE LAS ESTRUCTURAS.- .................................................................................... 104 4.2.1 conexionismo y semntica. ............................................................................................. 104 4.2.2 lgica y estructuras......................................................................................................... 112 4.3 MODELOS BASADOS EN INFORMACIN SITUACIONAL.- ........................................................... 124 CAPTULO 5.................................................................................................................................. 130 CONCEPTOS EN LOS MODELOS ............................................................................................ 130 5.1 EVALUACIN Y RELEVANCIA.- ............................................................................................... 130 5.2 EL USUARIO.- .......................................................................................................................... 144 5.3 CONTEXTOS.-.......................................................................................................................... 147 CAPTULO 6.................................................................................................................................. 159 REFORMULACIN DE LAS QUERIES. .................................................................................. 159 6.1 ALGUNOS VALORES COMO REFERENCIA .................................................................................. 171 6.2 EL ANLISIS GLOBAL.-........................................................................................................... 178 6.3 EL ANLISIS DEL CONTEXTO LOCAL.- ..................................................................................... 189 6.4 LOCAL Y GLOBAL.-................................................................................................................. 195 CAPTULO 7.................................................................................................................................. 201 MARCO RELATIVIZADOR ....................................................................................................... 201 7.1 HIPTESIS Y PROPUESTA.- .............................................................................................. 201 7.2 CONDICIONES PARA LOS EXPERIMENTOS.- .............................................................................. 210 7.3 ESTUDIANDO LOS COMPONENTES.- ......................................................................................... 216

7.4 MODIFICANDO EL TAMAO DEL MARCO RELATIVIZADOR.-..................................................... 218 7.5 EXPERIMENTOS CON OTRAS COLECCIONES.............................................................................. 224 7.6 PARMETROS.- ....................................................................................................................... 239 7.7 DISCUSIN FINAL. ................................................................................................................... 245 CONCLUSIONES Y FUTURO. ........................................................................................................... 247 GLOSARIO: ................................................................................................................................... 250 ANEXO: EL ESQUEMA GENERAL O ESQUEMA DE RELACIONES ENTRE DIVERSOS MBITOS DE INVESTIGACIN EN RECUPERACIN DE INFORMACIN................................ 253 REFERENCIAS.- ........................................................................................................................... 254

NDICE DE ALGUNOS CONCEPTOS Y PRINCIPIOS.

Cluster Hypothesis o hiptesis de la agrupacin.- Secc. 1.2, p21. Principio probabilstico de ordenamiento.- Cap. 2, p39. Principio de Subsecc. 3.2.1, p83. Principio de la associative retrieval.- Cap. 4, p96. Principio de la similitud de contenidos expresados en grafos conceptuales.Subsecc. 4.2.2, p113. Principio de incertidumbre en la lgica.- Subsecc. 4.2.2 p117. Principio de la relevancia situacional.- Subsecc. 4.2.3, p129. Definicin de contexto.- Secc. 5.3, p150. Mximas de la relevancia.- Secc. 5.3, p157. Lowe sobre la clasificacin y los criterios de identidad.-

INDICE DE FIGURAS:
FIGURA 1 .- CONCEPTOS BSICOS DEL "VECTOR SPACE MODEL".

.................................................................... 29

FIGURA 2 .- RED INFERENCIAL PARA RECUPERACIN DE INFORMACIN. .......................................................... 47 FIGURA 3 .- TRANSMISIN DE EVIDENCIA EN CAPAS SUCESIVAS DE UNA RED INFERENCIAL.

............................. 50

FIGURA 4 .- ESQUEMA DE LAS OPERACIONES DEL MODELO GENERALIZADO DEL VECTOR SPACE MODEL.... 102 FIGURA 5.- UNA RED NEURAL PARA APRENDIZAJE A PARTIR DE LAS QUERIES.............................................. 105 FIGURA 6 .- UNA RED SEMNTICA PARA RECUPERACIN DE INFORMACIN..................................................... 108 FIGURA 7 .- UNA RED CON NODOS HETEROGNEOS PARA RECUPERACIN DE INFORMACIN. ......................... 109 FIGURA 8 .- RBOLES QUE SIRVEN DE BASE PARA LAS REGLAS DEL SISTEMA RUBRIC................................... 111 FIGURA 9 .- UN EJEMPLO DE GRAFO CONCEPTUAL PARA RECUPERACIN DE INFORMACIN............................ 114 FIGURA 10 .- UN ESQUEMA DE DISTRIBUCIN DE PROBABILIDADES Y DE CERCANA ENTRE MUNDOS, SEGN

LOGICAL IMAGING PARA RECUPERACIN DE INFORMACIN............................................................... 119


FIGURA 11 .- EL EFECTO DE LOS CAMBIOS EN LA DISTRIBUCIN DE PROBABILIDADES SEGN LOGICAL

IMAGING. .............................................................................................................................................. 121


FIGURA 12 .- REDISTRIBUCIN DE PROBABILIDADES SEGN LA GENERALIZACIN DE LOGICAL IMAGING. .. 123 FIGURA 13 .- CONJUNTOS DE DOCUMENTOS RELEVANTES Y DOCUMENTOS SELECCIONADOS POR UN SISTEMA DE

RECUPERACIN DE INFORMACIN.......................................................................................................... 131


FIGURA 14 .- CONJUNTOS DE DOCUMENTOS RELEVANTES SEGN EL SISTEMA Y SEGN EL USUARIO............... 142 FIGURA 16 .- LA NOCIN DEL CENTROIDE EN EL ANLISIS GLOBLAL ( QIU ).................................................... 182 FIGURA 17 .- ESQUEMA DEL MTODO PROPUESTO DE RELATIVIZACIN DE LOS TRMINOS CANDIDATOS PARA LA EXPANSIN DE QUERIES. ..................................................................................................................... 208 FIGURA 18 .- ESQUEMA DE LOS ELEMENTOS DE CLCULO DEL MTODO RELATIVIZADOR PROPUESTO.

........... 209

NDICE DE TABLAS
TABLA 1 .- PRIMEROS 20 TRMINOS ASOCIADOS CON SYSTEM SEGN ANLISIS GLOBAL, COLECCIN NPL. 161 TABLA 2 .- DOCUMENTOS RELEVANTES PARA LA QUERY 4, NPL. ................................................................... 161 TABLA 3 .- TRMINOS DE LA QUERY ( SYSTEMS OF DATA CODING FOR INFORMATION TRANSFER ) 4 NPL,
PONDERADOS PARA BSQUEDA. ............................................................................................................. 162

TABLA 4.- REPERESENTACIONES DE LOS DOCUMENTOS PARA LA QUERY 4 NPL.......................................... 163 TABLA 5 .- PRIMEROS 20 DOCUMENTOS SEGN EL ORDENAMIENTO ( RANKING) GENERADO POR LA MQUINA
DE BSQUEDA VSM. .............................................................................................................................. 165

TABLA 6 .- VALORES DE COBERTURA Y PRECISIN ASOCIADOS PARA LA QUERY 4 NPL. ................................ 166 TABLA 7 .- ESTADSTICAS DE LA COLECCIN NPL. ......................................................................................... 169 TABLA 8 .- DISTRIBUCIN DE CLUSTERS COMPLETE LINK DE DOCUMENTOS RELEVANTES, CORPUS NPL. ... 170 TABLA 9 .- MEDICIN DE PRECISIN PARA 11 PUNTOS DE COBERTURA, 93 QUERIES DE LA COLECCIN NPL. ............................................................................................................................................................... 173 TABLA 10 .- RESULTADOS CON QUERIES FICTICIAS FORMULADAS CON PALABRAS MS FRECUENTES EN
DOCUMENTOS RELEVANTES. (LMITE SUPERIOR). ................................................................................ 174

TABLA 11 .- RAZN ENTRE MEDIDAS DE PRECISIN BSICAS, Y EL LMITE SUPERIOR. ................................. 175 TABLA 12 .- RESULTADOS DE EXPANSIN PARA DIFERENTE NMERO DE TRMINOS AADIDOS, SELECCIONADOS
AL AZAR. ................................................................................................................................................ 176

TABLA 13 .- PRIMEROS 20 TRMINOS MS ASOCIADOS CON UNO DE LOS DE LA QUERY 4, NPL, SEGN
ANLISIS GLOBAL. .................................................................................................................................. 181

TABLA 14 .- RESULTADOS PARA EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, ANLISIS
GLOBAL. ................................................................................................................................................. 183

TABLA 15 .- RESULTADOS DE EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, ANLISIS GLOBAL. ............................................................................................................................................................... 184 TABLA 16 .- COMPARACIN ENTRE RESULTADOS BSICOS Y EXPANSIN SEGN ANLISIS GLOBAL, PARA
DIFERENTE NMERO DE TRMINOS AADIDOS........................................................................................ 185

TABLA 17 .- RESULTADOS PARA EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, MODELOS
EXTENDIDOS DEL ANLISIS GLOBAL. ...................................................................................................... 187

TABLA 18 .- RESULTADOS DE EXPANSIN SEGN MODELO GLOBAL Y GLOBAL EXTENDIDO, CON SU FUNCIN
PROPIA DE PONDERACIN DE TRMINOS INCLUDOS. .............................................................................. 188

TABLA 19 .- RESULTADOS DE EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, SEGN ANLISIS
LOCAL.

................................................................................................................................................... 193

TABLA 20 .- RESULTADOS DE EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, ANLISIS LOCAL. ............................................................................................................................................................... 194 TABLA 21 .- FRECUENCIA DE TRMINOS EMPLEADOS EN LAS 93 QUERIES, COLECCIN NPL........................... 198 TABLA 22 .- PRIMEROS 10 TRMINOS DEL RANKING SEGN AL ANLISIS GLOBAL ACUMULADO, N=100. ....... 198

TABLA 23 .- PRIMEROS 10 TRMINOS DEL RANKING SEGN ANLISIS GLOBAL ACUMULADO, PARA N=200. ... 199 TABLA 24 .- PRIMEROS 10 TRMINOS DEL RANKING, SEGN ANLISIS GLOBAL ACUMULADO, PARA N=500. .. 199 TABLA 25 .- RESULTADOS DE EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, MTODO
RELATIVIZADO, CORPUS NPL. ................................................................................................................ 211

TABLA 26 .- RESULTADOS DE EXPANSIN CON DIFERENTE NMERO DE TRMINOS AADIDOS, MTODO


RELATIVIZADO, CORPUS NPL. ................................................................................................................ 211

TABLA 27 .- COMPARACIN DEL MTODO RELATIVIZADO CON EL NIVEL BSICO, CORPUS NPL. .................... 212 TABLA 28 .- COMPARACIONES DE LOS MXIMOS OBTENIDOS POR LOS MTODOS ESTUDIADOS Y EL MTODO
PROPUESTO............................................................................................................................................. 212

TABLA 29 .- RESULTADOS DE REFORMULACIN COMBINANDO ANLISIS GLOBAL Y EL MARCO RELATIVIZADOR,


CON DIFERENTE NMERO DE TRMINOS AADIDOS, CORPUS NPL.......................................................... 216

TABLA 30 .- RESULTADOS DE EXPANSIN CON EL MTODO ASOCIACIONISTA PROPUESTO, SIN MARCO


RELATIVIZADOR, CORPUS NPL. .............................................................................................................. 217

TABLA 31 .- RESULTADOS DE EXPERIMENTO CON EL MODELO PROPUESTO, MODALIDAD LTIMA QUERY,


CORPUS NPL. ......................................................................................................................................... 218

TABLA 32 .- RESULTADOS DEL EXPERIMENTO CON MARCO RELATIVIZADOR FORMADO POR 93 QUERIES
ORIGINALES Y 185 PSEUDO-QUERIES (FRASES).................................................................................... 219

TABLA 33 .- RESULTADOS DEL EXPERIMENTO DE FORMACIN DEL MARCO RELATIVIZADOR CON TAN SOLO
LAS185 PSEUDO-QUERIES (FRASES). CORPUS NPL.............................................................................. 220

TABLA 34 .- RESULTADOS DE EXPERIMENTO CON EL MTODO PROPUESTO, CONSTRUCCIN DEL MARCO


RELATIVIZADOR A BASE DE 100 PSEUDO-QUERIES FORMADAS CON PALABRAS SELECCIONADAS AL AZAR.

............................................................................................................................................................... 221 TABLA 35 .- RESULTADOS CON MARCO RELATIVIZADOR FORMADO CON LA PROPIA QUERY. ....................... 221 TABLA 36 .- EXPERIMENTOS DE EXPANSIN CON 150 TRMINOS, VARIANDO EL NMERO DE PSEUDO-QUERIES ( ALEATORIAS ) PARA CONSTRUIR EL MARCO RELATIVIZADOR. .............................................................. 222 TABLA 37 .- EXPANSIONES PARA EL CORPUS CRANFIELD............................................................................ 226 TABLA 38 .- EXPANSIONES PARA EL CORPUS LISA. ........................................................................................ 226 TABLA 39 .- EXPANSIONES PARA EL CORPUS TIME. ....................................................................................... 227 TABLA 40 .- EXPANSIONES PARA EL CORPUS MED. ....................................................................................... 227 TABLA 41 .- COMPARATIVO DE LOS MEJORES RESULTADOS PARA EXPANSIONES CON DIFERENTE NMERO DE
TRMINOS, TRES MTODOS Y LOS CINCO CORPUS.

.................................................................................. 232

TABLA 42.- COMPARATIVO DE LOS PEORES RESULTADOS, TRES MTODOS Y CINCO CORPUS........................... 234 TABLA 43 .- COMPARATIVO TRES MTODOS Y CINCO CORPUS, LA MEJOR OPCIN DE CADA MTODO Y
SIGNIFICANCIA DE LOS RESULTADOS. ..................................................................................................... 235

TABLA 44 .- ESTADSTICAS RELACIONADAS CON EL MARCO RELATIVIZADOR, PARA LOS CINCO CORPUS ........ 237 TABLA 45 .- RESULTADOS PARA CORPUS COMBINADO NPL+MED+CRANFIELD ....................................... 238 TABLA 46 .- VARIACIONES DE ALFA Y BETA PARA CORPUS MED Y LISA, INCLUYENDO NIVEL 0 DE COBERTURA
Y EXCLUYNDOLO, SE MUESTRAN PORCENTAJES DE DIFERENCIA RESPECTO A BASE. ............................. 240

10

TABLA 47 .- VARIACIONES DE MU.................................................................................................................... 243 TABLA 48 .- VARIACIONES DEL UMBRAL DE ACEPTACIN. .............................................................................. 244

11

NDICE DE GRFICAS
GRFICA 1 .- COMPARACIN DE RESULTADOS DE REFORMULACIN CON DIFERENTES MTODOS, INCLUYENDO
EL NIVEL 0 DE RECALL. ........................................................................................................................... 196

GRFICA 2 .- COMPARACIN DE RESULTADOS DE REFORMULACIN CON DIFERENTES MTODOS, EXCLUYENDO


EL NIVEL 0 DE RECALL. ........................................................................................................................... 197

GRFICA 3 .- COMPARACIN DE LOS MTODOS, INCLUYENDO NIVEL 0 DE RECALL......................................... 213 GRFICA 4 .- COMPARACIN DE LOS MTODOS, EXCLUYENDO EL NIVEL 0 DE RECALL. .................................. 213 GRFICA 5 .- PERFILES DE RECALL-PRECISION DE RESULTADOS SIN EXPANSIN Y CON EXPANSIONES AL AZAR,
LMITE SUPERIOR, ANLISIS GLOBAL, LOCAL Y RELATIVIZADO............................................................... 214

GRFICA 6 MODALIDADES DE CONSTRUCCIN DEL MARCO RELATIVIZADOR. ................................................ 223 GRFICA 7 CORPUS CRANFIELD INCLUYENDO RECALL 0. ........................................................................... 228 GRFICA 8 CORPUS CRANFIELD EXCLUYENDO RECALL 0. .......................................................................... 228 GRFICA 9 CORPUS LISA INCLUYENDO RECALL 0.......................................................................................... 229 GRFICA 10 CORPUS LISA EXCLUYENDO RECALL 0....................................................................................... 229 GRFICA 11 CORPUS TIME INCLUYENDO RECALL 0....................................................................................... 230 GRFICA 12 CORPUS TIME EXCLUYENDO RECALL 0. ..................................................................................... 230 GRFICA 13 CORPUS MED INCLUYENDO RECALL 0........................................................................................ 231 GRFICA 14 CORPUS MED EXCLUYENDO RECALL 0....................................................................................... 231 GRFICA 15 VARIACIN DE ALFA Y BETA, PERFILES DE RECALL-PRECISIN PARA EL CORPUS MED. .............. 241 GRFICA 16 VARIACIN DE ALFA Y BETA, PERFILES DE RECALL-PRECISIN, CORPUS LISA. .......................... 241 GRFICA 17 DIFERENCIAS DE PRECISIN PROMEDIO INCLUYENDO Y EXCLUYENDO RECALL 0, EXPANSIONES DE 150 TRMINOS, VARIANDO ALFA Y BETA. ............................................................................................... 242 GRFICA 18 VARIACIONES DE MU, EXPANSIONES DE 150 TRMINOS. ............................................................. 243 GRFICA 19 VARIACIONES DEL UMBRAL DE ACEPTACIN. .............................................................................. 244

12

INTRODUCCIN.
Es sorprendentemente fcil preguntar cosas ms o menos embarazosas...

Friederich Waissman.

Nuestro trabajo corresponde al mbito de la reformulacin de las peticiones que los usuarios hacen ante un sistema localizador de contenidos informativos, dentro del rea ms general que se conoce como Recuperacin de Informacin (RI), o en ingls: Information Retrieval (IR). Puede decirse que la nocin sobre la que se han desarrollado las tcnicas a que nos referiremos, parten del supuesto, que ocasionalmente ha sido poco valorado, de que un usuario no necesariamente: A) Sabe lo que quiere encontrar. B) Sabe expresar lo que quiere encontrar. Como se podr ver, existen muchos obstculos para que una persona pueda configurar una peticin de informacin ( query en ingls, que es el trmino que emplearemos exhaustivamente en este trabajo, como es usual en el mbito de la Recuperacin de Informacin ), de modo que algn modelo resulte muy eficaz en utilizar esa configuracin y obtenga los mejores resultados posibles. Conviene sealar que la motivacin original para elegir el mbito de este trabajo de investigacin, ha sido la participacin del Grupo de Validacin y Aplicaciones Industriales, en el proyecto ESPRIT IV P29158 Flexible knowledgebased information access and navigation multimodal input-output, FLEX, dentro de la cual se colabor durante la estancia del doctorando en la Facultad de Informtica de la Universidad Politcnica de Madrid, gracias al apoyo del Instituto Politcnico Nacional de Mxico.

13

El documento incluye una descripcin del estado del arte, la propuesta, la experimentacin y el anlisis, de acuerdo con la siguiente distribucin: El captulo 1 comprende la descripcin de los modelos bsicos para mquinas de bsqueda, especialmente el Vector Space Model, que emplearemos en nuestros planteamientos. Dedicaremos el captulo 2 a describir la familia de modelos basados en tratamiento probabilstico, sin los cuales no podra quedar completo el panorama bsico. El captulo 3, incluye una revisin de conceptos provenientes tanto de la lingstica general, computacional, de filosofa del lenguaje y del marco general de Inteligencia Artificial, que estn relacionados con los problemas de identificacin de objetos mediante el lenguaje, y de las relaciones que existen entre los elementos de la lengua. En el captulo 4, describimos la idea asociacionista desde puntos de vista distintos formalmente a los planteados en el captulo anterior, y que constituyen el marco general en que se trabaja para la reformulacin de las queries en funcin de las relaciones asociacionistas entre palabras y entre conceptos. En l se revisan algunos de los modelos de reciente desarrollo, que esencialmente responden a la hiptesis asociacionista, incluyendo Latent Semantic Index, Generalized Vector Space Model y otros. El captulo 5 incluye una revisin de los conceptos de relevancia y evaluacin, que son importantes en todo trabajo del mbito de RI, y el de contexto que hemos pretendido que sea un factor importante en nuestra propuesta. El 6to. Captulo contiene una exploracin detallada, terica y experimental, de los modelos de expansin de queries que tendremos como referentes: el basado en anlisis global, y el orientado al anlisis local de contexto. Con objeto de poder comparar estos mtodos con el que nosotros proponemos, hemos creado una base comn, en la que las propiedades que puedan independizarse de cada mtodo en s, sean homogneas para todos ellos.

14

En el captulo 7 desarrollamos la descripcin de nuestra propuesta, y presentamos la experimentacin, el anlisis, las conclusiones y las perspectivas que de los resultados se derivan. Nuestro trabajo plantea una aportacin en cuanto a las propiedades de un mtodo asociacionista que se emplea para expandir queries, especialmente su estabilidad en funcin del nmero de trminos a aadir a cada query, estabilidad que se encuentra relacionada con una forma de contextualizar el anlisis de las relaciones asociativas, o como decimos en esta tesis, de relativizarlo. Existe una extensa literatura en idioma ingls en relacin con el mbito de investigacin sobre la Recuperacin de Informacin, y es comn que incluso en algunos textos en castellano se utilicen denotaciones en dicho idioma. Al final de este documento, incluimos un breve glosario de los nombres que emplearemos en castellano, correspondientes a esas denominaciones inglesas muy usuales. Por otra parte, hemos incluido como anexo, un esquema en el que se han situado algunas de las principales tcnicas y mtodos de los que hablaremos en este trabajo. En los momentos en que resulte oportuno, se harn referencias a dicho mapa de tecnologas, con propsito de aclarar alguna proposicin hecha en el texto. A dicho anexo, denominado Esquema de relaciones entre diversos mbitos de investigacin en Recuperacin de Informacin, nos referiremos como el esquema general. Hemos abordado este trabajo de investigacin, de un problema considerado de alta complejidad, con la idea de que para este tipo de situacin conviene un enfoque interdisciplinario. Al final de nuestro trabajo, seguimos pensando de esa manera.

CAPTULO 1 REPRESENTACIONES VECTORIALES EN LA RECUPERACIN DE INFORMACIN.


Iniciaremos nuestro trabajo haciendo una revisin de los planteamientos realizados en el mbito de las disciplinas informticas y computacionales, sobre el problema de localizar eficientemente informacin sobre textos completos, por medio de la operacin de modelos basados en representaciones de los contenidos. Desde 1950, en que se le atribuye a Cavin Mooers la invencin del nombre Information Retrieval (IR) o Recuperacin de Informacin (RI), asociado a mtodos o procedimientos automatizados de bsqueda de informacin, se han desarrollado un nmero de modelos de los cuales incluimos aqu los que de un modo u otro, se relacionan en mayor medida con nuestro inters de investigacin.

1.1 Las ideas bsicas.Los modelos que trataremos, emplean una forma de representar a las queries y a los documentos de que consta una coleccin. Una forma muy elemental de hacer tal representacin, consiste en asociar con cada documento o query, un vector con una posicin o dimensin, por cada palabra o trmino que exista en un diccionario, el cual a su vez ser una lista de todas las palabras o trminos que existen en toda la coleccin, que aparecen en al menos un documento o en una query. Las citadas posiciones tomaran valores en el conjunto {0,1}, 1 si el trmino ocurre en el documento (o query) y 0 en caso contrario. Tmese nota desde aqu, de que la primera cosa que tendra que definirse es que clase de entidades deberan incluirse como entradas del diccionario. Por el momento hablaremos de palabras o trminos, de acuerdo con la nocin comn que suele asumirse para tales conceptos, incluyendo a las de todas las categoras gramaticales de los lenguajes o idiomas en que se encuentre escrita la coleccin. Ms adelante, en la seccin 1.2.1, aclararemos esta nocin y nos referiremos exclusivamente a trminos.

16

Dada la mencionada lgica de representacin, construir un modelo exige incluir alguna clase de operacin que estableciese relaciones y definiese el proceso de bsqueda. El ms bsico de dichos modelos es el que se conoce como modelo Booleano. En este se requerira que en la query adems de especificarse un conjunto de trminos que buscar, estos se encontrasen vinculados por alguno de los siguientes tres operadores: NOT ti : no el trmino i, generalmente representndose mediante ti. ti AND tj : el trmino i y el trmino j, generalmente representndose titj. ti OR tj : el trmino i o el trmino j ( OR no excluyente ), generalmente representndose titj. El modelo Booleano es simple: consiste en identificar el conjunto de trminos de una query, el conjunto de trminos de los documentos, y comprobar si de acuerdo con los operadores que se hayan especificado en la query, algunos documentos cumplen con tales condiciones, cosa que puede instrumentarse creando representaciones en forma normal conjuntiva, que a su vez forman una disyuncin, por ejemplo, la query denominada q1, que contiene a los trminos t1,t2,t3,t4:
q i = (t 1 t 2 ) (t 3 t 4

Se representara por :

DNFqi = {(1,1,0,0) (1,1,1,0) (1,1,0,1) (1,1,1,1) (0,0,1,0) (0,1,1,0) (1,0,1,0)}


Donde DNFq1 significa Forma normal disyuntiva de la query q1, cada conjunto de nmeros del conjunto {0,1} entre parntesis, es uno de los posibles modelos de cumplimiento de la expresin general de q1, y en cada uno de ellos el primer elemento expresa la presencia del trmino t1 si dicho elemento es un 1 y su ausencia si es un 0, y as sucesivamente para los dems trminos.

17

De esta manera si los trminos contenidos en algn documento tuviesen una representacin normal conjuntiva que coincidiese con cualquiera de las anteriores, el documento sera relevante. ste es un modelo que tuvo mucha utilizacin, pero que ha ido siendo menos empleado cada vez, dado que es ms limitado que los otros que veremos, dado el hecho de que en dicho modelo se trata de establecer una particin estricta entre documentos relevantes y no relevantes para una query especfica, de modo que no genera un ordenamiento o ranking segn el grado de relevancia. El modelo tiene una extensin que permite establecer dicho ordenamiento o ranking. Supongamos que lo que se especifica en una query es la bsqueda de un documento en el que deben ocurrir los trminos a AND b: No es igual de insatisfactorio que dicho documento contenga solo a, a que no contenga ni a ni b. Entonces la idea es medir la distancia que separa a la representacin del documento, de cualquiera de dos puntos, aquel en que ni a ni b, es decir, un punto (0,0), de manera que mientras mayor sea esta distancia ser ms satisfactorio el documento para una pareja vinculada mediante el operador OR, o en el otro caso, la distancia que separa a la representacin del documento respecto a un punto (1,1), que sera un a AND b ideal, y mientras menor sea sta, mejor ser el documento desde el punto de vista de dicha pareja vinculada mediante un operador AND.
1

La nocin del modelo Booleano extendido requiere que las representaciones de los trminos, ya no sean binarias, sino que se ponderen de acuerdo con algn criterio, comnmente uno derivado de la frecuencia con que ocurre un trmino, y que se especifique una funcin para medir la distancia, por ejemplo , sea: Sim(q
AND,

dj), la pretendida medicin de la distancia entre la query q y un

documento cualquiera dj, desde el punto de vista de un operador and y; Sim(q


OR

dj), la pretendida medicin de la distancia entre la query q y un

documento cualquiera dj, desde el punto de vista de un operador OR, y;

18

Wi,j, el ponderador de la presencia del trmino i ( uno de los m trminos contenidos en la query q), que como ya se dijo, se derivara de la frecuencia de aparicin del trmino en cuestin en el documento dj. Entonces, las similitudes mencionadas podran calcularse de las siguientes maneras:

sim q AND , d j

1 w1, j = 1

) + (1 w )
p 2, j

L + 1 wm , j

sim q OR , d

w 1, j =

+ w 2, j L + w m , j
p

1 p

Es decir, se utilizaran las p-normas que dependiendo del valor de p que se elija, acercarn ms o menos los resultados a los operadores booleanos originales, o en un extremo, cuando p tiende a infinito, con los operadores estndar de lgica borrosa. Existe otra posibilidad dentro de los lmites de la representacin a base de variables binarias, buscando que el proceso de localizacin genere no una clasificacin ntida entre documentos relevantes y no relevantes, sino un ordenamiento o ranking de acuerdo al grado de relevancia. Si como ya dijimos a cada documento le fuera asociado un vector, con tantas posiciones o elementos, como trminos se hayan detectado en la coleccin, de manera que al elemento correspondiente a un trmino, se le asignar un 1 si el trmino aparece en el documento, sin importar cuntas veces esto haya ocurrido, y un 0 si el trmino no aparece ni una sola vez en el documento, esto podra denotarse as :

v d = (

1, d

2 ,d

m ,d

i ,d =

1 si el trmino i aparece en el documento d 0 en otro caso.

19

Una query podra representarse por un vector del mismo tipo, de manera que la bsqueda de documentos adecuados para una query, se podra realizar mediante una evaluacin de alguna clase de semejanza entre los dos vectores, y no solamente por la coincidencia exacta. Si el nico criterio para incluir un documento en la respuesta a una peticin fuese que dicho documento contuviese todos los trminos de la query, es posible que esta respuesta fuese muy pobre. Por ello se desarrollaron diversos ndices de semejanza, en los que se trata de contabilizar las coincidencias y las divergencias entre el vector de la query y los de los documentos, de una manera menos estricta. Algunos de estos ndices se refieren a conjuntos de los trminos que s ocurrieron en el documento con el que se desea comparar la query, por ejemplo, sean : cvq.- conjunto de los trminos que estn presentes en la query q y; cvd.- conjunto de los trminos que estn presentes en el documento d. Podran calcularse los siguientes ndices de coincidencia:
3

sim

DICE

2 cv q cv cv q + cv
d

sim

COSINE

cv

q q

cv

d d

cv

cv

donde |a| denota a la cardinalidad o nmero de miembros del conjunto a. En estos ndices, se compara el nmero de trminos que efectivamente ocurren en la query q y en el documento d, es decir, la cardinalidad del conjunto interseccin de ambos conjuntos de trminos, entre la suma del nmero de trminos en una y el otro, para el caso del ndice de Dice, y de la raz cuadrada del producto en el caso del ndice basado en el coseno. Si, por poner un caso, en una

20

query y un documento, apareciesen el mismo nmero de trminos, digamos 10, y fuese idntico el contenido de ambos conjuntos, el resultado del clculo sera 1. Estos dos ndices o coeficientes de semejanza, generan nmeros entre 0 y 1, es decir, normalizan la medicin de las coincidencias entre los correspondientes conjuntos de trminos. O bien el uso de estos ndices permitiran construir un ranking u ordenamiento de los documentos seleccionados o bien se requerira adicionalmente especificar un umbral que sealara un nivel satisfactorio de semejanza que tendra que igualarse o sobrepasarse para aceptar cierto documento como uno de los que formaran parte de la lista con que se respondera a una query. Sin embargo, esta clase de modelos no toma en cuenta entre otras cosas, el nmero de veces que cada trmino ocurre en cada documento, ni el posible poder discriminador que cada trmino podra tener en toda la coleccin.

No obstante que este modelo basado en la semejanza de conjuntos de trminos tiene las desventajas que ya se mencionaron, tiene la virtud de ser sencillo, requerir relativamente poco procesamiento, y permitir que en las queries se especifiquen operadores booleanos, es decir, pueden aadirse condiciones adicionales a las que establezca un coeficiente de semejanza, para que los documentos que se obtengan como respuesta a una query, tengan que cumplir con que necesariamente se encuentren en ellos los trminos t1 y t2, o que necesariamente no se encuentre el trmino t3. Ms adelante regresaremos a planteamientos basados en la idea booleana ( Seccin 2.2 ), pero por ahora exploraremos el esquema basado en la frecuencia con la que ocurren algunos trminos.

1.2 El Vector Space Model y los trminos.Como ya habamos comentado antes, podra pensarse en abordar el problema de la identificacin de contenidos tanto de las queries como de los materiales que constituyen el acervo o almacn de informacin para fines de localizacin, sin considerar las condiciones lingsticas y filosficas que ms adelante revisaremos ( Cap. 3 ). De hecho esta forma muy prctica de plantear la situacin, ya estaba presente de alguna forma en los enfoques tradicionales para establecer y mantener un orden en bibliotecas, y para localizar las obras all acumuladas. Una de las ideas bsicas en este sentido, es la que modernamente se conoce como la hiptesis de la agrupacin o en su versin inglesa, la cluster hypotesis, que se identifica mediante el lema :

documentos que tienen una fuerte asociacin entre s, tienden a satisfacer a las mismas queries.

Que es una manera de decir dos cosas :

a) que algunos documentos se parecen entre s ms que otros y;

b) que existe una relacin entre el contenido al que se refiere alguna query que se le pueda presentar a un agenteI localizador, y las agrupaciones, clusters o como se les denomine a ciertos subconjuntos de documentos o textos de la coleccin, relacin cuya naturaleza podra a su vez asociarse

Usamos aqu la palabra agente en su acepcin general, y no en el uso especializado que se le ha dado en informtica.

22

con la nocin de que los documentos contienen informacin acerca de algn o algunos tpicos.

1.2.1 Discriminacin frecuentista.


En los procedimientos tradicionales de clasificacin, cada documento sera ledo por seres humanos con cierto entrenamiento, de manera que a cada uno de dichos documentos le seran asignadas por la persona en cuestin, una serie de palabras clave o keywords que identificaran lo principal del contenido, y que permitiran ubicarlo dentro de una estructura temtica. Este tipo de procedimientos podra ponderar las palabras clave, de acuerdo con algn nmero de criterios, por ejemplo, que tales palabras apareciesen en partes relevantes como el ttulo o subttulos de la obra, que apareciesen en el resumen, etc. En el caso de las bibliotecas, el mecanismo tendra adems la posibilidad de emplear trminos distinguidos del documento ( en este caso preponderantemente libros ), por ejemplo el nombre del o los autores, el ttulo en s mismo y otrosII. Las mismas nociones han estado de un modo o de otro en el desarrollo de tcnicas de Recuperacin de Informacin (RI), con las adecuaciones y modalidades que resultan necesarias por las caractersticas de los medios de procesamiento electrnico de datos, particularmente por el hecho de que ningn software logra imitar adecuadamente las habilidades del bibliotecario humano. En esencia habra que crear alguna clase de representacin del contenido de los documentos, que en principio seran las keywords, es decir, habra que asumir que algn grupo de palabras, generalmente ms breve que el documento en s mismo, adecuadamente representan el contenido total. Un proceso automatizado de localizacin de documentos seguramente sera muy exacto, si los posibles usuarios tuvieran el mismo entrenamiento que el bibliotecario, de manera que pudieran plantear sus solicitudes de localizar tal o

II

Salton los denomina objective identifiers, en Gerard Salton .- Automatic text processing, the transformation, analysis and retrieval of information by computer, p 63, Addison Wesley, Boston, EEUU, 1989.

23

cual libro, primeramente de acuerdo con los datos ms fuertes, el ttulo, el autor, la fecha de edicin, etc, pero si esto no fuese suficiente, por ejemplo cuando alguno de nosotros quisiramos encontrar un libro que trate acerca de algn tpico, y no tenemos identificado a un autor u obra especficos, entonces podramos calcular, con base en nuestro conocimiento sobre tal procedimiento, las palabras clave que deberan ser asignadas a un libro como el que deseamos encontrar, y de acuerdo con tales palabras, determinar la ubicacin que debera tener. En este caso, el usuario estara creando una representacin, muy fiel por cierto, de su posible query, usando una estrategia anloga a la que se conoce en informtica con el nombre de funcin hashingIII ( estas ideas se muestran en la regin inferior izquierda del esquema general ). Lo que hemos descrito sera la situacin ms simplificada posible: involucrara la creacin de representaciones del contenido ( y podra pensarse que de los significados ) tanto de los materiales en los que se encuentran los contenidos informativos, como tambin de las queries, y el proceso de bsqueda se reducira a empatar ambas representaciones. Los procedimientos automatizados, han recurrido a representar los

contenidos de los documentos, en principio mediante trminos que no son otra cosa que palabras o partes de ellas que se presentan en el cuerpo del documento, palabras que por algunas razones se consideran importantes. Los procedimientos para seleccionar estas palabras tienen en comn varias cosas :

a) Tratan de eliminar las palabras menos tiles y mantener las que lo son ms para la localizacin, es decir, se buscan las ms discriminantes y

b) En general se basan en la cantidad de veces que ocurre cada palabra ( o parte de ella ) en los documentos.

III

La realidad es bastante distinta, como lo comenta Robert R. Korfhage, Information

24

En efecto, las tecnologas automatizadas para la localizacin sobre grandes corpus de textos, han permitido explorar nociones sobre la frecuencia con que se utilizan algunas palabras en el texto escrito, que frecuentemente se interpretan como consecuencias de la ley conocida como de Zipf : algunas palabras, dada su funcin en el lenguaje, aparecen con mucha mayor frecuencia que otras, y tienden a aparecer en cualquier documento en relacin directa al tamao de ste, es decir, tienden a tener la misma frecuencia relativa, tal es el caso de palabras clasificadas gramaticalmente como artculos, preposiciones y adverbios. Esto ha estado en la base de muchos de los modelos de Recuperacin de Informacin desde que Luhn analiz el fenmeno. Adems de las anteriores, existiran en los documentos muchas palabras que tambin tienden a aparecer indiscriminada y frecuentemente, y que como las ya sealadas, pueden eliminarse del anlisis considerando que no son candidatas a representar eficientemente algn documento. Todas las que son poco tiles podran conformar una lista o diccionario de excepciones ( en la literatura inglesa se les denomina comnmente stop words). Qu pasa con las dems palabras ? Lo que podra esperarse : que unas son muy frecuentes y otras menos, y as hasta que aparece un enorme nmero de palabras que ocurre en un pequesimo nmero de veces. Asimismo, algunas palabras se distribuyen ampliamente entre los documentos, en tanto que otras se concentran en algunos pocos. Debe hacerse aqu una observacin: los sistemas de Recuperacin de Informacin comnmente no trabajan sobre muestras o formas de palabras en s. Considerando que las palabras son rasgos que se usarn para organizar o indexar como suele decirse, a los documentos, se desarroll un segundo mecanismo de clasificacin de las palabrasIV, esta ocasin con orientacin hacia los fenmenos propios de la morfologa. Bsicamente la idea ha sido aprovechar que
5 4

storage and retrieval, p105, ed. John Wiley, Nueva York, 1997. IV El primer mecanismo es el que discriminara a las stop words.

25

en un alto porcentaje de ocasiones, el valor de una palabra para fines de localizacin es equivalente al de muchas de sus formas flexionadas o derivadas. As, para los propsitos de una mquina de bsqueda, resultara equivalente que en un documento apareciese el verbo amar en cualquiera de sus declinaciones ( amaba, amara, aman ), o el sustantivo casa con diferentes sufijos: casita, casona, etc. Consecuentemente, se buscara crear una clase por cada forma bsica de la palabra, eliminando sufijos, y eventualmente algunos prefijos. Realizar este proceso, que se conoce en ingls como stemming que podramos denominar en espaol desafijacin, requiere un diccionario de sufijos y un algoritmo que puede ser ms o menos sofisticado, pero que es difcil que resuelva la totalidad de los casos en un tiempo asequible, dada la enorme variedad de fenmenos morfolgicos que existen en los lenguajes naturales. Por ejemplo en nuestro idioma tesis no es un plural y adems no sirve de mucho quitarle la s final porque es raro que se empleen resultados de la flexin sobre ella. Como quiera que sea, esta idea de que las formas bsicas son eficientes para representar a las palabras se supone que funciona bastante bien . De aqu en adelante emplearemos la denominacin trmino para referirnos a las formas bsicas que resultan del mencionado procedimiento de desafijacin. Habiendo contabilizado la frecuencia de dichos trminos tanto en total como en cada documento, podran experimentarse diversas iniciativas, que en resumen tienen que ver con :
6

a) La manera como cada uno de los trminos se distribuyen en la coleccin de documentos, es decir, si cada uno de ellos presenta tendencia a aparecer en todos, muchos o unos pocos de los documentos;

b) La suposicin de que cada uno de los trminos es estadsticamente independiente de cualquier otro trmino.

26

Ambas ideas no son igualmente sensatas si se considera que por una parte un trmino en efecto ser ms significativo como elemento de discriminacin, en la medida en que sea menos comn, es decir, menos equitativamente distribuido, y que por la otra, podra hipotetizarse que cuando algunos documentos se refieren a cierto asunto o tema, tienden a contener algn grupo comn de palabras ( y por ende, de trminos ) con lo cual la probabilidad de que un trmino aparezca en un documento, cambia cuando se conoce que otro trmino de aquellos que suelen estar relacionados por el tema del documento, ocurre en dicho texto. ( vase regin inferior izquierda e inferior central del esquema general ). En este punto, conviene examinar una de las nociones que hemos mencionado, pero que no podemos definir: la existencia del tpico.- En efecto, una forma natural de pensar respecto a una coleccin de textos, documentos, etc, se basa en la nocin de tpicos, temas, etc. y es asimismo natural para un ser humano afirmar que tal documento o texto, es de tal tema o es acerca de tal tpico, o que se refiere a tales o cuales asuntos. Los temas, asuntos, tpicos, dominios o contextos, son objetos que se pueden definir como una funcin de la frecuencia con que se usan ciertos trminos, en los textos ? Esta es la pregunta, cuya naturaleza ha sido considerada bsicamente emprica, y que muchos de los enfoques basados en la representacin vectorial de frecuencias que estamos explorando, trata de responder ( volveremos a tratar el tema de la topicalidad en la seccin 5.1 ). Examinemos la naturaleza de algunas de estas respuestas.

1.2.2 Semejanza vectorial.


Organizar los recuentos de ocurrencia de trminos en documentos, formando una matriz cuyas columnas correspondiesen con los trminos y cuyas filas lo hiciesen con los documentos, puede permitir calcular ndices de semejanza entre documentos, de asociacin, co-ocurrencia, similaridad semntica entre trminos, e incluso la posibilidad de construir un thesaurus que refleje el uso de los trminos en la coleccin. Considrense las siguientes convenciones de representacin : N = Nmero de documentos en la coleccin.

27

M = Nmero de trminos distintos, presentes en la coleccin. ti = El trmino i, i=1,2,....M. dj = El documento j, j=1,2,....N. fij = Frecuencia absoluta del trmino i en el documento j, nmero de veces que dicho trmino ocurre en el mencionado documento. Habindose contado las ocurrencias de los trminos en todos los documentos de la coleccin, es decir, una vez que se conocen todas las frecuencias, se pueden construir arreglos ordenados de dichos nmeros, es decir, vectores que, convengamos que hagan corresponder a filas con los trminos, y a columnas con documentos : documentos trminos d1 T1 . tj tM fm2 fij fMN f11 d2 f12 dj . dN

De la anterior tabla, se podra seleccionar un vector fila, que correspondera a la identificacin de un trmino, sea por ejemplo: vti = vector que representa al trmino i del diccionario ( un vector rengln ),

vt = f , f , K f i , N i i ,1 i , 2
Como tambin podra abstraerse una sola columna de la tabla, es decir, la representacin vectorial de un documento, por ejemplo: vdj = vector que representa al documento j de la coleccin ( vector columna ),

vd T = f , f ,K f 1, j 2 , j j M , j

28

Entonces, podramos ensayar la medicin de similitudes o semejanzas entre dos de estos vectores ( vase figura 1 ). La forma clsica de medir tal semejanza es la determinacin del coseno del ngulo que forman los dos vectores que se quieren comparar (por ejemplo los vectores vta y vtb). Las correspondientes expresiones en el caso de vectores que representan trminos son :

sim(vt a , vtb ) = cos(vt a , vtb ) =

(vt
N j =1

a, j

vtb , j
N

)
LLLL (1)
2 b, j

vt
j =1

2 a, j

vt
J =1

Expresin en la cual se est calculando un ndice de similitud o semejanza de los vectores correspondientes a los trminos a y b, cada uno de los cuales contienen N componentes o frecuencias. Esta expresin se simplifica si se tienen representaciones normales de los vectores, es decir, si se utilizan vectores derivados de los originales, que cumplan con :

vt i = donde :

vt
j =1

2 i, j

=1

vt i = magnitud

del vector

vt i

Ya que as, es evidente que el coseno es simplemente el producto interno de los dos vectores, es decir:

sim (vt a , vt b ) = cos (vt a , vt b ) =

vt
j =1

a, j

vt b , j = vt a vt b

29

Tokens o palabras irrelevantes, ya sea que pertenezcan a la lista de excepciones, o que por su frecuencia no interesen para la indexacin.

Contabilizacin de los trminos que se consideran tiles para la indexacin. Matriz de frecuencias absolutas

x
d
d

t1,d t2,d t 3,d M t n,d

t 1 ,1 t 1 , 2 L t 1 , m t 2 ,1 t 2 , 2 L t 2 , m t 3 ,1 M t n ,1 L L t n , m

t3

t2

x
1

Conceptos bsicos del vector space model.- A cada documento se le representa por un vector que contiene o las frecuencias o alguna funcin de las frecuencias de cada trmino en cada documento. Con dichos vectores se forma una matriz cuya analoga geomtrica es til para imaginar el proceso.

pero s es de las ms usuales tanto porque su interpretacin es bastante clara

figura 1 .- Conceptos bsicos del "Vector Space Model".

Esta no es, desde luego la nica forma de medir cercana, semejanza, etc;

30

como porque su clculo es ms o menos fcilV. Esta medida de similitud, aplicada a los vectores que representan a los trminos, indica que si dos de ellos, coinciden en ser utilizados aproximadamente con la misma frecuencia , en los mismos documentos, tanto en el sentido en que en algunos de ellos aparecen mucho, como que en otros se ausentan sistemticamente, todo esto es evidencia de que ambos trminos tienen una asociacin semntica. Como venamos diciendo, esta idea adolece de representar el efecto que puede tener el tamao de los distintos documentos, ya que no todos ellos tienen la misma extensin y por ello algunos trminos pueden tener frecuencias similares pero distintos perfiles dentro de los diversos documentos. Esto puede tambin ser visto como que un documento que contiene muchos trminos de manera ms o menos uniformemente distribuida, es menos til para configurar las caractersticas de los trminos, que uno que contiene relativamente pocos, es decir, un documento en que se habla de todo un poco, es menos buen indicador de las asociaciones semnticas entre trminos, que uno en que parece hablarse de algo ms preciso, con una eleccin de trminos ms sealada. Una idea que se ha empleado mucho, consiste en ponderar o incluso reponderar las semejanzas dndole mayor peso a, en este caso, posiciones de los vectores que correspondan a documentos ms discriminadores de las posibles relaciones semnticas. Por la otra parte se ha explorado la idea de que la representacin de frecuencias, en lugar de ser absoluta, sea relativa, es decir, sea funcin del tamao del documento, y finalmente, que como en general en colecciones muy grandes, estos nmeros relativos son extremadamente pequeos, se utilicen funciones logartmicas que posicionen dichos nmeros en una escala til. De lo anterior se derivan las siguientes expresiones :

w = f itf i, j i, j j
Donde :

Esta medida no carece de defectos, como explican R. O. Duda y P. E. Hart en Pattern Classification and scene analysis, ed. John Wiley & sons, 1973.

31

M log usod siempre que usod j > 0; itf j = j 0 en cualquier otro caso.
En esta expresin: itfj = inverse term frequency, o frecuencia inversa de los trminos empleados en el documento j, como pudo verse, se calcula en base al nmero total de trminos existentes en la coleccin, es decir M, y del nmero de trminos distintos que ocurren en el documento j, que se ha denotado por usodj. Por otra parte, se emplea una funcin de la frecuencia absoluta de los trminos en el documento j, denotada por , con la cual se busca representar una intensidad relativa de la presencia de un trmino en relacin con el tamao del documento. Se han utilizado diferentes funciones de este tipo, por ejemplo :

( f i, j ) =

fi, j

f
i =1

i, j

O tambin puede ser :

( f i, j ) =

mx f i , j , para j = 1,2K N

f i, j

O incluso, simplemente :

( f

0 si f i , j = 0; )= i, j 1 + log( f i , j ) en otro caso.

32

As una expresin como :

w i, j

0 si f i , j = 0 ; = M 1 + log( f i , j ) log usod

Tomara el valor de cero, ya sea que el trmino i no ocurriese en el documento j, o bien si en dicho documento ocurriesen todos los trminos distintos que existen en la coleccin de documentos, es decir, si :

usod j = M
Si el trmino en cuestin ocurriese algn nmero de veces, y en algunas de ellas ocurriese en documentos que discriminan notablemente el uso de los trminos, estos nmeros wij tomarn valores altos. Con valores como estos, se podra reformular la representacin vectorial, de modo que:

vt = i

w , w ,K w i, N i ,1 i ,2

vd T = j

w ,w ,K w 1, j 2 , j M , j

Sobre esta clase de representaciones, se podra aplicar un clculo de semejanza como el expresado en (1, pg. 28), de manera que cada par de vectores fila quedaran comparados. Con los resultados de dichos clculos se escribira una matriz que sera triangular dado que este tipo de criterios de similitud son simtricos, y con unos en la diagonal principal, dado que la relacin es reflexiva:

1 c 2 ,1 1 C = c 3,1 c 3, 2 M c M ,1 L

matriz de M M

33

En esta matriz, los elementos:

r, s

= sim ( vt , vt ) r s

Es decir, los resultados del clculo de similitud de cada par de trminos, permitiran identificar a los trminos que son suficientemente similares como para conjuntarse en uno slo , ya sea porque estn funcionando como casi-sinnimos, o porque al aparecer en los mismos documentos, parecen indicar el tema comn. Habindose evaluado la semejanza entre trminos, ya sea mediante la estrategia mostrada, o mediante algunas otras alternativas, podra pensarse que se consigue algn grado de aproximacin a la identificacin de frases nominales y de nombres propios caractersticos, que son de inters por cuanto son denominaciones de objetos de un dominio o contexto ms preciso que el que puede conformar una coleccin grande de textos. Sin embargo ya sea este mtodo o los otros que existen, que consideran las frecuencias como ndices tiles para calcular probabilidades condicionales, o bien los que se basan en ideas provenientes de la Teora de la Informacin de Shannon, por ejemplo la expected mutual information measure , no son suficientes para ello. Volveremos a esta idea en la Subseccin 4.2.1. En cualquiera de los casos, existir algn o algunos parmetros. Por ejemplo en el mtodo basado en la medicin de semejanzas por clculo del coseno, podra ser necesario decidir en algn momento, cual es el umbral que se debe rebasar para considerar que dos trminos son lo suficientemente semejantes como para utilizar la asociacin entre ellos para fines de conceptualizacin, para reducir el nmero de dimensiones que se manejan, para agrupar los documentos de acuerdo con esa asociacin detectada, etc. Y la decisin respecto al valor de dicho parmetro, no se puede basar en un criterio indiscutible, y por su parte suele haber bastante sensibilidad respecto a dicho parmetro como para que su variacin modifique sustancialmente los resultados.
8 7

34

En el sentido de los vectores columna, que representan a los documentos, la situacin es anloga. Se puede definir una medida de la calidad discriminatoria de los trminos dado su uso en muchos o en pocos documentos, por ejemplo:

log N usot siempre que usot i > 0 Idf = i i 0 en otro caso.

Expresin en la que el ndice Idf i suele conocerse como Inverse document frequency o frecuencia documental inversa, y en ella: Usoti = Nmero de documentos en los que aparece el trmino i, y; N = Nmero total de documentos en la coleccin. Pudindose en consecuencia calcular ponderaciones de la misma naturaleza que las que hemos revisado en el caso de la semejanza de trminos, es decir :

f w = i, j i, j mx f i , j , i = 1, 2 K M

Idf i

Donde Wi,j es el ponderador del trmino i en el documento j, y sobre este tipo de ponderadores, se puede aplicar el criterio de semejanza del coseno, segn la ecuacin ( 1, pg. 28 ), que ha sido el procedimiento ms frecuentemente empleado, y que es el que se identifica por lo general con el nombre de vector space model (VSM). Estas bases, con las variantes que corresponden al tipo de ponderadores, a la clase de medida de similitud o de distancia, y con la incorporacin de algunas ideas adicionales para detectar asociaciones de trminos, han sido uno de los paradigmas de mayor importancia en el diseo de las mquinas de bsqueda de uso masivo, tanto en grandes bases de datos de texto, por ejemplo el clsico

35
9

sistema SMART , como en la WEB. Una de las caractersticas que tiene un espacio del tipo que se genera mediante estas estrategias es que tiene un nmero normalmente muy grande de dimensiones ( se abundar sobre esto en la seccin 4.1 ), que exige una cantidad importante de clculos, y que la coleccin completa de vectores, es decir, la matriz que describe a la coleccin, es una matriz de las que suele decir que es rala es decir, tiene pocos elementos diferentes de cero, y muchsimos ceros. Para el caso de la bsqueda de los documentos utilizando esta clase de modelos de semejanza en relacin con cada query, se requerira calcular N ( N es el nmero de documentos de la coleccin ) veces la semejanza, para determinar cuales de los documentos quedaran dentro del umbral de cercana establecido, o bien para establecer el ranking u ordenamiento de la semejanza entre ellos y la query ( medida a la que tambin se ha denominado Retrieval Status Value (RSV) ), y esto sera costoso en tiempo de procesamiento y hara que la respuesta en sistemas on-line fuese relativamente lenta. Para hacer ms eficiente el funcionamiento del modelo se ha experimentado entre otras posibilidades, con una instrumentacin directa de la hiptesis de la agrupacin, identificando durante la etapa de creacin de las representaciones vectoriales, conjuntos de los documentos, es decir, clusters. La integracin de dichos conjuntos, puede hacerse siguiendo una de entre una serie de tcnicas, que pretenden cumplir con varios criterios, a saber :

a) Reducir en lo posible la cantidad de procesamiento necesario, tanto al crear los clusters originalmente, como al actualizarlos debido a la adicin de nuevos documentos a la coleccin.

b) Garantizar que el algoritmo no es sensible al orden en que se procesen los documentos.

36

c) Minimizar la necesidad y en su caso amortiguar el efecto de parmetros elegidos externamente al propio algoritmo, que pueden incluir umbrales de semejanza, nmero deseado de integrantes ( promedio, mnimo o mximo ) de cada cluster, o recprocamente, el nmero total de clusters. Por su parte los diseos pueden ser tales que se obtengan clusters excluyentes, es decir, que un documento ( el vector que lo representa ) no pueda quedar incluido en ms de un cluster, o bien que se construya una jerarqua, de manera que exista un cluster que contiene a toda la coleccin, y que a su vez contiene a clusters ms pequeos, y estos a su vez contienen cada uno a clusters ms pequeos, etc. y los clusters de ms bajo nivel, es decir, los ms pequeos del esquema, pueden o no tener elementos comunes entre s . Esta estructuracin de clusters, que se acompaa de una representacin general de cada uno de ellos por un vector que puede ser el resultado de promediar los componentes de los vectores de cada uno de los integrantes del cluster, y al cual suele denominrsele centroide, es un recurso para facilitar las comparaciones durante la bsqueda de documentos semejantes a una query. Por lo que a las queries se refiere, varios de los elementos hasta aqu comentados respecto de la representacin de los documentos, seran igual de vlidos : las palabras empleadas por el usuario en la query podran ser sujetas del proceso de desafijacin para obtener trminos, y como en el caso de los documentos, algunas de las palabras seran prescindibles, aquellas de la lista de excepciones. Las palabras tiles obtenidas de las queries suelen ser muy pocas: La estadstica de uso de mquinas de bsqueda en la WEB es de entre 3 y 4 palabras por query . Una diferencia entre documentos y queries, consiste en que en estas ltimas no tiene mucho sentido un esquema de ponderacin basado en la frecuencia con la que aparece cada palabra en la query, de manera que suele emplearse una expresin como la siguiente :
11 10

37

0.5 f i ,q log N wi , q = 0.5 + mx f l , q usoti


Siendo que generalmente:

f i,q = 1 .
Adems de lo anterior, se ha pensado en la utilidad de ampliar o expandir la representacin de la query. Una de las formas ms sencilla de hacerlo, consisti en aadir los sinnimos de los trminos, que se obtendran de un diccionario ad-hoc, por ejemplo de la base de datos lxica Wordnet
13 12

( para el

idioma ingls ). Esta va no ha tenido buenos resultados . Por otra parte se ha planteado la posibilidad de aprovechar el anlisis de las semejanzas de origen asociacionista, a las cuales les dedicaremos ms estudio en el desarrollo de este trabajo. En ambos casos tanto por los documentos como por las queries, el resultado final sera una representacin, que dependiendo de las elecciones tomadas sera ms o menos precisa, de modo que podramos decir que tratara de significar en mayor o menor medida lo mismo que los contenidos originales o pretendidos por ambas fuentes ( Las ideas se muestran en la regin central del esqema general).

Resumiendo lo hasta aqu visto, tenemos que, en los modelos bsicos: Se adopta al trmino, como unidad bsica de inters. Tanto los trminos como los documentos, han podido ser

representados mediante vectores en espacios adecuados.

38

Los componentes de los vectores, reflejan de alguna u otra manera, la frecuencia de aparicin de los trminos en cada documento y en la coleccin de documentos.

Se han estudiado diversas formas de reflejar la importancia de la frecuencia, relativizndola en funcin del contenido de cada documento y de la coleccin en su conjunto.

Se han propuesto diversas maneras de medir la semejanza entre vectores que representan a cada trmino o a cada documento.

39

CAPTULO 2 DECIDIR CON BASE EN PROBABILIDADES.


Buena parte de lo que hemos explorado en torno a los modelos basados en conjuntos de trminos, como en el vector space, asumen que existe alguna relacin entre la relevancia que finalmente ser juzgada por el usuario, y las medidas de semejanza que se han empleado. Plantearse que a cada query le corresponde un cierto nmero, inicialmente desconocido, de documentos relevantes, constituye la base para desarrollar la clase de los modelos probabilsticos que a continuacin describiremos.

Los modelos probabilsticos, se sostienen en algunos principios tericos interesantes y controvertibles. El primero de ellos es el conocido como principio probabilstico de ordenamiento, que se puede expresar de la siguiente forma :

si la respuesta a una query, es un ranking u ordenamiento de los documentos de la coleccin, en orden decreciente de la probabilidad de que ellos sean relevantes para han el usuario, sido y las probabilidades con la mayor

mencionadas

estimadas

aproximacin posible, de acuerdo con la informacin de que dispone el sistema, dicha respuesta ser ptima14.

2.1 Modelo probabilstico bsico.


Por lo general, el planteamiento en estos modelos tiene que ver con la existencia de un subconjunto de documentos respecto a la coleccin completa,

40

subconjunto que para una query especfica, se forma con los documentos que son relevantes, y siendo esto as, se propone que la presencia de ciertos trminos en un documento dado, significar que las correspondientes posiciones del vector que representa a tal documento, que para este caso, sern binarias y contendrn un 1, influye en la probabilidad de que el documento en cuestin sea relevante y dado el caso debe incorporarse en el mencionado subconjunto. Formalmente :

Pr relevancia d j =

Pr (v d relevancia ) Pr (relevancia ) Pr (v d )

LLL ( 2 )

Donde se ha aplicado la regla de Bayes, en esta expresin : vdj = vector binario que representa al documento j. Y como es usual: Pr(a|b), denota a la probabilidad condicional de a dado que se ha observado b. Adems, como existe la posibilidad de que un documento sea relevante o no lo sea para una query dada:

Pr (v d ) = Pr (v d relevancia ) Pr (relevancia ) + Pr v d relevancia Pr (relevancia )

El clculo de la probabilidad de que algn documento resulte relevante, segn la expresin (2), resulta difcil debido a que no se conocen ni la probabilidad a priori de que cualquier documento aleatoriamente seleccionado sea relevante, porque tampoco se sabe cuantos de los documentos de la coleccin son relevantes para una query dada, y se desconoce cual es la probabilidad condicional de que el documento especfico resulte relevante, an sabiendo que se tiene el subconjunto de los relevantes, o como se expresa en las ecuaciones, que ha ocurrido el evento de relevancia.

41

El modelo bsico considera varios supuestos simplificadores :

a) Que la probabilidad condicional de que dada la relevancia, se elija un documento especfico, resulta de la probabilidad condicional de que dada la relevancia, se observen u ocurran algunos trminos particulares.

b) En muchas de las formas de estos modelos, con el propsito de facilitar los clculos, la relacin entre la probabilidades condicionales relevanciadocumento, y relevancia-trminos del documento, se basan en la independencia ( en el sentido probabilista ) de stos ltimos, de modo que : Sea i una variable binaria que corresponde al trmino i dentro del vector que representa al documento vd. Si se considera que la presencia o ausencia de ciertos trminos en el documento vd, queda determinada por la probabilidad de que exista relevancia, tendremos:

Pr (vd relevancia) = Pr ( i relevancia) Pr ( j relevancia) i SI j NO


O, alternativamente, si denotamos: xi=Pr(i|relevancia) Es decir, que consideramos directamente las probabilidades condicionales de los trminos a la relevancia, en lugar de sus representaciones binarias, y entonces:

Pr(vd relevancia) = xi i

(1 xi )1 i LLL (3)

42

Es decir, que el hecho de que un trmino haya aparecido en un documento, y que hubiese relevancia, contribuye con su propia medida de probabilidad a la de la relevancia del documento en s, y lo mismo ocurre con sus propias probabilidades para los trminos que no han aparecido en el documento en cuestin, y no existe ningn efecto condicional de la aparicin de varios trminos sobre alguno otro en particular. Sin embargo estas probabilidades a priori, no son conocidas tampoco, de manera que se tendrn que estimar de alguna forma, y se interpretan de la siguiente manera: suponiendo que se conoce el conjunto de documentos relevantes para una query, si de entre ellos se selecciona aleatoriamente uno, estas probabilidades son las de que el trmino i, aparezca con valor 1, o con valor 0, respectivamente. Desde luego que como no se conoce el conjunto de documentos relevantes, al decidir elegir o no un documento con base en los trminos que contiene, se puede cometer cualquiera de dos errores.- Seleccionar al documento y que no resulte relevante, o no seleccionarlo y que si sea relevante, de modo que si se desea considerar una funcin de costos derivados de estos posibles errores, se quiere que la probabilidad de acertar sea mayor que la de fallar, es decir :

Pr (relevancia v d ) > Pr (relevancia v d )


Esto puede considerarse un criterio para hacer razonable la decisin de elegir al documento vd como parte de la respuesta a la query de que se trata. Esto a su vez supondra que hay una funcin que para el caso de cada documento establece la igualdad, por ejemplo, una funcin g que multiplica a la probabilidad de no relevancia dado el documento:

Pr (relevancia v d ) = g (v d ) Pr (relevancia v d )
As que, aislando la funcin g, y substituyendo las probabilidades de relevancia y no relevancia por expresiones como (3, pg anterior), y considerando

43

que para no relevancia se sigue el mismo procedimiento que para relevancia, salvo que :

y = Pr = 1 relevancia i i
Entonces se puede escribir:

x (1 y i ) 1 x i Pr( relevancia) g (v d ) = i log i + log + (1 xi ) y i i 1 y i Pr (relevancia) i


En esta ltima expresin15, solamente el primer sumando depende de los valores binarios del vector que representa al documento, de modo que los otros dos se pueden ignorar. Hasta este momento los valores de la probabilidades denotadas yi siguen siendo desconocidas y solamente pueden estimarse, por ejemplo asi:

y i = Pr i = 1 relevancia =

usot i N

En la que usoti es el mismo concepto ya definido en la seccin 1.2.2 pg.34. Para las probabilidades xi, se puede considerar que a falta de informacin que indique que el trmino i tender a aparecer cuando el documento es relevante, entonces se puede suponer que las probabilidades condicionales del tipo xi son iguales para cualquier trmino. Substituyendo tales valores y simplificando las expresiones, el resultado es :

g (v d ) = C i + i log i i

N usot usot i

Donde C es una constante que depende de la que se haya asignado a xi. Si adems se quiere considerar algn efecto de la mayor o menor frecuencia con que efectivamente se presentan los trminos en los documentos, y se asume que existe

44

una medida de la intensidad o seguridad de la asignacin de un 1 al elemento que representa al trmino i en el documento en cuestin, a interpretarse como la probabilidad de dicha asignacin en funcin de la frecuencia relativa :

ntf i , j =

f i, j mx f s , j

Y aadiendo un factor de ajuste para valores bajos de ocurrencia de algn trmino, finalmente se obtiene
16

N usoti g v j = K + (1 K ) ntfi, j C + log usoti i

( )

Esta expresin, se entiende como un indicador de que tanto es mayor la probabilidad de que el documento especfico que se est evaluando, sea relevante para la query de que se trata, as que mientras mayor sea su valor, indicar que el documento debe ser seleccionado para la respuesta, y el valor en s mismo permitira establecer el ordenamiento o ranking a que se refiere el principio mencionado al inicio de este captulo. Es interesante subrayar que esta ltima expresin, tiene un parecido estructural con las que derivan del esquema <tf.idf> que se describi en los modelos del vector space model, y de hecho tanto Brown , como Crestani y van Rijsbergen
17 18

sealan que esta base probabilstica

conduce a un modelo similar al mencionado VSM, y que en todo caso el desarrollo probabilstico tiene fundamentos tericos ms inteligibles. La aplicacin de estas ideas, tendra que pensarse partiendo de que al conocerse una query, se localizaran todos los documentos que contienen al menos uno de los trminos mencionados en dicha query, y a esos documentos se les aplicara la evaluacin. Dado que sta se ha basado en una estimacin muy dbil de las probabilidades de los trminos dada la relevancia, conviene intentar algn medio de fortalecerlas. Uno de tales medios, consiste en aceptar que si de la evaluacin inicial se han seleccionado algunos documentos, los primeros r de ellos

45

sern ms relevantes, y permiten construir un escenario ms informativo respecto a las probabilidades, por ejemplo, sean :

V = Subconjunto de los primeros r documentos en la lista para responder una query dada. Vi = Subconjunto de V, conteniendo los documentos en que ocurre el trmino i.

Vi V
Entonces :

Pr ( i relevancia

)= V

Y:

Pr i relevancia

) = usot VV N
i

Aqu encontraremos por primera vez, la idea de aprovechar los resultados de una bsqueda inicial, y con base en ellos, tratar de mejorar el desempeo en una segunda etapa, idea que ser fructfera en el mbito que nos interesa, en pseudo relevance feedback, y en general en procesos de reformulacin de queries que se discutirn en el captulo 6.

46

2.2 Redes inferenciales.


Las ideas probabilistas, han inspirado un nmero importante de variantes del modelo bsico, al cual se identifica como Binary Independence Retrieval (BIR), en particular resultan interesantes los denominados
19

modelos
20

de

redes

inferenciales, expuestos ampliamente por Turtle

en su tesis doctoral, como un

paso ms respecto a las propuestas formuladas por Khuns, Maron , Robertson y Sparck-Jones21. Una de tales redes es la base del modelo que funciona dentro del muy conocido sistema INQUERY . Una de las caractersticas muy tiles de estos modelos, es que su propia representacin como grafos acclicos dirigidos, facilita la comprensin del fenmeno de Recuperacin de Informacin. Considrese una red en que los nodos son unidades informativas: Los documentos, los trminos, la necesidad informativa del usuario, etc, y los arcos describen dependencias causales. Vase por ejemplo la red de la figura 2. En la figura 2, se representan seis capas de nodos, con la indicacin de una separacin entre las primeras tres y las tres subsecuentes, que se puede interpretar como que se trata de dos redes y no de una sola. Estas capas se detallan a continuacin:
22

Red de documentos: En esta se expresa la informacin que se encuentra en los documentos que forman la coleccin, cuyos nodos y arcos no dependen de que se realice una query o de cual de ellas se le presenta al sistema.d.- Esta es la capa en que se representan como nodos (d1, d2,... dn), los diferentes documentos que forman la coleccin. En principio se representan todos los documentos con todos sus contenidos, que podran incluir sus partes textuales, y sus grficos, sus links si se trata de hipertexto, sus inserciones de audio, video, etc.

47

t.- En esta capa se representan como nodos (t1, t2,... tl), los textos contenidos en los documentos de la coleccin (text representations). Como se ilustra en la figura 2, es posible que dos documentos expresen el mismo texto, por ejemplo si se trata de dos versiones del mismo, etc.

d1

t1

c1

q1 d2 t2

c2 r2 I

d3

t3

c3 r3 q2

d4 c4

r4 d5 t4

Red de documentos

Red de queries

Red inferencial para information retrieval.

figura 2 .- Red Inferencial para Recuperacin de Informacin.

r.- Los nodos de esta capa (r1, r2,... rh), son los trminos u otra clase de representaciones de los contenidos que se encuentren en los textos (concept

48

representations). Los arcos dirigidos a estos nodos desde los nodos de texto, significan que cada texto puede estar vinculado, o verse representado por varios nodos de este tipo. El caso al que hemos prestado ms atencin hasta el momento, es el de un texto representado por varios trminos.

Red de queries: En sta se representa el anlisis que se puede hacer de una necesidad de informacin formulada por un usuario.-

c.- La capa de estos nodos (c1, c2,.... cf) consta de representaciones de conceptos, trminos, palabras, etc que han sido empleados por el usuario en la query o queries que se han presentado al sistema (query concepts), o bien que han sido deducidos por ste en funcin de las palabras que el usuario emple, y que pueden coincidir con uno o con varios de los conceptos que el sistema utiliza para representar a los textos. q.- Esta es una capa en que cada query elaborada por el usuario, se representa por un nodo (q1,q2,....qz) Estas queries son representaciones o bien alternativas o bien complementarias de la necesidad de informacin que anima al usuario a consultar al sistema. I.- Esta ltima capa, formada por un solo nodo I, representa a la necesidad de informacin del usuario. En cada caso, los nodos se interpretan como variables aleatorias que pueden tomar valores en el conjunto {0,1}, y la existencia de un arco dirigido entre nodos expresa, como ya se dijo, una dependencia causal, que tendra que ser tomada en cuenta al evaluar la probabilidad de que la variable del nodo en cuestin, tome el valor 1, probabilidad que tendr naturaleza condicional, sobre el conjunto de los nodos antecesores directos, es decir, vinculados por un slo arco, con el nodo en cuestin.

49

Puede observarse que, de acuerdo a la topologa de estas redes, los nodos de la capa d y en el caso ms usual, los de las capas d, y t, tienen probabilidades que se pueden estimar para cada nodo, y dado que el problema es intratable si se trata de hacer clculo con ms de un documento ( o su texto ), se plantea la obtencin de resultados denominados grados de creencia de que los elementos de cada capa, se deriven de las probabilidades de los elementos de la capa precedente, a partir de que se considere que se ha observado un documento a la vez. En resumen, se trata de calcular el nivel de creencia de que un documento cause, a travs de las sucesivas etapas intermedias, la satisfaccin de la necesidad de contenidos informativos existente, cosa que se identificar con el valor 1 de la variable binaria aleatoria del nodo I. Se aduce que pueden adoptarse una amplia variedad de estrategias tanto para la estimacin de la probabilidad de que se observe algn documento especfico, como para la de que se observe un trmino en particular. Es comn encontrar las siguientes: Capa d.Probabilidad a priori de que un documento sea observado o instanciado, en funcin del nmero total de documentos en la coleccin, es decir:

1 Pr d j = N
Capa t.Suele haber una asociacin de uno a uno, de modo que:

tj =1 d j =1
Capa r.O bien la representacin es binaria, o se utilizan derivados de la frecuencia de aparicin de los trminos, como el ntfi,j, visto en la pgina 44, o el inverse

50

document frequency del documento j, nidfj como se le present en la subseccin 1.2.2, pg 34, e incluso la combinacin :

ntf i , j nidf j
Capa c.Suele, como en el caso de la capa t, considerarse asociacin uno a uno:

c i = 1 ri = 1
Capa q.Nuevamente como en la capa r, o bien se utiliza una representacin binomial, o se utilizan los ndices ntf i,j , nidfj, derivados de las frecuencias.

a1

a2 bi a3

au

Transmisin de evidencia en capas sucesivas

figura 3 .- Transmisin de evidencia en capas sucesivas de una red inferencial.

Ahora, dado que se ha definido algn procedimiento para asignar nmeros que tienen originalmente el carcter de probabilidades en cada nodo, es necesario

51

algn mtodo para transmitirlas a nodos de la siguiente capa, como se ilustra en la figura 3. El mtodo ms sencillo, se basara en una suma, por ejemplo:

Pr a1 + Pr a 2 L + Pr au gcreencia SUM bi = u
Sobre los u nodos de la capa antecedente, o bien en una suma ponderada:

w1 Pr a1 + w2 Pr a 2 L + wu Pr au wbi gcreenciaWSUM bi = w1 + w2 L + wu
Pero en el caso del vnculo entre los nodos de la capa 'r' y la I, dado que podran haberse especificado condiciones booleanas, se podran utilizar tambin:

gcreencia OR bi = 1 1 Pr a1 1 Pr a 2 L 1 Pr a u
gcreencia
AND

bi = Pr a1 Pr a 2 L Pr a u

gcreencia NOT bi = 1 Pr a X

En las anteriores expresiones, las literales a y b representan nodos de capas sucesivas, como se ilustr ( figura 3, pg anterior ): Los operadores descritos, que permiten calcular el grado de creencia que se asocia con un nodo a partir de la evidencia colectada en capas antecesoras, se pueden seleccionar de manera que la red emule ya sea al vector space model, a un modelo probabilstico tipo BIR, o a un modelo Booleano, y en todo caso, a una

52

combinacin de ellos. En efecto, una de las caractersticas notables de esta formulacin del problema, es que propicia la idea de reunir diversas clases de evidencia, digamos la que resulte apropiada o razonable en cualquiera de las capas de la red, y sta es solo un marco para conducir esta evidencia a la conclusin de que se satisface o no la necesidad de informacin. Particularmente en el caso en el que la query incluy al operador NOT, este es ms eficientemente implementado en el esquema de la red inferencial que en el modelo Booleano original23. Otra de las caractersticas interesantes del planteamiento de estas redes, es el reconocimiento que en ellas se hace, de que la asignacin de probabilidades a priori, no puede ser hecha de manera simple y concreta por un usuario, para encadenamientos que a fin de cuentas resultan smamente complejos, como es el caso de que se quiere relacionar condicionalmente la satisfaccin de la necesidad de informacin, con la instanciacin de un documento, ya que en la evaluacin de las probabilidades o grados de creencia se involucran anlisis sobre
24

a) La relacin entre un documento y el texto que contiene.

b) La asignacin de conceptos, trminos o alguna clase de representaciones del contenido del texto.

c) Las relaciones que pueden existir entre las representaciones del contenido de los documentos y los conceptos o representaciones utilizados en las queries.

d) Las relaciones que se pueden dar entre las queries, los conceptos empleados en las queries y la necesidad originaria de informacin.

53

Hasta aqu podemos decir que se describe la estructura bsica de muchos de los modelos de RI, que consideran la ocurrencia y frecuencia de los trminos como forma de representacin y una funcin como el coseno para medir la semejanza, as como los que interpretan tales frecuencias como probabilidades. Existen muchas variantes ( vase esquema general regin inferior derecha), dentro de las cuales conviene sealar :

a) Enfocar de manera preponderante los nombres propios y los sintagmas nominales que obedecen a una estructuracin sintctica considerada como ms frecuente, para identificar trminos que en estos casos ya no sern lexemas simples . La idea puede extenderse a la identificacin de otros sintagmas frecuentes y tiles para localizacin, como acrnimos,
25

abreviaturas, fechas, etc. tendencia denominada features extraction.

b) Durante la extraccin de trminos de los documentos, realizar operaciones de desambiguacin lxica26 ( word sense disambiguation ), de manera que se identifique el verdadero valor de cada uno de ellos.

c) Considerar como elemento representable, no a cada documento completo, sino algn segmento menor, que podra ser el prrafo, o incluso un conjunto de oraciones menores al prrafo, imponiendo a este tipo de segmentos restricciones adicionales a la sola semejanza con los trminos de la query .
27

d) Utilizar la idea de distancia no en el sentido que se ha comentado ya, sino como separacin de la ocurrencia de los trminos co-ocurrentes, dentro de cada uno de los distintos documentos, analizando la asociacin de un trmino con los que ocurren dentro de una ventana de cierto tamao especificado. Esta idea, combinada con la del inciso a), da lugar a la

54

bsqueda de asociaciones locales muy relevantes, como la de nombres de personas con nombres de organizaciones: Bill Gates y Microsoft etc.

e) Modificar ya sea las propiedades de los trminos o su propia presencia en la query. Esto puede o no implicar la realizacin de dos fases de bsqueda : en la primera se obtiene una lista ordenada de acuerdo a su relevancia, de los documentos y de ellos se toman los ms similares a la query, que se utilizan para un anlisis que conducir a su reformulacin. Dentro de este mbito se ubica nuestra investigacin.

En sntesis, en ste captulo hemos visto que: Se ha examinado la conceptualizacin de la probabilidad de que un documento concreto, sea relevante para una query en funcin de los trminos contenidos en ambos. Se ha planteado la utilizacin de la frecuencia de aparicin de los trminos en los documentos, y de los derivados relativizados de ella, como base para calcular la probabilidad de que un documento sea o no relevante para una query. Se ha presentado la argumentacin en relacin con el balance

probabilstico que puede ocurrir entre la posible comisin de los dos tipos de errores al considerar que un documento es o no es relevante, para una query dada. Se han experimentado estructuras para la transmisin de evidencia desde los elementos de la coleccin, los documentos y los trminos en ellos contenidos, y los de una query, a la bsqueda de cumplir con un paradigma particular de relevancia.

55

Se ha estudiado el planteamiento probabilista y en algn momento se ha encontrado una equivalencia entre este y el vector space model.

56

CAPTULO 3 ALGUNOS ELEMENTOS CONCEPTUALES DE LAS ASOCIACIONES LXICAS NO SINTCTICAS.


Resulta razonable hipotetizar que un texto, o un fragmento de l, es una forma de expresar contenidos y que como tal ( como forma ), es susceptible de ser desentraado en la bsqueda del fondoVI, o o en su caso, de otra representacin que permita manipulaciones ms eficaces, con propiedades que permitan disear procesos de ordenamiento y bsqueda como los que puede realizar una mquina, esta nocin nos conduce al anlisis de problemas complejos, y sin duda interesantes. Ms an, si la idea intuitivamente aceptable, de que un mismo contenido, significado, o fondo, puede ser expresado de diferentes maneras, cosa que puede ocurrir en un mismo o en varios documentos distintos, un proceso de localizacin de un contenido requerido, ser ms eficiente en tanto le presente al usuario, en respuesta a su peticin, un solo documento como portador de ese contenido, y no todos los que simultneamente lo son, porque son substancialmente equivalentes. Hemos considerado de inters incluir en nuestro trabajo, como parte de la revisin del estado del arte, la exploracin de estas ideas esenciales sobre las relaciones entre elementos bsicos del lenguaje, vista la omisin que suele hacerse de ellas en trabajos de este tipo, y suponiendo que estas nociones son necesarias para comprender las limitaciones, y en su caso los orgenes de los aciertos de los modelos de RI. Como ya hemos comentado, no se puede desechar a priori, la idea de que problemas como el que abordamos en esta investigacin, son de naturaleza tal, que requieren un estudio interdisciplinario.

Usamos aqu el trmino fondo en su acepcin frecuente, opuesta a la de forma, en relacin con expresiones textuales, o en general, verbales, como en : Diccionario Salamanca de la Lengua Espaola.- 7.- Parte ms importante o esencial....

VI

57

Si bien el trabajo de una mquina de bsqueda se realiza sobre documentos, que se consideran objetos lingsticos muy desarrollados y complejos, la expresin de la necesidad de informacin que plantea el usuario, la query, suele ser un fragmento de texto muy breve, eventualmente agramatical, y tiene valor explorar las posibilidades de que en principio, esas queries renan condiciones mnimas para ser procesadas con buenos resultados. En este sentido, parece ser de particular inters su caracterizacin semntica. Coinciden los planteamientos formales de modelos de RI, con los conocimientos que se tienen sobre las caractersticas de los documentos y de las queries, como expresiones lingsticas de contenidos informativos ? Podran coincidir ? En nuestra exploracin sobre estos asuntos trataremos de encontrar vnculos con las respuestas a estas preguntas, sobre todo en el sentido en que aprovechar el conocimiento sobre el significado de un texto ( o fragmento de l ) pueda incrementar la eficiencia y la eficacia con que un algoritmo pueda localizar la informacin requerida por un usuario, en las circunstancias en que hemos planteado el problema de RI. Iniciaremos esta parte de nuestro estudio, revisando conceptualizaciones sobre significados, por lo menos hasta donde el asunto parece resultar tratable, y en particular enfocndonos en el estudio del mismo hacia frases y construcciones menores, no hacia la construccin de unidades ms complejas o del texto en general. El estudio de este fragmento de la semntica podra ser til en modelos de RI que se orienten hacia las relaciones derivadas de los significados de unidades bsicas del lenguaje, y en el caso de nuestra investigacin, permitir evaluar el alcance de hiptesis como la asociacionista en la cual se basa nuestro planteamiento, como se ver posteriormente.

58

3.1 Relaciones significativas.


3.1.1 La semejanza y el significado.
Un primer concepto, que hemos ya considerado de la mayor importancia en nuestro problema, es el de la semejanza. La relacin de semejanza a que nos estamos refiriendo, es una nocin a la que debemos asociarle algunas propiedades, de manera que quede completamente configurada como instrumento til de trabajo. Para empezar debe sealarse que la nocin de esta relacin de semejanza, presupone que existen al menos dos objetos, cosas o entidades, que se sospecha que por su propia naturaleza son comparables, es decir, que tienen un mnimo de propiedades esenciales en comn. Muchos de los formalismos conocidos para localizacin de contenidos informativos, parten de la convencin de que el contenido de la pregunta es de la misma naturaleza que los contenidos de la coleccin, y que entonces son comparables por dicha relacin. La semejanza a que aludimos puede darse en dos situaciones: a) Entre una palabra y otra, o; b) Entre contenidos informativos expresados por medio de palabras. Los dos casos antes mencionados no son necesariamente iguales. S consideramos solamente palabras, y nicamente por lo que respecta a su forma, el asunto se trivializa, pero si consideramos como se ha hecho en lingstica desde Ferdinand Saussure, la dualidad significante y significado que a cada palabra correspondera , podramos encontrar paradojas derivadas de caractersticas que tienen las palabras en muchos lenguajes naturales, caractersticas tales como la polisemia y la homonimia . Se dice que una palabra es polismica, cuando tiene ms de un significado, es decir, cuando se trata de una misma palabra que denota o se refiere a diversas
29 28

59

cosas o fenmenos del mundo. En contraste dos o ms cosas son homnimas cuando siendo diferentes, son referidas mediante la misma forma lxica. Las nociones de polisemia y de homonimia quedan ms claras si se ilustran mediante ejemplos: la palabra castellana digital se emplea para denotar:
al adjetivo concerniente o relativo al dedo. al sustantivo femenino planta herbcea medicinal de flores prpuras. Se emplea contra las palpitaciones del corazn30.

Y muy probablemente por una extensin metafrica del primer significado, como el adjetivo relativo a un modo de procesar y registrar informacin en medios electrnicos. As, digital en huella digital y en dosis de digital es palabra distinta con la misma forma, de hecho es palabra de distinta categora gramatical y se requerira un estudio lexicogrfico cuidadoso para ver si existe alguna relacin etimolgica comn en ambas palabras. Aunque resulte un poco chocante, lo nico afirmable de la relacin entre estos dos smbolos es que tienen las mismas letras en el mismo orden, es decir, que se ven iguales. Este es el caso en el que los lexicgrafos sealaran que se trata de homnimos. La palabra castellana avenida, tiene varios significados :
creciente impetuosa de un ro o arroyo. camino o paso para ir a un pueblo o paraje. va ancha con rboles a los lados31.

En los tres casos, se trata de un sustantivo de gnero femenino, y no es difcil pensar que en dos de los casos se ha hecho una aplicacin metafrica del caso original, cualquiera que ste fuese: se trata de objetos que guardan respecto a s, ciertas coincidencias o semejanzas, pero se trata de objetos distintos. En este caso los lexicgrafos diran que se trata de una palabra polismica. De hecho no siempre es posible diferenciar cuando se trata de palabras distintas homnimas y cuando se trata de una palabra polismica, ya que los criterios que se suelen emplear, y que como ya se dej entrever en los anteriores

60

ejemplos, son el de origen etimolgico comn, el de analoga fenomnica o cercana ontolgica, y homogeneidad respecto a la categora gramatical, distan de ser suficientes en todos los casos. Lo interesante de estos fenmenos en nuestro actual anlisis, consiste en que, por una parte, la mayora sino es que todos los lenguajes naturales tienen palabras polismicas y homnimas, por otra la comunicacin entre hablantes competentes en un idioma no se entorpece por la existencia de esa falta de precisin , comnmente denominada ambigedad lxica, y finalmente por otra que la relacin de semejanza de una forma o muestra de palabra consigo misma ya no resulta evidentemente reflexiva, ni simtrica respecto a otra. Hay que hacer consideraciones sobre sus significados. Pero habamos planteado dos casos: el de la semejanza entre parejas de palabras, y el de la semejanza entre contenidos informativos expresados en lenguaje natural, mediante construcciones con ms de una palabra. En ste ltimo las cosas son ms complejas. La relacin de sinonimia, que usualmente puede considerarse como una relacin entre palabras, como las ya comentadas homonimia y polisemia, ha sido extendida por algunos semantistas33, a ser una relacin entre conjuntos de palabras, ya sea que se trate de oraciones o de fragmentos de texto. Como se sabe, la sinonimia es la relacin entre smbolos del lenguaje, que tienen el mismo significado, y distinta forma. Tarea y Quehacer, Ir y Desplazarse, Ropa y Atuendo, etc, son ejemplos de palabras sinnimas. Pero segn la extensin mencionada, podra considerarse que perro, can, y mamfero carnvoro domstico de cuatro patas, de olfato muy desarrollado, notablemente inteligente y muy leal al ser humano son sinnimos, y que tambin artefacto tipificado como vehculo autopropulsado, mediante motor de combustin interna, cuyo peso (del vehculo) suele ser menor a una tonelada, vehculo til para el transporte por va terrestre de personas o de cosas y automvil, son sinnimos o casi-sinnimos . Lo que se suele considerar como la prueba de fuego de la sinonimia, es la intercambiabilidad. Un lexema, frase, oracin o texto, es perfectamente sinnimo de
32

61

otro lexema, etc. si al sustituir cualquiera de ellos por el otro, en cualquier contexto lingstico, no cambian : o el significado del texto en que se incluyen o los valores de verdad del mismo, segn la teora de significado que se est utilizando. Los lingistas consideran que este caso de plena o perfecta sinonimia es realmente poco frecuente, y algunos dudan incluso que exista. El intento de comprobar la plena sinonimia da paso al hallazgo de esa caracterstica denominada transparencia semntica, que se refiere a la situacin en que la sustitucin de sinnimos puede o no afectar al entendimiento del significado, por parte de un individuo ( lector u oyente en este caso ) arbitrariamente elegido. Si se puede apreciar que la sustitucin, an cuando objetivamente fuese correcta, cambia el significado, se tiene lo que se llama opacidad semntica. La relacin de sinonimia, nos obliga a repasar dos consideraciones importantes: esta relacin requiere una comprobacin emprica ms compleja de lo que parece: Si bien cualquier hablante competente en un idioma puede creer que le es posible determinar cuales palabras y conjuntos de ellas son sinnimas, ante ciertos casos concretos dudar. En segundo lugar, y dado que en este caso la naturaleza fundamental de la relacin reside en la equivalencia de significado, se hace necesario analizar que es dicho significado. Una cierta adicin de slabas, formar una palabra que tiene significado, a cuya abstraccin se le denomina lexema34, y algunas adiciones especficas de palabras forman una construccin, sea por ejemplo una oracin, que desde el punto de vista del comn de los hablantes, puede tambin tener significado, y si a una oracin que tiene significado se le aade descuidadamente una palabra ms, puede ya no tenerlo. Pero tambin existe en muchos lenguajes naturales, una clase intermedia entre la clase de elementos no significativos y la de los significativos. Por ejemplo, los sufijos, prefijos e incluso palabras como las preposiciones, los artculos, etc. suelen tener una especie de significado incompleto, que exige la presencia de otra unidad lxica para constituirse. A este tipo de elementos suele denominrseles morfemas y cuando se trata de palabras, gramemas o tambin palabras

62

funcionales o palabras vacas, y a las clases de palabras con esa propiedad se les llama sincategoremticas, aludiendo a que su presencia tiene como principal propsito perfeccionar el cumplimiento de una funcin gramatical, y secundariamente complementar la significacin.

3.1.2 Determinar significados: definiciones y estructuras


Como veremos en lo que sigue en este trabajo, algunos modelos de RI han enfrentado el problema de localizar eficientemente contenidos informativos y algunos ms podran intentar hacerlo, tratando de aprovechar relaciones o asociaciones de los elementos constituyentes de un texto, en cuanto a sus valores semnticos. Por esta razn presentaremos una exploracin del nivel de anlisis existente respecto de las complejidades de tal asunto, enfocndonos hacia la identificacin de los objetos a los que alude un texto. Se suele considerar que la formalizacin de lo que el significado es, y de las operaciones que pueden explicar los fenmenos del comportamiento significativo dentro del lenguaje natural, tiene que dividirse en un campo denominado semntica en el que no se consideran algunas condiciones externas al sistema de reglas del lenguaje, condiciones comnmente denotadas por la palabra contexto, y otro campo en el que las mencionadas condiciones contextuales si se consideren, al cual se le denomina pragmtica. La lingstica propone varias posibles conceptualizaciones, definiciones, o descripciones de lo que es el significado, ninguna de las cuales es universalmente aceptada, y que cualquiera de ellas manifiesta una fuerte conexin entre el anlisis lingstico y el filosfico tanto en las disciplinas de la lgica y la epistemologa, como en la denominada filosofa del lenguaje. Para semantistas como Lyons, existen seis propuestas bsicas respecto a la definicin de significado, que involucran el uso de trminos, palabras y conceptos que se emplean por el comn de los hablantes de un idioma, en nuestro caso el castellano, de un modo un tanto equvoco : significado, sentido, denotacin,

63

referencia, definicin, descripcin, contenido, etc. Estas seis teoras del significado son .-

1) Teora Referencial o Denotacional.

2) Teora Ideacional o Mentalista.

3) Teora Conductista.

4) Teora del Uso.

5) Teora Verificacionista.

6) Teora de las Condiciones de Verdad.Un hablante puede verse ante la situacin de no conocer con la precisin que necesita en un momento dado ( o no tener ni la menor idea, en casos extremos ) sobre, el significado de una palabra de su idioma, caso en el que comnmente recurrir a un diccionario o a una enciclopedia externos. Con lo anterior se quiere sealar que la persona de nuestro caso normalmente recurrir en primer lugar a alguna clase de diccionario, lexicn o almacn interno, dentro de su memoriaVII, y en el caso de que las respuestas que obtenga de esa consulta interna no le sean satisfactorias o suficientes, entonces realizar la consulta a registros como los mencionados. Esta situacin de insatisfaccin o desconocimiento puede deberse a causas muy diversas. Se sabe que la mayora de las personas utilizan con alta frecuencia un nmero de palabras, que es menor, y eventualmente muy pequeo en relacin con el tamao del listado de palabras del idioma que aparecen en un diccionario, y desde luego, la palabra de que se trata, puede ser propia de un uso especializado,

A la manera como lo propone Thomas B. Carlson .- Context for comprehension en Arenas of language use, p73, Herbert H. Clark editor, The University of Chicago press, 1992.

VII

64

es decir, ser parte de la jerga de una actividad, que no le es propia a la persona de que se trate, etc. Cuando la persona que necesita conocer el significado de una palabra, lo busca en registros externos, puede, como ya se dijo antes, recurrir a diccionarios, tambin conocidos como lexicones, o a enciclopedias ( stas ltimas identificadas por la palabra thesaurus en ingls o tesauro en castellano). Conviene apuntar que estas dos clases de registros auxiliares son de distinta naturaleza, y conviene aclarar su diferencia : los lexicones son instrumentos lingsticos, en los que se expresa de manera organizada conocimiento gramatical de acuerdo con las tcnicas de los especialistas en la materia, los lexicgrafos, que suelen incluir las propiedades de origen etimolgico y de orden categorial ( gnero, nmero, clase, etc. De acuerdo a las que estn definidas en el idioma de que se trate ), de ortografa y algunas propiedades semnticas y de uso. En cambio, las enciclopedias, an cuando eventualmente incluyen informacin gramatical, son compendios de conocimiento o informacin sobre el mundo, sobre las relaciones fenomnicas u ontolgicas de objetos del mundo real, sobre eventos histricos, etc. Desde luego debe sealarse que existen diversas clases de lexicones y de enciclopedias, algunos de ellos con orientacin especializada, y tambin existen los llamados diccionarios enciclopdicos. Generalmente, cuando la situacin de comunicacin carece de

retroalimentacin, por ejemplo cuando el instrumento de comunicacin es un texto esttico ( por oposicin al caso del dilogo ), digamos cuando se trate de una persona leyendo el peridico, un libro, una carta, etc. puede llegar a darse la necesidad de recurrir a un registro externo, como ya hemos comentado, pero cuando dos personas estn dialogando, si uno de ellos, el que acta como receptor en un momento dado de la charla, no comprende una palabra ( o para el caso una expresin compuesta de varias palabras ), es decir, no logra determinar con la precisin que desea, el significado en cuestin, es probable que pregunte a su interlocutor : qu quieres decir con .... ? Mediante esa expresin el consultante declara ntidamente el carcter intencional del proceso de significacin : el significado visto as es lo que la voluntad o intencin del emisor debe determinar, y

65

eventualmente esto da lugar a confusiones, porque tambin el receptor o consultante puede tener intenciones o deseos en torno a la informacin que se est transfiriendo ( o como muchas veces se dice, quiere or o leer determinadas cosas, en el sentido de que lo que oiga o lea signifique algo predeterminado de acuerdo con ciertos intereses o deseos suyos ). Pero al margen de estas situaciones que podramos caracterizar como casos anmalos ( aunque no sean infrecuentes ), considerando un proceso de comunicacin con colaboracin sin sesgos, basada en principios como los propuestos por Grice , la determinacin de significados en comunicaciones que utilicen el lenguaje natural, de hecho solamente la parte verbal de l , sigue siendo un proceso ms complejo de lo que solemos considerar . Volvamos a nuestro caso en el que se hace necesario consultar un diccionario o una enciclopedia. En ambos casos, aunque de manera distinta, lo que el consultante puede encontrar en tales registros, son nuevamente palabras, ( y ocasionalmente algunos otros materiales informativos ). Si todas o muchas de las palabras que forman parte de la descripcin o explicacin halladas en el registro externo, respecto del significado de la palabra buscada, son entendibles por el consultante, muy probablemente la consulta resultar satisfactoria, y el consultante asumir que ha logrado determinar el significado pretendido, pero qu clase de objeto ha conseguido, que le hace pensar que ahora posee el significado buscado ? Esta pregunta nos conduce a explorar dos vertientes distintas: una en relacin con la clase de objeto que es en s mismo el significado, y otra en relacin con el hecho de que la determinacin del significado de una palabra, pueda resultar de la existencia y eventualmente de la expresin de otras palabras.
37 36 35

3.1.3 La Denotacin, La Referencia y Los Mundos.En el mbito de la semntica, se utilizan varios conceptos especializados para al menos tres tipos de relaciones distintas, que en el uso comn suelen hacer confusa la naturaleza del trmino significado, ya que muchas veces se identifican

66

completamente, y en ocasiones de manera exclusiva con l : denotacin, referencia y sentido. Los dos primeros, se dice que identifican la relacin que hay entre palabras o lexemas y entidades que no lo son, ya sea que esta relacin exista en lo individual o mediante la nocin de colecciones, conjuntos o clases de tales entidades, siendo diferentes la denotacin de la referencia, en que la primera es absoluta, independiente de las circunstancias en que se emplea la palabra o trmino en cuestin, y la segunda dependiente del contexto en que la expresin de que se trata, se use. Como puede verse, la denotacin supone la existencia de los seres denotados, la nocin de conjunto y la determinacin de una serie de propiedades, atributos o caractersticas, a ser posedas por cada uno de los individuos denotados. En cambio, la referencia es el intento de sealar un objeto
38

especfico en el

contexto de un dilogo o de un discurso. En el caso de la referencia, se hace un uso del lenguaje, que es anlogo o bien es un refinamiento del comportamiento de un ser que desea comunicar algo y que no posee los instrumentos del lenguaje, por ejemplo un humano que an no ha adquirido uso del mismo, y que sin embargo puede referirse a cosas concretas, identificadas con precisin, indicndolas, sealndolas o presentndolas de manera directa, ostensivamente. En principio, la denotacin podra hacerse corresponder con el esquema de relacin entre lexemas y realidades, objetos del mundo real, pero tal correspondencia no es tan fcilmente sostenible, ya que tambin es admisible la denotacin de objetos que no existen en el mundo fenomnicamente detectable. Veamos un ejemplo clsico: la palabra unicornio denotara una clase de entidades con propiedades tales como tener cabeza equina dotada de un cuerno, as como algunas caractersticas extraordinarias en cuanto a su conducta, y esta identificacin se lleva a cabo an cuando no se tenga la posibilidad de encontrar o presentar un ejemplar viviente de tal clase en el mundo que nos rodea. Tngase en cuenta que los hablantes de un lenguaje no solamente tienen necesidad o deseo de comunicarse por lo respectivo a cosas del mundo real como las muchas que nos

67

rodean, sino tambin de cosas, eventos, etc. que existieron o que existirn, y que son, por lo tanto, necesariamente no presentes y que pueden ser en ese sentido tan irreales como los pegasos, los duendes o las quimeras . La denotacin y la referencia son especies de mecanismos complementarios: Como ya se dijo, la denotacin incluye dos dimensiones, la extensional, que es la que queda constituida por el individuo o conjunto de ellos ( materiales, abstractos, e incluso fabulosos de ser tal el caso ), y la intensional o comprensiva, que es la relativa a la determinacin de la o las propiedades que cada uno de los individuos de la extensin deben poseer para pertenecer a la clase en cuestin ; En el primer caso se identificara a todos los que son, y en el segundo a lo que son todos. Desde luego establecer una asociacin ms o menos compleja como la que estamos describiendo, entre un lexema y su denotando, parece estar destinado solamente a colecciones grandes e importantes, es decir, relevantes en extensin e intensin. Tener este tipo de instrumentos dentro del lenguaje y en general para los procesos de pensamiento, es eficiente, y adems parece ser el primer paso de una construccin estructural ms compleja y til de relaciones entre las clases denotadas. Desde luego, siendo la denotacin una funcionalidad generalizadora, no tendra que esperarse que fuese un buen instrumento especificador. En efecto, en la gramtica de muchos idiomas, el castellano como un caso tpico, existe una categora de palabras denominada de los nombres comunes, que corresponde claramente a lexemas con denotacin amplia, y cuya utilidad resulta obvia. De hecho es difcil imaginar un lenguaje natural en que no hubiese lexemas destinados a denotaciones amplias, tal nocin no parece ser eficiente, ni corresponde con la inclinacin natural de la mente a encontrar rasgos comunes de las cosas, que faciliten o que hagan ms productivo al razonamiento. Pero los nombres comunes no son suficientes para muchas situaciones comunicativas. Es necesario el mecanismo especificador que constituyen los nombres propios41 as como el andamiaje de demostrativos, pronombres, relativos, y otros tipos de lexemas, y por sobre esto, de las condiciones de emisin de una frase u oracin para saber especficamente de que objetos se est
40 39

68

hablando, es decir, de la referencia. Si bien denotacin y referencia son cosas distintas, ambas se encuentran fuertemente vinculadas y funcionan apoyndose mutuamente. Ahora bien, resulta ms directo analizar la denotacin en trminos de objetos, y ello nos ha llevado a repasar los sustantivos, pero tanto sta como la referencia son caractersticas semnticas de muchos lexemas, no slo los que representan nombres comunes o propios. Los verbos denotan acciones o fenmenos, segn la definicin clsica, pero qu denotan los adjetivos ? Plantearse sta pregunta nos conduce a revisar la naturaleza misma de las categoras gramaticales : los adjetivos lo son, y no son sustantivos, precisamente porque no denotan por s mismos , pero permiten precisar o afinar la denotacin de sustantivos, del modo como los adverbios y otras construcciones precisan, califican, modifican, o especifican el significado o en este caso la denotacin, de los verbos. En nuestro idioma, la relacin entre sustantivos y adjetivos es tan slida, que es frecuente el fenmeno de la sustantivacin de adjetivos ( y menos frecuente aunque existente, el caso contrario ), que da origen a confusiones: por ejemplo se puede pensar que si rojo es un adjetivo en el coche rojo, entonces ese adjetivo denota al color rojo. Advirtase que cuando empezamos a considerar que los colores son objetos en s mismos, entonces son susceptibles de considerarse sustantivosVIII. El caso de los colores es ms asequible a la sustantivacin que el de otros adjetivos, por ejemplo la ?interesantidad o grado de inters, etc. Es siempre posible identificar cual lexema (o frase) denota correctamente a un objeto o coleccin dados ? o en otras palabras, es siempre posible saber cual es el nombre correcto de una clase de cosas ? En una visin primera, tendemos a pensar que las cosas o son o no son lo que denota un nombre, es decir, tal objeto o
42

VIII

Es interesante el comentario de F. Waismann de que Hay lenguas como el Ruso, el Alemn y el Italiano que consignan los colores por medio de verbos, Cabe la posibilidad de que haya diversos modos de lexicalizar y de gramaticalizar algunas nociones que dado el idioma que uno habla, parecen claramente sustantivos, adjetivos, etc.

69

es o no es un espejo. Esta nocin es muy limitante, si bien permitira un manejo eficaz, preciso de los nombres existentes en un lenguaje natural. El hecho es que en muchos sino es que todos los lenguajes naturales existentes, es ms eficiente que la denotacin sea una cuestin de grados, es decir, que no siempre es posible describir con toda propiedad las restricciones que las cosas deben tener para ser correctamente denotadas por algn nombre, o que no hay posibilidad tecnolgica de observar el cumplimiento de tales condiciones en casos concretos, el de algn objeto particular por poner el casoIX. Las anteriores consideraciones llevaron a los filsofos de la Grecia Clsica a considerar que una cosa tiene propiedades esenciales y tambin tiene propiedades accidentales, y que cada cosa que quisiramos considerar como propiamente denotable por algn nombre especfico, tendra que satisfacer completamente las exigencias de las propiedades esenciales aplicables al caso, pudiendo cumplir con ms o menos exactitud las accidentales. De sta manera se explicara que existen cosas que son de la misma clase, pero que son diferentes. En semntica moderna, una estrategia muy parecida a la de los griegos, se ha propuesto dentro de la corriente de los marcos , y los denominados prototipos semnticos. De hecho, este fenmeno corresponde a la idea que nos ha hecho incluir en esta parte de la tesis, la nocin de semejanza junto con la de significado. Consecuentemente, es apropiado decir que, por lo que a la denotacin se refiere, no habra contradiccin en decir que una cosa dada, es aproximadamente o es en cierto grado lo que denota un nombre. Esta nocin ha invitado a algunos investigadores, a experimentar en el mbito de la RI, enfoques como los de la teora y la lgica de los subconjuntos borrosos, o como se les conoce de su denominacin inglesa, los fuzzy sets. Adems de lo anterior, la situacin es interesante si se piensa en las denotaciones de objetos no fenomnicamente verificables. Como ya hemos dicho, si
43

John L. Austin, op. Cit. P238. An cuando el autor se refiere a enunciados, no hay razn para no aplicar la idea a lexemas.

IX

70

la comunicacin requiere que los hablantes se puedan referir a objetos fantsticos, o temporalmente ajenos, para los cuales en sentido estricto no puede haber un conjunto de condiciones que se deban cumplir externamente, entonces claramente la eventualidad de que haya nombres que los denoten abre una serie de posibilidades : o bien debemos aceptar que el mecanismo de la denotacin no sirve en estos casos, es decir, que los lexemas en cuestin no denotan, lo cual no debe entenderse como que dichos lexemas no tienen significado, o bien tendramos que aceptar que hay distintas clases de denotaciones, o como ha ocurrido, es necesario adicionar un concepto nuevo en el esquema, uno que permita conservar la funcionalidad del mismo. Tal parece ser la utilidad de la idea de Kripke
44

en este contexto, al proponer

una forma definida para la idea de los mundos posibles dentro de la lgica modal, es decir, el planteamiento de que si bien en el mundo que evidentemente nos rodea en el presente, existen ciertas colecciones de entidades, no hay inconveniente en considerar la existencia de otros mundos que, sin ser el mundo actual, tampoco son imposibles. Algunos de esos mundos posibles son los del pasado y los del futuro, mundos desde luego hipotticos, pero a los cuales muchas veces nos es dado incursionar mediante nuestro arsenal de razonamientos de sentido comn, sobre los indicios disponibles. Si estos mundos son aceptables como proveedores de entidades externas denotables, tambin podran serlo algunos mundos poblados por seres fantsticos. Desde luego el elemento difcil de esta propuesta es la nocin de posible asociado a cierto mundo tener elementos vlidos para la denotacin. Respecto de lo anterior hay dos vertientes que conviene tener en mente :
45

que lo capacite a

a) La propuesta de los mundos posibles, puede entenderse como una metfora de la existencia de diferentes dominios o contextos de conocimiento o de lxico. Expresiones que no pareceran tener significado en el uso general del lenguaje, lo tienen y muy preciso en un mbito especializado o restringido del mismo.

71

b) Los seres humanos solemos tener la habilidad de identificar los casos en que se nos est hablando ( o en general, comunicando informacin ) con significado normal o literal y distinguirlos de aquellos en que se nos comunica en sentido metafrico o en general, en sentido figurado o no literal. A su vez, esto suele considerarse un rasgo de la inteligencia. En procesos de localizacin de informacin este rasgo puede ser importante, por ejemplo, cuando la comunicacin entre el consultante y el sistema incluya la posibilidad de sealar en la misma estructura de dilogo ( oral o escrita, pero de manera preponderante en la primera de ellas ) contenidos de query y elementos de control del sistema. En cualquier caso, la denotacin es el mecanismo que identifica ciertos objetos, sobre la base de que cumplen determinadas condiciones, es decir, que la clave de la denotacin es intensional o comprensiva, y su eficacia depende de la naturaleza de las condiciones y de las operaciones que son posibles para aplicar tales condiciones sobre atributos, por ejemplo mediante las denominadas lgicas descriptivas , o de lo contrario tendramos los conjuntos de individuos denotables, como si fuesen construidos sin explicacin racional.
46

3.1.4 El Sentido.Veamos ahora lo correspondiente al sentido. En su uso tcnico, el sentido es una relacin definida sin duda entre entidades de naturaleza lingstica. A las diversas posibilidades de vinculacin que pueden identificarse, ya sea por intuicin o sentido comn, o bien por experiencia cientfica, entre objetos como los que se identifican mediante la denotacin, se les denomina relaciones de sentido. Como ha podido observarse en la historia de la filosofa, la construccin ontolgica clsica, as como los diversos intentos modernos de dicha actividad, han consistido en experimentar con diversas clases de interrelaciones, y mediante diferentes estrategias, con el propsito de representar los objetos y fenmenos que normalmente estn a nuestro alcance, esperando adems que dicha representacin permita realizar algunos de los razonamientos que cotidianamente experimenta

72

nuestra mente. La gramtica distingue algunas de estas relaciones de sentido de muy frecuente aparicin en muchos idiomas, tales como :

a) La relacin que se da entre una clase menos y otra ms especificada, es decir, la relacin comnmente identificada mediante los paradigmas de es un, es una clase de, es una especie de, denominada en gramtica clsica como hiponimia que es normalmente el principio de la construccin de las taxonomas o clasificaciones. b) La relacin que existe entre un objeto y las partes que lo componen, dado que sea posible esa descomposicin, denominada meronimia. c) Las relaciones de oposicin conceptual, generalmente propia de adjetivos. d) La relacin que se da entre verbos : troponimia, cuya descripcin es la de es una manera de por oposicin a es una clase de de los sustantivos. e) La relacin de necesidad temporalmente incluida que se da entre verbos. f) La relacin de presuposicin, es decir, aquella que asocia a verbos cuya utilizacin viable tiene que asumir a otros, sin que stos primeros sean la causa de los segundos. g) De acuerdo con la naturaleza de los verbos, se encuentra la relacin de causacin, es decir aquella que identifica una accin o estado, como la causa conocida de otra accin o estado. h) Puede encontrarse entre verbos, una relacin anloga a la de oposicin conceptual de perspectiva, que da cuenta de los diferentes puntos de vista que puede haber en trminos de una misma accin. Casos como ensear respecto a aprender, dar respecto a recibir etc. ilustran esta relacin.

73

i)

Finalmente, existe una relacin de oposicin conceptual de verbos, que podramos denominar de inversin, que es la que se da en ciertas acciones correspondientes al paradigma de construir-destruir, por ejemplo : ir respecto a regresar, subir respecto a bajar, entrar respecto a salir etc. Adems de las anteriores, existen otras relaciones entre significados a nivel

lxico, que no son tan estudiadas, pero que para el hablante de un idioma, resultan muy naturales, por ejemplo :

j)

Las relaciones metonmicasX.

k) Las relaciones de parentesco. l) Un tipo de relacin que en varios momentos ha sido considerado de tanta importancia, que se ha utilizado como eje de la estructuracin de teoras lingsticas o gramaticales, que son las relaciones espaciales, de acuerdo con lo que se ha dado en llamar la hiptesis localista , que tienen un alto grado de complejidad. El lenguaje natural es un sistema complejo de mecanismos, por la existencia de variadas formas y niveles de estructuracin, como parecen indicar las ya mencionadas relaciones. No obstante hay otras que son ms complejas que lo hasta aqu descrito. En efecto todas las relaciones de sentido que hemos mencionado, estn definidas slo hacia el interior de las categoras lxicas, es decir, de sustantivos con sustantivos, adjetivos con adjetivos, etc. Conviene ahora
47

Este es un caso de confusin en relacin con los significados de palabras: Si bien en tres diccionarios de lengua espaola ( Enciclopedia del Idioma, Diccionario Salamanca y Diccionario Lxico Hispano ) la palabra metonimia tiene el significado que aqu estamos aludiendo, y la palabra meronimia no aparece, en Alonso-Corts Lingstica General se dice que la relacin entre todo y partes, se denomina meronimia, p214, y en el Diccionario de lexicografa prctica, se dice : definicin metonmica: definicin que se aplica a palabras que forman partes de un todo....,p95. Podra decirse que sucede en la casa del herrero.

74

ver que ocurre cuando se considera la relacin que las diferentes clases de lexemas tienen entre s. Los sustantivos, que hemos visto que es posible estructurar

hiperonmicamente, tienen varias formas de conseguir un mayor grado de especializacin o precisin, formas que suelen estar previstas en la estructura de los idiomas, es decir, en las reglas de las correspondientes gramticas. Hemos visto que hay lexemas que son denominaciones especializantes, y que son los que inducen en primer lugar a construir taxonomas como las que hemos ilustrado. En algn momento, continuar la especializacin ya no utiliza como instrumento la creacin de nuevos lexemas, sino la sntesis del concepto o significado, utilizando lexemas ya existentes y combinndolos mediante reglas gramaticales. De hecho podramos haber visto ejemplos en que una variante de esta estrategia opera en la construccin morfolgica, cuando como mencionamos, la presencia de prefijos, sufijos o los mecanismos de derivacin ( palabras compuestas, etc.), tiene un efecto semntico ( por ejemplo vertebrado vs. invertebrado ), o como cuando se dice el carro comedor de un tren, o el cajero automtico de una red bancaria. La necesidad de nombres dentro de los procesos de comunicacin, hace que se utilicen sustantivos y modificadores de ellos : pastel de frutas, escuela alemana, amplsima autopista, representante poltico de las clases marginadas, luminosa residencia estilo californiano con magnficas instalaciones, son ejemplos de lo que se denomina frases nominales, que para efectos de la denotacin equivalen a sustantivos de nuestro idioma, y que identifican clases de objetos u objetos individuales. En nuestro caso, una de las relaciones entre categoras lxicas muy importante y que es de las que se utilizan para esta estrategia de especializacin, es la que se da entre nombres comunes y adjetivos, y que suplementariamente genera nombres de origen adjetival ( la alemana, el poltico ) o adjetivos de origen sustantivo ( napolenico, frutal, etc.). As, en muchos de los casos, un elemento determinante de la especializacin de un sustantivo, radica en la relacin de ste con un adjetivo conveniente. La tradicin gramatical llama el atributo, a las construcciones que modifican a los

75
48

sustantivos mediante la indicacin que hace un verbo , pero en nuestro caso denominaremos as a un adjetivo, o bien a cierta clase de sintagmas como los empleados en los ejemplos, siguiendo la costumbre que hay en el campo de IA . Si bien este tipo de fenmenos lingsticos ya no corresponde al nivel lexical, tampoco tiene el grado de complejidad de la plena construccin de oraciones o del discurso general, de manera que es una clase de composicin intermedia o simplificada de significados y de frases. Los atributos conducen importantes propiedades semnticas, que derivan de la naturaleza de los objetos que se trata de significar : cuando conceptualizamos los libros y les atribuimos adjetivos como.- interesantes, breves, prcticos, ilustrados ( con figuras, dibujos, etc. ), cientficos, romnticos, etc. vinculamos los objetos con caractersticas sensatas, es decir que tienen sentido. Por contrario, si alguien propusiera clasificar ciertos libros como musculosos, alcalinos, o curvos, notaramos la anomala semntica y pensaramos que esa persona no est proponiendo lo que literalmente expresa. Los libros pueden estar ms cerca o ms lejos de un polo del eje aburrido-apasionante en grado de inters, pero no es normal que se entienda que puedan estar en algn grado de PH, o de curvatura. Desde luego que es perfectamente posible, y es adems interesante pensar en las propiedades qumicas y mecnicas del material con que est hecho el libro en cuestin, caso en el que aparecera la sensatez de algunas de las propiedades que parecan absurdas. Para decirlo en forma resumida: Existen relaciones en una direccin y en la otra, entre sustantivos y adjetivos.- Los adjetivos son valores de atributos de los sustantivos, y eventualmente la denominacin del atributo o caracterstica a la que los adjetivos se refieren es un sustantivoXI. Cada sustantivo, dada su naturaleza, permite que se le asocien ciertos atributos y rechaza otros. Esto se conoce como capacidad de seleccin y es un fenmeno de inters en lingstica. No existe un nmero definido de atributos de cada sustantivo, pero en todo caso, algunos de ellos son ms evidentes, ms relevantes o ms frecuentes, que otros. De hecho
49

XI

De hecho A. Bello considera que ambos, sustantivos y adjetivos forman la clase de los nombres genricos o apelativos. Gramtica de la lengua castellana, p48.

76

algunos de estos ltimos slo son contextualmente pertinentes. Estas capacidades de seleccin no son propiedades sintcticas, sino claramente semnticas, y al ser determinadas por mtodos de lingstica, reflejan solamente lo que los hablantes han experimentado y han decidido codificar en su lenguaje, es decir, no son conclusiones lgicas ni tienen garantas de consistencia. Por otra parte, su estudio suele ser limitado, es decir, suele no tenerse la intencin de agotar la gama de posibilidades, ya que en cierto momento incluir ms atributos para un sustantivo dado, se considera que va ms all de lo que suele aceptarse como conocimiento lingstico, y cae en lo que es conocimiento del mundo o de sentido comn.

77

3.2 Caracterizar relaciones y manejar excepciones.


3.2.1 asociaciones composicionales y no composicionales.
Ya hemos mencionado que ciertas construcciones alrededor del nombre, cumplen con las reglas de la gramtica, son sintagmticamente correctas, pero su grado de complejidad es notoriamente menor que la construccin de la oracin. Existe adems un grupo numeroso de este tipo de frases o fragmentos de texto cuyo significado no se podra calcular a partir de elementos de significado radicados en los lexemas que constituyen la frase. Los nombres propios de persona, de organizaciones, de productos, etc. y tambin las abreviaturas y acrnimos, pueden ser encadenamientos de lexemas de este tipo, y tambin lo pueden ser las denominadas expresiones idiomticas, pej.-sin embargo,aunque sea, le import un comino, por lo tanto; los refranes: tanto va el cntaro al agua...,dime con quien andas...., las muletillas, clichs, todo el mundo est de acuerdo...,algunas de las frmulas de cortesa: me permito notificarle que le aseguro mi distinguida consideracin, y muchas locuciones empleadas de manera especializada en el mbito de una actividad profesional, tcnica, a las que normalmente se les conoce como terminologas, etc. La lingstica, en particular en una de las corrientes importantes de origen britnico, han denominado a este tipo de construcciones collocations . Parte de la competencia de los hablantes de un idioma, reside en su habilidad para utilizar e interpretar esta clase de expresiones, y existe trabajo de investigacin para detectar sobre bases estadsticas, sintcticas o alguna combinacin de ambas, tanto a cualquier tipo de collocations, como a aquellas que son nombres propios. Dos sealamientos interesantes respecto a las collocations, es que si bien por definicin no son resultado composicional de la semntica de sus lexemas, esto es cuestin de grados.- hay algunas que son casi composicionales: por ejemplo, y hay otros que son nada composicionales: desde luego que..., hasta en tanto, etc. Por otra parte, algunas de estas expresiones contribuyen muy poco a la
50

78

discriminacin, en cuanto a significado se refiere, de los fragmentos de texto en que se encuentran, y algunas de ellas son en muy alto grado significativamente discriminantes, en particular si se puede establecer un enlace entre collocations que sean nombres propios, y un asunto, dominio, subconjunto de la coleccin, tema o como se le quiera denominar a una agrupacin de textos que tengan una parte importante de su significado como algo comn. Es muy verosmil que un texto en que aparezcan los nombres propios de empresas, empresarios, directivos, etc, tenga que ver con la marcha de los negocios, la economa y las finanzas, en tanto que si aparecen nombres de dignatarios de la iglesia, y collocations como : espritu santo, sagrada congregacin de la f etc, sea un texto sobre asuntos religiosos, y en este ltimo caso, de una particular religin. Volviendo a las relaciones entre diversas categoras gramaticales de lexemas en lo general, en todo caso es difcil establecer la distincin entre lo que es propio del sustantivo y debera reflejarse en la creacin de un lexema de dicha categora, y lo que es un atributo del sustantivo y debera significar un enlace con el adjetivo correspondiente. Esta dificultad ha sido comnmente analizada tanto en trminos filosficos como ingenieriles y lingsticos, sin poder eliminar las confusiones que produce. Como ya se mencion, desde tiempos de los filsofos clsicos se ha insistido en la diferencia entre la naturaleza esencial o categorial de algunas propiedades de los entes u objetos, es decir, la parte sustantiva de ellos, y la naturaleza accidental, circunstancial, o prescindible de otras. Este tipo de planteamientos, frecuentes en el mbito de la filosofa que se ocupa de la naturaleza de las cosas, es decir, la Ontologa, suele no encontrar respuestas concluyentes, y por lo que respecta a planteamientos como la construccin de redes semnticas y de ontologas como representaciones de conocimiento dentro del mbito de la inteligencia artificial, en ellas eventualmente se concluye que hay que decidir arbitrariamente entre cuales sern objetos y cuales atributosXII. Para el lingista, sta es una cuestin empricamente determinable

Comparense las apreciaciones que hace A.J. Ayer, en Lenguaje, verdad y lgica, p48, Por lo tanto, quienes plantean cuestiones acerca del Ser, basadas en el supuesto de que la existencia es un atributo, son culpables de seguir la gramtica ms all de los lmites del

XII

79

para cada idioma, es decir, los propios lenguajes reflejan lo que los hablantes consideran sustantivable y lo que por lo contrario consideran adjetivo. An ms: los objetos designados por sustantivos pueden tener partes, propiedad de la que puede darse cuenta, como ya hemos visto, mediante estructuraciones meronmicas de diversos tipos. Las partes a su vez se denotan por sustantivos, y como tales, son susceptibles de relacionarse con adjetivos apropiados, es decir, las partes se encuentran ya en la estructura taxonmica de los sustantivos y tienen propiedades como cualquier otro de ellos: el ejemplo antes visto del libro adquiere ahora sentido .- una de las posibles partes del libro son los materiales de que est formado, sus pastas y sus hojas, siempre que no se trate de un libro virtual, electrnico. Dichos materiales son los que pueden tener como atributos los que resulten de anlisis qumicos o mecnicos. Tambin desde este punto de vista existe la posibilidad de suponer la necesidad, que eventualmente se confunde con la antes mencionada por cuanto a atributos, de que ciertas partes existan, para que el objeto que debe tener esas partes, sea tal: cuntas o cules de sus partes le podemos quitar (o substituir por otras de diferente naturaleza) a un ser humano y que siga sindolo ? Entre sustantivos y verbos ocurre algo similar : pueden encontrarse restricciones por cuanto al tipo de argumentos pertinentes respecto a ciertos verbos, de modo que oraciones como el libro comi sandas puedan identificarse como semnticamente anmalas. Desde luego las posibilidades de relacionar sustantivos y verbos, que al hacerlo abre la puerta a la construccin de la que ha sido reconocida en mltiples ocasiones como la unidad de comprensin, la unidad significativa, es decir, la oracin, es mucho ms compleja que las que ya hemos, de modo simplificado, explorado. es posible identificar cuales relaciones pueden darse identificando frases u oraciones significativas, entre, digamos 20,000 sustantivos comunes y 12,000 verbos51 ? El nmero de las que habra que identificar como vlidas, o su complemento, es de tal magnitud, que no se intenta

sentido, con las apreciaciones de R.J. Brachman et al. En Living with CLASSIC, que parecen coincidir con la idea de Ayer, pero concluyen con un enfoque mucho ms flexible.

80

siquiera abordar el problema en esa forma, que podramos llamar exhaustiva con la mayor propiedad. Dos instrumentos que se han explorado para construir este tipo de descripciones o reglas de validez semntica son las denominadas restricciones de seleccin y los rasgos semnticos. En ambos casos, se trata de abordar este enorme problema, evitando sealar la situacin individual de cada una de las posibles combinaciones de los lexemas en cuestin, recurriendo para ello al empleo de intermediarios conceptuales, por ejemplo algunos refinamientos de las categoras gramaticales, que son empleadas para establecer la denominada subcategorizacin que determina que un verbo dado, en el caso de que pueda ser combinado con alguna clase de sujeto, ( es decir, que no sea de la clase de los llamados verbos unipersonales, como nevar, etc. ) acepta algunos sintagmas y rechaza otros en tal funcin : el verbo cuyo infinitivo es soler es aceptable en Juan suele venir pero no lo es en Juan suele que venga. Esta es una regla que se tiene que determinar por cada modo del verbo, pero no por cada posible sustantivo en papel de sujeto, y es una especificacin que puede caracterizarse como sintctica, ms que como semntica, an cuando no es de ninguna manera evidente tal caracterizacin. La subcategorizacin no es suficiente para decidir cuales sustantivos pueden combinarse sin anomala de significado respecto a cuales verbos. An en casos en que se cumplen se tipo de condiciones se pueden construir oraciones semnticamente anmalas. Una de las estrategias con que se ha intentado vencer este problema es definiendo un conjunto de rasgos semnticos es decir, caractersticas que se encuentran dentro de la denotacin de cualquier nombre comn, que sern exigidas por la variedad de verbos ( y en su caso, de adjetivos ) existentes en el lxico, definindose para dichos verbos, algunas reglas que se denominan restricciones de seleccin, por ejemplo.- jugar requiere el rasgo ser viviente ya que no se admite que una cosa no viviente pueda jugar ( cuando una computadora dotada de cierto software, juega ajedrez, est o no est jugando ?). Esta estrategia, que por lo menos economiza la representacin de las restricciones, respecto a la antes mencionada posibilidad de identificar expresamente cada

81

posible combinacin, no est exenta de problemas en cuanto que no ha sido posible encontrar el conjunto de rasgos suficiente y eficiente para la solucin del problema y adems, a fin de cuentas exige el anlisis de todas las posibilidades, o bien tiene que aplicarse sobre conjuntos de verbos y de sustantivos, segn principios de clasificacin como los que determinan las relaciones de sentido. Una que puede considerarse variante de la anterior estrategia, es la de la identificacin de roles temticos centrada en conocimientos que estn en la lnea divisoria entre la lingstica y el sentido comn o el conocimiento general del mundo: Un verbo generara una especie de situacin estereotpica en la que necesariamente habra un actor, un instrumento, un beneficiario, un tema, etc. y algunos sustantivos estaran marcados por sus rasgos semnticos para ser viables en alguno o en cualquiera de los anteriores roles. Esta estrategia es desde luego mucho menos costosa en cuanto al anlisis requerido a los lexemas, y en cuanto al formalismo con el que expresar las reglas a satisfacer. La idea de que no todas las combinaciones posibles entre lexemas de las categoras de nombres y de verbos, son vlidas, si bien no se ha podido especificar a modo de reglas, sigue siendo una nocin til. En lugar de las restricciones de seleccin, tambin se investiga en lingstica la existencia de preferencias de seleccin, basadas en : a) Una clasificacin de algunos tipos genricos de nombres que pueden jugar el papel de objeto directo o indirecto, clasificacin que se basa en que todos los nombres de cada clase, o bien comparten un rasgo semntico, o bien descienden de cierta clase genrica ( en una taxonoma como las antes mencionadas ) b) La identificacin de una propiedad importante del verbo en cuestin, denominada intensidad de preferencia selectiva ( en ingls : selectional preference strength ), mediante la cual se distinguen los verbos que presentan una preferencia marcada sobre sus complementos, y aquellos que son poco selectivos y
52

82

c)

En el caso de los verbos en que hay preferencias, la identificacin de las clases preferidas, que se identifica como una probabilidad. Por ejemplo el verbo cuyo infinitivo es comer, puede ser usado en forma intransitiva: Juan ya ha comido, o en forma transitiva, con objeto directo : Teresa est comiendo fruta. En este ltimo caso, el objeto directo fruta tendr que ser una clase de cosa que pertenezca a las que son comestibles. Desde luego, las condiciones de sintaxis de la oracin hacen que este tipo de anlisis sea ms difcil de lo que parece: Teresa est comiendo muy poco, en la que no hay objeto directo, sino complemento, ilustra parte del problema. Un enfoque muy restringido sobre posibles enlaces selectos entre los

sustantivos y los verbos, es el que se ha planteado en el proyecto WordNet , de que as como hemos dicho que los objetos identificados mediante sustantivos, tienen atributos y partes, tambin pueden tener una funcin, es decir, que es intrnseco de la naturaleza de cada objeto, el realizar una o un pequeo grupo de acciones o de estar en un pequeo conjunto de estados caractersticos. Estas acciones y estados seran los verbos a enlazar con los sustantivos, que si bien en este caso no tendran el carcter de restricciones, s seran indicios tiles: si bien un disco fijo de un sistema de cmputo, puede realizar diversas acciones denotadas por verbos, hay una que es particularmente interesante.- almacenar datos, que podra considerarse que es su funcin. As algunas asociaciones entre verbos y lexemas que los especifiquen, tienen el mismo efecto sobre la posibilidad de identificar dominios, temas o asuntos, al modo como ya mencionamos al hablar de las collocations. La ontologas investigacin
54,55,56

53

sobre

cuestiones

involucradas

en

la

creacin

de

, contina y refina los conceptos y herramientas que se estn

empleando. Si bien como ya hemos comentado, la estructuracin psicolingstica tiene en su haber el valor de utilizar usos observados de lexemas, sus productos tienen limitaciones si se quieren utilizar como representaciones de conocimiento no necesariamente lingstico. Existen propuestas de gran inters para dotar de metodologa adecuada la construccin de taxonomas, por ejemplo la que ha venido

83
57

desarrollando N. Guarino , en la que se analizan algunos de los defectos de la relacin hiponmica, a los cuales le atribuye dicho autor las fallas de estructuracin que en muchas ontologas se pueden encontrar. Una idea que conviene destacar de esa propuesta, es el llamado principio de Lowe que seala que:

ningn objeto particular puede ser instancia de dos clases (sorts, en ingls) si stas tienen diferentes criterios de identidad. El anterior principio tiene varias implicaciones interesantes para nuestro tema. Desde luego es de inters reconocer que como substrato de la utilizacin ingenua de la relacin es una clase de, se ha supuesto que existe una base de identidad para los objetos designados por el hipnimo, es decir, no vale simplemente decir que son intuitivamente iguales, sino que lo son de acuerdo a caractersticas especficas, que derivan de la existencia de los mencionados criterios de identidad. Una de las cosas que se desea que estas ideas metodolgicas ayuden a evitar, es la representacin embrollada que resulta de la homonimia y ocasionalmente de la polisemia de algunos lexemas. Una segunda implicacin de inters, reside en la posibilidad de que una entidad u objeto que normalmente se considera como una y la misma cosa, no lo sea as. El asunto puede verse como que algn objeto puede ser simultneamente diversas cosas no clasificables dentro del mismo tipo, o bien que algn objeto puede ser cosas distintas dada la posibilidad de observarlo desde distintos puntos de vista. El ejemplo que se presenta en el documento de referencia ilustra bien el punto : un recipiente de barro es.- un recipiente, y una masa de barro cocido. Si se estrella en el piso rompindose, deja de ser recipiente, pero contina siendo masa de barro cocido. La propuesta de solucin de este tipo de confusiones, incluye construir diferentes capas o estratos ( en el texto original levels o niveles, pero resultara ambiguo ), ontolgicos, independientes y de hecho ortogonales entre s.

84

3.2.2 herencias.
Regresando a la nocin de relaciones de sentido, conviene sealar que hay una idea que parece estar implcita en el planteamiento de una estructura basada en entidades con atributos, y que sobre todo en el campo de las ciencias de la computacin, ha adquirido una presencia tan importante que ocasionalmente no se le evala correctamente : la herencia. La herencia se entiende como la identificacin de los atributos de una clase, con los atributos de la clase de la cual la primera es subordinada, es decir, es un mecanismo propio de la relacin de hiper/hiponimia. Existe una razn evidente por la que la herencia surge como una propiedad natural y aprovechable al mismo tiempo: Es otra manera de expresar la estrategia generalizadora que es un recurso congnoscitivamente eficiente, que permite
58

aprovechar

recursos

para

la

representacin y para el razonamiento , y as suele considerrsele tambin en la literatura de lenguajes de programacin orientados a objeto. Esta posibilidad de transmitir o identificar propiedades aprovechando la existencia de relaciones estructurales, tiene su conjunto asociado de restricciones : es muy frecuente que una clase de objetos adicione propiedades respecto de su clase genrica, y tambin es comn que una clase de objetos no tenga las mismas propiedades o valores de atributos que su clase genrica, y desde luego la herencia tiene que ser manejada de un modo complejo cuando se trata de aplicarla en estructuras embrolladas como consecuencia de que exista ms de una clase genrica para una clase especfica, es decir, que se presente el fenmeno de la herencia mltiple. En buena medida la propuesta de Guarino, ya mencionada, constituye un intento de evitar que la construccin de taxonomas, inevitablemente derive a la creacin de estas mltiples jerarquas. Existe una corriente general de pensamiento que considera que las propiedades heredadas a travs de una estructura taxonmica, deben considerarse como valores por defecto, en contraste con la posibilidad de analizar dicha transmisin de caractersticas como un proceso con excepciones. Estos fenmenos fueron estudiados a detalle por Touretzky .
59

85

3.3 Sintetizar lenguaje con significado: tomos y generativismo.Antes hemos mencionado ciertas caractersticas cuantitativas de los lenguajes naturales. Son hechos conocidos que los lexemas de cualquier idioma, no tienen la misma frecuencia de uso. Las preposiciones en el castellano, son un nmero pequeo de palabras, y se usan con enorme frecuencia tanto en forma oral como escrita. Tambin dentro de alguna de las categoras abiertas como los verbos, hay algunos de ellos que son mucho ms frecuentes que otros. Por otra parte se sabe que las palabras ms frecuentes son las ms polsemas, las que ms acepciones tienen , y su tamao medio, el nmero promedio de letras que tienen, es menor que la media del lenguaje . Los hechos antes referidos, conocidos desde hace ya bastante tiempo, han servido de base para ciertas propuestas en relacin con nuestro problema del significado. Volviendo a la lexicografa, una idea sensata consiste en incluir en diccionarios las palabras que se justifiquen segn su frecuencia de uso, y segn el propsito del diccionario : uno bilinge para novatos tendra que contener las ms frecuentes, y uno monolinge tal vez despreciara stas e incluira las menos frecuentes. De hecho, modelos de RI como el vector space model y los modelos basados en probabilidades, parten del supuesto de que esta inequidad en el uso, es un factor importante que permite localizar contenidos informativos. Como ya hemos mencionado la primera hiptesis de trabajo en muchos de estos modelos, es que las palabras de muy alta frecuencia suelen dispersarse en todos los textos posibles, es decir, suelen presentarse de manera numerosa, en todas las producciones o textos, y por lo tanto son intiles para discriminar: son seales que apuntan hacia todas partes. Este grupo de palabras suelen incluirse en la lista especial de excepciones ( o stop words ) que ya fue mencionada en la Subseccin 1.2.1 pg.24.
61 60

86

3.3.1 ncleos de lenguaje.


Esta misma base frecuentista, da pie a otros planteamientos : en algunos pases la educacin gramatical bsica se enfoca a un grupo de palabras de frecuente uso, etc. Pero tambin puede pensarse que esas palabras representan lo esencial del idioma. La anterior nocin ha inducido a explorar varias ideas : una es la de que mucho del inventario lxico de los lenguajes naturales, es accesorio ( circunstancial o prescindible, como ya venamos diciendo dentro de las ideas de las relaciones de sentido ), y que por tanto, es posible ya sea sintetizar por una parte, o descubrir por otra, un ncleo lxico que permitira imitar la funcionalidad de un lenguaje completo, al menos en una medida muy grande ( digamos, ms del 95 % ). Sobre esta base se han propuesto lenguajes artificiales que pretenden funcionar como interlingas, es decir, como lenguajes neutros capaces de traducir y ser traducidos a cualquier idioma, y tambin lenguajes susceptibles de ser considerados universales, y de ser en cierto sentido, lenguajes ideales, por ejemplo: el esperanto o el ingls simplificado ( o ingls bsico, desarrollado por Ogden
62

).

La idea es tentadora: considrese que un idioma como el castellano puede tener cientos de miles de formas de cita de lexemas.- se podra substituir su uso, por el de el ingls simplificado, que tendra menos de 1000 ? Respecto de preguntas como sta, deben precisarse equivalencias entre los elementos que hay en juego, las caractersticas del inventario lxico, las reglas de la gramtica en su totalidad, la funcionalidad y la capacidad expresiva que se obtiene, ya que es fcil perder de vista el esquema completo y caer en simplificaciones inconvenientes. Por otra parte, ha sido planteado desde hace por lo menos un siglo, que ciertos lexemas, y sobre todo, los elementos semnticos que esos lexemas incluyen, son ms bsicos que otros, cosa que puede o no estar relacionada con el hecho de que unos sean ms frecuentes y otros menos. Por ello hay dos estrategias lexicogrficas muy empleadas para la construccin de diccionarios y enciclopedias:

87

Una de ellas consiste en definir cada lexema incluido en el diccionario, en trminos de palabras ms bsicas, es decir, que si una definicin se entiende como una relacin entre un lexema a definir y un conjunto de lexemas que permiten definirlo, normalmente conocidos como definiendum y definiens respectivamente los ltimos tendran que ser ms bsicos que el primero. Siguiendo este razonamiento tendramos que elegir los lexemas ms bsicos segn algn criterio, que podra consistir en : a) alguna serie de consideraciones racionales, respecto al significado de los posibles lexemas candidatos a ser empleados en la definicin;

b) la frecuencia, criterio segn el cual seran ms bsicos los lexemas ms frecuentes. Una consideracin adicional que nos invita a examinar con mayor detalle estas posibilidades, es la de que en algunos casos, los encargados de confeccionar el diccionario, se obliguen a si mismos a no incluir en l ( se entiende que como definiens ) lexemas que no apareciesen en el propio diccionario como definiendum. Desde luego, una primera prevencin relacionada con la construccin de estas definiciones como las que normalmente se pueden consultar en los diccionarios, consiste en evitar crculos viciosos : en principio entre los definiens no debera incluirse al definiendum, y tendra que tenerse el cuidado de que a su vez ninguno de los definiens estuviese definido en funcin del definiendum, y as sucesivamente en toda la cadena de posibles definiciones vinculadas, en que los definiens de los definiens etc.

3.3.2 componentes de sentido.


Esta idea de evitar la circularidad en las definiciones, que ha estado en la mente de muchos filsofos, lingistas e ingenieros, induce hacia una propuesta, tambin varias veces explorada, en la que se conjetura que al final de las cadenas definitorias, tendran que encontrarse los ms bsicos de todos los elementos de la

88

construccin semntica, es decir, una especie de tomos de significado, con los cuales, debidamente combinados, se construyen todos los significados de los lexemas de un idioma. Se intuira as la nocin de postulados semnticos. Por una parte, la idea se concretara a la bsqueda de los lexemas de ese ncleo, y se tratara de definir las maneras vlidas de construir definiciones de los dems lexemas del lenguaje, tomando en algunos casos nicamente lexemas bsicos como definiens. Como puede verse, ste es otro camino para llegar a la idea del lenguaje ideal que ya hemos comentado, uno que se forma con muy pocos elementos lxicos y que tiene la misma expresividad que el lenguaje total, pero adems de consideraciones como stas, el hecho de que la mayora de los lexemas de dicho lenguaje fuesen resultado de operaciones formalizadas de composicin, tendra varias consecuencias respecto del entendimiento de lo que son en realidad los sinnimos, ya que este sera el caso extremo en el que se podra afirmar que todas las definiciones lo que identifican es precisamente esos casos. Pero tambin existe otra posibilidad, si se considera que los elementos bsicos significativos pueden ser unidades menores que los lexemas, del mismo modo que si las propiedades de la materia observable se manifiesta en molculas, esas propiedades derivan de las de los tomos que las constituyen. Se tiene entonces un doble problema : el de descubrir las unidades bsicas del significado, y el de descubrir las operaciones constructivas que son aplicables a dichos tomos. En ambos sentidos se han ensayado propuestas que no han satisfecho las expectativas. As como en el caso de los rasgos semnticos antes mencionados, el problema de proponer el conjunto suficiente de unidades bsicas ha resultado ms arduo de lo que en principio se sospechaba, y por su parte la definicin de las operaciones o si se quiere, de la lgica con que se podran componer los significados, tampoco ha dado los frutos esperados. Como puede verse, este enfoque puede parecer muy similar al de las relaciones de sentido, pero en ste planteamiento se incluye que es posible

89

comparar los elementos bsicos, que grosso modo corresponderan con los atributos, partes y funcin antes mencionados, para determinar otra clase de relaciones semnticas que podramos denominar analticas respecto de otros sustantivos, y adems supone que las unidades semnticas bsicas no necesariamente son, a su vez, lexemas del lenguaje. Un obstculo para conseguir un esquema satisfactorio de estos elementos bsicos del significado, surge de la imposibilidad de observarlos: a diferencia de los significados de los lexemas como materia prima del significado de la frase u oracin, en el caso de las unidades de significado pre-lexical, stas solamente pueden resultar de suposiciones, es decir como resultados de una teora. As postular la posible descomposicin de un lexema en determinados componentes de sentido se orientara segn los criterios que le resultaran ms convenientes a cada posible marco tericoXIII, y la comprobacin de que los componentes empleados es adecuada, se derivara de un anlisis de carcter lgico sobre los resultados de la composicin. Una situacin como sta no es extraa en la investigacin cientfica, y en nuestro caso exigira que fuese posible comprobar que los mencionados resultados compositivos fuesen aceptables, de acuerdo con lo que los hablantes del lenguaje natural en cuestin realizan. De este modo, si no hay manera de justificar la necesidad de que un componente de sentido de la palabra castellana hombre sea al rasgo que puede identificarse como humano, salvo por que se le considere de sentido comn, habra que comprobar que su inclusin en la teora o modelo, funciona bien. Por establecer un contraste, la construccin de la denominada base de datos lxica Wordnet a que ya hemos hecho referencia, se basa en evidencia psicolingstica , es decir, las relaciones entre lexemas ( o ms precisamente, entre los denominados sinsets ), no son resultado de introspeccin o de formalizaciones lgicas, sino de observacin del uso de los lexemas, y de experimentacin con los hablantes.
63

XIII

Un ejemplo son los compontes propuestos por Roger Schank y Robert Abelson dentro de la teora de la dependencia conceptual. Vese por ejemplo en Schank y Abelson Guiones, planes, metas y entendimiento, ed. Paids, 1987,Barcelona.

90

Una de las posibilidades empleadas en la determinacin de los posibles componentes de sentido, parte de dos suposiciones importantes : a) que no es necesario determinar todos los componentes de sentido de un lexema, sino slo aquellos que sean suficientes para discriminarlo de todos los dems lexemas
65 64

y b)

que dada la existencia de una forma de definicin que es frecuente, conocida como descripcin definida , en estas se expresa una propiedad, rasgo o componente de sentido lgicamente necesario, y que no es psicolgica ni lingsticamente improbable. Bajo esta perspectiva, los componentes de sentido que podran derivarse de este tipo de definiciones, seran confiables. Pero esta propuesta metodolgica no puede ir ms all de la disponibilidad de definiciones como las mencionadas, de manera que al ser estas insuficientes, se ha incluido la idea de que no slamente de las descripciones definidas se pueden obtener componentes de sentido sustentados, sino que tambin es posible reconocer la existencia de elementos independientes, por s mismos vlidos, que a partir de Carnap se han denominado postulados de significado, y que adoptan para el caso de la formacin de significados como si fueran teoremas, el carcter de axiomas. Conviene precisar que la idea de los componentes de sentido, como algunas de las que hemos ya revisado, si bien es un instrumento valioso para la formalizacin del significado lxico, es tambin una fuente potencial de malentendidos. En la medida en que los componentes de sentido sean ms y ms abstractos, las combinaciones que puedan realizarse de ellos, mediante operaciones vlidas en el esquema que se haya propuesto, generalmente conducen a paradojas, cosa que desde luego no es una caracterstica deseable en un planteamiento formal, y que no se puede decir con seguridad si es o no un rasgo del funcionamiento de la mente humana. Por otra parte, y considerando la hiptesis de que los distintos idiomas son traducibles entre s, y que no hay ninguna razn para que en algn lenguaje en particular exista una correspondencia exacta entre los lexemas y los componentes de sentido, esta nocin naturalmente se orienta hacia la posibilidad de construir

91

componentes pretendidamente universales, que sean la base de un lenguaje tipo interlingua en el que no necesariamente haya coincidencia con los lexemas de algn idioma especfico. Tanto en el caso de la bsqueda de lexemas bsicos, como en el caso de los componentes de sentido pre-lxicos, la posibilidad de identificar elementos comunes entre lexemas, da pie a la propuesta de existencia de los denominados campos semnticos, en los que entre similares, se detectan las diferencias. La investigacin lingstica en torno a las nociones de campo semntico o lxico, y a componentes o rasgos semnticos, que parece bien confirmada por experimentos psicolingsticos , ofrece algunas propuestas interesantes, a saber :
66

a) No todos los lexemas estn estructurados, solamente lo estn aquellos que son elementos productivos y funcionales del sistema de la lengua, es decir, se excluyen arcasmos, interjecciones, muchas terminologas y desde luego, los nombres propios.

b) Algunas de las propiedades o rasgos, pueden ser graduales, es decir, no estn determinados para su cumplimiento por el objeto que se pretende que denota un lexema, de un modo taxativo, sino borroso.

c) Las clases identificadas por los lexemas, de acuerdo a su posible descomposicin en rasgos, no necesariamente son mutuamente

excluyentes, es posible que un objeto est en varias clases ( y en todo caso en mayor o menor medida en cada una de ellas) denotadas por diferentes lexemas, simultneamente.

d) Es razonable suponer que los rasgos o componentes no se combinan mediante operadores simples o lineales, sino que se conforman para cada lexema, de acuerdo con una estructura sintctica, con reglas que pueden ser o no similares a las que rigen la sintaxis oracional.

92

Como puede observarse, las propuestas c y d, pero sobre todo esta ltima, parecen ser las que establecen una gran brecha entre el enfoque de los rasgos y el anlisis de relaciones de sentido que hemos revisado, ya que las dems no tendran que ser inaceptables en el esquema estructural, salvo por el hecho de que a y b nicamente plantean una mayor o mejor especificacin de la idea de relacin que se manejara.

93

3.4 Individuos.Debe resaltarse que, por lo menos en cuanto a las ideas en que se sustenta la construccin de ontologas, se asume la diferencia que existe entre incorporar una clase de objetos dentro de la estructura, particularmente de la de tipo taxonmica, y la de tratar de vincular a ella un individuo de alguna clase definida. No es lo mismo la vinculacin existente entre los elefantes como una clase de los mamferos, que la que puede existir entre el elefante Clyde de los ejemplos de Fahlman67 y la clase de los elefantes. Este ltimo es un individuo que para cierto uso comunicativo se identifica mediante un mecanismo de referencia, y no uno de denotacin, ya sea que se le cite mediante un nombre propio, o que se le seale mediante pronombres, demostrativos, etc. El cerebro humano, realiza una serie no bien determinada de operaciones que le permiten identificar a un objeto como un individuo, y adems, como un individuo de una clase definida, a partir de indicios. Esto configura un problema que hasta ahora ha resultado de muy difcil solucin para un proceso formalizado del significado de un texto. Pero an cuando fuese posible identificar la clase de objeto que un individuo es, los individuos son o pueden ser inefables, tienen las caractersticas de su clase ( con las excepciones y variantes que ya han sido mencionadas ) pero adems tienen una existencia peculiar, una historia propia, que muchas veces tiene que ser conocida y asumida si se ha de entender un texto en el que tales individuos sean citados.- Juan Prez, Jos Stalin, Hewlett-Packard, Repblica de Colombia, etc, son, adems de los individuos identificados por tales nombres propios, y que corresponden a clases de objetos, persona, empresa, pas, etc, entidades que han realizado o protagonizado una serie de hechos especficos, que en la medida en que son conocidos, le permiten a un lector de un texto que hable de alguno de ellos, entender alguna porcin del significado que el texto propone.

94

Ciertamente una parte de lo que significa un texto en el que se menciona a Ford en el sentido de la empresa automotriz, deriva de los hechos relacionados fenomnicamente con las caractersticas conocidas de todas las empresas de su mismo tipo, y de todas las empresas en general, pero tambin una parte de dicho significado tiene que ver con ciertos hechos que solamente la empresa Ford ha protagonizado, y respecto de los cuales hay dificultad en sealar cuales son los ms importantes para el texto particular en cuestin : a veces, estos hechos ms importantes son los ms recientes, y ocasionalmente no son recientes, sino que han tenido un impacto particularmente relevante para un segmento geogrfica, social, poltica, econmica o tecnolgicamente identificado, o bien estratificado de acuerdo con algunos otros criterios. Eventualmente se cita un individuo mediante un nombre propio, en un texto, que para el lector no tiene ms significado que el que deriva de la clase de objeto que es. Esto puede deberse a que el individuo en cuestin efectivamente no tiene rasgos particulares, o porque estos no son conocidos por el lector. Cuando este ltimo es el caso, de cualquier manera decimos que el lector entiende el significado del texto, an cuando ese entendimiento dista mucho de ser el mismo que cuando un lector conocedor lee el mismo texto: es comn que una persona que no est bien informada de la manera en que se est trabajando dentro de un mbito de actividades profesionales, al leer un texto de dicho mbito declare no haber entendido el contenido, cosa que no puede achacrsele estrictamente a irregularidades en el empleo del idioma, ni totalmente por la ocurrencia de terminologa o jerga. Esta es una experiencia que muchos seres humanos hemos tenido. A fin de cuentas, e independientemente de los efectos que pueda tener la historia de un individuo, en los textos o en las queries en que sea citado, una estructura de relaciones de sentido, o una ontologa como las mencionadas, debe disponer de una clase de relacin como la denominada es una instancia de, para sealar la pertenencia de un individuo a una clase, distinta de la relacin es una clase de que vincula clases, como en la teora de conjuntos se denota de un modo

95

la inclusin de conjuntos de una manera, y la membresa de un elemento al conjunto, de otra.

En resumen, en este captulo, hemos visto: Varias de las propiedades de los lenguajes naturales, desde el punto de vista de la lingstica, que se derivan de la gran complejidad que estos tienen. Se ha prestado particular atencin a las teoras que tratan de explicar el contenido o significado de expresiones en lenguaje natural, y que podran ser de utilidad para la bsqueda de documentos. Se repasaron varias de las ideas y modelos de anlisis lingsticos que tratan de simplificar el estudio de la estructura del lenguaje, y se identificaron las limitaciones que esas ideas han mostrado. Se ha hecho patente la serie de posibles relaciones entre las

unidades lxicas de un lenguaje natural, que en una u otra medida forman contextos, y que son variadas, complejas y difciles de tratar.

96

CAPTULO 4 ASOCIACIONISMO.
Los anteriores tres captulos de este trabajo, sirven de base para avanzar en la exploracin de las intrincadas relaciones que se dan entre unidades lingsticas, cuando con ellas se trata de configurar contenidos para la comunicacin, as como los medios formalizados ms bsicos con que el rea de estudio RI ha intentado abordar el problema de la localizacin. Veremos ahora la forma como ha intentado modelizarse ese complejo conjunto de relaciones entre palabras, para mejorar el desempeo de las mquinas de bsqueda ( Los modelos de que aqu se hablar se muestran en la regin derecha, central e inferior del esquema general ). El principio en que se sustentan las ideas que exploraremos, es conocido como de la associative retrieval que dice :

Es posible localizar informacin relevante, si se conoce alguna parte de ella y se siguen las lneas de asociacin que dicha parte tiene68.

4.1 El maleficio dimensional.Buena parte del trabajo de investigacin que se ha venido realizando sobre la nocin de representacin frecuentista, tiene que ver con combinar cada una de las posibilidades mencionadas, o todas ellas juntas, de un modo especfico, buscando mejores resultados : Se ha considerado el perfil global de los trminos y de los documentos, y la participacin local de dichos trminos en un documento, pero adems se ha experimentado adicionar asociaciones semnticas provenientes de fuentes externas como el diccionario, y se han buscado asociaciones locales ms precisas, a nivel de prrafos, o ventanas de tamao menor al prrafo, e incluso a nivel de oracin, apoyndose en algn caso con un anlisis sintctico superficial, de manera que adems de la semejanza global entre documentos, se exige una

97

cierta semejanza de mayor grado entre alguna cantidad de segmentos que pertenecen a los documentos en cuestin, y adems se trata de incluir en el anlisis la deteccin de rasgos del contenido ( features, identificadores objetivos ), etc. Como ya mencionamos, una caracterstica observable en los modelos en que se representan los documentos y las queries mediante trminos, es el de la gran cantidad de dichos trminos que suelen detectarse en cualquier coleccin. Dos ideas que se han ensayado en este sentido sin que se obtengan resultados que justifiquen el procesamiento adicional que estas suponen, consisten en :

a) Eliminar del espacio vectorial, aquellos trminos que no contribuyen a diferenciar significativamente los documentos, es decir, una vez hecha la evaluacin de las posiciones de los documentos empleando toda la coleccin de trminos, y de acuerdo con una medida de distancia, se calcula el promedio de las distancias entre documentos, se ensaya retirar uno de los trminos, se vuelve a medir la distancia promedio entre documentos, y si sta decrece respecto a la anterior, se retira definitivamente el trmino, y se ensaya con algn otro candidato. Esta opcin la ha denominado Salton modificacin del espacio .
69

b) Se aplica la idea de los clusters,pero en esta ocasin a los trminos. Si se ha encontrado que existe una distancia pequea o una correlacin en el empleo de varios trminos, se fusionan en uno slo.

4.1.1 Latent semantic indexing.


Recientemente, se ha venido estudiando la posibilidad de reducir el problema de la altsima dimensionalidad, y simultneamente utilizar la informacin respecto a la co-ocurrencia que puede indicar asociacin
70

semntica. (LSI), ha

Particularmente el enfoque denominado Latent Semantic Index

suscitado el inters de la comunidad que investiga en este mbito. Dado que la

98

representacin del vector space model, en su caso general, ser un matriz de M filas y N columnas, que como ya se coment, suelen ser nmeros muy grandes, y los vectores suelen contener una gran cantidad de ceros. Consideremos una matriz de correlaciones como la mencionada en la seccin 1.2.2 ( pg.32) conviene analizar las posibles descomposiciones de esa matriz en eigenvaloresXIV y eigenvectores, para los dos tipos de elementos, columnas y filas : En el primer sentido, se tendran correlaciones entre los trminos, y en el segundo, las correspondientes a los documentos. Denominemos entonces esa matriz de correlaciones, como A.

w 1 ,1 w 1 , 2 L w 1 , N A = M w M ,1 L L L w M , N

T =T SD

Las tres matrices T, S y DT que representan la descomposicin algebraica de la matriz A, pueden, en algunos casos ser calculadas. Las condiciones para ello implican que :

A A T = (T S ) (T S ) A T A = (D S ) (D S
Y adems : TT T = I DT D = I.

)T

Y finalmente la matriz S, es diagonal, y en su diagonal principal contiene los valores caractersticos del conjunto de matrices. De hecho, una vez que se logra esta descomposicin mediante el procedimiento propuesto por Berry , la idea es
71

XIV

Tambin conocidos como valores propios y vectores propios,o valores caractersticos y vectores caractersticos, en lgebra lineal, vase por ejemplo, Stanley I. Grossman, lgebra lineal, p 312, ed. Grupo Editorial Iberoamrica, 1988, Mxico.

99

utilizar los primeros k valores de la matriz S , y calcular una matriz reducida en dimensiones :

Ak = T k S k D k
Que sera la representacin ms breve que mantiene congruencia con la original, y contra la cual se podra comparar una query, una vez que el vector que la representa fuese a su vez convertido a uno del nmero reducido de dimensiones, mediante una operacin como la siguiente :

qk = TkT q.
En la que : q = la query original y; qk = la query modificada para que se represente en el nuevo espacio vectorial de menor nmero de dimensiones. La representacin lograda mediante el proceso de Singular Value Decomposition (SVD), que es la denominacin tcnica del fenmeno que permite conocer las matrices de T,S y D, contiene en efecto vectores ortonormales, en los que se asume que han sido eliminados los factores inciertos de variacin, en nuestro caso, los que se deben a la utilizacin de palabras con significado cercano o igual, que no se identifican mediante su forma, o que son semnticamente cercanas por cualquier otra razn, y que al reducir dimensiones no se pierde informacin, ya que la nueva representacin es ptima en el sentido de mnimos cuadrados de la diferencia entre la original y la reducida. Ms an, Bartell
72

et. Al.

Discuten que Latent Semantic Index ( LSI ) es un caso del proceso general de cambio de escala multidimensional que es parte de la teora matemtica de las medidas, y que resulta ser ptimo. Esta tcnica es una expresin ms del tantas veces observado fenmeno de intercambio entre espacio y tiempo dentro de una propuesta de procesamiento de informacin : en efecto permite reducir sustancial, y hasta espectacularmente el tamao de la matriz que representa a la coleccin de documentos, de miles de

100

trminos a solo unos cientos de ellos, pero lo hace con un alto costo de procesamiento, y al hacerlo se pierde la posibilidad de crear un index inverso : ya los documentos no quedan ligados a conjuntos de trminos visibles sino a las agrupaciones abstractas que los clculos generen. Adems, la actualizacin, al querer aadir nuevos documentos a la coleccin puede tener como costo un reprocesamiento completo de las matrices reducidas, que es altsimo comparado con las operaciones necesarias para actualizar el vector space model original, incluso si en este se han creado clusters, y las maneras de evitar este reclculo, son aproximaciones que pueden degradar la calidad de la representacin, y por lo tanto el desempeo del sistema que la utilice. En algunos casos se ha obtenido una eficiencia comparable, no mayor con Latent Semantic Index, que con el Vector Space Model clsico. La propuesta de LSI, es desde luego, una revisin de la hiptesis de que los trminos observables en una coleccin de documentos, son independientes, y al considerar las posibles influencias entre ellos, puede considerarse asociacionista.

4.1.2 El Vector Space Model generalizado.


Otro enfoque en que se ha reconocido la interdependencia entre los trminos que representan a los contenidos de los documentos, es el que se conoce como la generalizacin del Vector Space Model, propuesto por Wong et al73. Este modelo tiene como eje conceptual la existencia de vectores denominados minterms, en los que se representa la co-ocurrencia de algunos trminos, de hecho en este modelo se estudia la posibilidad de que cualquiera de todas las posibles combinaciones de coocurrencias, se den en algn o algunos de los documentos de la coleccin. Consideremos una representacin basada en vectores con tantas

dimensiones como trminos existan en el diccionario de una coleccin dada. En cada dimensin lo que habr de representarse es la presencia de un trmino, mediante un valor 1, y su ausencia mediante un valor 0. As, la representacin de la ausencia de todos los trminos, sera un vector como el que estamos describiendo, cuyo contenido seran N ceros. Tal vector, que es un minterm en la

101

nomenclatura empleada en este modelo, suele identificarse como m1. La representacin de la presencia del termino 1, junto con la ausencia de todos los trminos subsecuentes, sera otro vector o minterm con un 1 seguido de N-1 ceros, y as sucesivamente. Habiendo N trminos en la coleccin, se tendrn 2N minterms, siendo convencionalmente el primero de ellos, aquel en que se representan los documentos en los que no aparece ninguno de los trminos, y el ltimo aquel en que se representan los documentos en que ocurren todos los trminos. Cualquiera de estos minterms, puede ser activo en funcin de los documentos existentes en la coleccin, si efectivamente existe al menos un documento en el que ocurran los trminos sealados con 1, y no ocurran los sealados con 0. A su vez, con cada minterm, se asocia un vector unitario, ( vase figura 4 ).

Estos ltimos vectores, tienen la caracterstica de ser ortogonales entre s, y pueden servir como base para la generacin del espacio vectorial, pero esto no significa que se est modelando la idea de la independencia entre trminos, sino al contrario, cada vector asociado a un minterm, es una representacin de la coocurrencia de los trminos involucrados. Con estos elementos, y considerando: wi,j = Ponderador del trmino i en el documento j, como los vistos en la seccin 1.2.2 pg 30; Y: g(i, mr) = funcin que indica el valor 0 o 1 en la posicin i ( es decir el trmino i del diccionario ) del minterm mr. Entonces, la caracterizacin de un trmino, involucrara a todos los minterms en los que dicho trmino tiene valor 1, y que adems sea activo, es decir:

102

los N tminos

la coleccin de M documentos descritos por sus trminos: k2 0 0 1 0 0 1 1 1 k3 0 0 0 1 1 0 1 1

m1 m2 m3 m4 m5 m6 m7
N m2

k1 0 1 0 0 1 1 0 1

r m1 r m2 r m3 r m4 r m5 r m6 r m7 r mN

1 1 0 0 0 0 0 0 0

2 0 1 0 0 0 0 0 0

3 0 0 1 0 0 0 0 0

4 0 0 0 1 0 0 0 0

5 0 0 0 0 1 0 0 0

6 0 0 0 0 0 1 0 0

7 0 0 0 0 0 0 1 0

2 0 0 0 0 0 0 0 1

d1 d2 d3 dM

k1 .3 .5 0

k2 .4 0 1

k3 .3 .5 0

w1m w2m w3m

algunas configuraciones de minterms sern activas porque efectivamente existen documentos que las cumplan.

los 2 minterms, vectores de N dimensiones

los 2 vectores ortonormales, que tienen a N su vez 2 dimensiones.

Esquema de las operaciones del Generalized Vector Space Model

figura 4 .- Esquema de las operaciones del modelo generalizado del Vector Space Model.

r Vi =

r , g (i , m r

r ci , r m r )=1 c

2 r , g (i , m r )=1 i , r

Mediante esta expresin, se pretende calcular un vector representativo del trmino i, en el que se estn considerando los efectos de la co-ocurrencia de dicho trmino con cualesquiera otros, en los documentos de la coleccin. Para hacer tal cosa, el clculo utiliza una medida de correlacin entre trminos, Ci,r que es la suma de los ponderadores originales del trmino en cada documento en que l

103

aparece, en determinada coexistencia o co-ocurrencia con otros, y que es una alternativa de la vista en la seccin 1.2.2 pg 32, es decir:

c i ,r =
De manera que:

r d j g l , d j = g (l , m r ) l

wi, j

r r Vi V j = r g (i ,m

r )=1 g ( j ,m r )=1

ci ,r c j ,r

Permite calcular el grado de asociacin entre los trminos i e j. El costo computacional del Generalized Vector Space Model, es mucho mayor que el VSM clsico, y su desempeo no es mucho mejor que el ste .
74

104

4.2 Modelos sobre las estructuras.4.2.1 conexionismo y semntica.


Otro mbito de modelaje de RI en que las relaciones lxicas juegan un papel central, que utilizan el formalismo de los grafos, son las que se clasifican bajo la denominacin general de activacin por conexin ( spreading activation ) que incluyen, al menos, dos tipos de redes, las neurales y las semnticas. Por cuanto a las primeras, se ha intentado su utilizacin en RI, sin que hasta la fecha se obtengan resultados que en situaciones prcticas, con grandes colecciones de documentos, sean satisfactorios. Los dos formatos que pueden cubrirse en esta exploracin consisten en:

a) Representar a las queries y a los documentos como las dos capas externas de una red neural , la de ingreso y la de salida respectivamente, y utilizar una capa oculta ( hidden layer ), para representar a los trminos que se encuentran en los documentos, como se ilustra en la figura 5.. Como puede verse en dicha figura, entre la capa inicial y la intermedia hay flujo en un sentido, y entre la intermedia y la de salida lo hay en ambos sentidos. Cuando se est en la fase de entrenamiento de la red, una vez formulada una query, se activan los nodos de los trminos que la representan y se transmite esa activacin hacia la capa intermedia, que pondera la informacin que recibe generando como salida el resultado de alguna funcin. Es comn que se utilicen como datos para esas funciones, algunos ponderadores como los vistos en la subseccin 1.2.2. pg 30. Por ejemplo, consideremos que cada trmino de una query, tiene una ponderacin del tipo Wi,j , as un trmino significara en funcin del total de los dems de la query, lo siguiente:
75

105

w i,q =

w i,q

w 2 i,q

I =1

Cada nodo representante de un documento, a su vez ponderar la suma de sus entradas, y devolver la seal a los correspondientes nodos de la capa intermedia, rutina que se repite hasta que el decaimiento de las seales hace que su valor ya no sobrepase un valor de umbral predefinido.

Trminos en las Queries.

Trminos en los documentos t1

Documentos

d1

t1 t2 ti ti di d2

tj

tj

dj

tn

dk

dm

Una red neural para information retrieval.

figura 5.- Una red neural para aprendizaje a partir de las queries.

b) Otra posibilidad, consiste en utilizar una red neural como herramienta auxiliar para adaptar en lugar de expandir, los trminos de las queries . La idea en este enfoque se centra en adquirir conocimiento durante una fase de entrenamiento de una red con tres capas, que tanto en la entrada como en la salida tiene a vectores binarios que representan
76

106

a los trminos que pueden aparecer en las queries y en los documentos, de manera que empatando una query con un documento que se sabe que es relevante en relacin con ella, cada vez, la red asimila el patrn de relacin existente entre ambos. Por otra parte, se ha propuesto desde hace ms de una dcada, la utilizacin de representaciones a base de nodos y arcos dirigidos, en las que originalmente los nodos quedaban asociados con trminos, palabras o conceptos, y los arcos indicaban alguna clase de relacin entre los nodos, relacin que podra tener un nombre, ser susceptible de a su vez clasificarse, y tambin de recibir alguna calificacin numrica. Estas redes, frecuentemente denominadas redes semnticas, tienen una relacin estrecha con : a) El anlisis de naturaleza lingstica, ya explorado ( vase captulo 3 ), sobre las relaciones entre palabras; b) El estudio de las condiciones necesarias para que una estructura como la que resulta en una red de esta clase, sea lgicamente til, asunto que interesa a los investigadores del mbito de la Ontologa; y, entre otros temas propios de IA; c) La clase de procedimientos de clculo que pueden usarse para obtener inferencias, razonamientos, derivaciones o alguna otra clase de productos informativos de una red como estas. Un ejemplo muy comprensivo de este tipo de redes, es el ya antes mencionado sistema NETL, desarrollado por Fahlman para su tesis doctoral . En esta lnea de investigacin interesa disear de manera eficiente, la tarea de transmisin o propagacin de marcadores, dado que se hayan elegido uno o ms nodos de una red existente. Para ello se definira una etapa en que es vlida la realizacin de esta operacin de propagacin, es decir, que es vlida la posibilidad de cambiar el estatus de un nodo que sea vecino directo viable ( unido por un solo arco siempre que la direccin del arco seale hacia el nodo receptor de
77

107

la marca ) de otro nodo que en ese momento ya est marcado. El diseo de este tipo de procedimientos, puede hacer variar:

a) El uso de una funcin de activacin que transforme la intensidad de la marca que ingresa y la marca que sale de un nodo, ms o menos como ocurre en una red neural, y estas funciones pueden ser tipo step, lineales o sigmoides Escencialmente, la idea consiste en que cada vez que una marca pasa por un nodo, se desgasta, pierde algo de su intensidad original, hasta que llega a ser tan tenue que ya no es admisible su propagacin. b) Considerar como un criterio de propagacin, la distancia ( en este caso considerada como tal la cantidad de arcos ) a partir del nodo que di origen a la propagacin, es decir, detener el proceso cuando una marca se hubiese alejado tal determinada distancia respecto al nodo origen. c) Considerar el factor de apertura o grado de ramificacin.- detener el proceso de propagacin, cuando dicho proceso llegue a marcar un nodo que tenga un nmero muy grande ( de acuerdo con algn parmetro ), de arcos salientes. d) Establecer preferencias o heursticas respecto de algunas trayectorias de arcos, o modificando valores de umbral de algunos nodos. La idea que se busca con la propagacin de marcas, consiste en identificar con base en propiedades semnticas , los conceptos o trminos ( segn fuera el tipo de cosa representada ), ms cercanamente asociados con alguno o algunos de ellos, que sirvieron para originar tal propagacin, por ejemplo, para expandir queries. En las figura 6 se ilustra un ejemplo de estas redes, tomado del trabajo de Crestani ya referido.
78

108

Tambin se han explorado posibilidades de redes con nodos heterogneos, mediante los que se representan Trminos, documentos, artculos, journals, clasificaciones temticas, autores, etc; , y mediante la propagacin se busca detectar documentos que queden marcados por la propagacin, segn el principio de la associative retrieval ya mencionado ( vase fig. 7 ).
79

animal es-un

es-un persona es-un

pjaro puede tiene plumas es-un es-un pichn canario es-de-color vuela no-puede es-un tiene alas avestruz Fabio

a
Una red semntica para information retrieval

figura 6 .- Una red semntica para recuperacin de informacin.

Otra

manera

de

involucrar

una

representacin

semntica,

un

procesamiento a base de reglas, es el sistema RUBRIC ( Rule Based Information Retrieval by Computer)80. Esta propuesta considera la posibilidad de utilizar una transformacin de la estructura de un diccionario o thesaurus, ya sea manual o automticamente elaborado , como medio de representacin temtica, suponiendo que tanto cada query como cada documento, pueden contener evidencia parcial de una relacin significativa con un tema o tpico. El sistema RUBRIC, considera tres tipos de reglas de relacin entre trminos y tpicos, consideremos que:
81

109

trmino tesauro

trmino

a
autora documento

ocurrencia documento

trmino

index-por-tpico

cita,referencia

a
autor clasificacin fuente journal cita,referencia

fuente clasificacin documento

Representacin de los elementos de una coleccin de documentos mediante una red asociativa.

figura 7 .- Una red con nodos heterogneos para Recuperacin de Informacin.

, sean dos conceptos, sea un factor de certeza o de creencia, y que ,


indiquen implicacin ( material la primera, y condicional relevante, segn la semntica de este sistema la segunda ). Tendremos entonces tres tipos de conceptos caracterizables por reglas.Tipo 1).- Conceptos especficos, descritos por :

Si( ) ( ( )) entonces ( )
En la que el concepto sera ms especfico que el concepto . Por ejemplo, todos aceptaremos que los elefantes, los caballos y los perros son mamferos, sin duda: elefantecaballoperro mamfero.

110

En cambio, muchos diremos que la relacin inversa solo es cierta en alguna medida: mamfero elefantecaballoperro ().

, indica que puede pensarse en otras especies no includas en la lista que


aparece en el lado derecho de esta ltima implicacin, y es por tanto el grado en que esa relacin puede considerarse cierta. As, ese concepto elefante o caballo o perro es ms especfico que mamfero. Tipo 2).- Conceptos genricos :

Si( ) ( ( )) entonces ( )
En la que el concepto sera ms general que el concepto . Por ejemplo, ciertamente todos los elefantes tienen una gran nariz, y son mamferos: elefante mamferoobjeto-con-gran-nariz Pero lo contrario no es igualmente cierto : mamferoobjeto-con-gran-nariz elefante () As que elefante en el papel de es un concepto ms general. Finalmente.Tipo 3).- Conceptos posibles :

If ( ( )) ( ( )) then ( )

111

Que describira una situacin en que las dos posibles relaciones estn sujetas a un cierto grado de creencia, que ninguna de ellas subsume a la otra.
Acto_de_violencia 0,4 Modalidades_de_violencia 0,6 Disparos 0,7 Arma disparo Artefacto 0,5 pistola 0,7 rifle 0,9 bomba 0,6 explosivo 0,6 Bombardeos 0,8 Asesinatos muerte Daos_causados 0,8 lesiones

0,8 explosin 0,8 asesino

0,7 homicidio

rbol para base de reglas, del concepto actos violentos, adaptado de Kim et al, On Modelling of concept based retrieval in generalized vector spaces, ao 2000.

figura 8 .- rboles que sirven de base para las reglas del sistema RUBRIC.

Las reglas se aplicaran para procesar los smbolos ( conceptos y trminos ) representados en rboles que tendran dos tipos de arcos, correspondientes a condiciones de AND y OR, como el que ilustramos (figura 8): Entonces, una query o un documento, satisfaran con evidencia al concepto acto violento, si tuviesen alguno de los trminos que son nodos finales descendientes de modalidades de violencia, y alguno de los que son terminales descendientes de daos causados, y si as se indica en el rbol, en ocasiones la evidencia se conducira por OR, como en el caso del nodo Arma que podra ser pistola o rifle. En cualquiera de los casos, la evidencia tendra como magnitud el factor numrico anotado, y si no hubiere ninguno, se asumira que es 1.

112

Sistemas como RUBRIC, plantean un requerimiento que ha limitado su utilizacin: es necesario crear todos los arboles conceptuales, ya sea manualmente o por algn mtodo automatizado, sea en funcin de una coleccin concreta, o como conocimiento general del mundo. Recientemente se ha estudiado la manera de hacer automticamente esta estructuracin, pero an no se experimenta completamente la propuesta82. La nocin de la representacin por medio de grafos, ha tenido recientemente un nuevo impulso, ya no bajo la denominacin de redes semnticas sino grafos conceptuales o lgicas descriptivas, lgicas terminolgicas, etc; y en ambas corrientes de investigacin se ha pensado en la aplicacin de dichas ideas a los sistemas de RI. La primera de las mencionadas nociones, la de los grafos conceptuales, se basa en las propuestas de Sowa83, que establecen un formalismo que pretende una capacidad expresiva suficiente para representar descripciones complejas. Conviene sealar que en este formalismo se pueden observar planteamientos que responden a muchas de las caractersticas exploradas antes en relacin con el sentido, la denotacin y la referencia ( en el captulo 3 ).

4.2.2 lgica y estructuras.


Por lo que respecta a los modelos de RI basados en grafos conceptuales, pueden sealarse los que han sido propuestos por Ounis , Chevallet , y otros. Estos modelos, si bien se han presentado como una opcin adecuada para la bsqueda de imgenes ( fotografas, etc; ), tambin se proponen para la recuperacin de textos. Una idea fundamental en estas propuestas, es que la representacin de los contenidos a localizar, que en los modelos clsicos se ha orientado a trminos, no es suficientemente expresiva , que en ellos se pierde necesariamente la relacin semntica entre dichos trminos, y que es necesaria una alternativa en ese sentido. La alternativa propuesta como ya se mencion, son los grafos conceptuales de Sowa, sea para representar el contenido de los documentos, el de las queries
86 84 85

113

o los de ambos. Planteando as el problema, hacen falta los procedimientos para comparar una y otra representacin, mediante funciones de correspondencia . El principio en que se basa esta bsqueda de similitud de contenidos segn su expresin en grafos, es:
87

En el caso de los grafos conceptuales, la eleccin de un documento para satisfacer una query, depende de la existencia de una proyeccin ( projection ) del grafo representante de la query en el grafo representante del documento En la notacin empleada en estos modelos :

(q) = grafo que representa a la query; (d) = grafo que representa a un documento.
La proyeccin incluye la posibilidad de que los elementos ( conceptos ) que ocurren en un grafo particular, puedan ser a su vez estructurados en un orden parcial basado en relaciones de generalizacin/especializacin, de modo que, si la instancia de un concepto que aparece en un grafo, por ejemplo el de un documento, corresponde a una especializacin del concepto en el otro grafo, por ejemplo el de la query, se cumplen las condiciones para la proyeccin. Si todo el grafo del documento pudo ser comprobado en relacin con los conceptos de la query, se dice que uno de los grafos es una derivacin del otro. Vase la siguiente figura (fig. 9) en que se ilustra un par de grafos y la derivacin entre ellos. Como puede verse en la figura 9, la identificacin entre los dos grafos conceptuales, requiere la existencia de una taxonoma ( Una estructuracin peculiar de los conceptos mediante relaciones que constituyan un orden total, y que tenga determinadas propiedades, o como se suele denominar un lattice
88

de conceptos ),

en que sea posible si es el caso, comprobar que las palabras empleadas en la

114

Grafo de una query:


Hombre SentadoMueble

Humano Hombre Mujer

Mueble

Silla

Taxonoma

Hombre: Gabriel Faure

Sentado-en

Silla

A-la-izquierda-de A-la-izquierda-de

Sentado-en

Mesa

Respaldo

Grafo de un documento
Grafos conceptuales para information retrieval, adaptado de Ounis y Pasca.

figura 9 .- Un ejemplo de grafo conceptual para Recuperacin de Informacin.

query son una generalizacin de algunos conceptos. Tenemos as dos operaciones importantes en este esquema:

Ca Cb
Donde : Ca,Cb Son conceptos, es decir, son clases de individuos. Y:

115

<= Denota la relacin de generalidad/especializacin entre conceptos. Con la cual se constituye el lattice de conceptos, y que tambin se conocen como restricciones, para el caso, se dice que Cb puede restringirse a Ca. Por la otra parte, entre dos grafos, se define la relacin de derivacin entre dos grafos, que se denota as:

h < g
Dicindose que el grafo h deriva del grafo g, lo cual puede ocurrir si cada nodo conceptual de g puede proyectarse en h. En la literatura de estos modelos, al lattice de conceptos se le denomina Canon . Para un grafo dado, se cuenta con operaciones como : divisin ( split ), unin ( join ), simplificacin, copia ( copy ), restriccin, etc. Dada una coleccin de documentos, cada uno de ellos representado por un grafo, y dada una query representada de la misma manera, se tiene que comparar cada grafo de documento, con el grafo de la query, para ver si es una derivacin de ste ltimo. Como este proceso es de muy alta complejidad, se han estudiado fragmentos y opciones : Por una parte se ha restringido la expresividad de los grafos, por ejemplo a grafos simples, con relaciones didicas, especialmente el fragmento de conceptos existencialmente cuantificados, aunque el enfoque se ample al razonamiento no slo sobre los conceptos, sino tambin a las relaciones entre ellos como objetos de primera clase , y a fin de cuentas, se ha abordado el procesamiento de las operaciones de comprobacin de la derivabilidad de un grafo respecto a otro, mediante una traduccin de los grafos a conjuntos de clusulas definidas de Horn, de manera que cada grafo se interpreta como clusulas que forman una base de hechos que pueden ser manipuladas por un resolvedor de teoremas, por ejemplo PROLOG
91XV 90 89

. Los modelos se consideran como una vertiente

XV

Tngase en mente que PROLOG es un lenguaje, de la clase de los denominados declarativos,que en efecto est basado en un procedimiento especfico de solucin de conjuntos de clasulas de Horn.

116

lgica de modelaje para IR, de modo que el hecho de que un grafo sea derivable de otro: Proyeccin de (q) en (d); Es equivalente a la implicacin material:

( (d
Donde la funcin clusulas.

)) ( (q ))

Algunas caractersticas que merecen ser destacadas respecto al uso del tipo de representaciones vistas en esta seccin, son las siguientes :
92

a) No existe ningn sistema comercial de RI que est basado en una red semntica.

b) Se juzga que su mejor utilizacin sera combinando redes de este tipo con alguno de los modelos tradicionales.

c) La formulacin de las redes o grafos se ha venido haciendo a mano, dada la inexistencia de mtodos que permitan automatizar dicho proceso.

d) Se supone que pueden ser tiles para representar conocimiento del dominio al que pertenece una parte de la coleccin ( o en su caso la coleccin completa ). Otra posibilidad que se ha estudiado, tiene que ver con el empleo de la idea del condicional lgico, y la de probabilidades. Van Rijsbergen y Crestani , formularon un modelo basado en lgica modal y la semntica de mundos posibles
93

es la que permite convertir los elementos del grafo a

117
94

antes mencionada , en el marco de un principio diferente en relacin con la relevancia de un documento respecto de una query, a saber, el denominado Principio de la incertidumbre en la lgica, cuyo enunciado es el siguiente :

Dados dos predicados ( sentences ) x, y; una medida de la incertidumbre del condicional y x relacionado con una base de hechos o de datos, queda determinado por la mnima cantidad de informacin que hay que aadir a dicha base de hechos, que establezca la verdad de y x. Veamos esta nocin : Si hubiese un modo de caracterizar los elementos de nuestro problema de RI, de manera que y = documentoi , x = queryj , y se pudiera definir la semntica del condicional ( tngase en cuenta que en este caso, el smbolo no identifica necesariamente a la implicacin material ) y se conociese en las circunstancias especficas, el antecedente, se podra determinar el valor del consecuente. Sin embargo no hay suficiente informacin como para hacer tal, y no obstante se puede plantear la existencia de una probabilidad de que el condicional en cuestin, sea verdadero. Sea Pr, dicha probabilidad en:

Pr d i q j

Donde di es el documento i, qj es la query j. La anterior expresin denota la probabilidad de que dicho condicional tenga valor = verdadero. Desde luego que la informacin disponible, en ste como en los anteriores casos, es la presencia y en todo caso, la probabilidad de aparicin de los trminos que representan tanto a los documentos como a las queries. Cmo es posible estimar la probabilidad del valor de verdad del condicional cuando en algunas situaciones si y en otras no se cumple el antecedente, y no siempre se sigue una regla de dicho condicional respecto al valor de verdad de los dos elementos ? La respuesta que se propone en este modelo, consiste en que en

118

aquellas situaciones en que s se cumple el antecedente, es posible absorber o acumular las probabilidades que existen para las situaciones en que dicho antecedente no se cumple, y que son accesibles o cercanas. Aqu la palabra situacin es equivalente a la nocin de mundo posible ( vase 3.1.3 pg 70 ) . En el modelo, denominado por sus autores logical imaging, se ha asumido que los mundos posibles son los propios trminos ( si bien se consideraron otras posibilidades ), para los cuales ( o en los cuales ) adquieren valores de verdad los documentos y las queries, en tanto que dichos trminos ocurren o no en ellos. Los trminos tienen una distribucin de probabilidades de aparecer en los documentos de la coleccin, y algunos de los trminos tienen mayor o menor similitud unos respecto a otros, como ya se ha visto en anteriores enfoques ( co-ocurrencia, collocations, clusters de trminos, etc.). En primera versin, la transmisin de probabilidades que cumplira con la idea minimalista de cambio asumida en el principio de incertidumbre en lgica, se enfocara hacia el mundo ms cercano en que el antecedente se cumple. Si se ha decidido que los mundos posibles son los trminos, entonces, por una parte, ellos tendrn una funcin de distribucin de probabilidades que cumpla con :

Pr (t i ) = 1

i =1

Donde ti es cada trmino del diccionario de la coleccin y Pr su probabilidad. Crestani y van Rijsbergen , han desarrollado, como consecuencia de la anterior distribucin de probabilidades, el mtodo de clculo de la probabilidad del condicional, para llegar a la siguiente forma:
95

Pr (d i q ) = Pr

def

di

(q ) =

Pr t

j =1

( ) (t
j

j,d

,q
i

Donde :

119

(tj,di,,q) es la funcin que distribuye la probabilidad de los trminos que


vinculan a la query y a un documento di, ya sea porque se trata de un trmino tj que aparece en ambos, o bien porque aparece en la query y se trata de un trmino ms cercano al original tj ( es decir, es el mundo ms cercano en que se cumple el condicional ).Formalmente esta funcin se define como:

(t j , d i , q ) =

1 si y slo si q es cierto en t j , d i 0 en caso contrario.

t1

Pr(t1)=0,2

t2

Pr(t2)=0,1 d=0 q=0

d=1 q=1

Pr(t3)=0,0 5 d=0 q=0 t5

t4

Pr(t4)=0,2 d=0 q=1

Pr(t5)=0,3 d=1 q=0

t6

Pr(t6)=0,1 5 d=1 q=1

Trmino ms cercano en que se cumple t en d. Estado original de distribucin de probabilidades entre trminos. ( adaptado de A study of probability kinematics in information retrieval, documentos del proyecto FERMI).

figura 10 .- Un esquema de distribucin de probabilidades y de cercana entre mundos, segn Logical Imaging para Recuperacin de Informacin.

La figura 10, es til para ilustrar este planteamiento. En esta figura se muestra un conjunto de mundos posibles cuyo papel lo estn desempeando los trminos {t1, t2, t3, t4, t5 y t6}, que segn se indica en cada uno de ellos, ocurren o no en un documento d, y en una query q. Como puede verse, asociados con cada uno de estos posibles mundos aparece una probabilidad a priori de la ocurrencia de cada uno de dichos trminos ( los mundos ), y una indicacin de la relacin de accesibilidad de el mundo ms cercano a t en que d se cumple. Los datos

120
96

numricos han sido tomados del ejemplo que aparece en , y vale la pena advertir que se han propuesto como formas de clculo de ambas, las siguientes: Para las probabilidades a priori :

Pr (t i

)=

usot log N

= idf

Es decir, el ya mencionado ndice de frecuencia documental inversa ( subseccin 1.2.2 pg 34 ). Por lo que respecta a la identificacin de la relacin de accesibilidad, es decir, la identificacin del mundo ms cercano en que se cumple el antecedente:

EMIM t i , t j =

t ) Pr (t , t ) log Pr (Pr )(t ,Pr ()t ) t


i j i j i, j i j

Que es el antes mencionado ndice de valor esperado de informacin mutua


97

( secc. 1.2 ) , cuyo propsito es sealar un grado de asociacin en el

contenido de informacin de cada par de trminos, en el que se computan las posibles combinaciones de que aparezca cada trmino sin el otro, ambos juntos, o ninguno de los dos en cada uno de los documentos de la coleccin. Este ndice es muy demandante de procesamiento de datos, ya que implica la contabilidad de coocurrencias de cada par de trminos, ya que cualquiera de las posibles parejas de trminos ser requerido ante alguna query, contabilidad que podr hacerse en ventanas de tamao definido, dentro de los documentos . De hecho Crestani y van Rijsbergen sealan que el modelo es especialmente sensible a una valoracin lo ms exacta posible de esta cercana99. Dada la demostracin de Lewis, de que el mundo ms cercano en que se cumple el antecedente, existe y es nico100, y que en caso de empate, se puede decidir arbitrariamente, y dadas las anteriores convenciones, se transmitiran las
98

121

probabilidades para configurar una situacin que se ilustra mediante la siguiente figura ( fig 11 ). Puede verse en la fig.11 que las probabilidades asociadas a los trminos, se redistribuyen de manera que :

Pr (t i

i =1

)=

Pr'

(t i ) =

i =1

Que en palabras de sus desarrolladores, puede interpretarse como que las probabilidades no se crean ni se destruyen, slo se redistribuyen, y dado que slo t1, t4 y t6 satisfacen la query, entonces el documento d adquirira una probabilidad de hacer verdadero al condicional, es decir, de indicar que el documento es relevanteXVI para la query, de : Pr(t1)+Pr(t4)+Pr(t6)=0,3+0+0,15=0,45. Como puede verse, este modelo est estrechamente ligado tambin al principio de associative retrieval antes mencionado.
t1 Pr(t1)=0,2 t2 Pr(t2)=0,1 d=0 q=0

d=1 q=1 Pr(t1)=0,2+0,1=0,3 t3 Pr(t3)=0,0 5 d=0 q=0 t5 t4 Pr(t4)=0,2 d=0 q=1 Pr(t5)=0,3 d=1 q=0

Pr
Pr(t4)=0,0 Pr(t6)=0,1 5 d=1 q=1 Pr(t6)=0,15

Pr(t3)=0,0

t6

P(t5)=0,3+0,05+0,2=0,55

Trmino ms cercano en que se cumple t en d. Estado final de distribucin de probabilidades entre trminos, de acuerdo a la tcnica de Logical Imaging.

figura 11 .- El efecto de los cambios en la distribucin de probabilidades segn Logical Imaging.

Los mencionados autores discuten que para identificar la veradera relevancia de un documento para una query se tendra que considerar no solo la probabilidad de d q sino tambin la de q d.

XVI

122

Entre otras cosas, se ha planteado que la redistribucin de probabilidades que se realiza en este modelo, se sesga inadecuadamente hacia parejas de trminos en los que uno de ellos est en un contexto poco frecuente
101

, y que

adems el supuesto de la unicidad del mundo ms cercano es dbil, de modo que se ha propuesto una generalizacin: General logical imaging, en la que se considera que cada trmino o mundo en que no se cumple el antecedente, reparte sus probabilidades a los mundos en que s se cumple dicha condicin, de acuerdo con una funcin juiciosa ( opinionated ). Las primeras propuestas de esta nocin, se basan en funciones juiciosas de probabilidad simples, en las que se considera por ejemplo que al mundo ms cercano le corresponde mayor parte de las probabilidades, al siguiente mundo segn su distancia, una porcin menor y as sucesivamente. En trminos prcticos, se considerara una cantidad fija de mundos cercanos en cada caso, digamos 10, y a cada uno de ellos le correspondera el doble que al siguiente, cumpliendo con que la suma de estas fracciones sea el total a distribuir. La idea se ilustra en la figura 12 Considerando esta nueva distribucin de probabilidades, y dado que el ejemplo contina asumiendo que slo t1, t4 y t6 se satisfacen en la query, la relevancia del documento ser : Pr(t1) + Pr(t4) + Pr(t6) = 0,33+0+0,2=0,53. Conviene destacar que en estos dos modelos basados en una evaluacin probabilstica de un condicional lgico, se est considerando el mismo fenmeno asociacionista respecto a los trminos, que se ha buscado modelar en Latent Semantic Index y en las redes inferenciales, a diferencia de los enfoques clsicos, en particular el del Vector Space Model y el Booleano, en que los trminos se consideran estadsticamente independientes. Por otra parte tambin es de sealarse que en los modelos de Imaging, se aproxima la probabilidad a priori, de modo que requiere ajustes, ya que los estimadores elegidos, los IDF, no suman 1 sobre todos los trminos. Finalmente conviene dejar dicho que la generalizacin de Imaging, tiene tambin como interpretacin, que un trmino ( un

123

mundo en estos modelos ) ocurre en menor o mayor medida en un documento y en otros, cosa que hace que la distribucin de las probabilidades de los trminos que no aparecen en un documento dado, hacia los trminos cercanos, tambin responda a esa menor o mayor presencia de stos ltimos en el documento en cuestin.

t1

Pr(t1)=0,2 1 2 t4 1 1 t5 Pr(t5)=0,3 d=1 q=0

t2

Pr(t2)=0,1 d=0 q=0 Pr(t2)=0,0

d=1 q=1 Pr(t1)=0,2+(2/3)0,1+(1/3)0,2=0,33


P(t1)=0,2+0,1=0,3

t3 Pr(t3)=0,0

Pr(t3)=0,0 5 d=0 q=0

Pr(t4)=0,2 d=0 q=1 Pr(t4)=0,0

t6

Pr(t6)=0,1 5 d=1 q=1 Pr(t6)=0,15+(1/3)0,05+ (1/3)0,1=0,2

Pr(t5)=0,3+(2/3)0,05+(2/3)0,2=0,47 2 n

Trmino cercano en que se cumple t en d. El nmero indica el orden de cercana.

Distribucin de probabilidades entre trminos, de acuerdo a la tcnica de General Logical Imaging.

figura 12 .- Redistribucin de probabilidades segn la generalizacin de Logical Imaging.

124

4.3 Modelos basados en informacin situacional.A mediados de la dcada de los 90, Van Rijsbergen y Lalmas
102

propusieron un enfoque que si bien se ha clasificado dentro de los de tipo lgico, como aplicacin al problema de RI, resulta novedoso y bastante distinto de los otros. Las ideas fundamentales en que se basa esta nueva propuesta, derivan de la teora conocida como situacional, que estos autores denominan el enfoque DBD por Dretske, Barwise y Devlin, autores que han contribuido a formalizar dicha teora. La propuesta plantea una conceptualizacin que en su parte central contiene las siguientes ideas:

a) Los hechos ( sean las proposiciones o los predicados ) han sido tradicionalmente considerados interpretables en lgica, como ciertos o falsos. En cambio el enfoque situacional considera que los hechos son elementos de la descripcin de un objeto dentro de la cual aportan informacin. Este objeto, cuya descripcin suele ser parcial, a travs de conjuntos de hechos, es el que se llama situacin, y los elementos de su descripcin, correspondientes a los hechos, se denominan infons. Los infons y las situaciones estn inextrincablemente ligados: las situaciones solo pueden ser descritas parcialmente , cosa que en la teora se hace a travs de infons, y un infon slo adquiere un status de verdadero, dado que se ha identificado la situacin en que tal infon puede ser extrado
103

Adems un infon puede corresponder a que cierto hecho ocurre o no ocurre, cosa que se expresa mediante una caracterstica denominada polaridad. Los infons dan pie a la existencia de las situaciones, y a su vez obtienen su estatus de verdaderos a travs de ellas. Esta interdependencia suele expresarse as:

= R , a1 , a 2 L a n ; pol

125

Donde: ai = objetos relacionados entre s.

= un infon y ;
pol = polaridad, pol: {0,1}. R= Nombre de la relacin que se reconoce entre los objetos a1, a2, etc. Y adems:

sitd
Donde sitd representa a una situacin, por ejemplo un documento, y se lee como soporta ( support ) al infon .

b) A diferencia de los otros enfoques, en este se plantean cuestiones ms directamente comparables con los mecanismos y procedimientos que los seres humanos empleamos para identificar, buscar, estructurar e interpretar informacin. En la teora y en su adaptacin a RI, se propone que la informacin se puede encontrar en dos estados distintos en una posible fuente: el estado analgico, en el que dicha informacin no est compuesta de unidades diferenciadas que sean manipulables para un propsito concreto, por ejemplo, tal como se encuentra en un documento extenso, o como puede encontrarse en una imagen, una fotografa, etc y el estado digitalXVII, que es el resultado de que un agente capaz de entender dicha informacin, la transforma en esas unidades que en la teora quedan representados por los infons. Entender el proceso de digitalizacin

XVII

Los trminos analgico y digital en este contexto, han sido empleados metafricamente por Dretske. Vase por ejemplo F. J. Dretske .- Knowledge and the flow of information, Basic Blackwell Publisher, Boston, 1981.

126

requiere que se tomen en cuenta los fenmenos de percepcin y de cognicin. El primero de ellos significa que el agente capaz de digitalizar, tendra que poder percibir las seales analgicas que emite una fuente de informacin, cualquiera que sea la forma fsica que estas tuvieren. El segundo tiene que ver con dos capacidades bsicas del agente en cuestin: focalizar, ser selectivo en trminos de un propsito o de cualquier otra base intencional, de manera que ante una cantidad potencialmente enorme de posibles unidades de informacin, se elijan algunas y se ignoren otras. Pero adems de esta posibilidad de discriminar, el agente tendra que ser capaz de interpretar y crear conexiones entre las unidades de informacin de que se trata, y el conocimiento general del mundo, o bien del dominio especfico al que correspondiera la informacin en cuestin
104

c) Los medios para manipular la informacin una vez que esta ha sido digitalizada, se constituyen por condiciones que o bien forman parte de la naturaleza del mundo, condiciones nmicas
105

han

sido

convencionalmente estructuradas por los seres humanos. Para representar esto, la teora parte de la identificacin de tipos de situaciones, es decir, de conjuntos de infons que o bien han quedado ligados por alguna razn de las antes mencionadas, o bien tienen la misma estructura y tienen parmetros, es decir, no se refieren a hechos especficos, o bien a una combinacin de ambas cosas. Los tipos de situaciones, a su vez pueden estar ligados por condiciones como las antes mencionadas, que en la teora se denominan restricciones. Un vnculo de este tipo, acarrea informacin respecto de los infons que los dos tipos de situaciones contienen. Pero tambin a nivel de las situaciones concretas, se pueden descubrir y describir vnculos, a los que en la teora se les denominar canales. Tanto en las restricciones como en los canales, se describe que al observarse uno de los dos elementos ( tipo o situacin ), se tiene evidencia de que el otro est

127

ocurriendo. A estas posibilidades de producir nueva informacin a partir de alguna ya existente se le conoce como flujo de informacin. Formalmente:

= s itd s itd = R , " c adena 1" , " c adena 2"L " c adenaN " ;1

Define un tipo de situacin , es decir, conjunta a todas las situaciones sitd que tienen los elementos de infons comunes, en este caso parametrizados. A su vez, los tipos quedan soportados es decir, se podr asumir su presencia en cierto momento, si es que se observa una situacin como las que definen al tipo:

Dado lo anterior, las vinculaciones por restriccin o por canal, se expresan de la siguiente forma:

Es una restriccin que indica que el tipo de situacin considerar la ocurrencia del tipo de situacin tipos de situaciones:

2.

Esto a su vez, establece un vnculo

de la misma naturaleza entre las situaciones que soportan a cada uno de los dos

s itd A 1

s itdB 2
Se interpreta como que dada la restriccin, observar sitdA, es evidencia que permite pensar que ocurre sitdB. Por otra parte, si no existe una restriccin como la antes expresada, puede existir un canal que vincule a las dos situaciones directamente :

s itd

1 2
1

, obliga siempre a

128

sitd

a sitd

Ms an, las restricciones pueden quedar condicionadas a la ocurrencia o existencia de un conjunto de condiciones de respaldo ( background conditions ), que en palabras de Devlin, son condicionantes que el ser humano habitualmente pone en juego, y que en un formalismo suelen no ser requeridas hasta que se observa que sin ellas, las restricciones fallan la siguiente manera:
106

. Las restricciones condicionadas,

que suelen ser representadas por conjuntos de tipos de situaciones, se expresan de

1 2 B
Es decir, esta restriccin tendra sus efectos, siempre que: B = { 1,2,3 r} sitd A 1 sitdA i

i B

d) La teora se fundamenta en que el significado de la informacin contenida en los documentos y en las queries, no es equivalente a la informacin que contienen. En palabras de van Rijsbergen y Lalmas las asociaciones ( entre trminos ) han sido frecuentemente medidas con base en alguna clase de medida de informacin. La idea ha sido que si dos trminos se hallan fuertemente vinculados en un sentido de teora de la informacin, esto indica una cercana asociacin semntica, desde el punto de vista de establecer relevancia..... Esto es similar a decir que una alta correlacin entre dos variables implica que entre ellas existe un vnculo causal, lo cual es manifiestamente falso.... basar la deteccin de asociaciones sobre bases puramente estadsticas esta destinado a fracasar, o a conducir a mejoras marginales en RI
107

129

Por una parte, estos autores proponen que las co-ocurrencias estadsticas, en conjuncin con un enfoque semntico, permitirn detectar asociaciones importantes, pero adems introducen en la discusin, un elemento de gran inters : La capacidad que puede tener un objeto, para contener informacin sobre otro, que en esta teora se identifica con el trmino ingls aboutness y que podramos traducir al castellano como consustancialidad ( podra pensarse que es ms evidente la traduccin a pertinencia, pero este trmino se emplea ms adelante (secc. 5.1 ) para otro rasgo en los sistemas de RI ). En efecto, en esta teora se propicia una nueva discusin sobre las
108

propiedades formales .

que

esta

consustancialidad puede tener, que determinan el desempeo que un sistema de RI con una definicin propia de tal caracterstica

e) Si bien no hay implementaciones que respondan cabalmente a las propuestas de este modelo, se han planteado las lneas generales de alguna implementacin, as como algunos principios, a saber:

Determinar

la

relevancia

consiste

en

calcular

la

informacin contenida en un objeto ( por ejemplo, un documento ), acerca de otro ( por ejemplo, una query ). Este problema reside en la identificacin del flujo de informacin entre el documento y la query.109 Adems, la representacin de los documentos, proceso que hemos conocido como indexacin, tendra que plantearse como uno de digitalizacin en el sentido de Dretske, y podra tenerse como marco general, el propuesto por Lalmas
110

segn el cual los documentos podran ser considerados como situaciones de las cuales se podran extraer infons, las queries podran caracterizarse como tipos de situaciones, y a partir de conocimientos de tipo general ( de sentido comn ), por ejemplo, los contenidos en un tesauro o especializados sobre algn dominio especfico, podran encontrarse las restricciones. Asimismo, podra definirse cada mtodo de bsqueda, como un canal.

130

CAPTULO 5 CONCEPTOS EN LOS MODELOS


5.1 Evaluacin y Relevancia.Habiendo ya revisado los principales planteamientos de los modelos de recuperacin de informacin que nos interesan, conviene ahora estudiar como se evalan los resultados que produce alguno de dichos sistemas. Existe y ha existido desde que este tipo de sistemas originalmente fueron propuestos, una discusin sobre el tipo de indicadores que podran permitir medir la bondad de dicho funcionamiento, o por lo menos, comparar el funcionamiento de dos de ellos. En buena parte del material hasta ahora expuesto, nos hemos estado refiriendo, sin definirlas, a algunas nociones en relacin con los sistemas de RI: al hecho de que estos tienen segn el caso, un grado menor o mayor de acierto, o que generan algunos grados de satisfaccin a sus usuarios. El problema de caracterizar formalmente los criterios y procedimientos a seguir para determinar el nivel de dichas bondades que se puede asociar a cada modelo, y a cada implementacin de ellos, no ha resultado simple, ni ha quedado definitivamente resuelto, frente a colecciones de documentos de diferente composicin, tomando en cuenta conjuntos de diferentes queries. En efecto, cuando el problema se planteaba en trminos del modelo Booleano, los resultados dada una query especfica, tendran que configurar como mencionamos una particin ntida del conjunto de documentos, en que quedaran separados los que el sistema eligiera de aquellos que no eligiera, y de acuerdo con la conceptualizacin antes vista, esto correspondera al criterio de la supuesta relevancia, es decir, a que partiendo de que se pensara que unos documentos en realidad seran relevantes y otros no, y as seran separados. Desde luego que dadas todas las posibles contingencias, los sistemas de RI no siempre acertaran al realizar esa tarea de discriminacin.

131

Por lo anterior, se plantearon algunas ideas respecto de los aciertos y los errores de estos sistemas : en el grupo de los documentos considerados elegidos por el sistema, podran encontrarse documentos relevantes y no relevantes, y entre los no elegidos, podra haber no relevantes y tambin relevantes. En los dos casos, entre los documentos elegidos tanto como entre los que no lo fuesen, existiran algunos errores. En funcin de dichos errores, se propusieron dos ndices bsicos: precisin ( en ingls precision ) y cobertura ( en ingls recall ). En efecto, si consideramos una query, una coleccin y un sistema especficos, la situacin podra ilustrarse como en la figura 13

Coleccin de documentos Documentos Relevantes= d r Documentos Elegidos= d e

Diagrama de Venn sobre documentos elegidos y documentos relevantes segn un sistema

figura 13 .- Conjuntos de documentos relevantes y documentos seleccionados por un sistema de Recuperacin de Informacin.

Como puede observarse en dicha figura, tericamente slo seran aciertos del sistema, las decisiones de haber elegido a los miembros de la interseccin der = de dr, de manera que111 :

der= |der| Nmero de documentos relevantes = cardinalidad del conjunto dr = |dr|. Nmero de documentos elegidos = cardinalidad del conjunto de = |de|.

Nmero de documentos relevantes y elegidos = cardinalidad del conjunto

132

precisin

= precis ( q ) =

d er de

Es decir, la precisin mide la proporcin de documentos elegidos que son relevantes, respecto al total de los que fueron elegidos, dada la query, y :

cobertura

= cober ( q ) =

d er dr

La cobertura ( recall ) mide la proporcin de documentos elegidos que son relevantes, respecto del nmero de relevantes que hay en la coleccin. En el mejor de los casos, los tres conjuntos mencionados y por tanto sus cardinalidades seran iguales, con lo cual tanto la precisin como la cobertura tendran como valor 1, en tanto que en el caso general, su valor estara en el intervalo [0,1]. Estas dos han sido histricamente las nociones ms empleadas en la evaluacin, si bien tambin se ha considerado al complementario sobrante ( fallout ), definido como la proporcin de documentos no relevantes que fueron elegidos, en relacin con el total de estos no relevantes en la coleccin112. Los anteriores ndices de relevancia, tienen tres carencias:

a) Estn definidos en trminos de una query especfica, de modo que habra que calcular alguna clase de promedio de los resultados para un conjunto de queries, de manera que as se obtendran ndices de la efectividad de un sistema.

b) Cada uno de los ndices est orientado a un aspecto del funcionamiento.la precisin hacia no presentarle al usuario documentos que se sospecha que no le interesan, en tanto que la cobertura hacia no dejar de

133

presentarle documentos que se sospecha que s le podran interesar, en ambos casos, en funcin de la nocin de relevancia, y sera deseable que hubiese un solo ndice, que combinara la informacin de ambos. De hecho se han propuesto diversas funciones en que los valores de precisin, cobertura o sobranta, se combinan
113

, si bien ninguno de estos ndices

combinados ha adquirido un carcter de estndar, como si lo han tenido la precisin y la cobertura, incluso en los programas Text Retrieval Conference (TREC) auspiciado por DARPA y el National Institute of Standards and Technology de los EE.UU
114

c) Estos ndices no podran aplicarse en su forma original si se dispusiera de un concepto de relevancia medible en grados, es decir, no un concepto que considere que tal o cual documento es relevante o no lo es, sino que el documento en cuestin, tiene un grado de relevancia para alguna query especfica.

En relacin con el inciso b anterior, un hecho comprobado a lo largo de todas las experiencias de los diferentes modelos de RI, es que precisin y cobertura estn relacionados inversamente, a medida que aumenta la cobertura disminuye la precisin, es decir, la nica manera que han encontrado los modelos, de poner a disposicin del usuario un nmero mayor de documentos sobre los que se tiene algn grado de evidencia de que son relevantes, implica incluir en la lista de elegidos, muchos que no son relevantes, llegndose a una situacin que muchos usuarios de mquinas de bsqueda en la WEB conocen bienXVIII: dada una query, se obtienen listas desproporcionadamente grandes de documentos posiblemente relevantes, que generalmente exceden en mucho a lo que el usuario realmente

Ounis y Pasca ilustran con un ejemplo interesante, su artculo Modeling, indexing and retrieving images using conceptual graphs, Universidad de Grenoble, 1998, donde a una necesidad informativa planteada de diversas maneras en una mquina de bsqueda ( AltaVista ) obtienen decenas y hasta cientos de miles de referencias, vese p2.

XVIII

134

podr leer an superficialmente, slo con el propsito de comprobar si se trata o no de materiales que le son tilesXIX. El problema de la evaluacin, sigue siendo un tema abierto a la investigacin, y la discusin sobre los planteamientos bsicos, sigue siendo fructfera: el modo como funciona un sistema, y sus productos resultantes son, deben ser, o pueden ser evaluados por el usuario, o son, deben ser o tienen que ser evaluados mediante una caracterstica o conjunto de ellas, que son totalmente objetivas, y que no varan en funcin del usuario de que se trate ? Como puede apreciarse en las anteriores descripciones tanto de los ndices de efectividad como de los modelos en s mismos, se ha partido de la base de que se tiene una definicin bien formulada de lo que la relevancia es, y de acuerdo con ella, tiene sentido afirmar, como se ha hecho, que hay evidencia de que algunos documentos son relevantes o que algunos son ms relevantes que otros, que es lo que se ha considerado cuando se dice que hay tal o cual nmero de documentos relevantes que han sido elegidos. En los hechos, se ha recurrido a colecciones ( corpus ), en que el juicio de la presunta relevancia entre documentos y ciertas queries, ha sido formulada por paneles de expertos, de manera que han servido como benchmarks, baremos o patrones de comparacin. Por lo dems, contina sin resolverse el problema de si la relevancia est bien definida como concepto, y si es posible traducirla a decisiones concretas ante una coleccin documental dada y un conjunto de necesidades informativas, por ello, van Rijsbergen et al
115

, Korfhage

116

, y otros, plantean

diversas apreciaciones en torno a diferentes niveles en que las convenciones hasta ahora operantes en torno a los modelos de RI seguirn siendo vlidas. Segn estos autores, puede pensarse en tres niveles de anlisis en que los conceptos deben ser examinados cuidadosamente: el ms evidente, que

XIX

Ounis menciona que slamente el 20% de los usuarios de una mquina de bsqueda en la WEB, van ms all de la primera pgina de respuestas, segn estadsticas de SIGIR97, en Un modele dindexation relationnel pour les graphes conceptueles fond sur une interpretation logique p2, tesis doctoral, Universidad Joseph Fourier, 1998.

135

corresponde a la forma en que los sistemas le presentan sus resultados a los usuarios, nivel en que se ha tratado de formular ndices de funcionamiento orientados al usuario, por ejemplo, unos en que se tome en cuenta el trabajo que el usuario tendr que realizar para revisar y encontrar dentro de la lista de resultados, por ejemplo la longitud esperada de la bsqueda y los ndices de novedad, frustracin o satisfaccin117, los materiales que realmente le son tiles, y que desde luego tratarn de eliminar la mayor parte del trabajo innecesario o frustrante, e inducir modificaciones en los modelos para conseguir tal fin, o bien en otro sentido, y de hecho en la lnea que separa a la disciplina de RI con otras reas del desarrollo de aplicaciones informticas, adicionando a los sistemas con interfaces dotadas de mayores y mejores prestaciones. En un segundo nivel, se plantea la duda respecto de la nocin que rige en todos los modelos, de que lo que el usuario expresa como requerimiento de informacin, por ejemplo cuando escribe una pregunta o unas palabras ante una mquina de bsqueda, tiene un modo de traducirse en una query que resultar funcional en trminos de los sistemas. Muchos de los autores citados, sealan que debe plantearse rigurosamente la duda de que los posibles usuarios de un sistema de RI, tengan la capacidad de formular de manera adecuada, un requerimiento de informacin, que realicen una apropiada seleccin de palabras para identificar su necesidad informativa, que sepan que los materiales que buscan, existen, tienen determinada forma, y que formulan su requerimiento con el grado de concrecin que les conviene, de manera que no estn induciendo al sistema de RI, a generar una respuesta conformada por un nmero de documentos entre los que hay algunos que no le interesan al usuario. Despus de todo, como ya se mencion antes, los usuarios suelen proponer queries muy breves ante las mquinas de bsqueda que funcionan en la WEB, en algn caso menores a dos palabras
118

, y Xu reporta en su disertacin, que cuando

mucho el 20% de las veces, un par de personas usarn los mismos trminos para describir el mismo objeto119, es decir, dadas las caractersticas de las queries no podemos suponer que los sistemas adquieren descripciones muy precisas, ni muy homogneas en torno a los requerimientos de informacin
120

136

En el tercero de los niveles de anlisis propuesto, se retorna a los conceptos esenciales.- est bien definida la relevancia ? Cmo vimos, en los modelos se asume que existe esa propiedad que permite establecer operaciones sobre la evidencia de probabilidades condicionales de relevancia o de un condicional lgico entre la informacin contenida en un documento y la que se ha expresado en una query. Operacionalmente los modelos se han basado en la relacin entre los trminos contenidos en ambas fuentes de informacin, y esta relacin queda encuadrada por las nociones de temtica, topicalidad, consustancialidad ( topicality, aboutness), es decir, que la relevancia queda determinada por la existencia de un asunto, tema, fondo informativo, tpico, que debe resultar comn entre requerimiento y documentos. Recuperando las definiciones de los modelos vistos, encontramos que la relevancia ha quedado indefinida o ha sido definida en ellos de un modo vago y general, por ejemplo:

Huibers, Lalmas y van Rijsbergen121 .- El problema de Information Retrieval consiste en responder la siguiente pregunta: de qu manera puede distinguirse la informacin relevante de la irrelevante, que corresponde a cierta necesidad de informacin ?... subyacente a cada modelo, hay una teora que define la nocin de relevancia. Tal teora puede quedar implcita o ser explcita en el modelo. Korfhage122.- Relevancia: Una medida de lo bien que un documento coincide ( matches ) con una query.

Cooper .- Las respuestas [ de un sistema de RI ] consisten en documentos que son adecuados a las necesidades del usuario. Crestani123 .- Los buenos sistemas de RI, tpicamente ordenan los documentos elegidos, de manera que los que tienen ms visos de ser

137

relevantes ( aquellos con la mayor semejanza con la representacin de la query ) son presentados primero al usuario. Huibers,Ounis y Chevallet124 .- La relevancia es entonces una conexin entre un documento y una necesidad de informacin. Nie125 .- Ser suficiente para considerar relevante a un documento que se refiera al mismo tpico o materia que la query ... ningn modelo parece ser suficiente para describir ( o para aproximar ) el juicio sobre relevancia que realiza el usuario. Van Rijsbergen et al126 .- la relevancia es una relacin en que se da cualquiera de estas nociones : correspondencia, utilidad, conexin,

satisfaccin, ajuste ( fit ), portamiento ( bearing ), coincidencia ( matching ), entre las queries y los documentos, de acuerdo con la apreciacin que hacen personas que pueden ser : jueces, usuarios, consultantes, especialistas en informacin. O bien, que se conceptualiza a la relevancia en los trminos mas cercanos posibles con el criterio de representacin o de semejanza ( matching ) en que se basan los modelos, por ejemplo :

Van Rijsbergen et al127 .- Podemos asumir que para que un documento sea considerado relevante, deber existir una cadena causal de deducciones que inicie en el documento y termine en la query.

Cooper .- Relevancia lgica.- si la query es una consecuencia lgica de un documento, entonces tal documento deber ser considerado relevante

138

Nie128 .- En el modelo Booleano, un documento es representado por un conjunto de trminos. Un trmino denota a la proposicin de que existe informacin relevante acerca de cierto concepto .

En los modelos probabilsticos los documentos se representan por conjuntos, posiblemente ponderados, de trminos. La representacin de un documento corresponde con la declaracin de que ciertos conceptos. Lalmas y Bruza129 .- Parece razonable asumir que si d soporta a q es vlido, entonces d trata sobre, es acerca de, o es relevante para q. hay informacin disponible sobre

El grado de relevancia de un documento en relacin con una query, es decir d implica q, es inversamente proporcional a la cantidad de informacin necesaria para transformar d en d*, tal que d* implique a q. Huibers, Lalmas, van Rijsbergen130 .- La consustancialidad puede ser vista como una clase de derivacin lgica ... La consustancialidad es tratada como una nocin primitiva en relacin con la informacin. En esto se difiere con otros enfoques como el Booleano, en el que la consustancialidad puede ser expresada en trminos de informacin contenida ... La consustancialidad natural es no monotnica.

Un documento d es acerca de q, si el documento satisface lgicamente a q. Van Rijsbergen y Lalmas131 .- La semejanza entre dos objetos es una funcin del grado en que un atributo contiene informacin acerca del otro ... Un problema fundamental consiste en determinar cmo computar la informacin contenida en un objeto acerca de otros.

139

Nie132 .- Un documento es relevante a una query ...

si disponer del

documento causa que la query sea satisfecha ... La causalidad es una relevancia fuerte.

Un documento es relevante para una query en una situacin dada, si y slo si dicho documento contribuye a una mejor satisfaccin de la query en dicha situacin. Bruza133 .- Parece razonable asumir que si un sistema de RI tiene alguna nocin del significado contenido en un objeto informativo, podr juzgar mejor si dicho objeto es acerca de una necesidad de informacin de un usuario ( y por ello se incrementa la verosimilitud de que dicho documento sea relevante para dicha necesidad de informacin ). Huibers, Ounis y Chevallet134 .- Un documento d indexado por un grafo conceptual X(d), es acerca de una query representada por un grafo conceptual X(q), si X(d) es una especializacin, es decir, expresa informacin ms detallada sobre una proyeccin de X(q). Nie135 .- Un supuesto es relevante para un concepto si y slo si tiene algn efecto contextual en dicho concepto. Huibers, Lalmas y van Rijsbergen136 .- La consustancialidad es tratada [ en el modelo situacional ] como una relacin entre situaciones. Finalmente, estos autores tambin plantean dudas respecto a estas conceptualizaciones de la relevancia y de la consustancialidad, o de su relacin con el significado:

140

Van Rijsbergen137 .- La informacin contenida en un documento no es idntica a su significado. En realidad un documento acarrea informacin implcita, la cual muchas veces excede a su significado convencional. Nie138 .- La consustancialidad y la relevancia son cosas diferentes: un documento que trata acerca de un concepto no necesariamente es relevante para una query sobre dicho concepto, pero lo contrario si es cierto. La diferencia reside precisamente en la topicalidad. La consustancialidad est definida en trminos de dicha topicalidad nicamente. Bruza139 .- El hecho de que un elemento de informacin no se encuentre presente en un documento no debe implicar que tal elemento no es parte de dicho documento. Esa informacin puede estar dada por el flujo de informacin [ en la teora situacional ] .

Es adecuado reducir la semntica de RI a valores de verdad ? Debe recordarse que el sistema de RI debe presentar documentos acerca de la peticin q. son los valores de verdad y la consustancialidad equivalentes ?. Huibers, Lalmas y van Rijsbergen140 .- Tenemos primero que establecer cual es el dominio de la relacin de consustancialidad : Es sta una relacin entre modelos y frmulas ? Es acaso una asociacin entre un conjunto de expresiones y una expresin ? Lo que necesitamos es un anlisis teortico acerca de la consustancialidad. El anlisis de van Rijsbergen et al141, seala que el supuesto de la naturaleza determinstica de la relevancia ante toda coleccin de documentos, queries y usuarios, es un supuesto dbil. Se reconoce en dicho anlisis que la posibilidad de que exista la relacin de relevancia, puede admitirse, pero slamente en el sentido de que es propia de un usuario concreto, y no de un modo absoluto, es decir, definible por igual para cualquier usuario arbitrariamente elegido, sta es la

141

que dichos investigadores denominan la relevancia segn el usuario. En este marco, se puede hipotetizar respecto al concepto de relevancia abstracta desde el punto de vista del usuario comn, y del concepto realista de relevancia de un usuario concreto. Se consideran adems condiciones propias del uso de un sistema de RI, por ejemplo la secuencia de eventos que conforman una sesin de bsqueda frente a un sistema de dicha clase, y se enfatiza la naturaleza parcial de los documentos como satisfactores de una necesidad, que se relaciona con la nocin de los puntos de vista o facetas que un objeto complejo, como lo puede ser un documento, ofrecer a un usuario en respuesta a una query. Frente a la nocin de relevancia que se puede asociar con un usuario concreto, se encuentra la teora de la relevancia, o el concepto de relevancia que un modelo de RI convierte en operaciones y decisiones concretas de cara a una coleccin documental y una query dadas. Esta es la que dentro de este marco se denomina relevancia segn el sistema, en que se consideran conjuntamente las definiciones de nociones fundamentales de cada modelo, como son :

a) La manera como se representan los documentos y las queries;

b) La nocin de relevancia que prevalece y sobre todo;

c) La manera como se instrumenta a travs de una operacin de coincidencia o comparacin. De acuerdo con estas consideraciones, se configuran dos nuevas nociones respecto a la efectividad de los sistemas de RI, denominadas ruido correspondiente a los documentos que el sistema considera relevantes y el criterio abstracto no, y silencio que corresponden a documentos que el criterio abstracto considera relevantes y el sistema no, diferencias que en ambos casos se deben a las degradaciones que sufren los contenidos de documentos y queries por el tipo de representaciones que de ellos se emplean, y por las otras circunstancias que hemos visto. Adems, se trata de resaltar que el conjunto de documentos que el

142

usuario en realidad considera relevantes, con suficiente conocimiento sobre ello, es ms pequeo que cualquiera de los dos anteriores. Vase una ilustracin de lo anterior en la figura 14. Incluso la denominacin empleada con mayor insistencia en cuanto a la nocin central en que se basan los sistemas de RI, la de relevancia, ha sido cuestionada, sealndose que lo que se persigue identificar mediante los modelos correspondientes, ms que ser la relevancia, es la pertinencia de un documento respecto de una query, concepto que se relaciona con la utilidad que tiene la informacin contenida en un documento, para un usuario particular con una necesidad de informacin concreta
142

Relevantes sistema

segn

el

Coleccin de documentos ruido

silencio

Relevantes segn el criterio abstracto

Realmente relevantes segn un usuario concreto

Ruido y silencio segn definiciones de relevancia

figura 14 .- Conjuntos de documentos relevantes segn el sistema y segn el usuario.

143

Alguno

de los

anlisis,

sealan factores
143

importantes que resultan :

problemticos en el diseo de los modelos, a saber

a) No ha sido posible definir la relevancia.

b) La insuficiencia de la topicalidad como base de los juicios de relevancia, y la existencia de otros factores centrados en los intereses y caractersticas de los usuarios.

c) El carcter dinmico de la actividad de bsqueda de informacin y las nociones relacionadas con la sesin de consulta, la situacin por ella definida, etc. Dentro de lo que se refiere el inciso b, resaltan : Uno de los factores que pueden tener un gran impacto al realizar un juicio de relevancia, es el grado de conocimiento que el usuario tiene sobre los asuntos en que se ubica la peticin de informacin. Como ya se coment antes ( vanse subseccin 3.1.3 y Seccin 3.4 ), un usuario conocedor en el mbito de los temas a que se refieren los documentos de una coleccin, tendr posiblemente intereses y formular juicios de relevancia ante resultados de un sistema de RI, distintos de los que formular un usuario desconocedor. Un segundo factor en este sentido es el requerimiento de novedad, es decir, el hecho de que un usuario no considerar relevante un documento, an cuando sea plenamente coincidente con el ms riguroso criterio de consustancialidad o de relevancia, simplemente si el usuario ya dispone de toda la informacin que dicho documento contiene, o dicho de otra manera, si el documento no aade informacin novedosa al usuario. En este punto, surgen varias derivaciones del cuerpo principal del estudio de los modelos de RI, por ejemplo, las propuestas en cuanto a mtodos de navegacin ( browsing ) en estructuras de informacin,

144

filtrado ( filtering ), o derivacin ( selective dissemination of information, current awareness ), tambin conocidos como sistemas de queries persistentes, o tambin a los denominados modelos de interface ( human computer interaction ). Otros factores que se reconocen poco atendidos en los modelos vistos, es la orientacin a una tarea, entendida sta de un modo ms amplio que el que definen las diversas nociones de relevancia: no es lo mismo la bsqueda que se hace cuando se quiere una respuesta smamente especfica, concreta, y breve, que cuando se quiere una exploracin a fondo o muy extensa de cierto tema, o cuando slamente se quiere actualizar la documentacin disponible sobre cierto tema, o cuando se desea documentacin que se encuentra en la periferia del mismo
144

Estos ltimos planteamientos parecen apuntar a un reconocimiento de la importancia que puede tener el que se espere que un sistema deber producir diferentes resultados ante una misma query y una misma coleccin de documentos, pero en una situacin distinta, por ejemplo cuando se trate de un usuario distinto, o simplemente en una sesin de consulta con diferente estructura o secuencia. ( Las ideas expresadas en esta seccin, se muestran en el sector central izquierdo del esquema general ).

5.2 El usuario.Conviene hacer aqu una puntualizacin respecto a la posibilidad de intervencin de los usuarios una vez que un sistema de information retrieval de algunos de los modelos clsicos que hemos revisado, ha generado una respuesta ante una peticin. Si esta solucin contiene elementos tiles para los fines del usuario, pero no es totalmente satisfactoria, puede al menos ser empleada como punto de partida para una bsqueda ms refinada, en la medida en que el usuario seale algunos documentos como tiles o relevantes para sus propsitos. A esta variante en algunos de los modelos, se le denomina relevance feedback
145

, o realimentacin, y suele instrumentarse tomando algunos elementos,

145

sean las representaciones completas de algunos documentos de la solucin inicial, o puedan ser algunos trminos pertenecientes a dichos documentos, que hayan sido reconocidos por el usuario como relevantes, y que se pueden convertir en una nueva query con la que realizar la segunda etapa de bsqueda. Tambin puede ser que esos documentos o trminos, sean empleados para modificar las ponderaciones de los trminos de la query original, o las probabilidades de relevancia. A diferencia con el procedimiento de pseudo relevance feedbackXX en este que ahora comentamos, si hay intervencin del usuario y debe sealarse que existe gran cantidad de evidencia del importante impacto positivo que tiene dicha intervencin, mejorando la respuesta subsecuente en un grado muy significativo
146

El planteamiento consiste en realizar una bsqueda inicial, presentarle al usuario la lista de documentos localizados, en orden decreciente de ordenamiento o ranking, y solicitarle que seleccione y seale, posiblemente dentro de los n primeros, aquellos documentos que son relevantes y algunos que no lo son. Si esta ltima opcin no se practica, se tendr solamente retroalimentacin positiva, y en caso contrario las habr positiva y negativa. ( estas ideas se muestran en la regin superior, central e izquierda del esquema general ). Habindose hecho lo anterior, se reformulara la query. La idea consiste en aumentar la ponderacin de aquellos trminos que aparecen en documentos sealados por el usuario como relevantes y disminuir la de los trminos que aparecen en documentos sealados como irrelevantes. En qu medida debe hacerse lo anterior ? Se tendr que estimar esa medida para lo cual se incluirn tres parmetros, sean estos
147

= multiplicador para los trminos de la query original;

El concepto de Pseudo relevance feedback ya fue brevemente descrito en la seccin 2.2 y se abundar sobre el tema en la primera parte del Captulo 6: Reformulacin de las queries

XX

146

= multiplicador para la realimentacin positiva y ; = multiplicador para la realimentacin negativa.


Y sean : Dn = Conjunto de los documentos sealados por el usuario como no relevantes, dentro de la parte alta de la lista de respuesta inicial; Dr = Conjunto de los documentos sealados por el usuario como relevantes, dentro de la parte alta de la lista de respuesta inicial; As, la nueva query resultara de los siguientes clculos, cuyo diseo es conocido como formulacin standard de Rochio:

r r qm = q + Dr
En la que:

r d jD r

r
j

Dn

r d jDn

r
j

r q m = query

modificada

Por otra parte, en cuanto se refiere a la influencia que podran tener algunas propiedades estables de cada usuario, en la manera de reunir y presentar resultados por los sistemas de IR, la investigacin del perfil de usuario ha planteado algunas modalidades que se asemejan en lo fundamental a dicha pseudo relevance feedback, consistente en mantener un vector ( la representacin de una query persistente ) en la que se contiene una ponderacin de trminos que se sabe que son de inters constante para el usuario, de manera que esta query se aade a cada una de las que realice el usuario, como un mtodo de expansin. Tambin se ha empleado este perfil como un elemento de referencia, de manera

.lanigiro

r yreuq = q

147

que las respuestas del sistema deben satisfacer algn criterio de distancia respecto de dos vectores, el de cada query y el del perfil. An ms, se ha tratado de considerar algunos datos del usuario, como parte del conocimiento que un sistema emplear cuando se realice una bsqueda, sin que resulte muy evidente cul puede ser el modo de formalizar dichos datos, o de la manera como sistemticamente influirn en la bsqueda, datos como :

a) Nivel de estudios del usuario. b) Grado de familiaridad del usuario con la temtica en que se da la bsqueda. c) Suscripciones conocidas a publicaciones, por parte del usuario, y sus hbitos de lectura. d) Preferencias especficas: autores, publicaciones peridicas, exclusiones ( materiales que el usuario no desea ver ), etc. ( Las ideas presentadas en esta seccin, se muestran en los sectores central superior, e izquierdo superior del esquema general )

5.3 Contextos.Tanto en el estudio lingstico como en IA en general, se reconoce la existencia, importancia y dificultad de incorporar al anlisis de fenmenos, un concepto o nocin que tiene una estrecha relacin con algunas de las habilidades necesarias para muchos procesos intelectuales, entre los cuales se cuentan aquellos que tienen que ver con el procesamiento del lenguaje y la comprensin de significados. Nos referimos a la nocin de contexto. Ya se mencion en esta tesis, que una de las divisiones clsicas que separa a dos subdisciplinas de la lingstica: la semntica y la pragmtica, consiste precisamente en que en una de ellas se ignoren y en la otra se tomen en cuenta

148

factores extralingsticos, a los cuales se les suele llamar factores contextuales. Incluso a nivel de la semntica de los lexemas, se ha precisado acotar la bsqueda de significado slamente a los elementos verbales, es decir, no considerar los denominados elementos paralingsticos, ni los elementos de comunicacin no verbal, pero an as, se han encontrado varias limitaciones, algunas correspondientes a la polisemia y a la homonimia, y como ya vimos, las que corresponden a los nombres propios. A nivel ms amplio, se puede afirmar que cualquier expresin ms compleja que un lexema, sea frase, oracin o texto, por lo comn no quedan totalmente determinadas por cuanto a su significado, si no se conoce ese otro elemento que el que emite la expresin, y los que la reciben y pretenden entenderla, requieren tener como un marco de referencia compartido, que es lo que podemos denominar contexto. Conviene sealar aqu, que en lingstica se ha dado en denominar cotexto al texto vecino ms prximo a un fragmento de texto de inters, para diferenciarlo del contexto como concepto ms amplio, pero ocasionalmente se ha empleado el trmino contexto en esa acepcin restringida. McCarthy, ha venido sosteniendo la necesidad de que los modelos que se emplean en las diversas ramas de IA, cumplan con requerimientos de generalidad, dentro de los cuales se incluye la presencia y actuacin de l o los contextos
148

,y

en este sentido especfico, dicho autor ha insistido en las ventajas que se obtendran cuando dichos contextos son parte de los elementos informativos de una aplicacin o de un modelo
149

Con la nocin de contexto, como con la de relevancia y la de significado, los problemas empiezan cuando se trata de definirla : Aunque la nocin de contexto juega un papel central en la mayora de los planteamientos sobre comprensin del lenguaje, lo que se puede considerar como contexto, generalmente queda indefinido Akman y Surav
151 150

, recuerdan algunas de las descripciones del trmino contexto

segn diccionarios de lengua inglesa muy conocidos, el Oxford English Dictionary, y el Collins Cobuild English Language Dictionary, que conviene mencionar aqu:

149

OED.-Contexto.-(i)Las palabras que rodean una palabra, frase, oracin, etc. frecuentemente empleado para ayudar al entendimiento de estas;(ii)Las condiciones generales ( circunstancias ) en la que una accin, evento, etc. se lleva a cabo.

CCELD.-El contexto de algo consiste en las ideas, situaciones, eventos o informacin relacionada con ese algo, y que hace posible su pleno entendimiento , Si algo es visto en su contexto, o algo es puesto en contexto , ese algo es considerado junto con todos los factores que estn relacionados con l, en lugar de vrsele aislado, de modo que puede ser cabalmente entendido , Si una observacin o una expresin se refiere o cita fuera de contexto , se le considera por s sola, y las circunstancias en que fue emitida se ignoran. Entonces seguramente tal expresin significar algo diferente del significado pretendido.

Y segn The Dictionary of PhilosophyXXI: Contexto ( del latn contextere .entrelazar, de con y texere tejer, enlazar ) .- La suma total de los significados ( asociaciones, ideas, suposiciones, presupuestos, etc. ) que (a) estn estrechamente relacionados con alguna cosa, (b) sealan los orgenes de, y (b) influyen en nuestras actitudes, perspectivas, juicios y conocimiento de tal cosa. Segn Lyons, texto y contexto son complementarios: cada uno de ellos presupone al otro. Los textos son constituyentes de los contextos donde aparecen. Los textos producidos por los hablantes y escritores en determinadas situaciones crean los contextos y contnuamente los transforman y remodelan. Es claro que hasta los enunciados de clase oracional,...., se interpretan a partir de una gran cantidad de informacin contextual, la mayora no explcita
152

Dictionary of Philosophy, P. A. Angeles, Harper and Row Publishers, Nueva York, 1981, citado en Akman y Surav .- Steps toward formalizing Context.

XXI

150

Podemos aceptar como definicin operacional, la que ha propuesto Carlson


153

Contexto es la informacin que es : disponible, para una persona concreta, para interactuar con un proceso especfico, en una ocasin particular Esta definicin, explicita la ocasionalidad, circunstancialidad, y el carcter posiblemente efmero del contexto, y seala un asunto de inters: el contexto, en cuestiones de interpretacin de informacin, es una nocin propiamente asociable con cada persona. Asimismo, enfatiza la orientacin hacia una tarea, proceso, objetivo o propsito particular, en lo cual coincide con
154

muchas

otras
155

conceptualizaciones, por ejemplo : Ruthven y van Rijsbergen Bunt156, y otros.

, Giunchiglia

Para propsitos como los que perseguimos en este trabajo, podemos revisar algunas de las propuestas para responder a preguntas como qu es un contexto ? Cmo son los contextos ?, que pueden ser entendidas como especulativas o preteorticas
157

, a saber:

Desde el punto de vista de esquemas lgicos, ningn axioma de un sistema formal, es verdadero bajo cualquier circunstancia. Los axiomas ( por ejemplo, un conjunto de hechos ), se asumen con valor verdadero en un contexto determinado. quiere esto decir, que tal o cual axioma, debe quedar aislado en su contexto, es decir, que debe ser invisible fuera de dicho contexto ? La propuesta de McCarthy, Buvac158 y Guha159, se orienta a desarrollar una estructuracin de los contextos, as como un conjunto de reglas que permitan traducir los axiomas vlidos en un contexto, a otros contextos. Un elemento interesante del planteamiento de estos autores, consiste en reflexionar respecto de el mayor contexto posible, ya que si se ha planteado una estructura en la que un contexto es ms general que otro, puede pensarse que existe el contexto ms general que todos los dems. Si ese contexto

151

existiese, y se lograse traducir en l los axiomas de los contextos que le son inferiores ( menos generales ), entonces se tendran axiomas trascendentales, vlidos en cualquier lugar o para cualquier situacin de razonamiento. En su trabajo, los autores citados niegan tal posibilidad. La nocin de contexto es an sujeta a mucho debate entre la comunidad de investigadores. La discusin va desde quien opina que es una propuesta sin significado ( o como han planteado quienes dicen que el trmino contexto se ha convertido en un bote de la basura conceptual ), hasta quienes proponen formalizaciones ( Guha, Akman, Giunchiglia ), incluyendo a quienes advierten que se tiene que trabajar todava lo que ser dicha nocin como instrumento de anlisis ( Hirst ). Por ello alrededor de la palabra contexto, o de la idea subyacente, se plantean algunos dilemas. De acuerdo con algunos de estos autores, los contextos son objetos que tienen las siguientes caractersticas correspondientes discusiones :
160

y se plantean las

a) Los contextos son objetos abstractos. En relacin con esta caracterstica, el dilema en cuestin podra enunciarse como Contexto como una parte del mundo vs Contexto como una construccin mental
161

, o como se ha planteado, la propuesta Externa del Contexto vs la

Interna. En efecto, se puede apoyar la idea de que los objetos del mundo tienen entre sus propiedades la de pertenecer, tener su lugar, o encontrarse en ciertos contextos. Por contraste, se sustenta la idea de que el contexto es una aadidura, una construccin intelectual, es subjetiva. Claramente, esta es una vuelta a la discusin filosfica entre idealismo y emprirismo.

b) Los contextos pueden ser objetos ignotos ( rich objects ), su propia naturaleza hace que no se pueda dar una descripcin total de un contexto, solamente es viable una descripcin parcial.

152

En efecto, se plantea que esta caracterstica de los contextos, se puede entender como una merma del poder analtico de la idea de contexto, pero tambin se argumenta que es una estrategia que el cerebro humano utiliza cotidianamente para su funcionamiento. En palabras de Giunchiglia
162

, Cuando razonamos ... nunca

consideramos todo lo que sabemos, sino slo una pequea parte de ello. Ante los problemas que plantea la comunicacin entre personas, o ante la solucin de problemas en general, la falta de informacin es una desventaja, pero tambin lo es el exceso de ella, y es en este sentido que la nocin de contexto es la propuesta para seleccionar la parte de la base de conocimiento que conviene considerar en cada caso. Ahora bien, esta nocin de parcialidad, se relaciona estrechamente con las propuestas en relacin con la posible estructura interna de los contextos. Se han publicado varias ideas en este sentido, que incluyen la separacin de los elementos que constituyen a los contextos de acuerdo con varios criterios, a saber :

Elementos

estables

vs

elementos

inestables

de

los

contextos,

segn

Kameyama163. Sin embargo puede pensarse que dicho criterio separa los contextos de los co-textos.

Elementos situacionales vs elementos conceptuales, segn Hirst164, que

propone que en realidad en la comunicacin coexisten dos contextos, uno que afecta a las intenciones o propsitos que persigue el emisor de contenidos, y que puede identificarse con la situacin en que la comunicacin ocurre, y otro que afecta los elementos lingsticos o conceptuales con que dicho emisor construye su mensaje.

Las muy diversas caracterizaciones de dimensiones a considerar en relacin

con los contextos, que examinaremos enseguida.

153

En relacin con estas caracterizaciones respecto de tipos de contextos, o tipos de elementos que los contextos contienen, hemos conjuntado algunas de las que son conocidas, y que parcialmente coinciden, a saber Bunt, Estival y Gayral, Ferrari, Pinkal ( citados en Hirst ), y Harris ( citado en Akman ), de modo que se califica a los contextos ( o a sus elementos ) como :

Lingsticos y Semnticos.

Perceptuales y relacionados con el entorno fsico.

Intencionales, relacionados con las intenciones y actitudes de los participantes

en la comunicacin.

Sociales, Colectivos, incluyendo Instituciones, costumbres, normas, etiqueta,

tpicos de actualidad.

Conocimiento enciclopdico, incluyendo bases histricas y culturales, hechos y

datos, etc.

Situacionales, incluyendo el marco de la comunicacin, las biografas de los

participantes, informacin del autor ( si es el caso).

c) Los contextos son objetos comunes ( first class objects ) en el sentido de que pueden ser incluidos en frmulas, como cualquier otro objeto admisible en el lenguaje de la lgica de que se trate.

154

d) Existen algunas relaciones entre contextos, la ms notable de ellas es la de es ms general que. Particularmente, la relacin de ms general que, es parte de la propuesta de McCarthy y Buvac ya mencionada, pero una alternativa muy conocida es el esquema de relaciones orientado a conseguir eficiencia en el uso inferencial de contextos, que utiliza una idea de cercana de contextos, parecida a la que sustenta para otros propsitos un modelo anlogo al vector space model, en el proyecto CyC de Lenat y Guha
165

Una caracterstica en la que coincide parcialmente la propuesta de McCarthy et al, con el anlisis lingstico, es:

e) Los contextos son objetos dinmicos, en el sentido de que en el marco de un dilogo o del transcurso de una situacin de intercambio comunicativo, existe una sucesin de contextos
166

Y de un modo muy relacionado con el inciso anterior:

f) La naturaleza de un contexto especfico, es a su vez dependiente del contexto, es decir, un contexto debe ser visto en trminos de una sucesin de contextos167. Ms all de estas propiedades formales de los contextos, habr que considerar las siguientes vinculaciones entre contexto y otros fenmenos: Contexto , lenguaje en general, significado y ambigedad.- Desde luego que como ya hemos venido comentando, la nocin de contexto es un elemento clave en la interpretacin de las expresiones hechas en lenguajes naturales.Hemos operado con el supuesto de que el significado del enunciado depende fundamentalmente del contexto, ...Aunque el contenido proposicional de una oracin y el mbito referencial de sus expresiones constituyentes se pueden establecer sin recurrir al

155

contexto de enunciacin, no suele ser posible establecer qu proposicin se ha expresado sin saber en que contexto se ha enunciado la oracin, El mbito referencial de las expresiones referentes lo fija su significado en la lengua ( por ejemplo, su sentido y denotacin ). Pero su referencia ocasional depende de una cierta variedad de factores contextuales
168

; El contexto es un factor crucial en la comunicacin

169

, El contexto es

una fuente de informacin que puede ( es, debera, debe ) ser usada por un procesador de lenguaje para reducir ( o eliminar por completo ) la ambigedad, la vaguedad o la subespecificacin en sus interpretaciones de las expresiones que sean procesadas: ste es uno de los efectos del contexto.- constrie la interpretacin
170

, La nocin de una sola

representacin del significado [de un texto] puede no ser prctica, dada la enorme dependencia de dicho significado respecto del contexto en que se har la interpretacin
171

y podran citarse ms aseveraciones de esta ndole.

Contextos, relevancia, cognicin e informacin.- En otro sentido, los contextos se consideran elemento de la mayor importancia en estas reas, por ejemplo : El trabajo ms importante sobre relevancia, se debe a Sperber y WilsonXXII, y en l se le considera ms bien como la relevancia psicolgicamente vista de una proposicin en relacin con un contexto , Ms an las nociones intuitivas sobre la relevancia son relativas a contextos, Si queremos plantear razonamiento similar al del sentido comn, tenemos que usar ciertos contextos , El contexto intrnseco es un intento de coleccionar la informacin disponible sobre un proceso, que es potencialmente necesaria para actuar acertadamente frente a l. El contexto intrnseco para lograr entender que cosa quiere decir un hablante en cierta ocasin concreta, es la totalidad ( limitada ) del conocimiento, creencias y suposiciones que son compartidas por hablante y oyente, es decir, una especie de base comn172, El uso del contexto en la comunicacin en lenguaje natural es una construccin psicolgica que no esta directamente vinculada con la verdad, sino con procesos de interpretacin y con creencias, con la construccin del significado
173

, Es ampliamente aceptado que la mayora de los procesos cognitivos

son contextuales en el sentido de que ellos dependen del entorno o contexto en los que dichos procesos son realizados , El supuesto bsico [ de su trabajo ], es que el razonamiento es siempre local, circunscrito a un conjunto de hechos conocidos.... Este

XXII

Los autores se refieren a D. Sperber y D. Wilson .- Relevance: Communication and Cognition, Basil Blackwell, Oxford, Inglaterra, 1986.

156

pequeo subconjunto es lo que determina el contexto de razonamiento. , El contexto, existe dentro del individuo que razona, es parte de su estado y por lo tanto, es responsable de su punto de vista subjetivo. Por ejemplo un cierto fenmeno puede ser descrito y se puede razonar sobre tal, usando diferentes predicados en diferentes contextos, e incluso el mismo predicado puede tener diferentes valores de verdad en diferentes contextos, etc relevancia
175 174

, .. Esta nocin de contexto opera sobre un principio de

Contextos, presuposiciones, implicaciones y monotonicidad .- Un aspecto de inters, es que los contextos pueden contener supuestos previos, y en su caso producen nueva informacin : Pero el significado del enunciado va ms all de lo que se dice realmente: incluye tambin lo que se implica ( o presupone ) y el contexto es especialmente relevante para esta parte del significado de los enunciados, Primero, su supuesto o inferencia de que la inscripcin de enunciado no puede tener una interpretacin literal no depende de que sea semnticamente anmala o contradictoria: todo lo que se necesita es que el sentido literal no haya de ser contextualmente pertinente176, Todos los sistemas de AI codifican algn conocimiento contextual: antecedentes en clusulas de sistemas basados en reglas, precondiciones en sistemas que formulan planes, etc ... Al representar los contextos explcitamente, un agente [ cognitivo ] puede utilizar rasgos o aspectos de contextos que le son conocidos, como base para identificar el contexto en que se encuentra, y puede hacer predicciones acerca de otros rasgos an no observados en el contexto actual, basndose en su conocimiento contextual de naturaleza apriorstica .... Un agente [ cognitivo ] puede tambin asociar conocimiento prescriptivo con sus representaciones de contextos, de manera que sabr como adecuar su comportamiento en los correspondientes contextos.177 , Categorizar es uno de los procesos cognitivos bsicos. Los seres humanos podemos categorizar varios tipos de objetos, eventos y estados de cosas, y nuestra categorizacin depende de la circunstancia y de la perspectiva
178

, Un texto necesita estar relacionado con la teora

que el lector formule de lo que est ocurriendo en el entorno. Tpicamente, pero no siempre, esto incluye las creencias del lector acerca de las intenciones del autor del texto, o de manera ms general, el plan del autor, del modo como se va desarrollando en el tiempo. El lector debe tratar de relacionar el texto con lo que l mismo cree que el autor esta tratando de conseguir
179

, Por ejemplo, el contexto asociado con una conversacin

es muy complejo ( rich ), no podemos enlistar todos los supuestos admitidos de manera

157
180

comn por todos los participantes

, El uso de condiciones subyacentes ( background , Consideramos que un contexto es un conjunto

conditions ) en un modelo de RI, acredita al importante hecho de que la informacin se considera dependiente del contexto
181

de hechos usados localmente para probar una propuesta dada, as como a las rutinas de inferencia para razonar acerca de los mismos ( que en general sern diferentes para diferentes conjuntos de hechos )
182

, El ltimo de los efectos contextuales, es el de


183

contradecir algn conocimiento en el contexto. Particularmente, resultan

. las siguientes consideraciones

interesantes

respecto de la utilizacin de contextos en los fenmenos que tienen que ver con la comunicacin y el lenguaje: Akman
184

refiere a Sperber y Wilson, en relacin con las denominadas

mximas de la relevancia, que se enuncian de la siguiente manera:

1.-Una suposicin, es relevante en un contexto, en la medida en que sus efectos en dicho contexto son significativos.

2.-Una suposicin, es irrelevante en un contexto en la medida en que es necesaria una gran cantidad de esfuerzo para procesarla en dicho contexto. Por otra parte, Akman
185

, ha recuperado una propuesta de Strawson, en la

que los contextos juegan un papel definido en la interpretacin y entendimiento de textos, sealando que hay tres niveles en que se dan estas posibilidades, a saber :

158

Significado-a-nivel-A ( significado lingstico ).- La acepcin ms frecuente del

papel desambiguador del contexto, se situa en este nivel, en el que pueden ser desambiguados los lexemas comunes: Nombres comunes, verbos, adjetivos, etc. En este nivel se situa, por ejemplo, la desambiguacin para propsitos de traduccin.

Significado-a-nivel-B ( significado referencial ).- En este nivel, se utiliza la

informacin contextual pertinente para identificar los objetos aludidos mediante nombres propios y se resuelven los problemas de anfora, decticos, etc.

Significado-a-nivel-C ( significado pleno ).- En este nivel se incluye el

conocimiento contextual respecto a la fuerza ilocutiva, la intencin, o las implicaciones de una teora de la accin respecto de lo enunciado. Estas ideas son de inters para nuestro planteamiento, dado que si bien se ha prestado cierta atencin al uso de estructuras de conocimiento como las que se mencionaron previamente en este captulo ( ontologas, taxonomas, tesauros, etc ), como auxiliares en los modelos de RI, por ejemplo para expandir queries, cosa que correspondera al nivel A de Strawson, y se identificara con la denotacin, esto no resuelve los problemas del nivel B, que corresponderan definitivamente a la referencia, si bien en nuestro caso, por lo menos en cuanto a la formulacin de las queries, no parece interesante la solucin de co-referentes, decticos ( pronombres, demostrativos, etc ), ni la solucin de anfora, ya que no parece muy sensato que un usuario dirija a un sistema de RI una query formada con tales clases de expresiones, pero si es muy probable que lo haga en trminos de nombres propios. Tambin conviene sealar que el nivel C de Strawson, ser de inters en tanto se utilizara la misma va de acceso en un sistema de RI para formular queries y para ordenar la ejecucin de otras funciones distintas.

159

CAPTULO 6 REFORMULACIN DE LAS QUERIES.


La exploracin del estado del arte, que realizamos, nos conduce a un anlisis y al planteamiento de una propuesta en el marco de esta tesis doctoral. Como hemos visto, el campo de investigacin de la bsqueda de informacin en espacios no estructurados, sigue presentando retos interesantes y complejos. Ya se ha dicho que en ste campo, no falta la diversidad de modelos, estrategias, procedimientos, planteamientos de teora, etc. No obstante, an los conceptos fundamentales, por ejemplo los que justifican tericamente la eleccin de uno o varios documentos como posibles satisfactores de un requerimiento de informacin, sea la relevancia, la semejanza, la topicalidad, la consustancialidad, y otros que revisamos, han sido insuficientes para desarrollar una solucin cabal, y tampoco las implementaciones de los modelos, producen resultados como los que se desean. Cales son las causas de que el procesamiento de una query, no genere resultados ms satisfactorios ? Desde luego, hay muchas maneras de intentar responder esta pregunta. Si nos sujetamos a las condiciones que rigen a los modelos que hemos visto, y en especial a aquellos que sustentan al funcionamiento de ls mquinas de bsqueda ms conocidas, podemos iniciar el desarrollo de nuestra respuesta inspeccionando el material informativo que se emplea en dicho procesamiento. Como hemos visto, en cuanto a los contenidos textuales que se hallan en los documentos (por oposicin a grficos, audio, etc) y en las queries, la presencia, y eventualmente la ubicacin de las palabras, constituyen el principal, cuando no el nico material informativo a considerar. Utilicemos un ejemplo que nos permita ilustrar el manejo que se da a los contenidos informativos y a la descripcin de las queries. El ejemplo se basa en la coleccin conocida como NPL y se refiere a una de las 93 queries calificadas por expertos en los temas de Ingeniera Elctrica, asociadas a un corpus de 11,429 breves documentos en idioma ingls ( son asbtracts de documentos, de manera que

160

una vez eliminadas las stop words, el ms pequeo de los documentos contendr slo 2 palabras, el mayor contendr 168, y el tamao promedio ser de 23.51 palabras/documento ), se utiliza una lista de stop words que se puede considerar estndar, constituda por 396 palabras ( salvo algunas excepciones, es la misma que se propone como parte de la coleccin CACM ). Una vez que se han procesado los documentos, con un programa que contiene al Vector Space Model, y que realiza el proceso de stemming mediante el algoritmo de Porter, se obtiene entre otros productos, un vocabulario de 7826 diferentes trminos. Por citar un ejemplo, el que ocurre en mayor nmero de documentos es us ( used, using, uses, useful, usefulness), que aparece en 2,511 de los 11,429 documentos. En la tabla 1 se presentan los 20 trminos ms frecuentes, con su frecuencia de ocurrencia total, el nmero de documentos en que aparece cualquiera de los trminos en cuestin y el inverse document frequency ( vase subseccin 1.2.2 pg 34 ) calculado segn la expresin :

IDF j = mn (1 .0, log 10 (N / usot


Donde: N = Nmero de documentos en la coleccin;

)/ 5 )

usotj = Nmero de documentos de la coleccin en los que aparece el trmino j. De la coleccin de queries calificadas, seleccionamos para nuestro ejemplo, la siguiente: Systems of data coding for information transfer

161

Lema

Sufijos

us frequenc circuit magnet field electron describ result effect method observ theori measur discuss amplifi wav obtain ionospher design analysi

ed,ing,es,eful,efulness y,ies s,ed,ing ization,ic,ically,ized,ism,izations,izing s ic,s,ics,ically ed,ing,es ing,s,ant,ed s,ive,ed,ively,iveness,ing s ed,ations,ational,er,ing,ers,able,ability es es,ements,ed,ing,able ed,es ers,ed,ing es able,ed,ing e,ic,ically,ics ed,ing,s,er,ated,ers,ation s

Frecuencia Uso Total en Docu ms. 2978 2511 3054 2044 2636 1750 2205 1566 2417 1555 2408 1547 1614 1541 1647 1523 1734 1370 1691 1350 1700 1309 1624 1305 1511 1226 1237 1212 1830 1136 1605 1087 1153 1068 1426 1048 1217 983 1058 974

IDF

.1204 .1398 .1556 .1690 .1690 .1690 .1690 .1690 .1806 .1806 .1806 .1806 .1908 .1908 .2 .2 .2 .2 .2083 .2083

Tabla 1 .- Primeros 20 trminos asociados con system segn anlisis global, coleccin NPL.

Que es la nmero 4 de la batera de preguntas de la coleccin. Segn los juicios de los expertos en la materia de que tratan los documentos, los nicos cinco de entre toda la coleccin, que resultan relevantes para dicha query son ( ver tabla 2 ):
Doc # 2042 2180 3595 4057 Texto del documento. Representations grouping and processing of information in automatic data processing. The storage and processing of digital data on magnetic tape. Digital codes in data processing systems: the design of digital coding systems including error detecting and error correcting codes is discussed Digital codes in data processing systems: simple digital correlator. A description is given of a simple electronic correlator which employs punched tape input and visual digital readout code. Cathode counting tubes are used in the arithmetic unit. Several basic design considerations are briefly discussed and an outline is given of the recent application of the correlator to a problem in meteor physics. The use of a reflected code in digital control systems. Tabla 2 .- Documentos relevantes para la query 4, NPL.

7985

162

La simple observacin de los textos de la query y los documentos, revela que no parece haber coincidencia entre los trminos empleados en una y los otros. Si dicha query se somete a una mquina de bsqueda ( en nuestro caso una basada en el VSM, pero el argumento que venimos exponiendo no sera diferente en el modelo de redes inferenciales ), se tendra que, por una parte la query quedara representada por sus trminos, y una ponderacin, que como es usual, toma en cuenta la capacidad de discriminacin de cada trmino, de acuerdo con su IDF, segn la siguiente expresin:

IDF i / log 10 ( f i ,TOT ) wi , q = 1 en otro caso.

si IDF i > 0

Produciendose la siguiente representacin ( tabla 3 ):

Lema Cod Data Inform System Transfer

Ponderacin wiq .132574 .043287 .082385 .030385 .065051

Tabla 3 .- Trminos de la query ( systems of data coding for information transfer ) 4 NPL, ponderados para bsqueda.

Por su parte, los documentos se representaran por sus vectores ( tanto por lo que respecta a estos como en el correspondiente a la query, a continuacin slamente se presentan los trminos con frecuencia mayor a cero ) :

163

documentos de la coleccin NPL asociados con la "query" 4: frecuencias de los trminos en los documentos: trmino : doc. 2042 doc. 2180 doc. 3595 doc. 7985 doc. 4057 applic 1 arithmet 1 automat 1 basic 1 briefli 1 cathod 1 cod 3 1 2 consider 1 control 1 correct 1 count 1 data 1 1 1 1 descrip 1 design 1 1 detect 1 digit 1 2 1 1 discuss 1 1 electron 1 emploi 1 error 2 group 1 includ 1 inform 1 input 1 magnet 1 meteor 1 outlin 1 physic 1 problem 1 process 2 1 1 1 punch 1 readout 1 recent 1 reflect 1 represent 1 simpl 2 storag 1 system 2 1 1 tap 1 1 tub 1 unit 1 us 1 1 visual 1

Tabla 4.- Reperesentaciones de los documentos para la query 4 NPL.

164

Como puede advertirse, en la tabla 4 se han sombreado los trminos que forman parte de la query y que aparecen en los documentos. Tambin pueden advertirse algunos otros hechos:

La query del ejemplo es, como suelen ser las queries, poco numerosa en

palabras. As, se le d a la mquina de bsqueda muy poco material informativo con el que realizar su trabajo de localizacin.

Ninguno de los documentos sealados por los expertos como relevantes para la

query, contiene todos los trminos de la representacin de dicha query, y cualquiera de ellos incluso tratndose de documentos tan breves, contienen ms trminos que los de ella.

Uno de los trminos de la query, transfer, no ocurre en ninguno de los

documentos relevantes.

Algunos trminos que son comunes a 4 de los 5 documentos relevantes, (digit,

process), no son trminos de la query. Esta configuracin de elementos puede considerarse comn a muchas situaciones de bsqueda, y en buena medida ilustra las dificultades que hemos estado sealando en el estado del arte. Algunos resultados de la bsqueda mediante la mquina que hemos mencionado, seran los que se muestran en la tabla 5. En la tabla 5 , se presentan los 20 documentos seleccionados con ms alta priorizacin segn el ordenamiento o ranking, de acuerdo con el criterio de semejanza del coseno, al respecto algunas circunstancias notables son:

165

El documento mejor priorizado o rankeado, el 7527, no es uno de los que los

expertos consideraron relevante para esta query. Varios otros documentos no considerados relevantes segn el juicio de expertos, ocupan lugares altos en el ranking.

Posicin en la lista ordenada 1 2 3 4 5 6 7 8 9 10

Documento Semejanza nmero

Posicin en la lista ordenada 11 12 13 14 15 16 17 18 19 20

Documento Semejanza nmero

7527 3595 7985 7989 146 397 5576 9252 4057 6233

.63985 .62916 .50763 .45775 .45158 .43532 .35005 .33057 .32179 .27039

5437 5139 1136 2501 10428 1711 2042 1595 7346 9168

.26981 .26777 .26464 .26071 .24898 .24178 .23548 .23408 .22814 .22727

Tabla 5 .- Primeros 20 documentos segn el ordenamiento ( ranking) generado por la mquina de bsqueda VSM.

Slo 4 de los 5 documentos relevantes aparecen dentro de los primeros 20 de

este ordenamiento, el quinto documento relevante, el identificado con el nmero 2180, ocupa el lugar 200. De hecho la lista completa de documentos seleccionados, contiene 1586 documentos, que tienen al menos 1 de los trminos de la query, muchos de ellos con un grado de semejanza muy pequeo con ella. Vale la pena observar el contenido del documento que ocupa el primer lugar de la lista ordenada:

Doc. # 7527

Texto del documento. ( tal como aparece en el corpus) Abbreviated codes of european ursigrams part the codes here given are data on monochromatic intensity of the solar corona coron code data on e critical frequency esfre code data on f critical frequency Fodeu code for hourly values symbo code for descriptive symbols for the values given terrestrial magnettism magne code ionospheric disturbance warning pertu code radio solar emission observatories soler code part of september

166

Independientemente de los posibles errores de escritura en el texto original, puede apreciarse que este documento, que parece referirse a cuestiones de astronoma, y no tiene que ver con el tema de la query, ha sido seleccionado como semejante a ella, porque en efecto, contiene las palabras data y code(s) sta ltima varias veces, de modo que la evaluacin de semejanza del coseno respecto a la query resulta relativamente alta. En nuestro ejemplo, las cosas no han resultado mal. Si como ocurre en las mquinas de bsqueda de la WEB, en cada pantalla apareciese un listado de 10 documentos, con una muestra del texto en una o dos de las primeras lneas de cada uno de ellos, en las primeras dos pantallas el usuario tendra a su disposicin, acceso a cuatro de los cinco documentos relevantes. De hecho, para esta query, la estategia que se ha seguido tendra una caracterizacin de recallprecision ( en lo subsiguiente aparecer varias veces la palabra precision sin acento escrito, es decir, en ingls ), como se ilustra en la tabla 6:

Cobertura .2 .4 .6 .8 1.0

Precision .5 .66 .33 .23 .025

Tabla 6 .- Valores de cobertura y precisin asociados para la query 4 NPL.

Cuyas cifras de precision generan un perfil como el que suelen tener este tipo de mediciones, que comnmente se hacen sobre los promedios de varias queries. Como hemos estudiado en el estado del arte, buena parte de la labor de investigacin, se orient durante dcadas, entre otras cosas a modificar los supuestos y los procedimientos de representacin y de clculo de la semejanza, generando nuevos modelos, e incorporando ms evidencias, llegndose cuando ms a un nivel que es relativamente bajo y que no ha sido posible mejorar sustancialmente. Tambin vale la pena sealar que las condiciones de nuestro ejemplo permiten hacer abstraccin de varios de los factores que inyectan ms complejidad

167

en una situacin real, a saber, que la query est sensatamente formulada en relacin con los contenidos de los documentos, incluso en el uso que, para el tiempo en que se escribieron los documentos y la query, se daba a las palabras. Si como hemos visto, modificar las condiciones propias del modelo que se emplea, incorporando ms elementos informativos, utilizando construcciones extradas mediante anlisis sintactico, o utilizando diferentes funciones de medicin de la semejanza o de la distancia, no ha permitido mejorar la respuesta de las mquinas de bsqueda tanto como se pretende, ha resultado natural explorar condiciones que van ms all de cada documento en lo individual y de la query. As las propuestas de tipo ampliado ya sea que se circunscriban a las caractersticas de la coleccin en su conjunto ( clusters, LSI, tesauros automticamente extrados) o que tomen elementos del marco general del lenguaje ( frases estadsticamente extradas ), tampoco logran el objetivo propuesto. Podramos partir del supuesto de que, al menos para el modelo del Vector Space Model, la query en cuestin, y en general cualquier query planteada por los usuarios, no es la ms adecuada, en el marco del modelo a emplear, para la localizacin de los documentos relevantes, y necesita reformularse de alguna manera. Existen al respecto tres opciones a explorar : 1) Modificar la ponderacin, o en general la representacin de cada uno de los trminos empleados en la query. 2) Aadir trminos a la query. 3) Eliminar trminos de la query. An ms, una estrategia de reformulacin de queries, podra incorporar cualquier combinacin de dos o las tres opciones mencionadas. Puede plantearse que tal tipo de modificaciones podran ser originadas ya sea como resultado de un proceso automtico, del anlisis de los elementos con que dispone el sistema, etc. tambin puede ser que el usuario que formul inicialmente la query realice modificaciones sobre ella.

168

Si bien la opcin 1 difcilmente puede realizarse a criterio del usuario, y respecto a la opcin 3, y considerando aparte el hecho de que la mquina ignorar las palabras que el usuario incluya en la query, que pertenezcan a la stop list, parece ser que el usuario no tendra razones para retirar un trmino que l mismo ha includo, si no modifica previamente su conocimiento en relacin con su propia necesidad de informacin. Como pudo apreciarse en el estado del arte, existen tambin diversas fuentes de informacin adicionales a la que un modelo como los que estamos tratando genera para su propio uso, a saber, las frecuencias, los idfs, etc. En nuestro estudio solamente incluiremos estas que podramos denominar fuentes internas. Estos procesos de reformulacin ( ampliacin, expansin, e incluso tambin la relevance feedback, vase seccin 5.2 pg. 144 ), invitan a explorar varias de las vertientes en que el problema de la bsqueda, y los modelos que se han planteado para enfrentarlo, encuentran gran complejidad. En efecto, dada la estructura de representacin de los documentos y de la query, no parece existir ninguna manera evidente o simple de pronosticar el efecto que tendr incluir algn nuevo trmino o de retirar alguno de los de la query original. Una de las ideas que puede contrastarse en este contexto, es la naturaleza de la relacin entre la hiptesis de la asociacin, la cluster hypothesis ( pg. 21 ) y la lgica de los modelos. Ciertamente que un conjunto de documentos que tienen un grado significativo de semejanza entre s, tendern a estar en una buena respuesta a una query que a su vez tenga un grado de semejanza con ellosXXIII, pero este principio o hiptesis no puede entenderse en el sentido de que la respuesta ms adecuada para una query bien formulada, tenga que ser un conjunto de documentos que tengan un muy alto grado de semejanza entre s. Por ejemplo, en la coleccin NPL, si se analiza la estructura de representaciones de los documentos considerados

169

relevantes, encontraremos que cada conjunto de dichos documentos relevantes se dispersa o distribuye en varios clusters, o alternativamente no concurre sino con un grado muy bajo. Hemos analizado esta composicin para las 93 queries de la coleccin y sus 2083 documentos relevantes, utilizando el criterio de enlace pleno ( complete link) es decir, que para aceptar un nuevo elemento en un cluster, este elemento tendr que tener mayor o igual grado de semejanza con todos los dems elementos que ya pertenezcan a dicho cluster, eligiendo arbitariamente el orden de comparacin ( lo cual presupone que la solucin no es ptima ), y redujimos sucesivamente el parmetro de umbral, es decir, de exigencia de una semejanza entre los miembros de cada cluster, hasta conseguir algn grado de agrupamiento. En nuestro caso se lleg hasta 0.3 como valor del umbral de semejanza y encontramos los resultados que ilustran este punto, en la tabla 7:

Caracterstica Nmero de documentos relevantes por query Nmero de clusters por query Nmero de documentos agrupados en clusters por query Tamao promedio de los clusters ( docs/cluster )

Media 22.76 3.89 9.45 1.94

Desviacin Standard 18.17 4.12 10.18 1.05

Tabla 7 .- Estadsticas de la coleccin NPL.

Tngase en mente que este anlisis se est realizando sobre los documentos que los expertos han juzgado que son realmente relevantes para las 97 queries de la coleccin, y por tanto lo que estamos viendo en estos resultados estadsticos, es una imagen de las agrupaciones objetivamente medibles ( segn la hiptesis mencionada ), que no es muy coincidente con lo que cabra pronosticar: An con un nivel de semejanza exigido bastante laxo, los documentos relevantes para cada query, no se agrupan en buena medida. Ms an, muchos de los documentos relevantes en cada caso para cada una de las 93 queries de la coleccin, no se agruparon ni siquiera con el valor de umbral laxo ya mencionado. Un resultado en cuanto a la proporcin de documentos que se pudieron agrupar, respecto al total de relevantes en cada query, se muestra

XXIII

vase seccin 1.2 pg. 21

170

en la tabla 8, en la que proporcin alude a la que ocurri entre documentos agrupados y el total de relevantes en cada query y porcentaje observado se refiere al nmero de casos en que la antedicha proporcin fue observada, respecto a las 93 veces ( una por cada query ) en que hicimos la medicin:

Proporcin Porcentaje Observado

<= 0.10 20.2 %

>.1 <=.2 2.13 %

>.2 <=.3 19.2 %

>.3 <=.4 13.8 %

>.4 <=.5 14.9 %

>.5 <=.6 17.0 %

>.6 <=.7 6.38 %

>.7 <=.8 4.26 %

>.8 <=.9 1.06 %

>0.9 1.06 %

Tabla 8 .- Distribucin de clusters complete link de documentos relevantes, corpus NPL.

Como puede verse en la tabla 8, muchos de los documentos relevantes guardan una semejanza entre s, tal que no les permite agruparse para la misma query, incluso muchos de ellos quedan sin agruparse en ningn cluster. Por otra parte cuando lo hacen concurren en muchos clusters pequeos ( promedio 2 docs por cluster ). Esto indica que el proceso de bsqueda, y dado nuestro inters, el de reformulacin de la query, tendran un prposito complejo, ya que por una parte, podran orientarse a reforzar la semejanza de algunos documentos que ya estn colocados en posiciones relativamente altas de la lista ordenada o ranking, de manera que el modelo los posicionara en lugares an mejores, pero tambin podra tener el propsito no necesariamente coherente con el antes dicho, de asociar significativamente aquellos documentos menos semejantes a los mejor posicionados, y que por ello han sido colocados en muy bajas posiciones del mencionado ranking. En algunos casos, la inclusin de nuevos trminos podra significar la inclusin de nuevos documentos en la lista ordenada.

171

6.1 Algunos valores como referencia


Con el propsito de estudiar con ms detalle las estrategias de reformulacin, establezcamos en primer lugar algunos puntos de referencia: veamos como funcionara la mquina de bsqueda basada en VSM, para varias queries. El procedimiento que seguiremos para la evaluacin de resultados, consistir en :

a) Para cada query, se generar mediante la mquina de bsqueda, la lista ordenada de los documentos que dicha mquina determina como relevantes, y se medir la precisin en cada punto en que se localice un documento relevante (segn el juicio de los expertos) dentro del ranking producido por la mquina. Este nivel de precisin queda vinculado con el de cobertura ( recall ) que corresponde a tratarse del ni documento relevante de los nt que existen para esta query.

b) Una vez conocidos todos estos datos, se promediaran en torno a 11 puntos de relacin cobertura-precisin : si esto se hace en torno a rangos de 5 a 15 porciento, 16 a 25 porciento, etc, se generan muy buenas aproximaciones a los niveles de .10 , .20 , .30 etc. de cobertura, los datos asociados con niveles de cobertura menores a 5 porciento, se promedian en el nivel 0 de coberturaXXIV.

c) Los documentos de la coleccin han sido indexados como ya se mencion, y la semejanza se calcula mediante la expresin de coseno, sobre los vectores que representan a cada documento, normalizados, es decir:

XXIV

vase seccin 5.1 pg 130

172

Semejanza

ij

W
k =1

ik

r r W jk = W i W j

De manera que:

W xy =

* W xy

W
i =1

2 xy

Semejanza ii = 1.

Donde: Semejanza vectores i, j. = Medida de la semejanza segn el coseno, entre los

ij

r Wi = [Wi1 ,LWiM ] = vector representa nte del documento i.


Wij* = tf idf
De este punto en adelante, nos referiremos a experimentos realizados en un ordenador personal con microprocesador athlon a 900 mhz, mediante un software implementado en visual C++, con tablas auxiliares de ACCESS. As, si se procesan las 93 queries del corpus NPL, se obtienen los siguientes resultados ( tabla 9 ): Desde luego que la meta ltima de un sistema de bsqueda ideal, sera que en cada nivel de cobertura, la precisin fuese 1, es decir, que la lista ordenada de documentos localizados, contuviera en sus k primeras posiciones, los k documentos relevantes del caso ( y en el colmo de la perfeccin, ninguno ms ). Hasta el momento ese lmite superior no parece alcanzable, y en particular para una clase de modelos ( en nuestro caso, el VSM ), podramos tener una referencia superior ms asequible.

173

Resultados originales VSM cobertura precisin 0 .6230 .10 .4622 .20 .3505 .30 .2839 .40 .2393 .50 .1855 .60 .1513 .70 .1198 .80 .0929 .90 .0580 1.0 .0314 Promedio .23641 Promedio* .19775
Tabla 9 .- Medicin de precisin para 11 puntos de cobertura, 93 queries de la coleccin NPL.

Ya que se da el caso de que conocemos la lista de documentos relevantes para cada query, que en todos nuestros anlisis comprende la identificacin de documentos relevantes, y que adems no establece rdenes o jerarquas entre ellos ( no hay unos documentos ms relevantes que otros ), podemos realizar un anlisis como el siguiente :

a) Hacer un conteo de las palabras que aparecen en cada conjunto de documentos relevantes de cada query. Crear con los resultados de dicho conteo, listas en orden decreciente de frecuencia.

b) Utilizar las primeras k palabras de la lista correspondiente a cada conjunto de documentos relevantes asociados con cada query, para crear una query alternativa que seguramente representa con muy buen grado de acierto al contenido real de la necesidad de informacin, y ms que eso, es una representacin muy adecuada de los que son documentos

174

relevantes, basndose en las palabras que contienenXXV. Cada trmino de estas queries, se pondera de acuerdo con su frecuencia acumulada de todos los documentos relevantes del conjunto en cuestin. En nuestro caso se utiliz k = 15;

c) Se somete la nueva query a procesamiento en la mquina de bsqueda, y se observan y evalan los resultados. Lo anterior es una aproximacin, muy elemental, a la idea de que existe una query ideal, o lo equivalente a lo que se ha descrito en la paradoja de la query perfecta
186

, que como hemos mencionado, parece no ser calculable, al menos en el

marco de los modelos que estamos empleando. Mediante este procedimiento, se obtienen los niveles consignados en la tabla 10: Resultados lmite superior cobertura precisin 0 .81 .10 .695 .20 .588 .30 .498 .40 .42 .50 .367 .60 .302 .70 .248 .80 .182 .90 .118 1.0 .104 Promedio .39382
Tabla 10 .- Resultados con queries ficticias formuladas con palabras ms frecuentes en documentos relevantes. (lmite superior).

Por lo que la razn entre los resultados originalmente obtenidos por la mquina de bsqueda y la referencia o lmite superior obtenido, generara la tabla 11:

XXV

r r 1 1 r qopt = dj dj Cr r r C r d j Cr N C r d j Cr en la que Esta es una simplificacin de la frmula es el conjunto de documentos relevantes para la query de que se trate. Baeza- Yates, Ribeiro-Neto, op.cit. p119.

175

Razn Original VSM/Superior cobertura precisin-R % 0 76.9135 .10 66.5036 .20 59.6088 .30 57.008 .40 56.9762 .50 50.545 .60 50.099 .70 48.3064 .80 51.0439 .90 49.1525 1.0 32.7885 Promedio 54.4496 Promedio* 52.20
Tabla 11 .- Razn entre medidas de precisin bsicas, y el lmite superior.

Para obtener esta tabla ( 11 ), en cada caso se realizaron operaciones como las siguientes: Recall=0; Precision en Original VSM =.6230; Precision en Lmite Superior =.81; Razn = ( .6230 / .81 ) x 100= 76.9135. Los anteriores resultados, a los que denominaremos nivel bsico ( tabla 9 ) y bsico-R ( tabla 11 ), nos serviran como referencia en el anlisis de las propuestas, en la inteligencia de que cualquier planteamiento de reformulacin de una query, tendra para ser aceptable, que superar ya sea a los resultados originales de VSM, o la razn de estos respecto al lmite superior que se calcul o ambas cosas. Los mtodos de reformulacin automtica de queries, se consideraron herramientas intiles durante mucho tiempo. De hecho, Qiu comentaba en su tesis que tratndose de reformular o modificar las queries mediante la adicin de trminos, el menos malo de los mtodos conocidos con anterioridad en cuanto a los resultados que se generaban, era la inclusin de trminos al azar.

176

Con objeto de contar con una referencia ms, se ejecut una rutina en la mquina de bsqueda, en la que para cada query de la batera controlada, se eligieron palabras al azar de entre las que estn en el diccionario de la coleccin, considerndose todas las palabras con la misma probabilidad de ser elegidas y se aadieron a la query original, ponderndolas de acuerdo con la siguiente expresin:

pondti = 1 0.9 * i

( ( na ))

Donde: i = rden del trmino de que se trata, en la lista. na = nmero de trminos a aadir. pondti = ponderacin asignada al trmino i, aadido. Procediendo de esta manera, se han ejecutado las correspondientes bsquedas con las queries ampliadas con distintas cantidades de palabras aadidas: 10, 20, 30, 40, 50, 75, 100, 150, 175, 200 y 300. Los resultados obtenidos para los 11 puntos de recall-precision, se promediaron, se calcul el cociente respecto al lmite superior, y se compararon con el nivel bsico, obtenindose los resultados que se muestran en la tabla 12:

Opcin Bsico Aadiendo 10 Aadiendo 20 Aadiendo 30 Aadiendo 40 Aadiendo 50 Aadiendo 75 Aadiendo 100 Aadiendo 150 Aadiendo 175 Aadiendo 200 Aadiendo 300

Nivel promedio .2364 .2340 .2308 .2274 .2224 .2128 .2120 .2053 .1951 .1899 .1865 .1691

Diferencia vs. Bsico -1.0 % -2.37 % -3.81 % -5.42 % -9.99 % -10.34 % -13.15 % -17.48 % -19.66 % -21.10 % -28.45 %

Nivel promedio-R 54.45 53.48 52.38 51.28 50.15 46.86 47.82 45.53 42.69 41.32 40.18 35.71

Diferencia vs Bsico -1.77 % -3.79 % -5.81 % -7.89 % -13.97 % -13.27 % -16.37 % -21.59 % -24.11 % -26.80 % -34.42 %

Tabla 12 .- Resultados de expansin para diferente nmero de trminos aadidos, seleccionados al azar.

177

Como puede verse, la adicin de trminos sin ningn cuidado, daa los resultados de la bsqueda, y mientras ms trminos se aaden, mayor es el dao. Sin embargo, mientras se mantienen dentro de la query sus trminos originales, y son los ms altamente ponderados, no se elimina buena parte de su efecto en la bsqueda. Complementariamente, an cuando se aaden cantidades relativamente grandes de palabras muy probablemente errneas, su efecto no es devastador dado que a medida que aumenta dicha cantidad, se reducen los valores de sus correspondientes ponderaciones.

178

6.2 El Anlisis Global.En 1995, se publica la tesis doctoral de Y. Qiu


187

, en la que se propuso un

esquema de determinacin de las relaciones entre las palabras del diccionario de una mquina de bsqueda, ya sea que sta estuviese basada en el VSM o en redes inferenciales. La idea central de la propuesta radicaba en aprovechar la medicin que es posible hacer de la semejanza que tiene el empleo de cada una de las palabras del diccionario, con la de cualquiera otra de ellas, utilizando para ello el coseno aplicado a vectores que representan a los trminos, en las que los rasgos seran los documentos, es decir, transponiendo los elementos del VSM tradicional para esta etapa del anlisis. El mtodo, en lo concerniente a la bsqueda en s, podra resumirse de la siguiente manera:

a) La coleccin de documentos, se indexara en una primera etapa, de la misma forma que como se hara para el modelo convencional de que se tratara ( VSM, red inferencial u otros). Esto implica determinar vectores uno por cada documento, conteniendo ponderadores uno por cada trmino, en los que se reflejaran los factores mencionados en el estado del arte. En nuestro caso utilizamos la siguente expresin:

f ij W ij = min 1, f .max .td j

N log 10 usot i

Donde : Wij = Ponderador del trmino i en el documento j. f.maxtdj = Frecuencia del trmino que ms veces ocurri en el documento j.

179

fij = Frecuencia del trmino i en el documento j. usoti = Nmero de documentos en los que ocurre el trmino i. N = Nmero total de documentos en la coleccin.

b) Se calculara la semejanza que existe entre cada par de trminos del diccionario generado por el proceso de indexacin del inciso a. Para dicho clculo se requieren varios elementos, a saber : -Por cada trmino, un vector en el que cada uno de sus elementos representara un ponderador mediante el cual se reflejar la importancia que cada documento de entre aquellos en los que dicho trmino aparece, tiene para la caracterizacin del trmino en s. En nuestro caso, los ponderadores se calculan de la siguiente manera:

f M log Wij* = 0.5 + 0.5 ij f .max.t j .d usot .d i

Donde : Wij* = Ponderador del documento i para el trmino j. M = Nmero total de trminos en el diccionario. fij = Frecuencia del trmino j en el documento i. f.max.tj.d = Frecuencia mxima del trmino j en cualquiera de los documentos. usotdi = Nmero de trminos diferentes que ocurren en el documento i.

180

El caso comn, es que cada trmino ocurre simultneamente con otro u otros, en uno o varios documentos, de donde se infiere que hay relacin entre ellos. Con algunos, probablemente muchos, no habr ninguna coincidencia o co-ocurrencia. Por ello, para fines prcticos de clculo, dado un trmino, conviene generar la lista de los vectores correspondientes a documentos en que dicho trmino aparece, y reunir todos los trminos que a su vez ocurren en esa lista de documentos. Esta ltima es la lista de los trminos que pueden tener un coseno distinto de cero con el trmino en cuestin.

c) Se evaluara y almacenara el coseno existente entre el vector del trmino en cuestin y cada uno de los de la lista obtenida en el inciso b. Tambin en este caso, se normalizaran los vectores antes del clculo del coseno. Si las operaciones descritas hasta este momento, se realizan para cada uno de los trminos del diccionario de la coleccin, se obtendra lo que Qiu ha denominado un thesaurus automticamente extrado. Para nuestra coleccin un trmino tendra asociada una lista de trminos con una medida de semejanza, como la que se muestra ( para un ejemplo ) en la siguiente tabla ( 13 ): Desde luego que la complejidad del clculo es significativa, y el espacio necesario para almacenamiento tambin lo es, pero adems, su actualizacin al modificar el contenido de la coleccin podra ser muy costosa. En nuestro caso implementamos estos planteamientos realizando el clculo cuando es requerido por el procesamiento de un query, de manera que hasta el ltimo momento se normalizan los vectores.

d) Contando con la disponibilidad de las medidas de asociacin entre cada uno de los trminos de una query y los dems de la coleccin, al menos los que son pertinentes ( cuya medida de asociacin es mayor que cero), Qiu propuso la consideracin de que cualquier otro trmino ( uno no perteneciente a la misma ), estar a su vez en mayor o menor grado asociado con la totalidad de la query, o por decirlo de otra manera, ser

181

ms o menos pertiente en el contexto de la query, no por un alto grado de asociacin con uno de los trminos, sino por una combinacin de las medidas respectivas con todos los trminos de dicha query.

Asociaciones trmino System Control Servo Storag Memori Us Comput Linear Nonlinear Oper Applic Bit Equat Describ Store Stabil Oscill Feedback Digit Word Analysi

del Medida (coseno) .2079 .1656 .1554 .1357 .1282 .1220 .1162 .1139 .1084 .1061 .1049 .1031 .1018 .1017 .1004 .0992 .0986 .0978 .0962 .0946

Tabla 13 .- Primeros 20 trminos ms asociados con uno de los de la query 4, NPL, segn anlisis global.

La manera como se ha propuesto esta combinacin puede ser vista de dos modos: ya sea como que la asociacin significativa de un trmino candidato a ampliar la query, es la que ste tiene con el centroide que se puede formar con todos los trminos de ella, es decir, con un vector en el que se reunan los ponderadores Wij de todos los trminos que forman la query, a su vez multiplicados por el factor Wiq que le hubiere sido asociado al integrarla, formalmente:

Vc = a1 V1 + a 2 V2 L a r Vr
ai = ponderador del trmino en la query.

182

r = Nmero de trminos de la query. Vc = Centroide de la query.

Trminos de una query

Lista de trminos

Centroide Clculo del centroide Asociaciones trmino A trmino.

Esquematizacin del clculo de la representacin de la query mediante una combinacin de las representaciones de sus trminos, como se emplea en el anlisis global.

figura 15 .- La nocin del centroide en el anlisis globlal ( Qiu ).

Y cada uno de los trminos candidatos a la ampliacin, seran nuevamente comparados respecto a este trmino ficticio que es el centroide ( vase fig. 15). La otra forma de ver este mismo planteamiento es que dado que ya existen las medidas de asociacin entre cada trmino de la query y cada trmino candidato a incorporarse a ella, lo que se plantea es calcular una media ponderada de dichas asociaciones, creando con ello un indicador que establezca un orden de preferencia de los candidatos a la ampliacin, usando la siguiente expresin:

183

r sim( q, t j ) = Vc t j =

r Vi q

r r Vi t j

e) Habiendo realizado lo anterior, se decidira un nmero de trminos para ampliar la query, que seran los k primeros segn la lista ordenada de trminos creada, y se les ponderara de acuerdo con algn criterio. En nuestro caso, usamos el mismo procedimiento para tal ponderacin como el que empleamos en la expansin con terminos aleatoriamente elegidos. Se ha ensayado este procedimiento para varias cantidades de trminos aadidos, obtenindose los siguientes resultados ( tablas 14 y 15 ):

Cobertura 0 .10 .20 .30 .40 .50 .60 .70 .80 .90 1.0 Prom. Prom*.

+ 10 trminos Precisin .5864 .4775 .3339 .2883 .2462 .1891 .1570 .1231 .0995 .0651 .0353 .2337 .1985

+20 trminos Precisin .6330 .4385 .3179 .2701 .2364 .1858 .1653 .1312 .1035 .0704 .0374 .2354 .1956

+30 trminos Precisin .5938 .4160 .3083 .2651 .2349 .1887 .1695 .1343 .1062 .0718 .0376 .2296 .1932

+40 trminos Precisin .6094 .4077 .3100 .2627 .2316 .1864 .1695 .1338 .1067 .0721 .0375 .2297 .1917

Tabla 14 .- Resultados para expansin con diferente nmero de trminos aadidos, anlisis global.

184

+50 trminos cobertura precisin 0 .5784 .10 .3963 .20 .3030 .30 .2644 .40 .2283 .50 .1835 .60 .1650 .70 .1346 .80 .1064 .90 .0747 1.0 .0381 Prom. .2252 Prom*. .1899

+75 trminos precisin .5312 .3889 .3024 .2608 .2232 .1767 .1608 .1315 .1073 .0769 .0386 .2180 .1867

+100 trminos precisin .5180 .3789 .2948 .2561 .2169 .1743 .1563 .1287 .1013 .0754 .0372 .2125 .1820

+150 trminos precisin .5339 .3599 .2772 .2467 .2055 .1658 .1495 .1199 .0962 .0721 .0365 .2057 .1729

+175 trminos precisin .5592 .3526 .2703 .2447 .2017 .1631 .1460 .1163 .0940 .0706 .0353 .2049 .1694

+200 trminos precisin .5691 .3527 .2615 .2374 .1962 .1612 .1452 .1132 .0917 .0697 .0344 .2032 .1666

+300 trminos precisin .5759 .3631 .2458 .2226 .1891 .1546 .1404 .1094 .0851 .0648 .0324 .1985 .1607

Tabla 15 .- Resultados de expansin con diferente nmero de trminos aadidos, anlisis global.

Como puede verse, decidimos incluir el promedio global, y el promedio de los 10 niveles de precisin que restan, si se elimina el nivel 0, cuyas variaciones desproporcionadas pueden crear un efecto equvoco. Si comparamos estos resultados, con los del nivel bsico, podemos observar que, el adicionar trminos o bien no mejora significativamente o incluso empeora el desempeo de la bsqueda. Vease la comparacin ( tabla 16 ): Desde luego que en este caso, la adicin de trminos no es tan daina como cuando se trata de trminos aleatoriamente seleccionados, pero como en dicho caso, mientras ms terminos se incorporan a la query, es mayor el deterioro de los resultados de la mquina de bsqueda, si bien cuando se trata de entre 10 y 50, al menos en la comparacin relativa al perfil bsico/superior, se logra mantener el nivel de desempeo. Estos resultados tambin ilustran dos puntos de inters en el proceso de reformulacin de la query: I. Habindose detectado un grado relativamente alto de asociacin entre un trmino candidato y la query en su conjunto, por ejemplo los que se hallan mejor posicionados en la lista ordenada de los trminos candidatos a incluirse en la query, no todos los que se elijan de entre ellos,

185

mejoran la query, algunos si lo hacen y otros pueden empeorarla, de manera que unos y otros pueden neutralizarse. Tambin es posible pensar que algunos de los tminos aadidos, ni mejoran ni emperoran la query. Dado el tamao de los documentos de esta coleccin, aadir ms de 100 trminos parecera que de todas maneras es poco adecuado. II. Tngase en mente que en nuestros experimentos no estamos empleando la lgica de ponderacin de los trminos aadidos, que propuso Qiu, sino una funcin montona decreciente entre 1 y 0.1 de la posicin del candidato en la lista, esto es con el propsito de comparar resultados de este procedimiento con el de Xu que se presentar ms adelante.

Opcin Bsico Bsico* Aadiendo 10 Aadiendo 20 Aadiendo 30 Aadiendo 40 Aadiendo 50 Aadiendo 75 Aadiendo 100 Aadiendo 150 Aadiendo 175 Aadiendo 200 Aadiendo 300

Nivel promedio .2364 .1977 .2337 .1985 .2354 .1956 .2296 .1932 .2297 .1917 .2252 .1899 .2180 .1867 .2125 .1820 .2057 .1729 .2049 .1694 .2032 .1666 .1985 .1607

Diferencia vs. Nivel Bsico promedio-R 54.45 52.20 -1.11 % 55.18 +0.38 % 53.46 -0.42 % 56.05 -1.96 % 53.84 -2.85 % 55.61 -2.27 % 53.85 -2.81 % 55.56 -3.01 % 53.59 -4.73 % 55.15 -3.96 % 53.52 -7.77 % 54.01 -5.58 % 52.86 -10.09 % 52.55 -7.97 % 51.42 -12.97 % 50.49 -12.55 % 48.95 -13.32 % 49.82 -14.30 % 47.99 -14.05 % 49.16 -15.74 % 47.05 -16.04 % 47.30 -18.72 % 44.92

Diferencia vs Bsico

+1.35 % +2.41 % +2.94 % +3.13 % +2.14 % +3.15 % +2.03 % +2.66 % +1.29 % +2.53 % -0.79 % +1.26 % -3.47 % -1.5 % -7.27 % -6.23 % -8.49 % -8.24 % -9.70 % -9.86 % -13.12 % -13.94 %

Tabla 16 .- Comparacin entre resultados bsicos y expansin segn anlisis global, para diferente nmero de trminos aadidos.

186

f) En esta propuesta, se sugiri una extensin del enfoque, considerando que si se hiciera una bsqueda inicial con el modelo bsico, se tendra un material informativo de inters: Se habra elaborado un ordenamiento inicial de documentos que en su porcin inicial podra ser analizado para obtener valiosas indicaciones. Consecuentemente, se propuso : -Revisar los primeros k documentos de la lista ordenada por la bsqueda inicial, e identificar si entre ellos se encuentran los trminos de la query, ya que si alguno de dichos trminos no aparece en esa primera fraccin del ranking, probablemente este trmino es poco til en la bsqueda, puede ser por que sea muy ambigo, o por alguna otra causa, ya que ni siquiera se tiene la garanta de que ese trmino pertenezca al diccionario de la coleccin ( pero si esto ltimo fuese el caso, no tendra ningn efecto en los clculos ). En la nomenclatura empleada por Qiu, los trminos que aparecen en esa primera fraccin del ordenamiento o parte alta de la lista, se denominaron trminos buenos y los dems trminos malos. Implementamos dos modalidades de esta idea, la primera tal como fue planteada, y la segunda considerando que no slo se restringira la representacin de la query a los terminos buenos, sino que tambin solamente estos se tomaran en cuenta como candidatos a la ampliacin. En el primer caso restringimos la parte alta de la lista a 50 documentos y en el segundo a 100, y en ambos hemos ampliado la query con diferentes cantidades de trminos. presentamos los resultados en la tabla 17:

187

+10 t. +20 t. +30 t. +40 t. +50 t. +75 t. +100 t. +150 t. +175 t. +200 t. +300 t.

Extendido Original Nivel Difer. Vs. prom. Bsico .2351 -0.5 % .1992 +0.74% .2377 +0.55 % .1967 -0.52% .2310 -2.27 % .1936 -2.10% .2300 -2.72 % .1916 -3.08% .2281 -3.52% .1911 -3.36% .2201 -6.88% .1883 -4.76% .2142 -9.39% .1829 -7.49% .2072 -12.35% .1745 -11.78% .2067 -12.58% .1713 -13.39% .2049 -13.32% .1679 -15.09% .2002 -15.29% .1618 -18.15%

Nivel Prom.-R 55.44 53.65 56.47 54.13 55.78 53.88 55.50 53.48 55.52 53.70 54.37 53.17 52.84 51.62 50.79 49.26 50.19 48.29 49.47 47.31 47.61 45.16

Difer. vs. Bsico +1.82 % +2.77% +3.72 % +3.68% +2.44 % +3.21% +1.92 % +2.44% +1.97% +2.86% -0.13% +1.85% -2.96% -1.12% -6.73% -5.63% -7.82% -7.49% -9.15% -9.36% -12.55% -13.48%

Extendido Amplio Nivel Difer. Vs. prom. Bsico .2394 +1.27% .1999 +1.10% .2358 -0.24% .1985 +0.39% .2365 +0.05% .1993 +0.08% .2335 -1.2 % .1981 +0.19% .2259 -4.43% .1914 -3.2% .2259 -4.46% .1913 -3.28% .2215 -6.3% .1862 -5.83% .2224 -5.94% .1828 -7.53% .2191 -7.31% .1800 -8.95% .2169 -8.26% .1792 -9.35% .2069 -12.98% .1676 -15.22%

Nivel Prom.-R 56.35 54.16 56.55 54.68 56.80 54.97 56.64 55.04 55.16 53.62 54.75 53.16 53.40 51.65 52.49 50.11 51.50 50.11 50.75 49.12 47.13 44.44

Difer. vs. Bsico +3.5% +3.75% +3.85% +4.75% +4.32% +5.31% +4.01 % +5.44% +1.3% +2.72% +0.55% +1.84% -1.92% -1.05% -3.61% -4.0% -5.42% -5.91% -6.79% -7.09% -13.43% -14.85%

Tabla 17 .- Resultados para expansin con diferente nmero de trminos aadidos, modelos extendidos del anlisis global.

Estos ltimos resultados ( tabla 17 ) evidencian que hay un muy pequeo grado de mejora del enfoque extendido en relacin con el primero, sobre todo por que si bien en estos escenarios como en el previamente visto, hay tendencia a empeorar en la medida que es mayor el nmero de trminos, en estas dos ltimas modalidades esta tendencia tiene menor ritmo de desarrollo, particularmente en la que hemos denominado extendida amplia. Como quiera que sea, no sera recomendable utilizar de esta forma las propuestas de ampliacin basadas en este modo de construccin de un tesauro automticamente determinado. La explicacin del muy pobre desempeo observado, tiene que ver con la lgica de ponderacin de los trminos aadidos a la query. En efecto, si empleamos la tcnica propuesta por Qiu para dicha ponderacin, que se basa en la expresin:

188

pond ( q, t j ) =
Obtenemos resultados mejores ( tabla 18 ):

sim( q, t j )
Vi q

Opcin

Bsico Bsico* + 10 t. + 20 t. + 30 t. + 40 t. + 50 t. + 75 t. + 100 t. + 150 t. + 175 t. + 200 t. + 300 t. + 350 t. + 400 t. + 450 t. + 500 t. + 550 t. + 600 t. + 650 t. + 700 t.

Modelo original Nivel Difer. promed. Vs. Bsico .2364 .1977 .2436 +3.05% .2059 +4.12% .2475 +4.7% .2096 +5.97% .2505 +5.98% .2124 +7.39% .2521 +6.65% .2142 +8.31% .2534 +7.18% .2151 +8.77% .2551 +7.90% .2170 +9.73% .2560 +8.28% .2179 +10.19% .2589 +9.5% .2202 +11.34% .2596 +9.82% .2207 +11.62% .2604 +10.16% .2217 +12.16% .2656 +12.34% .2260 +14.29% .2644 +11.86% .2254 +13.99% .2654 +12.26% .2265 +14.51% .2679 +13.35% .2285 +15.58% .2680 +13.39% .2294 +16.01% .2685 +13.58% .2299 +16.26% .2686 +13.64% .2298 +16.19% .2690 +13.78% .2302 +16.39% .2691 +13.84% .2303 +16.45%

Nivel prom. -R 54.45 52.20 56.47 54.45 57.42 55.42 58.25 56.26 58.58 56.65 59.08 57.13 59.66 57.77 59.87 58.00 60.55 58.63 60.68 58.74 60.91 59.02 62.09 60.14 61.99 60.11 62.24 60.39 62.66 60.75 62.87 60.97 62.87 61.08 62.89 61.07 63.00 61.19 63.05 61.24

Difer. vs Bsico

+3.7% +4.30% +5.45% +6.16% +6.97% +7.78% +7.59% +8.51% +8.51% +9.44% +9.56% +10.66% +9.96% +11.10% +11.21% +12.32% +11.45% +12.53% +11.87% +1305% +14.04% +15.21% +13.86% +15.15% +14.32% +15.67% +15.07% +16.37% +15.38% +16.80% +15.47% +17.01% +15.51% +16.98% +15.71% +17.21% +15.80% +17.32%

Modelo extendido Nivel Difer. Promed. Vs. Bsico .2364 .1977 .2450 +3.63% .2070 +4.69% .2487 +5.21% .2103 +6.34% .2514 +6.34% .2135 +7.98% .2537 +7.31% .2154 +8.93% .2544 +7.63% .2160 +9.21% .2561 +8.32% .2181 +10.27% .2579 +9.11 % .2192 +10.87% .2609 +10.35% .2220 +12.26% .2628 +11.18% .2237 +13.11% .2648 +12.0% .2252 +13.90% .2684 +13.54% .2283 +15.43% .2683 +13.48% .2288 +15.75% .2684 +13.53% .2293 +15.95% .2688 +13.69% .2300 +16.32% .2691 +13.84% .2305 +16.54% .2695 +14.0% .2305 +16.55% .2696 +14.03% .2305 +16.58% .2696 +14.03% .2306 +16.60% .2697 +14.10% .2307 +16.68%

Nivel Prom. -R 54.45 52.20 56.80 54.77 57.65 55.60 58.48 56.54 59.16 57.22 59.39 57.44 59.92 58.06 60.22 58.28 60.94 59.01 61.40 59.45 61.87 59.90 62.63 60.62 62.66 60.75 62.75 60.89 62.88 60.89 62.97 61.17 63.06 61.22 63.07 61.23 63.07 61.24 63.11 61.28

Difer. Vs. Bsico.

+4.32 % +4.92% +5.88 % +6.51% +7.40% +8.32% +8.66 % +9.61% +9.08 % +10.03% +10.05% +11.22% +10.59% +11.63% +11.92% +13.04% +12.76% +13.89% +13.62% +14.75% +15.02% +16.12% +15.08% +16.38% +15.25% +16.63% +15.48% +16.63% +15.65% +17.18% +15.81% +17.27% +15.84% +17.30% +15.84% +17.30% +15.91% +17.39%

Tabla 18 .- Resultados de expansin segn modelo global y global extendido, con su funcin propia de ponderacin de trminos includos.

189

6.3 El anlisis del contexto local.En 1997, Xu publica su tesis


188

en la que propone otra idea para ampliar la

query, y mejorar el desempeo de la mquina de bsqueda. Esta propuesta que se ha identificado como Anlisis Del Contexto Local utiliza algunos de los elementos de la antes vista propuesta de Qiu, pero con una lgica distinta. Una de las ideas escenciales de este nuevo planteamiento, consiste en otorgarle gran importancia a la parte alta de la lista ordenada; en ver dicha fraccin como un elemento definidor del contexto adecuado para la query. Adems, el planteamiento de Xu implica un mtodo de clculo del grado de conveniencia que cada trmino candidato tendra en funcin de un grado de coherencia o asociacin con la estructura de la query. Uno de los anlisis interesantes en este modelo, es el que su autora desarrolla, en relacin con la posible existencia de queries translapadas, o queries simultneas distintas, es decir, que la query puede ser descompuesta en varias subqueries alternativas, que cada una de ellas podra referirse a diferentes conceptos, dominios, etc. Por ello el ndice de conveniencia de cada candidato, tiene que evaluarse en relacin con la totalidad de la query, y no con alguna parte o partes de ella, coincidiendo en esto con el modelo propuesto por Qiu. Veamos como ha sido planteado este procedimiento:

a) Considerando una query el mtodo de Xu, requerira que se ejecutase una bsqueda inicial, generndose con ello una primera lista ordenada, como en el caso del enfoque extendido de Qiu.

b) Se determinara un primer parmetro, que sera el nmero de documentos de la parte alta de la lista en que se hara el anlisis. Considerando este nmero, digamos que sea k, se calculara un grado de co-ocurrencia entre

190

cada uno de los trminos de la query, y cada uno de los dems trminos que se encuentran en cualquiera de los k documentos de la parte alta del ranking. Dicho grado de co-ocurrencia se determinara de acuerdo con la siguiente expresin:

gra do _ co(c, wi ) = log10(co(c, wi ) + 1) idf (c )

log10(k )

En ella: c = cualquiera de los trminos que son candidatos a formar parte de la expansin de la query. wi = el -esimo trmino de la query k = parmetro correspondiente al nmero de documentos

seleccionados en la parte alta de la lista ordenada. co(c, wi) = nmero de documentos en los que co-ocurren c y wi.

Y como en los casos anteriores:

log 10 N n c idf (c ) = min 1.0, 5

Conviene analizar que este grado de co-ocurrencia, busca reflejar el nmero de veces que concurren los dos trminos en cuestin, matizando mediante el indice de dispersin del trmino candidato, el idf correspondiente, pensando que una palabra poco distribuda, si co-ocurre varias veces con una de las de la query, est indicando un fenmeno ms interesante que si una altamente distribuda lo hace.

191

c) Como en el planteamiento de Qiu, en el de Xu se propone que una medida del grado de conveniencia de inclusin de algn trmino candidato, tiene que ver con una relacin entre ste y todos los trminos de la query. El planteamiento ha implicado que un candidato podra tener diversos grados de co-ocurrencia con los trminos de la query, desde 0 hasta alguna cantidad positiva, y que la experimentacin le indic al autor, que la funcin ms eficiente sera una multiplicatoria de dichos grados de coocurrencia. Para evitar que un solo cero determinara el valor del ndice a calcular, se incluy una constante de valor muy pequeo sumndose a cada grado de co-ocurrencia (con lo cual, el valor mnimo del ndice sera directamente proporcional a dicha constante pequea), y finalmente como alguno de los trminos de la query podra ser ms significativo que otros, esto se reflejara en el idf de dicho trmino. Con todas estas consideraciones la expresin empleada es :

f (c, Q) =

wi Q

( + grado _ co(c, w ))
i

idf ( wi )

En la que: f(c,Q) = medida de la conveniencia de incluir en la expansin de la query Q, al trmino c.

Q = [w1 L wr ] = la query.
y

= 0.001
Mediante esta funcin, se elabora una lista ordenada de los trminos candidatos.

192

d) A continuacin se seleccionar un nmero de trminos para ampliar la query, y se tendra que determinar un ponderador para cada uno de los trminos a incorporar a la query. En nuestro caso utilizamos el mismo procedimiento mencionado previamente, que pondera en funcin de la posicin que tiene cada candidato en la lista. Habindose reformulado la query, se volvera a ejecutar la bsqueda. Conviene tambin sealar que en su planteamiento, Xu haba pre-procesado la coleccin creando pseudo-documentos o ventanas de tamao pequeo, generalmente de 300 palabras, pero en nuestro caso, para el corpus NPL los documentos son incluso ms pequeos que dicho tamao. En las tablas 19 y 20 se muestran los resultados obtenidos, para varios valores de los parmetros. Estos resultados son interesantes por varias razones: -El modelo propuesto por Xu, logra un incremento no trivial en el desempeo promedio de la mquina de bsqueda, en cualquiera de las opciones en que se han aadido 10 trminos a las queries. -La estrategia planteada como base del modelo, se traduce bien en su funcionamiento: al darle importancia a los primeros documentos de la lista ordenada, y como se dice en la mencionada tesis, si en dicha parte de ella se forman clusters bien identificados con la query en conjunto, entonces el anlisis detectar las asociaciones de trminos que dan base a tales clusters y fortalecer el ordenamiento. -Podra estimarse que las mismas razones que fortalecen la posicin de algunos documentos relevantes en la lista ordenada, mediante el modelo que estamos estudiando, a medida que se hace mayor el nmero de documentos seleccionados de dicha lista, y tambin a medida que se hace mayor el nmero de trminos que se aaden a las queries, funcionan en el sentido contrario al deseado. En la opcin en que se consideran los primeros 500 documentos, y se aaden 150 o ms trminos, se alcanzan

193

prcticamente los mismos niveles que en la opcin de aadir ese mismo nmero de trminos seleccionados al azar (incluso se empeora ligeramente ms cuando se aaden 200 o ms trminos ), y en cambio, en la opcin en que se consideran los primeros 50 documentos, un rastro del efecto benfico sobre la bsqueda, persiste incluso cuando se aaden 300 trminos.
Utilizando los primeros lista ordenada inicial. Nivel Difer. Vs. prom. Bsico .2733 +15.61% .2310 +16.82% .2711 +14.68% .2256 +14.08% .2678 +13.31% .2212 +11.86% .2682 +13.45% .2212 +11.87% .2648 +11.99% .2195 +11.00% .2606 +10.24% .2168 +9.64% .2564 +8.46% .2160 +9.22% .2521 +6.62% .2134 +7.92% .2524 +6.73% .2122 +7.32% .2502 +5.83% .2109 +6.68% .2389 +1.07% .2008 +1.57% 50 documentos de la Utilizando los primeros lista ordenada inicial. Nivel Difer. Vs. Nivel Difer. Vs. prom-R Bsico prom. Bsico 63.21 +16.10% .2686 +13.63% 60.94 +16.74% .2268 +14.68% 61.53 +13.0% .2542 +7.54% 58.71 +12.47% .2172 +9.86% 59.93 +10.06% .2468 +4.41% 56.86 +8.91% .2128 +7.63% 59.50 +9.27% .2468 +4.40% 56.34 +7.92% .2090 +5.72% 58.78 +7.95% .2507 +6.03% 55.80 +6.89% .2065 +4.41% 57.43 +5.47% .2477 +4.77% 54.54 +4.48% .2046 +3.48% 56.36 +3.50% .2458 +3.96% 53.83 +3.12% .2017 +2.0% 54.80 +0.65% .2410 +1.93% 52.40 +0.04% .1977 +0.01% 54.39 -0.1% .2381 +0.73% 51.75 -0.08% .1952 -1.27% 53.72 -1.34% .2364 -0.01% 51.16 -2.0% .1924 -2.71% 50.43 -7.38% .2258 -4.5% 47.82 -8.39% .1824 -7.71% 100 documentos de la Nivel prom-R 61.32 58.96 58.68 56.85 57.04 55.50 56.23 54.15 56.14 53.21 55.02 52.15 54.06 50.99 52.39 49.33 51.40 48.30 50.60 47.32 47.97 44.09 Difer. Vs. Bsico +12.62% +12.95% +7.77% +8.90% +4.75% +6.31% +3.28% +3.72% +3.11% +1.93% +1.05% 0.0% -0.7% -2.31% -3.77% -5.51% -5.59% -7.46% -7.06% -9.36% -12.81% -15.54%

Aadir: 10 t. 20 t. 30 t. 40 t. 50 t. 75 t. 100 t. 150 t. 175 t. 200 t. 300 t.

Tabla 19 .- Resultados de expansin con diferente nmero de trminos aadidos, segn anlisis local.

194

Aadir: 10 t. 20 t. 30 t. 40 t. 50 t. 75 t. 100 t. 150 t. 175 t. 200 t. 300 t.

Utilizando los primeros lista ordenada inicial. Nivel Difer. Vs. prom. Bsico .2671 +13.00% .2275 +15.05% .2566 +8.53% .2175 +10.01% .2478 +4.81% .2113 +6.86% .2477 +4.78% .2074 +4.87% .2417 +2.26% .2030 +2.98% .2311 -2.22% .1893 -4.28% .2240 -5.22% .1818 -8.03% .2245 -5.02% .1757 -11.13% .2209 -6.57% .1725 -12.75% .2161 -8.59% .1693 -14.36% .2034 -13.94% .1574 -20.40%

200 documentos de la Utilizando los primeros lista ordenada inicial. Nivel Difer. Vs. Nivel Difer. Vs. prom-R Bsico prom. Bsico 62.37 +14.55% .2613 +10.51% 60.42 +15.74% .2250 +13.78% 59.76 +9.76% .2511 +6.21% 57.76 +10.63% .2141 +8.28% 57.63 +5.84% .2443 +3.33% 55.84 +6.96% .2076 +4.97% 56.79 +4.30% .2421 +2.40% 54.44 +4.28% .2002 +1.23% 55.14 +1.27% .2367 +0.14% 52.96 +1.46% .1944 -1.67% 51.61 -5.21% .2216 -6.27% 48.75 -6.61% .1798 -9.05% 49.37 -9.33% .2113 -10.61% 46.33 -11.25% .1709 -13.56% 48.18 -4.51% .1957 -17.20% 44.20 -15.33% .1545 -21.85% 42.12 -13.44% .1900 -19.62% 47.13 -17.35% .1471 -25.63% 45.80 -15.88% .1835 -22.38% 41.95 -19.65% .1405 -28.95% 42.04 -22.77% .1680 -28.94% 38.05 -27.11% .1220 -38.3%

500 documentos de la Nivel prom-R 61.97 60.47 59.16 57.41 57.19 55.36 55.64 53.04 53.93 51.18 49.54 46.67 46.49 43.55 41.56 38.66 40.17 36.54 38.46 34.73 34.06 29.71 Difer. Vs. Bsico +13.81% +15.83% +8.64% +9.98% +5.03% +6.05% +2.19% +1.61% -0.95% -1.95% -8.91% -10.60% -14.60% -16.58% -22.92% -25.94% -26.22% -30.00% -29.37% -33.47% -37.45% -43.08%

Tabla 20 .- Resultados de expansin con diferente nmero de trminos aadidos, anlisis local.

195

6.4 Local y Global.Los dos mtodos presentados, mejoran significativamente las respuestas de la mquina de bsqueda, e incluso para nuestra coleccin inicial de prueba alcanzan aproximadamente el mismo nivel de mejora ( aproximadamente 15%, o 17% si no se considera el nivel 0 de recall ), si bien ambas funcionan con principios distintos. Para alcanzar su mximo, el anlisis local utiliza unos pocos trminos, y funciona mejor examinando un nmero relativamente pequeo de documentos de la parte alta de la lista ordenada. En las ejecuciones de prueba, este mtodo ve decrecer su efecto benfico, a medida que aumenta el nmero de trminos aadidos. Por su parte, el anlisis global, se comporta de manera distinta. Ya sea en su versin primaria o en la extendida ( en la cual se considera de alguna forma la parte alta de la lista ordenada inicial ), su eficacia crece con el nmero de trminos, hasta llegar a una regin en que se vuelve asinttica. Este mtodo aventaja al otro en que, al menos en su versin primaria no depende de la composicin de la parte alta de la lista ordenada, y por ende, del parmetro correspondiente al nmero de documentos que analizar, pero para obtener aproximadamente el mismo nivel de desempeo de su competidor, requiere una cantidad relativamente alta de trminos, que significan un aumento de la complejidad computacional, en tanto que el anlisis local requiere dos ciclos de procesamiento de la query. En el anlisis global, destaca el hecho de disponerse de una estrategia de ponderacin de los trminos con que se expandir la query, ms sofisticada que la del anlisis local, y que sus resultados parecen depender fuertemente de ella, y no de una funcin simple de la posicin de cada trmino candidato en el orden construdo para la expansin. Ms an, el anlisis local no slo ha sido propuesto sin esa estrategia de ponderacin en que se utilice algo ms que la posicin de los trminos en el ordenamiento inicial, sino que sus autores estiman que no hay elementos para crear tal, dentro del mtodo.

196

En el caso global, puede verse que muchos de los trminos utilizadas en la expansin de la query, en realidad tienen un efecto muy pequeo, son para fines prcticos neutrales. Esto puede explicarse considerando que esos trminos ya ocurren con mayor o menor frecuencia en los documentos relevantes del ordenamiento inicial, y su inclusin, si bien no ayuda, tampoco daa. El comportamiento aludido, es observable en las grficas 1 y 2, la primera sobre valores promedio de precisin incluyendo el nivel 0 de cobertura y la segunda excluyndolo, para los diferentes nmeros de trminos aadidos que experimentamos. En tales grficas se identifican : base con la respuesta de la mquina de bsqueda sin expansin, azar con la expansin con trminos aleatoriamente seleccionados, Xu-50 y Xu-500 con las expansiones basadas en anlisis local con 50 y 500 documentos de la parte alta de la lista ordenada inicial respectivamente, qiu-pond con la expansin basada en anlisis global y qiu-extpond, con el modelo extendido de anlisis global. En todos los casos se trata de la evaluacin para las 93 queries de la coleccin NPL.

Comparacin de mtodos(1)
azar Xu-50 Xu-500 qiu-pond base qiu-ext-pond

0.28 0.27 0.26 0.25


Precisin promedio

0.24 0.23 0.22 0.21 0.2 0.19 0.18 0.17 0 100 200 300 400 500 600 700 800
Nmero de trminos aadidos

Grfica 1 .- Comparacin de resultados de reformulacin con diferentes mtodos, incluyendo el nivel 0 de cobertura.

197

Comparacin de mtodos(2)
base
0.24 0.23 0.22 precisin promedio 0.21 0.2 0.19 0.18 0.17 0.16 0.15 0 100 200 300 400 500 600 700 800 nmero de trminos aadidos

xu*-50d

qiu*-pond

xu*-500d

azar

Grfica 2 .- Comparacin de resultados de reformulacin con diferentes mtodos, excluyendo el nivel 0 de cobertura.

Hemos observado que en ambos mtodos no se utilizan con todo su potencial algunos elementos, a saber: a) La posibilidad de modificar la ponderacin de los trminos originales de la query, dependiendo del resultado de los correspondientes anlisis. b) Un examen de las caractersticas que tienen las respuestas (las listas ordenadas, pero en este caso, de trminos candidatos) de los

correspondientes anlisis. Si analizamos las 93 queries con que hemos conducido los experimentos, sobre las cuales sabemos que han sido formuladas sensatamente, y que suponemos que no tienen un sesgo en cuanto a un tpico selecto, dado que los dcoumentos relevantes que tienen asociados cada una de ellas, son diversos, encontramos los siguientes datos interesantes: En dichas queries, se utilizan en conjunto 335 trminos distintos, con una distribucin que se refleja en la tabla 21.

198

Frec. Nm. De trminos 19 1 11 1 10 1 9 1 8 4 7 4 6 6 5 4 4 18 3 22 2 65 1 208

Trminos us frequenc circuit comput inform,design,amplifi,magnet radio,wav,field,low theori,system,transistor,characterist,electron,method techniqu,filter,surfac,digit Varios Varios Varios Varios

Tabla 21 .- Frecuencia de trminos empleados en las 93 queries, coleccin NPL.

En general, esta distribucin sera de esperarse, en el sentido de que en las queries tambin se usaran con mayor frecuencia algunas palabras, que seran de las que en los documentos son muy frecuentes. Ahora bien, si sometemos las queries al procedimiento de anlisis global, y registramos cuales son en cada caso los n trminos con mejor posicin como candidatos a la expansin, y acumulamos los resultados para todo el conjunto, obtenemos algunos resultados menos predecibles que los anteriores: Para n=100.- 3493 trminos, de los cuales 1614 ocurren slo 1 vez. Los 10 ms frecuentes son ( tabla 22 ).

Trmino

design circuit output oper voltag transistor valv describ stabil feedback

Frecuencia en el ordenamiento 31 30 29 28 27 26 24 24 22 21

Frecuencia en queries 8 10 0 1 3 6 1 0 2 1

Tabla 22 .- Primeros 10 trminos del ranking segn al anlisis global acumulado, n=100.

199

Para n=200.- 4909 trminos, de los cuales 1738 ocurren slo 1 vez. Los 10 ms frecuentes son ( tabla 23 ) :

Trmino

describ design oper input output circuit transistor amplifi voltag valv

Frecuencia en el ordenamiento 49 47 45 43 43 41 39 38 37 36

Frecuencia en queries 0 8 1 1 0 10 6 8 3 1

Tabla 23 .- Primeros 10 trminos del ranking segn anlisis global acumulado, para n=200.

Para n=500.- 6644 trminos distintos, de los que 1195 ocurren slo 1 vez, y los correspondientes 10 ms frecuentes se muestran en la tabla 24 :

Trmino obtain discuss bas includ method consid describ low gener tim

Frecuencia en Frecuencia en ranking queries 81 2 81 0 80 1 71 1 69 6 69 0 68 0 68 7 68 3 67 3

Tabla 24 .- Primeros 10 trminos del ranking, segn anlisis global acumulado, para n=500.

Lo que llama la atencin de estos resultados, es la inusual alta frecuencia con que algunos trminos son colocados en altas posiciones del ordenamiento de candidatos a expansin.- Trminos que se emplean en unas pocas queries ( por ejemplo oper, valv ) son considerados entre los mejores candidatos en casi una tercera parte de las ocasiones, y as ocurre incluso en casos de trminos que no aparecen en ninguna query ( output, describ). Es pertinente hacer aqu la aclaracin de que estos conteos se han realizado sobre ejecuciones del anlisis

200

global que en cada caso, no descartan a los trminos de la query original, y los evalan como si fuesen candidatos comunes.

201

CAPTULO 7 MARCO RELATIVIZADOR


7.1 HIPTESIS Y PROPUESTA.Lo anteriormente observado nos ha llevado a formular las siguientes hiptesis: I. Cada trmino en una coleccin de documentos, tiene una particular propensin a asociarse ( de acuerdo con algn mtodo asociacionista ) con cualquier segmento de texto. II. Un mtodo asociacionista, adquiere propiedades tiles para la

expansin o reformulacin de las queries, si se relativiza considerando la propensin mencionada en I. III. El marco de referencia que permite relativizar los grados de asociacin referidos en I), se puede construir como una funcin del mtodo con que se calculen dichos grados de asociacin. Postulamos adems que el marco relativizador mencionado en II y III, es una forma de contextualizacin. Para determinar la validez de dichas hiptesis, hemos propuesto: un mtodo asociacionista en que ellas se incorporan, hemos desarrollado la nocin de relativizacin, observado el comportamiento de dicho mtodo y lo hemos comparado con los dos ya mencionados de anlisis local y global. El mtodo asociacionista que hemos propuesto, considera:

202

a) Calcular una medida de la ligazn existente entre cada una de las palabras que forman una query, y las dems que estn en ella, en conjunto, de acuerdo con la siguiente expresin:

Liga (ti , Qa ) =

(1 + idf (ti )) sim(tri , trj )idf (t j )



r

j =1

(r 1)

En esta expresin, se combinan las ideas antes vistas, y tiene una estructura anloga al clculo de un ponderador del tipo tf-idf. En efecto, el primer factor en la expresin es el idf del trmino i de una query, en tanto que el segundo toma en cuenta una funcin de la medida de semejanza combinada de los varios ( r) trminos de una query Qa, con el trmino i en cuestin. Se considera adems que esta medida de la ligazn entre el trmino i y los dems de una query dada, tambin depender del nmero de trminos que la propia query contiene. De este modo en ella: Qa = Conjunto de los trminos includos en una query. r = Nmero de trminos de la query en cuestin. ti,, tj Qa. y; ti tj. Como tratndose de las queries puede darse el caso de que en alguna de ellas se incluya un trmino que no exista en el diccionario de la coleccin, entonces:

1.0 si c D log10 N n idf (c ) = c min1.0, 5

si c D

203

Donde D es el diccionario de la coleccin y:

r r sim ti , t j =

) w
N k =1

i ,k

w j ,k

Es el grado de asociacin entre dos trminos, considerando a los documentos como los elementos clasificadores, tal como vimos que se aplica en el anlisis global. Esta medida de liga entre los trminos que forman la query, persigue el propsito de determinar para cada trmino, el grado en que l est asociado con los dems de ella, y luego matiza la asociacin entre los trminos uno a uno, con los correspondientes ndices de dispersin y normaliza el clculo en relacin al tamao de dicha query. Puede apreciarse que nuestro mtodo asociacionista propuesto, es una variante ( o una especie de composicin ) de las funciones utilizadas por los anlisis global y local ( vanse secciones 6.2 y 6.3 ), y que en esencia considera los mismos factores. Sin embargo en esos mtodos, no se ha considerado la relacin entre los trminos que forman la query entre s, como una magnitud importante.

b) Determinar el conjunto de trminos candidatos a formar parte de la expansin de la query, incluyendo en tal conjunto todos los trminos que co-ocurren en al menos un documento con cualquiera de los trminos de Qa. Llamaremos La a dicho conjunto.

c) Medir para cada uno de los elementos de La, el grado de asociacin con la query en conjunto, utilizando para ello los ndices de ligazn de los trminos de ella, calculados en a), formalmente:

204

Liga (t j ,Qa ) r r asoc (t i , Q a ) = ( + sim (t i , t j )) j =1; ti t j r t i L; t j Qa .


Expresin en la cual la constante =0.001, juega un papel equivalente a la constante includa en el anlisis local ( ver secc. 6.3 ). Dado que como ya comentamos, nos interesa incluir a los propios trminos de Qa, en el conjunto La, no se puede descartar ti=tj, pero en el caso de darse, ese sera el nico trmino que no se incluira en la multiplicatoria. Tambin en este caso, estamos incluyendo una funcin que determina una clase de promedio ponderado de las asociaciones trmino a trmino, como en los mtodos de referencia. Dada la no focalizacin en documentos de la parte alta del ranking, o ms bien de los trminos que aparezcan en ellos, podemos sealar que nuestra propuesta es ms cercana al modelo de anlisis global. Este mtodo, se usar como base para dos procesos, el de construccin del marco relativizador, y el de reformulacin de la query.El proceso de construccin del marco relativizador, consiste en:

a) Evaluar una a una, las queries de un conjunto, calculando para cada

trmino de los que aparezcan entre los primeros

del ordeamiento

generado por el metodo asociacionista, el siguiente ndice:

asocs (t i , Q ) = asoc(t i , Q k )
k =1

Es decir, que cada vez que un trmino aparezca en la parte alta de la lista ordenada de trminos candidatos a formar parte de la expansin de alguna de las varias queries que se presenten ante una mquina de bsqueda, podra pensarse

205

que aumenta su viabilidad como candidato para cualquier otra query. En esta expresin: Q = Conjunto de queries: {Q1,Q2....Qp}; p = Nmero de queries en el conjunto, e; i = 1,2,3.....

b) Para cada ti, una vez que se han calculado los ndices mencionados en a) anterior, conviene pensar que tales ndices son una medida absoluta de la propensin de cada trmino, a ser includo en la expansin de una query cualquiera. Se hace entonces necesario relativizarlo, siendo un

procedimiento sencillo para ello, el siguiente:

p asocs(t j , Q ) j =1 relativa(t i , Q ) = log asocs(t i , Q )


donde nuevamente: h = nmero de queries que forman al conjunto Q. Conviene sealar que no necesariamente todos los trminos del diccionario habrn sido seleccionados entre los suceptibles para el clculo de estos ndices, as que diremos que los que si lo han sido forman el conjunto T. En cuanto al proceso de reformulacin de la query, como ya mencionamos, se utiliza el mismo mtodo asociacionista, y una vez que se tienen los ndices asoc(ti,Qa), con los que se construye la lista ordenada de candidatos, estos se relativizan, mediante la expresin:

206

ranking _ ex (t i , Q a , Q ) = asoc (t i , Q a ) relativa (t i , Q ) si t i T ; o


j

ranking_ex (t i , Q a , Q ) = asoc (t i , Q a ) max (relativa (t j , Q )) en caso contrario.

Como ya hemos mencionado, slamente estarn entre los trminos del marco relativizador, aquellos que hayan participado en el anlisis que dio origen a dicho marco, entre los primeros , de manera que si algn trmino no se encuentra en dicho marco, suponemos que es un trmino muy poco comn, y entonces le asignamos como factor el mayor valor relativo. Finalmente, la query se reformula, mediante las siguientes acciones:

a) Se retira cada trmino original de la query, si su posicin en la lista ordenada de ellos, es mayor que un parmetro de umbral. Los trminos originales que permanezcan en la query, sern ponderados de acuerdo con la siguiente expresin:

ranking _ ex(t , Q , Q ) i a + idf (i ) pond (ti , Qa ) = max(idf ( j )) max(ranking _ ex(t k , Qa , Q )) kL jL


En la cual se han introducido dos parmetros. En lo que sigue trabajaremos parte del valor del ponderador de los trminos originales de la query, depende de los valores en el marco relativizador, y otra parte depende del idf del trmino y del mximo idf en la lista de candidatos.

b) De la lista ordenada de candidatos, ordenado de mayor a menor ndice de ranking_ex(ti,Qa,Q), se seleccionan para ser aadidos a la query, los primeros k, y se ponderan de acuerdo a la siguiente expresin:

con los valores de

=0 y

=1. La naturaleza de esta expresin implica que una

207

idf (i ) ranking _ ex (t i , Q a , Q ) pond (t i , Q a ) = 0.5 + 0.5 max (ranking _ ex (t k , Q a , Q )) max (jidf ( j )) L kL

En este clculo, se combina la influencia que directamente puede tener el grado de dispersin de un trmino, reflejado en su idf, y la magnitud relativa asociada a su posicin en la lista ordenada de candidatos. Si el trmino con mejor posicin en el orden, fuese a su vez el menos disperso, recibira como ponderador el valor 1, y en la medida en que sean menores los valores de un factor o el otro, su ponderador se reducir.

c) Una vez realizados estos procesos, cada query se procesara en la mquina de bsqueda convencional. Vanse los esquemas ( fig. 16 y fig.17 ) en que se presenta la interrelacin de ellos. Como ha podido advertirse, el mtodo propuesto tiene, en trminos de complejidad tanto temporal como espacial, la misma base que el anlisis global. Los mayores requerimientos se originan por la necesidad de disponer de las similitudes trmino a trmino, y como ya ha estudiado Qiu, esta complejidad tiene como factores al nmero total de documentos, la longitud de cada uno de ellos y el nmero de buenos trminos de la coleccin, para un algoritmo que no sea totalmente ingenuo, estando en lo que se refiere a tiempo en el orden de: O(m+n) para accesos a disco y O(m*(|d|2/2+|d|2/2)) para clculos, siendo n el nmero de trminos buenos, m el nmero de documentos, |d| el tamao promedio de los documentos y |d| el nmero de trminos buenos en cada documento en promedio.
189

Sobre esta base, nuestro mtodo propuesto, consume adicionalmente tiempo de cmputo tanto para la formacin del marco relativizador, que implicara considerar que si dicho marco se contruyese con el material de k queries, y N es el nmero de trminos en el diccionario y nq el nmero de trminos de la query especfica de que se trate, el orden de complejidad temporal sera

208

O(k*(nq2+1/5(nq*N)+ )). En la siguiente seccin inclumos el reporte del tiempo de procesamiento empleado en nuestras particulares circunstancias.

Conjunto de queries

Coleccin Indexada de Documentos.

Mtodo Asociacionista Query.

Proceso Relativizador

Reformulacin De query.

Marco Relativizador

Mquina de Busqueda.

Diagrama del mtodo propuesto

figura 16 .- Esquema del mtodo propuesto de relativizacin de los trminos candidatos para la expansin de queries.

Por lo que respecta a la expansin, el orden temporal de complejidad est en promedio en O(nq2+2/3(nq*N)), donde nuevamente nq es el nmero de trminos de la query y N es el nmero de trminos en el diccionario.

209

Bsqueda ocurrentes

de

trminos

co-

Trminos de La query

Trminos candidatos Para expansin de la query

Ligas(ti,Qa)

Asoc(tc,Qa) Sim(ti,tj)

expansi n

Pond(ti,Qa)

Ranking_ex(tc,Qa,Q) Marco Relativizador: Relativa(tc,Q)

Esquema del modelo relativizador propuesto.

figura 17 .- Esquema de los elementos de clculo del mtodo relativizador propuesto.

210

7.2 Condiciones para los experimentos.Hemos experimentado con el modelo propuesto, bajo condiciones similares a las que subyacan los experimentos con los anlisis local y global, a saber: Se ha utilizado el mismo hardware: Una PC con microprocesador athlon a 900 Mhz, con 128 MB de RAM. Se ha utilizado la misma mquina de bsqueda, basada en el VSM para fines de localizacin final, y el mismo clculo para idfs e itfs. La mquina ha includo el algoritmo de Porter para la realizacin del proceso de stemming o desafijacin. Asimismo, se ha mantenido la misma lista de stop words, o excepciones. Igualmente que en las anteriores ejecuciones, se ha continuado usando el mismo procedimiento de evaluacin de precisin y cobertura de los resultados. En primera instancia, realizamos la ejecucin de nuestro modelo en cuanto al clculo del marco relativizador, utilizando para ello la coleccin de las 93 primeros 500 trminos de cada lista generada por el mtodo asociacionista, o el total si ste es menor a dicha cantidad. Utilizando este marco relativizador, ejecutamos el proceso de reformulacin de las queries para diversas cantidades de trminos aadidos, y la bsqueda final correspondiente. En todos los casos hemos situado el umbral de permanencia de los trminos originales de la query en el valor 500, que en general no excluye a ninguno de ellos. Mostramos los resultados en las tablas 25 y 26:

queries del corpus NPL. En este caso, hemos seleccionado como parmetro

los

211

cobertura 0 .10 .20 .30 .40 .50 .60 .70 .80 .90 1.0 Prom Prom*

Niveles de precisin aadiendo: +10 t. +20 t. +30 t. +40 t. .6004 .6157 .6299 .6405 .5170 .5113 .5227 .5189 .3835 .3871 .3945 .4017 .3082 .3189 .3313 .3479 .2645 .2744 .2809 .2867 .2143 .2198 .2265 .2313 .1827 .1908 .1936 .1956 .1405 .1453 .1509 .1496 .1109 .1143 .1140 .1140 .0718 .0748 .0772 .0786 .0371 .0383 .0403 .0410 .2574 .2628 .2693 .2733 .1280 .2275 .2332 .2365

+ 50 t. .6426 .5146 .4047 .3499 .2959 .2344 .1990 .1512 .1150 .0777 .0405 .2750 .2383

+75 t. .6524 .5041 .4132 .3557 .3105 .2434 .2078 .1579 .1217 .0797 .0418 .2807 .2436

+100 t. .6658 .5241 .4302 .3761 .3110 .2505 .2136 .1615 .1193 .0821 .0414 .2887 .2510

Tabla 25 .- Resultados de expansin con diferente nmero de trminos aadidos, mtodo relativizado, corpus NPL.

cobertura 0 .10 .20 .30 .40 .50 .60 .70 .80 .90 1.0 Prom Prom*

Niveles de precisin aadiendo: +150t. +175 t. +200 t. +300 t. .6466 .6428 .6505 .6404 .5398 .5447 .5274 .5079 .4454 .4451 .4352 .3988 .3780 .3828 .3766 .3469 .3252 .3252 .3118 .3040 .2578 .2561 .2513 .2411 .2149 .2137 .2127 .2043 .1599 .1621 .1587 .1526 .1199 .1223 .1227 .1139 .0855 .0816 .0817 .0743 .0406 .0388 .0374 .0326 .2921 .2923 .2878 .2743 .2567 .2572 .2515 .2376

Tabla 26 .- Resultados de expansin con diferente nmero de trminos aadidos, mtodo relativizado, corpus NPL.

Si comparamos, desde distintos puntos de vista, estos resultados con los obtenidos por la mquina bsica y mediante los anlisis global y local, obtenemos ( tablas 27 y 28 ) :

212

Prom. Bsico +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t .2364 .2574 .2628 .2693 .2732 .2750 .2807 .2886 .2921 .2923 .2878 .2742

Diferencia vs. Bsico +8.86% +11.16% +13.90% +15.59% +16.34% +18.75% +22.11% +23.58% +23.63% +21.74% +16.01%

Prom* .1978 .2231 .2275 .2332 .2365 .2383 .2436 .2510 .2567 .2572 .2515 .2376

Diferencia Nivel R % vs. Bsico 54.45 +12.80% 61.06 +15.05% 62.68 +17.93% 64.27 +19.61% 65.18 +20.50% 65.60 +23.18% 67.46 +26.91% 69.02 +29.81% 69.99 +30.08% 69.75 +27.20% 68.69 +20.58% 64.89

Diferencia vs. Bsico +12.13% +15.12% +18.04% +19.71% +20.48% +23.89% +26.77% +28.53% +28.10% +26.15% +19.18%

Tabla 27 .- Comparacin del mtodo relativizado con el nivel bsico, corpus NPL.

Mximo obtenido por: Xu-50 primeros docs. Xu-50 primeros docs. Xu-50 primeros docs. Qiu- original Qiu- original Qiu- original Qiu- Extendido Qiu- Extendido Qiu- Extendido Relativizado-500 Relativizado-500 Relativizado-500

Trminos aadidos 10 10 10 700 700 700 700 700 700 175 175 150

Tipo de evaluacin Promedio Promedio* Nivel-R ( %) Promedio Promedio* Nivel-R ( % ) Promedio Promedio* Nivel-R ( % ) Promedio Promedio* Nivel-R ( % )

Precisin .2733 .2310 63.21 .2691 .2303 63.05 .2697 .2307 63.11 .2923 .2572 69.99

Diferencia vs. Bsico +15.61% +16.82% +16.10% +13.84% +16.45% +17.32% +14.10% +16.68% +15.91% +23.63% +30.08% +28.53%

Tabla 28 .- Comparaciones de los mximos obtenidos por los mtodos estudiados y el mtodo propuesto.

Estos comparativos se pueden ver en ( grficas 3, 4 y 5 ):

213

comparacin de resultados(1)
base
0.3 0.29

Xu-50d

Qiu-Original

Qiu-Extendido

Relativizado-500

precisin promedio

0.28 0.27 0.26 0.25 0.24 0.23 0 100 200

nmero de trminos aadidos

300

400

500

600

700

800

Grfica 3 .- Comparacin de los mtodos, incluyendo nivel 0 de cobertura.

comparacin de resultados(2)
Base 0.265 0.255 precisin promedio 0.245 0.235 0.225 0.215 0.205 0.195 0 100 200 300 400 500 600 700 800 nmero de trminos aadidos Xu-50d. Qiu-Original Qiu-Extendido Relativizado-500

Grfica 4 .- Comparacin de los mtodos, excluyendo el nivel 0 de cobertura.

214

Comparacin recall-precisin
base qiu-p-750 superior relativizado 500-175
100 90 80 70 60

xu-50d-10 qiu-e-p-300 azar-300

recall

50 40 30 20 10 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

precisin

Grfica 5 .- Perfiles de cobertura-precisin de resultados sin expansin y con expansiones al azar, lmite superior, anlisis global, local y relativizado.

Como puede advertirse en dichos resultados, la combinacin propuesta de mtodo asociacionista, funcin ponderadora y marco de relativizacin, han mejorado la respuesta de la mquina de bsqueda en mayor medida que los mtodos basados en el anlisis local y global. Debe sealarse que para estas comparaciones, hemos elegido las que por lo antes visto son las condiciones ms favorables a los mtodos global y local. En efecto, para las dos versiones del anlisis global, hemos llegado hasta 700 o ms trminos aadidos, cosa que en la prctica tendra un costo computacional alto, y por otra parte, para el anlisis local, hemos empleado el valor 50 para documentos en la parte alta de lista ordenada de trminos candidatos a la expansin. En la tabla 28 se incluyen tres renglones por cada uno de los mtodos expuestos, el que se rotula como promedio, que identifica el nivel promedio de precisin incluyendo el nivel 0 de recall, el que se rotula como promedio*, correspondiente a la precisin promedio excluyendo el nivel 0 de recall, y el nivel R, que es la razn entre el nivel de precisin y el lmite superior.

215

Como se observa en la mencionada tabla 28, los mejores resultados para este corpus, del anlisis local ( identificado en estas tablas y grficas como Xu ), y del anlisis global ( Qiu ) simple o extendido, son competitivos entre s, con diferencias de 2 a 3 puntos porcentuales de incremento respecto a los resultados sin expansin. Nuestra propuesta no slo obtiene resultados distinguiblemente superiores a los de ambos mtodos, sino que lo hace sin una expansin tan costosa como las del anlisis global. En la momenclatura empleada en estas tablas y grficas, nuestra propuesta se identifica como Relativizado-500, nmero este

ltimo que alude al parmetro

que mencionamos con anterioridad.

La grfica 5 tambin permite ver que, elegidas las mejores opciones de los anlisis global y local, y la de nuestro metodo relativizado, en cuanto al perfil de cobertura-precisin que generan, las primeras son muy similares y la ltima s se diferencia, en sentido positivo en todos los niveles de cobertura excepto en el nivel 0. Hemos estudiado el comportamiento del mtodo que proponemos, y de sus diferentes elementos, y para ello diseamos algunas variantes del experimento inicial. Los resultados obtenidos apuntan fenmenos de inters. A continuacin describimos esos experimentos y resultados.

216

7.3 Estudiando los componentes.Una primera prueba que hemos diseado y aplicado, consiste en aislar la lgica general de nuestro mtodo propuesto.- qu pasa, si utilizamos el mtodo asociacionista del anlisis global, tal como esta diseado, y creamos a partir de los ordenamientos de trminos obtenidos por dicho mtodo, el marco relativizador que permitir reponderar a los trminos candidatos a la expansin, y una vez hecho esto, reformulamos la query con la estrategia que hemos utilizado en nuestra propuesta Hemos realizado la ejecucin de este experimento para las 93 queries del corpus NPL, y los resultados son los que se muestran en la tabla 29. Estos resultados ( tab. 29 ) nos indican que no para cualquier mtodo asociacionista, la idea del marco relativizador, por s sola, es suficiente para mejorar el desempeo de la mquina de bsqueda. Como puede observarse, el mtodo global pierde muy notablemente su eficacia bajo estas condiciones.

Aadiendo : +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t.

Precisin promedio .2108 .2116 .2062 .2100 .2066 .2050 .1979 .1988 .2021 .2002 .1979

Diferencia vs. Precisin Bsico promedio* -10.08% .1820 -10.48% .1789 -12.76% .1747 -11.13% .1764 -12.59% .1725 -13.29% .1716 -16.25% .1650 -15.90% .1647 -14.52% .1656 -15.31% .1655 -16.38% .1634

Diferencia vs. Bsico -7.94% -9.51% -11.61% -10.79% -12.77% -13.23% -16.57% -16.70% -16.28% -16.30% -17.34%

Tabla 29 .- Resultados de reformulacin combinando anlisis global y el marco relativizador, con diferente nmero de trminos aadidos, corpus NPL.

Tambin hemos explorado una idea ms o menos inversa: qu ocurre si utilizamos nicamente el mtodo asociacionista que hemos propuesto, pero sin el marco relativizador, y ponderando los trminos a incluir en la reformulacin de las

217

queries, como se hace en el mtodo de Qiu ? Los resultados de este experimento se consignan en la tabla 30. Estos resultados son de inters, porque si bien indican que tampoco el mtodo asociacionista propuesto es el responsable de la mejora en el desempeo de la reformulacin, se evidencia que tiene un rasgo que valdr la pena considerar en lo futuro: a diferencia de los otros mtodos, global y local, este es notablemente estable respecto al nmero de trminos a aadir, no solamente varia muy poco en funcin de dicho nmero, ( crece pero a un ritmo notablemente lento ) sino que permanece aproximadamente en el mismo nivel de precisin promedio que la mquina de bsqueda original.

Aadiendo : +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t.

Precisin promedio .2366 .2367 .2366 .2367 .2368 .2369 .2370 .2371 .2371 .2372 .2372

Diferencia vs. Precisin Bsico promedio* +0.11% .1980 +0.12% .1980 +0.08% .1979 +0.15% .1981 +0.18% .1982 +0.19% .1983 +0.24% .1984 +0.29% .1985 +0.29% .1984 +0.32% .1985 +0.35% .1986

Diferencia vs. Bsico +0.14% +0.15% +0.09% +0.18% +0.23% +0.25% +0.31% +0.37% +0.36% +0.40% +0.44%

Tabla 30 .- Resultados de expansin con el mtodo asociacionista propuesto, sin marco relativizador, corpus NPL.

218

7.4 Modificando el tamao del marco relativizador.Hemos sujetado a diversas condiciones de experimentacin el marco relativizador, con el propsito de estudiar el efecto que tiene su conformacin en el desempeo del mtodo integrado. Sobre el mismo corpus y coleccin de queries, diseamos y ejecutamos diversas configuraciones, a saber: -Dado que hemos utilizado como elementos bsicos de la creacin del marco relativizador, a las propias queries de la coleccin, podra decirse que por adelantado el sistema conoce las queries, y despus de conocer todas ellas, las procesa una por una. Diseamos un experimento consistente en : para cada query, utilizar como marco relativizador, el que se forme con las otras 92 de la coleccin, es decir, en cada caso, podra suponerse que la query a procesar es desconocida para el sistema, y todas las dems podran haber sido las anteriores a sta. Posteriormente nos referiremos a este experimento como ltima query. Los resultados se presentan en la tabla 31.

Aadiendo : +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t.

Precisin promedio .2589 .2690 .2746 .2762 .2794 .2838 .2836 .2893 .2873 .2890 .2755

Diferencia vs. Precisin Bsico promedio* +9.54% .2266 +13.78% .2353 +16.16% .2407 +16.83% .2421 +18.19% .2437 +20.05% .2491 +19.95% .2479 +22.40% .2572 +21.53% .2535 +22.26% .2526 +16.54% .2393

Diferencia vs. Bsico +14.59% +18.99% +21.72% +22.41% +23.24% +25.99% +25.35% +30.05% +28.18% +27.75% +21.00%

Tabla 31 .- Resultados de experimento con el modelo propuesto, modalidad ltima query, corpus NPL.

Estos datos revelan que el desempeo en la bsqueda final, es un poco menor que en el caso en que se usaron las 93 queries, pero el mtodo sigue siendo

219

notablemente mejor que sus referentes, de hecho en su mximo, es ms de 5 puntos porcentuales mayor el incremento, sobre la base de referencia, que los otros mtodos. En el anterior experimento hemos retirado una parte, pequea, del material informativo con el que se construye el marco relativizador. que pasa si aadimos esa clase de material informativo, proveniente de alguna fuente distinta ? Decidimos : -Seleccionar aleatoriamente 185 frases que forman parte de los documentos de la coleccin NPL. Dada su estructura de frase, estas podran ser queries como cualquiera otra. -Procesar conjuntamente las 93 queries originales y las 185 frases, que podramos considerar queries ficticias o pseudo-queries, para formar el marco relativizador, y una vez hecho lo anterior, hemos procesado las 93 queries, para bsqueda final. Ejecutamos el experimento, y sus resultados se muestran en la tabla 32.

Aadiendo : +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t.

Precisin promedio .2583 .2657 .2781 .2730 .2744 .2785 .2867 .2862 .2885 .2846 .2708

Diferencia vs. Precisin Bsico promedio* +9.25% .2272 +12.41% .2302 +13.42% .2346 +15.49% .2378 +16.07% .2392 +17.79% .2446 +21.29% .2506 +21.07% .2505 +22.04% .2527 +20.40% .2479 +14.56% .2346

Diferencia vs. Bsico +14.91% +16.43% +18.65% +20.24% +20.93% +23.72% +26.74% +26.68% +27.79% +25.38% +18.63%

Tabla 32 .- Resultados del experimento con marco relativizador formado por 93 queries originales y 185 pseudo-queries (frases).

Dada la que podramos considerar notable alteracin del material con el que se ha construdo el marco relativizador, los resultados llaman la atencin por el

220

poco efecto que dichas modificaciones han tenido. La mejora sobre los mtodos local y global permanece. Visto lo anterior, experimentamos eliminando por completo las 93 queries originales, y construmos el marco relativizador exclusivamente con las 185 pseudo-queries, para despus procesar la batera de queries reales en bsqueda final, con los resultados que se muestran en la tabla 33:

Aadiendo : +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t.

Precisin promedio .2589 .2671 .2680 .2772 .2762 .2822 .2888 .2830 .2886 .2881 .2743

Diferencia vs. Precisin Bsico promedio* +9.52% .2257 +12.93% .2309 +13.37% .2349 +17.26% .2429 +16.81% .2418 +19.36% .2482 +22.18% .2518 +19.70% .2495 +22.07% .2538 +21.86% .2521 +16.03% .2363

Diferencia vs. Bsico +14.12% +16.74% +18.78% +22.83% +22.29% +25.51% +27.37% +26.20% +28.34% +27.47% +19.48%

Tabla 33 .- Resultados del experimento de formacin del marco relativizador con tan solo las185 pseudo-queries (frases). Corpus NPL.

Es notable que habiendo eliminado por completo lo que inicialmente podra haberse considerado material informativo vital para la construccin del marco relativizador, se observa muy poco efecto en los resultados de precisin promedio, mantenindose la mejora del desempeo. Siendo esto as, hemos diseado y ejecutado un experimento ms astringente: En lugar de emplear frases de los documentos del corpus, implementamos una rutina que eligiera al azar ( con un mtodo de Montecarlo
190

) palabras del diccionario de la coleccin, considerando la

misma probabilidad de seleccin para cualquier trmino , hasta formar pseudoqueries de 10 trminos. Reunimos 100 pseudo-queries de este tipo y con este material construmos el marco relativizador obteniendo los resultados que se muestran en la tabla 34. Como puede observarse, para la reformulacin con 150 trminos, que es donde se obtiene el mximo, el nivel de precisin promedio, es incluso mayor que

221

en la versin original del mtodo, en la cual suponamos que habamos empleado el mejor material informativo.

Aadiendo : +10t. +20t. +30t. +40t. +50t. +75t. +100t. +150t. +175t. +200t. +300t.

Precisin promedio .2551 .2618 .2680 .2732 .2756 .2788 .2857 .2945 .2900 .2867 .2777

Diferencia vs. Precisin Bsico promedio* +7.92% .2273 +10.76% .2279 +13.38% .2316 +15.54% .2374 +16.60% .2388 +17.93% .2437 +20.87% .2495 +23.75% .2577 +22.69% .2543 +21.27% .2498 +17.48% .2370

Diferencia vs. Bsico +12.42% +15.28% +17.13% +20.07% +20.76% +23.23% +26.20% +30.36% +28.58% +26.35% +19.88%

Tabla 34 .- Resultados de experimento con el mtodo propuesto, construccin del marco relativizador a base de 100 pseudo-queries formadas con palabras seleccionadas al azar.

Decidimos entonces utilizar un mnimo de material informativo en la construccin del marco relativizador: cada query al momento de ser procesada en modo de bsqueda final, aporta su composicin de trminos para el marco, desechando todo contenido anterior, y con dicho marco se repondera la query para la reformulacin. El experimento as desarrollado, gener los nmeros que se presentan en la tabla 35. Ms adelante, nos referiremos a esta modalidad como si-misma.

Aadiendo : +10t. +50t. +100t. +150t. +175t. +200t. +400t.

Precisin promedio .2613 .2750 .2838 .2861 .2857 .2807 .2571

Diferencia vs. Precisin Bsico promedio* +10.55% .2273 +16.33% .2371 +20.05% .2448 +21.01% .2473 +20.85% .2456 +18.77% .2403 +8.76% .2198

Diferencia vs. Bsico +14.95% +19.88% +23.79% +25.07% +24.21% +21.55% +11.15%

Tabla 35 .- Resultados con marco relativizador formado con la propia query.

Con los resultados mostrados en la tabla 35, se puede ver que hay una reduccin del desempeo, pero el mtodo sigue venciendo a sus referentes.

222

Inicialmente no hubiesemos pronosticado que el proceso de construccin del marco relativizador que estamos proponiendo, fuese tan poco sensible a los cambios en la cantidad y calidad del material informativo con que se le construye. Hemos experimentado, para reformulacin con 150 trminos, y con diferente nmero de pseudo-queries formuladas por seleccin aleatoria de trminos, para la construccin del marco y subsecuente bsqueda con query reformulada, con los resultados que aparecen en la tabla 36.

Nmero de pseudo-Queries 3 4 5 10 20 25 40 50 75 90 250

Precisin promedio .2907 .2904 .2917 .2898 .2897 .2899 .2884 .2900 .2901 .2899 .2895

Diferencia vs. Precisin Bsico promedio* +22.95% .2538 +22.84% .2544 +23.38% .2543 +22.57% .2525 +22.54% .2541 +22.63% .2541 +22.00% .2532 +22.67% .2549 +22.72% .2544 +22.65% .2547 +22.44% .2535

Diferencia vs. Bsico +28.38% +28.63% +28.61% +27.71% +28.50% +28.47% +28.08% +28.92% +28.65% +28.78% +28.14%

Tabla 36 .- Experimentos de expansin con 150 trminos, variando el nmero de pseudo-queries ( aleatorias ) para construir el marco relativizador.

Estos datos evidencian que nuestro mtodo propuesto es muy estable en relacin al nmero de pseudo-queries o de queries tomadas en cuenta para la construccin del marco relativizador. En la grfica 6 se pueden apreciar en conjunto los resultados de estos experimentos. En la grfica 6, se denotan rel-original-93 a la versin original, con el marco relativizador construdo a partir de las 93 queries de la coleccin, ltimaquery a la versin en que se utilizan 92 queries en cada caso, eliminando en cada caso la que se procesar, rel-288 en la que se incluyen las 93 queries y 185 frases para la construccin del marco relativizador, rel-185 con marco relativizador construdo solamente con 185 pseudo-queries ( frases ), rel-azar100, con la construccin a base de 100 pseudo-queries basadas en palabras al

223

azar, y si-misma con el marco relativizador a base de la query de que se trate, as como base a los resultados de la mquina de bsqueda sin expansin.

comparacin de modalidades,mtodo propuesto


ltima query rel-azar-100 0.3 rel-288 si-misma rel-185 rel-original-93 base

0.29

0.28 pe is npo e io r c i r m d

0.27

0.26

0.25

0.24

0.23 0 50 100 150 200 250 300 350 400 nmero de trminos aadidos

Grfica 6 Modalidades de construccin del marco relativizador.

224

7.5 Experimentos con otras colecciones.


Hemos sometido nuestro modelo propuesto a la experimentacin con otras colecciones, todas consideradas usuales en este tipo de trabajos de investigacin. Estas son: Corpus CRANFIELD .- sta es una coleccin de 1,400 documentos con tamao promedio de 93 trminos ssw ( sin stop words ), que generan un diccionario de 5,311 lexemas, que tienen asociada una batera de 225 queries con tamao promedio de 12 trminos ssw, con a su vez 1,737 documentos relevantes en conjunto, es decir, 8 por query en promedio. La coleccin contiene documentos que tratan sobre temas de ingeniera aeronutica. Aunque en l se incluye una valoracin de mayor o menor relevancia de cada documento considerado relevante, con cada query, nosotros slamente utilizamos la identificacin de relevancia per s. Corpus LISA .- Coleccin que comprende 6,004 documentos ( que incuyen 4 nulos ), generan un diccionario de 11,683 trminos, con tamao promedio de documento de 32 trminos ssw, y una batera de 35 queries ( tamao promedio de c/query 21 trminos ssw ), 362 documentos relevantes asociados a ellas, es decir, 10 prom. por query. Esta coleccin fue desarrollada por la Universidad de Sheffield, y sus documentos versan sobre temas de bibliotecologa, localizacin de informacin etc. ( LISA es acrnimo de Library and Information Science Abstracts ). Corpus TIME .- Coleccin de 425 artculos periodsticos de los aos 60s, que generan un diccionario de 13,874 trminos, con tamao promedio de 207 trminos ssw cada documento, y con 83 queries con tamao promedio de 8 trminos ssw, y 324 documentos relevantes en conjunto para dicha batera de queries, es decir, 4 en promedio por query.

225

Corpus MED .- Que contiene 1033 documentos ( tamao promedio 43 trminos ssw ), con diccionario de 8,868 trminos, y 30 queries ( tamao promedio 9 trminos ssw ), y 691 documentos relevantes para ellas, es decir, 23 por query en promedio. Los documentos se refieren a temas mdicos.

Como puede verse, estos corpus, y el NPL ya antes mencionado y descrito, constituyen un conjunto heterogneo de materiales de prueba. Con ellos hemos experimentado los modelos de anlisis global, local y el propuesto por nosotros, y a continuacin detallamos las condiciones y presentamos los resultados. En todos los casos, hemos seguido el mismo procedimiento y condiciones que en el caso del corpus NPL, realizando la indexacin de la coleccin utilizando el algoritmo de Porter para la desafijacin, y determinando los idfs y los itfs segn la misma expresin mostrada en la seccin 6.1, y los ponderadores del mtodo basado en el anlisis global y en el local, segn han quedado descrito en las secciones 6.2 y 6.3. Para el global, hemos empleado el mtodo original y para el local hemos realizado los experimentos utilizando los primeros 50 documentos del ordenamiento generado por una bsqueda inicial. En todos los casos, presentamos como lnea de base de las comparaciones, el nivel promedio de precisin de la bsqueda sin reformulacin, tanto incluyendo el nivel 0 de cobertura, como excluyndolo. Para cada corpus, se han realizado ejecuciones de los modelos, para expansiones con diferente nmero de trminos aadidos. Los resultados obtenidos se muestran en las tablas 37, 38, 39 y 40.

226

CRAN +0t +10t. +30t. +50t. +75t. +100t.

Global inc. 0 .4265 .4404 (3.26%) .4441 (4.14%) .4417 (3.58%) .4424 (3.74%) .4410 (3.42%) .4393 (3.01%) .4391 (2.95%) .4384 (2.78%)

Global exc. 0 .3775 .3927 (4.06%) .3979 (5.43%) .3959 (4.89%) .3960 (4.92%) .3935 (4.24%) .3926 (4.02%) .3913 (3.67%) .3905 (3.46%)

Local inc. 0 .4265 .4181 (-1.96%) .4021 (-5.71%) .3940 (-7.61%) .3870 (-9.24%) .3756 (-11.92%) .3505 (-17.80%) .3429 (-19.59%) .3377 (-20.82%)

Local exc. 0 .3775 .3718 (-1.51%) .3527 (-6.55%) .3396 (-10.02%) .3257 (-13.69%) .3132 (-17.02%) .2918 (-22.68%) .2834 (-24.91%) .2777 (-26.43)

Relat. Inc. 0 .4265 .4313 (1.13%) .4353 (2.07%) .4349 (1.97%) .4390 (2.94%) .4387 (2.89%) .4379 (2.67%) .4393 (3.02%) .4364 (2.32%)

Relat. Exc. 0 .3775 .3838 (1.68%) .3882 (2.86%) .3877 (2.72%) .3913 (3.66%) .3910 (3.59%) .3900 (3.55%) .3916 (3.75%) .3883 (2.89%)

+150t. +175 +200

Tabla 37 .- Expansiones para el corpus CRANFIELD.

LISA +0t +10t. +30t. +50t. +75t. +100t.

Global inc. 0 .2683 .2682 (-0.04%) .2695 (0.45%) .2693 (0.36%) .2699 (0.59%) .2702 (0.70%) .2693 (0.37%) .2701 (0.67%) .2702 (0.70%)

Global exc. 0 .2463 .2461 (-0.05%) .2476 (5.43%) .2474 (0.43%) .2480 (0.71%) .2483 (0.84%) .2474 (0.45%) .2480 (0.69%) .2481 (0.73%)

Local inc. 0 .2683 .2686 (0.11%) .2644 (-1.45%) .2763 (2.88%) .2622 (-2.26%) .2679 (-0.15%) .2608 (-2.81%) .2419 (-9.84%) .2365 (-11.84%)

Local exc. 0 .2463 .2430 (-1.33%) .2375 (-3.54%) .2381 (-3.28%) .2332 (-5.32%) .2262 (-8.15%) .2685 (-11.26%) .2001 (-18.75%) .1959 (-20.46)

Relat. Inc. 0 .2683 .2578 (-3.93%) .2555 (-4.77%) .2557 (-4.68%) .2523 (-5.97%) .2530 (-5.68%) .2493 (-7.09%) .2522 (-5.99%) .2519 (-6.10%)

Relat. Exc. 0 .2463 .2271 (-7.80%) .2269 (-7.88%) .2272 (-7.76%) .2233 (-9.31%) .2249 (-8.68%) .2197 (-10.79%) .2219 (-9.89%) .2222 (-9.74%)

+150t. +175 +200

Tabla 38 .- Expansiones para el corpus LISA.

227

TIME +0t +10t. +30t. +50t. +75t. +100t.

Global inc. 0 .6923 .6928 (0.07%) .7049 (1.83%) .7063 (2.03%) .6946 (0.34%) .6843 (-1.15%) .6826 (-1.39%) .6760 (-2.34%) .6683 (-3.45%)

Global exc. 0 ..6698 .6763 (0.98%) .6887 (2.83%) .6903 (3.06%) .6772 (1.12%) .6662 (-0.52%) .6644 (-0.79%) .6571 (-1.88%) .6486 (-3.16%)

Local inc. 0 .6923 .7479 (8.04%) .7229 (5.14%) .7158 (3.40%) .6972 (0.71%) .6829 (-1.34%) .6597 (-4.70%) .6548 (-5.41%) .6484 (-6.34%)

Local exc. 0 .6698 .7219 (7.78%) .7006 (4.06%) .6872 (2.60%) .6723 (0.38%) .6594 (-1.54%) .6384 (-4.68%) .6388 (-4.62%) .6322 (-5.61)

Relat. Inc. 0 .6923 .7076 (2.21%) .7209 (4.14%) .7264 (4.93%) .7346 (6.12%) .7386 (6.69%) .7390 (6.75%) .7417 (7.15%) .7451 (7.64%)

Relat. Exc. 0 .6698 .6849 (2.27%) .6987 (4.32%) .7048 (5.22%) .7129 (6.45%) .7173 (7.11%) .7148 (6.73%) .7179 (7.19%) .7197 (7.46%)

+150t. +175 +200

Tabla 39 .- Expansiones para el corpus TIME.

MED +0t +10t. +30t. +50t. +75t. +100t.

Global inc. 0 .5396 .5429 (0.61%) .5533 (2.54%) .5600 (3.79%) .5669 (5.07%) .5681 (5.28%) .5717 (5.95%) .5712 (5.86%) .5692 (5.49%)

Global exc. 0 .5116 .5201 (1.66%) .5381 (5.17%) .5431 (6.16%) .5507 (7.65%) .5519 (7.88%) .5550 (8.48%) .5536 (8.20%) .5514 (7.78%)

Local inc. 0 .5396 .5470 (1.36%) .5381 (-0.27%) .5425 (0.54%) .5435 (0.71%) .5424 (0.52%) .5396 (0.0%) .5381 (-0.26%) .5336 (-1.11%)

Local exc. 0 .5116 .5188 (1.40%) .5139 (-0.44%) .5187 (1.38%) .5194 (1.51%) .5171 (1.07%) .5119 (0.0%) .5098 (-0.34%) .5075 (-0.81)

Relat. Inc. 0 .5396 .5891 (9.19%) .5945 (10.19%) .5978 (10.88%) .5936 (10.02%) .5917 (9.66%) .5969 (10.62%) .5990 (11.01%) .5985 (10.92%)

Relat. Exc. 0 .5116 .5687 (11.16%) .5808 (13.53%) .5815 (13.67%) .5792 (13.20%) .5750 (12.40%) .5795 (13.27%) .5825 (13.86%) .5822 (13.81%)

+150t. +175 +200

Tabla 40 .- Expansiones para el corpus MED.

A continuacin, presentamos resmenes grficos de estos resultados ( grficas 7,8,9,10,11,12,13 y 14 ) :

228

comparativo para el corpus "CRANFIELD" (1)


base
0.46 0.44

qiu

xu

relat

prec is in prom edio

0.42 0.4 0.38 0.36 0.34 0.32 0.3 0 20 40 60 80 100 120 140 160 180 200

nmero de trminos aadidos

Grfica 7 Corpus CRANFIELD incluyendo nivel 0 de cobertura.

comparativo para el corpus "CRANFIELD" (2)


qiu 0.41 0.39 prec is in prom edio 0.37 0.35 0.33 0.31 0.29 0.27 0.25 0 20 40 60 80 100 120 140 160 180 200 nmero de trminos aadidos xu relat base

Grfica 8 Corpus CRANFIELD excluyendo nivel 0 de cobertura.

229

comparativo para el corpus "LISA" (1)


base 0.3 qiu xu relat

0.28 precisin promedio

0.26

0.24

0.22

0.2 0 50 100 nmero de trminos aadidos 150 200

Grfica 9 Corpus LISA incluyendo nivel 0 de cobertura.

comparativo para el corpus "LISA" (2)


qiu 0.26 precisin prom edio 0.25 0.24 0.23 0.22 0.21 0.2 0 50 100 nmero de trminos aadidos 150 200 xu relat base

Grfica 10 Corpus LISA excluyendo nivel 0 de cobertura.

230

comparativo para el corpus "TIME" (1)


qiu
0.77 0.75 0.73 0.71 0.69 0.67 0.65 0.63 0 50 100 150 200 250 300 350

Xu

relat

base

Grfica 11 Corpus TIME incluyendo nivel 0 de cobertura.

comparativo para el corpus "TIME" (2)


qiu 0.73 precisin promedio 0.71 0.69 0.67 0.65 0.63 0.61 0 50 100 150 200 250 300 350 nmero de trminos aadidos Xu relat base

Grfica 12 Corpus TIME excluyendo nivel 0 de cobertura.

231

comparativo para el corpus "MED" (1)


base
0.61 0.6

qiu

xu

relat

precisin prom edio

0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0 50 100 150 200 250 300 350

nmero de trminos aadidos

Grfica 13 Corpus MED incluyendo nivel 0 de cobertura.

comparativo para el corpus "MED" (2)


base 0.59 0.58 0.57 0.56 0.55 0.54 0.53 0.52 0.51 0.5 0.49 0 50 100 150 200 250 300 350 nmero de trminos aadidos qiu xu relat

Grfica 14 Corpus MED excluyendo nivel 0 de cobertura.

Un anlisis conjunto de los productos de cada uno de los mtodos en los cinco corpus ensayados ( incluyendo el NPL ), nos arroja el siguiente resumen ( tabla 41 ):

precisin promedio

232

Mejor +10t. +30t.

+50t. +75t. +100t.

+150t.

+175t.

INCLUYENDO cobertura N M C L X R Q X N M C L X R Q Q R N M C L R R Q Q N M C L R R Q Q N M C L R R Q Q R N M C L R R Q Q R N M C L R R R Q Q

nivel T X T X T R T R T R T R T R

de EXCLUYENDO cobertura X N M C L 8.04% X R Q Q R,Q,X N M C L 4.14% R R Q Q R R R 0.7% R N R N R N R N R N R M R M R M R M R M R C Q C Q C Q R C Q R C R Q L Q L Q L Q L Q L Q

nivel 0 de T X T X R T R T R T R T R T R X,Q 7.78% R,Q 5.43% R R R 0.84% R

R 23.63% 11.01%

R 30.08% 13.86%

Tabla 41 .- Comparativo de los mejores resultados para expansiones con diferente nmero de trminos, tres mtodos y los cinco corpus.

La anterior tabla ( 41 ), merece ser explicada con detalle: para cada una de las expansiones que se identifica mediante el nmero de trminos aadidos que consta en la primera columna, se muestran celdas para cada uno de los cinco corpus estudiados, identificados mediante las siglas N=NPL, M=MED, C=CRANFIELD, L=LISA y T=TIME. Bajo la casilla en que se identifica el corpus de que se trate, se inscribe una letra que identifica al mtodo que para el nmero de trminos aadidos, haya generado el mejor resultado para dicho corpus, correspondiendo Q al anlisis Global ( por Qiu), X al anlisis local ( por Xu) y R para el mtodo relativizado que estamos proponiendo . Si se da el caso de que en una casilla, es decir, para un corpus y un nmero de trminos aadidos, la diferencia en los resultados es de cuando ms un punto porcentual, entonces aceptamos que dichos mtodos empatan, y anotamos ambos en la casilla correspondiente. La tabla 41 contiene dos veces cada serie, en la primera, se muestran los resultados para la modalidad en que se incluye el nivel 0 de cobertura y en el

233

segundo caso, la que lo excluye. Las columnas que cierran cada serie, se han empleado para mostrar la letra que corresponde al mtodo que, contando el nmero de corpus para el que ellos hayan resultado mejores, es el mejor para el rengln. Si se da el caso de que el mximo absoluto para algn corpus, se encuentre en el rengln de que se trate, ese hecho se seala sombreando la casilla correspondiente, y anotando el valor de mejora porcentual, en la casilla disponible en el rengln. Como puede verse, nuestro mtodo propuesto es dominante desde diversos puntos de vista. En las expansiones en que es vencido por el anlisis global o por el local, tales mtodos nunca alcanzaran a serlo en tres de los cinco corpus, bajo los dos puntos de vista, incluyendo y excluyendo el nivel 0 de cobertura, en cambio en los que el mtodo que proponemos es mejor, lo es en al menos 3 de los corpus, y hasta en cuatro de ellos. La mejor opcin que se tiene a la vista es la expansin con 175 trminos, para la cual nuestro mtodo obtiene el mejor resultado en cuatro de los cinco corpus y dos mximos absolutos. Tambin podemos sealar que nuestro mtodo es el mejor en seis de las siete expansiones, en cinco de ellas de manera exclusiva. Una visin complementaria es la que se constituye por el riesgo que el empleo de cada uno de los mtodos conlleva. As, si modificamos el criterio y anotamos en una tabla similar a la anterior, en cada caso cual es el peor de los mtodos, obtenemos ( tabla 42 ): Es visible entonces ( tabla 42 ) que nuestro mtodo resulta favorablemente evaluado ya que para ninguno de los renglones, resulta ser el peor, en ningn caso un mnimo absoluto se produjo por el mtodo relativizado, y si bien result no ser el mejor para 10 y 30 trminos aadidos, segn puede verse en la tabla 42, no es el peor en esas expansiones. De hecho, nuestro mtodo obtiene malos resultados en relacin con los otros, para uno slo de los corpus (LISA), en expansiones con 100 o menos trminos.

234

Peor +10t. +30t. +50t. +75t. +100t.

INCLUYENDO cobertura N M C L Q Q X R N M C L Q X X R N M C L Q X X R N M C L Q X X R N M C L Q X X R N X N X M X M X C X C X L R L X

nivel T Q T Q T Q T Q T Q X T X T X

+150t. +175t.

de EXCLUYENDO cobertura Q N M C L 3.05% Q X X R X,Q N M C L -.27% Q X X R X,Q N M C L Q X X R X,Q N M C L Q X X R X N M C L X X X R X X N M C L X X X X X N M C L -19.75% X X X X -9.84% -5.41%

nivel 0 de T Q T Q T Q T X T X T X T X X,Q 4.12% X,Q X,Q X X

X X -0.34% -29.94% -18.75% -4.62%

Tabla 42.- Comparativo de los peores resultados, tres mtodos y cinco corpus.

Una perspectiva ms, se basa en el principio ya clsico expresado por Sparck-Jones, de que una expansin genera resultados significativos si son mayores en 5% sobre la base de referencia
191

. Si aceptamos que para el anlisis

local (X), la mejor alternativa es la de expansin con 10 trminos, para el anlisis global (Q), con 30 y para el relativizado (R) con 175, y observamos esos resultados, tenemos ( tabla 43 ): As ( tabla 43 ), si en el caso +10t se observan los resultados del anlisis local, puede verse que de los tres resultados que son favorables a tal mtodo, dos son significativos, en el caso +30t ( para el cual se puede declarar un empate entre los tres mtodos, pero que es el mas favorecedor para el anlisis global ), dicho mtodo solamente obtiene un resultado significativo, y en el caso +175t, que es el mas favorecedor para el mtodo relativizado, vemos que de los cuatro corpus en que es mejor, en tres de ellos el resultado es significativo.

235

+10t. +10t. +10t. +30t. +30t. +30t. +175t. +175t. +175t.

Q X R Q X R Q X R

NPL 3.05% 4.12% 15.61% 16.82% 8.86% 12.80% 5.98% 7.39% 13.31% 11.86% 13.90% 17.93% 9.82% 11.62% 6.78% 7.32% 23.63% 30.08%

MED 0.61% 1.66% 1.36% 1.4% 9.19% 11.16% 2.54% 5.17% -0.27% 0.44% 10.19% 13.53% 5.86% 8.20% -0.26% -0.34% 11.01% 13.86%

CRANFIELD 3.26% 4.05% -1.96% -1.51% 1.13% 1.68% 4.14% 5.43% -5.71% -6.55% 2.07% 2.86% 2.95% 3.67% -19.59% -24.94% 3.02% 3.75%

LISA -0.04% -0.05% 0.11% -1.33% -3.93% -7.80% 0.45% 0.54% -1.45% -3.54% -4.77% -7.88% 0.67% 0.69% -9.84% -18.75% -5.99% -9.89%

TIME 0.07% 0.98% 8.04% 7.78% 2.21% 2.27% 1.83% 2.83% 5.14% 4.6% 4.14% 4.32% -2.34% -1.88% -5.41% -4.62% 7.15% 7.19%

Tabla 43 .- Comparativo tres mtodos y cinco corpus, la mejor opcin de cada mtodo y significancia de los resultados.

Un aspecto que puede suscitar curiosidad, es la manera como los mtodos estn consiguiendo resultados, porque podra ser que una forma de reformulacin de la query resultara mejor que la bsqueda sin expansin porque obtuviese mucha mejora en unas queries y significativo decremento en el resultado de otras. Hemos revisado este aspecto, tomando un ejemplo: los resultados para el corpus TIME con anlisis local para 50 documentos en la parte alta de la lista ordenada de documentos en la bsqueda inicial y expansin con 10 trminos, y la expansin con 175 trminos con nuestro mtodo, que como ya pudo verse, son competitivos entre s ( local, X = 8.04% sobre la base y relativizado, R = 7.15% ). Revisamos los resultados generados para cada una de las 83 queries, y hemos empleado un criterio: registrar el nmero de documentos relevantes entre los primeros cinco del ordenamiento final generado por cada mtodo. Tambin contabilizamos la cantidad de relevantes en los cinco primeros, para la mquina de bsqueda sin expansin.

236

Tomando como referencia el resultado sin expansin, el anlisis local genera un nmero mayor que la base, en 8 de las queries, y un nmero menor en 4, en tanto que el mtodo relativizado obtiene mejoramiento en 9 y empeoramiento en 5. De las queries en que hay mejoramiento en cuatro de ellas coinciden ambos mtodos, y de las que desmejoraron, 3 son comunes. As, resulta que el perfil de ambos mtodos es semejante, en este caso en el resultado, y en la forma como lo consiguen. Sin embargo, en una cantidad significativa de los casos, el ordenamiento generado, que como ya mencionamos es muy similar en su evaluacin numrica para los dos mtodos de expansin en las condiciones que estamos mencionando, es cualitativamente distinto. Por ejemplo, si tomamos la query nmero 40 del corpus en cuestin, cuyo texto es : Results of the political polls in Britain regarding which party is in the lead, the Labor party or the conservatives. A dicha query corresponden 9 documentos relevantes, y los primeros cinco documentos en los ordenamientos generados por las tres opciones que hemos mencionado son ( los documentos relevantes aparecen con asterisco ): Bsqueda sin expansin : 272*, 207*, 20*, 39, 182*....... Anlisis Local : 20*, 39, 182*, 71*, 272*......... Relativizado : 207*, 182*, 325*, 392, 20*......... As que como puede verse, ambas expansiones tienen diferente propsito, y acercan a la parte alta de la lista ordenada final, diferentes documentos. Por lo que respecta a las caractersticas generales de la formacin de los respectivos marcos relativizadores, y su complejidad, conviene sealar que hemos realizado experimentos de acuerdo con la peor situacin posible en cuanto a tiempo de cmputo, es decir, sin calcular previamente las similitudes ( cosenos ) trmino a trmino, sino que por el contrario, las hemos calculado sobre la marcha, cuando

237

surge la necesidad de cada una de ellas. En todos los casos, el valor de =200, y la formacin del marco ha sido en la modalidad de 100 pseudo-queries aleatorias, para los cinco corpus. As, los datos que se muestran en la tabla 44, ilustran el punto.

Corpus

Relativizador Mnimo 5.45 5.46 6.26 5.36 5.31

Relativizador Mximo 13.25 13.01 17.55 12.13 15.12

MED LISA TIME NPL CRAN

Nmero de Tiempo de trminos en cmputo marco consumido 4722 2.01min 4425 3.16min 6240 2.97min 3442 3.09min 3183 0.87min

Tabla 44 .- Estadsticas relacionadas con el marco relativizador, para los cinco corpus

Formulamos un experimento adicional combinando tres de estos corpus. Hemos indexado conjuntamente los corpus NPL, MED y CRANFIELD formando una coleccin de 13,682 documentos y 16,006 palabras. Ejecutamos para esta coleccin combinada la bsqueda sin expansin para tomarla como lnea de base, y los mtodos global, para 300 trminos aadidos, local con 50 documentos y 10 trminos aadidos y el relativizado con marco fornado con 90 queries tomadas de bsqueda se circunscribi solamente para las 93 queries de la coleccin NPL. En estas circunstancias, sometemos a prueba los respectivos desempeos ante una coleccin en que el tamao es mayor y se han mezclado dominios o temas. El resultado, que se muestra en la tabla 45, muestra que el mtodo relativizado mantiene sus propiedades ante estas condiciones. Vale la pena sealar que de este experimento resulta que el anlisis local reduce su desempeo, especialmente en cuanto al promedio de precisin incluyendo el nivel 0 de cobertura, y el global prcticamente se mantiene igual. las originales de la coleccin, =200, =0.3,

=0.7, y en todos los casos la

238

Mtodo Base Qiu +300 Xu 50 +10 Relativizado +150

Promedio .2372 .2643 .2666 .2924

Diferencia vs. Base 11.40% 12.39% 23.25%

Promedio* .1965 .2237 .2263 .2528

Diferencia vs. Base 13.82% 15.15% 28.63%

Tabla 45 .- Resultados para corpus combinado NPL+MED+CRANFIELD

239

7.6 Parmetros.Nuestro diseo contiene varios parmetros, pero hasta ahora, muchos de ellos han sido mantenidos estticos ( con excepcin del ltimo experimento, y del nmero de trminos a insertar en la expansin ). En efecto, el modelo propuesto incluye : Parmetros para ponderar la inclusin de trminos en la query: .asociado con Ranking_ex(ti,Qa,Q) aplicable al clculo de los

ponderadores de los trminos originales de la query.

ponderadores de los trminos originales de la query. Parmetro asociado a la formacin del marco relativizador: .- asociado al nmero de trminos del ordenamiento a tomar en cuenta

en la construccin del marco relativizador. Parmetro asociado con aceptacin o rechazo de los trminos originales de la query: Umbral.- posicin en el ordenamiento final de trminos, requirindose que la posicin del trmino original de la query, sea menor o igual que dicho umbral para que permanezca en ella despus de la expansin. Nuestros experimentos, hasta ahora han mantenido los siguientes valores: =0. =1. =500,

.-

asociado con la razn entre idfs tambin para el clculo de los

240

Umbral=500. Veamos ahora que efecto tiene en el uso del mtodo, la variacin de algunos de ellos. Por lo que respecta a , en principio hemos considerado la conveniencia de Siendo esto as, hemos hecho variar los correspondientes valores, en primera instancia para el corpus MED, con un marco relativizador formado con sus 30 corpus LISA, con marco formado con sus 35 queries,

queries como base, con

Como puede verse, el primero es uno de aquellos en que el mtodo relativizado ha resultado muy exitoso, y el segundo es en el que dicho mtodo ha empeorado ms el desempeo. Los resultados pueden verse en la tabla 46 y grficas 15, 16 y 17.

ALFA 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

BETA 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

MED 10.62% 10.89% 11.14% 11.29% 11.26% 11.26% 10.17% 9.23% 6.84% 4.17% -2.26%

MED* 13.28% 13.57% 13.85% 14.01% 13.42% 13.39% 12.13% 10.93% 8.85% 5.72% -1.59%

LISA -7.09% -4.33% -2.77% -2.51% 0 -2.06% -6.57% -21.63% -35.69% -53.84% -68.88%

Tabla 46 .- Variaciones de alfa y beta para corpus MED y LISA, incluyendo nivel 0 de cobertura y excluyndolo, se muestran porcentajes de diferencia respecto a base.

que cumplan con

=1- , es decir, que puedan ser vistos como un solo parmetro.

=500 y para expansin con 150 trminos, y para el =500, y +150 trminos.

LISA* -10.79% -8.69% -6.82% -7.32% -8.55% -11.04% -17.12% -28.68% -44.64% -65.65% -78.92%

241

variaciones por alfa y beta, corpus MED


0-1 .8-.2
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85

.1-.9 .9-.1

.2-.8 1-0

.3-.7

.4-.6

.5-.5

.6-.4

.7-.3

recall

precisin

Grfica 15 variacin de alfa y beta, perfiles de cobertura-precisin para el corpus MED.

variaciones por alfa y beta, corpus LISA


1-0 .6-.4
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 precisin 0.5 0.6 0.7 0.8

.1-.9 .7-.3

.2-.8 .8-.2

.3-.7 .9-.1

.4-.6 1-0

.5-.5

Grfica 16 Variacin de alfa y beta, perfiles de cobertura-precisin, corpus LISA.

recall

242

Variaciones de alfa y beta


MED
15.00% porcentaje de diferencia respecto base 10.00% 5.00% 0.00% -5.00% 0 -10.00% -15.00% -20.00% -25.00% -30.00% 0.2 0.4 0.6 0.8 1

LISA

MED*

LISA*

alfa

Grfica 17 Diferencias de precisin promedio incluyendo y excluyendo nivel 0 de cobertura, expansiones de 150 trminos, variando alfa y beta.

Los resultados de la variacin de alfa y beta destacan que en el rango en que casos, y particularmente en el caso LISA en que la prdida de desempeo haba sido significativa, y que se modera notablemente. A partir de dicho valor, y especialmente a valores mayores a rpidamente. Es notable en las grficas, como se modifica el perfil de coberturaprecisin para ambos corpus. Por lo que respecta a la variacin del parmetro , hemos experimentado de la siguiente manera : corpus MED con marco formado con 30 pseudo-queries aleatorias, =0, =1, y umbral =500, expansin para 150 trminos aadidos, y por otra parte, corpus NPL con 90 pseudo-queries originales, e iguales valores de los dems parmetros como en el otro corpus. Los resultados se muestran en la tabla 47 y grfica 18.

se encuentra entre 1 y 0.8, hay una mejora en los resultados, en ambos

=0.5,

los

resultados

se

degradan

243

MU 50 100 200 300 500 1000

MED 10.9% 11.14% 11.29% 11.33% 11.26% 10.17%

MED* 13.58% 13.84% 14.01% 13.51% 13.39% 12.13%

NPL 22.65% 22.94% 23.34% 23.12% 22.36% 22.30%

NPL* 28.66% 28.14% 28.81% 28.94% 27.97% 28.59%

Tabla 47 .- variaciones de mu.

variacin de mu
MED porcentaje de diferencia resp. base 30.00% 25.00% 20.00% 15.00% 10.00% 0 200 400 mu 600 800 1000 MED* NPL NPL*

Grfica 18 Variaciones de mu, expansiones de 150 trminos.

En el caso de este parmetro, observamos una variacin muy contenida en un rango relativamente pequeo, esto podra considerarse ms predecible dado que nuestra formulacin implica que dado el nmero de trminos considerados en el caso de cada query o pseudo-query, ser mayor o menor el de los que finalmente queden inscritos en el marco relativizador, y a los que no aparezcan en l, se les considera poco usuales y se les asigna el mximo relativizador. Finalmente por lo que respecta al umbral de aceptacin, hemos realizado experimentos con los corpus TIME, con marco constitudo por 100 pseudo-queries partir de 200 pseudo-queries aleatorias, y los mismos valores que el anterior para los dems parmetros, y con expansiones de 150 trminos. Los resultados constan en la tabla 48 y grfica 19.

aleatorias,

=0.3,

=0.7,

=200, y el corpus CRANFIELD con marco formado a

244

UMBRAL 50 100 200 300 400 500

TIME 2.69% 2.17% 4.05% 5.37% 5.81% 5.98%

TIME* 2.07% 1.91% 3.64% 5.15% 5.65% 6.0%

CRANFIELD -20.62% -9.50% -6.31% 0.06% 1.24% 1.72%

CRANFIELD* -20.99% -9.71% -2.18% 0.08% 1.54% 2.14%

Tabla 48 .- variaciones del umbral de aceptacin.

variacin del umbral


TIME
0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 100 200 300 400 500 600

TIME*

CRAN

CRAN*

precisin promedio

umbral

Grfica 19 variaciones del umbral de aceptacin.

La variacin de este parmetro, evidencia que este intento de excluir de la query finalmente reformulada, sin algunos de los trminos de la query original, no produce resultados satisfactorios. En todos los experimentos anteriores se haba mantenido este umbral de modo que la exclusin de alguno de dichos trminos fuese muy poco probable. A medida que el umbral es menor, esa probabilidad aumenta, y al excluir algunos de ellos, el desempeo del modelo, se decrementa significativamente.

245

7.7 Discusin final.


Hemos propuesto un nuevo modelo para la expansin de las queries, basado en la utilidad de contextualizar de un modo especfico, el anlisis de las asociaciones entre los trminos que forman una query, as como entre ellos y otros trminos que en su momento pueden ser candidatos a incluirse en ella. Nuestra propuesta ha mostrado propiedades interesantes, especialmente ser robusta ante muchas variaciones, tanto en el sentido de los insumos informativos con que se conforma, como en trminos de su parametrizacin. En este sentido, si se compara con el anlisis global, ste carece de posibilidades de variacin, distintas al nmero de trminos que se aadirn a la query, y si se compara con el anlisis local, este tiene modos de variacin que ponen en peligro su eficacia, y como ha sido sealado por sus autores, es muy dificil estimar los valores de sus parmetros. En nuestra propuesta, hemos encontrado estabilidad ante muchas

situaciones diversas, que permiten encontrar combinaciones con resultados satisfactorios, o al menos superiores a los de los mtodos tomados como referencia, y hemos visto que existen rangos de variacin de sus parmetros y modalidades de operacin, que alejan los peligros de dao al desempeo, al mismo tiempo que mantienen al mtodo en condiciones de viabilidad computacional. Los resultados, como ha sido mostrado, son significativos, si bien se mantienen en un rango tal que pueden considerarse dentro de la apreciacin formulada por Van Rijsbergen ( vase seccin 4.3 ), en relacin con la marginalidad de las ganancias obtenidas por modelos que estn basados en anlisis puramente estadstico, son de cualquier manera alentadores. Si bien es posible decir que la nocin asociacionista es en s misma contextualizadora, en tanto considera que los trminos aislados, pierden una parte

246

importante de su contenido informativo, para fines de localizacin y posiblemente para otros fines tambin, puede ampliarse derivando hacia distintas momentos y formas en que la relacin entre el texto y el contexto es necesaria para conseguir objetivos en trminos de informacin. Nuestro trabajo nos llev a observar que ninguno de los mtodos estudiados, incluyendo el propuesto, son totalmente seguros, es decir, bajo ciertas condiciones cualquiera de ellos en lugar de mejorar la respuesta de la mquina de bsqueda, la deterioran. Nuestra propuesta es la que mayores mejoras produjo y la que menores daos caus. Hemos visto que el anlisis global debe orientarse a la expansin ms bien numerosa, para ocasionalmente producir incrementos significativos, y que el anlisis local funciona para expansiones basadas en pocos trminos aadidos. En este sentido nuestro mtodo propuesto ha mostrado resultados significativos de mejora en un rango intermedio de tamao de la expansin. El modelo propuesto, es una implementacin concreta de las hiptesis planteadas. De ellas nuestro trabajo apunta a que la primera, relacionada con la propensin de algunos trminos a asociarse en mayor medida que otros, con cualquier fragmento de texto, es cierta, as como la tercera en que se plantea que esa propensin es determinable a partir de un mtodo asociacionista y que ambas forman la base de la mejora que hemos obtenido en los resultados. Por lo que se refiere a la segunda hiptesis, la evidencia que hemos encontrado la contradice: no cualquier mtodo asociacionista es capaz de producir mediante esta forma especfica, resultados satisfactorios.

247

Conclusiones y futuro.
Nuestra propuesta ha resultado alentadora por cuanto al desarrollo de un modelo capaz de expandir queries y mejorar los resultados de una mquina de bsqueda ante colecciones especficas. El modelo propuesto es un poco ms demandante de clculo que sus referentes, pero hemos mostrado que es viable. Hemos tratado de incorporar en distintos momentos de la operacin de nuestra propuesta, consideraciones contextualizadoras, tanto en el sentido de que los trminos de la query deben ser tratados en el contexto de las relaciones que pueden establecerse entre ellos, y desde luego en la nocin de marco relativizador. Tambin hemos podido comprobar que la incorporacin de trminos en una query, es un proceso que responde a la complejidad que pueden tener las asociaciones entre palabras del lenguaje, que como vimos en el estado del arte, no son simples. Proponemos un modelo que contiene parmetros que pretendemos son tiles para conducir el funcionamiento de nuestro modelo, dada la posibilidad de condiciones variantes de las colecciones documentales en que se podra trabajar. Derivamos de lo visto, que la contextualizacin y la estabilidad o robustez de los modelos, son caractersticas que estn en algn modo relacionados. Si bien hemos dicho ya que incorporar trminos para expandir queries es complejo, retirar trminos de la query original lo es sin duda, y posiblemente ms. Es posible pensar en el marco relativizador que hemos propuesto, de distintas maneras, desde la que lo ve como una extensin del mtodo de clculo, hasta la que lo compara con un perfil de usuario, ms sofisticado. Nosotros suponemos que representa influencias contextuales, implcitas en el uso del lenguaje en la composicin de documentos, y de colecciones de ellos.

248

Como ya hemos presentado, el campo de trabajo de la recuperacin de informacin, es muy complejo y variado. Podemos atisbar que existen muchas modalidades en que nuestro mtodo podra ser probado, y en esos sentidos, podemos apuntar las siguientes lneas de trabajo futuro: -Una de las variantes que ya de por s es contextualizadora, es la incorporacin dentro de la creacin de los index, de objetos ms complejos que los trminos, por ejemplo, frases nominales, una clase particular de ellas, las collocations, u otra clase de conjuntos de trminos, rasgos o identificadires objetivos ( features ), etc. Es de inters estudiar el comportamiento de nuestra propuesta en un entorno de indexacin de este tipo. -Hemos experimentado nuestra propuesta en una mquina basada en el Vector Space Model. An cuando podemos suponer que su comportamiento puede ser semejante en una mquina basada en redes inferenciales, es necesario probar tal aserto, y hacerlo tambin en otra clase de modelos. -La naturaleza de la composicin del marco relativizador, invita a considerar las diversas posibilidades que se tienen, y que pueden hacer que el mtodo sea eficiente bajo diversas circunstancias, asunto que puede investigarse con amplitud. -Nuestra experimentacin ha tenido como material de prueba un conjunto de corpus que se pueden considerar pequeos. El comportamiento de nuestro modelo debe ser explorado en corpus grandes, como los utilizados en las colecciones de TREC, y otros que contengan documentos de tamao mayor, en mayor cantidad, y con mayor mezcla temtica. -Actualmente es de gran inters la aplicacin de este tipo de modelos en la WEB. La lnea de trabajo en que se consideren las caractersticas y modalidades propias de los documentos disponibles en la WEB, mediante consideraciones como las de nuestra propuesta, es particularmente interesante.

249

-El trabajo que hemos presentado es una posibilidad entre muchas posibles, del clculo del marco relativizador. Es posible imaginar otras formas de dicho clculo y estudiar sus caractersticas. -Hemos explorado las modalidades de reformulacin de las queries, que podemos considerar como positivas, y que han hecho usual la nocin de expansin. Hace falta explorar la vertiente negativa, aquella en que se determinen los trminos que cuando aparecen en un documento, indican que excluirlo o colocarlo en posiciones ms bajas de la lista ordenada final, tendr un efecto benfico sobre los resultados.

250

GLOSARIO:
Este breve glosario, contiene solamente aquellas palabras cuyo extenso uso en la literatura en idioma ingls en el campo de estudio de la Recuperacin de Informacin, tiene visos de convertirlas en estndares. En este trabajo muchos de estos concetpos se han denotado por palabras castellanas, de modo que sus correspondencias con los nombres ingleses, se presenta a continuacin: Aboutness.- Topicalidad. Suele usarse en la literatura en ingls, para referirse al asunto, tema o tpico sobre el que versa un fragmento de texto, o en su caso un documento completo. Cluster.- Agrupacin o conjunto de documentos o de trminos ( o en general de algn tipo de entidades ). La agrupacin se define en funcin de una medida de la semejanza que hay entre los objetos en cuestin. Corpus.- Coleccin de los textos de documentos, acompaada de una batera de queries de prueba, que ya han sido evaluadas por un grupo de expertos en los temas de que tratan, y que han identificado cuales de los documentos de coleccin son relevantes para cada una de las mencionadas queries. Index.- Tabla en que se han identificado los trminos existentes en una coleccin, y se ha contanbilizado al menos su frecuencia absoluta. Puede tambin comprender la posicin dentro de cada documento de la coleccin. Se usa indexar e indexacin como variantes referidas a la accin de crear tales index. Information Retrieval (IR) .- En la literatura inglesa sobre el tema, suele denominarse as, e incluso se utiliza el acrnimo IR, en referencia al campo de estudio de la Recuperacin de Informacin (RI), sobre el que versa este trabajo. Precision.- Precisin, Una medida estndar de la proporcin entre los documentos relevantes includos en una lista ordenada, y los que no son relevantes pero tambin han sido includos en ella, en relacin con una query especfica.

251

Pseudo-relevance feedback.- Utilizacin de algunos indicios de relevancia encontrados o supuestos en los resultados de una bsqueda inicial de documentos, para reformular la query y procesarla en una segunda etapa. En este caso los indicios y su procesamiento se hacen sin la intervencin del usuario ( vase Relevance Feedback ). Query.- peticin de busqueda, pregunta, es la palabra inglesa que se emplea para describir el texto que un usuario somete ante una mquina de bsqueda, solicitando a dicha mquina que localice los documentos o textos relevantes para ella. Muchas veces se considera sinnimo de necesidad de informacin pero esto no es exacto. Ranking.- ordenamiento, lista ordenada. Se denomina as en la literatura en ingls, a los productos del trabajo de una mquina de bsqueda, ya sea al resultado final que es una lista ordenada de los documentos con que se responde a una query, del considerado ms relevante al que lo es menos, y tambin se aplica para listas ordenadas de trminos, cuando estos se priorizan, como en los procesos de expansin o reformulacin de las queries. Recall .- Cobertura. En la literatura en ingls, se utiliza para designar la proporcin de documentos relevantes presentes en una lista ordenada de ellos, producida generalmente por una mquina de bsqueda, y el total de documentos relevantes que estn asociados con la query especfica de que se trata. Relevance Feedback.- Realimentacin, sealamientos que hace un usuario sobre la relevancia de los documentos presentados por una mquina de bsqueda. Generalmente estos sealamientos sern empleados en un proceso de reformulacin de la query. Search Engine.- Mquina de bsqueda. Es la denominacin que se usa en la literatura en ingls, para designar al software que incluye los procesos de : preprocesamiento del texto, tokenizacin, stemming, indexacin, procesamiento de queries, interfaz con el usuario, expansin y segunda bsqueda. Eventualmente se

252

incluye dentro de la denominacin global maquina de bsqueda, la recoleccin de documentos, mediante agentes. Suele aplicarse ya sea que se trate de queries persistentes, o de perfiles de usuario, o de filtrado, etc. Stemming.- Desafijacin, Proceso de naturaleza morfolgica que tiene como objetivo aislar una parte invariante de una palabra, y eliminar las partes de ella que varan por declinacin, conjugacin, u otros procesos gramaticales. Comnmente se circunscribe a eliminar los prefijos y los sufijos. Term.- Trmino, Resultado del proceso de stemming sobre palabras. Tokenization .- Tokenizacin. Conjunto de operaciones que se realizan sobre los textos que en su forma original constituyen una coleccin. Estas operaciones tienen como propsito, eliminar del texto, todos aquellos caracteres y cadenas de ellos que no constituyen palabras, o elementos significativos desde el punto de vista del modelo de recuperacin de informacin que los procesar. El ejemplo caracterstico son las cifras numricas, y tambin dentro de las operaciones de esta clase, se eliminan los signos de puntuacin, y se vuelve a la forma original de las palabras que han sido separadas por guiones, para crear una presentacin adecuada en la impresin del documento de que se trate. Vector Space.- Espacio vectorial, que suele designar al objeto que matemticamente se define como tal.

253

ANEXO: EL ESQUEMA GENERAL O ESQUEMA DE


RELACIONES ENTRE DIVERSOS MBITOS DE INVESTIGACIN EN RECUPERACIN DE INFORMACIN.

254

REFERENCIAS.1

Ricardo Baeza-Yates y Berthier Ribeiro-Neto, Modern information retrieval, p27, Addison Wesley, Harlow Inglaterra, 1999. 2 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, op.cit, p40. 3 Cornelis Joost van Rijsbergen .- Information retrieval, cap3 p3/23, disponible en la web en www.dcs.gla.ac.uk/Keith 4 Christopher D. Manning, Hinrich Shtze.- Foundations of statistical natural language processing,p27,MIT press, Cambridge,1999. 5 H. P. Luhn .- The automatic creation of literature abstracts, pp159-165, IBM Journal of research and development, 1958. 6 Jinxi Xu .- Solving the word mismatch problem trough automatic text analysis,p23, Tesis doctoral, Universidad de Massachusetts, 1997. 7 Gregory B. Newby .- Metric Multidimensional Information Space, TREC-5 Notebook paper, 1996. 8 Jack G. Conrad y Mary Hunter Utt .- A system for discovering relationships by feature extraction from text database. 9 Gerard Salton .- The SMART retrieval system- Experiments in automatic document processing, Prentice Hall Inc. , New Jersey, 1971. 10 Gerard Salton .- Automatic text processing, the transformation, analysis and retrieval of information by computer, p335, Addison Wesley, Boston, 1989. 11 Ron Papka y James Allan .- Document classification using multiword features, Universidad de Massachusetts. 12 E. M. Voorhees .- Using WORDNET for text retrieval, en WORDNET: An electronic lexical database and some of its applications, MIT Press, 1996. 13 E. M. Voorhees .- Query expansion using lexical-semantic relations, en Proceedings of 17 ACM-SIGIR, 1994, p61-69. 14 Cornelis Joost van Rijsbergen .- Information retrieval, cap6 p2/22, disponible en la web en www.dcs.gla.ac.uk/Keith 15 Eric W. Brown .- An approach for improving execution performance in network based information retrieval, Technical Report, University of Massachusetts, 1994. 16 Ibdem. 17 Ibidem. 18 Fabio Crestani y C. J. Van Rijsbergen .- Probability kinematics in information retrieval : a case study. 19 Howard R. Turtle .- Inference networks for document retrieval, Tesis Doctoral, Universidad de Massachusetts, Boston, 1991. 20 M. E. Maron y J. L. Khuns .- On relevance, probabilistic indexing and information retrieval, pp216,244, Journal of the ACM, 7, 1960. 21 Cornelis Joost Van Rijsbergen, op. Cit, cap6 p19/22. 22 James P. Callan .- The INQUERY retrieval system, University of Massachusetts. 23 Howard R. Turtle, op.cit, p91. 24 Howard R. Turtle, op.cit, pp75-76. 25 Yufeng Jing y W. Bruce Croft .- An association thesaurus for information retrieval, University of Massachusetts.

255

Mark Sanderson .- Word sense disambiguation and information retrieval, Proceedings of SIGIR 94, pp142-151, Dubln, 1994. 27 James Allan .- Automatic Hypertext Construction, Tesis doctoral, Universidad Cornell, 1995. 28 Maurice Leroy .- Las grandes corrientes de la lingstica, p88, Fondo de Cultura Econmica, Mxico, 1985. 29 Jos Martnez de Sousa .- Diccionario de Lexicografa Prctica, ed Vox, Bracelona 1995. 30 Diccionario Lxico Hispano, W.M. Jackson editores, Mxico. 31 dem ant. 32 Adam Kilgariff .- SENSEVAL: An exercise in evaluating word sense disambiguation programs, p581, en Proceedings of first LREC, ELRA, Granada, Espaa, 1998. 33 John Lyons .- Semntica Lingstica, una introduccin, p87, ed Paids, 1997. 34 ngel Alonso-Corts, op. Cit, p79. 35 John Lyons, op ct, p303. 36 John Lyons, op. Cit, p60. 37 Dan Sperber-Deidre Wilson.-Relevance: Communication and cognition, Cap. 1, Ed Blackwell, Oxford, 1995 ( 2. Edicin ). 38 P. F. Strawson .-Sobre la referencia,p105, en La teora del significado, G.H.R. Parkinson editor, Fondo de Cultura Econmica, Mxico, 1976. 39 John L. Austin .- Verdad (1950), p240, en Teoras de la verdad en el siglo XX, Juan Antonio Nicols y Mara Jos Frpolli editores, ed. Tecnos, Madrid, 1997. 40 John Lyons, op. Cit, p108. 41 P. F. Strawson, op. Cit,p95. 42 Andrs Bello .- Gramtica de la lengua castellana, p63, editorial Edaf, Madrid, 1984. 43 Jay Liebowitz-Daniel de Salvo.-Structuring expert systems,pp285-289, ed Yourdon Press, Nueva Jersey,1989. 44 Saul Kripke .- El nombrar y la necesidad, pp43-56, ediciones de la Universidad Nacional Autnoma de Mxico, Mxico, 1985, traduccin de Naming and neccesity. 45 Isaiah Berlin .- Conceptos y categoras, p47, Fondo de Cultura Econmica, Mxico, 1992. 46 W. A. Woods .- Understanding subsumption and taxonomy: A framework for Progress, pp 45-93, en Semantic Networks, John Sowa Editor. 47 ngel Alonso-Corts, op. Cit, p202. 48 Andrs Bello, op. Cit, p44. 49 Nicola Guarino .-Some ontological principles for designing upper level lexical resources, p533, en Proceedings of First LREC, ELRA, Granada, Espaa, 1998. 50 Christopher D. Manning y Hinrich Sctze, Foundations of statistical natural language processing, p151, ed. MIT Press, Cambridge Massachusetts, 1999. 51 Batrice Lamiroy .- Lxico y gramtica del Espaol, estructuras verbales de espacio y de tiempo , p17, ed. Anthropos, Barcelona, 1991. 52 Christopher D. Manning y Hinrich Sctze .- op. cit, p288. 53 Christiane Fellbaum .- Documentos pblicos del proyecto WordNet: English Verbs as a Semantic Net, edicin revisada en agosto de 1993. 54 Nicola Guarino-Pierdaniele Giareta.- Ontologies and knowledge bases, en Towards very large knowledge bases, IOS press, Amsterdam, 1995.

26

256

John A. Bateman.- The theoretical status of ontologies in natural language processing, Documentos del proyecto KOMET, ISI, Berlin, 1992. 56 Bill Swartout et. Al.- Toward distributed use of large scale ontologies, USC/ ISI, California, 1996. 57 Nicola Guarino, op. cit, pp527-533. 58 S. E. Fahlman .- NETL : A system for representing and using real world knowledge, p74, 1978. 59 David Touretzky .- The mathematics of inheritance systems, ed Pitman, Nueva York, 1986. 60 Geroge Miller .- Lenguaje y comunicacin, pp133, Amorrourtu editores, Buenos Aires, 1979. 61 George Miller .- op. cit, pp107-108,157-158. 62 George Miller .- op. cit, p136. 63 George Miller et al .- Introduction to Wordnet: An online lexical database, p3, documentos pblicos del proyecto Wordnet, versin revisada en agosto de 1993. 64 Friederich Waismann.- Verificabilidad, p60, en La teora del significado, G.H.R. Parkinson editor, Fondo de Cultura Econmica, Mxico,1976. 65 John Lyons, op.cit. p322. 66 ngel Alonso-Corts, op. Cit, p207. 67 S. E. Fahlman, op. Cit. 68 Fabio Crestani.- Application of spreading activation techniques in information retrieval, p1, Universidad de Padua, 1996. 69 Gerard Salton, op.cit, p117. 70 M. W. Berry et. Al.- Using linear algebra for intelligent information retrieval, 1994. 71 M. W. Berry et. Al .- SVDPACK (Version 1.0) Users guide, 1993. 72 Brian T. Bartell et. Al. Latent Semantic Index is an optimal special case of multidimensional scaling. 73 S. K. M. Wong-W. Ziarko-P. C. N. Wong.- Generalized vector space model in information retrieval, pp18-25, en Proceedings 8th AM SIGIR Conference on research and development in information retrieval, Nueva York, 1985. 74 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, op.cit, p44. 75 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, op.cit, p46. 76 Fabio Crestani .- An adaptive information retrieval system based on neural networks, Universidad de Padua, 1992. 77 S. E. Fahlman, op.cit. 78 Fabio Crestani .- Application of spreading activation techniques in information retrieval, p12, Universidad de Padua, 1996. 79 Idem ant. p13. 80 B. P. McCune-R. M. Tong-J. S. Dean-D. G. Shapiro.- RUBRIC: A system for rule based information retrieval, IEEE Transactions on software engineering, 1985. 81 W. Dolan-L. Vanderwende-S. D. Richardson.-Automatically derived structured knowledge bases from on-line dictionaries, Microsoft corp. Richmond Virginia, 1998. 82 Minkoo Kim-Fenghua Lu-Vijay V. Raghavan .-Automatic construction of Rule-based trees for conceptual retrieval, University of Lousiana en Lafayette, 2000. 83 John F. Sowa .- Conceptual Graphs, tutorial as a contribution to ANSI X3H4 Technical report on the IRDS Conceptual Schema. 1992.

55

257

Iadh Ounis .- Un modle dindexation relationnel pour les graphes conceptuels fond sur une interprtation logique, Tesis Doctoral, Universit Joseph Fourier, 1998. 85 Jean Pierre Chevallet .- Un modle logique de recherche dinformation applique au formalisme des graphes conceptuels. Le prototype ELEN et son experimentation sur un corpus de composants logiciels, Tesis Doctoral, Universit Joseph Fourier, 1992. 86 Iadh Ounis y Marius Pasca .- Effective and efficient relational query processing using conceptual graphs, Universit de Grenoble,1998. 87 Iadh Ounis, op.cit,p4. 88 Edward R. Dougherty y Charles R. Giardina.- Mathematical methods for artificial intelligence and autonomous systems, p73, Prentice-Hal, Nueva Jersey, 1988. 89 Gianni Amati y Iadh Ounis .- Conceptual graphs and first order logic, The Computer Journal, Vol 43, No. 1, 2000. 90 Iadh Ounis y Marius Pasca, op.cit. 91 Gianni Amati y Iadh Ounis, op.cit. 92 Fabio Crestani, op.cit,p1. 93 Fabio Crestani y Cornelis Joost van Rijsbergen .- Information retrieval by logical imaging, Journal of Documentation, 1995. 94 Saul A. Kripke .- Semantical considerations on modal logic,pp63-73, en L. Linsky editor, Reference and modality, Oxford University Press, Oxford, 1971. 95 Fabio Crestani y Cornelis Joost van Rijsbergen .- Information Retrieval by Logical Imaging, Documentos del proyecto FERMI, Glasgow, 1995. 96 Fabio Crestani y Cornelis Joost van Rijsbergen .- Probability kinematics in information retrieval, en Proceedings of ACM SIGIR, pp291-299, Seattle, 1995. 97 Christopher Manning y Hinrich Schtze.- Foundations of Statistical Natural Language Processing, p67, The MIT Press, Massachusetts,1999. 98 Ibdem. 99 Ibdem. 100 D. Lewis .- Probability of condicionals and conditional probabilities, en W.L. Harper, R. Stalnaker, y G. Pearce, editores Ifs, Universidad de Western Ontario Series on Philosophy of Science, pp129-147. D. Reidel, Dordrecht, 1981. 101 Fabio Crestani y Cornelis Joost van Rijsbergen .- Probability kinematics in information retrieval, en Proceedings of ACM SIGIR, pp291-299, Seattle, 1995. 102 Cornelis Joost van Rijsbergen y Mounia Lalmas .- An information calculus for information retrieval, Journal of the American Society of Information Science, 1996. 103 Mounia Lalmas .- The flow of information in information retrieval: towards a general framework for the modeling of information retrieval, University of Glasgow, 1999. 104 Mounia Lalmas, op.cit. p7. 105 Cornelis Joost van Rijsbergen y Mounia Lalmas, op.cit, p2. 106 K. J. Devlin .- Logic and information, Cambridge University Press, Cambridge, 1991. 107 Idem ant, p3. 108 P. D. Bruza y T. W. C. Huibers .- How nonmonotonic is aboutness?, Technical report UU-CS-1995-09, Department of computer science, Utrecht University, The Netherlands, 1995. 109 T. W. C. Huibers, M. Lalmas y C. J. Van Rijsbergen .- Information retrieval and situation theory, SIGIR forum 50(1):11-25,1996. 110 Mounia Lalmas, op.cit.

84

258

Robert R. Korfhage, op. Cit, p194. Cornelis Joost van Rijsbergen, .- Information retrieval, cap7 p3/29, disponible en la web en www.dcs.gla.ac.uk/Keith 113 Cornelis Joos van Rijsbergen, op.cit, cap7 p7/29. 114 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, op.cit. p85. 115 Van Rijsbergen et al .- A study of system and user relevance in information retrieval, documentos del proyecto FERMI, 1998. 116 Robert R. Korfhage, op. Cit. p192. 117 Idem ant.p208. 118 Brian Pinkerton .- Finding what people want: experiences with the WebCrawler, Proceedings of the second international World Wide Web conference, Chicago, 1994. 119 Jinxi Xu .- Solving the word mismatch problem trough automatic text analysis, Tesis Doctoral, Universidad de Masachussets, 1997. 120 Van Rijsbergen et. Al. Op.cit, p103. 121 Theo Huibers, Cornelis Joost van Rijsbergen y Mounia Lalmas .- Information retrieval and situation theory, SIGIR forum 50(1):11-25,1996. 122 Robert R. Korfhage, op.cit. p331. 123 Fabio Crestani, Application of spreading activation techniques in information retrieval, p12, Universidad de Padua, 1996. 124 Theo Huibers, Iadh Ounis y Jean Pierre Chevallet .- Conceptual graph aboutness,Universidad de Grenoble,1996. 125 Jian-Yun Nie .- On the frameworks for information retrieval modelling, Universidad de Montreal, Canada, 1996. 126 Van Rijsbergen et al .- A study of system and user relevance in information retrieval, documentos del proyecto FERMI, 1998. 127 Idem ant. 128 Jian-Yun Nie, op.cit. 129 Mounia Lalmas y Peter D. Bruza .- The use of logic in information retrieval modelling, University of Glasgow, 1999. 130 T. W. C. Huibers, M. Lalmas y C. J. Van Rijsbergen .- Information retrieval and situation theory, SIGIR forum 50(1):11-25,1996. 131 Cornelis Joost van Rijsbergen y Mounia Lalmas .- An information calculus for information retrieval, Journal of the American Society of Information Science, 1996. 132 Jian-Yun Nie, op.cit. 133 Peter D. Bruza .- Logic based information retrieval: Is it really worth it?, Queensland University of technology, Australia. 134 Theo Huibers, Iadh Ounis y Jean Pierre Chevallet .- Conceptual graph aboutness, Universidad de Grenoble,1996. 135 Jian-Yun Nie, op.cit. 136 T. W. C. Huibers, M. Lalmas y C. J. Van Rijsbergen .- Information retrieval and situation theory, SIGIR forum 50(1):11-25,1996. 137 Cornelis Joost van Rijsbergen y Mounia Lalmas .- An information calculus for information retrieval, Journal of the American Society of Information Science, 1996. 138 Jian-Yun Nie, op.cit. 139 Peter D. Bruza .- Logic based information retrieval: Is it really worth it?, Queensland University of technology, Australia.
112

111

259

T. W. C. Huibers, M. Lalmas y C. J. Van Rijsbergen .- Information retrieval and situation theory, SIGIR forum 50(1):11-25,1996. 141 Van Rijsbergen et al .- A study of system and user relevance in information retrieval, documentos del proyecto FERMI, 1998. 142 Ian Ruthven y C. J. Van Rijsbergen .- Context generation in information retrieval, University of Glasgow, 1996. 143 Jian-Yun Nie, op.cit. 144 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, op.cit. pp262-270. 145 Robert R. Korfhage.- Information Storage and Retrieval, p221, John Wiley and Sons, Nueva York, 1997. 146 Ricardo Baeza-Yates y Berthier Ribeiro-Neto, op.cit. pp304-307. 147 Ian Witten-Alistair Moffat-Timothy Bell.-Managing Gigabytes, p214, Morgan Kauffman publishers, San Francisco, USA, 1999. 148 John McCarthy .- Generality in artificial intelligence, Communications of teh ACM,30(12):1030-1035,1971-1987. 149 John McCarthy y Sasa Buvac .- Formalizing context ( expanded notes ), Computing Natural Language, California,1997. 150 Varol Akman .- Context as a social construct, AAAI fall symposium in Knowledge Representation and Natural Language, Cambridge, Mass. 1997. 151 Varol Akman y Mehmet Surav .- Steps toward formalizing context, AI Magazine 17(5), fall 96: 55-72, 1996. 152 John Lyons, op.cit, p286. 153 Thomas B. Carlson .- Context for Comprehension, p64, en Arenas of language use, Herbert H. Clark editor, The University of Chicago press, Chicago,1992. 154 Ian Ruthven y C. J. Van Rijsbergen .- Context Generation in information retrieval, p3, University of Glasgow. 155 Fausto Giunchiglia .- Contextual Reasoning, p1, Epistemologa XVI:345-364, 1993. Trento, 1993. 156 Harry Bunt .- Context and dialogue control,p5, Institute for language technology and artificial intelligence, Tilburg,1993. 157 Graeme Hirst .- Context as a spurious concept, AAAI fall symposium on context in knowledge representation and natural language, Cambridge Mass. 1997. 158 John McCarthy y Sasa Buvac .- Formalizing context ( expanded notes ), Computing Natural Language, California,1997. 159 Ramanathan V. Guha .- Contexts: A formalization and some applications, Tesis Doctoral, 1995. 160 Mehemet Surav y Varol Akman .- Modeling context with situations, Technical report BU-CEIS-95-07, Bilkent University, Ankara, 1995. 161 Fausto Giunchiglia .- Introduction to contextual reasoning: An artificial intelligence perspective, Istituto per la ricerca scientifica e tecnologica, Trento, 1997. 162 Fausto Giunchiglia .- Contextual reasoning,p2, Epistemologa XVI:345-364, 1993. Trento, 1993. 163 Megumi Kameyama .- Indefeasible semantics and defeasible pragmatics, SRI international Tecnical report 544, and CWI report CS-R9441, 1994. 164 Graeme Hirst, op.cit.p7. 165 Douglas Lenat et al .- The dimensions of Context-Space, Cycorp Inc; Austin, 1998.

140

260

Teun A. Van Dijk .- Texto y Contexto, Semntica y pragmtica del dicurso,p73, ed. Ctedra, Madrid, 1998. 167 Varol Akman y Mehemet Surav, op.cit,p17. 168 John Lyons, op.cit. pp285,295,320. 169 Varol Akman Mehemet Surav, op.cit.p3. 170 Graeme Hirst .- Context as a spurious concept, AAAI fall symposium on context in knowledge representation and natural language, Cambridge Mass. 1997. 171 Howard Robert Turtle, op.cit, p5. 172 Varol Akman y Mehemet Surav, op.cit.p8. 173 Graeme Hirst, op.cit.p7. 174 Fausto Giunchiglia .- Contextual Reasoning, Epistemologa XVI:345-364, 1993. Trento, 1993. 175 Ian Ruthven y C. J. Van Rijsbergen, op.cit. 176 John Lyons, op.cit,pp292,308. 177 Roy M. Turner .- Context-Mediated behaviour for AI applications, Lecture notes in artificial intelligence 1415: Methodology and tools in knowledge-based systems, Springer, New York, 1998. 178 Varol Akman y Mehemet Surav, op.cit,p7. 179 Jerry R. Hobbs .- Against confusion, citado en Varol Akman Context as a social construct,1997. 180 John McCarthy y Sasa Buvac .- Formalizing context ( expanded notes ), Computing Natural Language, California,1997. 181 Peter D. Bruza y Mounia Lalmas .- Logic Based information retrieval: Is it really worth it ?. 182 Fausto Giunchiglia, op.cit. 183 Varol Akman y Mehemet Surav .- Contexts, Oracles and relevance, AAAI 95 fall symposium on formalizing context Technical report FS-95-02 AAAI press:23-30, editor S. Buvac, California,1995. 184 Varol Akman y Mehemet Surav, op. Cit. 185 Varol Akman y Ferda Nur Alpasian .- Strawson on intended meaning and context, Bilkent University, 1999. 186 David Lewis.- Representation and learning in information retrieval, p17, Tesis doctoral dirigida por Bruce Croft, Universidad de Massachussets, 1992. 187 Yonggang Qiu.- Automatic query expansion based on a similarity thesaurus, Tesis doctoral dirigida por H. P. Frei, Swiss Federal Institute of technology, Zurich, 1995. 188 Jinxi Xu .- Solving the word mismatch problem trough automatic text analysis, Tesis doctoral dirigida por Bruce Croft, Universidad de Massachussets, 1997. 189 Yonggang Qiu, Op.Cit, pp48-50. 190 Juan Prawda .- Mtodos y modelos de investigacin de operaciones, Vol 2 p320, Ed. Limusa, Mxico, 1991. 191 Karen Sparck-Jones-R.G. Bateman .- Research on automatic indexing 1974-1976, Reporte Tcnico, Computer laboratory Universidad de Cambridge, 1977.

166

Anda mungkin juga menyukai