CLSRI

Propuesta para un Sistema de Recuperación de Información
Multilingüe Independiente del Lenguaje

Fernando Martínez Santiago, L. Alfonso Ureña López
{dofer, laurena}@ujaen.es
Grupo Sistemas Inteligentes. Departamento de Informática. Universidad de Jaén. Spain
Presentamos en este artículo los resultados obtenidos hasta la actualidad en el desarrollo de un
modelo de Recuperación de Información Multilingüe (CLIR). Para ello, se estudian con cierto
detalle los problemas que surgen ante la necesidad de superar la barrera lingüística, existente en
sistemas de Recuperación de Información que deben tratar con colecciones multilingües. Las
diversas soluciones propuestas para tales problemas tienen como factor común que son, hasta
donde nos es posible, independientes de recursos lingüisticos disponibles para idiomas concretos.
En esa línea, se apuesta por el Web como una fuente abundate de recursos útiles en tareas CLIR.
i. Traducción de las consultas y/o

1 Introducción documentos.
A partir del segundo lustro de los años 90, ii. Una vez realizada la traducción, es
la tarea denominada Cross Lingual Information usual que ésta no sea única. En tal
Retrieval (de aquí en adelante, CLIR) ha ido caso, ¿cuál elegir?.
ganando atención dentro de la comunidad RI, iii. ¿Cómo obtener una lista única de
hasta convertirse en nuestros días en una documentos relevantes, con
disciplina a la que se dedica un esfuerzo independencia del lenguaje
semejante al que recibe la Recuperación de utilizado en cada documento? .
Información tradicional. Un sistema CLIR Nótese que los dos primeros puntos, cómo
básicamente es un sistema RI capacitado para traducir y desechar las traducciones menos
operar sobre una colección de documentos precisas, son problemas típicos de los sistemas
multilingüe. Esto es, supuesto que un usuario de Traducción Automática (MT, de aquí en
consulte un sistema CLIR, éste debe recuperar adelante). Sin embargo, un sistema CLIR es
todos aquellos documentos relevantes de entre menos exigente que un sistema MT en cuanto a
los que se encuentran en la colección, con la calidad de la traducción. Esto es debido a
independencia del idioma utilizado tanto en la que empíricamente se ha comprobado que,
consulta como en los documentos. Así, la mientras un sistema MT consigue sus mejores
salida de uno de estos sistemas será resultados cuando toma como unidad a la frase,
frecuentemente una lista heterogénea de los sistemas RI, en el estado del arte actual,
documentos escritos en inglés, español, parecen comportarse mejor si toman como
francés, alemán, etc., y ordenada según la unidad la palabra, manteniéndose poco o
puntuación obtenida por cada documento para ninguna ligazón sintáctica entre los términos.
la consulta dada. Por lo tanto un sistema CLIR centra todos los
Si en la tarea RI se trata de seleccionar esfuerzos en obtener un conjunto de posibles
aquellos documentos relevantes para una traducciones lo más preciso posible para cada
determinada necesidad de información del una de las palabras.
usuario, en un escenario multilingüe es Para cada uno de los tres problemas CLIR
necesario, además, superar la barrera se han realizado muchas y variadas propuestas,
lingüística que surge entre el idioma de la si bien usualmente son fuertemente
consulta y los diversos idiomas presentes en la dependientes de los recursos lingüísticos
colección que se desea consultar (Oard, 1997). disponibles. Por ejemplo, podemos usar un
Así, cualquier intento serio de desarrollar un sistema MT para realizar la traducción de las
sistema CLIR capaz de obtener unos resultados consultas, pero ¿existen MT para cualquier par
equiparables a los obtenidos en un ambiente de idiomas?. Las soluciones aquí propuestas
monolingüe, deberá preocuparse por los tienen todas un factor común: la escalabilidad
siguientes aspectos, a los que nos referiremos a prácticamente cualquier idioma. Y la única
de aquí en adelante como los tres problemas manera de conseguir este objetivo es mediante
CLIR (Grefenstette 1998): el uso de recursos y métodos tan
independientes del lenguaje como sea posible.
El resto del artículo está organizado como un enfoque inmediato es el uso de una MT tal
sigue. En el apartado siguiente se muestra un como Systran
1 2
o T1-Translator . Los sistemas
modelo formal de un sistema de recuperación basados exclusivamente en MT (Gachot 1998)
de información. Posteriormente se realiza un han conseguido un buen rendimiento, pero
breve estudio de cada uno de los tres presentan ciertos inconvenientes, como el ya
problemas CLIR, así como propuestas que tan mencionado problema de disponibilidad para
independientes de un determinado idioma idiomas no muy extendidos. Además, aún
como sea posible. existiendo el sistema MT, la calidad de los
resultados es fuertemente dependiente del
2 Descripción formal de un sistema RI idioma origen y destino de la traducción
tradicional (Savoy 2001).
En este apartado se describe un formalismo Ya que la sintaxis de la traducción es algo
que permite describir la mayoría de los secundario, otro enfoque válido es la
sistemas de RI actuales. Un sistema de RI lo traducción de la consulta, palabra a palabra,
podemos representar mediante la estructura usando un diccionario electrónico (MRD, de
(Sheridan 1997): Machine Readable Dictionary) (Ballesteros
1996, Adriani 2000, Martínez 2001c). Sin
<T, Φ, D ff, df>;
embargo, si mantenemos todas las posibles
traducciones para cada término, se obtiene una
donde: traducción excesivamente ruidosa, que daña
D es la colección de documentos a indexar. sensiblemente la precisión en la búsqueda.
Φ es el vocabulario utilizado en los índices El uso combinado de MT y MRD obtiene
generados a partir de D. resultados muy notables: se realiza la
T es el conjunto de todos los tokens τ traducción con una MT, y esta se amplía con
presentes en la colección D, usualmente las las dos o tres traducciones más frecuentes de
palabras o términos. Así, la función: cada término (Savoy 2001). Sin embargo, tanto

ϕ:T Φ, τ ϕ(τ) las MT como, en menor medida, los MRD, son
un recurso relativamente escaso si
establece la relación entre los tokens presentes
consideramos idiomas con poca difusión en
en T y su correspondiente entrada en el
comparación con el inglés, francés, alemán o
vocabulario de indexación Φ. Esto es, la
español.
función ϕ puede representar el proceso de
Un recurso alternativo, muy apreciado en
extracción de raíces (stemming), lematización
CLIR, son los corpus paralelos. En un corpus
o cualquier otro que haga corresponder a cada
paralelo, cada documento posee una traducción
token presente en los documentos con un
al resto de los idiomas presentes en el corpus.
elemento en el índice de documentos.
Si conseguimos alinear el corpus a nivel de
ff es la función de frecuencia de un
frase (dada una frase, conocemos como es
determinado elemento índice ϕ i en un
traducida en el resto de los idiomas), es posible
documento dj:
realizar traducciones término a término (Kraaij
ff(ϕi,dj) := | { τ∈T|ϕ(τ)=ϕi ∧d(τ)=d }| j
2001), así como derivar las probabilidades de
donde d es la función que hace corresponder a
traducción (Hiemstra et al 2000).
cada token τ con el documento que le contiene:
d:T D, τ ϕ(τ)
Lamentablemente, aunque
herramientas que exploran el web en busca de
existen
finalmente, df denota la frecuencia

estos corpus (Nie et al. 1999), no es fácil
documental: el número de documentos que
obtener corpus paralelos para según qué
contiene un elemento índice dado:
idiomas, y menos aún con la cobertura lo
df(ϕi) := | { dj∈D|∃τ∈T:ϕ(τ)=ϕi ∧d(τ)=d }| j
suficientemente amplia como para obtener
datos fiables.
3 El primer problema CLIR: la
traducción de la consulta
3.1 Enfoques tradicionales

1
Usualmente, un sistema CLIR debe Systran disponible en la web:
acometer la traducción de la consulta del babelfish.altavista.com
2
usuario, de los documentos, o de ambos. Así,
T1-translator disponible en la web:
http://t1-testdrive.sail-labs.de/index.html
3.2 Corpus comparables y Tesauros de idioma, podemos obtener términos similares en
Similitud Multilingües. otros idiomas. Esto permite realizar seudo-
Un recurso mucho más abundante son los traducciones de las consultas en nuestro
corpus comparables. Estos corpus, a diferencia sistema CLIR. Este enfoque ya ha sido
de los paralelos, no exigen que unos utilizado con éxito en tareas CLEF partiendo
documentos sean traducción de otros. Basta de un corpus comparable lo suficientemente
con que, dado un documento, existan textos en amplio (Braschler et al, 2001).
los otros idiomas que traten el mismo tema. Un
buen ejemplo de estos documentos, son las 3.3 Una propuesta para la creación de
noticias internacionales publicadas en los TSM a partir de la Web
diarios. Si bien cada una de estas noticias se ha La Web es una inacabable fuente potencial
escrito independientemente de las demás, es para la creación de corpus. Pero dada la poca
fácil conseguir conjuntos de ellas referentes al estructuración de la Red, ¿cómo extraer la
mismo evento. El uso de los corpus información relevante de la Web?, ¿cómo
comparables no es tan inmediato como el de conocer qué documentos tratan el mismo
los paralelos, pero si somos capaces de crear tema?.
un corpus comparable alineado a nivel de La extracción de información estructurada
documento, es posible derivar a partir de él los de la Red (Grefenstette 1998, Pierre 2001) es
llamados Tesauros de Similitud Multilingüe una tarea difícil de automatizar, pues necesita
(TSM). la compresión de la máquina del documento
Un tesauro de similitud (Qiu, 1995) es una HTML, el cual está diseñado para ser leído por
estructura de datos en la cual obtenemos para las personas, no por las máquinas (Bernes-Lee,
un término dado, términos similares o 1998). Sin embargo, si es posible establecer
semánticamente próximos a él. Informalmente, un puente entre el estilo del documento HTML
la medida de similitud entre dos términos la y la compresión de la máquina, siempre que tal
obtenemos a partir de cómo dos términos son estilo “delate” de alguna manera la
indexados por los documentos. Esto es, información allí almacenada. Esto se puede
tradicionalmente en RI medimos las similitud expresar a través de reglas sencillas como “El
entre documentos a partir de cómo son elemento <TITLE> es el título del
indexados por sus términos. En un tesauro de documento”, o algunas más complejas como
similitud se intercambian los papeles de “el texto con estilo de letra arial 12pt, que
términos y documentos. Un poco más aparece después del elemento <META
formalmente, usando la notación introducida content=”text”> , se corresponde con el autor
en el apartado anterior, un sistema de R.I. lo
notamos: Regla aplicable Documento Documento
<T, Φ, D ff, df>
HTML normalizado
;
<translate> 
entonces un tesauro de similitud lo <tag_in> type="arial"> Este texto se
podríamos representar como una estructura texto <texto>Este texto mantiene
dual a la anterior:
</tag_in> se y éste de aquí se
<tag_out> mantiene añade
<T, Φ’, D’ ff’, df’> ;

CUERPO </texto>pero éste </CUERPO>
donde Φ’:=D, son los elementos índice <tag_out> otro se
(ahora los documentos), y D’:= Φ, son los

</translate> desecha
<texto>y
elementos a recuperar (los términos), y las éste de aquí se
funciones ff’ y df’ las definimos como: <translate>

añade</texto>
<META name= <TITULO>
ff’(d , ϕ ) := | { τ∈T| d(τ)=d ∧ ϕ(τ)=ϕ }| =

j i j i <tag_in ”TITULO” Finaliza la
ff(ϕ , d )
i j
closed="false"
attr_name="NAME"
content=”Finaliza
la cumbre
cumbre europea
</TITULO>
df’(ϕ ):=|{ϕ ∈Φ|∃τ∈T:d(τ)=d ∧ϕ(τ)=ϕ }| ≈
i i j i attr_value="TITULO" europea”>
longitud de d j
attr_get="CONTENT"> <META
Si ahora aplicamos sobre este espacio dual </tag_in>

META name=”FECHA”
content=”
algún método concreto de R.I, lo que <tag_out> 12/11/2000”>
obtenemos es un tesauro de similitud TITULO
Si el corpus de que partimos es multilingüe,

</tag_out>
</translate>
entonces lo que obtenemos es un TSM

(Sheridan, 1997): dado un término en un Tabla 1 - ejemplo de reglas WebReader.
MA de M
del artículo”. Evidentemente, esta descripción Co O A ul v te ul
del texto HTML depende de cada sitio, y debe rig vg t-i gP ct ti-
ns P. pa . ad pa
ser realizada por un experto humano. En esta ul in la as la
línea, hemos propuesto una herramienta, que a al br br
llamamos WebReader (Martínez 2001a) , que as as
genera un corpus con un buen nivel de
estructuración, y poco ruido, a partir de un #7 0.396 0.445
“world soccer”
documento de especificación que describe los “war ii” “ii war”
sitios web a partir de los cuales extraer el #9 0. 102 0.202 “war rwanda”
corpus (Tabla 1). “world war”
#3 0.391 0.322 “decisions made”,
Método de traducción AvgP “hard soft”
SysTran 0.26 #32 0.412 0.251 “women priest”,
“change direction”
EuroWordNet 0.19 Tabla 4 –Precisiones obtenidas
Tesauro de Similitud 0.15 precisión de un sistema CLIR en torno al 40%
Multilingüe (Hull y Grefestette 1996). Existen diccionarios
Tabla 2 – Precisiones obtenidas que son muy ricos en estas multipalabras, pero
WebReader ha sido utilizada con éxito para en pro de la independencia de recursos
generación de un corpus comparable lingüístos, estamos desarrollando un método
inglés/español formado por unos 150.000 basado exclusivamente en los corpus
documentos provenientes de las ediciones en generados con WebReader. Tal método consta
línea de diversos diarios norteamericanos, de dos fases: una primera fase de detección de
ingleses y españoles. Tal corpus ha sido multipalabras en el idioma en el que se realiza
alineado a nivel de documento, para así la consulta, y una segunda fase de traducción
realizar de un TSM, que ha sido aplicado en de tales multipalabras.
tareas CLIR para la seudo-traducción de La detección de multipalabras dista de ser
consultas. El rendimiento obtenido es similar un problema trivial, y generalmente requiere la
al alcanzado mediante un MRD. En la Tabla 2 integración de varias fuentes de información
se muestra la precisión obtenida sobre una (estadística, sintáctica y semántica) (Maynard
colección de más de 100.000 documentos en y Ananiadou 2000). Nosotros proponemos el
inglés (colección Los Angeles Times 1994), a uso de estructuras de representación de
partir de un juego de 40 consultas en español. información tales como las redes neuronales y
redes bayesianas para la integración de
3.4 La importancia de las multipalabras recursos de origen principalmente estadístico
en la traducción (coocurrencia de términos, similitud de
términos...) (Martínez et al. 2002a), pues tal
Un problema presente en la traducción de información es fácilmente extraíble de un
consultas basada en MRD o TSM es que es corpus tal como el descrito en el anterior
una traducción palabra a palabra, por lo que punto. Los resultados que hemos obtenido
es frecuente que las llamadas multi-palabras muestran que si bien la detección de
sean mal traducidas. Una multipalabra es una multipalabras pueden duplicar la precisión de
sucesión de palabras cuyo sentido no es igual a una consulta dada, también puede reducir a la
la suma de los sentidos de las palabras que la mitad tal precisión, si se marca como
conforman. Tal es el caso de “Casa Blanca”, multipalabra una expresión que realmente no
“Unión Europea” o “estado de sitio”. La mala lo es (Tabla 3 y 4). Es por esto que nuestros
traducción de una multipalabra reduce la esfuerzos se encaminan a la mejora de la
AvgP. sin AvgP. Con precisión en la detección de las multipalabras,
detección de detección de aun en detrimento de la cobertura.
multipalabras multipalabras Una vez marcadas las multipalabras, el
0.375 0.390 siguiente paso es su traducción.
Tabla 3 – Detección de multipalabras con Tradicionalmente, la traducción de una
una Red Neuronal multipalabras está basada en la traducción por
separado de cada palabra (con un MRD o un
TSM) de que consta la multipalabra, para Traducción AvgP
luego, entre todas las posibles combinaciones
de traducciones, escoger aquella que es más EuroWordNet 0,1701
probable según algún criterio estadístico EuroWordNet+filtrado 0,1941
(coocurrencia de los términos traducidos, Tabla 4 - Uso de Prob. de Traducción
similitud de pesos de los términos, etc)
(Adriani 2000, Ballesteros y Croft 1997). La idea subyacente es que si un término es
Realmente, este problema de la traducción de traducción de otro, lo es porque comparten un
las multipalabras es muy similar al de su determinado significado en alguna de sus
detección, pero sobre un espacio mucho más acepciones. Cuanto más común sea esa
reducido. Si en el caso de la detección, acepción en I, más probable es que sea una
debemos encontrar multipalabras sobre un traducción correcta del E. Este enfoque
corpus, ahora se trata de encontrar cual es la presenta un limitación evidente: sólo estamos
mejor candidata a multipalabra de entre todas evaluando la probabilidad de que I actúe con
k
las posibles traducciones de una expresión cierto sentido k, pero desconocemos si entre
dada. Es por lo tanto de nuevo aplicable el todas las acepciones de E, la que presenta en
mismo esquema basado en la integración de un determinado contexto es justamente k, y no
recursos mediante una red neuronal o una red otra. Esto es, el siguiente paso sería
bayesiana. desambiguar el término original(Ureña 2001),
obteniendo así que la traducción correcta de E
4 El segundo problema CLIR: filtrado son aquellos términos I , I’ ,...I , pues es j el
j j
n
j
de traducciones sentido con el actúa E. Luego, usando el

Una vez realizada la traducción, ¿qué algoritmo antes propuesto, del conjunto I , j
traducciones mantener y cuales no?. Una I’ ,...I mantendremos sólo aquellos en los
j
n
j
posible solución es calcular las probabilidades cuales el sentido j es más usual en ellos, pues
de traducción de un término por otro, de tal sólo en ese caso son traducción de E.
manera que podemos eliminar aquellas Todo este proceso, en el estado en que se
traducciones menos probables(Hiemstra, encuentra actualmente, es fuertemente
2000). En esta línea, nosotros hemos propuesto dependiente de EuroWordNet y SemCor. Sin
un método (Martínez et al., 2001b, d) para embargo, el método subyacente no depende de
filtrar traducciones del español al inglés un recurso concreto. Nuestros pasos
combinando EuroWordNet (Vossen 1998) y actualmente se encaminan a la creación de un
SemCor. A continuación se expone desambiguador independiente del idioma, y a
brevemente cual es el método seguido, y sus la obtención de las probabilidades de
limitaciones. traducción a través de un TSM.
EuroWordNet permite conocer la 5 El tercer problema CLIR: Cálculo del
traducción de un término a otros idiomas, para RSV en dos pasos
cada sentido WordNet del término original.
Por otra parte SemCor es un subconjunto del Un enfoque usual en CLIR es traducir la
Brown Corpus, donde cada término está consulta a cada idioma presente en el corpus,
manualmente etiquetado con su sentido para a continuación ejecutar diversas
WodNet. Con esta información, la forma de ejecuciones monolingües, una por idioma.
proceder es la siguiente: Finalmente, es necesario obtener un único
Traducir el término en español E por I , ranking de documentos, mezcla de los
obtenidos por separado. Pero, ¿cómo realizar
1
I’ ,...I , I , I’’ ..I , usando EuroWordNet, de

n m
tal mezcla?. Este es un problema que dista de

1 1 2 2 2
tal manera que conocemos que cualquier I es j
resultar trivial, pues la puntuación alcanzada

1
traducción de E con el sentido 1, I es k
por cada documento (RSV, del inglés Retrieval

2
traducción de E con el sentido 2, y así

siguiendo. Status Value) son calculados no sólo en
Para cada término en inglés I , calcular la
j función de la idoneidad del documento y el
modelo RI seguido, sino que también es
k
probabilidad de que actúe con el sentido k,

pues esa será la probabilidad de que sea determinante el resto del corpus monolingüe al
traducción de E cual pertenece tal documento. Existen diversos
Retener aquellas traducciones de E más enfoques de “normalización” de los RSV
probables. (Powell et al. 2000), pero aún así se genera
una pérdida grande de precisión en el proceso Un poco más formalmente, el método podría
(según la colección, entre el 20 y el 40%) describirse como sigue: para cada colección
(Savoy 2001, Voorhees 1995), y siendo quizás monolingüe partimos de ya conocida
por esto que los sistemas CLIR basados en estructura:
traducción de documentos, suelen conseguir <T , Φ , D , ff, df>, 1<=i<=N
resultados sensiblemente mejores que aquellos i i i
que tan sólo traducen la consulta. donde N es el número de idiomas presentes

El planteamiento propuesto calcula el RSV en en la colección multilingüe a indexar.
dos fases, preselección y reordenamiento, y Sea el conjunto Q = {Q , 1<=i<=N}, una i
está orientado a sistemas basado en traducción consulta junto con sus traducciones, de tal
de consultas, con independencia de la técnica forma que Q es la consulta expresada en el
i
usada en la traducción. mismo idioma que la colección D . i
I. La fase de preselección de documentos se Tras haber lanzado cada traducción Q contra i,
corresponde con la traducción y su correspondiente estructura <T , Φ ,D , ff, i i i
lanzamiento de la consulta sobre cada df>, es posible obtener un nueva y única

colección monolingüe, D , como es usual
i
estructura:
en los sistemas CLIR basados en la <T’, Φ’ D’, ff, df>
traducción de consultas. Esta fase produce ,
dos resultados: donde:

a. resultado de unir todos los documentos - D’ es el conjunto multilingüe de
recuperados para cada idioma, documentos recuperados como
obtenemos una única colección consecuencia de lanzar la consulta Q.
multilingüe de documentos - Φ’ es un nuevo vocabulario de indexación,
preseleccionados (colección D’). calculado a partir de los conceptos que
b. Resultado del proceso de traducción, aparecen en Q. Cada elemento índice ϕ ∈ j
obtenemos para cada término de la Φ’ es el conjunto formado de la siguiente

consulta original, su traducción al resto manera:
de los idiomas. Al conjunto de
ϕ := {ϕ(τ ), 1<=i<=N}, 1<=j<=M
términos que son unos traducciones de j ij
los otros, lo llamamos concepto. Un Puesto que cada consulta Q es traducción i
concepto es independiente del idioma. de las demás, es posible alinear las

Así, obtenemos un vocabulario Φ, consultas a nivel de término. Sea
formado por todos los conceptos
τ := {τ ∈Q , 1<=i<=N}, 1<=j=M, M=|Q|
presentes en la consulta. j ij i
II. La segunda fase consiste en reindexar la dónde τ es el término j-ésimo de la

ij
colección D’, considerando el vocabulario consulta Q, traducido al idioma i. Así, τ j
Φ. Creamos un índice de conceptos, no de representa el concepto j de la consulta Q,

términos, ya que todos los términos con independencia del lenguaje, y ϕ el j
pertenecientes a un mismo concepto se elemento índice que se deriva de él.

tratan como ocurrencias del mismo - T’ es el conjunto de conceptos τ , y
concepto. Así, si por ejemplo en la
j
representa el vocabulario de D’.

consulta aparece el término “casa”, es - ff y df se interpretan como es usual.
traducido por “house”, “casa” ocurre un En cierta forma, este método toma algo de
total de 100 veces en los documentos los sistemas CLIR que traducen el corpus, pero
recuperados, y “house” 150, entonces, la en vez de traducir el corpus completo, tan sólo
frecuencia del término sería 250. A traduce las palabras que aparecen en la
efectos prácticos, en esta segunda fase consulta, y sobre el juego de documentos
cada ocurrencia de “casa”, se trata recuperado, no sobre el corpus completo. Estas
exactamente igual que cada ocurrencia de dos simplificaciones permiten plantear el
“house”, sobre la colección D’. sistema en tiempo de consulta: el reindexado
Por último, lanzamos la consulta sobre el necesario en la segunda fase es factible en
índice creado en II, consulta que estará términos computacionales por el pequeño
formada por conceptos, no por términos, con lo tamaño de la colección D’, y el, en general,
que es independiente del lenguaje. escaso vocabulario de indexación Φ’
(aproximadamente los términos de la consulta tamaño de la colección D’, y el, en general,
Q por el número de idiomas presentes en D’). escaso vocabulario de indexación Φ’
Algunas consideraciones sobre el modelo (aproximadamente los términos de la consulta
propuesto son las siguientes: Q por el número de idiomas presentes en D’).
- Es fácilmente escalable a varios idiomas. El modelo aquí propuesto aún se encuentra
- El sistema requiere alinear la consulta en etapa experimental, por lo que aun no
original y sus traducciones a nivel de tenemos resultados que midan la bondad del
término. Este proceso, dependiendo del enfoque.
enfoque seguido para la traducción, puede
resultar más o menos trivial. 6 Conclusiones y trabajo futuro
- En el modelo expuesto, un término junto Se ha esbozado aquí un modelo CLIR
con su traducción se tratan exactamente de independiente del idioma en un alto grado,
la misma manera. Así, la frecuencia del gracias al uso de recursos lingüísticos
concepto j-ésimo de la consulta será abundantes, tal como son los corpus
ff(ϕ ,d ) := Σ ff(ϕ ,d ), ∀ϕ ∈ϕ , 1<=i<=N comparables. Hemos repasado los tres
problemas CLIR tradicionales, mostrando
j k i ij k ij j
donde resultados ya obtenidos en ambientes bilingües

ff(ϕ ,d ) := | { τ ∈T|ϕ(τ )=ϕ ∧ d(τ )=d }| para los dos primeros problemas CLIR. Por
último, se ha presentado con detalle un nuevo
ij k ij ij ij ij j
Esto no siempre es lo más adecuado, puesto enfoque para el tercer problema CLIR.
que es usual no pesar de la misma manera el Como trabajo futuro, tres son las puntos
término original y el/los traducido/s. Por que nos hemos marcado: medir la bondad del
ejemplo, puede ocurrir que para un idioma i cálculo del RSV en dos pasos, conseguir
dado, mantengamos más de una traducción mejores traducciones para más idiomas, a
para un determinado concepto de la consulta partir de corpus comparables de mayor
original. En consecuencia, la frecuencia de ese cobertura extraídos del Web, e integrar las
concepto se verá incrementada artificialmente soluciones propuestas en un único sistema
en aquellos documentos expresados en el CLIR.
idioma i. En estos casos puede resultar
interesante dividir la frecuencia de cada 7 Bibliografía
término en un determinado idioma por el Adriani M. Dictionary-based CLIR for the
número de traducciones mantenidas para ese CLEF Multilingual Track, 2000. In Working
concepto en ese idioma. Esto lo podemos Notes of the Workshop in Cross-Language
modelizar como sigue: Evaluation Forum (CLEF), Lisbon, September.
ff(ϕ ,d ) := Σ ff’(ϕ ,d ), ∀ϕ ∈ϕ , 1<=i<=N
j k i ij k ij j
Ballestreros L, Croft W.B., 1997. Resolving
Ambiguity for Cross-language Retrieval. In
ff’(ϕ ,dk) := ff(ϕ ,dk) * w(τ )
ij ij ij Proceedings of the 20 th International ACM
ff(ϕ ,d ) representa, como es usual, la SIGIR Conference on Research and
Development in Information Retrieval,
ij k
frecuencia de la traducción i-ésima del

concepto j. Entonces w(τ ) representa nuestra Philadelphia, PA, (pp 84-91).
Ballesteros L., Croft W.B., 1996:
ij
confianza en que τ sea efectivamente

traducción del concepto τ . Así, para los
ij
Dictionary-based methods for cross-lingual
términos de la consulta original, sin traducir,
j
information retrieval. In Proceedings of the 7th
valdrá 1. International DEXA Conference on Database
En cierta forma, este método toma algo de los and expert Systems Applications, pp 791—
sistemas CLIR que traducen el corpus, pero en 801.
vez de traducir el corpus completo, tan sólo Berners-Lee. T. Berners-Lee. Semantic
traduce las palabras que aparecen en la Web Road. Map.
consulta, y sobre el juego de documentos www.w3.org/DesignIssues/Semantics.html,
recuperado, no sobre el corpus completo. Estas 1998.
dos simplificaciones permiten plantear el Braschler M., B. P. Ripplinger, Schäuble.
sistema en tiempo de consulta: el reindexado Experiments with the Eurospider Retrieval
necesario en la segunda fase es factible en System for CLEF 2001. Carol Peters, editor,
términos computacionales por el pequeño Proceedings of the CLEF 2001 Cross-
Language Text Retrieval System Evaluation Using Neural Networks for Multiword
Campaign. @Springer-Verlag, 2001. Recognition in RI. ISKO’2002, pendiente de
Gachot, D. A., Lange, A., Yang, J. The publicar, 2002a.
SYSTRAN NLP Browser: An Application of Maynard D. and Ananiadou S. TRUCKS: a
Machine Translation Technology in Cross- model for automatic term recognition, Journal
Language Information Retrieval. In G. of Natural Language Processing, December
Grefenstette, editor, Cross-Language 2000.
Information Retrieval. pp.105-118, 1998. Nie J., Simard M., Isabelle P., and Durand
Grefenstette G. The problem of Cross- R. Cross-language information retrieval based
Language Information Retrieval. In Cross- on parallel texts and automatic mining parallel
Language Informatioin Retrieval, chapter 1, texts from the Web. In ACM SIGIR'99,
(pp 3-4). Kluwer Academic Publishers, 1998. (pp.74-81) , 1999.
Grefenstette G. "The WWW as a Resource Oard D. Cross-Language Text Retrieval
for Example-Based MT Tasks". conference. In Research in the USA. Presented at 3rd ERCIM
ASLIB'99 Translating and the Computer 21, DELOS Workshop, Zurich, Switzerland, 1997.
London, UK, Nov 10-11, 1999. Pierre J. On the Automated Classification
Hiemstra D., Kraaij W., Pohlmann R. and of Web Sites. Linköping Electronic Articles in
Westerveld T., “Twenty-One at CLEF2000: Computer and Information Science. Vol.
Translation resources, Merging Strategies and 6(2001): nr 0.
Relevance feedback, In: C. Peters, editor, Powell L., French J. C., Callan J., Connell
Cross-language Information Retrieval and M. and Viles C. L., Measuring the Impact of
Evaluation, Proceedings of CLEF 2000 Database Selection on Distributed Searching,
workshop, pp. 102-116, LNCS 2069, 2001, © Proc. 23rd ACM SIGIR Conference on
Springer-Verlag. Information Retrieval (SIGIR 2000), July
Hull D. A. and Grefenstette G. 2000, pp. 232-239.
Experiments in multilingual information Qiu Y. Automatic Query Expansion Based
retrieval. In Proceedings of the 19th Annual on A Similarity Thesaurus. PhD Thesis, Swiss
International ACM SIGIR Conference on Federal Institute of Technology (ETH), 1995
Research and Development in Information Savoy J., 2001. Report on CLEF-2001
Retrieval , 1996. Experiments.Experiments with the Eurospider
Kraaij, W: TNO at CLEF-2001: Retrieval System for CLEF 2001. Carol Peters,
Comparing translation resources , Proceedings editor, Proceedings of the CLEF 2001 Cross-
of CLEF 2001 workshop , Darmstadt 2001 . Language Text Retrieval System Evaluation
Martínez F., Ureña A. y García M. WWW Campaign. @Springer-Verlag, 2001
como Fuente de Recursos Lingüísticos para su Sheridan P., Braschler M., Schäuble P.
Uso en PLN. In Proc. SEPLN, Sep. 2001. Pp Cross-language information retrieval in a
141—151, . 2001a. multilingual legal domain. In Proceedings of
Martínez Santiago F., Ureña López A., the First European Conference on Research
Díaz Galiano M, García Vega, M., Martín and Advanced Technology for Digital
Valdivia M. SINAI at CLEF: Evaluating Libraries, (pp 253 –268) , 1997.
Translation Probabilities with SemCor. Carol Voorhees E. M., Gupta N.K. & Jhonson-
Peters, editor. Proceedings of the CLEF 2001 Laird B. The collection fusion problem. In
Workshop. @Springer-Verlag, 2001b. Proceedings of TREC’3, (pp. 95-104).
Martínez-Santiago F, Ureña López A. Gaithersburg: NIST Publication #500-225,
LLajú: Un sistema de Recuperación de 1995.
Información Multilingüe basado en Ureña A, Buenaga M y Gómez J.M.,
EuroWordNet. Procesamiento del Lenguaje “Integrating Linguistic Resources in TC
Natural, Revista nro. 27, septiembre 2001c. through WSD”. En Computer and the
Martínez Santiago F., Ureña López A., Humanities, vol 35, 2, pp. 214-213, 2001.
Díaz Galiano M, García Vega, M., Martín Vossen P. EuroWordNet: A multilingual
Valdivia M. Uso de SemCor como recurso database with lexical semantic networks.
lingüístico en tareas CLIR. Actas de la IX Dordrecht: Kluwer. , 1998.
Conferencia de la AEPIA (CAEPIA), 2001d.
Martínez Santiago F., Ureña López A.,
Díaz Galiano M, Rivas, V., Martín Valdivia M.

CLSRI

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

CLSRI

Diunggah oleh

Hak Cipta:

Format Tersedia

Propuesta para un Sistema de Recuperación de Información

Multilingüe Independiente del Lenguaje

i. Traducción de las consultas y/o

finalmente, df denota la frecuencia

3.1 Enfoques tradicionales

podríamos representar como una estructura texto <texto>Este texto mantiene

<tag_out> mantiene</B> añade

<T, Φ’, D’ ff’, df’> ;

donde Φ’:=D, son los elementos índice <tag_out> otro <B>se

(ahora los documentos), y D’:= Φ, son los

elementos a recuperar (los términos), y las éste de aquí se

funciones ff’ y df’ las definimos como: <translate>

<META name= <TITULO>

ff’(d , ϕ ) := | { τ∈T| d(τ)=d ∧ ϕ(τ)=ϕ }| =

Si ahora aplicamos sobre este espacio dual </tag_in>

algún método concreto de R.I, lo que <tag_out> 12/11/2000”>

obtenemos es un tesauro de similitud TITULO

Si el corpus de que partimos es multilingüe,

entonces lo que obtenemos es un TSM

de traducciones sentido con el actúa E. Luego, usando el

I’ ,...I , I , I’’ ..I , usando EuroWordNet, de

tal mezcla?. Este es un problema que dista de

tal manera que conocemos que cualquier I es j

resultar trivial, pues la puntuación alcanzada

traducción de E con el sentido 1, I es k

por cada documento (RSV, del inglés Retrieval

traducción de E con el sentido 2, y así

probabilidad de que actúe con el sentido k,

que tan sólo traducen la consulta. donde N es el número de idiomas presentes

usada en la traducción. mismo idioma que la colección D . i

I. La fase de preselección de documentos se Tras haber lanzado cada traducción Q contra i,

corresponde con la traducción y su correspondiente estructura <T , Φ ,D , ff, i i i

lanzamiento de la consulta sobre cada df>, es posible obtener un nueva y única

dos resultados: donde:

obtenemos para cada término de la Φ’ es el conjunto formado de la siguiente

los otros, lo llamamos concepto. Un Puesto que cada consulta Q es traducción i

concepto es independiente del idioma. de las demás, es posible alinear las

II. La segunda fase consiste en reindexar la dónde τ es el término j-ésimo de la

colección D’, considerando el vocabulario consulta Q, traducido al idioma i. Así, τ j

Φ. Creamos un índice de conceptos, no de representa el concepto j de la consulta Q,

pertenecientes a un mismo concepto se elemento índice que se deriva de él.

representa el vocabulario de D’.

donde resultados ya obtenidos en ambientes bilingües

frecuencia de la traducción i-ésima del

confianza en que τ sea efectivamente

Anda mungkin juga menyukai