T es el conjunto de todos los tokens τ traducción con una MT, y esta se amplía con
presentes en la colección D, usualmente las las dos o tres traducciones más frecuentes de
palabras o términos. Así, la función: cada término (Savoy 2001). Sin embargo, tanto
ϕ:T Φ, τ ϕ(τ) las MT como, en menor medida, los MRD, son
un recurso relativamente escaso si
establece la relación entre los tokens presentes
consideramos idiomas con poca difusión en
en T y su correspondiente entrada en el
comparación con el inglés, francés, alemán o
vocabulario de indexación Φ. Esto es, la
español.
función ϕ puede representar el proceso de
Un recurso alternativo, muy apreciado en
extracción de raíces (stemming), lematización
CLIR, son los corpus paralelos. En un corpus
o cualquier otro que haga corresponder a cada
paralelo, cada documento posee una traducción
token presente en los documentos con un
al resto de los idiomas presentes en el corpus.
elemento en el índice de documentos.
Si conseguimos alinear el corpus a nivel de
ff es la función de frecuencia de un
frase (dada una frase, conocemos como es
determinado elemento índice ϕ i en un
traducida en el resto de los idiomas), es posible
documento dj:
realizar traducciones término a término (Kraaij
ff(ϕi,dj) := | { τ∈T|ϕ(τ)=ϕi ∧d(τ)=d }| j
2001), así como derivar las probabilidades de
donde d es la función que hace corresponder a
traducción (Hiemstra et al 2000).
cada token τ con el documento que le contiene:
d:T D, τ ϕ(τ)
Lamentablemente, aunque
herramientas que exploran el web en busca de
existen
dual a la anterior:
</tag_in> <B>se y éste de aquí se
</font><texto>y
ff(ϕ , d )
i j
closed="false"
attr_name="NAME"
content=”Finaliza
la cumbre
cumbre europea
</TITULO>
df’(ϕ ):=|{ϕ ∈Φ|∃τ∈T:d(τ)=d ∧ϕ(τ)=ϕ }| ≈
i i j i attr_value="TITULO" europea”>
longitud de d j
attr_get="CONTENT"> <META
content=”
</translate>
las posibles traducciones de una expresión cierto sentido k, pero desconocemos si entre
dada. Es por lo tanto de nuevo aplicable el todas las acepciones de E, la que presenta en
mismo esquema basado en la integración de un determinado contexto es justamente k, y no
recursos mediante una red neuronal o una red otra. Esto es, el siguiente paso sería
bayesiana. desambiguar el término original(Ureña 2001),
obteniendo así que la traducción correcta de E
4 El segundo problema CLIR: filtrado son aquellos términos I , I’ ,...I , pues es j el
j j
n
j
traducciones mantener y cuales no?. Una I’ ,...I mantendremos sólo aquellos en los
j
n
j
posible solución es calcular las probabilidades cuales el sentido j es más usual en ellos, pues
de traducción de un término por otro, de tal sólo en ese caso son traducción de E.
manera que podemos eliminar aquellas Todo este proceso, en el estado en que se
traducciones menos probables(Hiemstra, encuentra actualmente, es fuertemente
2000). En esta línea, nosotros hemos propuesto dependiente de EuroWordNet y SemCor. Sin
un método (Martínez et al., 2001b, d) para embargo, el método subyacente no depende de
filtrar traducciones del español al inglés un recurso concreto. Nuestros pasos
combinando EuroWordNet (Vossen 1998) y actualmente se encaminan a la creación de un
SemCor. A continuación se expone desambiguador independiente del idioma, y a
brevemente cual es el método seguido, y sus la obtención de las probabilidades de
limitaciones. traducción a través de un TSM.
EuroWordNet permite conocer la 5 El tercer problema CLIR: Cálculo del
traducción de un término a otros idiomas, para RSV en dos pasos
cada sentido WordNet del término original.
Por otra parte SemCor es un subconjunto del Un enfoque usual en CLIR es traducir la
Brown Corpus, donde cada término está consulta a cada idioma presente en el corpus,
manualmente etiquetado con su sentido para a continuación ejecutar diversas
WodNet. Con esta información, la forma de ejecuciones monolingües, una por idioma.
proceder es la siguiente: Finalmente, es necesario obtener un único
Traducir el término en español E por I , ranking de documentos, mezcla de los
obtenidos por separado. Pero, ¿cómo realizar
1
está orientado a sistemas basado en traducción consulta junto con sus traducciones, de tal
de consultas, con independencia de la técnica forma que Q es la consulta expresada en el
i
Esto no siempre es lo más adecuado, puesto enfoque para el tercer problema CLIR.
que es usual no pesar de la misma manera el Como trabajo futuro, tres son las puntos
término original y el/los traducido/s. Por que nos hemos marcado: medir la bondad del
ejemplo, puede ocurrir que para un idioma i cálculo del RSV en dos pasos, conseguir
dado, mantengamos más de una traducción mejores traducciones para más idiomas, a
para un determinado concepto de la consulta partir de corpus comparables de mayor
original. En consecuencia, la frecuencia de ese cobertura extraídos del Web, e integrar las
concepto se verá incrementada artificialmente soluciones propuestas en un único sistema
en aquellos documentos expresados en el CLIR.
idioma i. En estos casos puede resultar
interesante dividir la frecuencia de cada 7 Bibliografía
término en un determinado idioma por el Adriani M. Dictionary-based CLIR for the
número de traducciones mantenidas para ese CLEF Multilingual Track, 2000. In Working
concepto en ese idioma. Esto lo podemos Notes of the Workshop in Cross-Language
modelizar como sigue: Evaluation Forum (CLEF), Lisbon, September.
ff(ϕ ,d ) := Σ ff’(ϕ ,d ), ∀ϕ ∈ϕ , 1<=i<=N
j k i ij k ij j
Ballestreros L, Croft W.B., 1997. Resolving
Ambiguity for Cross-language Retrieval. In
ff’(ϕ ,dk) := ff(ϕ ,dk) * w(τ )
ij ij ij Proceedings of the 20 th International ACM
ff(ϕ ,d ) representa, como es usual, la SIGIR Conference on Research and
Development in Information Retrieval,
ij k