Agradecimientos
Indice general
1.. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. La independencia del dominio en los sistemas de PLN . . . . . . . . . . 2
1.2. La multilingualidad en los sistemas de PLN . . . . . . . . . . . . . . . . . . 3
1.3. Exposicion del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1. Aplicaciones del PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Sistemas estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2. Sistemas basados en reglas de PLN o conocimiento ling
ustico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Representacion textual sin contenido ling
ustico . . . . . . . . . . . . . . .
2.2.1. Modelo basico de representacion . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Modelo de n-gramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Representacion textual con contenido ling
ustico . . . . . . . . . . . . . .
2.3.1. Modelo de representacion sintactica . . . . . . . . . . . . . . . . . . . .
2.3.2. Modelo basado en relaciones de dependencia entre palabras
2.3.3. Modelo de fusion de pares de dependencias sintacticas . . . .
2.3.4. Modelo de formas logicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5. Modelo de representacion semantica basado en grafos . . . . .
2.3.6. Modelo basado en ontologa . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.7. Modelo basado en analisis de la semantica latente (LSA) . .
2.4. Sntesis de los enfoques de representacion textual . . . . . . . . . . . . . .
2.5. La representacion formal del texto en los sistemas de PLN . . . . . .
2.5.1. La representacion formal del texto en los sistemas de
B
usqueda de Respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2. La representacion formal del texto en los sistemas de Recuperacion de Informacion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.3. La representacion formal del texto en los sistemas de Traduccion Automatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.4. La representacion formal del texto en los sistemas de Categorizacion Automatica de Textos . . . . . . . . . . . . . . . . . . . . .
2.5.5. La representacion formal del texto en los sistemas de Dialogo
2.5.6. La representacion formal del texto en los sistemas de Extraccion de Informacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
16
18
18
20
20
21
23
23
24
25
26
27
29
30
31
31
32
35
36
36
38
39
VI
Indice general
43
45
47
48
49
50
55
61
62
63
71
74
4.. La forma l
ogico-conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1. Tratamiento logico-conceptual y representacion semantica . . . . . . 78
4.1.1. WordNet y EuroWordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.2. UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2. Derivacion de las formas logico-conceptuales . . . . . . . . . . . . . . . . . . 83
4.3. Independencia del dominio en la forma logica . . . . . . . . . . . . . . . . . 87
4.3.1. La forma logico-conceptual en el dominio abierto . . . . . . . . . 88
4.3.2. La representacion semantica de la frase en el dominio abierto 90
4.3.3. La forma logico-conceptual en los dominios restringidos . . . 91
4.3.4. La representacion semantica de la frase en los dominios
restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4. La independencia de la lengua de la forma logica . . . . . . . . . . . . . . 95
4.4.1. La independencia de la lengua de la forma logica en el
dominio abierto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4.2. La independencia de la lengua de la forma logica en los
dominios restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1. Analisis y determinacion de las tareas de evaluacion . . . . . . . . . . . 111
5.2. Evaluacion en la tarea Cross-Language Speech Retrieval del
CLEF 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2.2. Motivacion y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 115
5.2.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Indice general
5.3.
5.4.
5.5.
5.6.
5.7.
VII
Indice de tablas
21
24
25
26
28
28
30
31
32
33
34
56
63
67
67
71
73
73
82
83
85
86
89
91
94
Indice de tablas
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
Indice de tablas
XI
Indice de figuras
4.2. Arbol
de relaciones de dependencia entre las palabras de la frase. . . . 103
5.1.
5.2.
5.3.
5.4.
5.5.
Arbol
de dependencias del topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Arbol
de constituyentes del topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
1. Introducci
on
1. Introducci
on
1.3 Exposici
on del problema
1.3 Exposici
on del problema
Para exponer el problema planteado en el trabajo de investigacion, cabe
considerar el estudio previo desarrollado por Camara de la Fuente (2004) en
el ambito de la representacion ling
ustica del conocimiento y su relevancia en
la ingeniera ling
ustica.
La representacion del conocimiento es uno de los problemas inherentes en las
diferentes areas de la Inteligencia Artificial (IA). En el ambito de la semantica
lexica y computacional, Dez (1999) hace la distincion entre conocimiento y
razonamiento:
Ademas, tenemos que distinguir tambien entre conocimiento y razonamiento, ya que el primero esta ligado a los sistemas de representacion
y almacenamiento de la informacion y el segundo a la recuperacion,
conexion e inferencias y calculos hechos con esa informacion (motores
de inferencia), creando informacion nueva. A priori, cualquier sistema
de representacion del conocimiento ha de servir para realizar tareas de
razonamiento.
Seg
un Kirakowski (1988), en lo que respecta al contenido semantico que
puede englobar el saber, se pueden tipificar cinco tipos de conocimiento:
Conocimiento de procedimientos. Tambien se conoce como conocimiento procedural, y se refiere a como se hacen las cosas.
Conocimiento de objetos y hechos. Tambien se conoce como cono
cimiento declarativo, y se refiere al conocimiento sensorial. Este
es
esencial tanto para interpretar el mundo externo como para ubicar su
1. Introducci
on
propio yo en un contexto.
Conocimiento de consecuencias. Tambien se conoce como conocimiento de razonamiento, y se refiere al que se infiere a partir del conocimiento de procedimientos y del conocimiento de objetos y de hechos.
Asimismo, este tipo de conocimiento sienta las bases para generar
razonamiento basado en casos y para facilitar el aprendizaje en conocimiento procedural y declarativo.
Conocimiento de definiciones. Es el conocimiento articulado, elaborado, asentado, sintetizado y formulado derivado del conocimiento de
procedimientos, de hechos y de consecuencias. Este tipo de conocimiento tiene fundamentos epistemologicos y se representa de forma
textual mediante la descripcion de sus caractersticas y la estructuracion de las relaciones que existen entre los conceptos (estructuras
conceptuales) que subyacen al texto de la definicion. Este conocimiento se utiliza como recurso ling
ustico lexicografico para adquirir
conocimiento de forma automatizada, extrayendolo de las estructuras
conceptuales. Asimismo, este conocimiento contribuye al modelado
del conocimiento dando pautas para la organizacion de la macroestructura y de la microestructura del conocimiento de un dominio.
Metaconocimiento. Es el conocimiento acerca del conocimiento que
tiene como objetivo automatizar la gestion del conocimiento, es decir,
guiar la planificacion y la aplicacion del conocimiento en el entorno
de un sistema. Este tipo de conocimiento, por tanto, incluye informacion acerca del conocimiento de definiciones, de procedimientos,
de objetos y de hechos que posee un sistema. Este termino determina la existencia de un nivel de conocimiento abstracto que identifica
los fundamentos implcitos y explcitos del conocimiento en un sistema. Este tipo de conocimiento es una metodologa y tecnica utilizada
en ingeniera ling
ustica para desarrollar sistemas basados en conocimiento (ingeniera del conocimiento).
La gestion del conocimiento es un concepto que engloba la adquisicion
(tambien conocido como gestion del aprendizaje), la representacion, la
generacion, y la transferencia de saber. El ambito de este trabajo de
investigacion se centra en la representacion del conocimiento. Por ello,
se descarta la posibilidad de introducir terminologa y conceptualizaciones relacionadas con la adquisicion, generacion y transferencia del
conocimiento.
Dentro de los recursos que se pueden utilizar para la representacion
de conocimiento, cabe destacar el papel del lenguaje por su relevancia particular. El lenguaje es basico en el desarrollo y transferencia
1.3 Exposici
on del problema
de contenidos. Se ha demostrado que las tareas vinculadas a la gestion del conocimiento estan ntimamente relacionadas con los procesos
cognitivo-ling
usticos que tienen lugar en el cerebro, y se materializan
en forma de conocimiento representado a traves del lenguaje (Kandel
et al. , 1996).
El lenguaje es un fenomeno complejo y dinamico en el sentido de que
esta siempre en movimiento: por ser una herramienta universalmente
utilizada que siempre esta siendo actualizada por los agentes que intervienen e interact
uan en el acto de la comunicacion, y porque produce
manifestaciones de formas espontaneas dependientes de las condiciones
psicologicas, fisiologicas y sociales. Esta diversidad compleja siempre
creciente debe buscar una coherencia dentro de la misma estructura
del sistema y dentro de un entramado aparentemente caotico (Steels,
1997) (Steels, 2000). Esta concepcion del lenguaje responde a un paradigma complejo como un mapa abierto, conectable, descentralizado
y con m
ultiples jerarquas variables, reflejo de las estructuras y la organizacion del conocimiento humano (bioconocimiento). Se trata de un
paradigma de conocimiento complejo alternativo al paradigma lineal de
los modelos inductivos y deductivos (causa-efecto).
Se denomina conocimiento a las conceptualizaciones representadas que
explican la naturaleza tanto del mundo real como del mundo abstracto,
pero el conocimiento en s, no existe en la naturaleza (Galinsky, 2000).
En concreto, se representa el contenido de los razonamientos. Como ya
hemos visto, la representacion se hace a traves de smbolos de diversa ndole: de tipo ling
ustico, de tipo visual, de tipo auditivo, etc. Los
smbolos son transportadores de conocimiento que pueden apelar a cualquiera de nuestros sentidos para hacernos llegar el contenido semantico
y el sentido perceptivo que encierran.
En el marco del lenguaje natural, el texto es la forma mas potente de
representacion del conocimiento y, por tanto, de gestionar la informacion (Codina et al. , 2001). En este ambito, los terminos son unidades
de naturaleza ling
ustica que representan conocimiento de un determinado dominio y son consensualizaciones para denominar conceptos a
fin de poderlos transmitir. Ya se ha aludido a la trascendencia del lenguaje como fenomeno determinante para el desarrollo de conocimiento.
Si, ademas, esto lo unimos a la funcionalidad de los terminos, que se
acaba de explicar, se puede afirmar que no existe conocimiento sin terminologa. Por ello, los terminos son parte fundamental de la estructura
textual que representa el conocimiento.
Existen dos disciplinas fundamentales vinculadas a la representacion
ling
ustica del conocimiento: la terminologa y la organizacion del co-
1. Introducci
on
nocimiento.
La terminologa es un area de la ling
ustica de reconocido caracter interdisciplinar que se nutre de un conjunto especfico de conocimientos conceptualizado en otras disciplinas (ling
ustica, ciencia del conocimiento y
ciencias de la informacion y la comunicacion). Asimismo, es una ciencia
transdisciplinar porque los productos terminologicos son las piezas de
representacion ling
ustica en las que debe apoyarse cualquier campo de
conocimiento cientfico para poder adquirir, generar y transferir el conocimiento especfico de cualquier dominio (Cabre, 1999). Eso quiere decir
que en el campo del derecho, de la medicina, o de la fsica, por ejemplo,
la disciplina de la terminologa desempe
na un papel fundamental como analizadora de terminos transportadores de conocimiento especfico
de un dominio que median en la comunicacion, como identificadora de
reglas subyacentes en la generacion y relacion de los terminos, y como
metodo y habilidad de trabajo.
La organizacion del conocimiento es una disciplina de formacion reciente que estudia las leyes, los principios y los procedimientos para
estructurar el conocimiento especializado e identificar y establecer la
arquitectura en la que se sustenta el conocimiento de cualquier dominio.
Mucho antes de que la organizacion del conocimiento alcance el estado
de disciplina, es tratada por Aristoteles en su empe
no por fragmentar
el mundo para entenderlo y, as, poder clasificarlo. Desde entonces, esta
actividad ha sufrido cambios espectaculares. De concepciones puramente metafsicas y especulativas, desarrolladas en el terreno de la filosofa,
la epistemologa y la ontologa, se ha pasado a concepciones fsicas y
informatico-pragmaticas, desarrolladas desde diversas ramas (biblioteconoma, documentacion, epistemologa, informatica, inteligencia artificial, semiotica , terminologa , etc.), desplegadas a partir de las ciencias
fundamentales: ling
ustica, ciencias del conocimiento y ciencias de la
informacion y la comunicacion.
Este campo de estudio es de naturaleza interdisciplinar y se nutre de
los aportes recibidos de la ling
ustica, las ciencias del conocimiento y las
ciencias de la informacion y la comunicacion. El objeto de esta disciplina
es, por una parte, la organizacion del conocimiento explcito (conocimiento representado), es decir, socializado o registrado a fin de optimizar la circulacion del conocimiento en la sociedad y, por otra, el desarrollo de metodos que sustenten paradigmas de conocimiento validos,
escalables y ampliables. Tambien se considera una disciplina cientfica,
esto es, sujeta al metodo cientfico, de caracter aplicado (Garca-Marco,
1998).
1.3 Exposici
on del problema
1. Introducci
on
la ingeniera ling
ustica. La primera epoca pareca ser meramente estadstica hasta que se introdujeron estrategias basadas en conocimiento
ling
ustico de tipo morfologico y despues sintactico. El renacimiento de
la relevancia de la semantica en los desarrollos de la ingeniera ling
ustica
es el resultado de los avances aportados por la ciencia del conocimiento.
Esta evolucion de planteamientos corresponde a un cambio de paradigma del conocimiento, de uno lineal a otro complejo. Los sistemas de
Recuperacion de Informacion tambien han sufrido una transformacion
cuya evolucion ha repercutido en su denominacion: sistemas de recuperacion de conocimiento, sistemas de gestion de conocimiento.
La ingeniera ling
ustica es una actividad eminentemente aplicada. Es
el resultado de representar en forma de artefactos y lenguajes artificiales las deducciones que se obtienen del area de trabajo de la ling
ustica
textual, de la ling
ustica computacional, de la informatica, de la terminologa y de la organizacion del conocimiento.
Las areas de la ingeniera ling
ustica vinculadas al dise
no y desarrollo
de sistemas basados en conocimiento son: adquisicion de conocimiento (knowledge acquisition), modelado de conocimiento (knowledge modelling), representacion de conocimiento (knowledge representation) e
infraestructura para el desarrollo de ingeniera de conocimiento (knowledge engineering development infrastructure).
En el contexto del PLN, seg
un Moreno et al. (1999), todo sistema de
PLN intenta simular un comportamiento ling
ustico humano; para ello
debe tomar conciencia tanto de las estructuras propias del lenguaje,
como del conocimiento acerca del universo del discurso. Seg
un esta definicion, los sistemas de PLN deben contar con alg
un tipo de mecanismo
que les permita tener un conocimiento de lo que se esta indicando en el
texto. Este mecanismo coincide con un modelo de representacion formal
del texto capaz de identificar el conocimiento que se esta representando
en el.
En los u
ltimos a
nos, se esta incorporando cierta tendencia en los sistemas de PLN que hace que, por un lado, deben ser capaces de manejar
grandes cantidades de informacion en diferentes lenguas y, por otro lado, deben manejar informacion bajo cualquier dominio de aplicacion,
es decir, tanto en el dominio abierto como en cualquier dominio restringido.
Este requisito hace que el modelo de representacion formal del texto
deba tratar los detalles referentes tanto a la independencia del dominio
como a la independencia de la lengua.
1.3 Exposici
on del problema
smbolos. Estos
se refieren a hechos de interes pertenecientes al dominio a representar. Los hechos se definen como las verdades en un
cierto mundo y es lo que se quiere representar. Todo lenguaje de representacion de conocimiento debe definir dos aspectos fundamentales:
la sintaxis y la semantica. La sintaxis identifica las posibles formas de
construir y combinar los elementos del lenguaje para representar los
hechos del dominio real. La semantica determina la relacion entre los
elementos del lenguaje y su interpretacion en el dominio.
Tambien existen dos fases en la representacion del conocimiento: la fase de codificacion y la fase de decodificacion. La fase de codificacion
(representacion) hace referencia a la conversion de los hechos reales a
su representacion interna. Por el contrario, la fase de decodificacion se
10
1. Introducci
on
refiere a los procesos inferenciales realizados sobre la representacion interna del conocimiento que la convierten en hechos del mundo real.
La representacion del conocimiento debe ser capaz de captar generalizaciones, ser comprensible, ser facilmente modificable e incrementable,
ser usado en diversas situaciones y propositos, permitir diversos grados
de detalle, captar la incertidumbre y la imprecision, representar distinciones importantes y focalizar el conocimiento relevante.
Las caractersticas de una buena representacion son:
Precisa: Los objetos y las relaciones importantes deben aparecer explcitamente y de forma conjunta.
Eficiente: Las restricciones inherentes al problema se muestran pero
no los detalles irrelevantes.
Transparente: La representacion debe ser transparente, es decir, se
entiende lo que se dice.
Completa y concisa: Estan representados con eficacia todos los objetos y relaciones.
Rapidos y computables: Se puede almacenar y recuperar la informacion con rapidez, y se pueden crear mediante un procedimiento ya
existente.
Considerando todo ello, las partes que debe tener toda representacion
son:
Parte lexica: Determina que smbolos estan permitidos en el vocabulario de la representacion.
Una parte estructural que describe las restricciones sobre la forma en
que los smbolos pueden ordenarse.
Una parte operativa que especifica los procedimientos de acceso que
permiten crear descripciones, modificarlas y responder a preguntas
utilizandolas.
Una parte semantica que establece una forma de asociar el significado
con las descripciones.
Ademas, en el marco de la inteligencia artificial, seg
un Russell et al.
(1996), las propiedades que deben tener los esquemas de representacion
1.3 Exposici
on del problema
11
12
1. Introducci
on
13
14
1. Introducci
on
Es bastante com
un encontrarse con aplicaciones que hacen alg
un tipo
de procesamiento del lexico o del habla. Un ejemplo de ello son los
editores de texto, que incorporan herramientas para la correccion ortografica (escribir casaq en lugar de casa). Otro ejemplo es Google que
nos permite recuperar informacion de internet basandose en las palabras
clave introducidas. Un tercer ejemplo son los vehculos que incorporan
tecnologa de reconocimiento de voz para interactuar con el telefono
movil de su conductor permitiendole, por ejemplo, establecer una llamada telefonica (el conductor pronunciando la frase imperativa Llama
al 609... o Llama a la oficina hara que su telefono movil llamase,
bien al n
umero deseado o, bien a la oficina, siendo oficina una entrada
de la agenda del telefono). Esta tecnologa tambien permite la sntesis
mediante voz de los mensajes de texto que se reciben en el telefono
movil del conductor.
Este tipo de aplicaciones, aunque realizan un procesamiento del lenguaje (secuencias fonicas, terminos, ...), no son aplicaciones puras del
PLN. Antes de justificar el por que, conviene analizar las definiciones
que, seg
un diferentes investigadores, se han dado del PLN:
Seg
un (Sosa, 1997), el PLN se concibe como el reconocimiento y utilizacion de la informacion expresada en lenguaje humano a traves del uso
de sistemas informaticos. En PLN se investiga como el lenguaje puede
ser utilizado para cumplir diferentes tareas y la manera de modelar el
conocimiento.
Seg
un (Darriba, 2007), el PLN se define como el desarrollo de modelos
computacionales de determinados aspectos de lenguaje humano para
que, partiendo de esos modelos se puedan realizar programas capaces
de comprender o producir enunciados en lenguaje natural.
La primera definicion se refiere al reconocimiento de la informacion
expresada en lenguaje humano mientras que la segunda definicion se
refiere a la comprension del texto. Basandonos en estas dos definiciones se deduce que la comprension adecuada del texto es una de las
tareas mas importantes y complejas del PLN. La comprension del texto
16
Aunque puedan existir sistemas de un mismo tipo que divergan significativamente en el grado de
informaci
on ling
ustica, esta clasificaci
on se ha hecho considerando u
nicamente el grado de uso
de informaci
on ling
ustica empleado por los primeros sistemas existentes de cada tipo
textos o documentos de una gran coleccion documental que satisfagan las necesidades de informacion del usuario.
Los sistemas de Correccion de Textos (Veronis, 1988) (Vosse, 1992)
que permiten la deteccion y correccion de errores, no solo ortograficos,
sino tambien gramaticales.
Los sistemas de Dialogo (Sikorski & Allen, 1996) (Castro et al. , 2003)
que reciben como entrada frases del lenguaje natural expresadas de
forma oral y generan como salida frases del lenguaje natural expresadas asimismo de forma oral. La finalidad de estos sistemas es emular
el comportamiento inteligente de un ser humano que realiza una tarea
concreta y proporciona informacion de la misma de forma automatica, por ejemplo, horarios de salida de aviones, partes meteorologicos,
estado de cuentas bancarias, etc.
Los sistemas de Extraccion de Informacion (Sasaki & Matsuo, 2000)
(Yangarber et al. , 2000) cuyo proposito consiste en detectar la informacion que es relevante dentro de un conjunto de textos, ignorando
la no relevante, y estructurarla para su almacenamiento en una base
de datos.
Los sistemas de B
usqueda de Respuestas (Ferrandez & Ferrandez,
2007) (Perez et al. , 2004) que tienen como objeto dar una respuesta
concreta a la pregunta formulada por el usuario.
Los sistemas de Generacion de Res
umenes (Aone et al. , 1997) (Barzilay & Elhadad, 1997) que se centran en condensar la informacion
mas relevante de un texto.
Existen diferentes taxonomas de clasificacion de los sistemas de PLN.
Una de ellas es la propuesta por Contreras (2001) que los clasifica en
simbolicos, empricos o estadsticos y conexionistas. Los dos u
ltimos son
los llamados matematicos debido a que tienen una fuerte componente
de matematica y estadstica, mientras que los simbolicos estan basados
en el conocimiento, emplean reglas y algoritmos que representan el conocimiento del lenguaje natural. Tambien estan los sistemas hbridos,
que son aquellos que integran una combinacion de diversos modelos.
En base a esta clasificacion realizada por Contreras (2001) y debido a
que los enfoques estadsticos y conexionistas hacen un fuerte hincapie en
el uso de la matematica y, sobre todo, en la estadstica, determinados
autores como, por ejemplo, Partee et al. (2004) y Manning et al. (1999)
se refieren a ellos como sistemas estadsticos del PLN. De este modo,
los diferentes sistemas de PLN, en funcion de su metodologa, se clasi-
17
18
19
20
2.2 Representaci
on textual sin contenido ling
ustico
Este enfoque se centra en hacer un analisis de los modelos de representacion textual que ignoran la informacion ling
ustica para realizar su
cometido. Se distinguen dos modelos: el modelo basico y el modelo de
n-gramas. Seguidamente se presentan estos dos modelos de representacion.
2.2.1 Modelo b
asico de representaci
on
Para algunos investigadores la representacion basica del texto se corresponde con el modelo de bolsa de palabras (bag-of-words). El elemento
basico de este modelo de representacion es la palabra. De este modo,
el texto correspondiente a cada documento se representa siguiendo el
modelo de espacio vectorial (VSM) de Salton (1989). La idea de este
modelo se centra en la construccion de un vector de terminos y pesos
donde:
los terminos se corresponden con los lemas de las palabras que componen el texto. En este modelo, las palabras que mas se utilizan en
cada idioma no se suelen representar. A este conjunto de palabras se
les conoce como palabras de parada (stopwords).
los pesos asociados a los terminos se calculan acorde a una de las
siguientes alternativas:
Modelo binario. En este modelo, el peso del termino puede tomar
dos valores: 0 si el termino no aparece en el documento, o 1 si el
termino aparece en el documento.
Frecuencia del termino (TF). En este modelo, el peso del termino
se corresponde con el n
umero de apariciones que tiene en el documento.
TF.IDF (Term-Frequency, Inverse Document Frequency). En este
modelo, el peso del termino se calcula en funcion de sus ocurrencias
en el documento y del valor inverso de su frecuencia de aparicion
en el conjunto de documentos a representar. Este valor se computa
seg
un la expresion:
N
T F.IDFtermino = T Ftermino log( dftermino
)
donde N es el n
umero de documentos a representar y dftermino es el
n
umero de documentos donde aparece el termino.
2.2 Representaci
on textual sin contenido ling
ustico
(1)
T
ermino (ra
z)
stori
fly
emerg
rescu
committe
save
thousand
marseil
Peso
1.84449
6.19484
6.47296
6.19484
4.08194
3.06725
2.33944
5.13363
21
22
(2)
El smbolo representa el espacio en blanco que separa cada una de las palabras del texto.
2.3 Representaci
on textual con contenido ling
ustico
(3)
Una segunda variante de este modelo son los skip n-gramas. Un skip ngrama es una combinacion de n palabras en el orden en el que aparecen
en la frase, pero permitiendo saltos arbitrarios entre ellas. A continuacion, en el ejemplo 4 se muestra la representacion de la frase anterior
seg
un el modelo de skip trigramas con salto unitario.
(4)
2.3 Representaci
on textual con contenido
ling
ustico
Se acaba de presentar el enfoque de representacion textual sin contenido
ling
ustico, en el que el texto es representado como una bolsa de palabras o como una secuencia de n-gramas, donde se ignoran por completo
los significados e ideas que se expresan en el texto.
El enfoque de representacion textual con contenido ling
ustico se centra en estudiar los modelos de representacion textual que utilizan el
conocimiento ling
ustico para el desarrollo de su funcion. Los modelos
basados en este enfoque pretenden tratar, en menor o mayor medida,
los significados e ideas que se expresan en el texto.
2.3.1 Modelo de representaci
on sint
actica
El analisis sintactico de constituyentes convierte el texto de entrada
en otras estructuras (com
unmente arboles), que son mas u
tiles para el
posterior analisis y capturan la jerarqua implcita de la entrada. Por
ello, el modelo de representacion sintactica (Roger et al. , 2005) (Croft
et al. , 1991) (Mauldin, 1991) utiliza el arbol de analisis sintactico para representar formalmente las oraciones del texto. De este modo, las
palabras de las oraciones se transforman en estructuras que muestran
las relaciones gramaticales existentes entre las palabras. El ejemplo 5
23
24
(5)
2.3 Representaci
on textual con contenido ling
ustico
25
(6)
Modificador
Marseille [N]
who [N]
thousands [N]
in [Prep]
Emergency [N]
Rescue [N]
saved [V]
Mr. [N]
Committee [N]
Fly [N]
The [Det]
of [Prep]
N
ucleo
in [Prep]
saved [V]
saved [V]
saved [V]
Committee [N]
Committee [N]
Committee [N]
Fly [N]
Fly [N]
of [Prep]
story [N]
story [N]
Relaci
on de dependencia
pcomp-n
whn-subj
obj
mod
lex-mod
lex-mod
rel
lex-mod
conj
pcomp-n
det
mod
26
(7)
Constituyentes originales
[docena NCFP N] [de P P]
[docena de Cifra SNum] [ni
no NCMP N]
[muy WQ SAdv] [alegre AQFP A]
[ni
no NCMP N] [alegre AQFP SAdj]
[haber V3PRI V] [tener VPMS V]
[tener V3PRI GV1] [que Cs Cs] [aprender VRI GV1]
[el DAMS DA] [colegio NCMS N]
[un DAFS DA] [lecci
on NCFS N]
[de P P] [historia NCFS N]
Fusi
on
[docena de Cifra SNum]
[ni
no NCMP N]
[alegre AQFP SAdj]
[ni
no NCMP SN]
[tener V3PRI GV1]
[aprender V3PRI GV2]
[colegio NCMS SN]
[lecci
on NCFS SN]
[historia NCFS SN]
2.3 Representaci
on textual con contenido ling
ustico
(8)
27
28
(9)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 1
Agent1
Agent
John
Noun, Subject
Agent Name
Agent Name (1)
Action1 (.9),
Action2 (.85)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 2
Action1
Action
eats
verb
chow, chunk, eats,
grub
eat (.9)
Object1 (.9)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 3
Object1
Object
the apple
object
apple, orchard apple
tree, Malus pumila
apple tree (.8)
NIL
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 4
Action2
Action
standing
verb
status, position, motion, movement, move, mobility
position (.7)
Object2 (.8)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Sem.:
Nodo 5
Object2
Object
beside the tree
adverb
beside the tree (.8)
NIL
2.3 Representaci
on textual con contenido ling
ustico
del marco es muy simple: un marco representa un objeto o un concepto. Las relaciones entre objetos y conceptos vienen denotadas por los
huecos (slots). Los atributos permiten determinar las propiedades de
los objetos y/o conceptos.
2.3.6 Modelo basado en ontologa
Atendiendo a la propia composicion del lenguaje humano, un concepto
puede ser expresado mediante distintas palabras sinonimas, y tambien,
dada una palabra, esta puede tener diferentes significados seg
un su contexto. Los modelos de representacion vistos hasta ahora no tienen en
cuenta ninguna de estas consideraciones. Los modelos de representacion
del texto basados en ontologa tienen, por una parte, una componente matematica y, por otra parte, una fuerte componente basada en la
exploracion de alguna ontologa que permite la consideracion todo tipo
de caractersticas semanticas del lenguaje. La ontologa clasica utilizada
en este modelo de representacion formal del texto suele ser WordNet
(Miller, 1995).
Siguiendo el modelo basado en ontologa, en la representacion del texto,
solo se tienen en cuenta aquellas palabras cuyas categoras gramaticales
son sustantivo, adjetivo, verbo o adverbio, ya que la base de datos lexica WordNet solo tiene entradas de este tipo de palabras. Las entradas
de WordNet se agrupan en synsets seg
un su categora gramatical. Un
synset agrupa a una serie de palabras sinonimas de la misma categora
gramatical incluyendo su n
umero de sentido. Cada synset de WordNet
esta identificado exclusivamente por un identificador de synset, que es
un n
umero de ocho dgitos. Por ejemplo, el synset 02853224 agrupara
las palabras car, auto, automotive y motorcar con sentido 1, y machine
con sentido 2.
Diferentes autores han utilizado este modelo de representacion en sus
investigaciones tales como Gonzalo et al. (1998), Scott et al. (1999),
Junker et al. (1997), Vicedo (2002) y Petridis et al. (2001). Sanderson
(2000) hace un buen estudio de las diferentes variaciones de este modelo
aplicadas a la Recuperacion de Informacion. A continuacion se muestra
el ejemplo 10 en el que se presenta la representacion formal del texto
seg
un el modelo hbrido considerando u
nicamente el sentido de las palabras en WordNet.
29
30
Representaci
on: La tabla 2.7 muestra la representacion de la frase siguiendo las pautas descritas en
este modelo.
Palabra
bank
institution
lends
money
business
establishments
plays
important
role
commerce
Representaci
on
bank n#10
institution n#4
lend v#2
money n#3
business n#1
establishment n#7
play v#17
important a#1
role n#4
commerce n#3
2.5 La representaci
on formal del texto en los sistemas de PLN
Representaci
on: La Tabla 2.8 muestra la frecuencia
de aparicion de los terminos en los documentos.
Documentos
T
erminos
human
interface
computer
user
relation
EPS
c1
c2
c3
c4
c5
m1
m2
m3
m4
1
1
1
0
0
0
0
0
1
1
0
0
0
1
0
1
0
1
1
0
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
2.5 La representaci
on formal del texto en los
sistemas de PLN
A continuacion se presenta la utilizacion que los diferentes sistemas
mas comunes de PLN han efectuado de los distintos modelos de representacion formal del texto presentados a lo largo de este captulo. En
concreto, se introducen los detalles mas significativos de los modelos de
31
32
Idea
Consiste
Tecnicas
Modelos
Ventajas
Limitaciones
B
asico (bag of words)
N-gramas
2.5.1 La representaci
on formal del texto en los sistemas de
B
usqueda de Respuestas
En este apartado se detallan los modelos de representacion formal del
texto que utilizan los sistemas de B
usqueda de Respuestas desarrollados en los centros de investigacion de Texas, Washington y Trento bajo
la supervision de los investigadores Dan I. Moldovan, Dina DemnerFushman y Bernardo Magnini respectivamente.
El sistema COGEX de Moldovan et al. (2007) utiliza un mecanismo
de representacion formal del texto basado en formas logicas. A la forma logica se le incorpora informacion semantica de dos maneras: (1) la
2.5 La representaci
on formal del texto en los sistemas de PLN
Modelo
b
asico
Modelo
N-gramas
Modelo
basado
en
Ontolog
a
Modelo
LSA
Modelo
Dependencias
Modelo
Fusi
on
Dependencias
Sint
acticas
Modelo
Sint
actico
Modelo
Formas
L
ogicas
Modelo
Sem
antico
basado en
Grafos
Consiste
Representaci
on del texto
en base a complejos
c
alculos sobre derivaciones
de las palabras.
Representaci
on del texto
en base a una ventana
deslizante de caracteres
de tama
no fijo o variable.
Representaci
on del texto
en base a c
alculos
estadsticos e informaci
on
conceptual.
Representaci
on del texto
en base a matrices estadsticas que relacionan textos,
conceptos y documentos.
Representaci
on del texto
en base a relaciones
de dependencia entre
pares de palabras.
Representaci
on del texto
en base a relaciones
entre pares de
dependencias sint
acticas.
Representaci
on del texto
en base a relaciones
entre pares de
dependencias sint
acticas.
Representaci
on del texto
en base a secuencias
de predicados l
ogicos
relacionados.
Representaci
on del texto
en base a grafos
sem
anticos dirigidos
y acclicos.
33
Ventajas
Moderado coste
computacional. Uso
escaso de recursos
ling
usticos
Considera la naturalidad
del lenguaje (ej. orden
de las palabras
en la frase.)
Tiene en cuenta el
significado asociado
a las palabras
del texto.
Tiene en cuenta el
significado asociado
a las palabras
del texto.
Limitaciones
Ambig
uedad.
No tiene en cuenta
la naturalidad
del lenguaje.
No aporta ning
un
tipo de conocimiento ling
ustico
del texto.
Desambiguaci
on.
Sobreutilizaci
on de
fuentes de conocimiento ling
ustico.
Elevado coste
computacional.
Desambiguaci
on.
Granularidad.
Precisi
on.
Elevado coste
computacional.
Granularidad.
Precisi
on.
Elevada complejidad.
Alto coste
computacional.
Granularidad.
Claridad.
Expresividad.
Ambig
uedad.
Elevado coste
computacional.
Claridad.
No ambig
uedad.
Alta complejidad.
Elevado coste
computacional.
Sem
antica.
Claridad.
No ambig
uedad.
Alta complejidad.
Elevado coste
computacional.
clase semantica detectada por el reconocedor de entidades; y (2) las relaciones semanticas obtenidas a partir de un analisis semantico (Bixler
et al. , 2005). Las relaciones semanticas son del tipo: es-un, parte-de,
es-resultado-de, es-una-manera-de-hacer y es-resultado-de. A continuacion se muestra el ejemplo 12 donde se representa la frase dada con su
forma logica asociada.
34
Representaci
on: Bin NN(x1) & Laden NN(x2) & nn NNC(x3,
x1, x2) & human NE(x3) & reportedly RB(x4, e1)
& purchase VB(e1, x3, x5) & anthrax NN(x5) &
half JJ(x6, x7) & decade NN(x7) & ago JJ(x8, x7)
& from IN(e1, x9) & supplier NN(x9) & in IN(x9,
x12) & North NN(x10) & Korea NN(x11) & nn NNC(x12,
x10, x11) & location NE(x12)
Las relaciones semanticas de la frase del ejemplo estan expresadas en la
tabla 2.11. Estas relaciones semanticas se representan en la forma logica
mediante la introduccion de nuevos predicados. Estos nuevos predicados
conservan la estructura de sus analogos originales detallados en secciones anteriores de este captulo introduciendo como novedad el concepto
de rol semantico (Moreda et al. , 2008). Un rol semantico describe una
funcion abstracta desempe
nada por un elemento que participa en una
accion. Basicamente modelan el tipo de relacion semantica existente
(rol semantico), y sus argumentos se corresponden con los argumentos
identificadores de los predicados de la forma logica vinculados en las
relaciones semanticas. A continuacion, el ejemplo 13 muestra la representacion de las relaciones semanticas existentes en la frase.
Relaciones sem
anticas
AGENT(Bin Laden, purchased)
TOPIC(purchased, reportedly)
THEME(anthrax, purchased)
RECIPIENT(a supplier in North Korea, purchased)
TEMPORAL(a half decade ago, purchased)
MEASURE(a half, decade)
LOCATION(in North Korea, a supplier)
Tabla 2.11. Relaciones sem
anticas de la frase del ejemplo
2.5 La representaci
on formal del texto en los sistemas de PLN
35
36
2.5 La representaci
on formal del texto en los sistemas de PLN
37
38
May
confirmed
April
sold
participated
cargoes
brokers
white
total
sales
estimated
India
2.5.5 La representaci
on formal del texto en los sistemas de
Di
alogo
En este apartado se detallan los modelos de representacion formal del
texto que utilizan los sistemas de Dialogo desarrollados en los centros
de investigacion de Saarsbrucken, Wisconsin, Rochester y Valencia bajo
la supervision de los investigadores Ralf Engel, Susan M. Haller, James
F. Allen y Emilio Sanchs respectivamente.
El sistema de Dialogo multimodal de Engel et al. (2007) utiliza un analizador sintactico que usa dos tipos de reglas:
el primer tipo de reglas es un conjunto de reglas especficas del dominio cuyo proposito es convertir las expresiones de entrada al sistema
en una representacion sintactica intermedia.
el segundo tipo de reglas es un conjunto de reglas independiente del
dominio cuyo objeto se centra en realizar una transformacion de las
representaciones sintacticas intermedias obtenidas en el paso previo
en un arbol de derivacion basado en una gramatica adyacente (treeadjoining grammar).
El sistema de Dialogo propuesto por McRoy et al. (1998) plantea una
representacion profunda mixta (mixed-depth representation) del tex-
2.5 La representaci
on formal del texto en los sistemas de PLN
39
40
2.6 Conclusiones
2.6 Conclusiones
En los u
ltimos a
nos se esta produciendo en la sociedad una utilizacion,
cada vez mayor, por una parte de los sistemas de PLN y, por otra, de los
sistemas que hacen uso del PLN. Un claro ejemplo de los primeros son
los sistemas de b
usqueda de respuestas, que permiten obtener de una
coleccion documental una respuesta concreta a una pregunta formulada, mientras que un claro ejemplo de los segundos, son los sistemas de
control domotico que facilitan al usuario la interaccion sobre los diferentes elementos del hogar domotico a traves de las ordenes expresadas
en lenguaje natural.
Los sistemas de PLN, no son capaces de procesar el texto tal cual esta escrito o transcrito sino que, para su proceso, el texto precisa ser representado formalmente, facilitando con ello la comprension de los que se
expresa en el texto. Existen numerosos modelos de representacion del
texto. Estos modelos, atendiendo a las tecnicas utilizadas, se clasifican
en estadsticos o basados en PLN.
A lo largo del captulo se han presentado las aplicaciones o sistemas
mas comunes del PLN categorizados seg
un el grado de PLN que incor
poran. Estos
son: los sistemas de Traduccion Automatica, los sistemas
de Categorizacion Automatica de Textos, los sistemas de Recuperacion de Informacion, los sistemas de Correccion de Textos, los sistemas
de Dialogo, los sistemas de Extraccion de Informacion, los sistemas de
B
usqueda de Respuestas y los sistemas de Generacion de Res
umenes.
Ademas se han mostrado los diferentes modelos de representacion formal del texto empleados por estos sistemas, agrupados tambien, seg
un
su grado de uso de informacion ling
ustica. Concretamente, los modelos de representacion formal del texto se han clasificado en modelos sin
41
42
contenido ling
ustico y en modelos con contenido ling
ustico atendiendo
a la informacion ling
ustica que incorporan. Dentro de los modelos sin
contenido ling
ustico tenemos el modelo basico (bag-of-words) y el modelo de n-gramas. Por otro lado, dentro de los modelos con contenido
ling
ustico nos encontramos con el modelo de representacion sintactica, el modelo basado en relaciones de dependencia entre palabras, el
modelo de fusion de pares de dependencias sintacticas, el modelo de
formas logicas, el modelo de representacion semantica basado en grafos, el modelo basado en ontologa y el modelo basado en el analisis de
la semantica latente (LSA).
Tambien se ha hecho una sntesis tanto de los diferentes metodos de representacion formal del texto como de los diferentes modelos dentro de
cada metodo, y tras esta sntesis, se han presentado los diferentes usos
y enfoques que los principales sistemas de PLN vistos en el captulo hacen de estos modelos de representacion. Estos modelos de representacion
no abordan el problema de la independencia del dominio y de la lengua.
Una vez analizado todo ello y, teniendo en consideracion que las u
ltimas tendencias en el ambito del PLN han derivado a que los sistemas de
PLN por un lado, sean capaces de tratar la multilingualidad y, por otro
lado, sean adaptables del dominio abierto a cualquier dominio restringido, el trabajo de investigacion presentado en esta tesis se centra en
desarrollar un recurso logico-conceptual para la representacion formal
del texto que contemple aspectos como la independencia de la lengua y
su facil adaptacion del dominio abierto a cualquier dominio restringido
y viceversa.
El recurso logico-conceptual desarrollado para la representacion del texto se enmarca dentro del modelo de formas logicas. En los siguientes
captulos se detalla este modelo y se presentan los diferentes recursos de
representacion textual existentes en el marco de este modelo. Tambien
se matizan los detalles del recurso presentado para que contemple su
implantacion en dominios abiertos y en cualquier dominio restringido y
para que de soporte a los aspectos de la multilingualidad.
3. La Forma L
ogica
44
3. La Forma L
ogica
3.1 El c
alculo de predicados de primer orden en el PLN
3.1 El c
alculo de predicados de primer orden en el
PLN
Seg
un Moore (1995), una de los mayores aplicaciones de la logica en el
ambito de la inteligencia artificial es, por una parte, su utilizacion como
formalismo de representacion del conocimiento en un sistema computacional inteligente y, por otra parte, el empleo de la deduccion logica para
la abstraccion de inferencias en el marco del conocimiento representado.
En la mayor parte de las ocasiones, el uso de la logica como mecanismo
de representacion formal y el uso de la deduccion logica para la abstraccion de inferencias del conocimiento representado van de la mano.
Es por ello por lo que muchos autores las consideran simultaneamente.
En cambio Newell (1980) considera que el rol de la logica es el de una
herramienta para el analisis del conocimiento, no para el razonamiento
de agentes inteligentes.
45
46
3. La Forma L
ogica
Seg
un matiza Poesio (2000), la teora de proposito general mejor conocida para la representacion del conocimiento es la logica de primer
orden, tambien conocida como calculo de predicados de primer orden.
El calculo de predicados de primer orden, como sucede con otras teoras
de representacion del conocimiento, permite expresar ciertos tipos de informacion: en el caso del calculo de predicados de primer orden, ciertas
propiedades de conjuntos de objetos. Este proceso se lleva a cabo utilizando para ello una sintaxis y una semantica.
En el inicio del captulo se ha comentado, por una parte, que las frases
declarativas constituyen el elemento basico de descripcion del conocimiento y, por otra parte, que la logica es la disciplina que estudia los
metodos de formalizacion del conocimiento humano. Por lo tanto, en
logica se estudian los metodos de formalizacion de frases declarativas.
Para ello existen dos niveles de abstraccion seg
un el grado de detalle
que se quiera formalizar: logica proposicional y calculo de predicados
de primer orden.
La logica proposicional o logica de enunciados toma como elemento
basico las frases declarativas simples o proposiciones, que son aquellos
elementos de una frase que constituyen por s solos una unidad de comunicacion de conocimientos y pueden ser considerados verdaderos o
falsos.
El calculo de predicados de primer orden estudia las frases declarativas
con mayor grado de detalle, considerando la estructura interna de las
proposiciones. Se tomaran como elementos basicos los objetos y las relaciones entre dichos objetos distinguiendose que se afirma (predicado
o relacion) y de quien se afirma (objeto).
El calculo de predicados de primer orden, y en general la logica, permite
hacer deducciones sobre un universo de discurso. Por ello, es imprescindible disponer de un lenguaje preciso que permita describir aquellos
aspectos relevantes de la realidad objeto de estudio. Este lenguaje, conocido como lenguaje de primer orden, consta de unos smbolos y unas
reglas precisas para combinarlos en expresiones sintacticamente correctas, en formulas. Con el lenguaje de primer orden se puede representar
el conocimiento descrito en el texto mediante la utilizacion de formulas.
Con la interpretacion del lenguaje de primer orden, es decir, con la interpretacion de sus formulas, se define el valor de verdad de tales formulas.
Seguidamente se detallan los matices que se hacen en la forma logica
desde la perspectiva del lenguaje de primer orden, la interpretacion y
3.1 El c
alculo de predicados de primer orden en el PLN
la evaluacion de formulas.
47
48
3. La Forma L
ogica
F
ormula bien formada. En la adaptacion del lenguaje de primer
orden a la forma logica, u
nicamente la secuencia de una o mas formulas
atomicas relacionadas seran formulas bien formadas. Seg
un se ha comentado, las formulas atomicas se corresponden con los predicados. La
secuencia de uno o mas predicados relacionados consecutivos compone
la forma logica. Luego, la forma logica es una formula bien formada.
F
ormulas abiertas. En las formulas bien formadas o formas logicas,
tal y como se acaba de comentar, no se utilizan los cuantificadores, luego ninguna variable esta en el alcance de ning
un cuantificador. Es por
ello que todas las ocurrencias de variable seran libres. Por lo tanto, las
formas logicas tendran la consideracion de formulas abiertas.
3.1.2 Interpretaci
on
En la definicion original de Interpretacion, se trata de dotar a cada
smbolo del lenguaje de un contenido, es decir, establecer los valores
que definen la evaluacion a cierto o falso de las formulas. En este sentido se pretende que:
las variables identifican a los objetos del universo de discurso.
los predicados denotan las propiedades y relaciones sobre los objetos
del universo de discurso.
las formulas bien formadas sean enunciados o sentencias sobre el universo.
En la adaptacion del lenguaje de primer orden L=(A, F) a la forma
logica, el objetivo es la asignacion a cada smbolo del alfabeto A de un
valor del universo de discurso de forma que, utilizando esta asignacion
como base, se pueda definir el valor de verdad de cualquier formula
de dicho lenguaje. Para ello se introduce el concepto de interpretacion
adaptada a la forma logica.
Interpretaci
on adaptada a la forma l
ogica. Una interpretacion I
de un lenguaje de primer orden, L=(A, F), es una dupla (D, E) 2 donde:
D es un conjunto no vaco, llamado dominio de I, en el que las variables de A toman valores, y que constituye el universo de discurso.
2
N
otese que K y H desaparecen del concepto de interpretaci
on original del c
alculo de predicados de
primer orden porque en la adaptaci
on del lenguaje de primer orden a la forma l
ogica desaparecen
tanto los smbolos de constante como los smbolos de funci
on
3.1 El c
alculo de predicados de primer orden en el PLN
49
50
3. La Forma L
ogica
3.2 La forma l
ogica en el PLN
La utilizacion de la forma logica para describir predicados ling
usticos y,
en concreto, la utilizacion de la forma logica en tareas de procesamiento
del lenguaje natural se remonta a la decada de los sesenta. Prueba de
ello son las investigaciones realizadas por autores como Davidson (1967)
y Barwise et al. (1983) que utilizan la forma logica como mecanismo de
representacion formal del conocimiento representado en el texto.
3.2 La forma l
ogica en el PLN
Donald Davidson (1967) plantea un marco teorico para representar formalmente las oraciones de accion (action sentences) en base a formas
logicas. Ejemplos de frases de accion son las siguientes: Vasco da Gama
discovered the north pole, Aristotle married Jocasta y I am telling
falsities. En la propuesta de representacion planteada en este estudio,
la forma logica se basa en una extension del lenguaje de primer orden
derivado de la logica clasica de primer orden (calculo de predicados de
primer orden) que se aborda a lo largo del captulo. En la representacion destaca la utilizacion de predicados, variables libres y ligadas como
argumentos de los predicados, y conectivas logicas. Seg
un esta representacion, cada predicado representa una accion e incluye tantos argumentos como sean necesarios para representar los agentes que intervienen
en la accion. Estos argumentos estan instanciados mediante variables
(ligadas y no ligadas). El ejemplo 15, mostrado a continuacion, refleja
la representacion formal de una oracion en base a la forma logica planteada por Davidson. Existen extensiones a esta representacion formal
basada en formas logicas planteada por Davidson. La representacion
formal basada en formas logicas propuesta por Hobbs (1985) extiende
a la predecesora propuesta por Davidson en el punto de que incluye
predicados predecesores en la forma logica indicadores de los predicados de acciones. La propuesta realizada por Balkanski (1991) considera
los problemas derivados de la realizacion de acciones (especialmente
expresiones temporales) en la forma logica de Davidson.
(15) Frase: Mary gave the pencil.
Representaci
on: (e) Giving(M ary, pencil, e)
El fuerte planteamiento teorico propuesto en el trabajo de investigacion de Barwise et al. (1983) se centra en la semantica de vecindarios
(neighborhood semantics), siendo esta una semantica que delimita las
situaciones mnimas en la definicion de los criterios de verdad. Para ello
valida diferentes principios logicos derivados de la logica clasica de primer orden (calculo de predicados de primer orden) basados en clausulas
semanticas. En base a este planteamiento teorico define un nuevo marco
semantico conocido como semantica de situacion (situation semantics).
Tambien, en el ambito de la interpretacion semantica basada en la unificacion, se dise
nan gramaticas de unificacion que tienen un componente
elevado de utilizacion de la logica en general y, en concreto, de la forma
logica en la tarea del dise
no de las reglas de las gramaticas. En el dise
no
de estas reglas se consideran dos tipos de reglas:
Reglas sintacticas. Estas reglas reflejan las estructuras sintacticas dadas en las oraciones por sus constituyentes.
51
52
3. La Forma L
ogica
3.2 La forma l
ogica en el PLN
(17) Frase: Jim is a resident of Canada because he is serving abroad in the armed forces.
53
54
3. La Forma L
ogica
Representaci
on: is resident of(jim, canada) :- serve agt lat benf(jim,
abroad, armed forces)
La clasica Teora de Representacion del Discurso formulada por Hans
Kamp (1981) (1993) tambien tiene un alto componente del calculo de
predicados de primer orden. En esta teora se utiliza el calculo de predicados de primer orden como mecanismo de representacion en la interpretacion. La interpretacion se consigue en dos pasos fundamentales:
el primero de ellos consiste en la construccion de las representaciones
semanticas referidas como Estructuras de Representacion del Discurso
(DRSs) a partir del discurso de entrada; el segundo y definitivo paso
consiste en la interpretacion teorico-modelica de las DRSs. Seguidamente, el ejemplo 18 muestra la DRS de una frase definida en esta clasica
Teora de Representacion del Discurso.
3.3 La forma l
ogica en aplicaciones de PLN
3.3 La forma l
ogica en aplicaciones de PLN
En la decada de los 80, Moore (1981) llega a una conclusion que a fecha
de hoy todava sigue siendo valida: If real progress is to be made on
understanding the logical form of natural-language utterances, it must
be studied in a unified way and treated as an important research problem
in its own right.
Como consecuencia de esta conclusion efectuada por Moore y de las
previas investigaciones realizadas en las pasadas decadas referentes a la
utilizacion de la logica en general y, en particular, de la forma logica en
el ambito del PLN, durante la decada actual, diferentes investigadores
del area del PLN han introducido en sus trabajos de investigacion el
concepto de la forma logica, tales como Rus (2002) y Moldovan (2002),
que definen la forma logica como una representacion del conocimiento logico de primer orden de oraciones expresadas mediante lenguaje
natural. De esta definicion cabe deducir que toda oracion expresada
en lenguaje natural podra ser representada mediante su forma logica
asociada.
Distintos sistemas de Extraccion de Informacion y B
usqueda de Respuestas han utilizado las formas logicas en sus tareas de procesamiento.
El formato de la forma logica depende de cada autor. Antes de entrar
a especificar los dos tipos de formas logicas que com
unmente se han
empleado en el PLN, cabe hacer una definicion de algunos conceptos
introducidos por Molla et al. (2002):
55
56
3. La Forma L
ogica
Moore
(Moore, 1995)
Poesio
(Dale et al. , 2000)
Davidson
(Davidson, 1967)
Hobbs
(Hobbs, 1985)
Balkanski
(Balkanski, 1991)
Barwise
(Barwise & Perry, 1983)
Pereira
(Pereira & Warren, 1983)
Stallard
(Stallard, 1987)
Jurafsky
(Jurafsky & Martin, 2000)
Delisle
(Delisle et al. , 1994)
Kamp
(Kamp, 1981)
(Kamp & Reyle, 1993)
Lascarides
(Lascarides & Asher, 1993)
Caracter
sticas
Formalismo de representaci
on
basado en l
ogica. Abstracci
on
de inferencias de conocimiento
mediante deducci
on l
ogica.
Representaci
on del conocimiento
a traves del CPPO.
Formalizaciones especificadas
mediante reglas y axiomas.
Representaci
on formal de las
oraciones de acci
on en base
a formas l
ogicas.
Extensi
on de la forma l
ogica
definida por Davidson. Inclusi
on
de predicados indicadores de
la realizaci
on de acciones.
Extensi
on de la forma l
ogica
definida por Davidson.
Tratamiento l
ogico-temporal
de la realizaci
on de acciones.
Utiliza el CPPO basado en
cl
ausulas sem
anticas.
Gram
aticas modeladas mediante
la utilizaci
on de Prolog.
Conexi
on del an
alisis sint
actico
y la deducci
on basada en
axiomatizaci
on de GLC mediante
cl
ausulas definidas de Prolog.
Utilizaci
on de formas
l
ogicas mediante notaci
on
definida en CPPO para la
representaci
on formal del texto.
An
alisis sint
actico estructural
integrado con programaci
on
l
ogica de restricciones cuyos
tipos caractersticos se estructuran
en terminos. Uso de Prolog.
Utilizaci
on de cl
ausulas de Horn
para representar formalmente
las frases del texto.
Utilizaci
on del CPPO
como mecanismo de
representaci
on en la interpretaci
on.
Utilizaci
on de formas
l
ogicas en la representaci
on
de las oraciones del texto.
Ventajas/Desventajas
Representaci
on del conocimiento
incompleto. Dar respuesta l
ogica
a preguntas complejas.
Formalizaciones validadas.
Elevado coste computacional.
Potencia insuficiente.
Extensi
on del lenguaje de primer
orden especificado en el CPPO.
Dificultad de comprensi
on.
No considera temporalidad.
Dificultad de comprensi
on algo
menor. Especificaci
on de la
realizaci
on de acciones.
Dificultad de comprensi
on algo
menor. Temporalidad de la
realizaci
on de acciones.
Sem
antica de vecindarios que
delimita las situaciones
mnimas en la definici
on
de criterios de verdad.
Conexi
on del an
alisis
sint
actico con la inferencia
necesaria para la
interpretaci
on sem
antica.
Interpretaci
on sem
antica en
dos niveles. Derivaci
on de
la forma l
ogica a partir
de an
alisis sint
actico.
La programaci
on l
ogica y
el an
alisis sint
actico
pueden ser usados en
conjunto o de manera
independiente.
Cl
ausulas de Horn
derivadas a partir
de an
alisis sint
actico.
Formulaci
on de la
Teora de Representaci
on
del discurso.
Consideraci
on de los
eventos, sus estados y
los instantes temporales.
3.3 La forma l
ogica en aplicaciones de PLN
Objeto: es todo aquello de lo cual es posible una percepcion, es decir, son todas las cosas que encontramos en nuestra experiencia. Los
objetos se utilizan para representar las realidades independientes o
sustancias que nos encontramos en las oraciones. Se suelen identificar con una letra (generalmente la letra o) seguida de un n
umero.
A continuacion, en el ejemplo 21 se muestra la identificacion de los
objetos (no sintacticos) de la oracion.
57
58
3. La Forma L
ogica
3.3 La forma l
ogica en aplicaciones de PLN
59
60
3. La Forma L
ogica
Metodologa de derivaci
on de la forma l
ogica.
Ademas del formato de ambas formas logicas, la metodologa de obtencion de la forma logica tambien es una cuestion a tener en cuenta.
Ambos metodos de obtencion de la formas logicas utilizan un analisis
sintactico en su labor de derivacion de la forma logica de las frases expresadas en lenguaje natural:
Molla et al. (2002) utiliza Link Grammar como modulo de analisis
sintactico. Link Grammar es un analizador sintactico basado en una
gramatica de diccionario que cuenta con alrededor de 60.000 palabras
(Sleator & Temperley, 1993). Link Grammar devuelve las relaciones
de dependencia entre pares de palabras de la frase, pero tiene un
inconveniente y es que no devuelve la direccion de la dependencia
entre los pares de palabras. Con objeto de solventar este problema,
el sistema ExtrAns incorpora un modulo que a
nade la direccion de
las dependencias a la salida de Link Grammar. Ademas, como el sistema ExtrAns esta enfocado al dominio restringido de los manuales
de las paginas del sistema operativo Unix, es necesario incorporar al
diccionario de Link Grammar toda la terminologa de comandos del
sistema operativo.
Moldovan et al. (2003) utiliza el arbol de analisis sintactico para construir la forma logica. El analizador sintactico utilizado esta basado en
el estilo de analisis sintactico de Penn Treebank (Marcus et al. , 1994).
Partiendo del arbol de analisis sintactico de constituyentes de la frase
en lenguaje natural, aplica una serie de reglas de transformacion que
derivan la forma logica asociada (Rus, 2002).
Con todo esto, cabe deducir, que el formato de forma logica empleado por Molla et al. (2002) es muy ad-hoc al dominio del manual de
usuario de Unix, empleando predicados como holds e introduciendo en
ocasiones diversos predicados para un mismo objeto-concepto que hacen a la forma logica muy compleja de leer e interpretar, mientras que el
formato escogido por Moldovan et al. es mas natural que el formato de
Molla et al. y hace a la forma logica mas facil de ser leda e interpretada.
Referente a la metodologa de derivacion de ambas formas logicas, el
metodo escogido por Molla et al. presenta el inconveniente de que aparte del analisis sintactico, hay que resolver la direccion de las dependencias entre pares de palabras dadas por Link Grammar, mientras que
la metodologa empleada por Moldovan et al. no tiene problemas de
esta ndole ya que utiliza directamente el arbol de analisis sintactico de
constituyentes. Como dicen Courtin y Genthial (1998), el procesamiento basado en analisis sintactico permite a
nadir informacion semantica a
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
3.4 La forma l
ogica extendida: independiente del
dominio y de la lengua
Se acaban de introducir dos modelos distintos de forma logica aplicados al PLN. Por una parte, la forma logica de Molla et al. se aplica a
dominios restringidos, mientras que por otro lado, la forma logica de
Moldovan et al. esta enfocada hacia el dominio abierto.
Se debe considerar que en los u
ltimos a
nos las herramientas del PLN
se han extendido hacia los dominios restringidos. Un claro ejemplo de
esto u
ltimo ha ocurrido con la adaptacion de los sistemas de B
usqueda de Respuestas de dominio abierto hacia los dominios restringidos
como puede comprobarse en la edicion especial de la prestigiosa revista Computational Linguistics dedicada a QA en dominios restringidos
(Daelemans & van den Bosch, 2007). Cuando se trabaja sobre dominios
restringidos, se dispone de multitud de recursos lexicos y semanticos que
aportan informacion de diversa ndole a las frases expresadas en lenguaje natural. La adaptacion de los sistemas del PLN hacia los dominos
restringidos hace que los propios sistemas necesiten de la utilizacion de
mecanismos de representacion formal del texto capaces de tratar textos tanto en el dominio abierto como en los dominios restringidos. En
los u
ltimos tiempos tambien han surgido una serie de tendencias que
han derivado hacia el tratamiento multiling
ue de la informacion. Por
ello tambien los sistemas de PLN deben disponer de un mecanismo que
proporcione la representacion formal de los textos en diferentes lenguas.
Las formas logicas introducidas en el inicio del captulo no tienen en
cuenta estas dos consideraciones referentes a la independencia del dominio y de la lengua. La forma logica de Molla et al. introduce terminologa
adicional dependiente del dominio para matizar aquellos predicados que
son exclusivos del dominio restringido. Un ejemplo de ello es el predicado holds que hemos visto en el anterior ejemplo. Ademas, introduce
variables para identificar exclusivamente, y de manera independiente,
tanto los predicados como los objetos asociados a tales predicados. Ello
hace que la forma logica a
nada mucha terminologa que la hace difcil
61
62
3. La Forma L
ogica
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
palabra llamada n
ucleo y otra palabra llamada modificador. Normalmente, las relaciones de dependencia constituyen un arbol que enlaza
todas las palabras de la frase. Este arbol de dependencias tiene diferentes niveles de palabras porque una palabra en la frase puede tener
diferentes modificadores, pero cada palabra debe modificar, al menos,
a otra palabra. La raz del arbol de dependencia no modifica a ninguna
palabra. A ella se la denomina la cabeza de la frase. A continuacion, el
ejemplo 26 detalla las relaciones de dependencia entre las palabras de
una frase.
(26) Frase: The story of Mr. Fly and the Emergency Rescue Committee who saved thousands in Marseille.
Representaci
on: Vease Tabla 3.2
Modificador
Marseille [N]
who [N]
thousands [N]
in [Prep]
Emergency [N]
Rescue [N]
saved [V]
Mr. [N]
Committee [N]
Fly [N]
The [Det]
of [Prep]
Cabeza
in [Prep]
saved [V]
saved [V]
saved [V]
Committee [N]
Committee [N]
Committee [N]
Fly [N]
Fly [N]
of [Prep]
story [N]
story [N]
Relaci
on de dependencia
pcomp-n
whn-subj
obj
mod
lex-mod
lex-mod
rel
lex-mod
conj
pcomp-n
det
mod
3.4.2 Derivaci
on de la forma l
ogica
Una vez que las relaciones de dependencias han sido obtenidas, el siguiente paso para inferir automaticamente la forma logica de la frase
consiste en analizar las relaciones de dependencia entre las palabras de
la frase. A continuacion se muestra el algoritmo de derivacion de la forma logica.
63
64
3. La Forma L
ogica
Algoritmo: Derivaci
on de la forma l
ogica de una frase
Entrada: frase
Salida: forma logica
arbol dependencias := derivacion arbol dependencias(frase)
para cada (nodo en hojas(arbol dependencias))
aplica regla simple(nodo)
fpara cada
para cada (nodo en recorrido post orden(arbol dependencias))
si (no es hoja(nodo))
para cada (hijo en hijos in orden(nodo))
aplica regla compleja(nodo, hijo)
fpara cada
fsi
fpara cada
forma logica := forma logica(dame raiz(arbol dependencias))
devuelve forma logica
fAlgoritmo
De este modo, cabe matizar que la derivacion de la forma logica consiste en un proceso composicional que comienza en las hojas del arbol de
dependencias y contin
ua por sus ramificaciones en sentido ascendente
hasta llegar a la raz. En cada nodo del arbol de dependencias se puede
inferir, al menos, un predicado, aunque pueden haber nodos del arbol
de dependencias que no infieran ning
un predicado. De este modo, todo
nodo del arbol de dependencias, infiera o no alg
un predicado de la forma
logica, recogera los predicados que vengan de sus nodos inferiores, en
caso de que tenga nodos por debajo de el, los agrupara y los enviara a
su nodo superior, junto con el predicado o predicados que dicho nodo
pueda inferir. El nodo raz del arbol de dependencias sera el que obtenga
la forma logica de la frase, en funcion de los predicados que le vengan
de sus nodos inferiores, y del predicado o predicados que pueda inferir
dicho nodo. Para ello, sobre cada uno de los nodos del arbol de derivacion se le aplican una serie de reglas basadas en PLN. En los Anexos
A y B del presente trabajo de investigacion estan detalladas las tareas
computacionales que se ejecutan para aplicar las reglas basadas en PLN
que permiten derivar las formas logicas partiendo del arbol de analisis
de dependencias. Estas reglas pueden ser de dos tipos dependiendo si
el nodo es o no un nodo hoja:
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
65
Reglas simples: las reglas simples se aplican sobre los nodos hoja del
arbol de dependencias. A continuacion, en el cuadro 27 se muestra el
pseudocodigo asociado al procesamiento de las reglas simples.
Reglas complejas: las reglas complejas tienen como origen de la dependencia un nodo hoja o un intermedio del arbol de dependencias
y como destino de la dependencia, un nodo intermedio o la raz del
arbol de dependencias. Seguidamente, en el cuadro 28 se presenta el
pseudocodigo asociado a la computacion de las reglas complejas.
66
3. La Forma L
ogica
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
67
Hoja
Det
A
N
FL
void
lema:JJ( nueva variable x)
lema:NN( nueva variable x)
CLC
N
A
VBE
CLM
Det
A
N
RD
det
mod
subj
PM
anterior
anterior
anterior
VBE
pred
posterior
FL
lema n
ucleo:NN( nueva variable x)
FL modificador + lema n
ucleo:JJ( variable x modificador)
FL modificador +
lema n
ucleo:VB( nueva variable e, variable x modificador, nueva variable x)
FL n
ucleo +
Atributo:IN( variable e n
ucleo, variable x modificador) + FL modificador
Tabla 3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones de dependencia
68
3. La Forma L
ogica
(29) Expresi
on: The house...
Representaci
on: house:NN(x1)
Verbo: Este tipo de predicados se utiliza para representar los verbos
que aparecen en las oraciones. Tiene tres argumentos. El primer argumento, de tipo e, identifica la accion del verbo. El segundo argumento
se utiliza para identificar al objeto que hace las funciones de sujeto
sintactico de la accion. El tercer argumento se utiliza para identificar
al objeto que hace las funciones de objeto sintactico de la accion.
En aquellas oraciones en las que el verbo sea intransitivo, o bien tengan el sujeto omitido, las variables instanciadoras del segundo y tercer
argumento del predicado seran zombies (dummies), es decir, no se relacionaran con ning
un otro predicado de la forma logica. El ejemplo
30 detallado a continuacion muestra la de derivacion de este tipo de
predicado en la forma logica.
(30) Expresi
on: Nicolas bought a car.
Representaci
on: Nicolas:NN(x1) buy:VB(e1, x1, x2)
car:NN(x2)
Adjetivo: Este tipo de predicado es utilizado para representar los adjetivos que aparecen en las oraciones. Tiene un u
nico argumento que es
instanciado con una variable que identifica exclusivamente al objeto
que cumple dicho predicado. Ademas, cuando en la oracion el adjetivo
modifica a un sustantivo, ambos predicados quedan instanciados por
la misma variable identificadora del objeto que cumple ambos predicados. Seguidamente, se detalla en el ejemplo 31 la derivacion de este
tipo de predicado.
(31) Expresi
on: Nicolas bought a green car.
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
Representaci
on: Nicolas:NN(x1) buy:VB(e1, x1, x2)
green:JJ(x2) car:NN(x2)
Adverbio: Este tipo de predicado se utiliza para representar los adverbios de las oraciones. Tiene un u
nico argumento que es instanciado
con una variable que identifica exclusivamente al objeto que cumple
dicho predicado. Ademas, cuando en la oracion el adverbio acompa
na
directamente al verbo, ambos predicados quedan instanciados por la
misma variable, indicando as que la accion del verbo cumple el predicado del tipo adverbio. Seguidamente, en el ejemplo 32 se detalla la
derivacion de este tipo de predicado.
(32) Expresi
on: Nicolas quickly bought a green car.
Representaci
on: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,
x1, x2) green:JJ(x2) car:NN(x2)
Preposicion: Se utiliza este tipo de predicados para enlazar los objetos que cumplen los dos predicados asociados a las palabras de la
oracion que quedan relacionadas mediante la preposicion. Este tipo
de predicado tiene dos argumentos que se instancian con las variables
identificadoras de los objetos asociados a los predicados que relaciona.
A continuacion, se muestra en el ejemplo 33 el resultado fruto de la
derivacion de este tipo de predicado.
(33) Expresi
on: Nicolas quickly bought a green car in
London.
Representaci
on: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,
x1, x2) green:JJ(x2) car:NN(x2) in:IN(e1, x3)
London:(x3)
Atributo. Se utiliza este tipo de predicado para denotar que un verbo copulativo tiene un atributo en la frase debido a que este tipo de
verbos nunca tendran objetos sintacticos relacionados. Este predicado tiene dos argumentos. El primer argumento instanciara la accion
del predicado asociado al verbo copulativo mientras que el segundo
atributo hara lo propio con la variable identificadora del objeto que
cumple el predicado asociado al atributo. A continuacion, en el ejemplo 34 se muestra la derivacion de este tipo de predicado.
(34) Expresi
on: The car is green.
Representaci
on: car:NN(x1) be:VB(e1, x1, x3) Atributo:IN(e1, x2) green:JJ(x2)
69
70
3. La Forma L
ogica
Conjuncion/Disyuncion. Este tipo de predicado se utiliza para representar las conjunciones y disyunciones que aparecen en las oraciones.
Tiene tres argumentos. El primero de ellos identifica al objeto que
cumple dicho predicado. El segundo y el tercero identifican a los objetos que cumplen los predicados relacionados mediante el predicado
conjuncion/disyuncion. A continuacion, el ejemplo 35 detalla un ejemplo de derivacion de este tipo de predicado.
(35) Expresi
on: Nicolas quickly bought a green car and a
motorbike in London.
Representaci
on: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,
x1, x4) green:JJ(x2) car:NN(x2) and:CC(x4, x2,
x3) motorbike:NN(x3) in:IN(e1, x5) London:(x5)
Nominal compuesto. Este tipo de predicado se utiliza para reflejar
los nominales compuestos presentes en las oraciones. Tiene tres argumentos. El primero identifica al objeto resultante de la composicion
de los nominales. Los dos restantes argumentos identifican a los objetos que cumplen los predicados asociados a los nominales simples.
Seguidamente, en el ejemplo 36 se presenta la derivacion de este tipo
de predicado.
(36) Expresi
on: Nicolas Smith quickly bought a green car
and a motorbike in London.
Representaci
on: Nicolas:NN(x1) Nicolas Smith:NNC(x3,
x1, x2) Smith:NN(x2) quickly:RB(e1) buy:VB(e1,
x3, x6) green:JJ(x4) car:NN(x4) and:CC(x6, x4,
x5) motorbike:NN(x5) in:IN(e1, x7) London:(x7)
Aposicion. Al igual que ocurre con los nominales complejos, la aposicion marca una relacion muy estrecha entre dos elementos de la
oracion. Este tipo de relaciones tiene entidad suficiente para ser representada en la forma logica. Este tipo de predicado que se utiliza para
reflejar las aposiciones presentes en las oraciones tiene tres argumentos. El primero identifica al objeto resultante de la propia aposicion.
Los dos restantes argumentos identifican a los objetos que cumplen los
predicados constituyentes de la aposicion. A continuacion, el ejemplo
37 muestra la derivacion de este tipo de predicado.
(37) Expresi
on: Nicolas Smith, the bank manager, quickly
bought a green car and a motorbike in London.
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
71
Representaci
on: Nicolas:NN(x1) Nicolas Smith:NNC(x3,
x1, x2) Smith:NN(x2) Nicolas Smith bank manager:APPO(x7,
x3, x6) bank:NN(x4) bank manager:NNC(x6, x4,
x5) manager:NN(x5) quickly:RB(e1) buy:VB(e1,
x7, x10) green:JJ(x8) car:NN(x8) and:CC(x10,
x8, x9) motorbike:NN(x9) in:IN(e1, x11) London:(x11)
3.4.3 Ejemplo de derivaci
on
Una vez especificado este complejo proceso de derivacion de las formas
logicas asociadas a oraciones expresadas en lenguaje natural, cabe hacer una sntesis del mismo mediante la derivacion de la forma logica
asociada a la frase The aspirin is effective.
El primer paso consiste en encontrar las relaciones de dependencia
entre las palabras de la frase. A continuacion, el cuadro 38 muestra
el analisis de dependencias entre las palabras de la frase.
Cabeza
aspirin [N]
is [V]
is [V]
Relaci
on de dependencia
det
subj
pred
72
3. La Forma L
ogica
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
Hoja
The [Det]
effective [A]
FL
void
effective:JJ(x1)
CLC
aspirin [N]
is [VBE]
is [VBE]
CLM
The [Det]
aspirin [N]
effective [A]
RD
det
subj
pred
PM
anterior
anterior
posterior
FL
aspirin:NN(x2)
aspirin:NN(x2) be:VB(e1, x2, x3)
aspirin:NN(x2) be:VB(e1, x2, x3)
Atributo:IN(e1, x1) effective:JJ(x1)
Una vez que todas estas reglas de PLN se han aplicado sobre el arbol
de dependencias de la frase The aspirin is effective, la forma logica
derivada es aspirin:NN(x2) be:VB(e1, x2, x3) Atributo:IN(e1, x1) effective:NN(x1). En ella, cabe destacar que el predicado Atributo que
relaciona los predicados be y effective como consecuencia de que el sustantivo effective es el atributo del verbo intransitivo be. Ademas, como
dicho verbo no tiene objeto, el argumento x3 del predicado be es zombie.
73
74
3. La Forma L
ogica
3.5 Conclusiones
A lo largo del captulo se ha introducido como, desde antes de Cristo,
uno de los principales cometidos de la logica en general es la representacion y gestion del conocimiento del universo del discurso. Tambien se ha
analizado la fuerte vinculacion existente entre la logica de primer orden
o el calculo de predicados de primer orden y la representacion formal del
conocimiento expresado en los textos mediante oraciones formuladas en
lenguaje natural. Fruto de ello se originan las primeras investigaciones
con un alto componente teorico en el seno del PLN durante las decadas
de los sesenta, setenta y ochenta. A partir de la decada de los ochenta y,
sobre todo, en la decada de los noventa, en el ambito del PLN, empieza a despertar especial interes el empleo de la forma logica, como una
extension de la clasica logica de primer orden, para la representacion
del conocimiento expresado en los textos. En el captulo se analizan los
diferentes enfoques del uso de la clasica logica de primer orden as como
de sus diferentes extensiones, en especial de la forma logica, que, en el
ambito del PLN, se estan llevando a cabo desde los a
nos sesenta. Estos
enfoques quedan sintetizados en el captulo.
Ya en el nuevo siglo, una parte importante de los sistemas de PLN
incorporan la forma logica como mecanismo de representacion formal
del texto. En estos sistemas, la forma logica queda definida como una
representacion del conocimiento logico de primer orden de oraciones
expresadas mediante lenguaje natural. De esta definicion se deduce
que toda oracion expresada en lenguaje natural podra ser representada
mediante su forma logica asociada. A lo largo del captulo se ha especificado la vinculacion existente de la forma logica como una extension
de la logica de primer orden o calculo de predicados de primer orden.
Tal y como se detalla en el transcurso del captulo, la representacion
formal del texto mediante la utilizacion de la forma logica se remonta
a la decada de los sesenta. Prueba de ello son las diferentes investigaciones en esta materia que han sido presentadas en el discurrir de este
captulo. Gran parte de estos autores de la epoca coinciden en la utilizacion de un parser que permita, partiendo del analisis sintactico de
las oraciones, la derivacion de las formas logicas asociadas. Como se ha
matizado a lo largo del captulo, la granularidad que aporta el analisis
de dependencias junto con la informacion semantica adquirida de los
diferentes recursos de PLN hacen que este tratamiento sea mucho mas
preciso que el analisis sintactico. En la u
ltima decada, los autores que
mas relevancia le han dado a la representacion formal del texto mediante la utilizacion de formas logicas han sido Moldovan y Molla.
3.5 Conclusiones
75
4. La forma l
ogico-conceptual
78
4. La forma l
ogico-conceptual
4.1 Tratamiento l
ogico-conceptual y representaci
on
sem
antica
El proposito perseguido consiste en, a partir de la representacion formal del texto mediante la forma logica, dotar a esta u
ltima de una
mayor granularidad semantica a traves de la conceptualizacion de sus
predicados asociados a las palabras del texto representado. Para ello,
se debe disponer de alg
un recurso del tipo ontologico o tesauro capaz
de conceptualizar las unidades lexicas presentes en el texto. Cuando las
unidades lexicas asociadas a los predicados quedan conceptualizadas, la
informacion relativa a los conceptos pasa a enriquecer la representacion
formal del texto en la forma logica. En este instante, en el que la forma
logica incorpora la informacion conceptual asociada a sus predicados,
la propia forma logica pasa a recibir el tratamiento de forma logicoconceptual.
En determinadas ocasiones, una palabra puede tener asociada mas de
un concepto. Ello implica que el predicado asociado a esa palabra quede multiconceptualizado, produciendo que, a partir de la original forma
logica, se deriven diversas formas logico-conceptuales.
A lo largo del presente captulo se explica la derivacion de formas logicoconceptuales a partir de una forma logica pero, cabe adelantar que el
n
umero de formas logico-conceptuales viene determinado por el producto cartesiano (todos con todos) de los predicados conceptualizados en
la forma logica.
Garca de Quesada (2001) hace un analisis teorico de la distincion entre
los conceptos de concepto y termino. En este analisis justifica que, desde
un principio, los teoricos que se han dedicado al estudio y descripcion de
la definicion en terminografa han tenido clara la necesidad de otorgar
prioridad al concepto sobre el termino. El papel nuclear de los conceptos
en la gestion terminologica es indiscutible. Sin embargo, en la practica
terminografica real, es innegable que el concepto de concepto es, quiza,
uno de los mas difciles de delimitar y definir.
En el estudio realizado en Sager (1990) se recogen las siguientes definiciones de concepto establecidas en diversas instituciones estandarizadoras:
4.1 Tratamiento l
ogico-conceptual y representaci
on sem
antica
79
80
4. La forma l
ogico-conceptual
punto de referencia para el termino, que se puede definir en este contexto, como la formalizacion de uno o varios conceptos, para su uso en la
comunicacion experta, preferentemente. Seg
un matiza De Besse (1997),
lo que se ha de definir no es el termino, sino el objeto o idea en cuestion,
y mas concretamente su representacion conceptual. Dubuc y Lauriston
(1997) concluyen que, de la misma forma, en terminografa biling
ue el
establecimiento de equivalencias en ambas lenguas se realiza a traves de
la representacion conceptual, de manera que la equivalencia no es entre los terminos sino entre los conceptos designados por dichos terminos.
El objetivo fundamental que se persigue en esta investigacion consiste
en tener una representacion formal del texto que sea independiente del
dominio y de la lengua. Para abordar este problema, el enfoque adoptado en esta tesis se basa en dotar de contenido semantico a la forma
logica. Tal y como se acaba de justificar, este reto se consigue a partir
de la forma logica y del empleo de recursos del tipo ontologico o tesauros que permiten dotar de informacion conceptual a los predicados
cuyas palabras asociadas queden conceptualizadas en dichos recursos.
Este tratamiento conceptual de los predicados de la forma logica da
lugar a las formas logico-conceptuales.
A continuacion se especifican los requisitos que se deben cumplir para
poder tener una representacion formal del texto independiente del dominio y de la lengua seg
un el tratamiento logico-conceptual presentado
en este trabajo de investigacion:
Recurso conceptual: Independientemente del dominio de los textos a
representar, tanto en el dominio abierto como en el dominio restringido, se debe disponer de recursos que aporten, con mayor o menor
granularidad, la informacion conceptual que representan las palabras.
Generalmente, un concepto viene siempre identificado por un identificador exclusivo del propio concepto.
Conexion multiling
ue: El recurso conceptual debe tener una conexion
entre las diferentes lenguas.
Tratamiento de categoras semanticas: En los dominios especficos,
suele ser bastante com
un disponer de ontologas de categoras semanticas del dominio. Cuando se dispone de esta informacion, cada concepto definido en el tesauro esta asociado a su categora o categoras
semanticas. Unicamente
en este caso, y de manera excepcional, la representacion logico-conceptual incorporara no solo el concepto, sino
tambien sus categoras semanticas asociadas enriqueciendo semanticamente a
un mas si cabe el predicado de la forma logica.
4.1 Tratamiento l
ogico-conceptual y representaci
on sem
antica
Seg
un matiza Dick (1991), los conceptos representan una entidad, accion o estado que pueden ser descritos en el lenguaje, y las relaciones
conceptuales muestran los roles que cada entidad juega. Una de las conclusiones a las que llega en esta tesis doctoral viene determinada en la
frase a concept is the basic unit for representing knowledge. Dada esta conclusion y, en la lnea de otros trabajos de investigacion previos
en el dominio abierto (Baziz et al. , 2005) (Ramakrishnanan & Bhattacharyya, 2003) (Zhang & Li, 2005) (Gomez-Hidalgo et al. , 2004), que
tambien utilizan los conceptos asociados a las palabras para representar
formalmente el texto, en esta tesis se ha optado por la continuacion de
esta tendencia consistente en la extraccion de la informacion conceptual
de las unidades lexicas del texto para su representacion formal. De este
modo, se incorpora a la forma logica la informacion conceptual asociada
a sus predicados conceptualizados, tanto en el dominio abierto como en
cualquier dominio restringido.
Para tratar de entender mejor este proceso, en el marco del tratamiento
semantico de la forma logica, a continuacion se presentan las propiedades explotadas de los recursos ontologicos y tesauros tanto en el dominio
abierto como en los dominios restringidos. En el caso particular, en el
dominio abierto, el recurso utilizado es WordNet, mientras que en el
ambito del dominio restringido, se introduce el dominio medico, explotando el recurso UMLS.
81
82
4. La forma l
ogico-conceptual
Identificador
02958343
02959942
02960501
02960352
02934451
4.1.2 UMLS
En el dominio medico existen distintos recursos que aportan conocimiento relativo a su terminologa. El mas extendido es UMLS (Unified
Medical Language System) (Humphreys & Lindberg, 1993). Este recurso
esta compuesto a partir de la integracion de tres fuentes de conocimiento: el Metatesauro, el Lexicon Especializado y la Red Semantica que
cabe describir brevemente a continuacion:
El Metatesauro es el n
ucleo de UMLS y consta de una coleccion de
conceptos y terminos extrados de diferentes vocabularios controlados, incluyendo tambien sus relaciones.
El Lexicon Especializado es una base de datos de informacion lexicografica para el uso en PLN.
La Red Semantica consta de un conjunto de categoras y sus relaciones cuya utilidad es la de clasificar y relacionar las entradas del
metatesauro.
De entre estos tres recursos de UMLS, el que mejor se adapta a la necesidad de extraccion de los conceptos es el Metateusauro, que sera el
que se utilizara. Ademas, cabe destacar que, tal y como se acaba de
describir, UMLS incorpora una Red Semantica en la que los conceptos
4.2 Derivaci
on de las formas l
ogico-conceptuales
representados en el Metatesauro quedan categorizados semanticamente. Ello permite que dado un concepto se pueda conocer cual es su tipo
semantico o categora semantica.
En UMLS, independientemente de la lengua, dado un termino se puede conocer el concepto o conceptos que tiene asociados. Cada concepto
tiene un identificador exclusivo, y se relaciona con uno o varios tipos
semanticos de los categorizados en la Red Semantica. Tambien, dado un
concepto, es posible conocer los terminos que se asocian a dicho concepto en cada una de las lenguas tratadas en este recurso. Como ejemplo, la
tabla 4.2 muestra la informacion semantica del sustantivo aspirin. En
este ejemplo estan detallados u
nicamente los terminos en las lenguas
inglesa y espa
nola, descartando el resto de terminos que tiene asociados
el concepto.
Identificador
Concepto
C0004057
Aspirin
Tipo Sem
antico
Organic Chemical
Pharmacologic Substance
T
erminos
Aspirin, 2-(Acetyloxy)benzoic Acid,
Acetylsalicylic Acid, ...,
Aspirina, Acido
Acetilsaliclico, ...
4.2 Derivaci
on de las formas l
ogico-conceptuales
Se acaba de comentar que la forma logico-conceptual es una extension
de la forma logica que enriquece a esta u
ltima desde una perspectiva
semantica a traves de la incorporacion de la informacion conceptual
asociada a sus predicados. En este contexto tambien se ha justificado la
necesidad de utilizacion de recursos del tipo ontologico o tesauros que
permitan extraer la informacion conceptual asociada a los predicados
de la forma logica.
Seg
un se ha matizado en la seccion anterior, en este tipo de recursos,
la terminologa esta asociada a los conceptos. Ademas, cada concepto
tiene un identificador exclusivo que lo diferencia del resto de conceptos
del recurso. Tambien cabe destacar que, en los recursos pertenecientes a
los dominios restringidos, los conceptos quedan categorizados semanticamente en tipos o categoras semanticas pertenecientes al dominio restringido. Al igual que los conceptos, cada tipo o categora semantica
cuenta con un identificador exclusivo que lo diferencia del resto de tipos o categoras semanticas del recurso.
83
84
4. La forma l
ogico-conceptual
Situandose en el ambito de la forma logica, la terminologa susceptible de ser conceptualizada se corresponde con los propios predicados de
4.2 Derivaci
on de las formas l
ogico-conceptuales
85
No conviene olvidar que en el anterior captulo se matizo que la forma logica debe ser conceptualmente completa. Esto es, de manera sofisticada, el proposito final de la forma logica es conseguir una u
nica
representacion semantica no ambigua de la frase asociada. La representacion semantica de una frase se corresponde con una u
nica forma
logico-conceptual de las derivadas a partir de la forma logica original.
Concretamente, la representacion semantica de la frase es el resultado
de la desambiguacion de la forma logico-conceptual, de entre todas las
formas logico-conceptuales derivadas, en la que cada predicado, en el
caso de ser multiconceptualizado, queda asociado con aquel concepto
que mejor representa el concepto de la unidad lexica seg
un el contexto
de la frase asociada. A continuacion, el ejemplo 41 detalla la derivacion
de las formas logico-conceptuales asociadas a una forma logica, as como
la representacion semantica de su frase asociada como resultado de la
desambiguacion de la forma logico-conceptual mas significativa seg
un
el contexto de entre todas las posibles. En el captulo siguiente, donde
se matizan los detalles de la evaluacion del recurso logico-conceptual
desarrollado en el trabajo de investigacion, se especifican los matices
referentes al proceso de desambiguacion utilizado.
(41) Forma L
ogica: P1:NN(x1) P2:VB(e1, x1, x2) P3:NN(x2)
P4:IN(e1, x3) P5:NN(x3)
Predicados Conceptualizados: La tabla 4.3 detalla
la conceptualizacion de predicados de la anterior
forma logica.
Formas L
ogico-Conceptuales: La tabla 4.4 muestra
las formas logico-conceptuales derivadas a partir de
la conceptualizacion de predicados sobre la anterior
forma logica.
Representaci
on sem
antica: 1 C1:P1:NN(x1) C2:P2:VB(e1,
x1, x2) C5:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3).
Predicado
P1
P2
P3
Conceptos
C1
C2, C3
C4, C5
En el ejemplo se asume que los conceptos que mejor conceptualizan a los predicados P2 y P3 son
C2 y C5 respectivamente.
86
4. La forma l
ogico-conceptual
Conceptos Combinados
C1, C2, C4
C1, C2, C5
C1, C3, C4
C1, C3, C5
C1:P1:NN(x1)
C1:P1:NN(x1)
C1:P1:NN(x1)
C1:P1:NN(x1)
Forma L
ogico-Conceptual
C2:P2:VB(e1, x1, x2) C4:P3:NN(x2) P4:IN(e1,
C2:P2:VB(e1, x1, x2) C5:P3:NN(x2) P4:IN(e1,
C3:P2:VB(e1, x1, x2) C4:P3:NN(x2) P4:IN(e1,
C3:P2:VB(e1, x1, x2) C5:P3:NN(x2) P4:IN(e1,
x3)
x3)
x3)
x3)
P5:NN(x3)
P5:NN(x3)
P5:NN(x3)
P5:NN(x3)
El anterior ejemplo 41 modela el proceso dentro del marco logicoconceptual llevado a cabo y que concluye en la obtencion de la representacion semantica de la frase. Este ejemplo esta presentado desde
un punto de vista muy teorico y formal permitiendo distinguir las diferentes etapas del proceso logico-conceptual desarrollado y que concluye
con la obtencion de la representacion semantica de la frase fruto de la
desambiguacion de la forma logico-conceptual en la que cada predicado
conceptualizado es asociado al concepto que mejor le identifica en el
contexto de la frase.
Haciendo una sntesis del proceso logico-conceptual de una manera mas
natural con un ejemplo, cabe pensar en la frase Ayer ingrese el dinero
en el banco. Este frase deriva una forma logica que contiene una serie de
predicados, entre los cuales, uno de ellos se asocia a la palabra banco.
Analizando los diferentes conceptos que tiene asociados esta palabra 2
se obtiene que del predicado original asociado a la palabra banco en la
forma logica, se derivan n predicados logico-conceptuales (un predicado
logico-conceptual por cada concepto asociado a la palabra) que seran
combinados en las diferentes formas logico-conceptuales obtenidas fruto
del producto cartesiano de los predicados conceptualizados. Finalmente, la representacion semantica de la frase se corresponde con aquella
forma logico-conceptual en la que cada predicado conceptualizado es
asociado al concepto que mejor le identifica seg
un el contexto de la
frase. Concluyendo este proceso logico-conceptual, en la representacion
semantica de la frase Ayer ingrese el dinero en el banco, el predicado
conceptualizado asociado a la palabra banco vendra definido por el
concepto sucursal financiera que es el concepto que mejor le identifica
en el contexto de la oracion.
Seg
un se esta comentando a lo largo del captulo, cuando se esta procesando el texto en el ambito de cualquier dominio restringido, es mas
que probable que, en el recurso ontologico o tesauro dependiente del
dominio, los conceptos sean asignados a los tipos semanticos del dominio categorizados en el recurso. Extraordinariamente, cuando se dispone de esta informacion, los predicados conceptualizados incorporan
2
Los conceptos asociados a la palabra banco son: asiento, mesa de trabajo, sucursal financiera,
etc.
tambien la informacion relativa a su categora o tipo semantico, consiguiendo con ello un enriquecimiento semantico del predicado conceptualizado en particular, y de la representacion en general. En concreto,
incluyen el identificador exclusivo de la categora semantica a la que
pertenece el concepto. Si el concepto pertenece a mas de una categora semantica, incorporan los identificadores de todas las categoras
semanticas a las que pertenece el concepto. Considerando esta caracterstica, cada uno de los predicados logico-conceptuales pasa de tener la
forma Id Concepto:Lema Palabra:Info Sintactica(argumentos) a tener
la forma Id Concepto(Id TS1, ..., Id TSn):Lema Palabra:Info Sint
actica(argumentos). Es decir, a continuacion del identificador del concepto
se incluyen entre parentesis y separados por comas cada uno de los
identificadores de los tipos o categoras semanticas del dominio a las
que pertenece el concepto.
Se acaba de presentar el proceso de derivacion de las formas logicoconceptuales inferidas a partir de la incorporacion de la informacion
conceptual a los predicados de la forma logica. Este tratamiento logicoconceptual permite que la representacion formal del texto sea independiente del dominio y de la lengua, tal y como se pasa a explicar en las
siguientes secciones del captulo.
87
88
4. La forma l
ogico-conceptual
89
en la forma logica.
Una vez introducidos los matices referentes a la utilizacion del recurso
WordNet como fuente del conocimiento conceptual asociado a las palabras del texto, a continuacion, el ejemplo 42 muestra claramente el
proceso de transformacion o derivacion de una forma logica en una o
mas formas logico-conceptuales.
(42) Frase: You can proceed to the bank near the corner.
Forma L
ogica: you:NN(x1) proceed:VB(e1, x1, x2)
to:IN(e1, x3) bank:NN(x3) near:IN(x3, x4) corner:NN(x4)
Predicados Conceptualizados: 3 La tabla 4.5 detalla la conceptualizacion de predicados de la anterior
forma logica.
Formas L
ogico-Conceptuales: Las formas logico-conceptuales
son derivadas siguiendo un procedimiento similar al
del anterior ejemplo 41. En dicho ejemplo, la tabla 4.4 muestra la derivacion de las formas logicoconceptuales fruto del producto cartesiano de los
predicados.
Predicado
bank:NN(x3)
corner:NN(x4)
proceed:VB(e1, x1, x2)
Concepto
Bank river
Depository finantial institution
Bank building
Geometric corner
Street corner
Continue
Follow a procedure
Identificador Concepto
bank#1(09213565)
bank#2(08420278)
bank#9(02787772)
corner#2(08544275)
corner#4(03109486)
proceed#1(00781000)
proceed#3(02372605)
Se acaba de introducir, en el ambito del dominio abierto, la forma logicoconceptual como una extension de la forma logica que permite a
nadir
informacion conceptual sobre algunos de sus predicados. La informacion
conceptual asociada a los predicados se extrae del recurso WordNet. A
continuacion se detalla la derivacion de la representacion semantica de
la frase a partir de la desambiguacion de las formas logico-conceptuales
donde cobran especial interes los predicados multiconceptualizados. Tal
3
Los conceptos del ejemplo han sido obtenidos del recurso lexico WordNet. No se han tenido en
cuenta todos los conceptos que puede representar cada predicado con el prop
osito de no hacer
muy complejo y extenso el ejemplo de derivaci
on de la formas l
ogico-conceptuales.
90
4. La forma l
ogico-conceptual
(43) Frase: You can proceed to the bank near the corner.
Predicados Multiconceptualizados Desambiguados:
La tabla 4.6 detalla la desambiguacion de los predicados multiconceptualizados en la anterior forma
logica.
Representaci
on sem
antica: you:NN(x1) 00781000:proceed:VB(e1, x1, x2) to:IN(e1, x3) 02787772:bank:NN(x3)
near:IN(x3, x4) 03109486:corner:NN(x4)
Se acaba de introducir, en el ambito del dominio abierto, la representacion semantica de la frase a partir de la desambiguacion de los predicados multiconceptualizados en la forma logico-conceptual, tal y como
se detalla en el marco del tratamiento logico-conceptual. En el dominio
abierto, el recurso lexico WordNet es una buena fuente de informacion
Concepto Desambiguado
Bank building
Street corner
Continue
Identificador Concepto
bank#9(02787772)
corner#4(03109486)
proceed#1(00781000)
91
92
4. La forma l
ogico-conceptual
del resto de las unidades lexicas no conceptualizadas por el recurso especfico del dominio restringido. Si se utiliza un recurso especfico del
dominio y otro recurso del dominio abierto en el tratamiento logicoconceptual del texto en el ambito de un dominio restringido, el recurso
especfico del dominio restringido debe ser predominante sobre el recurso del dominio abierto. Esto se justifica porque si un predicado de
la forma logica puede ser conceptualizado en ambos recursos, la conceptualizacion realizada por el recurso especfico del dominio le dara al
predicado una semantica mas cercana al propio dominio restringido que
la conceptualizacion realizada por el recurso del dominio abierto, que
le dara una conceptualizacion mas generica.
Una vez realizadas estas consideraciones, a continuacion se detalla el
tratamiento logico-conceptual de la forma logica tomando como referencia el dominio medico.
La forma l
ogico-conceptual en el dominio m
edico. Se ha comentado que, en el dominio abierto, se dispone de WordNet como un recurso
capaz de extraer informacion conceptual sobre determinadas palabras
del texto atendiendo a su categora sintactica. Ademas, en el dominio medico, existen distintos recursos que aportan conocimiento de la
terminologa medica. El mas extendido es UMLS (Unified Medical Language System) (Humphreys & Lindberg, 1993), presentado al inicio del
captulo. De las tres fuentes de conocimiento de las que consta UMLS
(Metatesauro, Lexicon Especializado y Red Semantica), la que mejor
se adapta a la necesidad de extraccion de los conceptos asociados a los
predicados de la forma logica es el Metateusauro, que sera el que se
utilizara.
Cuando se emplea la forma logica para representar formalmente los
textos en el ambito del dominio medico, la terminologa susceptible de
ser concepto se corresponde con los predicados asociados tanto a los
sustantivos como a los nominales complejos acompa
nados de sus posibles adjetivos modificadores, as como a los predicados asociados a los
verbos. Ademas, los adverbios y los adjetivos pueden ser tratados conceptualmente a traves de WordNet.
De este modo y dada la forma logica de la frase, se buscara en el metatesauro de UMLS la informacion conceptual de los lemas de aquellos
predicados de la forma logica cuya categora sintactica se corresponda
con sustantivo o nominal complejo, incluyendo sus posibles adjetivos
modificadores, y verbo. Seguidamente, se buscara en WordNet la informacion conceptual asociada a los predicados del tipo anterior que no
han sido conceptualizados en el Metatesauro de UMLS, y la informacion conceptual asociada a los predicados del tipo adverbio y adjetivo.
93
Una vez que la informacion conceptual de estos predicados ha sido obtenida, tanto del metatesauro de UMLS como de WordNet, el siguiente
paso consiste en derivar todas las formas logico-conceptuales tal y como se ha explicado en la seccion anterior. Finalmente, la representacion
semantica de la frase se calculara a partir de la desambiguacion de las
formas logico-conceptuales derivadas tal y como se matiza tambien en
la seccion previa del captulo.
Con el proposito de simplificar este proceso, a continuacion, el ejemplo
44 detalla claramente el proceso de transformacion de una forma logica
en una o mas formas logico-conceptuales en el dominio medico.
94
4. La forma l
ogico-conceptual
Predicado
accupril:NN(x1)
treat:VB(e1, x1, x2)
blood:NN(x3)
pressure:NN(x4)
Concepto
Accupril
Received therapy or drug for
Treated with
Treating
Treatment intent
Blood
In Blood
Bloods
Pressure-physical agent
Baresthesia
Pressure(finding)
Pressure-action
Blood Pressure
Blood pressure determination
Blood pressure finding
Systemic arterial pressure
Hypertensive disease
Identificador Concepto
C0244580(T109, T121)
C0332154(T169)
C0332293(T061)
C1522326(T169)
C1292734(T169)
C0005767(T024)
C0005768(T031)
C0392895(T098)
C0033095(T067)
C0234222(T042)
C0460139(T033)
C1306345(T169)
C0005823(T040)
C0005824(T060)
C1271104(T033)
C1272641(T033)
C0020538(T047)
Tipo Sem
antico
Tissue
Body Substance
Finding
Organism Function
Organ or Tissue Function
Disease or Syndrome
Diagnostic Procedure
Therapeutic or Preventive Procedure
Phenomenon or Process
Population Group
Organic Chemical
Pharmacologic Substance
Functional Concept
logico-conceptuales, u
nicamente debe tener una representacion semantica. Esta representacion semantica se asociara con una u
nica forma
logico-conceptual de las asociadas a la oracion, fruto del proceso de
desambiguacion entre todas las formas logico-conceptuales derivadas.
Del mismo modo en el que se ha explicado anteriormente el tratamiento de las formas logico-conceptuales, tanto a nivel general como en el
ambito del dominio abierto, se detalla a continuacion la representacion
semantica de la frase para el dominio medico.
La representaci
on sem
antica de la frase en el dominio m
edico.
Atendiendo a las especificaciones del tratamiento logico-conceptual matizadas a lo largo del captulo y, dado el anterior ejemplo 44, el cuadro
95
Predicado
treat:VB(e1, x1, x2)
blood:NN(x3)
blood pressure:NNC(x2, x3, x4)
pressure:NN(x4)
Concepto Desambiguado
Received therapy or drug for
Blood
Hypertensive disease
Pressure-physical agent
Identificador Concepto
C0332154(T169)
C0005767(T024)
C0020538(T047)
C0033095(T067)
96
4. La forma l
ogico-conceptual
deben ser tenidas en cuenta como, por ejemplo, el orden de las palabras
en la frase. Cabe pensar en la expresion en la lengua espa
nola el coche
rojo. Su traduccion a la lengua inglesa viene dada por la expresion
the red car. Aparte de la traduccion de los diferentes terminos, en
la expresion dada en la lengua espa
nola, el adjetivo sucede al nombre;
mientras que en la expresion dada en la lengua inglesa, el adjetivo precede al nombre. Este tipo de alteraciones sintacticas producidas en el
proceso de traduccion de una lengua original a la lengua inglesa viene
especificado en las gramaticas contrastivas entre la lengua original y
la lengua inglesa. Una gramatica contrastiva es aquella que estudia la
relacion y posicion que ocupan dos lenguas. Normalmente se estudia
entre lenguas de un mismo origen. Algunos gramaticos clasifican como
contrastivas al estudio de dos lenguas que no comparten origen. Es por
ello por lo que para tratar de conservar la maxima naturalidad en la
transformacion de la representacion semantica de la frase de una lengua
original a la lengua inglesa, el tratamiento logico-conceptual se hace eco
de las reglas especificadas en las gramaticas contrastivas entre la lengua
original y la lengua inglesa.
Una vez realizadas estas consideraciones, la transformacion de la representacion semantica obtenida en la lengua origen a su representacion
semantica equivalente en la lengua inglesa se lleva a cabo del siguiente
modo:
La traduccion de los predicados conceptualizados se realiza seg
un la
conexion existente en el recurso multiling
ue entre la lengua origen y la
lengua inglesa a traves de los conceptos. Si esta conexion conceptual
no existe, la traduccion se realiza utilizando un diccionario biling
ue
entre la lengua origen y la lengua inglesa.
Aquellos predicados que no son conceptualizados en el recurso multiling
ue, son traducidos utilizando un diccionario biling
ue entre la
lengua origen y la lengua inglesa.
Una vez que ya ha sido materializada la traduccion de los predicados
de la representacion semantica de la lengua origen a la lengua inglesa,
el siguiente paso consiste en aplicar las reglas contrastivas entre la
lengua origen y la lengua inglesa que derivan en una posible alteracion de la secuencia de predicados de la representacion semantica para
adaptar tal representacion semantica a la lengua inglesa. Las reglas
contrastivas que se deben aplicar sobre la estructura de predicados
de la representacion semantica depende de cada lengua origen. Ello
se justifica porque cada lengua tiene sus propias reglas gramaticales,
y la lengua inglesa tiene tambien las suyas propias. Por ejemplo, las
reglas contrastivas entre la lengua espa
nola y la lengua inglesa son di-
97
98
4. La forma l
ogico-conceptual
Id. Regla
1
2
3
4
5
Estructura Espa~
nola
NN + JJ
JJ1 + NN + JJ2
N N1 + N N 2
NNC + de- NN
N N1 + JJ + de- N N2
Estructura Inglesa
Traducci
on(JJ) + Traducci
on(NN)
Traducci
on(JJ1 ) + Traducci
on(JJ2 ) + Traducci
on(NN)
Traducci
on(N N2 ) + Traducci
on(N N1 )
Traducci
on(NN) + Traducci
on(NNC)
Traducci
on(JJ) + Traducci
on(N N2 ) + Traducci
on(N N1 )
Id. Regla
1
2
3
4
5
Expresi
on Espa~
nola
coche rojo
bonitos ojos verdes
coche electrico
oficina de billetes de estaci
on de tren
modelo m
ultiple de regresi
on
Traducci
on Inglesa
red car
beautiful green eyes
electric car
train station ticket office
multiple regression model
99
100
4. La forma l
ogico-conceptual
El identificador del concepto asociado al lema del predicado se correspondera con el synset de WordNet en la lengua inglesa relacionado a
traves del ILI.
Los restantes constituyentes del predicado logico-conceptual, es decir,
tanto el lema como su categora, no seran traducidos.
Una vez que se han traducido los predicados que tienen una relacion a
traves del ILI, el siguiente paso es traducir el resto de predicados utilizando para ello diccionarios que integren las lenguas implicadas en la
traduccion. Los predicados que, a pesar de quedar conceptualizados en
la lengua origen, no estan relacionados con ning
un synset de la lengua
inglesa a traves del ILI, no quedaran conceptualizados en la representacion semantica transformada, debido a que su traduccion se realiza a
traves del empleo de diccionarios, y no a traves de la relacion entre los
conceptos entre las diferentes lenguas.
Como ejemplo, para una traduccion espa
nol-ingles de los predicados de
la forma logica que no estan conceptualizados en WordNet o, que a pesar de estarlo, no estan enlazados en el ILI, se utilizan dos diccionarios:
Free Translation y Babylon 5 . El proceso de traduccion queda especificado a traves del siguiente algoritmo:
5
http://www.freetranslation.com y http://www.babylon.com
101
Algoritmo: Traducci
on del lema del predicado a partir de FT y WR
Entrada: lema
Salida: lema traducido
trad FT := traduce en FT(predicado.lema)
trad WR := traduce en WR(predicado.lema)
si (trad WR == NULL)
lema traducido := trad FT
sino
si (trad WR.contiene(trad FT))
lema traducido := trad FT
sino
lema traducido := trad WR.obten traduccion en(1)
fsi
fsi
devuelve lema traducido
fAlgoritmo
El funcionamiento del algoritmo es el siguiente:
Se busca el lema del predicado en Free Translation. Este diccionario
devuelve una palabra o una expresion, sin entrar en detalles del tipo
categora gramatical de la palabra o expresion devuelta, ejemplos de
utilizacion en frases, etc.
Se busca el lema del predicado en Babylon. Este diccionario devuelve una lista de palabras o expresiones clasificadas seg
un su categora
gramatical.
Se produce una comparacion entre la palabras o expresiones devueltas
por Free Translation y la lista de palabras o expresiones clasificadas
seg
un su categora gramatical devuelta por Babylon consistente en:
Si Babylon no devuelve ninguna lista de palabras o expresiones cuya
categora gramatical coincida con el tipo de predicado, entonces la
traduccion es la palabra o expresion devuelta por Free Translation.
Si la palabra o expresion devuelta por Free Translation se encuentra
en la lista de palabras o expresiones devuelta por Babylon dentro
de las clasificadas en la categora gramatical coincidente con el tipo de predicado, entonces la palabra o expresion devuelta por Free
Translation es la traduccion a ese predicado.
Si la palabra o expresion devuelta por Free Translation no se encuentra en la lista de palabras o expresiones devuelta por Babylon
102
4. La forma l
ogico-conceptual
Arbol
de dependencias: La figura 4.2 muestra el arbol
de relaciones de dependencia entre las palabras de
la oracion.
Forma l
ogica: usted:NN(x1) proceder:VB(e1, x1, x2)
a:IN(e1, x3) banco:NN(x3) cerca de:IN(x3, x4) esquina:NN(x4)
Representaci
on sem
antica: 6 usted:NN(x1) 01360914:proceder:VB(e1, x1, x2) a:IN(e1, x3) 06227059:banco:NN(x3) cerca de:IN(x3, x4) 02501820:esquina:NN(x4)
Traducci
on de predicados: La tabla 4.12 detalla la
traduccion realizada sobre los predicados de la representacion semantica, y la tabla 4.13 detalla los
conceptos en la version inglesa de WordNet que
han sido traducidos a traves del ILI.
Representaci
on sem
antica transformada: you:NN(x1)
01360914:proceder:VB(e1, x1, x2) to:IN(e1, x3)
06227059:banco:NN(x3) near:IN(x3, x4) 02501820:esquina:NN(x4)
Se acaba de detallar el tratamiento independiente de la lengua de las
formas logico-conceptuales en el dominio abierto. A continuacion se va
a proceder a especificar el tratamiento independiente de la lengua de
las formas logico-conceptuales en el dominio restringido, tomando como
marco de referencia el dominio medico.
6
103
puede
subj
usted
obj
proceder
loc
obj
banco
pm
cerca
mod
det
el
esquina
pm
de
det
la
Traducci
on
you:NN(x1)
01360914:proceder:VB(e1, x1, x2)
to:IN(e1, x3)
06227059:banco:NN(x3)
near:IN(x3, x4)
02501820:esquina:NN(x4)
Recurso
Diccionario
ILI
Diccionario
ILI
Diccionario
ILI
Tabla 4.13. Conceptos de la version inglesa de Wornet 1.5 traducidos mediante el ILI
104
4. La forma l
ogico-conceptual
en el dominio medico.
La independencia de la lengua de la forma l
ogica en el dominio
m
edico. Como se ha detallado al inicio del captulo, el metatesauro de
UMLS es un recurso multiling
ue. Diferentes autores han utilizado dicho
recurso para tratar los detalles referentes a la multilingualidad en sus
trabajos de investigacion tales como Tran et al. (2004) y Eichmann et al.
(1998). En el metatesauro esta recogida toda la terminologa relacionada con un concepto. Ademas esta terminologa esta disponible en todas
las lenguas tratadas en el recurso. Por ello, cuando se conceptualiza un
predicado a partir del metatesauro, implcitamente se esta traduciendo
dicho predicado (debido a que toda la terminologa multiling
ue asociada a cada concepto esta bajo el ambito del concepto). Para realizar la
traduccion del resto de los predicados de la representacion semantica
que no son conceptualizados en el metatesauro, se sigue el mismo proceso recientemente especificado para el dominio abierto.
Con el proposito hacer mas claro este proceso de transformacion, el
cuadro 47 muestra un ejemplo de transformacion seg
un este metodo de
la representacion semantica de la oracion dada. En este ejemplo, con
objeto de evitar la redundancia, se ha omitido tanto el paso de derivacion del arbol de analisis de dependencias entre las palabras de la frase,
como el paso de inferencia de las formas logico-conceptuales.
4.5 Conclusiones
4.5 Conclusiones
En los u
ltimos a
nos, se esta implantando una clara tendencia enfocada
a que los sistemas mas comunes del PLN sean capaces de afrontar los retos referentes, por un lado, a manejar textos tanto en dominios abiertos
como en dominios restringidos y, por otro lado, a considerar los detalles
referentes a la independencia de la lengua. Para afrontar estos retos, los
sistemas de PLN deben disponer de un mecanismo de representacion
formal del texto que sea tanto independiente del dominio como de la
lengua.
La forma logica presentada en este trabajo de investigacion, por definicion, es capaz de dotar a los sistemas de PLN de una representacion del
conocimiento logico de primer orden de oraciones expresadas mediante
lenguaje natural.
En el captulo se muestra que el concepto es la unidad basica de representacion del conocimiento. Tambien se muestra que, en terminografa
biling
ue el establecimiento de equivalencias en ambas lenguas se realiza
a traves de la representacion conceptual, de manera que la equivalencia
no es entre los terminos sino entre los conceptos designados por dichos
terminos. Luego, para obtener una representacion formal del texto que
considere los aspectos referentes tanto a la independencia del dominio
como de la lengua, se debe hacer uso de recursos ontologicos y tesauros
que permitan identificar la informacion conceptual asociada a la terminologa presente en el texto.
En la forma logica, las palabras con sentido del texto (sus lemas) quedan
representadas mediante predicados relacionados. Cuando se dispone de
alg
un recurso del tipo ontologico o tesauro, la forma logica es capaz
de adquirir la informacion conceptual asociada a algunos de sus predicados, en concreto aquellos predicados que quedan conceptualizados
en dicho recurso. Con ello y, partiendo de la forma logica, se derivan
una serie de formas logico-conceptuales, que integran la informacion
conceptual asociada a los predicados conceptualizados. El n
umero de
formas logico-conceptuales derivadas viene determinado por el producto cartesiano todos con todos de las conceptualizaciones de todos los
predicados conceptualizados de la forma logica. Cada oracion tiene una
u
nica representacion semantica que la identifica. Para ello es necesario
un proceso de desambiguacion que permita identificar la forma logicoconceptual de entre todas las formas logico-conceptuales derivadas en
la que el concepto asociado a cada predicado es el mas adecuado seg
un
el contexto de la oracion. Esta forma logico-conceptual desambiguada
se correspondera con la representacion semantica de la frase.
105
106
4. La forma l
ogico-conceptual
Los requisitos que se deben cumplir para poder tener una representacion formal del texto independiente del dominio y de la lengua seg
un el
tratamiento logico-conceptual son: a) disponer de un recurso conceptual
en el que quede conceptualizada la terminologa presente en el texto; b)
que exista una conexion multiling
ue de la terminologa conceptualizada
en las diferentes lenguas a traves del recurso; c) que los recursos del
dominio restringido, de manera opcional, categoricen semanticamente
los conceptos del recurso.
En funcion del dominio del texto, bien sea dominio abierto o alg
un
dominio restringido, la forma logica utilizara un determinado recurso
ontologico o tesauro del dominio (o mas de uno) para extraer la informacion conceptual asociada a los predicados. La utilizacion del recurso
en el ambito del dominio en que se enmarquen los textos a procesar
es la u
nica caracterstica que depende del dominio en el tratamiento
logico-conceptual. El resto del tratamiento es totalmente independiente del dominio, es decir, cualquier texto bajo cualquier dominio puede
ser representado formalmente mediante la forma logica, siempre que se
re
unan los requisitos mencionados en el anterior parrafo. Cuando se trabaja con texto en el dominio abierto, el recurso utilizado para aportar la
informacion conceptual a la forma logica es WordNet. En cambio, cuando se trabaja en un dominio restringido, se recurre a recursos dependientes del dominio restringido que aportan la informacion conceptual
en el mencionado dominio restringido. Ademas, independientemente de
los recursos disponibles en el dominio restringido, siempre se puede hacer uso del recurso WordNet de dominio abierto, con el proposito de
aportar tambien informacion conceptual. Para el ejemplo de representacion formal de textos en el dominio medico, la forma logica hace uso
del metatesauro de UMLS que aporta informacion conceptual en el dominio restringido, y de WordNet.
Del mismo modo que sucede con la independencia del dominio, cuando
se quiere obtener una representacion formal del texto que sea independiente de la lengua, los mencionados recursos ontologicos o tesauros
deben ser multiling
ues. Ademas se debe hacer uso de diccionarios que
traten la interconexion de las lenguas tratadas. En este sentido, y para
tratar la representacion de las lenguas inglesa y espa
nola vista en los
ejemplos, WordNet a traves del ILI de EuroWordNet, el metatesauro
multiling
ue de UMLS, y los diccionarios Free Translation y Babylon
han sido introducidos.
La utilizacion que la forma logica hace de estos recursos permite el tratamiento de la independencia del dominio y de la lengua a traves del
tratamiento logico-conceptual. Es por ello por lo que el recurso logico-
4.5 Conclusiones
conceptual desarrollado en este trabajo de investigacion es tanto independiente del dominio como independiente de la lengua.
107
5. Evaluaci
on del recurso l
ogico-conceptual
para la representaci
on formal del texto
La evaluacion de cualquier sistema o recurso de PLN requiere del estudio y/o analisis de los siguientes conceptos:
Eficacia: este concepto mide la capacidad que tiene el sistema o el
recurso para lograr sus objetivos.
Eficiencia: este concepto indica la cantidad de recursos que necesita
el sistema o el recurso para lograr sus objetivos.
A lo largo del captulo se destaca que la mayora de evaluaciones que se
proponen para indicar lo bueno o lo malos que son los sistemas o recursos del PLN solo tienen en cuenta el concepto de eficacia, siendo una
peque
na minora las que consideran tambien el concepto de eficiencia.
No conviene perder de vista que, ante dos sistemas o recursos de PLN
diferentes cuyos niveles de eficacia son muy parejos, siempre sera mejor
el que menor n
umero de recursos necesite para alcanzar los objetivos,
esto es, el mas eficiente. Es por ello por lo que, a la hora de evaluar lo
bueno o lo malo que es el recurso desarrollado, se hara siempre desde
estos dos conceptos: la eficacia y la eficiencia.
Corcho y Gomez-Perez et al. (2001) plantean una forma de evaluar los
recursos de representacion del conocimiento a partir de la definicion
de un marco de evaluacion en el que queden integrados los componentes principales que constituyen el recurso de representacion del conocimiento a evaluar. Una vez definido este marco, la evaluacion global
del recurso se estructura en evaluaciones parciales que, tanto de manera
individual como de un modo colectivo, indican la validez de cada uno
de estos componentes as como la validez global del recurso de representacion del conocimiento.
Tal y como se comenta a lo largo de los sucesivos captulos del trabajo
de investigacion, el recurso desarrollado consiste en un mecanismo de
representacion formal del texto basado en formas logicas cuyos componentes o caractersticas fundamentales son: ser precisa, conceptualmente
completa, independiente del dominio e independiente de la lengua. El
recurso de representacion formal del texto desarrollado puede ser usado
110
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.1 An
alisis y determinaci
on de las tareas de evaluaci
on
5.1 An
alisis y determinaci
on de las tareas de
evaluaci
on
Existen diferentes campa
nas internacionales de evaluacion donde los sistemas mas comunes del PLN pueden ser evaluados, tales como TREC,
CLEF, SENSEVAL, PASCAL RTE, etc. Basicamente, el objetivo fundamental de todas estas campa
nas se centra en definir tareas estandares
de evaluacion aplicadas a los diferentes sistemas de PLN que permitan
cuantificar la validez de estos sistemas y establecer una comparacion
referente al funcionamiento entre los diferentes sistemas participantes a
la vez que promueven las lneas de investigacion sobre dichos recursos
y herramientas.
Por otra parte, al inicio del captulo se justifica que los propositos fundamentales de la evaluacion del recurso desarrollado en la investigacion
deben considerar los cuatro matices detallados.
Con este objeto, en el proceso de analisis y determinacion de las tareas
de evaluacion, en un primer lugar, se tienen en cuenta las campa
nas
internacionales de evaluacion existentes cuyas tareas consideren alguno
de los matices planteados. En segundo lugar, para el resto de matices
, es necesario el dise
no de tareas de evaluacion ad-hoc. Finalmente, se
eval
ua la validez del recurso desarrollado en la investigacion en el marco
de cada una de estas tareas.
Seg
un se ha detallado en el captulo dos, existe un amplio espectro de
diferentes sistemas de PLN donde el recurso puede ser incorporado con
la finalidad de evaluar la validez que la incorporacion del recurso aporta
a cada uno de los diferentes sistemas. El llevar a cabo este proceso de
evaluacion con todo el abanico de sistemas de PLN hara interminable
el mismo. Con objeto de evitar esto, se ha escogido una muestra mas
reducida del espectro de sistemas de PLN que abarque las necesidades
de representacion formal del texto que tienen en su conjunto el amplio
espectro de sistemas de PLN. Concretamente, los sistemas de PLN en
111
112
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
Tareas
Matices
Precisi
on
Completitud conceptual
Ind. del dominio
Ind. de la lengua
CL-SR
AVE
QACLEF
RTE
Clasificaci
on Preguntas
X
X
113
5.2 Evaluaci
on en la tarea Cross-Language Speech
Retrieval del CLEF 2005
5.2.1 Introducci
on
El objetivo de la tarea Cross-Language Speech Retrieval de la conferencia CLEF 2005 (White et al. , 2006) consiste en evaluar el rendimiento
de diferentes sistemas de PLN en tareas de Recuperacion de Documentos Transcritos. Para ello, los sistemas deben ser capaces de identificar
los segmentos de texto topicamente coherentes en entrevistas hechas en
ingles en una condicion de fronteras conocidas. Estas entrevistas fueron realizadas a supervivientes, testigos y rescatadores del Holocausto
judo. El proposito de esta tarea se resume en una Recuperacion de
Informacion sobre habla transcrita en documentos. Basicamente, cada
entrevista esta formada por unos segmentos ordenados secuencialmente que son transcritos a documentos sobre los que se aplica el proceso
de Recuperacion de Informacion. Cada documento se compone de una
serie de campos:
INTERVIEWDATA. Contiene los nombres y las fechas de nacimiento
de los entrevistados.
NAME. Contiene los nombres del resto de personas mencionadas en
la entrevista.
MANUALKEYWORD. Contiene palabras clave extradas de un tesauro. Estas palabras clave suelen referencias a sujetos, objetos y lugares mencionados en la entrevista.
SUMMARY. Contiene un resumen de tres frases de la entrevista.
114
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
115
116
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.2.3 Desarrollo
En el marco de las tareas de evaluacion derivadas en el ambito de la Recuperacion de Informacion en las competencias CLEF, los topicos estan
compuestos de un ttulo, una descripcion y una narrativa. El ttulo contiene las palabras clave de b
usqueda y suele estar formado entre dos y
seis palabras. La descripcion es bastante similar al ttulo y describe de
manera escueta en una sola frase la accion a realizar. La narrativa detalla en mayor medida el objeto del topico y suele estar formada por
varias frases. La tabla 5.2 muestra un ejemplo de topico.
T
opico
Jewish
resistance
in Europe
Descripci
on
Provide testimonies or
describe actions of
Jewish resistance in Europe
before and during the war.
Narrativa
The relevant material should
describe actions of only- or mostly
Jewish resistance in Europe. Both
individual and group-based actions...
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
117
(48) T
opico: The story of Mr. Fly and the Emergency Rescue Committee who saved thousands in Marseille.
Forma l
ogica asociada: story:NN(x14) of:IN(x14, x13)
mr:NN(x10) mr fly:NNC(x11, x10, x12) fly:NN(x12)
and:CC(x13, x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6, x5, x7) rescue:NN(x8)
rescue committee:NNC(x7, x8, x9) committee:NN(x9)
who:NN(x13) save:VB(e1, x13, x2) thousand:NN(x2)
in:IN(e1, x3) marseille:NN(x3)
Predicados implicados: of:IN(x14, x13) mr:NN(x10)
mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13,
x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6,
x5, x7) rescue:NN(x8) rescue committee:NNC(x7,
x8, x9) committee:NN(x9) in:IN(e1, x3) marseille:NN(x3)
Palabras (t
erminos) implicadas: Variant, Fry, Emergency, Rescue, Committee y Marseille.
118
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
T
ermino (stem)
stori
fly
emerg
rescu
committe
save
thousand
marseil
Peso inicial
1.84449
6.19484
6.47296
6.19484
4.08194
3.06725
2.33944
5.13363
Peso actualizado
1.84449
7.124066
7.443904
7.124066
4.694231
3.06725
2.33944
5.9036745
Tabla 5.3. Pesos de los terminos asignados por el sistema IR-n y su actualizaci
on seg
un la heurstica
aplicada sobre la forma l
ogica del t
opico
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
Peso t
erminos
Valor original
+1 %
+2 %
+3 %
+4 %
+5 %
+6 %
+7 %
+8 %
+9 %
+10 %
+11 %
+12 %
+13 %
+14 %
+15 %
+16 %
+17 %
+18 %
+19 %
+20 %
119
Precisi
on
0.2975
0.2975
0.2975
0.2976
0.2978
0.2979
0.2981
0.2983
0.2987
0.2997
0.3014
0.3022
0.3025
0.3034
0.3066
0.3086
0.3047
0.3009
0.2961
0.2907
0.2889
120
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.2.4 Resultados
Evaluaci
on de la eficacia. Los resultados obtenidos en ambos experimentos quedan detallados en la tabla 5.5. La columna map muestra
la media de la medida de precision no interpolada mientras que en las
restantes columnas se detalla la precision a los 5, 20, 100 y 1000 documentos respectivamente.
Experimento
UATDASR04
UATDASR04LF
map
0,0724
0,0768
p5
0,1840
0,2160
p20
0,1660
0,1740
p100
0,1036
0,1088
p1000
0,0313
0,0324
Rprec
0,1246
0,1230
Bpref
0,0899
0,0949
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
121
formal del texto capaces de materializar el desarrollo de la heurstica sera mas preciso aquel cuya representacion contenga menor n
umero
de constituyentes ya que, seg
un la definicion recien especificada, este
modelo, haciendo uso de un menor n
umero de constituyentes en la representacion, es capaz de representar la informacion necesaria para el
desarrollo de la heurstica, ignorando detalles superfluos, irrelevantes y
redundantes introducidos por el resto de modelos.
Por ello, y con el objeto de evaluar y contrastar lo mas o menos precisos
que son los diferentes modelos de representacion capaces de dar soporte
al desarrollo de la heurstica, se hace hincapie en el concepto de eficiencia introducido al inicio del captulo, que permite cuantificar el n
umero
de items o constituyentes que introducen las diferentes representaciones
formales del texto seg
un el modelo aplicado. De este modo, aquel modelo cuya representacion haga uso de un menor n
umero de constituyentes
para identificar formalmente al texto asociado sera el mas eficiente y,
en consecuencia, el mas preciso seg
un este punto de vista.
Desde el punto de vista de la eficiencia, se va a establecer una comparacion de los tama
nos (seg
un el n
umero de constituyentes) de las
diferentes representaciones formales de los topicos para la aplicacion de
la heurstica entre los modelos de representacion formal capaces de dar
soporte al desarrollo de esta heurstica que son: el basado en el arbol
de analisis de dependencias, el basado en el arbol de analisis sintactico
de constituyentes, y el recurso de formas logicas desarrollado como embrion del recurso logico-conceptual. Para ello, conviene tener un ejemplo
com
un de la representacion de un mismo topico seg
un cada uno de estos
modelos de representacion formal. Ello queda presentado en el ejemplo
49.
(49) T
opico: The story of Mr. Fly and the Emergency Rescue Committee who saved thousands in Marseille.
Arbol
de dependencias: Vease figura 5.1
Arbol
de constituyentes: Vease figura 5.2
Forma l
ogica: story:NN(x14) of:IN(x14, x13) mr:NN(x10)
mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13,
x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6,
x5, x7) rescue:NN(x8) rescue committee:NNC(x7,
x8, x9) committee:NN(x9) who:NN(x13) save:VB(e1,
x13, x2) thousand:NN(x2) in:IN(e1, x3) marseille:NN(x3)
122
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Arbol
l
ogico: Vease figura 5.31
story [N]
det
mod
The [Det]
of [Prep]
pcomp-n
Fly [N]
lex-mod
conj
Mr. [U]
Committee [N]
lex-mod
Emergency [U]
rel
Rescue [U]
() fin [C]
whn
who [N]
saved [V]
subj
() who [N]
obj
mod
thousands [N]
in [Prep]
pcomp-n
Marseille [N]
n-chunk
n-chunk
The
[NP]
story
[NN]
sppart
sn-chunk
n-chunk nex-coord
of Mr. Fly
[IN]
[NP]
and
[CC]
sp-chunk
n-chunk
the
[DT]
who
[WP]
saved
[VBD]
thousands
[NNS]
spin
n-chunk
in Marseille
[NP]
[IN]
Seg
un el ejemplo 49, para la representacion formal de un mismo topico,
el arbol de analisis de dependencias tiene 15 nodos (constituyentes), el
arbol de analisis de constituyentes tiene 26 nodos y el arbol logico tiene
10 nodos. Si se consideran los 75 topicos que se han utilizado en la evaluacion, la tabla 5.6 detalla el n
umero de nodos total que se obtienen
con cada uno de estos tres modelos de representacion.
1
El
arbol l
ogico simplemente representa los predicados relacionados de la forma l
ogica en forma
de
arbol con objeto de facilitar el estudio de la complejidad
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
123
who:NN(x13)
thousand:NN(x2)
of:IN(x14, x13)
in:IN(e1, x3)
marseille:NN(x3)
story:NN(x14)
Arbol constituyentes
Arbol dependencias
Arbol
l
ogico
No nodos
1628
1059
771
Tabla 5.6. N
umero de nodos obtenidos por cada formalismo en la representaci
on de los t
opicos
124
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
formal del texto en el ambito de la Recuperacion de Informacion. Para ello, sobre la representacion formal de los topicos implicados en el
proceso de Recuperacion de Informacion, se ha aplicado una heurstica
que hace que determinadas palabras del topico incrementen su importancia o relevancia en el proceso. Desde el punto de vista de la eficacia,
los resultados obtenidos tras la aplicacion de esta heurstica mejoran
los resultados obtenidos por el sistema de Recuperacion de Informacion
base produciendo un incremento de un 6,08 % del valor original de la
medida map.
Desde el punto de vista de la eficacia, el recurso de formas logicas no es
imprescindible para la aplicacion de la heurstica ya que esta se puede
aplicar sobre cualquier otro tipo de representacion formal, como se ha
demostrado con los arboles de dependencias y de constituyentes.
Uno de los propositos fundamentales de la participacion en esta tarea es
demostrar el matiz de precision introducido al inicio del captulo. Para
ello, desde el punto de vista de la eficiencia, la utilizacion del recurso de
formas logicas para la representacion formal de los topicos mejora los
resultados de la aplicacion de la heurstica sobre cualquier otro tipo de
representacion, tal y como se ha demostrado en la subseccion anterior.
Ello demuestra que la representacion basada en formas logicas obtenida
a partir del recurso logico-conceptual es mas precisa que el resto de
representaciones.
5.3 Participaci
on en la tarea Recognising Textual
Entailment del PASCAL 2006
5.3.1 Introducci
on
El reconocimiento de la Vinculacion o Implicacion Textual (Recognising
Textual Entailment) (Bar-Haim et al. , 2006) ha sido propuesto en los
u
ltimos a
nos en el ambito del PLN como una tarea generica que captura
las necesidades principales de inferencia semantica a traves de las aplicaciones del PLN como la B
usqueda de Respuestas, la Recuperacion de
Informacion, la Extraccion de Informacion y la Generacion Automatica
de Res
umenes.
El Textual Entailment o Implicacion Textual consiste en decidir, dados
dos fragmentos de texto denominados texto (T) e hipotesis (H), si el
texto vincula a la hipotesis, es decir, si el significado de la hipotesis
es inferido a traves del texto. El ejemplo 50 muestra una vinculacion
textual, es decir, T vincula a H.
5.3 Participaci
on en la tarea Recognising Textual Entailment del PASCAL 2006
(50) Texto (T): His family has steadfastly denied the charges.
Hip
otesis (H): The charges were denied by his family.
La tarea PASCAL RTE (Recognising Textual Entailment) (Bar-Haim
et al. , 2006) promociona la formacion de una comunidad investigadora
en al ambito de la tarea de vinculacion textual. La principal tarea consiste en determinar si una hipotesis (H) es vinculada por un texto (T).
Uno de los principales objetivos de su conjunto de datos se centra en
proveer ejemplos realistas de pares texto-hipotesis, la mayora de ellos
basados en las salidas proporcionadas por los sistemas actuales de PLN.
En concreto se basan en las caractersticas de aplicacion de los sistemas
mencionados anteriormente: B
usqueda de Respuestas, Recuperacion de
Informacion, Extraccion de Informacion y Generacion Automatica de
Res
umenes. Cada porcion del conjunto de datos incluye ejemplos tpicos
de pares texto-hipotesis obtenidas a partir de los aciertos y los fallos
obtenidos por estas aplicaciones. Los ejemplos representan diferentes
niveles de razonamiento de la vinculacion tales como lexico, sintactico,
morfologico y logico.
Dicha tarea proporciona un marco de evaluacion com
un a los sistemas
de Textual Entailment. Los sistemas de Textual Entailment participantes en esta tarea de evaluacion deberan decidir dados los pares texto e
hipotesis, si el texto vincula a la hipotesis o no, y estos resultados se
compararan con las anotaciones manuales correspondientes.
La evaluacion de las ejecuciones de los sistemas es automatica. Los criterios devueltos por los sistemas son comparados con los criterios de
relevancia asignados manualmente por los anotadores. El porcentaje de
emparejamiento de criterios debe proveer la precision de la tarea (ej. la
relacion de respuestas correctas).
Como una segunda medida de evaluacion, la precision media (average
precision) eval
ua la capacidad de los sistemas en determinar las implicaciones correctas de acuerdo a su coeficiente de confianza, en orden
decreciente desde el par texto-hipotesis que posee un coeficiente mayor
hasta el que posee el menor coeficiente. Se define formalmente esta medida como:
P recM edia =
1
R
Pn
i=1
par i
125
126
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.3 Participaci
on en la tarea Recognising Textual Entailment del PASCAL 2006
127
Texto
The drugs that slow down or halt
Alzheimers disease work best the
earlier you administer them.
Drew Walker, NHS Taysides public
health director, said: It is
important to stress that this is
not a confirmed case of rabies.
Yoko Ono unveiled a bronze statue
of her late husband, John Lennon,
to complete the official renaming
of Englands Liverpool Airport as
Liverpool John Lennon Airport
Arabic, for example, is used
densely across North Africa and
from the Eastern Mediterranean
to the Philippines, as the key
language of the Arab world and
the primary vehicle of Islam.
About two weeks before the trial
started, I was in Shapiros
office in Century City.
Meanwhile, in his interview to a
Western print publication since his
election as president of Iran
earlier this year, Ahmadinejad
attacked the threat to bring
the issue of Irans nuclear
activity to the UN Security council
by the US, France and Britain.
Hip
otesis
Alzheimers disease
is treated
using drugs.
Tarea
Vinculaci
on
RI
S
I
A case of rabies
was confirmed.
RI
NO
BR
S
I
BR
NO
Shapiro works in
Century City.
BR
S
I
Ahmadinejad is a
citizen of Iran.
EI
S
I
Yoko Ono is
John Lenonns
widow.
Arabic is the
primary
language of the
Philippines.
128
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Por ejemplo, los conceptos representados por los verbos run y walk tendran relaci
on. Sin embargo,
no ocurrira lo mismo con los conceptos que representan los verbos eat y run.
5.3 Participaci
on en la tarea Recognising Textual Entailment del PASCAL 2006
Texto
Hiptesis
Derivacin de las
Formas Lgicas
FL Texto
FL Hiptesis
Computacin de la similitud
Semntica entre Formas Lgicas
factor
Implicacin?
SI
NO
129
130
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
0,55
0,545
Accuracy
0,54
0,535
WNLin
0,53
0,525
0,52
WNsuperficial
WNcomplejo
0,515
0,51
0,505
0,5
0,1
0,7
Umbral
5.3 Participaci
on en la tarea Recognising Textual Entailment del PASCAL 2006
LCS es el concepto m
as especfico que dos conceptos comparten como antecesor
131
132
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Grupo
LCC (Hickl et al. )
LCC (Tatu et al. )
Mil
an y Roma (Zanzotto et al. )
Dallas (Adams et al. )
Mil
an y Roma (Zanzotto et al. )
Roma y Leeds (Bos et al. )
Colorado (Nielsen et al. )
Roma y Leeds (Bos et al. )
Stanford (de Marneffe et al. )
ITC-irst y Trento (Kouylekov et al. )
Tilburg y Twente (Marsi et al. )
Colorado (Nielsen et al. )
Microsoft y Stanford (Vanderwende et al. )
UNED (Herrera et al. )
Memphis (Rus et al. )
Saarland (Burchart et al. )
Amsterdam (Katrenko et al. )
UNED (Herrera et al. )
Microsoft y Stanford (Vanderwende et al. )
Memphis (Rus et al. )
Ottawa (Inkpen et al. )
CL Research (Litkowski et al. )
Ottawa (Inkpen et al. )
Saarland (Burchart et al. )
Stanford (de Marneffe et al. )
ITC-irst y Trento (Kouylekov et al. )
Amsterdam (Katrenko et al. )
CL Research (Litkowski et al. )
Alicante (Ferr
andez et al.)
Venecia (Delmonte et al. )
Thomson y Minnesota (Schilder et al. )
Alicante (Kozareva et al. )
Alicante (Kozareva et al. )
Alicante (Ferr
andez et al.)
Sussex (Clarke et al. )
Dublin (Newman et al. )
Thomson y Minnesota (Schilder et al. )
Melbourne (Nicholson et al. )
Sussex (Clarke et al. )
Dublin (Newman et al. )
Melbourne (Nicholson et al. )
Ejecuci
on
1
1
1
1
2
1
2
2
2
2
1
1
1
1
1
1
1
2
2
2
2
1
1
2
1
1
2
2
Lin
1
2
2
1
Rel. WN
2
2
1
1
1
1
2
Precisi
on
0.7538
0.7375
0.6388
0.6262
0.6250
0.6162
0.6112
0.6062
0.6050
0.6050
0.6050
0.6025
0.6025
0.5975
0.5900
0.5900
0.5900
0.5887
0.5850
0.5837
0.5825
0.5813
0.5800
0.5775
0.5763
0.5725
0.5713
0.5663
0.5563
0.5563
0.5550
0.5500
0.5487
0.5475
0.5475
0.5437
0.5437
0.5288
0.5275
0.5250
0.5088
Precisi
on Media
0.8082
0.7133
0.6441
0.6282
0.6317
0.6689
0.6379
0.6042
0.5800
0.5046
0.6396
0.6181
0.5663
0.6047
0.6170
0.5785
0.5816
0.5751
0.6131
0.5249
0.6089
0.5685
0.5485
0.5589
0.5743
0.5260
0.5103
0.5464
0.5254
0.5052
0.5053
5.3 Participaci
on en la tarea Recognising Textual Entailment del PASCAL 2006
60,89 puntos porcentuales mientras que la ejecucion basada en relaciones de WordNet ocupa el puesto n
umero 19 con una precision media
del 57,43 %.
Analizando los resultados en terminos de eficacia obtenidos en ambas
medidas y comparandolos con la media de los resultados obtenidos por
los sistemas participantes en la tarea, se puede concluir que el recurso
de representacion formal del texto desarrollado en la investigacion es
totalmente valido para su incorporacion en los sistemas de Vinculacion
Textual.
5.3.5 An
alisis y discusi
on
El principal proposito de la participacion en la tarea Recognising Textual Entailment viene marcado por el tratamiento logico-conceptual de
la informacion manejada en los pares texto-hipotesis para decidir si
el texto vincula o no la hipotesis. El tratamiento logico de la informacion se centra en el manejo de los predicados de las formas logicas
asociadas tanto al texto como a la hipotesis. Desde el punto de vista
del tratamiento conceptual de la informacion se trata de establecer el
grado de relacion que pueda existir entre determinados predicados de
ambas formas logicas. Estas relaciones vienen determinadas a partir de
la exploracion de conceptos mediante la jerarqua definida en el recurso
lexico WordNet.
Analizando los resultados de eficacia obtenidos de la participacion en
la tarea RTE, se puede concluir que el procedimiento empleado para resolver el problema del textual entailment obtiene unos resultados
en la media de los obtenidos por el resto de sistemas participantes en
esta competicion. Se puede concluir que la aplicacion del recurso logicoconceptual como n
ucleo del sistema es un metodo valido en el tratamiento de la Vinculacion Textual.
Una vez demostrada la validez del recurso en el problema de la vinculacion textual y, debido a que la tarea de la vinculacion textual resume
las necesidades principales de inferencia semantica de otros sistemas
del PLN como la B
usqueda de Respuestas, la Recuperacion de Informacion, la Extraccion de Informacion y la Generacion Automatica de
Res
umenes, podemos concluir tambien que la aplicacion del recurso en
estas cuatro aplicaciones del PLN es perfectamente valida desde el punto de vista del matiz de completitud conceptual detallado al inicio del
captulo.
133
134
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.4 Participaci
on en la tarea Answer Validation
Exercise del CLEF 2006
5.4.1 Objetivos
El objetivo de la tarea Answer Validation Exercise del CLEF 2006
(Pe
nas et al. , 2007) consiste en evaluar los sistemas capaces de decidir
si la respuesta devuelta por un sistema de B
usqueda de Respuestas es
correcta o no. El punto de partida de la tarea AVE es la reformulacion
de la validacion de la respuesta como un problema de reconocimiento
del Textual Entailment bajo la presuncion de que la hipotesis puede ser
generada automaticamente instanciando patrones de hipotesis con las
respuestas devueltas por los sistemas de B
usqueda de Respuestas. Con
ello se pretende promover nuevas lneas de investigacion en el desarrollo y evaluacion de subsistemas capaces de validar la correccion de las
respuestas devueltas por los sistemas de B
usqueda de Respuestas.
Los sistemas participantes en la tarea de evaluacion deben devolver un
valor de dos posibles (SI o NO) para cada par de texto-hipotesis indicando si el texto vincula o no la hipotesis (ej. la respuesta es correcta
acorde al texto).
La evaluacion se basa u
nicamente en la deteccion de las respuestas
correctas, considerando si existe o no la suficiente evidencia de estas.
Las medidas de evaluacion utilizadas para describir la eficacia de los sistemas participantes en la tarea AVE son la precision, la cobertura y la
medida F sobre los pares con entailment verdadero. La precision (vease
51) y la cobertura (vease 52) han sido definidas en las secciones previas del captulo. En cambio, la medida F (vease 53) se define como la
media armonica ponderada (factor 1) de precision y cobertura. Esto es
as porque el proposito perseguido es destacar aquellos sistemas capaces
de detectar vinculacion en los pares texto-hipotesis, o capaces de detectar si existe suficiente evidencia para considerar que existe vinculacion
entre el texto y la hipotesis.
(51) precision =
(52) cobertura =
(53) F =
2precisioncobertura
precision+cobertura
5.4 Participaci
on en la tarea Answer Validation Exercise del CLEF 2006
5.4.2 Motivaci
on y aportaciones esperadas
El problema planteado en la tarea Answer Validation Exercise es claramente un problema de Vinculacion Textual o Textual Entailment en el
que el conjunto de pares texto-hipotesis se deriva a partir de los recursos
existentes para la tarea de B
usqueda de Respuestas de la campa
na de
evaluacion CLEF as como de las respuestas generadas por los sistemas
participantes en dicha tarea. En la seccion anterior del captulo, donde
se detalla todo lo relativo a la participacion en la tarea PASCAL RTE,
se ha especificado este problema. Debido a la similitud existente entre
la anterior tarea PASCAL RTE y la tarea Answer Validation Exercise, tanto la motivacion como las aportaciones esperadas para la tarea
Answer Validation Exercise son exactamente las mismas que para su
homologa PASCAL RTE y, por ello, no cabe repetir lo ya especificado
anteriormente en el captulo.
Como novedad y extension a todo lo anterior, conviene matizar que
se quiere medir la eficacia del sistema desde el punto de vista de la
precision, cobertura y medida F, frente a la precision y precision media utilizadas en la anterior tarea PASCAL RTE. Tambien se quiere
contrastar la eficacia del sistema en el conjunto de los nuevos sistemas
participantes en esta tarea.
5.4.3 Desarrollo
Con diferencia a anteriores campa
nas de evaluacion de los sistemas de
B
usqueda de Respuestas, un fragmento de texto es requerido para apoyar la correccion de las respuestas. Los criterios de relevancia de la
B
usqueda de Respuestas se dise
nan considerando el fragmento de texto
dado como conservando la relacion directa entre los criterios de relevancia de la B
usqueda de Respuestas y los del Reconocimiento de la
Implicacion Textual:
Los pares correspondientes a respuestas consideradas como correctas
tienen un valor de vinculacion igual a SI.
Los pares correspondientes a respuestas consideradas como incorrectas o no soportadas tienen un valor de vinculacion igual a NO.
Los pares correspondientes a respuestas consideradas como inexactas
tienen un valor de vinculacion igual a DESCONOCIDO y son ignoradas de la propuesta de evaluacion.
Los pares de provenientes de respuestas no evaluadas en la tarea de
B
usqueda de Respuestas son etiquetados tambien como DESCONO-
135
136
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Grupo
LCC
Roma
ITC-irst
Roma
Alicante
Alicante
Alicante
Alicante
Twente
Twente
Valencia
Sistema
COGEX
ZNZ - TV 2
itc-irst
ZNZ - TV 1
MLEnt 2
Lin
MLEnt 1
Rel. WN
utwente.ta
utwente.lcs
ebisbal
Medida F
0.4559
0.4106
0.3919
0.3780
0.3720
0.3177
0.3174
0.3070
0.3022
0.2759
0.075
Precisi
on
0.3261
0.2838
0.3090
0.2707
0.2487
0.2040
0.2114
0.2144
0.3313
0.2692
0.2143
Cobertura
0.7576
0.7424
0.5354
0.6263
0.7374
0.7172
0.6364
0.5404
0.2778
0.2828
0.0455
5.4 Participaci
on en la tarea Answer Validation Exercise del CLEF 2006
tomando como n
ucleo principal el tratamiento logico-conceptual que
proporciona el recurso de representacion formal del texto esta en la
media del resto de sistemas de vinculacion textual participantes en la
tarea.
5.4.5 An
alisis y discusi
on
El cometido principal de la participacion en la tarea Answer Validation
Exercise del CLEF 2006, al igual que en la participacion en la tarea
Recognising Textual Entailment viene determinado por el tratamiento
logico-conceptual de la informacion manejada en los pares texto-hipotesis para decidir si el texto vincula la hipotesis o no. El tratamiento logico
de la informacion se centra en el manejo de los predicados de las formas
logicas asociadas tanto al texto como a la hipotesis. Desde el punto de
vista del tratamiento conceptual de la informacion se trata de establecer el grado de relacion que pueda existir entre determinados predicados
de ambas formas logicas. Estas relaciones vienen determinadas a partir
exploracion de conceptos mediante la jerarqua definida en el recurso
lexico WordNet.
Al igual que ocurra en la participacion en la tarea PASCAL RTE,
analizando los resultados de eficacia obtenidos de la participacion en
la tarea AVE del CLEF 2006, se puede concluir que el procedimiento empleado para resolver el problema del Textual Entailment obtiene
unos resultados obtiene unos resultados en la media de los obtenidos
por el resto de sistemas participantes en esta competicion. Por ello,
analizando y comparando los resultados obtenidos seg
un las medidas
de evaluacion utilizadas en la tarea PASCAL RTE como los resultados
obtenidos seg
un las medidas de evaluacion utilizadas en la tarea AVE,
se puede concluir que la aplicacion del recurso logico-conceptual como
n
ucleo del sistema es un metodo valido en el tratamiento de la Vinculacion Textual.
Al igual que se detalla en la seccion anterior del captulo, una vez demostrada la validez del recurso en el problema de la vinculacion textual
y, debido a que la tarea de la vinculacion textual resume las necesidades principales de inferencia semantica de otros sistemas del PLN
como la B
usqueda de Respuestas, la Recuperacion de Informacion, la
Extraccion de Informacion y la Generacion Automatica de Res
umenes,
podemos concluir tambien que la aplicacion del recurso en estas cuatro
aplicaciones del PLN es perfectamente valida desde el punto de vista
del matiz de completitud conceptual detallado al inicio del captulo.
137
138
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.5 Participaci
on en la tarea Multilingual Question
Answering del CLEF 2008
5.5.1 Introducci
on
La tarea de evaluacion Multilingual Question Answering (Forner et al.
, 2008) propone dos subtareas para evaluar la validez de los sistemas de
B
usqueda de Respuestas:
La subtarea monoling
ue en la que el idioma de las preguntas (source
language) y el idioma de la coleccion de documentos (target language)
es el mismo.
La subtarea de idiomas cruzados en la que las preguntas se formulan
en un idioma diferente al de la coleccion de documentos.
En esta tarea, los sistemas deben dar respuesta a 200 preguntas relacionadas por topico del modo mas exacto posible. Cada respuesta debe ser
extrada de alguna porcion de texto contenida en alg
un documento de
la coleccion. Estas porciones de texto pueden ser extradas de diferentes
secciones de los documentos relevantes y pueden ser resumidas hasta un
maximo de 700 bytes. No existen restricciones particulares en la longitud de las respuestas aportadas por los sistemas, pero se penalizan las
piezas innecesarias de informacion en ellas.
Las preguntas se relacionan por topico del siguiente modo:
El topico es nombrado bien en la primera pregunta o bien en la respuesta a esta primera pregunta.
Las siguientes preguntas pueden tener correferencias al topico expresado en el primer par pregunta-respuesta.
Por ejemplo, si el topico es George W. Bush, el conjunto de preguntas
relacionadas podras ser:
5.5 Participaci
on en la tarea Multilingual Question Answering del CLEF 2008
la agencia espa
nola de noticias EFE.
Las preguntas pueden ser de tres tipos:
Factuales. Estas preguntas se basan en hechos y pueden referirse a una
persona, un lugar, etc. Estas preguntas solo pueden tener ocho tipos
de respuesta: persona, tiempo, lugar, organizacion, medida, computo,
objeto y otro.
Definicion. Estas
son del tipo Que/Quien es X? y se dividen en
cuatro subtipos: persona, organizacion, objeto y otro.
Lista cerrada. La respuesta a este tipo de preguntas es una lista de
elementos.
Los criterios de evaluacion consideran la respuestas devueltas por los
sistemas en uno de los siguientes cuatro tipos:
R (correcta) si la respuesta es correcta.
W (incorrecta) si la respuesta es incorrecta.
X (inexacta) si la respuesta contiene menos o mas informacion de la
requerida como correcta.
U (no soportada) si el documento contenedor de la respuesta es
erroneo o no se corresponde con ninguno de los de la coleccion. Tambien se consideran en este tipo aquellas respuestas cuya porcion de
texto no contiene la respuesta exacta.
La principal medida de evaluacion es la precision aunque tambien, debido a que los sistemas pueden devolver mas de una respuesta por pregunta, se consideran en la evaluacion las dos siguientes medidas:
la medida de confianza ponderada Confident Weighted Score (CWS).
Las respuestas estan en un orden decreciente de confianza y CWS
premia a los sistemas dan las respuestas correctas en los primeros lugares del ranking.
el rango de media recproca Mean Reciprocal Rank (MRR) sobre N
respuestas calculadas por pregunta (para considerar las tres respuestas). Esta medida mide el n
umero de respuestas correctas en las primeras N posiciones. Por ejemplo, si la respuesta correcta esta en la
tercera posicion y N vale 3, su valor es de 1/3.
139
140
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.5.2 Motivaci
on y aportaciones esperadas
En lo que respecta a la evaluacion llevada a cabo hasta el actual apartado, el recurso logico-conceptual ha sido integrado en sistemas de PLN
que procesan textos en la lengua inglesa. Por el contrario, en el ambito
de esta evaluacion, el recurso se incorpora a un sistema de B
usqueda de
Respuestas en el que la coleccion documental se compone de un gran
volumen de noticias en espa
nol de la agencia EFE. Sin embargo, la coleccion de preguntas que procesa el sistema viene dada en la lengua inglesa.
Con el proposito de traducir cada una de estas preguntas de la lengua
inglesa a la espa
nola, se va a integrar el recurso de representacion desarrollado en el sistema de B
usqueda de Respuestas. Con ello se pretende
que, a partir del tratamiento logico-conceptual que hace a la representacion formal del texto independiente de la lengua, las preguntas representadas sean traducidas de la lengua inglesa a la espa
nola.
Tal y como se matiza en el tercer captulo, el n
ucleo de la representacion
es la forma logica. En la forma logica, alguna de las palabras del texto a representar como los determinantes y las palabras que indican los
tiempos verbales, no son representadas porque son consideradas como
irrelevantes en la propia representacion. Este hecho implica que, en el
proceso de traduccion de las preguntas a partir de esta representacion,
la propia traduccion va a tener una calidad ligeramente inferior a la obtenida por cualquier sistema de Traduccion Automatica que considera
todas las palabras de las preguntas. Debido a ello y a que el recurso
desarrollado no ha sido originalmente concebido para ser utilizado en
tareas de traduccion, se pretende que los resultados del proceso global
de B
usqueda de Respuestas aplicando la traduccion de las preguntas a
traves del tratamiento logico-conceptual proporcionado por el recurso
no sean muy inferiores a los obtenidos aplicando cualquier sistema de
Traduccion Automatica.
Con ello quedara demostrado que el tratamiento logico-conceptual proporcionado por el recurso que hace que la representacion semantica incorpore la informacion conceptual contenida en WordNet y relacionada
entre las diferentes lenguas a traves de EuroWordNet es perfectamente
valido para ser incorporado en el sistema de B
usqueda de Respuestas.
Desde esta optica quedaran demostrador los matices de completitud
conceptual e independencia de la lengua tratados al inicio del captulo.
5.5.3 Desarrollo
El problema de B
usqueda de Respuestas sobre la coleccion de documentos de EFE en el idioma espa
nol a preguntas traducidas del ingles al
5.5 Participaci
on en la tarea Multilingual Question Answering del CLEF 2008
141
idioma espa
nol se solventa aplicando el sistema de B
usquedas de Respuestas AliQAn (Roger et al. , 2005) desarrollado en el propio grupo
de investigacion. AliQAn es un sistema de B
usqueda de Respuestas en
el dominio abierto que hace un uso intenso de herramientas de PLN, en
concreto, etiquetado POS, analisis parcial y desambiguacion del sentido
de las palabras.
Este sistema, partiendo del analisis parcial, identifica las distintas estructuras gramaticales de una frase, llamadas bloques sintacticos (SB).
Estos bloques se corresponden con sintagmas verbales, sintagmas nominales o sintagmas preposicionales. Para detectar y extraer las respuestas
a las preguntas, a partir de las porciones de texto devueltas por el modulo de Recuperacion de Informacion, establece un emparejado entre los
bloques sintacticos de estas porciones de texto y los bloques sintacticos
de las preguntas.
Con el proposito de traducir las preguntas del ingles al espa
nol para poder ser procesadas por AliQAn se utiliza el tratamiento logicoconceptual que proporciona el recurso de formas logicas desarrollado en
el trabajo de investigacion. En concreto, este proceso se basa en el tratamiento especificado en las secciones 4.4 y 4.4.1 del anterior captulo.
Mediante este procedimiento de traduccion, la traduccion de preguntas
se basa en la traduccion de los diferentes predicados logico-conceptuales
que tiene la representacion semantica de las preguntas. Seg
un lo especificado en el trabajo de investigacion, la representacion semantica,
derivada a partir de la forma logica, no incluye en esta algunos constituyentes del texto como determinantes y tiempos verbales que, al no
tenerlos en la representacion, hacen que la calidad de la traduccion sea
algo inferior a la calidad de la traduccion realizada por cualquier otro
mecanismo de traduccion que disponga de toda la informacion dada en
las frases o expresiones a traducir.
Para demostrar este hecho, se utiliza un sistema de Traduccion Automatica ingles-espa
nol 4 con el que se comparara el resultado global del proceso de B
usqueda de Respuestas ante la traduccion de las preguntas
realizada con este traductor automatico frente a la traduccion de las
preguntas realizada a partir del tratamiento logico-conceptual incorporado en el recurso de formas logicas. Con ello, se pretende demostrar
que, aunque el tratamiento logico-conceptual que proporciona el recurso
de formas logicas, permite obtener una representacion en cualquier lengua de la oracion representada, la traduccion entre diferentes lenguas
a partir de esta representacion, no es tan buena como la Traduccion
4
142
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Ejecuci
on
Trad. aut.
L
ogico-C.
#R
25
18
#W
173
176
#X
0
3
#U
2
3
% Precisi
on
12.5
9
CSW
0.011
0.006
MRR
0.1450
0.1108
5.6 Evaluaci
on en la clasificaci
on de preguntas medicas
5.6 Evaluaci
on en la clasificaci
on de preguntas
m
edicas
5.6.1 Introducci
on
Una de las principales tareas de los sistemas de B
usqueda de Respuestas
es la clasificacion y el analisis de las preguntas formuladas al sistema.
Basicamente esta tarea tiene como proposito principal identificar tanto
el tipo de pregunta como el tipo de respuesta esperado, as como la
deteccion de las palabras clave de la pregunta. Toda esta informacion
la etiqueta de alguna manera para informar de ello al resto de tareas
que componen en su conjunto el proceso de B
usqueda de Respuestas.
Cuando se trabaja en B
usqueda de Respuestas en el dominio abierto, se
tiende a darle mas prioridad a la cobertura que a la precision, esto es, se
le suele dar mas importancia al gran abanico de preguntas de diferente naturaleza capaces de ser contestadas por los sistemas (ej. Donde
esta situado el edificio mas grande del mundo?, Cuantos torneos de la
ATP gano Roger Federer en el a
no 2006?, Cuando se caso por primera
vez Elizabeth Taylor?, Quien es Bill Clinton?,...) que a la precision
de la respuestas devueltas por el sistema para cualquier pregunta. Por
el contrario, cuando se habla de la B
usqueda de Respuestas en los dominios especficos, se reduce notablemente la cobertura por la propia
naturaleza del dominio especfico y la precision pasa a cobrar una mayor
importancia.
La primera tarea que hacen los sistemas de B
usqueda de Respuestas es
la clasificacion de las preguntas formuladas al sistema. Esta tarea re-
143
144
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
quiere de una gran precision porque errores en esta tarea condiciona negativamente el resultado global de la B
usqueda de Respuestas. Ademas,
en cualquier dominio especfico, se reduce notablemente la tipologa de
preguntas capaces de ser resueltas por los sistemas de B
usqueda de
Respuestas. Esto
es, se reduce la cobertura del sistema de B
usqueda
de Respuestas y, en consecuencia, se requiere que el proceso tenga una
elevada precision dada la reducida muestra de preguntas que el sistema
es capaz de resolver.
El objetivo perseguido en este hito consiste en desarrollar un clasificador de preguntas medicas (Terol et al. , 2007) basado en el tratamiento
logico-conceptual de las preguntas y en el manejo de la terminologa
empleada en el dominio medico.
Las diferentes preguntas en el dominio de la medicina pueden ser muy
numerosas, mas a
un si se tienen en cuenta cada una de sus disciplinas.
Con el proposito de construir un clasificador preciso, la tipologa de
preguntas medicas tratadas por el clasificador se centra en las definidas
por Ely et al. (2000) en la taxonoma de preguntas propuesta. Esta taxonoma de preguntas se obtiene de las diez preguntas mas frecuentes
que, seg
un un estudio practicado a 103 medicos de familia de Iowa y
a 49 medicos de atencion primaria de Oregon, manejan este tipo de
especialistas. Concretamente, estas diez preguntas son:
1. What is the drug of choice for condition x?
2. What is the cause of symptom x?
3. What test is indicated in situation x?
4. What is the dose of drug x?
5. How should I treat condition x (not limited to drug treatment)?
6. How should I manage condition x (not specifying diagnostic or therapeutic)?
7. What is the cause of physical finding x?
8. What is the cause of test finding x?
9. Can drug x cause (adverse) finding y?
10. Could this patient have condition x?
5.6 Evaluaci
on en la clasificaci
on de preguntas medicas
145
146
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
5.6 Evaluaci
on en la clasificaci
on de preguntas medicas
147
148
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Patr
on Seleccionado: P12
5
En este ejemplo s
olo se comparan patrones del primer tipo generico
5.6 Evaluaci
on en la clasificaci
on de preguntas medicas
149
150
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
El principal cometido del clasificador consiste en decidir, dada una pregunta, si dicha pregunta se corresponde con una de las 10 preguntas
genericas tratadas, y en este caso cual, o si por el contrario, dicha pregunta no se corresponde con ninguna de las genericas de la taxonoma
tratada. Para ello, el clasificador realiza una comparacion entre la forma semantica de la pregunta tratada y los patrones semanticos de las
preguntas genericas que realiza del siguiente modo:
El primer paso consiste en derivar la forma semantica de la pregunta
tratada as como su MESQ, del mismo modo que se ha visto en el
ejemplo 56.
Seguidamente, se extrae el verbo principal de la forma semantica.
El siguiente paso consiste en encontrar los patrones semanticos de
las preguntas genericas cuyo verbo coincida con el verbo de la forma semantica de la pregunta tratada y se cumpla que M ELT
M ESQ M EU T .
Finalmente calculamos el factor EMM definido como el n
umero de
entidades medicas que tienen en com
un la forma semantica de la pregunta y el patron semantico.
El u
ltimo paso consiste en quedarse con el patron semantico cuya diferencia entre el factor EMM y el umbral MELT es mnima.
Si ning
un patron semantico cumple los requisitos de este proceso, entonces la pregunta tratada no se asocia con ninguna de las preguntas
genericas de la taxonoma.
Los resultados obtenidos en esta primera tarea de clasificacion se muestran en las tablas 5.11 y 5.12. En la tabla 5.11 se muestran los resultados
obtenidos en la clasificacion de cada subclase de preguntas, mientras que
en la tabla 5.12 se muestran los mismos resultados desde un punto de
vista mas global de la evaluacion taxonoma de preguntas genericas.
Se puede apreciar en la tabla 5.12 que el resultado global de la clasificacion de preguntas es de un 94,4 %. Analizando este valor se puede llegar
a una primera conclusion de que el metodo de clasificacion de preguntas
medicas desarrollado a partir del tratamiento logico-conceptual aportado en el recurso, es un metodo factible.
Con el proposito de realizar una comparacion con alg
un otro tipo de
clasificador, en el seno del grupo de investigacion, se ha desarrollado
un clasificador para el mismo tipo de preguntas basado en aprendizaje
5.6 Evaluaci
on en la clasificaci
on de preguntas medicas
Clase Clasificada
GQ1
GQ2
GQ3
GQ4
GQ5
GQ6
GQ7
GQ8
GQ9
GQ10
OQ
Clase Relacionada
GE1
GE2
GE3
GE4
GE5
GE6
GE7
GE8
GE9
GE10
OE
Preguntas
5
5
5
5
5
5
5
5
5
5
200
Correctas
5
5
3
4
5
4
4
3
5
4
194
Precisi
on
1
1
0.6
0.8
1
0.8
0.8
0.6
1
0.8
0.97
Clase Relacionada
GE
OE
Preguntas
50
200
250
Correctas
42
194
231
Precisi
on
0.84
0.97
0.944
automatico utilizando la tecnica SVM (Bisbal et al. , 2005). Este clasificador se basa en caractersticas textuales superficiales que hacen un
escaso uso de recursos y herramientas ling
usticas adicionales.
Este segundo clasificador basado en aprendizaje automatico requiere de
un entrenamiento previo a la clasificacion. Para ello se han desarrollado
300 preguntas (30 preguntas por cada uno de los 10 tipos genericos).
En el Anexo C estan detalladas cada una de estas 300 preguntas.
Para la clasificacion se elaborado tres diferentes colecciones de preguntas que tambien estan detalladas en el anexo C:
Coleccion 1: Contiene cien preguntas de test (diez de cada tipo generico) con un lexico similar a las preguntas de entrenamiento.
Coleccion 2: Modifica las preguntas de la coleccion 1 incluyendo alteraciones del lexico consistentes en el cambio de los tiempos verbales
y la utilizacion de sinonimos para los verbos y los sustantivos.
Coleccion 3: Modifica las preguntas de la coleccion 2 incluyendo alteraciones del lexico consistentes en la supresion de la terminologa
gua. En esta version, las expresiones drug accupril y situation
constipated de la coleccion 2 pasaran a la forma accupril y constipated respectivamente.
151
152
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Ejecuci
on
1
2
3
Clasificador l
ogico-conceptual
0.98
0.98
0.98
Clasificador SVM
1
0.73
0.45
5.7 Conclusiones
captulo. Esto
es, queda demostrado tambien que el tratamiento logicoconceptual proporcionado por el recurso que hace que la representacion
semantica incorpore la informacion conceptual contenida en el tesauro
medico asociada a las palabras de las preguntas y, a su vez, que esta
informacion conceptual sea no ambigua, es perfectamente valido para
ser incorporado en el clasificador de las preguntas medicas.
5.7 Conclusiones
A lo largo del captulo se justifica la necesidad de evaluar toda la funcionalidad proporcionada por el recurso logico-conceptual a partir de
diferentes evaluaciones que, en su conjunto, engloben las diferentes aportaciones efectuadas por el recurso logico-conceptual.
153
154
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
Por ello, para demostrar la validez del recurso logico-conceptual se define un marco de evaluacion en el que queden integrados los componentes
principales que constituyen el recurso logico-conceptual. Una vez definido este marco, la evaluacion global del recurso se estructura en evaluaciones parciales que, tanto de manera individual como de un modo
colectivo, indican la validez de cada uno de estos componentes as como
la validez global del recurso logico-conceptual.
Debido a que el recurso logico-conceptual consiste en un mecanismo de
representacion formal del texto basado en formas logicas cuyos componentes o caractersticas fundamentales son: ser precisa, conceptualmente
completa, independiente del dominio e independiente de la lengua, los
matices que contempla este marco de evaluacion son: precision, completitud conceptual e independencia tanto del dominio como de la lengua.
Por ello, la evaluacion practicada al recurso es llevada a cabo a traves
de diferentes tareas de evaluacion que, en su conjunto, engloban todos
los matices detallados. De este modo, la utilidad o validez que la incorporacion del recurso ejerce en los sistemas de PLN es evaluada de
manera global en el marco de la tarea o tareas estandares de evaluacion
de cada sistema de PLN.
En el proceso de analisis y determinacion de las tareas de evaluacion que
deben ser practicadas al recurso para demostrar su validez, en un primer
lugar, se tienen en cuenta las campa
nas internacionales de evaluacion
existentes cuyas tareas consideren alguno de los matices planteados. En
segundo lugar, para el resto de matices no contemplados por este primer conjunto de tareas de evaluacion, es necesario el planteamiento de
tareas de evaluacion ad-hoc. Finalmente, se eval
ua la validez del recurso
desarrollado en la investigacion en el marco de cada una de estas tareas.
En el ambito del amplio espectro de diferentes sistemas de PLN donde
el recurso puede ser incorporado con la finalidad de evaluar la validez
que la incorporacion del recurso aporta a cada uno de los diferentes
sistemas, el hecho de llevar a cabo este proceso de evaluacion con todo
el abanico de sistemas de PLN hara interminable el propio proceso de
evaluacion. Con objeto de evitar esto, se ha escogido una muestra mas
reducida del espectro de sistemas de PLN que abarque las necesidades
de representacion formal del texto que tienen en su conjunto el amplio espectro de sistemas de PLN. Concretamente, los sistemas de PLN
en los que se eval
ua la validez que aporta la incorporacion del recurso
logico-conceptual son: Recuperacion de Informacion, B
usqueda de Repuestas y, Vinculacion o Implicacion Textual.
5.7 Conclusiones
155
156
5. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto
logico-conceptual y, en consecuencia, se demuestra la validez del recurso logico-conceptual desde el punto de vista del matiz de completitud
conceptual definido en el marco de la evaluacion.
Mediante la participacion en la tarea QACLEF se pretende demostrar
que el recurso logico-conceptual es valido desde el punto de vista de los
matices de completitud conceptual e independencia de la lengua definidos en el marco de la evaluacion. Analizando los resultados en esta
tarea se demuestra que el recurso logico-conceptual es valido desde estos dos matices, siendo capaz de obtener una representacion com
un de
cualquier oracion expresada en sus diferentes lenguas a traves del tratamiento logico-conceptual.
Mediante la participacion en la tarea ad-hoc de clasificacion de preguntas medicas se pretende demostrar que el recurso logico-conceptual es
valido desde el punto de vista de los matices de completitud conceptual e independencia del dominio definidos en el marco de la evaluacion. Analizando los diferentes resultados obtenidos por el clasificador
de preguntas logico-conceptual y comparandolos con los obtenidos por
el clasificador de preguntas basado en aprendizaje automatico se concluye que la validez del recurso logico-conceptual desde ambos matices.
En general y, tras analizar los resultados de la evaluacion del recurso
logico-conceptual en el marco de las evaluaciones definido en estas tareas
y, considerando los matices que contemplan cada una de ellas, cabe
concluir que el recurso logico-conceptual desarrollado en la investigacion
es preciso, conceptualmente completo e independiente tanto del dominio
como de la lengua. Con ello quedan totalmente alcanzados los objetivos
planteados al inicio del trabajo de investigacion.
6. Conclusiones finales
Durante los u
ltimos a
nos se esta produciendo un notable crecimiento
de la cantidad de informacion multiling
ue en formato digital unido a
la fuerte expansion de las comunicaciones entre ordenadores como va
principal de transmision de informacion entre usuarios. La gran cantidad de informacion multiling
ue disponible junto al creciente n
umero de
usuarios finales que disponen de acceso directo a dicha informacion a
traves de las redes de ordenadores, ha derivado la investigacion en sistemas de informacion textual o sistemas de PLN que faciliten el analisis,
la localizacion, la gestion, el acceso y el tratamiento automatico de toda
esta informacion multiling
ue.
Aparte de esta cantidad ingente de informacion multiling
ue que debe
ser tratada por los sistemas de PLN, se debe considerar tambien que en
los u
ltimos a
nos se esta produciendo una adaptacion de aplicaciones o
sistemas de PLN del dominio abierto al dominio restringido, y viceversa.
Los diferentes sistemas de PLN (B
usqueda de Respuestas, Recuperacion
de Informacion, Generacion de Res
umenes, Categorizacion Automatica
del Texto, ...) no procesan el texto directamente tal cual ha sido escrito o
transcrito sino que, previo a su procesamiento, el texto es transformado
en una representacion formal que preserva sus caractersticas relevantes.
Es por ello por lo que la representacion formal del texto es una cuestion
muy importante a tener en cuenta en el PLN.
El trabajo de investigacion desarrollado en esta tesis profundiza en el estudio de los mecanismos de representacion formal del texto que incorporan los diferentes sistemas de PLN para realizar su cometido. Dadas las
necesidades de procesamiento del texto tanto en entornos multiling
ues
como en entornos multidominio, se ha definido un nuevo mecanismo
o recurso de representacion formal del texto que puede ser utilizado
por cualquier sistema de PLN con la particularidad de ser sencillamente adaptable y portable tanto a cualquier dominio como a cualquier
lengua.
158
6. Conclusiones finales
6.1 Aportaciones
A continuacion se resumen las principales contribuciones de esta Tesis:
1. Recopilacion de los diferentes tipos de sistemas de PLN.
Se han descrito las caractersticas basicas de las diferentes aplicaciones de PLN en base a las actuaciones que deben llevar a cabo
para realizar su cometido. Se han establecido una serie de pautas
para la clasificacion de este tipo de aplicaciones seg
un el grado de
informacion ling
ustica utilizado en el desempe
no de sus funciones.
2. Analisis de las u
ltimas tendencias en los sistemas de PLN.
Se ha efectuado un analisis de las predisposiciones surgidas durante
la u
ltima decada en los sistemas mas comunes del PLN, detectandose que:
a) Estos sistemas son capaces de procesar el texto tanto en el dominio abierto como en cualquier dominio restringido.
b) Los sistemas de PLN son capaces de trabajar indistintamente en
diferentes lenguas.
3. Recopilacion, estudio y clasificacion de los modelos de representacion formal del texto.
Se ha justificado la necesidad que tienen los diferentes sistemas de
PLN de disponer de alg
un mecanismo de representacion formal del
texto que facilite su analisis y comprension. En esta Tesis se ha
realizado una clasificacion y un profundo estudio de los diferentes
enfoques de representacion formal del texto existentes, as como una
comparacion de los diferentes enfoques destacando las ventajas e inconvenientes de unos frente a otros. Se ha efectuado tambien un
estudio referente a la integracion de estos modelos de representacion formal del texto en los principales sistemas de PLN.
4. Analisis y estudio de los modelos de representacion formal del texto
basados en logica y en formas logicas.
Se examinan los diferentes modelos de representacion del conocimiento que hacen uso de un fuerte formalismo logico, desembocando
en un estudio exhaustivo de los dos modelos de representacion del
texto basados en formas logicas mas utilizados y referenciados en el
6.1 Aportaciones
PLN durante la u
ltima decada.
5. Definicion de un nuevo modelo de representacion formal del texto
basado en formas logicas.
El recurso logico-conceptual es un modelo de representacion formal
del texto basado en formas logicas que se diferencia del resto por:
a) El metodo de inferencia de la forma logica se realiza de manera composicional a partir del arbol de dependencias de la frase
resolviendo, en un primer lugar, los nodos hoja del arbol de dependencias y, en segundo lugar, las relaciones de dependencia
entre los nodos intermedios del arbol hasta llegar a la raz donde, definitivamente, queda inferida la forma logica.
b) La informacion semantica representada en la forma logica se
efect
ua mediante los conceptos asociados a las palabras de la
frase que quedan representadas mediante los predicados. Si,
ademas, el recurso o recursos utilizados para extraer esta informacion conceptual de las palabras permite adquirir mas informacion semantica que pueda resultar de utilidad en la representacion como los tipos o categoras semanticas de los conceptos,
esta informacion es incorporada tambien en la propia representacion.
c) Este tratamiento hace que el recurso logico-conceptual sea tanto
independiente del dominio como de la lengua. La portabilidad
del recurso logico-conceptual tanto entre diferentes dominios como entre diferentes lenguas depende u
nica y exclusivamente de
la disposicion o no que se tenga de un recurso en el que queden
conceptualizadas las palabras del nuevo dominio o la nueva lengua a tratar.
6. Definicion de un nuevo marco de evaluacion.
Con objeto de evaluar la validez del recurso logico-conceptual se ha
definido un marco de evaluacion en el que quedan integrados los
componentes principales del recurso. Este marco de evaluacion global se estructura en evaluaciones parciales con objeto de, tanto de
manera individual como de un modo colectivo, indicar la validez de
cada uno de estos componentes as como la validez global del recurso
logico-conceptual. En este marco de evaluacion han sido incluidas
diferentes tareas de PLN:
159
160
6. Conclusiones finales
161
162
6. Conclusiones finales
Otro detalle a tener en cuenta consiste en contemplar en la representacion formal del texto las nuevas unidades lexicas que simplifican la
escritura de palabras y expresiones utilizando menor n
umero de caracteres. Ejemplo de ello son expresiones del tipo xq (porque), aptc
(apetece), see u (adios), etc.
Extension de la evaluacion del recurso a otros sistemas de PLN.
Se ha evaluado el recurso en el ambito de la Recuperacion de Informacion, la B
usqueda de Respuestas y Vinculacion Textual. Se pretende
extender este espectro de evaluacion a otros sistemas de PLN tales como la Categorizacion Automatica del Texto, la Generacion de
Res
umenes, los Sistemas de Dialogo, la Extraccion de Informacion,
etc.
Estudio de nuevas metricas de evaluacion.
Se han considerado metricas de evaluacion que indican la validez del
recurso desde los puntos de vista de las propiedades de precision,
completitud conceptual e independencia tanto del dominio como de
la lengua. Estas metricas han sido tenidas en cuenta desde la perspectiva de los conceptos de eficacia y eficiencia. Sera interesante sopesar
tambien nuevas metricas que indiquen la validez de las propiedades
del recurso desde el punto de vista del concepto de efectividad.
Incorporacion del recurso a una plataforma de integracion de herramientas de PLN.
Desde el punto de vista de la programacion, la integracion del recurso
efectuada por los sistemas de PLN no ha sido trivial ya que previamente se han tenido que resolver diferentes dependencias entre los
lenguajes de programacion y las plataformas. Para evitar este tipo de
problemas, la incorporacion del recurso a la plataforma de integracion
InTime (Gomez, 2008) permitira que los diferentes sistemas de PLN
pudiesen integrar el recurso de una manera modular y, en consecuencia, ello permitira una extensibilidad del recurso hacia los sistemas
de PLN de un modo sencillo.
6.3 Producci
on cientfica
Revistas indexadas (SCI):
R.M. Terol, P. Martnez-Barco y M. Palomar (2007). A knowledge
based method for the medical question answering problem. Compu-
6.3 Producci
on cientfica
163
164
6. Conclusiones finales
R.M. Terol, P. Martnez-Barco y M. Palomar (2007). Applying Logic Forms and Statistical Methods to CL-SR Performance, en: Peters, C.; Clough, P.; Gey, F.; Karlgren, J.; Magnini, B.; Oard, D.;
de Rijke, M.; Stempfhuber, M. (Eds.) Evaluation of Multilingual
and Multi-modal Information Retrieval. 7th Workshop of the CrossLanguage Evaluation Forum, CLEF 2006, Alicante, Spain, September 20-22, 2006, Revised Selected Papers. Lecture Notes in Computer Science, Vol. 4730/2007, Springer-Verlag.
Ferrandez, R.M. Terol, R. Mu
O.
noz, P. Martnez-Barco y M. Palomar (2006). Deep vs. Shallow Semantic Analysis Applied to Textual
Entailment Recognition, en: Salakoski, T.; Ginter, F.; Pyysalo, S.;
Pahikkala, T. (Eds.) Advances in Natural Language Processing. 5th
International Conference on NLP, FinTAL 2006 Turku, Finland,
August 23-25, 2006 Proceedings, Lecture Notes in Computer Science, Vol. 4139/2006, Springer-Verlag.
Ferrandez, R.M. Terol, R. Mu
O.
noz, P. Martnez-Barco y M. Palomar (2006). A Knowledge Based Strategy for Recognising Textual
Entailment, en: Sojka, P.; Kopecek, I.; Pala, K. (Eds.) Text, Speech
and Dialogue. 9th International Conference, TSD 2006, Brno, Czech Republic, September 11-15, 2006. Proceedings, Lecture Notes in
Computer Science, Vol. 4188/2006, Springer-Verlag.
R.M. Terol, P. Martnez-Barco y M. Palomar (2007). Applying NLP
Techniques and Biomedical Resources to Medical Questions in QA
Performance, en: Gelbukh, A.; Reyes-Garcia, C.A. (Eds.) MICAI
2006: Advances in Artificial Intelligence. 5th Mexican International
Conference on Artificial Intelligence, Apizaco, Mexico, November
13-17, 2006. Proceedings, Lecture Notes in Computer Science, Vol.
4293/2006, Springer-Verlag.
E. Noguera, F. Llopis, R. Mu
noz, R.M. Terol, M.A. Garca-Cumbreras,
F. Martnez-Santiago, y A. Montejo-Raez (2005). Bilingual and
Multilingual Experiments with the IR-n system, en: Peters, C.; Gonzalo, J.; M
uller, H.; Jones, G.J.F.; Kluck, M.; Magnini, B.; de Rijke, M. (Eds.) Accessing Multilingual Information Repositories. 6th
Workshop of the Cross-Language Evalution Forum, CLEF 2005,
Vienna, Austria, 21-23 September, 2005, Revised Selected Papers,
Lecture Notes in Computer Science, Volume 4022/2006. SpringerVerlag.
noz, F. Llopis
R.M. Terol, P. Martnez-Barco, M. Palomar, R. Mu
y E. Noguera (2005). The University of Alicante at CL-SR Track,
en: Peters, C.; Gonzalo, J.; M
uller, H.; Jones, G.J.F.; Kluck, M.;
6.3 Producci
on cientfica
Magnini, B.; de Rijke, M. (Eds.) Accessing Multilingual Information Repositories. 6th Workshop of the Cross-Language Evalution
Forum, CLEF 2005, Vienna, Austria, 21-23 September, 2005, Revised Selected Papers, Lecture Notes in Computer Science, Volume
4022/2006. Springer-Verlag.
F. Llopis, R. Mu
noz, R.M. Terol y E. Noguera (2005). IR-n r2:
Using Normalized Passages, en: Peters, C.; Clough, P.; Gonzalo,
J.; Jones, G.J.F.; Kluck, M.; Magnini, B. (Eds.) Multilingual Information Access for Text, Speech and Images. 5th Workshop of the
Cross-Language Evaluation Forum, CLEF 2004, Bath, UK, September 15-17, 2004, Revised Selected Papers, Lecture Notes in Computer Science, Volume 3491/2005. Springer-Verlag.
R.M. Terol, P. Martnez-Barco, F. Llopis y T. Martnez (2005). An
Application of NLP Rules to Spoken Document Segmentation Task,
en: Montoyo, A.; Mu
noz, R.; Metais, E. (Eds.) Natural Language
Processing and Information Systems. 10th International Conference on Applications of Natural Language to Information Systems,
NLDB 2005, Alicante, Spain, June 15-17, 2005. Proceedings, Lecture Notes in Computer Science, Volume 3513/2005. Springer-Verlag.
R.M. Terol, P. Martnez-Barco y M. Palomar (2004). An architecture for Spoken Document Retrieval, en: Sojka, P.; Kopecek, I.;
Pala, K. (Eds.) Text, Speech and Dialogue. 7th International Conference, TSD 2004, Brno, Czech Republic, September 8-11, 2004.
Proceedings, Lecture Notes in Computer Science, Vol. 3206/2004,
Springer-Verlag.
Congresos internacionales:
M. Pardi
no, R.M. Terol, P. Martnez-Barco, F. Llopis y E. Noguera
(2007). Using IR-n for Information retrieval of Genomics Track 16th
Text REtrieval Conference (TREC-16), Gaithersburg (EEUU).
R.M. Terol (2006) Applying NLP Methods to Medical QA Performance I Congreso Internacional de Tecnologas del Lenguaje Humano (INAOE), Tonantzintla (Mexico).
Ferrandez, R.M. Terol, R. Mu
noz, P. Martnez-Barco y M. Pa O.
lomar (2006). An Approach Based on Logic Forms and WordNet
relationships to Textual Entailment Performance. The Second PASCAL Recognising Textual Entailment Challenge (PASCAL RTE-2),
Venecia (Italia).
165
166
6. Conclusiones finales
R.M. Terol, P. Martnez-Barco y M. Palomar (2005). Applying Logic Forms to Biomedical Q-A. International Symposium on Innovations in Intelligent Systems and Applications, Estambul (Turqua).
R.M. Terol, P. Martnez-Barco y M. Palomar (2003). Architecture of a multimodal dialogue system oriented to multilingual
question-answering. Recent Advances on Natural Language Processing (RANLP 2003). Borovets (Bulgaria).
En el captulo 3 se ha comentado que la derivacion de la forma logica consiste en un proceso composicional que empieza en las hojas del
arbol de dependencias y contin
ua por sus ramificaciones en sentido ascendente hasta llegar a la raz. Luego, la primera tarea del proceso de
derivacion de la forma logica consiste en resolver los nodos hoja del
arbol de dependencias. En el mismo captulo, tambien se ha justificado
la necesidad de reglas simples cuyo proposito es resolver los predicados
de la forma logica generados en las hojas del arbol de dependencias. A
continuacion se especifican estas reglas simples.
Especificaci
on de las reglas simples
Tal y como matiza el algoritmo Regla Simple detallado en el captulo 3,
el primer paso consiste en decidir si el nodo hoja genera o no un predicado en la forma logica. Los nodos hoja que infieren un predicado en la
forma son aquellos cuya categora lexica se corresponda con sustantivo,
adjetivo, indeterminado y preposicion. Cabe destacar, que en el analisis de dependencias, los adverbios son etiquetados de la misma manera
que los adjetivos y, en la forma logica, tienen el mismo tratamiento, a
excepcion de los adverbios que indican la negacion del verbo.
Una vez comprobada la categora lexica del nodo hoja, en el caso de
que esta se corresponda con alg
un tipo de los comentados en el parrafo
anterior, el siguiente paso del algoritmo consiste en generar el predicado
asociado al nodo hoja. A continuacion se especifica la derivacion de los
predicados asociados a los nodos hoja atendiendo a la categora lexica
de los nodos hoja.
Derivaci
on de predicados en nodos hoja del tipo sustantivo
Los nodos hoja del tipo sustantivo infieren un predicado con un u
nico
argumento que queda instanciado con una variable del tipo x. A continuacion, el cuadro 57 muestra un ejemplo de derivacion del predicado
asociado a un nodo hoja de tipo sustantivo.
168
(57) Expresi
on: The northeast of London.
Nodo hoja: London
Predicado inferido: london:NN(x1)
Derivaci
on de predicados en nodos hoja del tipo adjetivo
Los nodos hoja del tipo adjetivo infieren un predicado con un u
nico
argumento que queda instanciado con una variable del tipo x. A continuacion, el cuadro 59 muestra un ejemplo de derivacion del predicado
asociado a un nodo hoja de tipo adjetivo.
(58) Expresi
on: The red house.
Nodo hoja: red
Predicado inferido: red:JJ(x1)
Derivaci
on de predicados en nodos hoja del tipo indeterminado
Los nodos hoja del tipo indeterminado infieren un predicado con un
u
nico argumento que queda instanciado con una variable del tipo x.
Como caracterstica significativa, el tipo de predicado inferido no es
posible determinado en este nivel del proceso de inferencia de la forma
logica. Ello lo realizara la regla compleja que tenga en cuenta los detalles
significativos al n
ucleo, modificador, tipo y posicion de la dependencia,
tal y como se matiza en el siguiente anexo. A continuacion, el cuadro
59 muestra un ejemplo de derivacion del predicado asociado a un nodo
hoja de tipo indeterminado.
(59) Expresi
on: The magnetic resonance imaging.
Nodo hoja: magnetic
Predicado inferido: magnetic: (x1)
Nodo hoja: resonance
Predicado inferido: resonance: (x2)
Derivaci
on de predicados en nodos hoja del tipo preposici
on
Este tipo de nodo hoja tiene un tratamiento especial. Se suele dar en
los phrasal verbs. Por ello, la estrategia de la regla simple en este caso
es no hacer nada y dejar que sea la regla compleja quien resuelva la
dependencia. A continuacion, el cuadro 60 muestra un ejemplo de este
tratamiento.
(60) Expresi
on: Switch the light on.
169
Nodo hoja: on
Predicado inferido:
Reglas de derivaci
on de predicados del tipo sustantivo
En un nodo intermedio del tipo sustantivo, el n
umero de reglas complejas que se pueden dar es muy alto, dependiendo de los factores mencionados al inicio del anexo. Basicamente, todas estas reglas complejas
tienen en com
un la derivacion del predicado de tipo sustantivo asociado
al nodo n
ucleo de la relacion de dependencia, as como la comproba-
172
(61) Expresi
on: The red house.
Nodo modificador: the
Categora l
exica nodo modificador: Det
Posici
on nodo modificador: anterior
Predicados del nodo modificador:
Nodo n
ucleo: house
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: det
Predicados del nodo n
ucleo: house:NN( )1
Restricciones a tratar: Ninguna.
(62) Expresi
on: The red house.
Nodo modificador: red
Categora l
exica nodo modificador: A
1
Todava ninguna variable instancia el predicado porque faltan relaciones de dependencia por
resolver en el nodo n
ucleo
173
Posici
on nodo modificador: anterior
Predicados del nodo modificador: red:JJ(x1)
Nodo n
ucleo: house
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: mod
Predicados del nodo n
ucleo: red:JJ(x1) house:NN( )
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
red:JJ(x1) house:NN(x1)
(63) Expresi
on: The northeast of London.
Nodo modificador: of
Categora l
exica nodo modificador: Prep
Posici
on nodo modificador: posterior
Predicados del nodo modificador: of:IN( , x1)2 london:NN(x1)
Nodo n
ucleo: northeast
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: mod
Predicados del nodo n
ucleo: northeast:NN(x2) of:IN( ,
x1) london:NN(x1)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
northeast:NN(x2) of:IN(x2, x1) london:NN(x1)
Reglas de derivaci
on de predicados del tipo verbo
Del mismo modo que sucede en el caso de los sustantivos, el n
umero de
reglas complejas que se pueden dar en una relacion de dependencia en
la que el nodo n
ucleo de la relacion es del tipo verbo es muy elevado.
Para simplificar, a continuacion se van a mostrar tres ejemplos de ellas.
El ejemplo 64 muestra una relacion de dependencia del tipo sujeto. Estas dos relaciones de dependencia originan que se tengan que realizar
comprobaciones entre los predicados provenientes de los nodos modificadores y el predicado generado en el nodo n
ucleo, reflejando con ello
las relaciones entre estos predicados de la forma logica. Por el contrario,
el ejemplo 65 muestra una relacion de dependencia del tipo objeto. Por
2
174
u
ltimo, el ejemplo 66 muestra la relacion de dependencia relativa a un
phrasal verb. Esta u
ltima relacion de dependencia produce que al lema
del predicado generado en el nodo n
ucleo se le concatene el lema de la
preposicion del nodo modificador.
(64) Expresi
on: Peter had filled the tank up.
Nodo modificador: Peter
Categora l
exica nodo modificador: N
Posici
on nodo modificador: anterior
Predicados del nodo modificador: peter:NN(x1)
Nodo n
ucleo: filled
Categora l
exica del nodo n
ucleo: V
Relaci
on de dependencia: subj
Predicados del nodo n
ucleo: peter:NN(x1) fill:VB(e1,
, )
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
peter:NN(x1) fill:VB(e1, x1, )
(65) Expresi
on: Peter had filled the tank up.
Nodo modificador: tank
Categora l
exica nodo modificador: N
Posici
on nodo modificador: posterior
Predicados del nodo modificador: tank:NN(x2)
Nodo n
ucleo: filled
Categora l
exica del nodo n
ucleo: V
Relaci
on de dependencia: obj
Predicados del nodo n
ucleo: peter:NN(x1) fill:VB(e1,
x1, ) tank:NN(x2)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
peter:NN(x1) fill:VB(e1, x1, x2) tank:NN(x2)
(66) Expresi
on: Peter had filled the tank up.
Nodo modificador: up
Categora l
exica nodo modificador: Prep
Posici
on nodo modificador: posterior
175
Reglas de derivaci
on de predicados del tipo adjetivo
En lenguaje natural es bastante frecuente encontrar la secuencia de dos
o mas adjetivos que modifican a un sustantivo o a un sintagma nominal. Ejemplo de ello son las expresiones long fair hair, massive young
stars, etc. Cuando en la fase analisis de las relaciones de dependencias
se encuentra una expresion de este tipo, la regla que la resuelve ha de
realizar la comprobacion entre los predicados provenientes del nodo modificador y el predicado generado en el nodo n
ucleo, reflejando con ello
las relaciones entre estos predicados de la forma logica. A continuacion,
el ejemplo 67 muestra la resolucion de la relacion de dependencia relativa a este tipo de expresiones.
(67) Expresi
on: Susan has long fair hair and blue eyes.
Nodo modificador: long
Categora l
exica nodo modificador: A
Posici
on nodo modificador: anterior
Predicados del nodo modificador: long:JJ(x1)
Nodo n
ucleo: fair
Categora l
exica del nodo n
ucleo: A
Relaci
on de dependencia: mod
Predicados del nodo n
ucleo: long:JJ(x1) fair:JJ( )
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
long:JJ(x1) fair:JJ(x1)
176
Reglas de derivaci
on de predicados del tipo preposici
on
Este tipo de reglas de derivacion siempre van a tener que realizar comprobaciones entre el predicado proveniente del nodo modificador y el
predicado generado en el nodo n
ucleo, reflejando de este modo las relaciones entre estos predicados de la forma logica. A continuacion, el
ejemplo 68 refleja la regla que resuelve un caso particular de relacion
de dependencia asociada a una preposicion en el nodo n
ucleo.
(68) Expresi
on: The northeast of London.
Nodo modificador: London
Categora l
exica nodo modificador: N
Posici
on nodo modificador: posterior
Predicados del nodo modificador: london:NN(x1)
Nodo n
ucleo: of
Categora l
exica del nodo n
ucleo: Prep
Relaci
on de dependencia: pcomp-n
Predicados del nodo n
ucleo: of:JJ( , ) london:NN(x1)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
of:JJ( , x1) london:NN(x1)
Reglas de derivaci
on de predicados del tipo atributo
En este tipo de reglas, el nodo n
ucleo de la relacion de dependencia
es siempre un verbo copulativo. La caracterstica principal de este tipo
de reglas es que deben chequear las relaciones existentes entre los predicados del nodo n
ucleo y modificador de la relacion de dependencia,
quedando reflejadas en el predicado del tipo atributo inferido en la regla. Seguidamente se especifica en el ejemplo 69 la aplicacion de una de
estas reglas.
(69) Expresi
on: The car is green.
Nodo modificador: green
Categora l
exica nodo modificador: A
Posici
on nodo modificador: posterior
Predicados del nodo modificador: green:JJ(x1)
177
Nodo n
ucleo: is
Categora l
exica del nodo n
ucleo: V
Relaci
on de dependencia: pred
Predicados del nodo n
ucleo: be:VB(e1, , ) Atributo:IN( , ) green:JJ(x1)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
be:VB(e1, , ) Atributo:IN(e1, x1) green:JJ(x1)
Reglas de derivaci
on de predicados del tipo conjunci
on/disyunci
on
Este tipo de reglas de derivacion incorporan en la forma logica el predicado asociado a la relacion de conjuncion/disyuncion existente entre
los predicados inferidos en los nodos inferiores al nodo cabeza de la dependencia. Para ello, siempre van a tener que realizar comprobaciones
entre los predicados provenientes de los nodos modificadores y el predicado generado en el nodo n
ucleo, reflejando de este modo esta relacion
de conjuncion/disyuncion entre estos predicados de la forma logica. A
continuacion, el ejemplo 70 detalla la aplicacion de una de estas reglas.
(70) Expresi
on: U.S. and Iraqi forces have begun a push
into Falluja.
Nodo modificador: forces
Categora l
exica nodo modificador: N
Posici
on nodo modificador: posterior
Predicados del nodo modificador: iraqi:JJ(x1) forces:NN(x1)
Nodo n
ucleo: U.S.
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: conj
Predicados del nodo n
ucleo: u.s.:NN(x2) and:CC(x3,
x2, ) iraqi:JJ(x1) forces:NN(x1)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
u.s.:NN(x2) and:CC(x3, x2, x1) iraqi:JJ(x1) forces:NN(x1)
178
Reglas de derivaci
on de predicados del tipo nominal
compuesto
Este tipo de reglas de derivacion, cuyo proposito es inferir en la forma
logica el predicado asociado al nominal compuesto a partir de los predicados asociados a los nominales simples, siempre van a tener que realizar
comprobaciones entre el predicado proveniente del nodo modificador y
el predicado generado en el nodo n
ucleo, reflejando de este modo esta
relacion entre ambos predicados de la forma logica. A continuacion, el
ejemplo 71 detalla la aplicacion de una de estas reglas.
(71) Expresi
on: Peter Douglas had filled the tank up.
Nodo modificador: Peter
Categora l
exica nodo modificador: N
Posici
on nodo modificador: anterior
Predicados del nodo modificador: Peter:NN(x1)
Nodo n
ucleo: Douglas
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: nn
Predicados del nodo n
ucleo: peter:NN(x1) peter douglas:NNC(x3,
, x2) douglas:NN(x2)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
peter:NN(x1) peter douglas:NNC(x3, , x2) douglas:NN(x2)
A veces sucede que, en el arbol de dependencias, el nominal simple proveniente del nodo modificador de la relacion de dependencia esta etiquetado incorrectamente. En este caso, todos los predicados inferidos en la
forma logica a partir de los dos nodos implicados en la relacion se infieren en el tratamiento de esta regla compleja, con lo que no es necesario
ning
un tipo de comprobacion adicional, ya que desde nodos inferiores
no viene ning
un predicado. A continuacion, el ejemplo 72 muestra la
regla compleja que resuelve este tipo de casos.
(72) Expresi
on: The position of pitcher on a baseball team.
Nodo modificador: baseball
Categora l
exica nodo modificador: U
Posici
on nodo modificador: anterior
Predicados del nodo modificador:
179
Nodo n
ucleo: team
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: lex-mod
Predicados del nodo n
ucleo: baseball:NN(x1) baseball team:NNC(x3, x1, x2) team:NN(x2)
Restricciones a tratar: No porque todos los predicados se infieren en el nodo nucleo.
Reglas de derivaci
on de predicados del tipo aposici
on
Este tipo de reglas de derivacion incorporan en la forma logica el predicado asociado a la relacion de aposicion existente entre los predicados
inferidos en los nodos inferiores al nodo cabeza de la dependencia. Para
ello, siempre van a tener que realizar comprobaciones entre los predicados provenientes de los nodos modificadores y el predicado generado
en el nodo n
ucleo, reflejando de este modo esta relacion de aposicion
entre estos predicados de la forma logica. A continuacion, el ejemplo 73
detalla la aplicacion de una de estas reglas.
(73) Expresi
on: Tony Blair, the British Prime Minister, will visit Iraq next week.
Nodo modificador: Minister
Categora l
exica nodo modificador: N
Posici
on nodo modificador: posterior
Predicados del nodo modificador: tony:NN(x1) tony blair:NNC(x3,
x1, x2) blair:NN(x2)
Nodo n
ucleo: Blair
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: appo
Predicados del nodo n
ucleo: tony:NN(x1) tony blair:NNC(x3,
x1, x2) blair:NN(x2) tony blair british prime minister:APPO(x7,
x3, ) british:JJ(x4) prime:NN(x5) prime minister:NNC(x4,
x5, x6) minister:NN(x6)
Restricciones a tratar: S.
Predicados del nodo n
ucleo tras tratamiento de restricciones:
tony:NN(x1) tony blair:NNC(x3, x1, x2) blair:NN(x2)
tony blair british prime minister:APPO(x7, x3, x4)
180
Este anexo muestra las 300 preguntas de entrenamiento y las 300 de evaluacion (100 en cada una de las tres versiones) que se han utilizado en
el marco de la tarea de evaluacion del recurso logico-conceptual referida
a la clasificacion de preguntas medicas seg
un la taxonoma planteada
en el estudio de Ely et al. (Ely et al. , 2000).
182
Preguntas de entrenamiento
Primer tipo gen
erico
La tabla 6.1 muestra la coleccion de preguntas de entrenamiento asociadas al primer tipo generico de las preguntas de la taxonoma.
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Pregunta
What is the drug of choice for condition high blood pressure?
Is drug flunitrazepam indicated in situation anxiety?
Is drug galantamine indicated for condition pink eye?
What are the indications for drug liothyronine?
Is any drug indicated for situation scabies?
Does drug dosulepin work for condition slapped cheek syndrome?
How effective is drug edronax for condition stress?
Should this kind of patient get prophylactic drug efexor to prevent condition threadworms?
Is prophylactic drug elavil indicated to prevent condition tuberculosis?
What prophylactic drug should I give to prevent condition ulcerative colitis?
How effective is prophylactic drug epanutin in preventing condition urinary tract infection?
For how long is drug epilim effective in preventing condition varicose veins?
Name the drugs that treat cerebral palsy.
List the drugs that manage catarrh.
Tell me the drugs that prevent cellulitis.
What is the drug of choice for condition chlamydia?
Is drug abacavir indicated in situation coccydinia?
Is drug abafungin indicated indicated for condition cold sores?
What are the indications for drug abamectin?
Is any drug indicated for situation constipation?
Does drug abciximab work for condition crohns disease?
How effective is drug abecarnil for condition cystic fibrosis?
Should this kind of patient get prophylactic drug abiraterone to prevent condition cystitis?
Is prophylactic drug abitesartan indicated to prevent condition deafblindness?
What prophylactic drug should I give to prevent condition diphtheria?
How effective is prophylactic drug ablukast in preventing condition dry eye syndrome?
For how long is drug abunidazole effective in preventing condition duodenal ulcer?
Name the drugs that treat dyspepsia.
List the drugs that manage dysphagia.
Tell me the drugs that prevent dystonia.
183
No
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Pregunta
What is the cause of symptom abdominal pain?
What is the differential diagnosis of symptom missed menstrual period?
Could symptom dermatitis be a result of condition dementia?
What is the likelihood that symptom dysmenorrhea is coming from condition eczema?
Name the possible causes of symptom vaginal discharge.
List the possible causes of symptom nail discoloration.
Tell me the possible causes of symptom swollen dlands.
What is the cause of symptom hair loss?
What is the differential diagnosis of symptom hematemesis?
Could symptom impotence be a result of condition congenital cataracts?
What is the likelihood that symptom hyperventilation is coming from condition ectropion?
Name the possible causes of symptom infertility.
List the possible causes of symptom insomnia.
Tell me the possible causes of symptom itch.
What is the cause of symptom knee pain?
What is the differential diagnosis of symptom watery eye?
Could symptom muscle cramps be a result of condition embolism?
What is the likelihood that symptom lethargy is coming from condition encephalitis?
Name the possible causes of symptom Diarrhea.
List the possible causes of symptom Dizziness.
Tell me the possible causes of symptom confusion.
What is the cause of symptom Anemia?
What is the differential diagnosis of symptom breast lumps?
Could symptom lymphadenopathy be a result of condition epidermolysis bullosa?
What is the likelihood that symptom mastodynia is coming from condition epiglottitis?
Name the possible causes of symptom mennorrhagia.
List the possible causes of symptom pleurisy.
Tell me the possible causes of symptom pyrosis.
What is the cause of symptom red eye?
What is the differential diagnosis of symptom rubor?
184
No
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
Pregunta
What test is indicated in situation swollen glands?
Is test HIDA scan indicated in situation yeast infection?
What test is appropriate with clinical finding autosplenectomy?
What is the best test in situation toe tingling?
What test is indicated in situation profound bronchospasm?
Is test magnetic resonance imaging indicated in situation hypertension?
What test is appropriate with clinical finding rheumatic fever?
What is the best test in situation atrial fibrillation?
What test is indicated in situation hypoxia?
Is test myocardial biopsy indicated in situation laryngospasm?
What test is appropriate with clinical finding hyperparathyroidism?
What is the best test in situation anticipated apnoea?
What test is indicated in situation multifocal ventricular ectopics?
Is test CT scan indicated in situation cardiac arrest?
What test is appropriate with clinical finding bronchial asthma?
What is the best test in situation bradycardia?
What test is indicated in situation osteoarthritis?
Is occult fecal blood test indicated in situation anaphylaxis?
What test is appropriate with clinical finding super ventricular tachycardia?
What is the best test in situation breathing system failure?
Name the tests for patients in situation myocardial infartion.
List the possible tests indicated in situation total spinal anaesthesia.
Tell me the best test in situation oxygen supply failure.
Name the tests for patients in situation unanticipated apnoea.
List the possible tests indicated in situation malignant hyperpyrexia.
Tell me the best test in situation gastric aspiration.
Name the tests for patients in situation bradycardia.
List the possible tests indicated in situation cardiac ischemia.
Tell me the best test in situation hypercarbia.
Name the tests for patients in situation ventricular ectopics.
185
No
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Pregunta
What is the dose of drug prinivil?
Should I change the dose of drug aspirin?
What is the maximum dose of drug accupril?
What are equivalent doses among members of drug class benzodiazepine?
How do you prescribe drug viagra?
How do you administer drug clomipramine?
When I start drug acyclovir?
How should I stop drug Concordin?
How long should I give drug dalmane?
When should I give drug donopezil?
List the possible dosages of drug fadrozole.
Tell me the dosage of drug famotidine.
What is the dose of drug fananserin?
Should I change the dose of drug faralimomab?
What is the maximum dose of drug toremifene?
What are equivalent doses among members of drug class 4-aminopyridine?
How do you prescribe drug faropenem?
How do you administer drug fulvestrant?
When I start drug fasoracetam?
How should I stop drug flosequinan?
How long should I give drug fluticasone?
When should I give drug floxuridine?
List the possible dosages of drug flucloxacillin.
Tell me the dosage of drug fluconazole.
What is the dose of drug flucytosine?
Should I change the dose of drug fludarabine?
What is the maximum dose of drug fludiazepam?
What are equivalent doses among members of drug class fludorex?
How do you prescribe drug fludrocortisone?
How do you administer drug fludroxycortide?
186
No
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
Pregunta
How should I manage condition fibromyalgia?
How do you manage condition depression?
How well do you manage condition constipation?
How should I manage condition acne?
How do you manage condition allergies?
How well do you manage condition asthma?
How should I manage condition autism?
How do you manage condition back pain?
How well do you manage condition bulimia?
How should I manage condition cataracts?
How do you manage condition chlamydia?
How well do you manage condition cirrhosis?
How should I manage condition cystitis?
How do you manage condition deafness?
How well do you manage condition dementia?
How should I manage condition dysphasia?
How do you manage condition eczema?
How well do you manage condition epilepsy?
How should I manage condition gallstones?
How do you manage condition glaucoma?
How well do you manage condition gonorrhea?
How should I manage condition hemophilia?
How do you manage condition heartburn?
How well do you manage condition hepatitis?
How should I manage condition impotence?
How do you manage condition indigestion?
How well do you manage condition infertility?
How should I manage condition insomnia?
How do you manage condition leukemia?
How well do you manage condition meningitis?
187
No
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
Pregunta
What is the cause of physical finding angiokeratomas?
What is the differential diagnosis of physical finding pulsus alterans?
At what level does physical finding ulnar deviation become clinically important?
What is considered normal for physical finding succussion splash?
Could physical finding argyll robertson pupils be a result of condition anaemia?
What is the likehood that sign deafness is coming from condition arthritis?
Name the possible causes of physical finding alert mentation.
List the causes of physical finding cool skin capillary refill.
Tell me the causes of physical finding normal mucous membranes.
What is the cause of physical finding increased heart rate?
What is the differential diagnosis of physical finding thready pulse?
At what level does physical respiratory rate deviation become clinically important?
What is considered normal for physical finding blood pressure?
Could physical finding slow skin turgor be a result of condition narcolepsy?
What is the likehood that sign earache is coming from condition psoriasis?
Name the possible causes of physical decreased urine output.
List the causes of physical finding xanthelasma.
Tell me the causes of physical finding ulnar deviation.
What is the cause of physical finding titubation?
What is the differential diagnosis of physical finding tophi?
At what level does physical finding suck reflex become clinically important?
What is considered normal for physical finding subcutaneous nodules?
Could physical finding striae be a result of condition meningitis?
What is the likehood that sign erythema is coming from condition menopause?
Name the possible causes of physical finding strawberry tongue.
List the causes of physical finding simian crease.
Tell me the causes of physical finding pulsus alterans.
What is the cause of physical finding petechiae?
What is the differential diagnosis of physical finding pingueculae?
At what level does physical finding ptosis become clinically important?
188
S
eptimo tipo gen
erico
La tabla 6.7 muestra la coleccion de preguntas de entrenamiento asociadas al septimo tipo generico de las preguntas de la taxonoma.
No
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
Pregunta
How should I treat condition fibromyalgia?
How do you treat condition depression?
How well do you treat condition constipation?
How should I treat condition allergies?
How do you treat condition asthma?
How well do you treat condition autism?
How should I treat condition bedwetting?
How do you treat condition blepharospasm?
How well do you treat condition blindness?
How should I treat condition bulimia?
How do you treat condition cataracts?
How well do you treat condition chlamydia?
How should I treat condition cirrhosis?
How do you treat condition cleft lip?
How well do you treat condition cold sores?
How should I treat condition cot death?
How do you treat condition cystic fibrosis?
How well do you treat condition deafness?
How should I treat condition downs syndrome?
How do you treat condition gauchers disease?
How well do you treat condition huntington disease?
How should I treat condition legionnaire disease?
How do you treat condition meniere disease?
How well do you treat condition muscular dystrophy?
How should I treat condition polycystic ovary syndrome?
How do you treat condition polymyalgia rheumatica?
How well do you treat condition repetitive strain injury?
How should I treat condition restless legs?
How do you treat condition systemic lupus erythematosus?
How well do you treat condition ulcerative colitis?
189
No
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
Pregunta
What is the cause of test finding bronchoscopy?
What is the differential diagnosis of test finding hemoglobin electrophoresis?
Could test finding home blood glucose test be condition diabetes?
Could test finding pericardial drainage be a result of condition endometriosis?
What is the likehood that test finding ECG is coming from condition endometriosis?
How should I interpret test finding treadmill test?
How should I use test finding acoustic reflex test in my decision?
At what level does the value of ACTH test clinically important?
What are the normal values of AFP test?
How good is allergy test in situation mammalgia?
What are the performance characteristics of DST test in situation menstrual cramps?
What is the efficacy of screening with dobutamine stress test?
What is the efficacy of screening for condition febrile convulsions?
When should I do drug screening test?
When should I do DST test to monitor condition food intolerance?
How often should screening dipyridamole stress test be done?
How often should you screen for condition gallstones?
Name the cause of test finding FOBT.
Tell me the cause of test finding FSH.
What is the cause of test finding funduscopy?
What is the differential diagnosis of test finding fetoscopy?
Could test finding free cortisol test be condition endocarditis?
Could test finding fasting blood sugar test be a result of condition encephalitis?
What is the likehood that test finding GHb test is coming from condition epiglottitis?
How should I interpret test finding globulin test?
How should I use test finding glaucoma test in my decision?
At what level does the value of GHb test clinically important?
What are the normal values of gastric ulcer test?
How good is galactosemia test in situation dyspepsia?
What are the performance characteristics of HFE test in situation vertigo?
190
No
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
Pregunta
Could this patient have condition gauchers disease?
What is the likelihood that this patient has condition parkinson disease?
What does this patient have whooping cough?
Could this patient have condition chest infection?
What is the likelihood that this patient has condition chronic fatigue syndrome?
What does this patient have coeliac disease?
Could this patient have condition conjunctivitis?
What is the likelihood that this patient has condition cradle cap?
What does this patient have diverticulitis?
Could this patient have condition erectile dysfunction?
What is the likelihood that this patient has condition food intolerance?
What does this patient have glandular fever?
Could this patient have condition hay fever?
What is the likelihood that this patient has condition irritable bowel syndrome?
What does this patient have kidney failure?
Could this patient have condition jet lag?
What is the likelihood that this patient has condition kidney stones?
What does this patient have labyrinthitis?
Could this patient have condition laryngitis?
What is the likelihood that this patient has condition migraine?
What does this patient have MRSA?
Could this patient have condition multiple sclerosis?
What is the likelihood that this patient has condition nappy rash?
What does this patient have nosebleed?
Could this patient have condition obesity?
What is the likelihood that this patient has condition phobias?
What does this patient have renal colic?
Could this patient have condition shingles?
What is the likelihood that this patient has condition tennis elbow?
What does this patient have threadworms?
191
D
ecimo tipo gen
erico
La tabla 6.10 muestra la coleccion de preguntas de entrenamiento asociadas al decimo tipo generico de las preguntas de la taxonoma.
No
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
Pregunta
Could drug accupril cause adverse finding muscle pain?
Could finding angioid streaks be cause by drug nitrazepam?
Does drug reboxetine cause finding arcus senilis?
What are the adverse effects of drug temazepam?
What is the likehood of adverse effect uterine hemorrhage resulting from drug cytotec?
How long do the adverse effects from drug escitalopram last after stopping it?
Which drug has the fewest adverse effects?
How can drug exelon be administered without causing adverse effect deafness?
What dose of drug fluvoxamine cause adverse effect fever?
What dose of drug perphenazine cause any adverse effect?
Is drug flupenthixol save to use in situation vertigo?
Is drug fluoxetine contraindicated in situation warts?
Could drug phentermine cause adverse finding angiokeratomas?
Could finding pulsus alterans be cause by drug tacalcitol?
Does drug tacrine cause finding ulnar deviation?
What are the adverse effects of drug talaporfin?
What is the likehood of adverse effect abdominal pain resulting from drug talipexole?
How long do the adverse effects from drug taltirelin last after stopping it?
How can drug tandospirone be administered without causing adverse effect asthenia?
What dose of drug taranabant cause adverse effect diarrhea?
What dose of drug tazarotene cause any adverse effect?
Is drug flupenthixol save to use in situation dyspepsia?
Is drug fluoxetine contraindicated in situation mammalgia?
Could drug tazobactam cause adverse finding bronchial asthma?
Could finding hyperparathyroidism be cause by drug tazobactam?
Does drug paclitaxel cause finding rheumatic fever?
What are the adverse effects of drug pagoclone?
What is the likehood of adverse effect autosplenectomy resulting from drug palonosetron?
How long do the adverse effects from drug pamaquine last after stopping it?
How can drug panadiplon be administered without causing adverse effect rhabdomyolysis?
192
Preguntas de evaluaci
on
Primer tipo gen
erico
La tabla 6.11 muestra la coleccion de preguntas de evaluacion, en cada
una de sus tres versiones, asociadas al primer tipo generico de las preguntas de la taxonoma.
No
7
16
29
33
42
57
64
72
87
100
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
What are the indications for drug reboxetine?
What are the indications for drug reboxetine?
What are the indications of reboxetine?
Is any drug indicated for situation total spinal anaesthesia?
Is any drug prescribed for situation total spinal anaesthesia?
Is any drug prescribed for total spinal anaesthesia?
Is drug nitrazepam indicated for condition dementia?
Could drug nitrazepam be prescribed for condition dementia?
Could nitrazepam be prescribed for dementia?
Is drug accupril indicated in situation myocardial infartion?
Is drug accupril prescribed in situation myocardial infartion?
Is accupril prescribed in myocardial infartion?
Does drug temazepam work for condition congenital cataracts?
Could drug temazepam be prescribed for condition congenital cataracts?
Could temazepam be prescribed for congenital cataracts?
What is the drug of choice for condition eczema?
What is the drug of selection for condition eczema?
What is the drug of selection for eczema?
How effective is drug cytotec for condition parkinson disease?
How good is drug cytotec for condition parkinson disease?
How good is cytotec for parkinson disease?
Name the drugs that treat ectropion.
Name the drugs that control ectropion.
Name the drugs that control ectropion.
List the drugs that manage fibromyalgia.
List the drugs that control fibromyalgia.
List the drugs that control fibromyalgia.
Tell me the drugs that prevent depression.
Tell me the drugs that control depression.
Tell me the drugs that control depression.
193
No
10
13
21
37
41
59
70
77
90
96
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Could symptom abdominal pain be a result of condition fibromyalgia?
Does symptom abdominal pain induced by condition fibromyalgia?
Does abdominal pain induced by fibromyalgia?
What is the likelihood that symptom headache is coming from condition depression?
What is the likeliness that symptom headache is induced from condition depression?
What is the likeliness that headache is induced from depression?
Name the possible causes of symptom fever.
Name the potential reasons of symptom fever.
Name the potential reasons of fever.
List the possible causes of symptom body ache.
List the potential reasons of symptom body ache.
List the potential reasons of body ache.
Tell me the possible causes of symptom moist skin.
Tell me the potential reasons of symptom moist skin.
Tell me the potential reasons of moist skin.
What is the cause of symptom nausea?
Which one is the reason of symptom nausea?
Which one is the reason of nausea?
What is the differential diagnosis of symptom depression?
What is the differential diagnosis of symptom depression?
What is the differential diagnosis of depression?
Could symptom irritability be a result of condition acne?
Is symptom irritability induced by condition acne?
Is irritability induced by acne?
What is the likelihood that symptom bedwetting is coming from condition asthma?
What is the likeliness that symptom bedwetting is induced by condition asthma?
What is the likeliness that bedwetting is induced by asthma?
Name the possible causes of symptom vomiting.
Name the potential reasons of symptom vomiting.
Name the potential reasons of vomiting.
194
No
1
17
30
32
50
51
67
79
82
94
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Name the tests for patients in situation cardiac emergency.
Name the tests for patients in situation cardiac emergency.
Name the tests for patients in cardiac emergency.
List the possible tests indicated in situation respiratory emergency.
List the potential tests suggested in situation respiratory emergency.
List the potential tests suggested in respiratory emergency.
Tell me the best test in situation oxygen medical emergency.
Tell me the best test in situation oxygen medical emergency.
Tell me the best test in oxygen medical emergency.
What test is indicated in situation yeast vaginitis?
Which test is suggested in situation yeast vaginitis?
Which test is suggested in yeast vaginitis?
Is test bronchoscopy indicated in situation oral thrush?
Could test bronchoscopy be suggested in situation oral thrush?
Could bronchoscopy be suggested in oral thrush?
What test is appropriate with physical finding angiokeratomas?
Which test is appropriate with physical finding angiokeratomas?
Which test is appropriate with angiokeratomas?
What is the best test in situation candida infection?
Which test is the best one in situation candida infection?
Which test is the best one in candida infection?
What test is indicated in situation systemic infection?
Which test is prescribed in situation systemic infection?
Which test is prescribed in systemic infection?
Is ACTH test indicated in situation opportunistic infection?
Could ACTH test be suggested in situation opportunistic infection?
Could ACTH test be suggested in opportunistic infection?
What test is appropriate with physical finding pulsus alterans?
Which test is appropriate with physical finding pulsus alterans?
Which test is appropriate with pulsus alterans?
195
No
9
20
27
31
43
52
61
73
81
91
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
List the possible dosages of drug abacavir.
List the potential dosages of drug abacavir.
List the potential dosages of abacavir.
Tell me the dosage of drug abafungin.
Tell me the dosage of drug abafungin.
Tell me the dosage of abafungin.
What is the dose of drug abamectin?
Which one is the dose of drug abamectin?
Which one is the dose of abamectin?
Should I change the dose of drug abciximab?
Should I change the dose of drug abciximab?
Should I change the dose of abciximab?
What is the maximum dose of drug abecarnil?
Which one is the upper dose of drug abecarnil?
Which one is the upper dose of abecarnil?
What are equivalent doses among members of drug class bisphosphonate?
Whose are tantamount doses among members of drug class bisphosphonate?
Whose are tantamount doses among members of bisphosphonate?
How do you prescribe drug perphenazine?
How can drug perphenazine be dispensed?
How can perphenazine be dispensed?
How do you administer drug fluvoxamine?
How can drug fluvoxamine be dispensed?
How can fluvoxamine be dispensed?
When I start drug exelon?
When do I begin to take drug exelon?
When do I begin to take exelon?
How should I stop drug escitalopram?
How should I end drug escitalopram?
How should I end escitalopram?
196
No
8
19
28
39
49
60
69
80
89
99
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
How should I manage condition gauchers disease?
How should be handled condition gauchers disease?
How should be handled gauchers disease?
How do you manage condition parkinson disease?
How does condition parkinson disease be handled?
How does parkinson disease be handled?
How well do you manage condition chest infection?
How good should condition chest infection be handled?
How good should chest infection be handled?
How should I manage condition chronic fatigue syndrome?
How should condition chronic fatigue syndrome be handled?
How should chronic fatigue syndrome be handled?
How do you manage condition conjunctivitis?
How could condition conjunctivitis be handled?
How could conjunctivitis be handled?
How well do you manage condition cradle cap?
How good could condition cradle cap be handled?
How good could cradle cap be handled?
How should I manage condition erectile dysfunction?
How should condition erectile dysfunction be handled?
How should erectile dysfunction be handled?
How do you manage condition back chlamydia?
How should be handled condition back chlamydia?
How should be handled back chlamydia?
How well do you manage condition cold sores?
How good should be handled condition cold sores?
How good should be handled cold sores?
How should I manage condition cystic fibrosis?
How should condition cystic fibrosis be handled?
How should cystic fibrosis be handled?
197
No
3
11
22
34
48
55
62
71
83
92
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
What is the cause of clinical finding rheumatic fever?
Which one is the reason of clinical finding rheumatic fever?
Which one is the reason of rheumatic fever?
What is the differential diagnosis of clinical finding autosplenectomy?
What is the differential diagnosis of clinical finding autosplenectomy?
What is the differential diagnosis of autosplenectomy?
At what level does physical finding muscle pain become clinically important?
At what degree does physical finding muscle pain become clinically important?
At what degree does muscle pain become clinically important?
What is considered normal for physical finding angioid streaks?
What is considered normal for physical finding angioid streaks?
What is considered normal for angioid streaks?
Could physical finding arcus senilis be a result of condition anaemia?
Should physical finding arcus senilis produced by condition anaemia?
Should arcus senilis produced by anaemia?
What is the likehood that sign deafness is coming from condition arthritis?
Which one is the likeliness that sign deafness is induced by condition arthritis?
Which one is the likeliness that deafness is induced by arthritis?
Name the possible causes of physical finding angiokeratomas.
Name the possible reasons of physical finding angiokeratomas.
Name the possible reasons of angiokeratomas.
List the causes of physical finding bronchial asthma.
List the reasons of physical finding bronchial asthma.
List the reasons of bronchial asthma.
Tell me the causes of clinical finding hyperparathyroidism.
Tell me the reasons of clinical finding hyperparathyroidism.
Tell me the reasons of hyperparathyroidism.
What is the cause of clinical finding super ventricular tachycardia?
Which one is the reason of clinical finding super ventricular tachycardia?
Which one is the reason of super ventricular tachycardia?
198
S
eptimo tipo gen
erico
La tabla 6.17 muestra la coleccion de preguntas de evaluacion, en cada
una de sus tres versiones, asociadas al septimo tipo generico de las preguntas de la taxonoma.
No
2
14
23
40
44
53
63
78
84
93
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
How should I treat condition gauchers disease?
How good should condition gauchers disease be cared for?
How good should gauchers disease be cared for?
How do you treat condition parkinson disease?
How should be cared for condition parkinson disease?
How should be cared for parkinson disease?
How well do you treat condition chest infection?
How does condition chest infection be cared for?
How does chest infection be cared for?
How should I treat condition chronic fatigue syndrome?
How should condition chronic fatigue syndrome be cared for?
How should chronic fatigue syndrome be cared for?
How do you treat condition conjunctivitis?
How could condition conjunctivitis be cared for?
How could conjunctivitis be cared for?
How well do you treat condition cradle cap?
How good could condition cradle cap be cared for?
How good could cradle cap be cared for?
How should I treat condition erectile dysfunction?
How should condition erectile dysfunction be cared for?
How should erectile dysfunction be cared for?
How do you treat condition back chlamydia?
How should be cared for condition back chlamydia?
How should be cared for back chlamydia?
How well do you treat condition cold sores?
How good should be cared for condition cold sores?
How good should be cared for cold sores?
How should I treat condition cystic fibrosis?
How should condition cystic fibrosis be cared for?
How should cystic fibrosis be cared for?
199
No
6
12
24
36
45
54
65
76
85
97
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
What is the cause of test finding HIDA scan?
Which one is the reason of test finding HIDA scan?
Which one is the reason of HIDA scan?
What is the differential diagnosis of test finding magnetic resonance imaging?
Which one is the differential diagnosis of test finding magnetic resonance imaging?
Which one is the differential diagnosis of magnetic resonance imaging?
Could test finding myocardial biopsy be condition conjunctivitis?
Could test finding myocardial biopsy be stimulate condition conjunctivitis?
Could myocardial biopsy be stimulate conjunctivitis?
Could test finding CT scan be a result of condition cradle cap?
Could test finding CT scan be stimulated by condition cradle cap?
Could CT scan be stimulated by cradle cap?
What is the likehood that test finding occult fecal blood test is coming from condition dysfunction?
Which one is the likeliness that test finding occult fecal blood test is induced by condition dysfunction?
Which one is the likeliness that occult fecal blood test is induced by dysfunction?
How should I interpret test finding endoscopy?
How can test finding endoscopy be construed?
How can endoscopy be construed?
How should I use test finding biopsy in my decision?
How can I utilise test finding biopsy in my conclusion?
How can I utilise biopsy in my conclusion?
At what level does the value of EEG clinically important?
At what degree does the value of EEG clinically important?
At what degree does the value of EEG clinically important?
What are the normal values of PET scan?
What are the normal values of PET scan?
What are the normal values of PET scan?
Tell me the cause of test nuclear scan.
Tell me the reason of test nuclear scan.
Tell me the reason of nuclear scan.
200
No
4
18
26
38
47
58
66
75
86
98
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Could this patient have condition chlamydia?
Does the patient suffer condition chlamydia?
Does the patient suffer chlamydia?
What is the likelihood that this patient has condition cold sores?
Which one is the likeliness that the patient suffers condition cold sores?
Which one is the likeliness that the patient suffers cold sores?
What does this patient have cystic fibrosis?
What does the patient suffer condition cystic fibrosis?
What does the patient suffer cystic fibrosis?
Could this patient have condition dyspepsia?
Can the patient suffer condition dyspepsia?
Can the patient suffer dyspepsia?
What is the likelihood that this patient has condition dysphagia?
Which one is the likeliness that the patient suffer condition dysphagia?
Which one is the likeliness that the patient suffer dysphagia?
What does this patient have dystonia?
What does this patient suffer condition dystonia?
What does this patient suffer dystonia?
Could this patient have condition dementia?
Can the patient suffer condition dementia?
Can the patient suffer dementia?
What is the likelihood that this patient has condition eczema?
Which one is the likeliness that the patient suffers condition eczema?
Which one is the likeliness that the patient suffers eczema?
What does this patient have congenital cataracts?
What does the patient suffer condition congenital cataracts?
What does the patient suffer congenital cataracts?
Could this patient have condition ectropion?
Can the patient suffer condition ectropion?
Can the patient suffer ectropion?
201
D
ecimo tipo gen
erico
La tabla 6.20 muestra la coleccion de preguntas de evaluacion, en cada
una de sus tres versiones, asociadas al decimo tipo generico de las preguntas de la taxonoma.
No
5
15
25
35
46
56
68
74
88
95
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Could drug abacavir cause adverse finding abdominal pain?
Can drug abacavir origin adverse finding abdominal pain?
Can abacavir origin adverse finding abdominal pain?
Could finding autosplenectomy be cause by drug abafungin?
Can adverse finding autosplenectomy be origined by drug abafungin?
Can adverse finding autosplenectomy be origined by abafungin?
Does drug abamectin cause finding rheumatic fever?
Does drug abamectin induce finding rheumatic fever?
Does abamectin induce rheumatic fever?
What are the adverse effects of drug abciximab?
Whose are the adverse effects of drug abciximab?
Whose are the adverse effects of abciximab?
What is the likehood of adverse effect bloody stool resulting from drug abecarnil?
Which is the likeliness of adverse effect bloody stool resulting from drug abecarnil?
Which is the likeliness of adverse effect bloody stool resulting from abecarnil?
How long do the adverse effects from drug fadrozole last after stopping it?
How long do the adverse effects from drug fadrozole last after ending it?
How long do the adverse effects from fadrozole last after ending it?
Which drug has the fewest adverse effects?
Which drug has the fewest adverse effects?
Which drug has the fewest adverse effects?
How can drug famotidine be administered without causing adverse effect gastroenteritis?
How can drug famotidine be prescribed without causing adverse effect gastroenteritis?
How can famotidine be prescribed without causing adverse effect gastroenteritis?
What dose of drug prinivil cause adverse effect colitis?
Which dose of drug prinivil cause adverse effect colitis?
Which dose of prinivil cause adverse effect colitis?
What dose of drug aspirin cause any adverse effect?
Which dose of drug aspirin cause any adverse effect?
Which dose of aspirin cause any adverse effect?
Referencias
204
Referencias
Referencias
Croft, W.B., Turtle, H.R., & Lewis, D.D. 1991. The use of phrases
and sructured queries in information retrieval. Pages 3243 of:
Proceedings of ACM SIGIR.
Daelemans, W., & van den Bosch, A. 2007. Special Section on
Restricted-Domain Question Answering. Computational Linguistics, 33(1).
Dale, R., Somers, H. L., & Moisl, H. 2000. Semantic Analysis. Handbook
of Natural Language Processing. Marcel Dekker, Inc. New York,
NY, USA.
Darriba, V.M. 2007. Universidad de Vigo: Asignatura Lenguajes Naturales. Campus de Orense. Chap. Tema 1 y 2.
Davidson, D. 1967. The Logical Form of Action Sentences. Pages 8195
of: Rescher, N. (ed), The Logic of Decision and Action.
Deerwester, S., Dumais, S.T., Furnas, G.W., K, T.K. Landauer T., &
Harshman, R. 1990. Indexing by Latent Semantic Analysis. Journal
of the American Society for Information Science.
Delisle, S., Barker, K., Delannoy, J.-F., Matwin, S., & Szpakowicz, S.
1994. From Text to Horn Clauses: Combining Linguistic Analysis
and Machine Learning. In: Proceedings of Canadian AI-94.
Demner-Fushman, D., Humphrey, S. M., Ide, N. C., Loane, R. F., Mork,
J. G., Ruch, P., Ruiz, M. E., Smith, L. H., Wilbur, W. J., & Aronsona, A. R. 2007. Combining resources to find answers to biomedical
questions. In: Proceedings of the Sixteenth Text REtrieval Conference (TREC).
Dez, P. L. 1999. La relaci
on de meronimia en los sustantivos del lexico
espa
nol: contribuci
on a la semantica computacional. Vol. 2. Estudios de Ling
ustica Espa
nola.
Dick, J. P. 1991. A conceptual, case-relation representation of text for
intelligent retrieval. Ph.D. thesis, University of Toronto.
Dillon, M., & Gray, A.S. 1983. FASIT: A fully automatic syntactically based indexing system. Journal of the American Society for
Information Science, 34(2), 99108.
Doi, T., & Sumita, E. 2005. Splitting Input for Machine Translation
Using N-gram Language Model Together with Utterance Similarity.
IEICE Transactions, 88-D(6), 12561264.
Dubuc, R., & Lauriston, A. 1997. Terms and Contexts. Handbook of
Terminology Management. John Benjamins: 80-88.
Eichmann, D., Ruiz, M., & Srinivasan, P. 1998. Cross-Language Information Retrieval with the UMLS Metathesaurus. Pages 7280 of:
Proc. of the 21st Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval.
Ely, J.W., Osheroff, J.A., Gorman, P.N., Ebell, M.H., Chambliss, M.L.,
Pifer, E.A., & Stavri, P.Z. 2000. A taxonomy of generic clinical
questions: classification study. Pages 429432 of: British Medical
Journal (BMJ), vol. 321.
205
206
Referencias
Referencias
207
208
Referencias
Referencias
statistics. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.
Lin, D. 1998a. An Information-Theoretic Definition of Similarity. Pages
296304 of: Proceedings of the International Conference on Machine Learning.
Lin, D. 1998b. Dependency-based Evaluation of MINIPAR. In: Workshop on the Evaluation of Parsing Systems.
Lin, J. 2006. The role of information retrieval in answering complex
questions. Pages 523530 of: Proceedings of the COLING/ACL
2006.
Lindberg, D.A.D., & Humphreys, B.L. 1993. The Unified Medical Language System. Pages 281291 of: Methods of Information in Medicine, vol. 32.
Llopis, F. 2003. IR-n: Un Sistema de Recuperaci
on de Informacion
basado en pasajes. Ph.D. thesis, Universidad de Alicante.
Llopis, F., Mu
noz, R., Terol, R.M., & Noguera, E. 2005. IR-n r2: Using
Normalized Passages. Multilingual Information Access for Text,
Speech and Images, 9099.
Magnini, B., Negri, M., Prevete, R., & Tanev, H. 2002. Mining Knowledge from Repeated Co-occurrences: DIOGENE at TREC-2002.
In: Proceedings of The Eleventh Text Retrieval Conference (TREC
2002).
Manjula, D., Aghila, G, & Geetha, T. V. 2003. Document Knowledge
Representation using Description Logics for Information Extraction and Querying. In: Proceedings of the International Conference
on Information Technology: Computers and Communications.
Manning, C. D., & Sch
utze, H. 1999. Foundations of Statistical Natural
Language Processing. Cambridge: The MIT Press.
Manzano, M. 1996. Extensions of first order logic. Cambridge University Press.
Marchetti, A., Tesconi, M., Ronzano, F., Rosella, M., Bertagna, F.,
Monachini, M., Soria, C., Calzolari, N., Huang, C.-R., & Hsieh, S.K. 2006. Toward an Architecture for the Global Wordnet Initiative.
In: Proceedings of the 3rd Italian Semantic Web Workshop.
Marcus, M.P., Santorini, B., & Marcinkiewicz, M.A. 1994. Building a
Large Annotated Corpus of English: The Penn Treebank. Computational Linguistics, 19, 313330.
Marquez, L. 2001. Tratamiento del lenguaje natural. Edicions Universitat Barcelona. Chap. Aprendizaje automatico y procesamiento del
lenguaje natural, pages 133188.
Martnez-Vazquez, M. 1996. Gram
atica contrastiva ingles-espa
nol. Servicio de publicaciones de la Universidad de Huelva.
Matsumura, A., Takasu, A., & Adachi, J. 2006. Effect of relationships
between words on Japanese information retrieval. ACM Transac-
209
210
Referencias
Referencias
Partee, B. H., ter Meulen, A. G., & Wall, R. 2004. Mathematical Methods in Linguistics. Springer.
Pe
nas, A., Rodrigo, A., Sama, V., & Verdejo, F. 2007. Overview of the
Answer Validation Exercise 2006. Pages 257264 of: Evaluation of
Multilingual and Multi-modal Information Retrieval, 7th Workshop
of the Cross-Language Evaluation Forum.
Pedersen, T., Patwardhan, S., & Michelizzi, J. 2004.
WordNet::Similarity - Measuring the Relatedness of Concepts. In: Proceedings of the 19th National Conference on Artificial Intelligence.
Pereira, F. C. N., & Warren, D. H. D. 1983. Parsing as Deduction. In:
Proceedings of 21st Annual Meeting of the Association for Computational Linguistics.
Petridis, V., Kaburlaos, V. G., Fragkou, P., & Kehagias, A. 2001. Text
classification using the -FLNMAP neural network. In: Proceedings
of the 2001 International Joint Conference on Neural Networks.
Poesio, M., Ferguson, G., Heeman, P., Hwang, C. H., Traum, D. R.,
Allen, J. F., Martin, N., & Schubert, L. K. 1994. Knowledge Representation in the TRAINS System. In: In Working Notes of the
AAAI 1994 Fall Symposium on 156 Knowledge Representation for
Natural Language Processing in Implemented Systems.
Porter, M.F. 1980. An algorithm for suffix stripping. Program, 14(3),
130137.
Perez, M., Solorio, T., Montes, M., Lopez, A., & Villase
nor, L. 2004.
Question answering for Spanish based on lexical and context annotation. Pages 325333 of: Advances in Artificial Intelligence IBERAMIA 2004.
Quirk, C., Menezes, A., & C.Cherry. 2005. Dependency Treelet Translation: Syntactically Informed Phrasal SMT. In: Proceedings of 43rd
Annual Meeting of the Association for Computational Linguistics.
Ramakrishnanan, G., & Bhattacharyya, P. 2003. Text Representation
with WordNet Synsets Using Soft Sense Disambiguation. Ingenierie des Systems d Information, 8(3), 5570.
Rich, E., & Knight, K. 1994. Inteligencia Artificial. McGraw Hill.
Riloff, E, & Jones, R. 1999. Learning Dictionaries for Information Extraction by Multilevel Bootstrapping. In: Proceedings of the 13th
National Conference on Artificial Intelligence (AAAI).
Roger, S., Ferrandez, S., Ferrandez, A., Peral, J., Llopis, F., Aguilar, A.,
& Tomas, D. 2005. AliQAn, Spanish QA System at CLEF-2005.
Pages 457466 of: Accessing Multilingual Information Repositories,
6th Workshop of the Cross-Language Evalution Forum.
Roth Jr., C.H. 2006. Fundamentos de dise
no logico. Ed. Thomson.
Rumelhart, D.E., Widrow, B., & Lehr, M.A. 1994. The Basic Ideas in
Neural Networks. Communications of the ACM (CACM), 37(3).
Rus, V. 2002. Logic Form for WordNet Glosses. Ph.D. thesis, Southern
Methodist University.
211
212
Referencias
Rus, V., & Moldovan, D.I. 2002. High performance logic form transformation. International Journal for Tools with Artificial Intelligence,
3, 437454.
Russell, S., & Norving, P. 1996. Inteligencia Artificial: un enfoque moderno. Prentice Hall.
Sager, J. C. 1990. A Practical Course in Terminology Processing. John
Benjamins Publishing Company.
Sakay, H., & Masuyama, S. 2004. A multiple-document summarization
system with user interaction. Proceedings of the 20th International
Conference on Computational Linguistics.
Salton, G. 1989. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison Wesley.
Sanderson, M. 2000. Retrieving with Good Sense. Information Retrieval
Journal, 2(1), 4961.
Sasaki, Y., & Matsuo, Y. 2000. Learning Semantic-Level Information
Extraction Rules by Type-Oriented ILP. In: Proceedings of the 18th
International Conference on Computational Linguistics, COLING2000.
Schneider, K. 2004. A new feature selection score for multinomial naive
Bayes text classification based on KL-divergence. In: Proceedings
of 42st Annual Meeting of the Association for Computational Linguistics.
Scott, S., & Matwin, S. 1999. Feature engineering for text classification. Pages 379388 of: Proceedings of ICML-99, 16th International Conference on Machine Learning.
Shaban, K. 2006. A Semantiic Graph Modell for Text Representatiion
and Matchiing iin Document Miiniing. Ph.D. thesis, University of
Waterloo.
Shimohata, S., Kitamura, M., Sukehiro, T., & Murata, T. 2001. Collaborative Translation Environment on the Web. Pages 331334 of:
In proceedings of the MT Summit VIII.
Sikorski, T., & Allen, J. F. 1996. A Task-Based Evaluation of the
TRAINS-95 Dialogue System. Pages 207220 of: Workshop on
Dialogue Processing in Spoken Language Systems.
Silva, J., & Lopes, G. 1999. A local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units. In: Proceedings
of the 6th Meeting on the Mathematics of Language.
Sleator, D., & Temperley, D. 1993. Parsing English with a link grammar. In: Porceedings of Third International Workshop on Parsing
Technologies.
Soria, C., Tesconi, M., Marchetti, A., Bertagna, F., Monachini, M.,
Huang, C.-H., & Calzolari, N. 2006. Towards Agent-based Crosslingual Interoperability of Distributed Lexical Resources. Pages
1724 of: Proceedings of the Workshop on Multilingual Langua-
Referencias
213
214
Referencias
Vossen, P. 2002. EuroWordNet General Document. Part A. Final Document. EuroWordNet (LE2-4003, LE4-8328).
White, R.W., Oard, D.W., Jones, G.J.F., Soergel, D., & Huang, X.
2006. Overview of the CLEF-2005 Cross-Language Speech Retrieval Track. Pages 744 759 of: Accessing Multilingual Information
Repositories.
Yangarber, R. 2003. Counter-Training in Discovery of Semantic Patterns. In: Proceedings of the 41th Annual Meeting of the Association for Computational Linguistics (ACL).
Yangarber, R., Grishman, R., Tapanainen, P., & Huttunen, S. 2000.
Unsupervised Discovery of Scenario-Level Patterns for Information
Extraction. In: Proceedings of the 18th International Conference
on Computational Linguistics, COLING-2000.
Zelikovitz, S., Cohen, W. W., & Hirsh, H. 2007. Extending WHIRL
with background knowledge for improved text classification. Information Retrieval, 10(1), 3567.
Zhang, D., & Lee, W.S. 2003. Question classification using support vector machines. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 26th annual international ACM SIGIR conference on Research and development
in informaion retrieval, 2632.
Zhang, J, & Li, C. 2005. A Comparative Study for WordNet Guided
Text Representation. Pages 883887 of: Proceedings of AI 2005:
Advances in Artificial Intelligence.