Tesis Rafamt

Representacion del conocimiento
textual mediante tecnicas

logico-conceptuales en aplicaciones de
tecnologas del lenguaje humano
Tesis Doctoral
Presentada por
Rafael Munoz Terol
Dirigida por
Dr. Patricio Martnez Barco
Dpto. de Lenguajes y Sistemas Informaticos
Universidad de Alicante
Alicante, marzo de 2009
A mis sobrinos: Jose,

Ainhoa y Samuel
Agradecimientos
Esta Tesis no habra sido posible sin el alentador trabajo de mi director,

Patricio Martnez Barco. Quiero agradecerle no solo su atenta labor de direccion (que ya es por s misma motivo sobrado), sino tambien por su constante
animo y por todo lo que he podido aprender de el en el da a da.
Mi mas que profundo agradecimiento a Manuel Palomar y Pepe Clavel quienes, junto a mi director, me dieron la oportunidad de trabajar en el Grupo
de Investigacion en Procesamiento del Lenguaje Natural, alla por el mes de
noviembre de 2002.
A mis tocayos Mu
noz y Romero, Borja Navarro, Jose Luis Vicedo, Da
vid Tomas, Fernando Llopis, Sergio y Oscar
Ferrandez, Marcel Puchol y Elisa
Noguera por su ayuda y colaboracion en las diferentes etapas del trabajo de
investigacion.
En general, quiero hacer una mencion muy especial a todos y cada uno de
mis compa
neros del Grupo de Procesamiento del Lenguaje y Sistemas de Informacion de la Universidad de Alicante, sin cuyos animos y colaboracion me
habra resultado muy difcil la finalizacion de este trabajo.
Un agradecimiento muy especial va dirigido a mis compa
neros de despacho
Santi, Sonia e Irene quienes no han dejado de apoyarme durante el transcurso
de este profundo trabajo de investigacion.
A mi madre y la memoria de mi padre y mis tas, por inculcarme desde
ni
no el valor del esfuerzo para alcanzar los objetivos desde el profundo respeto
hacia los demas. A mis tos, primos y sobrinos por su gran cercana y apoyo
incondicional durante toda esta etapa predoctoral.
Indice general
1.. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. La independencia del dominio en los sistemas de PLN . . . . . . . . . . 2
1.2. La multilingualidad en los sistemas de PLN . . . . . . . . . . . . . . . . . . 3
1.3. Exposicion del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Objetivos de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.. Estado del arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1. Aplicaciones del PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Sistemas estadsticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2. Sistemas basados en reglas de PLN o conocimiento ling
ustico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Representacion textual sin contenido ling
ustico . . . . . . . . . . . . . . .
2.2.1. Modelo basico de representacion . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Modelo de n-gramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3. Representacion textual con contenido ling
ustico . . . . . . . . . . . . . .
2.3.1. Modelo de representacion sintactica . . . . . . . . . . . . . . . . . . . .
2.3.2. Modelo basado en relaciones de dependencia entre palabras
2.3.3. Modelo de fusion de pares de dependencias sintacticas . . . .
2.3.4. Modelo de formas logicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5. Modelo de representacion semantica basado en grafos . . . . .
2.3.6. Modelo basado en ontologa . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.7. Modelo basado en analisis de la semantica latente (LSA) . .
2.4. Sntesis de los enfoques de representacion textual . . . . . . . . . . . . . .
2.5. La representacion formal del texto en los sistemas de PLN . . . . . .
2.5.1. La representacion formal del texto en los sistemas de
B
usqueda de Respuestas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2. La representacion formal del texto en los sistemas de Recuperacion de Informacion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.3. La representacion formal del texto en los sistemas de Traduccion Automatica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.4. La representacion formal del texto en los sistemas de Categorizacion Automatica de Textos . . . . . . . . . . . . . . . . . . . . .
2.5.5. La representacion formal del texto en los sistemas de Dialogo
2.5.6. La representacion formal del texto en los sistemas de Extraccion de Informacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
16
18
18
20
20
21
23
23
24
25
26
27
29
30
31
31
32
35
36
36
38
39
VI
Indice general
2.5.7. La representacion formal del texto en los sistemas de Generacion de Res

umenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.. La Forma L
ogica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1. El calculo de predicados de primer orden en el PLN . . . . . . . . . . .
3.1.1. Lenguaje de primer orden . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.2. Interpretacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.3. Evaluacion de formas logicas . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. La forma logica en el PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3. La forma logica en aplicaciones de PLN . . . . . . . . . . . . . . . . . . . . . .
3.4. La forma logica extendida: independiente del dominio y de la
lengua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Obtencion de las relaciones de dependencia entre pares de
palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.2. Derivacion de la forma logica . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4.3. Ejemplo de derivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
45
47
48
49
50
55
61
62
63
71
74
4.. La forma l
ogico-conceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1. Tratamiento logico-conceptual y representacion semantica . . . . . . 78
4.1.1. WordNet y EuroWordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.1.2. UMLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2. Derivacion de las formas logico-conceptuales . . . . . . . . . . . . . . . . . . 83
4.3. Independencia del dominio en la forma logica . . . . . . . . . . . . . . . . . 87
4.3.1. La forma logico-conceptual en el dominio abierto . . . . . . . . . 88
4.3.2. La representacion semantica de la frase en el dominio abierto 90
4.3.3. La forma logico-conceptual en los dominios restringidos . . . 91
4.3.4. La representacion semantica de la frase en los dominios
restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
4.4. La independencia de la lengua de la forma logica . . . . . . . . . . . . . . 95
4.4.1. La independencia de la lengua de la forma logica en el
dominio abierto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.4.2. La independencia de la lengua de la forma logica en los
dominios restringidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.. Evaluaci
on del recurso l
ogico-conceptual para la representaci
on formal del texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.1. Analisis y determinacion de las tareas de evaluacion . . . . . . . . . . . 111
5.2. Evaluacion en la tarea Cross-Language Speech Retrieval del
CLEF 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2.2. Motivacion y aportaciones esperadas . . . . . . . . . . . . . . . . . . . 115
5.2.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Indice general
5.3.
5.4.
5.5.
5.6.
5.7.
VII
5.2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

5.2.5. Analisis y discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Participacion en la tarea Recognising Textual Entailment del
PASCAL 2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.3.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.3.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Participacion en la tarea Answer Validation Exercise del CLEF
2006 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.4.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.4.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.4.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
Participacion en la tarea Multilingual Question Answering del
CLEF 2008 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.5.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.5.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Evaluacion en la clasificacion de preguntas medicas . . . . . . . . . . . . 143
5.6.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.6.3. Desarrollo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.6.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.. Conclusiones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

6.1. Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.3. Produccion cientfica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Indice de tablas
2.1. Ejemplo de representacion seg

un el modelo de bolsa de palabras . . . .
un el modelo de representacion sintactica
un el modelo basado en relaciones de
dependencias entre palabras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
un el modelo de fusion de pares de
dependencias sintacticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
un el modelo de representacion semantica (I) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
un el modelo de representacion semantica (II) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
un el modelo hbrido . . . . . . . . . . . . . . . .
2.8. Asignacion de frecuencias entre terminos y documentos seg
un el modelo LSA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9. Sntesis de los enfoques de representacion textual . . . . . . . . . . . . . . . . .
2.10.Sntesis de los modelos de representacion textual . . . . . . . . . . . . . . . . .
2.11.Relaciones semanticas de la frase del ejemplo . . . . . . . . . . . . . . . . . . . . .
3.1. Sntesis de los enfoques basados tanto en logica como en formas
logicas aplicados al PLN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2. Relaciones de dependencias entre las palabras de la frase . . . . . . . . . .
3.3. Subconjunto de reglas simples de PLN aplicadas a las hojas en el
arbol de dependencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones
de dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5. Relaciones de dependencias entre las palabras de la frase . . . . . . . . . .
3.6. Reglas simples de PLN aplicadas a las hojas del arbol de dependencias
3.7. Reglas complejas de PLN aplicadas a las relaciones de dependencias .
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
Synsets del sustantivo car . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Informacion semantica relativa al sustantivo aspirin . . . . . . . . . . . . . . .
Predicados conceptualizados de la forma logica . . . . . . . . . . . . . . . . . . .
Formas logico-conceptuales derivadas de la forma logica original . . . .
Predicados conceptualizados de la forma logica . . . . . . . . . . . . . . . . . . .
Predicados multiconceptualizados desambiguados de la forma logicoconceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Conceptos de UMLS asociados a los predicados de la forma logica . .
21
24
25
26
28
28
30
31
32
33
34
56
63
67
67
71
73
73
82
83
85
86
89
91
94
Indice de tablas
4.8. Tipos semanticos en UMLS asociados a los predicados conceptualizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4.9. Predicados multiconceptualizados desambiguados de la forma logicoconceptual en el dominio medico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.10.Reglas contrastivas aplicadas entre la lenguas espa
nola e inglesa . . . . 98
4.11.Ejemplos de aplicacion de las reglas contrastivas . . . . . . . . . . . . . . . . . . 99
4.12.Traduccion al espa
nol de los predicados de la forma logica . . . . . . . . . 103
4.13.Conceptos de la version inglesa de Wornet 1.5 traducidos mediante
el ILI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.1. Relacion existente entre las tareas de evaluacion y los matices contemplados en la evaluacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
5.2. Ejemplo de topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
5.3. Pesos de los terminos asignados por el sistema IR-n y su actualizacion seg
un la heurstica aplicada sobre la forma logica del topico . . . . 118
5.4. Precision del proceso de Recuperacion de Informacion aplicando la
heurstica sobre la forma logica del topico . . . . . . . . . . . . . . . . . . . . . . . . 119
5.5. Resultados de evaluacion en la tarea CL-SR del CLEF 2005 . . . . . . . . 120
5.6. N
umero de nodos obtenidos por cada formalismo en la representacion de los topicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.7. Ejemplos de reconocimiento de la Vinculacion Textual . . . . . . . . . . . . . 127
5.8. Resultados de la evaluacion en la tarea Recognising Textual Entailment 132
5.9. Resultados de la evaluacion en la tarea Answer Validation Exercise . 136
5.10.Resultados de la B
usqueda de Respuestas ingles-espa
nol . . . . . . . . . . . 142
5.11.Evaluacion detallada de la clasificacion de preguntas . . . . . . . . . . . . . . 151
5.12.Evaluacion global de la clasificacion de preguntas . . . . . . . . . . . . . . . . . 151
5.13.Precision de los clasificadores en cada ejecucion de la evaluacion . . . . 152
6.1. Preguntas
6.2. Preguntas
6.3. Preguntas
6.4. Preguntas
6.5. Preguntas
6.6. Preguntas
6.7. Preguntas
6.8. Preguntas
6.9. Preguntas
6.10.Preguntas
6.11.Preguntas
6.12.Preguntas
6.13.Preguntas
6.14.Preguntas
6.15.Preguntas
6.16.Preguntas
6.17.Preguntas
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
de
entrenamiento del tipo generico 1 . . . . . . . . . . . . . . . . . . . 182

entrenamiento del tipo generico 10 . . . . . . . . . . . . . . . . . . 191
evaluacion del tipo generico 1 . . . . . . . . . . . . . . . . . . . . . . 192
Indice de tablas
XI
6.18.Preguntas de evaluacion del tipo generico 8 . . . . . . . . . . . . . . . . . . . . . . 199

6.19.Preguntas de evaluacion del tipo generico 9 . . . . . . . . . . . . . . . . . . . . . . 200
6.20.Preguntas de evaluacion del tipo generico 10 . . . . . . . . . . . . . . . . . . . . . 201
Indice de figuras
2.1. Grafo que representa el texto del ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 38

4.1. Enlaces al lema prohibition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.2. Arbol
de relaciones de dependencia entre las palabras de la frase. . . . 103
5.1.
5.2.
5.3.
5.4.
5.5.
Arbol
de dependencias del topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Arbol
de constituyentes del topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Arbol logico del topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

Arquitectura del sistema de vinculacion textual . . . . . . . . . . . . . . . . . . . 129
Ajuste del umbral sobre el corpus de desarrollo . . . . . . . . . . . . . . . . . . . 130
1. Introducci
on
El Procesamiento del Lenguaje Natural (PLN) es una disciplina con una

destacada trayectoria. Nace en la decada de los a
nos sesenta, como un subarea
de la Inteligencia Artificial y la Ling
ustica, con el objeto de estudiar los problemas derivados de la generacion y comprension automatica del lenguaje natural.
Durante los u
ltimos a
nos se esta produciendo un notable crecimiento de la
cantidad de informacion en formato digital unido a la fuerte expansion de las
comunicaciones entre ordenadores como va principal de transmision de informacion entre usuarios. La gran cantidad de informacion disponible junto al
creciente n
umero de usuarios finales que disponen de acceso directo a dicha
informacion a traves de las redes de ordenadores, ha derivado la investigacion
en sistemas de informacion textual o sistemas de PLN que faciliten el analisis,
la localizacion, la gestion, el acceso y el tratamiento automatico de toda esta
informacion.
En este marco de sobrecarga de informacion, las tecnicas de minera de
textos (y en concreto aplicaciones tales como Recuperacion de Informacion,
B
usqueda de Respuestas, Extraccion de Informacion y analisis de la informacion en general tratadas desde el punto de vista de las Tecnologas del Lenguaje
Humano) pueden ayudar a los usuarios a organizar, buscar y comprender la
informacion de caracter multiling
ue presente en la Web.
Aparte de esta cantidad ingente de informacion multiling
ue que debe ser
tratada por los sistemas de PLN, se debe considerar tambien que en los u
ltimos a
nos se esta produciendo una adaptacion de aplicaciones o sistemas de
PLN del dominio abierto al dominio restringido, y viceversa. Un claro ejemplo de ello sucede con los sistemas de B
usqueda de Respuestas: aunque se ha
trabajado con intensidad en las aplicaciones de B
usqueda de Respuestas en dominios abiertos tal y como se refleja en las competiciones CLEF y TREC, sin
embargo, se muestra una tendencia a estudiar la aplicacion de estas tecnicas
sobre dominios restringidos, tal y como se observa en la edicion especial de la
revista Computational Linguistics dedicada a QA sobre dominios restringidos
(Daelemans & van den Bosch, 2007).
1. Introducci
on
1.1 La independencia del dominio en los sistemas de

PLN
Tradicionalmente, la informacion requerida por los sistemas basados en conocimiento se ha adquirido manualmente en colaboracion con expertos del
area tratada, con el alto coste que ello supone. Sin embargo, la creciente disponibilidad de recursos textuales on-line y el n
umero potencial de aplicaciones
de adquisicion de conocimiento a partir de datos textuales ha derivado hacia
un incremento en la investigacion en el campo de la Extraccion de Informacion.
Uno de los principales inconvenientes de la aplicacion de la Extraccion de
Informacion es su dependencia del dominio. Hay que considerar, por ejemplo,
la definicion de que contenido se considera relevante para cada dominio con
anterioridad al proceso de Extraccion de Informacion. El intento de reducir
el alto coste de adaptacion manual de las aplicaciones de Extraccion de Informacion a nuevos dominios ha conducido a la reciente investigacion en la
aplicacion de diferentes tecnicas de aprendizaje automatico (Riloff & Jones,
1999) (Yangarber, 2003).
En relacion al tratamiento de textos en los dominios restringidos, por ejemplo en el campo de la biomedicina, desde la u
ltima decada se esta prestando
especial interes en la utilizacion de tecnicas de PLN para la minera de textos,
es decir, para el analisis, la extraccion y la estructuracion de la informacion
contenida en colecciones de textos biomedicos.
Tomando como ejemplo el marco de la Extraccion de Informacion, se acaba
de introducir que esta esta cobrando gran importancia tanto en el dominio
abierto como en los dominios restringidos. Es por ello por lo que los sistemas
de Extraccion de Informacion deben ser capaces de trabajar sobre cualquier
dominio, tanto en el dominio abierto como en cualquier dominio restringido.
Para ello, deben disponer de un mecanismo de representacion formal del texto
capaz de abstraer el conocimiento del texto independientemente de cual sea su
dominio.
Por ejemplo, si se considera como marco de referencia el dominio biomedico,
las tecnicas de Extraccion de Informacion son de indudable interes para la ayuda a la construccion de recursos de utilidad para los investigadores biomedicos:
bases de datos de entidades biologicas (genes, protenas, compuestos qumicos,
enfermedades, etc.) y relaciones entre estas, ontologas y tesauros que clasifican conceptos biomedicos, o redes de interaccion entre entidades biomedicas.
Estas tecnicas tambien pueden ser u
tiles para la clasificacion y recuperacion
de documentos biomedicos o el analisis y estructuracion de historiales clnicos.
1.3 Exposici
on del problema
1.2 La multilingualidad en los sistemas de PLN

La investigacion en el campo de la Recuperacion de Informacion esta especialmente centrada en el desarrollo de sistemas robustos de Recuperacion
de Informacion multiling
ue. Un sistema CLIR (Cross Language Information
Retrieval) es un sistema de Recuperacion de Informacion que tiene capacidad
para operar sobre una coleccion de documentos multiling
ue, esto es, un sistema
capaz de recuperar todos los documentos relevantes que se encuentran en la
coleccion, independientemente del idioma utilizado tanto en la consulta como
en los propios documentos.
Una opcion en el ambito del PLN es que los sistemas en general y, los sistemas de B
usqueda de Respuestas Multiling
ues en particular, dispongan de
un mecanismo de representacion formal del texto capaz de modelar el conocimiento del texto en las diferentes lenguas tratadas por los sistemas.
1.3 Exposici
on del problema
Para exponer el problema planteado en el trabajo de investigacion, cabe
considerar el estudio previo desarrollado por Camara de la Fuente (2004) en
el ambito de la representacion ling
ustica del conocimiento y su relevancia en
la ingeniera ling
ustica.
La representacion del conocimiento es uno de los problemas inherentes en las
diferentes areas de la Inteligencia Artificial (IA). En el ambito de la semantica
lexica y computacional, Dez (1999) hace la distincion entre conocimiento y
razonamiento:
Ademas, tenemos que distinguir tambien entre conocimiento y razonamiento, ya que el primero esta ligado a los sistemas de representacion
y almacenamiento de la informacion y el segundo a la recuperacion,
conexion e inferencias y calculos hechos con esa informacion (motores
de inferencia), creando informacion nueva. A priori, cualquier sistema
de representacion del conocimiento ha de servir para realizar tareas de
razonamiento.
Seg
un Kirakowski (1988), en lo que respecta al contenido semantico que
puede englobar el saber, se pueden tipificar cinco tipos de conocimiento:
Conocimiento de procedimientos. Tambien se conoce como conocimiento procedural, y se refiere a como se hacen las cosas.
Conocimiento de objetos y hechos. Tambien se conoce como cono
cimiento declarativo, y se refiere al conocimiento sensorial. Este
es
esencial tanto para interpretar el mundo externo como para ubicar su
1. Introducci
on
propio yo en un contexto.
Conocimiento de consecuencias. Tambien se conoce como conocimiento de razonamiento, y se refiere al que se infiere a partir del conocimiento de procedimientos y del conocimiento de objetos y de hechos.
Asimismo, este tipo de conocimiento sienta las bases para generar
razonamiento basado en casos y para facilitar el aprendizaje en conocimiento procedural y declarativo.
Conocimiento de definiciones. Es el conocimiento articulado, elaborado, asentado, sintetizado y formulado derivado del conocimiento de
procedimientos, de hechos y de consecuencias. Este tipo de conocimiento tiene fundamentos epistemologicos y se representa de forma
textual mediante la descripcion de sus caractersticas y la estructuracion de las relaciones que existen entre los conceptos (estructuras
conceptuales) que subyacen al texto de la definicion. Este conocimiento se utiliza como recurso ling
ustico lexicografico para adquirir
conocimiento de forma automatizada, extrayendolo de las estructuras
conceptuales. Asimismo, este conocimiento contribuye al modelado
del conocimiento dando pautas para la organizacion de la macroestructura y de la microestructura del conocimiento de un dominio.
Metaconocimiento. Es el conocimiento acerca del conocimiento que
tiene como objetivo automatizar la gestion del conocimiento, es decir,
guiar la planificacion y la aplicacion del conocimiento en el entorno
de un sistema. Este tipo de conocimiento, por tanto, incluye informacion acerca del conocimiento de definiciones, de procedimientos,
de objetos y de hechos que posee un sistema. Este termino determina la existencia de un nivel de conocimiento abstracto que identifica
los fundamentos implcitos y explcitos del conocimiento en un sistema. Este tipo de conocimiento es una metodologa y tecnica utilizada
en ingeniera ling
ustica para desarrollar sistemas basados en conocimiento (ingeniera del conocimiento).
La gestion del conocimiento es un concepto que engloba la adquisicion
(tambien conocido como gestion del aprendizaje), la representacion, la
generacion, y la transferencia de saber. El ambito de este trabajo de
investigacion se centra en la representacion del conocimiento. Por ello,
se descarta la posibilidad de introducir terminologa y conceptualizaciones relacionadas con la adquisicion, generacion y transferencia del
conocimiento.
Dentro de los recursos que se pueden utilizar para la representacion
de conocimiento, cabe destacar el papel del lenguaje por su relevancia particular. El lenguaje es basico en el desarrollo y transferencia
1.3 Exposici
on del problema
de contenidos. Se ha demostrado que las tareas vinculadas a la gestion del conocimiento estan ntimamente relacionadas con los procesos
cognitivo-ling
usticos que tienen lugar en el cerebro, y se materializan
en forma de conocimiento representado a traves del lenguaje (Kandel
et al. , 1996).
El lenguaje es un fenomeno complejo y dinamico en el sentido de que
esta siempre en movimiento: por ser una herramienta universalmente
utilizada que siempre esta siendo actualizada por los agentes que intervienen e interact
uan en el acto de la comunicacion, y porque produce
manifestaciones de formas espontaneas dependientes de las condiciones
psicologicas, fisiologicas y sociales. Esta diversidad compleja siempre
creciente debe buscar una coherencia dentro de la misma estructura
del sistema y dentro de un entramado aparentemente caotico (Steels,
1997) (Steels, 2000). Esta concepcion del lenguaje responde a un paradigma complejo como un mapa abierto, conectable, descentralizado
y con m
ultiples jerarquas variables, reflejo de las estructuras y la organizacion del conocimiento humano (bioconocimiento). Se trata de un
paradigma de conocimiento complejo alternativo al paradigma lineal de
los modelos inductivos y deductivos (causa-efecto).
Se denomina conocimiento a las conceptualizaciones representadas que
explican la naturaleza tanto del mundo real como del mundo abstracto,
pero el conocimiento en s, no existe en la naturaleza (Galinsky, 2000).
En concreto, se representa el contenido de los razonamientos. Como ya
hemos visto, la representacion se hace a traves de smbolos de diversa ndole: de tipo ling
ustico, de tipo visual, de tipo auditivo, etc. Los
smbolos son transportadores de conocimiento que pueden apelar a cualquiera de nuestros sentidos para hacernos llegar el contenido semantico
y el sentido perceptivo que encierran.
En el marco del lenguaje natural, el texto es la forma mas potente de
representacion del conocimiento y, por tanto, de gestionar la informacion (Codina et al. , 2001). En este ambito, los terminos son unidades
de naturaleza ling
ustica que representan conocimiento de un determinado dominio y son consensualizaciones para denominar conceptos a
fin de poderlos transmitir. Ya se ha aludido a la trascendencia del lenguaje como fenomeno determinante para el desarrollo de conocimiento.
Si, ademas, esto lo unimos a la funcionalidad de los terminos, que se
acaba de explicar, se puede afirmar que no existe conocimiento sin terminologa. Por ello, los terminos son parte fundamental de la estructura
textual que representa el conocimiento.
Existen dos disciplinas fundamentales vinculadas a la representacion
ling
ustica del conocimiento: la terminologa y la organizacion del co-
1. Introducci
on
nocimiento.
La terminologa es un area de la ling
ustica de reconocido caracter interdisciplinar que se nutre de un conjunto especfico de conocimientos conceptualizado en otras disciplinas (ling
ustica, ciencia del conocimiento y
ciencias de la informacion y la comunicacion). Asimismo, es una ciencia
transdisciplinar porque los productos terminologicos son las piezas de
representacion ling
ustica en las que debe apoyarse cualquier campo de
conocimiento cientfico para poder adquirir, generar y transferir el conocimiento especfico de cualquier dominio (Cabre, 1999). Eso quiere decir
que en el campo del derecho, de la medicina, o de la fsica, por ejemplo,
la disciplina de la terminologa desempe
na un papel fundamental como analizadora de terminos transportadores de conocimiento especfico
de un dominio que median en la comunicacion, como identificadora de
reglas subyacentes en la generacion y relacion de los terminos, y como
metodo y habilidad de trabajo.
La organizacion del conocimiento es una disciplina de formacion reciente que estudia las leyes, los principios y los procedimientos para
estructurar el conocimiento especializado e identificar y establecer la
arquitectura en la que se sustenta el conocimiento de cualquier dominio.
Mucho antes de que la organizacion del conocimiento alcance el estado
de disciplina, es tratada por Aristoteles en su empe
no por fragmentar
el mundo para entenderlo y, as, poder clasificarlo. Desde entonces, esta
actividad ha sufrido cambios espectaculares. De concepciones puramente metafsicas y especulativas, desarrolladas en el terreno de la filosofa,
la epistemologa y la ontologa, se ha pasado a concepciones fsicas y
informatico-pragmaticas, desarrolladas desde diversas ramas (biblioteconoma, documentacion, epistemologa, informatica, inteligencia artificial, semiotica , terminologa , etc.), desplegadas a partir de las ciencias
fundamentales: ling
ustica, ciencias del conocimiento y ciencias de la
informacion y la comunicacion.
Este campo de estudio es de naturaleza interdisciplinar y se nutre de
los aportes recibidos de la ling
ustica, las ciencias del conocimiento y las
ciencias de la informacion y la comunicacion. El objeto de esta disciplina
es, por una parte, la organizacion del conocimiento explcito (conocimiento representado), es decir, socializado o registrado a fin de optimizar la circulacion del conocimiento en la sociedad y, por otra, el desarrollo de metodos que sustenten paradigmas de conocimiento validos,
escalables y ampliables. Tambien se considera una disciplina cientfica,
esto es, sujeta al metodo cientfico, de caracter aplicado (Garca-Marco,
1998).
1.3 Exposici
on del problema
La representacion del conocimiento cobra especial relevancia en los

ambitos de la ingeniera ling
ustica y del conocimiento. Desde que la
sociedad de la informacion global y multiling
ue -caracterizada por la
omnipotente influencia de las tecnologas de la informacion y de la comunicacion- ha expandido su influencia vertiginosamente, la gestion de
los recursos ling
usticos se ha convertido en una necesidad ineludible
para la mayora de las entidades p
ublicas y privadas.
La industria del conocimiento irrumpe con fuerza ofreciendo respuestas
que contribuyan a la creacion de mas conocimiento a partir de informacion codificada como simples datos. Esta industria, por su estrecha
relacion con la codificacion del conocimiento como informacion textual,
depende de metodos, herramientas y recursos ling
usticos que han venido desarrollando las industrias de la lengua.
Especialmente en el sector p
ublico se crean nuevas asociaciones, comunidades y grupos de interes que se involucran como usuarios o como
desarrolladores en actividades relacionadas con la gestion de recursos
ling
usticos. Para abastecer de materia prima al mercado son necesarios nuevos lenguajes relacionados con dominios de especial interes, relacionados tambien con los diferentes registros de la lengua, con una
dimension diferente entre el lenguaje escrito y el oral, y por u
ltimo,
relacionados con la tipologa y estructuracion textual. De esta materia
prima ling
ustica se abastecen ambitos tan diversos como el de la traduccion e interpretacion, el reconocimiento de voz, la recuperacion de
informacion en entornos abiertos (Internet) y cerrados (Intranet), y la
gestion del conocimiento. Todas estas aplicaciones a las que se dedica
la ingeniera ling
ustica estan relacionadas con la gestion de la informacion y del conocimiento. Son aplicaciones que precisan trabajar con
el conocimiento representado en forma de productos terminograficos,
sistemas conceptuales y otros recursos ling
usticos, as como metodos,
herramientas y experiencia acumulada en este sector de la industria de
la lengua.
Desde el punto de vista cognitivo, los sistemas desarrollados en el ambito de la ingeniera ling
ustica estan estrechamente vinculados a la ingeniera del conocimiento, porque sus planteamientos se basan en estructuras ling
usticas que conforman sistemas conceptuales variables que
ofrecen respuestas probables. Esta vision cognitiva se esta aplicando en
muchos de los retos asociados al procesamiento del lenguaje natural.
En este sentido, los nuevos sistemas de Traduccion Automatica, por
ejemplo, se basan en corpus textuales paralelos que se indexan utilizando bases de conocimiento que ayudan a estructurar y desambiguar los
posibles resultados que ofrece la maquina (Hutchins & Somers, 1992).
Es un planteamiento diferente con respecto a las primeras epocas de
1. Introducci
on
la ingeniera ling
ustica. La primera epoca pareca ser meramente estadstica hasta que se introdujeron estrategias basadas en conocimiento
ling
ustico de tipo morfologico y despues sintactico. El renacimiento de
la relevancia de la semantica en los desarrollos de la ingeniera ling
ustica
es el resultado de los avances aportados por la ciencia del conocimiento.
Esta evolucion de planteamientos corresponde a un cambio de paradigma del conocimiento, de uno lineal a otro complejo. Los sistemas de
Recuperacion de Informacion tambien han sufrido una transformacion
cuya evolucion ha repercutido en su denominacion: sistemas de recuperacion de conocimiento, sistemas de gestion de conocimiento.
La ingeniera ling
ustica es una actividad eminentemente aplicada. Es
el resultado de representar en forma de artefactos y lenguajes artificiales las deducciones que se obtienen del area de trabajo de la ling
ustica
textual, de la ling
ustica computacional, de la informatica, de la terminologa y de la organizacion del conocimiento.
Las areas de la ingeniera ling
ustica vinculadas al dise
no y desarrollo
de sistemas basados en conocimiento son: adquisicion de conocimiento (knowledge acquisition), modelado de conocimiento (knowledge modelling), representacion de conocimiento (knowledge representation) e
infraestructura para el desarrollo de ingeniera de conocimiento (knowledge engineering development infrastructure).
En el contexto del PLN, seg
un Moreno et al. (1999), todo sistema de
PLN intenta simular un comportamiento ling
ustico humano; para ello
debe tomar conciencia tanto de las estructuras propias del lenguaje,
como del conocimiento acerca del universo del discurso. Seg
un esta definicion, los sistemas de PLN deben contar con alg
un tipo de mecanismo
que les permita tener un conocimiento de lo que se esta indicando en el
texto. Este mecanismo coincide con un modelo de representacion formal
del texto capaz de identificar el conocimiento que se esta representando
en el.
En los u
ltimos a
nos, se esta incorporando cierta tendencia en los sistemas de PLN que hace que, por un lado, deben ser capaces de manejar
grandes cantidades de informacion en diferentes lenguas y, por otro lado, deben manejar informacion bajo cualquier dominio de aplicacion,
es decir, tanto en el dominio abierto como en cualquier dominio restringido.
Este requisito hace que el modelo de representacion formal del texto
deba tratar los detalles referentes tanto a la independencia del dominio
como a la independencia de la lengua.
1.3 Exposici
on del problema
Para entender la necesidad de dotar a los sistemas de PLN de esquemas

y modelos de representacion formal del lenguaje, cabe hacer un retroceso temporal y centrarse en definiciones previas planteadas en el ambito
de las bases de datos para los modelos de datos, o de la inteligencia artificial en relacion a las propiedades de los esquemas de representacion
del conocimiento.
Seg
un Ullman et al. (1999), en el ambito de las bases de datos, un
modelo de datos se puede definir como un conjunto de herramientas
conceptuales u
tiles para describir los datos, las relaciones entre ellos y
la semantica asociada a los datos. Los modelos de datos constituyen
un vehculo fundamental para la representacion del conocimiento en los
sistemas de informacion.
Por otro lado, en el ambito de la inteligencia artificial, seg
un Russell et
al. (1996) y teniendo en cuenta tambien las consideraciones del inicio
de la seccion, la representacion del conocimiento se define como el proceso de transformacion del conocimiento de un dominio a un lenguaje
simbolico para ser procesado computacionalmente. Rich et al. (1994)
define la representacion del conocimiento como una combinacion de
estructuras de datos (que nos permiten representar mediante un formalismo determinado las verdades relevantes en alg
un dominio) asociadas
con mecanismos interpretativos que nos permiten manipular el conocimiento representado a fin de crear soluciones a problemas nuevos.
Continuando en el ambito de la IA, la representacion del conocimiento
tiene una gran importancia, hasta el punto de que actualmente se habla de la Ingeniera del Conocimiento. Concretamente, la ingeniera del
conocimiento es un ambito de la inteligencia artificial cuyo proposito se
centra en desarrollar sistemas basados en representaciones de conocimiento experto (Camara de la Fuente, 2004).
Los elementos basicos de la representacion del conocimiento son los
smbolos. Estos
se refieren a hechos de interes pertenecientes al dominio a representar. Los hechos se definen como las verdades en un
cierto mundo y es lo que se quiere representar. Todo lenguaje de representacion de conocimiento debe definir dos aspectos fundamentales:
la sintaxis y la semantica. La sintaxis identifica las posibles formas de
construir y combinar los elementos del lenguaje para representar los
hechos del dominio real. La semantica determina la relacion entre los
elementos del lenguaje y su interpretacion en el dominio.
Tambien existen dos fases en la representacion del conocimiento: la fase de codificacion y la fase de decodificacion. La fase de codificacion
(representacion) hace referencia a la conversion de los hechos reales a
su representacion interna. Por el contrario, la fase de decodificacion se
10
1. Introducci
on
refiere a los procesos inferenciales realizados sobre la representacion interna del conocimiento que la convierten en hechos del mundo real.
La representacion del conocimiento debe ser capaz de captar generalizaciones, ser comprensible, ser facilmente modificable e incrementable,
ser usado en diversas situaciones y propositos, permitir diversos grados
de detalle, captar la incertidumbre y la imprecision, representar distinciones importantes y focalizar el conocimiento relevante.
Las caractersticas de una buena representacion son:
Precisa: Los objetos y las relaciones importantes deben aparecer explcitamente y de forma conjunta.
Eficiente: Las restricciones inherentes al problema se muestran pero
no los detalles irrelevantes.
Transparente: La representacion debe ser transparente, es decir, se
entiende lo que se dice.
Completa y concisa: Estan representados con eficacia todos los objetos y relaciones.
Rapidos y computables: Se puede almacenar y recuperar la informacion con rapidez, y se pueden crear mediante un procedimiento ya
existente.
Considerando todo ello, las partes que debe tener toda representacion
son:
Parte lexica: Determina que smbolos estan permitidos en el vocabulario de la representacion.
Una parte estructural que describe las restricciones sobre la forma en
que los smbolos pueden ordenarse.
Una parte operativa que especifica los procedimientos de acceso que
permiten crear descripciones, modificarlas y responder a preguntas
utilizandolas.
Una parte semantica que establece una forma de asociar el significado
con las descripciones.
Ademas, en el marco de la inteligencia artificial, seg
un Russell et al.
(1996), las propiedades que deben tener los esquemas de representacion
1.3 Exposici
on del problema
del conocimiento son:

Adecuacion de la representacion: Capacidad del esquema de representacion para representar adecuadamente todo el conocimiento pertinente de un dominio. El objetivo consiste en soportar cualquier tipo
de conocimiento relevante.
Adecuacion inferencial: Posibilidad de manipular las estructuras de
representacion de forma que se puedan derivar nuevas estructuras
asociadas con nuevo conocimiento inferido a partir del antiguo.
Eficiencia inferencial: Posibilidad de mejora del proceso inferencial
mediante la inclusion de heursticas y guas que agilicen la inferencia.
El objetivo perseguido consiste en procesar el conocimiento e inferir
nuevo conocimiento con un coste computacional aceptable.
Eficiencia adquisicional: Capacidad del esquema para incorporar facilmente nuevo conocimiento tanto de forma manual (reglas) como de
forma automatica (aprendizaje automatico).
Otras caractersticas:
Transparencia: Posibilidad de identificar facilmente el conocimiento representado. Consecuencia de ello, debe ser posible interpretar
directamente (a ojo) lo que representa cada estructura.
Naturalidad y claridad: Posibilidad de representar el conocimiento en su forma original (el conocimiento no sufre ning
un tipo de
transformacion). Por ejemplo, tratar directamente frases en lenguaje natural.
Modularidad: Capacidad del esquema para soportar la fragmentacion del conocimiento sin perder eficiencia ni eficacia.
Granularidad: Grado de detalle de la representacion del conocimiento. Depende de los requisitos del problema y del tipo de conocimiento a representar.
La definicion de modelo de datos propuesta por Ullman et al. (1999)
considera que los elementos basicos del modelo de datos son los datos.
Seg
un la Real Academia de la Lengua, la palabra es el elemento basico para la comunicacion, a traves del lenguaje. Por ello, los elementos
basicos de los modelos de representacion formal del lenguaje son las
palabras. En ellos, quedan definidas las palabras, las relaciones entre
11
12
1. Introducci
on
las palabras y la semantica asociada a las palabras. Ademas, como se

contemplara en el siguiente captulo, los modelos de representacion del
lenguaje quedan enmarcados dentro de esquemas de representacion del
conocimiento, y como tal, deben cumplir las propiedades del esquema.
Esto es, los modelos de representacion del lenguaje deben cumplir las
propiedades de los esquemas de representacion del conocimiento definidas por Russell et al. y presentadas anteriormente.
1.4 Objetivos de la tesis

Existen diferentes modelos de representacion formal del texto tal y como se matizara en el siguiente captulo. La utilizacion de formas logicas
para tareas relacionadas con el tratamiento semantico o la representacion del conocimiento ha despertado u
ltimamente un creciente interes,
debido a que permite expresar textos en lenguaje natural con un grado
de formalismo que mantiene un buen equilibrio entre la complejidad del
modelo y la expresividad del mismo.
Diferentes investigadores han incorporado las formas logicas en sus sistemas de PLN para abordar la representacion del conocimiento expresado
en los textos. Aunque en los siguientes captulos se detallan los enfoques
de formas logicas planteados en los principales sistemas de PLN por estos autores, se puede concluir que estos modelos de formas logicas, por
una parte, no abordan el problema de la independencia del dominio de
aplicacion del sistema de PLN y, por otra parte, tampoco son capaces
de solventar los problemas derivados de la independencia de la lengua.
Con el proposito de solventar los problemas de la independencia del dominio y de la lengua, en el marco de esta tesis se buscara un modelo de
representacion que, por una parte, permita la representacion formal de
textos en cualquier dominio de aplicacion (tanto en el dominio abierto como en cualquier dominio restringido) y, por otra parte, permita
representar cualquier texto con independencia de la lengua en la que
este escrito.
Para ello, el citado modelo de representacion debe cumplir las propiedades de ser precisa (introduce u
nicamente los elementos necesarios que
reflejan el contenido de la oracion asociada), independiente del dominio
(cualquier texto en cualquier ambito puede ser representado seg
un este
modelo), conceptualmente completa (permite obtener una representacion conceptual completa y no ambigua del texto) e independiente de la
lengua (este planteamiento permite representar formalmente los textos
en cualquier lengua).
1.4 Objetivos de la tesis
Como proposito del trabajo de investigacion, conviene destacar tambien

el desarrollo de un marco de evaluacion que tenga en cuenta los aspectos
relativos a las propiedades fundamentales del modelo de representacion
del texto desarrollado. Ello implica que este marco de evaluacion debe
considerar los matices referentes a la precision, completitud conceptual,
independencia del dominio e independencia de la lengua en la evaluacion global de modelo de representacion.
Siguiendo este marco, los siguientes captulos de la tesis estan estructurados del siguiente modo:
Captulo 2. Estado del arte. En el captulo siguiente se hace una clasificacion de los sistemas de PLN com
unmente conocidos seg
un su grado
de uso de informacion ling
ustica y se detalla las necesidades que estos
sistemas tienen en cuanto a la representacion formal del texto procesado. Tambien se presenta un estudio de los diferentes enfoques llevados
a cabo para realizar la representacion formal del texto. En primer lugar
se indican las caractersticas basicas de los enfoques. A continuacion
se introducen los detalles de las aproximaciones concretas de representacion formal del texto. Se analizan las carencias que presentan estas
aproximaciones en cuanto al tratamiento del texto tanto independiente
del dominio como independiente de la lengua.
Captulo 3. La forma l
ogica. En este captulo se contrastan dos
de los modelos de representacion formal del texto mediante la forma
logica mas extendidos en el PLN. Se presentan las caractersticas mas
relevantes, similitudes y diferencias entre tales modelos. Se analizan las
ventajas y los inconvenientes de ambos enfoques justificado con ello las
carencias existentes entre tales modelos que originan el desarrollo del
nuevo modelo logico-conceptual de representacion del texto desarrollado
en la investigacion. Finalmente, se detallan las principales caractersticas a nivel de dise
no e implementacion de este nuevo modelo.
Captulo 4. La forma l
ogico-conceptual. En este captulo se introduce el tratamiento logico-conceptual que es el verdadero artfice de
proporcionar tanto la independencia del dominio como de la lengua en
las representaciones formales del texto derivadas a partir del recurso desarrollado en la investigacion. Ello lo hace tomando como n
ucleo de la
representacion la forma logica inferida seg
un lo detallado en el captulo
anterior.
Captulo 5. Evaluaci
on. En este captulo se define el marco de evaluacion que determina la validez del recurso logico-conceptual desarrollado
en la investigacion. Para ello se presentan las diferentes evaluaciones
realizadas a los diferentes sistemas de PLN que han utilizado el recurso
13
14
1. Introducci
on
en este desarrollo de sus funciones.

Captulo 6. Conclusiones finales. En este captulo quedan recogidas
las conclusiones obtenidas al desarrollar este trabajo de investigacion y
se definen las lneas de trabajo futuras que se pretenden desarrollar.
Finalmente quedan reflejadas las referencias bibliograficas utilizadas en
el desarrollo de este trabajo de investigacion.
Anexo A. Reglas simples de derivaci
on de predicados en la
forma l
ogica. Con objeto de facilitar su comprension, este anexo presenta en detalle las reglas simples de derivacion de los predicados de la
forma logica a partir de los nodos hojas del arbol de dependencias, que
se introducen en el captulo 3.
Anexo B. Reglas complejas de derivaci
on de predicados en la
forma l
ogica. Con la misma finalidad que el anexo anterior, este anexo
presenta en detalle las reglas complejas de derivacion de los predicados
de la forma logica a partir del analisis y estudio de las relaciones de
dependencia en los nodos intermedios del arbol de dependencias, introducidas tambien en el captulo 3.
Anexo C. Preguntas desarrolladas para la evaluaci
on de la tarea de clasificaci
on. Este anexo presenta en detalle la coleccion de
preguntas desarrollada para la tarea de evaluacion de la clasificacion de
preguntas medicas introducida en el captulo 5.
2. Estado del arte
Es bastante com
un encontrarse con aplicaciones que hacen alg
un tipo
de procesamiento del lexico o del habla. Un ejemplo de ello son los
editores de texto, que incorporan herramientas para la correccion ortografica (escribir casaq en lugar de casa). Otro ejemplo es Google que
nos permite recuperar informacion de internet basandose en las palabras
clave introducidas. Un tercer ejemplo son los vehculos que incorporan
tecnologa de reconocimiento de voz para interactuar con el telefono
movil de su conductor permitiendole, por ejemplo, establecer una llamada telefonica (el conductor pronunciando la frase imperativa Llama
al 609... o Llama a la oficina hara que su telefono movil llamase,
bien al n
umero deseado o, bien a la oficina, siendo oficina una entrada
de la agenda del telefono). Esta tecnologa tambien permite la sntesis
mediante voz de los mensajes de texto que se reciben en el telefono
movil del conductor.
Este tipo de aplicaciones, aunque realizan un procesamiento del lenguaje (secuencias fonicas, terminos, ...), no son aplicaciones puras del
PLN. Antes de justificar el por que, conviene analizar las definiciones
que, seg
un diferentes investigadores, se han dado del PLN:
Seg
un (Sosa, 1997), el PLN se concibe como el reconocimiento y utilizacion de la informacion expresada en lenguaje humano a traves del uso
de sistemas informaticos. En PLN se investiga como el lenguaje puede
ser utilizado para cumplir diferentes tareas y la manera de modelar el
conocimiento.
Seg
un (Darriba, 2007), el PLN se define como el desarrollo de modelos
computacionales de determinados aspectos de lenguaje humano para
que, partiendo de esos modelos se puedan realizar programas capaces
de comprender o producir enunciados en lenguaje natural.
La primera definicion se refiere al reconocimiento de la informacion
expresada en lenguaje humano mientras que la segunda definicion se
refiere a la comprension del texto. Basandonos en estas dos definiciones se deduce que la comprension adecuada del texto es una de las
tareas mas importantes y complejas del PLN. La comprension del texto
16
2. Estado del arte
consiste en su transformacion a una determinada representacion formal

(Jurafsky & Martin, 2000). Por lo tanto, en el contexto del PLN, los
sistemas realizan un preproceso del texto con el objeto de obtener una
representacion formal que facilite su comprension.
Las aplicaciones mencionadas al comienzo del captulo no realizan
ning
un preproceso para obtener una representacion formal del texto
que van a procesar, y es por ello por lo que no son consideradas como
aplicaciones puras en el ambito del PLN. En contrapartida, las aplicaciones del PLN s que obtienen una representacion formal del texto con
el objeto de facilitar su comprension.
En los siguientes apartados, se presentan las aplicaciones o sistemas mas
comunes del PLN categorizados seg
un el grado de informacion ling
ustica que incorporan. Posteriormente se muestran las tecnicas que utilizan
estos sistemas, agrupadas tambien, seg
un su grado de uso de PLN. Mas
adelante, se detallan los diferentes modelos de representacion formal del
texto utilizados por los sistemas de PLN. Finalmente, se presentan las
conclusiones de este captulo.
2.1 Aplicaciones del PLN

En los u
ltimos a
nos, debido a la evolucion de la sociedad hacia la cada
vez mayor interaccion con las nuevas tecnologas, han surgido una serie
de problemas cuya solucion ha precisado de la incorporacion del PLN.
Con el proposito de hacer frente a toda esta problematica, en el ambito
del PLN, han surgido diferentes sistemas. A continuacion se presentan
algunos de los diferentes tipos de sistemas de PLN existentes clasificados de menor a mayor grado de uso de informacion ling
ustica1 :
Los sistemas de Traduccion Automatica (Shimohata et al. , 2001)
(Hayashi et al. , 2001) cuya funcion consiste en realizar la traduccion
correcta de un lenguaje a otro, tomando en cuenta lo que se quiere
expresar en cada oracion.
Los sistemas de Categorizacion Automatica de Textos (Kang, 2004)
(Bi et al. , 2004) cuya funcion consiste en la clasificacion automatica
de documentos en categoras predefinidas.
Los sistemas de Recuperacion de Informacion (Strzalkowski et al. ,
1998) (Galvez et al. , 2005) que se encargan de recuperar aquellos
1
Aunque puedan existir sistemas de un mismo tipo que divergan significativamente en el grado de
informaci
on ling
ustica, esta clasificaci
on se ha hecho considerando u
nicamente el grado de uso
de informaci
on ling
ustica empleado por los primeros sistemas existentes de cada tipo
textos o documentos de una gran coleccion documental que satisfagan las necesidades de informacion del usuario.
Los sistemas de Correccion de Textos (Veronis, 1988) (Vosse, 1992)
que permiten la deteccion y correccion de errores, no solo ortograficos,
sino tambien gramaticales.
Los sistemas de Dialogo (Sikorski & Allen, 1996) (Castro et al. , 2003)
que reciben como entrada frases del lenguaje natural expresadas de
forma oral y generan como salida frases del lenguaje natural expresadas asimismo de forma oral. La finalidad de estos sistemas es emular
el comportamiento inteligente de un ser humano que realiza una tarea
concreta y proporciona informacion de la misma de forma automatica, por ejemplo, horarios de salida de aviones, partes meteorologicos,
estado de cuentas bancarias, etc.
Los sistemas de Extraccion de Informacion (Sasaki & Matsuo, 2000)
(Yangarber et al. , 2000) cuyo proposito consiste en detectar la informacion que es relevante dentro de un conjunto de textos, ignorando
la no relevante, y estructurarla para su almacenamiento en una base
de datos.
Los sistemas de B
usqueda de Respuestas (Ferrandez & Ferrandez,
2007) (Perez et al. , 2004) que tienen como objeto dar una respuesta
concreta a la pregunta formulada por el usuario.
Los sistemas de Generacion de Res
umenes (Aone et al. , 1997) (Barzilay & Elhadad, 1997) que se centran en condensar la informacion
mas relevante de un texto.
Existen diferentes taxonomas de clasificacion de los sistemas de PLN.
Una de ellas es la propuesta por Contreras (2001) que los clasifica en
simbolicos, empricos o estadsticos y conexionistas. Los dos u
ltimos son
los llamados matematicos debido a que tienen una fuerte componente
de matematica y estadstica, mientras que los simbolicos estan basados
en el conocimiento, emplean reglas y algoritmos que representan el conocimiento del lenguaje natural. Tambien estan los sistemas hbridos,
que son aquellos que integran una combinacion de diversos modelos.
En base a esta clasificacion realizada por Contreras (2001) y debido a
que los enfoques estadsticos y conexionistas hacen un fuerte hincapie en
el uso de la matematica y, sobre todo, en la estadstica, determinados
autores como, por ejemplo, Partee et al. (2004) y Manning et al. (1999)
se refieren a ellos como sistemas estadsticos del PLN. De este modo,
los diferentes sistemas de PLN, en funcion de su metodologa, se clasi-
17
18
2. Estado del arte
fican en sistemas estadsticos y en sistemas basados en reglas de PLN o

conocimiento ling
ustico. Los sistemas hbridos, debido a que a pesar de
tener una parte matematica hacen uso de las tecnicas de PLN, se clasifican dentro de los sistemas basados en reglas de PLN. Seguidamente
se presentan las caractersticas basicas de estos dos tipos de sistemas,
seg
un su metodologa, y a lo largo de este captulo se comentaran diferentes sistemas concretos de PLN, tanto estadsticos como basados en
conocimiento ling
ustico, atendiendo al enfoque empleado para llevar a
cabo la representacion formal del texto.
2.1.1 Sistemas estadsticos

Los sistemas estadsticos involucran colecciones de muestras del lenguaje (corpus), las cuales son etiquetadas y usadas para crear modelos
estadsticos. El proposito perseguido por los sistemas estadsticos consiste en la aplicacion de los modelos de probabilidad y estadsticos para
inferir conocimiento directamente de los datos, buscando irregularidades significativas. Los modelos estadsticos empleados por este tipo de
sistemas (Marquez, 2001) se basan en los conceptos basicos de la teora
de probabilidad: probabilidad condicionada e independencia de sucesos.
Las tecnicas basicas consisten en calcular las frecuencias de las palabras
que aparecen en un conjunto de textos, y deducir todas las probabilidades medias y condicionadas, por ejemplo, calcular el parsing mas
probable de una frase a partir de los parsings anteriores.
El metodo de estimacion mas sencillo consiste en el manejo de frecuencias relativas extradas de un corpus ling
ustico. Este metodo tiene tres
fases claramente diferenciadas: recoleccion de datos, anotacion de las
unidades del corpus y calculo de frecuencias de las unidades. Tambien
existen otras tecnicas mas avanzadas (Rumelhart et al. , 1994), basadas en la utilizacion de redes neuronales y algoritmos evolutivos, cuyo
proposito principal se basa en la idea de simular la capacidad ling
ustica, el aprendizaje y la evolucion del lenguaje natural. Para ello, se trata
de simular la propia naturalidad del lenguaje, y se aplican tecnicas de
aprendizaje y representaciones simbolicas que evolucionan.
2.1.2 Sistemas basados en reglas de PLN o conocimiento
ling
ustico
En contrapartida con los sistemas estadsticos, los sistemas basados en
reglas de PLN utilizan conocimiento ling
ustico para realizar su cometido. Estas tecnicas ling
usticas pueden ser de diversa ndole (POS,
morfologa, dependencias, sintaxis, ...) incluso se pueden combinar varias de ellas. Basicamente, el funcionamiento de los sistemas basados en
reglas de PLN se centra en el dise

no de una serie de reglas o heursticas a partir de las tecnicas ling
usticas utilizadas. El dise
no de reglas
o heursticas puede ser empleado por los sistemas para, por ejemplo,
emparejar patrones o hacer inferencias (si a se relaciona con b y b se
relaciona con c, entonces a se relaciona con c). Mas adelante se profundizara en los aspectos relacionados con la representacion textual de los
sistemas basados en reglas de PLN.
En los u
ltimos a
nos, se estan experimentando una serie de tendencias
en el ambito del PLN que estan derivando hacia la multilingualidad de
los sistemas mas comunes del PLN y hacia su implantacion en determinados dominios restringidos. Desde el punto de vista de la multilingualidad de los sistemas de PLN, se esta haciendo especial enfasis en
que los sistemas de PLN sean capaces de manejar diferentes lenguas.
Un claro ejemplo de ello son los sistemas de B
usqueda de Respuestas
(Jung & Lee, 2002) capaces de obtener la respuesta en un idioma diferente al de la pregunta formulada por el usuario. La otra peculiaridad a
tener en cuenta en los sistemas de PLN es su adaptacion a los dominios
restringidos. Un ejemplo de ello son tambien los sistemas de B
usqueda de Respuestas (Molla & Vicedo, 2004), dise
nados para trabajar con
documentos y preguntas tanto en el dominio abierto como en cualquier
dominio restringido.
Tal y como se comenta en este captulo, los diferentes sistemas de PLN
(B
usqueda de Respuestas, Generacion de Res
umenes, Categorizacion
del Texto, sistemas de Dialogo, ...) no procesan el texto directamente
tal cual ha sido escrito o transcrito sino que, previo a su procesamiento,
el texto es transformado en una representacion formal que preserva sus
caractersticas relevantes. Es por ello por lo que la representacion formal
del texto es una cuestion muy importante a tener en cuenta en el PLN.
A lo largo de los u
ltimos a
nos se han propuesto diferentes alternativas
de representacion del texto. En este captulo se van a introducir las
diferentes representaciones formales del texto propuestas por diferentes
investigadores en PLN. Estas representaciones se estructuran en dos
categoras atendiendo al grado de uso de informacion ling
ustica empleado para obtener la representacion formal del texto: sin informacion
ling
ustica y con informacion ling
ustica. Los modelos de representacion
que hacen un escaso uso de la informacion ling
ustica estan basados en
el tratamiento de la palabra como unidad basica, mientras que por el
contrario, aquellos modelos que emplean un alto contenido de informacion ling
ustica consideran el texto o la secuencia de la palabras en la
representacion, descartando la palabra como unidad basica de la propia
representacion.
19
20
2. Estado del arte
2.2 Representaci
on textual sin contenido ling
ustico
Este enfoque se centra en hacer un analisis de los modelos de representacion textual que ignoran la informacion ling
ustica para realizar su
cometido. Se distinguen dos modelos: el modelo basico y el modelo de
n-gramas. Seguidamente se presentan estos dos modelos de representacion.
2.2.1 Modelo b
asico de representaci
on
Para algunos investigadores la representacion basica del texto se corresponde con el modelo de bolsa de palabras (bag-of-words). El elemento
basico de este modelo de representacion es la palabra. De este modo,
el texto correspondiente a cada documento se representa siguiendo el
modelo de espacio vectorial (VSM) de Salton (1989). La idea de este
modelo se centra en la construccion de un vector de terminos y pesos
donde:
los terminos se corresponden con los lemas de las palabras que componen el texto. En este modelo, las palabras que mas se utilizan en
cada idioma no se suelen representar. A este conjunto de palabras se
les conoce como palabras de parada (stopwords).
los pesos asociados a los terminos se calculan acorde a una de las
siguientes alternativas:
Modelo binario. En este modelo, el peso del termino puede tomar
dos valores: 0 si el termino no aparece en el documento, o 1 si el
termino aparece en el documento.
Frecuencia del termino (TF). En este modelo, el peso del termino
se corresponde con el n
umero de apariciones que tiene en el documento.
TF.IDF (Term-Frequency, Inverse Document Frequency). En este
modelo, el peso del termino se calcula en funcion de sus ocurrencias
en el documento y del valor inverso de su frecuencia de aparicion
en el conjunto de documentos a representar. Este valor se computa
seg
un la expresion:
N
T F.IDFtermino = T Ftermino log( dftermino
)
donde N es el n
umero de documentos a representar y dftermino es el
n
umero de documentos donde aparece el termino.
2.2 Representaci
on textual sin contenido ling
ustico
En este modelo, las unidades basicas de representacion son los terminos

de las palabras (su raz), considerando que las palabras de parada no
quedan representadas. La raz de una palabra guarda cierta similitud
con su lema, aunque no son exactamente la misma cosa. El lema de una
palabra se corresponde con la forma no marcada (forma estandar) de
la palabra, mientras que la raz es fruto del resultado de aplicar una
heurstica a las palabras para eliminar sus desinencias morfologicas obteniendo de este modo un termino que se aproxima a su lema pero que
es mas representativo de la palabra. Este termino es la raz o stem. Para
obtener la raz de las palabras se utiliza el algoritmo de Porter (1980),
la tecnica de stemming mas com
un en sistemas de PLN, que permite
obtener la forma canonica de cada palabra. Por ejemplo, las palabras
analyzing, analyzer y analysis tienen la misma forma canonica, siendo
esta (la raz) analy. El ejemplo 1 muestra una representacion siguiendo
este modelo.
(1)
Frase: The story of Mr. Fly and the Emergency Rescue

Committee who saved thousands in Marseille.
Representaci
on: La tabla 2.1 detalla la representacion de la frase siguiendo este modelo.
T
ermino (ra
z)
stori
fly
emerg
rescu
committe
save
thousand
marseil
Peso
1.84449
6.19484
6.47296
6.19484
4.08194
3.06725
2.33944
5.13363
Tabla 2.1. Ejemplo de representaci

on seg
un el modelo de bolsa de palabras
Este modelo de representacion del texto no tiene en cuenta aspectos

naturales de la oracion como, por ejemplo, la secuencialidad de palabras
ni las relaciones sintacticas. Por ejemplo, las frases Federer hit the
ball y The ball hit Federer tendran la misma representacion en este
modelo cuando, desde el punto de vista logico y semantico, representan
cosas claramente diferenciadas.
2.2.2 Modelo de n-gramas
El modelo de representacion de n-gramas (Caropreso et al. , 2001),
(Lewis, 1992), (Mladenic & Grobelnik, 1998) esta formado a traves de
21
22
2. Estado del arte
frases estadsticas definidas como n-gramas normalizados considerando

el filtrado de palabras (stoplist filtering), el stemming y el orden alfabetico. En general, se trata de una ventana deslizante de tama
no n
caracteres que se desplaza a lo largo del texto extrayendo n caracteres
en cada iteracion.
El modelo basico de n-gramas consiste en establecer una ventana deslizante de longitud fija (Kjell et al. , 1994), (Keselj et al. , 2003), donde n
indica el n
umero de caracteres que se toman de cada palabra (2-gramas,
3-gramas, 4-gramas,...). Una variacion de este modelo es el modelo de
n-gramas de longitud variable (Silva & Lopes, 1999), donde el tama
no
de la ventana deslizante de caracteres no es fija, sino que tiene un tama
no variable.
Seg
un diferentes autores de los mencionados en este modelo, una de
las ventajas de los n-gramas es que permite abordar el problema de las
palabras con la misma raz pero con distintos sufijos sin necesidad de
hacer stemming. Por ejemplo, seg
un el modelo anterior, las palabras
analyzing, analyzer y analysis tienen la misma representacion siendo
esta analy. En cambio, siguiendo el modelo de n-gramas, la representacion de estas palabras producira n-gramas diferentes aunque algunos
seran comunes entre s. A continuacion se muestra el ejemplo 2 que
ilustra la representacion formal del texto seg
un el modelo de n-gramas
de longitud fija de tama
no 3 (tambien llamado trigrama).
(2)

Committee.
Representaci
on: 2 Th The he e s st
sto tor ory ry y o of of f M
Mr Mr. r. . F Fl Fly ly y a
an and nd d t th the he e E
Em Eme mer erg rge gen enc
ncy cy y R Re Res esc scu cue
ue e C Co Com omm mmi mit
itt tte te. e.
Una variante de la representacion siguiendo el modelo de n-gramas son

los n-gramas de palabras. Concretamente, los n-gramas de palabras son
combinaciones de n palabras consecutivas. Seguidamente, en el ejemplo
3 se muestra la representacion de la frase anterior seg
un el modelo de
trigramas de palabras.
El smbolo representa el espacio en blanco que separa cada una de las palabras del texto.
2.3 Representaci
on textual con contenido ling
ustico
(3)

Committee.
Representaci
on: The story of story of Mr. of
Mr. Fly Mr. Fly and Fly and the and the
Emergency the Emergency Rescue Emergency
Rescue Committee
Una segunda variante de este modelo son los skip n-gramas. Un skip ngrama es una combinacion de n palabras en el orden en el que aparecen
en la frase, pero permitiendo saltos arbitrarios entre ellas. A continuacion, en el ejemplo 4 se muestra la representacion de la frase anterior
seg
un el modelo de skip trigramas con salto unitario.
(4)

Committee.
Representaci
on: The of Fly story Mr. and of
Fly the Mr. and Emergency Fly the Rescue
and Emergency Committee
2.3 Representaci
on textual con contenido
ling
ustico
Se acaba de presentar el enfoque de representacion textual sin contenido
ling
ustico, en el que el texto es representado como una bolsa de palabras o como una secuencia de n-gramas, donde se ignoran por completo
los significados e ideas que se expresan en el texto.
El enfoque de representacion textual con contenido ling
ustico se centra en estudiar los modelos de representacion textual que utilizan el
conocimiento ling
ustico para el desarrollo de su funcion. Los modelos
basados en este enfoque pretenden tratar, en menor o mayor medida,
los significados e ideas que se expresan en el texto.
2.3.1 Modelo de representaci
on sint
actica
El analisis sintactico de constituyentes convierte el texto de entrada
en otras estructuras (com
unmente arboles), que son mas u
tiles para el
posterior analisis y capturan la jerarqua implcita de la entrada. Por
ello, el modelo de representacion sintactica (Roger et al. , 2005) (Croft
et al. , 1991) (Mauldin, 1991) utiliza el arbol de analisis sintactico para representar formalmente las oraciones del texto. De este modo, las
palabras de las oraciones se transforman en estructuras que muestran
las relaciones gramaticales existentes entre las palabras. El ejemplo 5
23
24
2. Estado del arte
muestra la representacion formal del texto seg

un el modelo de representacion sintactica.
(5)
Frase: John drove his car yesterday.

Representaci
on: La tabla 2.2 ilustra la representacion de la frase segun las pautas descrutas en este
modelo de representacion
Parte izda. regla gramatical

S
NP1
HEAD1
VP
HEAD2
NP2
T
HEAD3
NP3
Parte drcha. regla gramatical

NP1 VP
HEAD1
John
HEAD2 NP2 NP3
drove
T HEAD3
his
car
yesterday

on seg
un el modelo de representaci
on sint
actica
2.3.2 Modelo basado en relaciones de dependencia entre

palabras
En este modelo (Matsumura et al. , 2006), para representar el texto, se
utiliza la informacion sintactica definida en las relaciones de dependencia entre las palabras de la frase. Seg
un la definicion propuesta por Lin
(1998b), una relacion de dependencia entre dos de palabras es una relacion binaria asimetrica entre una palabra llamada n
ucleo y otra palabra
llamada modificador. Normalmente, las relaciones de dependencia constituyen un arbol que enlaza todas las palabras de la frase. Este arbol de
dependencias tiene diferentes niveles de palabras porque una palabra en
la frase puede tener diferentes modificadores, pero cada palabra debe
modificar, al menos, a otra palabra. La raz del arbol de dependencia
no modifica a ninguna palabra. A ella se la denomina el n
ucleo de la
frase.
Por ello, las palabras se estructuran seg
un dos tipos: las que representan
concepto y las que indican relacion. Las palabras que representan concepto son aquellas cuya categora gramatical se corresponde con sustantivo, adjetivo, adverbio y los constituyentes de los nominales complejos.
Las palabras que indican relacion son las preposiciones, los verbos, los
auxiliares y sus combinaciones. A continuacion se muestra el ejemplo
2.3 Representaci
ustico
25
6 donde se matiza la representacion formal del texto seg

un el modelo
basado en relaciones de dependencia entre palabras.
(6)

Committee who saved thousands in Marseille.
Representaci
on: La tabla 2.3 ilustra la representacion
de la frase segun este modelo.
Modificador
Marseille [N]
who [N]
thousands [N]
in [Prep]
Emergency [N]
Rescue [N]
saved [V]
Mr. [N]
Committee [N]
Fly [N]
The [Det]
of [Prep]
N
ucleo
in [Prep]
saved [V]
saved [V]
saved [V]
Committee [N]
Committee [N]
Committee [N]
Fly [N]
Fly [N]
of [Prep]
story [N]
story [N]
Relaci
on de dependencia
pcomp-n
whn-subj
obj
mod
lex-mod
lex-mod
rel
lex-mod
conj
pcomp-n
det
mod

on seg
un el modelo basado en relaciones de dependencias entre
palabras
2.3.3 Modelo de fusi

on de pares de dependencias sint
acticas
Este modelo (Vilares et al. , 2002) se centra en la union de los terminos multipalabra. Un termino multipalabra es un termino formado por
dos o mas palabras con contenido (sustantivos, verbos y adjetivos) 3 .
Una de las tecnicas para la obtencion de los terminos multipalabra es la
simplificacion del texto (Jacquemin & Tzoukeman, 1999): en un primer
paso, se eliminan las palabras de parada y se obtienen las races de las
palabras, y, finalmente se extraen los terminos y se fusionan, por ejemplo, mediante emparejado de patrones (Dillon & Gray, 1983) o criterios
estadsticos (Fagan, 1987). El emparejado de patrones sintacticos se basa en la hipotesis de que las partes que mas informacion aportan del
texto se corresponden con patrones sintacticos especficos (Justeson &
Katz, 1995). De este modo, las relaciones sintacticas se identifican mediante patrones sintacticos de sintagmas nominales y de sus variantes
sintacticas y morfosintacticas. Aplicando este modelo se derivan cinco
metodos para representar al texto:
3
Ejemplo: the neighbours big dog
26
2. Estado del arte
pln: texto plano eliminando las palabras de parada.

lem: fusion de terminos monopalabra mediante lematizacion.
fam: fusion de terminos monopalabra mediante familias morfologicas
4
.
FNL: fusion de terminos multipalabra mediante pares de dependencias sintacticas y lematizacion.
FNF: fusion de terminos multipalabra mediante pares de dependencias sintacticas y familias morfologicas.
En el ejemplo 7 se detalla la representacion formal del texto seg
un el
modelo de fusion de pares de dependencias sintacticas.
(7)
Frase: Docenas de ninos muy alegres han tenido que

aprender hoy en el colegio una leccion de historia.
Representaci
on: La tabla 2.4 muestra la representacion de la oracion anterior en base a este modelo
de representacion.
Constituyentes originales
[docena NCFP N] [de P P]
[docena de Cifra SNum] [ni
no NCMP N]
[muy WQ SAdv] [alegre AQFP A]
[ni
no NCMP N] [alegre AQFP SAdj]
[haber V3PRI V] [tener VPMS V]
[tener V3PRI GV1] [que Cs Cs] [aprender VRI GV1]
[el DAMS DA] [colegio NCMS N]
[un DAFS DA] [lecci
on NCFS N]
[de P P] [historia NCFS N]
Fusi
on
[docena de Cifra SNum]
[ni
no NCMP N]
[alegre AQFP SAdj]
[ni
no NCMP SN]
[tener V3PRI GV1]
[aprender V3PRI GV2]
[colegio NCMS SN]
[lecci
on NCFS SN]
[historia NCFS SN]

on seg
un el modelo de fusi
on de pares de dependencias sint
acticas
2.3.4 Modelo de formas l

ogicas
Diferentes investigadores del area del PLN han definido la forma logica
como una representacion del conocimiento logico de primer orden de
oraciones expresadas mediante lenguaje natural (Rus, 2002) (Rus &
4
Una familia morfol

ogica es un conjunto de palabras obtenidas a partir de una raz morfol
ogica
com
un mediante mecanismos de derivaci
on.
2.3 Representaci
ustico
Moldovan, 2002). En este modelo (Moldovan et al. , 2003) (Molla et al.

, 2002) la representacion del texto se lleva a cabo mediante formas logicas. La forma logica de la oracion representa su estructura logica y
esta formada a partir de predicados enlazados. Existen diferentes metodos de derivacion de la forma logica, as como de su formato, en lo que
se refiere a la composicion de cada uno de los predicados que la forman.
En los proximos captulos se hablara con detalle de todo ello. A continuacion, el ejemplo 8 detalla la representacion formal del texto seg
un
el modelo de formas logicas.
(8)
Frase: An earthquake occurred on the east coast of

Hokkaido.
Representaci
on: earthquake NN(x1) & occur VB(e1,x1,x4)
& on IN(e1,x2) & east coast NN(x2) & of IN(x2,x3)
& hokkaido NN(x3)
2.3.5 Modelo de representaci

on sem
antica basado en grafos
El proposito perseguido en este modelo es que exista un mapeo entre las
palabras del texto y objetos determinados de una fuente de conocimiento, de modo que se puedan crear correctas estructuras que correspondan
con los significados de las palabras combinadas unas con otras.
Existen diversos esquemas de representacion semantica del texto. Un
claro ejemplo es el modelo de grafos semanticos (Semantic Graph Model) (Shaban, 2006) cuya representacion consiste en un grafo basado en
estructuras de datos donde las entidades (agentes, objetos, estados, acciones, eventos, lugares, ...) son representados como vertices del grafo,
mientras que las relaciones entre ellos se representan como arcos. Cada
nodo (vertice) almacena la informacion sobre la entidad que representa,
pudiendo incluir el texto original, la informacion sintactica, el significado semantico y las relaciones con otros nodos. De este modo, cada nodo
tendra los siguientes atributos:
Name: Identificador exclusivo del nodo
Type: clasificacion de la entidad (agente, objeto, accion, ...)
Texto: el texto original
Syn: la etiqueta POS
Sen: los sinonimos de la entidad seg
un la fuente de conocimiento
27
28
2. Estado del arte
Sem: el significado desambiguado de la entidad

Rel: las relaciones con otros nodos del grafo
Para poder representar el texto como un grafo, el primer paso consiste
en realizar el analisis sintactico del texto y, a continuacion, se deriva el
grafo, donde determinadas estructuras del arbol de analisis sintactico
se corresponden con nodos y arcos del grafo. Seguidamente se detalla
un ejemplo de representacion formal del texto seg
un el modelo de representacion semantico.
(9)
Frase: John eats the apple standing beside the tree.

Representaci
on: En las tablas 2.5 y 2.6 se aprecia la
representacion de la frase anterior en base a este
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 1
Agent1
Agent
John
Noun, Subject
Agent Name
Agent Name (1)
Action1 (.9),
Action2 (.85)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 2
Action1
Action
eats
verb
chow, chunk, eats,
grub
eat (.9)
Object1 (.9)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 3
Object1
Object
the apple
object
apple, orchard apple
tree, Malus pumila
apple tree (.8)
NIL

on seg
on sem
antica (I)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Rel.:
Nodo 4
Action2
Action
standing
verb
status, position, motion, movement, move, mobility
position (.7)
Object2 (.8)
Name:
Type:
Text:
Syn.:
Sen.:
Sem.:
Sem.:
Nodo 5
Object2
Object
beside the tree
adverb
beside the tree (.8)
NIL

on seg
on sem
antica (II)
Cabe destacar tambien la representacion basada en marcos (frames)

como una especializacion de este modelo. El concepto de marco fue propuesto en la decada de los setenta por Minsky (1975). La idea principal
2.3 Representaci
ustico
del marco es muy simple: un marco representa un objeto o un concepto. Las relaciones entre objetos y conceptos vienen denotadas por los
huecos (slots). Los atributos permiten determinar las propiedades de
los objetos y/o conceptos.
2.3.6 Modelo basado en ontologa
Atendiendo a la propia composicion del lenguaje humano, un concepto
puede ser expresado mediante distintas palabras sinonimas, y tambien,
dada una palabra, esta puede tener diferentes significados seg
un su contexto. Los modelos de representacion vistos hasta ahora no tienen en
cuenta ninguna de estas consideraciones. Los modelos de representacion
del texto basados en ontologa tienen, por una parte, una componente matematica y, por otra parte, una fuerte componente basada en la
exploracion de alguna ontologa que permite la consideracion todo tipo
de caractersticas semanticas del lenguaje. La ontologa clasica utilizada
en este modelo de representacion formal del texto suele ser WordNet
(Miller, 1995).
Siguiendo el modelo basado en ontologa, en la representacion del texto,
solo se tienen en cuenta aquellas palabras cuyas categoras gramaticales
son sustantivo, adjetivo, verbo o adverbio, ya que la base de datos lexica WordNet solo tiene entradas de este tipo de palabras. Las entradas
de WordNet se agrupan en synsets seg
un su categora gramatical. Un
synset agrupa a una serie de palabras sinonimas de la misma categora
gramatical incluyendo su n
umero de sentido. Cada synset de WordNet
esta identificado exclusivamente por un identificador de synset, que es
un n
umero de ocho dgitos. Por ejemplo, el synset 02853224 agrupara
las palabras car, auto, automotive y motorcar con sentido 1, y machine
con sentido 2.
Diferentes autores han utilizado este modelo de representacion en sus
investigaciones tales como Gonzalo et al. (1998), Scott et al. (1999),
Junker et al. (1997), Vicedo (2002) y Petridis et al. (2001). Sanderson
(2000) hace un buen estudio de las diferentes variaciones de este modelo
aplicadas a la Recuperacion de Informacion. A continuacion se muestra
el ejemplo 10 en el que se presenta la representacion formal del texto
seg
un el modelo hbrido considerando u
nicamente el sentido de las palabras en WordNet.
(10) Frase: A bank is an institution that lends money to

business establishments and plays an important role in commerce.
29
30
2. Estado del arte
Representaci
on: La tabla 2.7 muestra la representacion de la frase siguiendo las pautas descritas en
este modelo.
Palabra
bank
institution
lends
money
business
establishments
plays
important
role
commerce
Representaci
on
bank n#10
institution n#4
lend v#2
money n#3
business n#1
establishment n#7
play v#17
important a#1
role n#4
commerce n#3

on seg
un el modelo hbrido
2.3.7 Modelo basado en an

alisis de la sem
antica latente
(LSA)
El analisis de la semantica latente (Latent Semantic Analysis) es una
tecnica que consiste en analizar las relaciones entre los textos y la terminologa contenida en ellos mediante el uso de conceptos que relacionan
a ambos.
El modelo basado en analisis de la semantica latente (Deerwester et al. ,
1990), (Hasan & Matsumoto, 1999) utiliza una matriz que relaciona los
terminos y los textos donde se describen las apariciones de los terminos
en los textos. Los elementos de la matriz siguen una proporcionalidad
relativa al n
umero de apariciones de cada uno de los terminos en cada
uno de los textos. La tecnica de analisis de la semantica latente transforma esta matriz de ocurrencias en una relacion entre los terminos y
algunos conceptos, y en otra relacion entre estos conceptos y los textos.
De este modo, los terminos y los textos quedan relacionados a traves de
los conceptos. El ejemplo 11 muestra la representacion formal del texto
seg
un el modelo LSA. Los documentos c1-c5 son ttulos de publicaciones que tratan sobre la interaccion persona-ordenador, mientras que los
documentos m1-m4 tratan sobre la teora de grafos.
(11) Frase: The human-computer relation over the EPS

user interface.
2.5 La representaci
on formal del texto en los sistemas de PLN
Representaci
on: La Tabla 2.8 muestra la frecuencia
de aparicion de los terminos en los documentos.
Documentos
T
erminos
human
interface
computer
user
relation
EPS
c1
c2
c3
c4
c5
m1
m2
m3
m4
1
1
1
0
0
0
0
0
1
1
0
0
0
1
0
1
0
1
1
0
0
0
0
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Tabla 2.8. Asignaci

on de frecuencias entre terminos y documentos seg
un el modelo LSA
En el modelo LSA, a partir de la matriz de frecuencias entre terminos

y documentos, se realizan complejas operaciones de calculo (descomposicion de valores singulares parametrizada, calculo de matriz de aproximacion, correlacion de vectores, medias de correlaciones entre pares
de documentos, etc.) cuyo proposito no es otro que relacionar terminosconceptos, y conceptos-documentos.
2.4 Sntesis de los enfoques de representaci

on
textual
En las secciones previas del captulo se han presentado los diferentes
enfoques de representacion formal del texto. Estos enfoques, atendiendo a las metodos empleados, se han clasificados en enfoques estadsticos
y enfoque basados en reglas de PLN. La tabla 2.9 presenta una sntesis
de estos enfoques de representacion textual.
Ademas, dentro de cada enfoque, tenemos diferentes modelos de representacion formal del texto. La tabla 2.10 sintetiza los diferentes modelos
de representacion textual vistos en las secciones previas del captulo.
2.5 La representaci
on formal del texto en los
sistemas de PLN
A continuacion se presenta la utilizacion que los diferentes sistemas
mas comunes de PLN han efectuado de los distintos modelos de representacion formal del texto presentados a lo largo de este captulo. En
concreto, se introducen los detalles mas significativos de los modelos de
31
32
2. Estado del arte
Idea
Consiste
Tecnicas
Modelos
Ventajas
Limitaciones
Enfoques sin cont. ling

u
stico
Representar el lenguaje a partir de la
matem
atica y la estadstica.
Aplicaci
on de c
alculos matem
aticos
y estadsticos sobre las derivaciones
de las palabras.
TF
TF.IDF
WIDF
...
B
asico (bag of words)
N-gramas
Coste computacional moderado

Uso escaso de recursos ling
usticos
No aportan ning
un tipo de
conocimiento ling
ustico.
Enfoques con cont. ling

u
stico
Representar la estructura l
ogica del
lenguaje (conocimiento del
lenguaje).
Aplicaci
on de reglas y heursticas
basadas en PLN para derivar las
estructuras del lenguaje.
An
alisis lexico
An
alisis Morfol
ogico
An
alisis sint
actico
...
Hbrido
LSA
Relaciones de dependencia
Fusi
on de pares de dependencias
sint
acticas
Representaci
on sint
actica
Formas l
ogicas
Representaci
on sem
antica
Enriquecimiento ling
ustico.
Mayor precisi
on.
Mayor coste computacional.
En algunos casos, sobreutilizaci
on
de recursos ling
usticos.
Tabla 2.9. Sntesis de los enfoques de representaci

on textual
representacion formal del texto utilizados por los diferentes sistemas en

la areas de B
usqueda de Respuestas, Recuperacion de Informacion, Traduccion Automatica, Categorizacion Automatica de Textos, sistemas de
Dialogo, Extraccion de Informacion y Generacion de Res
umenes. Para
ello, se detallan mecanismos de representacion formal del texto de los
sistemas de PLN que han causado un impacto relevante en el seno de
la investigacion en cada una de estas areas.
2.5.1 La representaci
on formal del texto en los sistemas de
B
En este apartado se detallan los modelos de representacion formal del
texto que utilizan los sistemas de B
usqueda de Respuestas desarrollados en los centros de investigacion de Texas, Washington y Trento bajo
la supervision de los investigadores Dan I. Moldovan, Dina DemnerFushman y Bernardo Magnini respectivamente.
El sistema COGEX de Moldovan et al. (2007) utiliza un mecanismo
de representacion formal del texto basado en formas logicas. A la forma logica se le incorpora informacion semantica de dos maneras: (1) la
2.5 La representaci
Modelo
b
asico
Modelo
N-gramas
Modelo
basado
en
Ontolog
a
Modelo
LSA
Modelo
Dependencias
Modelo
Fusi
on
Dependencias
Sint
acticas
Modelo
Sint
actico
Modelo
Formas
L
ogicas
Modelo
Sem
antico
basado en
Grafos
Consiste
Representaci
on del texto
en base a complejos
c
alculos sobre derivaciones
de las palabras.
Representaci
on del texto
en base a una ventana
deslizante de caracteres
de tama
no fijo o variable.
Representaci
on del texto
en base a c
alculos
estadsticos e informaci
on
conceptual.
Representaci
on del texto
en base a matrices estadsticas que relacionan textos,
conceptos y documentos.
Representaci
on del texto
en base a relaciones
de dependencia entre
pares de palabras.
Representaci
on del texto
entre pares de
dependencias sint
acticas.
Representaci
on del texto
entre pares de
dependencias sint
acticas.
Representaci
on del texto
en base a secuencias
de predicados l
ogicos
relacionados.
Representaci
on del texto
en base a grafos
sem
anticos dirigidos
y acclicos.
33
Ventajas
Moderado coste
computacional. Uso
escaso de recursos
ling
usticos
Considera la naturalidad
del lenguaje (ej. orden
de las palabras
en la frase.)
Tiene en cuenta el
significado asociado
a las palabras
del texto.
Tiene en cuenta el
significado asociado
a las palabras
del texto.
Limitaciones
Ambig
uedad.
No tiene en cuenta
la naturalidad
del lenguaje.
No aporta ning
un
tipo de conocimiento ling
ustico
del texto.
Desambiguaci
on.
Sobreutilizaci
on de
fuentes de conocimiento ling
ustico.
Elevado coste
computacional.
Desambiguaci
on.
Granularidad.
Precisi
on.
Elevado coste
computacional.
Granularidad.
Precisi
on.
Elevada complejidad.
Alto coste
computacional.
Granularidad.
Claridad.
Expresividad.
Ambig
uedad.
Elevado coste
computacional.
Claridad.
No ambig
uedad.
Alta complejidad.
Elevado coste
computacional.
Sem
antica.
Claridad.
No ambig
uedad.
Alta complejidad.
Elevado coste
computacional.
Tabla 2.10. Sntesis de los modelos de representaci

on textual
clase semantica detectada por el reconocedor de entidades; y (2) las relaciones semanticas obtenidas a partir de un analisis semantico (Bixler
et al. , 2005). Las relaciones semanticas son del tipo: es-un, parte-de,
es-resultado-de, es-una-manera-de-hacer y es-resultado-de. A continuacion se muestra el ejemplo 12 donde se representa la frase dada con su
forma logica asociada.
(12) Frase: Bin Laden reportedly purchased anthrax a half

decade ago from a supplier in North Korea.
34
2. Estado del arte
Representaci
on: Bin NN(x1) & Laden NN(x2) & nn NNC(x3,
x1, x2) & human NE(x3) & reportedly RB(x4, e1)
& purchase VB(e1, x3, x5) & anthrax NN(x5) &
half JJ(x6, x7) & decade NN(x7) & ago JJ(x8, x7)
& from IN(e1, x9) & supplier NN(x9) & in IN(x9,
x12) & North NN(x10) & Korea NN(x11) & nn NNC(x12,
x10, x11) & location NE(x12)
Las relaciones semanticas de la frase del ejemplo estan expresadas en la
tabla 2.11. Estas relaciones semanticas se representan en la forma logica
mediante la introduccion de nuevos predicados. Estos nuevos predicados
conservan la estructura de sus analogos originales detallados en secciones anteriores de este captulo introduciendo como novedad el concepto
de rol semantico (Moreda et al. , 2008). Un rol semantico describe una
funcion abstracta desempe
nada por un elemento que participa en una
accion. Basicamente modelan el tipo de relacion semantica existente
(rol semantico), y sus argumentos se corresponden con los argumentos
identificadores de los predicados de la forma logica vinculados en las
relaciones semanticas. A continuacion, el ejemplo 13 muestra la representacion de las relaciones semanticas existentes en la frase.
(13) Frase: Bin Laden reportedly purchased anthrax a half

decade ago from a supplier in North Korea.
Representaci
on de relaciones sem
anticas: AGENT SR(x3,
e1) & TOPIC SR(e1, x4) & THEME SR(x5, e1)
& RECIPIENT SR(x9, e1) & TEMPORAL SR(x7,
e1) & MEASURE SR(x6, x7) & LOCATION SR(x12,
x9)
Relaciones sem
anticas
AGENT(Bin Laden, purchased)
TOPIC(purchased, reportedly)
THEME(anthrax, purchased)
RECIPIENT(a supplier in North Korea, purchased)
TEMPORAL(a half decade ago, purchased)
MEASURE(a half, decade)
LOCATION(in North Korea, a supplier)
Tabla 2.11. Relaciones sem
anticas de la frase del ejemplo
El sistema de Demner-Fushman et al. (2007) aplica un preproceso de

los documentos a representar consistente en la normalizacion de los mismos. Para ello elimina plurales, posesivos, palabras compuestas, otros
guiones, variantes deletreadas (spelling variants), etc. A continuacion
2.5 La representaci
obtiene una representacion estadstica de los documentos siguiendo el

modelo de n-gramas, teniendo un total de 1250391 n-gramas con tama
no de n variable desde 1 hasta 8. En el proceso de representacion,
el ndice almacena el n
umero de ocurrencias de cada n-grama en cada
documento.
Como mejora y optimizacion de la representacion formal del texto se
propone utilizar una representacion basada en el modelo de analisis
sintactico y el reconocimiento de la terminologa del corpus.
El sistema DIOGENE de Bernardo Magnini et. al (2002) hace un preproceso que consiste, en un primer paso, en una tokenizacion y etiquetado PoS de las palabras y, en un segundo paso, en el reconocimiento
de expresiones multipalabra. Una vez realizado este preproceso, el texto es representado formalmente siguiendo el modelo de representacion
hbrido. Para ello identifica cada palabra o expresion multipalabra con
su sentido asociado en la base de datos lexica WordNet.
Recuperaci
on de Informaci
on
texto que utilizan los sistemas de Recuperacion de Informacion desarrollados en los centros de investigacion de Amsterdam, Barcelona (Yahoo)
y Maryland bajo la supervision de los investigadores Marteen de Rijke,
Ricardo Baeza-Yates y Jimmy Lin respectivamente.
El sistema de Balog et al. (2007) obtiene una representacion formal del
documento basada en el modelo de bolsa de palabras (bag-of-words).
De este modo, las estimaciones que hace para determinar si un documento es candidato a ser relevante para una query es puramente estadstica ya que se basa en la formulacion propuesta por Bayes:
P (documento|query) = P (query|documento)P (documento)/P (query).
El sistema de Baeza-Yates et al. (2007) obtiene una representacion formal del texto basada en el modelo de bolsa de palabras. En el proceso
de recuperacion maneja conceptos totalmente estadsticos tales como
las frecuencias normalizadas de los terminos, la distribucion de las frecuencias, y las correlaciones de las frecuencias entre los terminos de los
documentos y de las queries.
El sistema de Jimmy Lin (2006), al igual que los dos sistemas predecesores en este apartado, obtiene tambien una representacion formal
del texto basada en el modelo de bolsa de palabras. Para ello utiliza
una variante del modelo de pesado TF.IDF. Basicamente se centra en
35
36
2. Estado del arte
computar estadsticamente las frecuencias de aparicion de los terminos

tanto en los documentos como en las queries, tratando de establecer
alg
un tipo de relacion entre ambos.
Traducci
on Autom
atica
texto que utilizan los sistemas de Traduccion Automatica desarrollados
en los centros de investigacion de California, Kyoto y Washington bajo
la supervision de los investigadores Chin-Yew Lin, Takao Doi y Chris
Quirk respectivamente.
El sistema de Lin et al. (2004) obtiene una representacion formal del
texto basada en el modelo de n-gramas y su variante modelo de skip
n-gramas. La Traduccion Automatica se basa en complejos calculos basados en la estadstica sobre los n-gramas de tama
no 1 y 2, y los skipbigramas.
El sistema de Doi et al. (2005), al igual que el anterior sistema presentado (Lin et al. (2004)), obtiene tambien una representacion formal
del texto basada en el modelo de n-gramas. La Traduccion Automatica se basa, basicamente, en la computacion de las probabilidades que
relacionan las secuencias de palabras y las expresiones tratadas en los
n-gramas.
El sistema de Quirk et al. (2005) obtiene la representacion formal del
texto aplicando el modelo basado en el analisis de dependencias. En
el proceso de traduccion utiliza tambien segmentacion y alineamiento
paralelo a partir de la representacion obtenida como arbol de dependencias.
Categorizaci
on Autom
atica de Textos
texto que utilizan los sistemas de Categorizacion Automatica de Textos desarrollados en los centros de investigacion de Texas, Passau y
Pittsburgh bajo la supervision de los investigadores Rada Mihalcea,
Karl-Michael Schneider y William W. Cohen respectivamente.
El enfoque de Categorizacion Automatica de Textos presentado por
Hassan et al. (2007) modela la distribucion de probabilidad de las palabras caractersticas de cada documento a partir de una representacion
formal del texto muy similar a los grafos presentados en el modelo
2.5 La representaci
semantico. Los grafos se construyen teniendo en cuenta las siguientes

consideraciones:
si un termino no ha sido previamente modelado en el grafo, entonces
se a
nade un nodo que representa al termino.
un termino solo puede ser representado por un u
nico nodo del grafo,
independientemente del n
umero de apariciones en el documento.
se dibuja un arco no dirigido entre dos nodos si los terminos que representan dichos nodos co-ocurren para un tama
no de ventana dado.
A continuacion, el ejemplo 14 muestra la representacion de un texto
seg
un este modelo de representacion considerando un tama
no de ventana igual a 2.
(14) Texto: London-based sugar operator Kaines Ltd confirmed it sold two cargoes of white sugar to India
out of an estimated overall sales total of four or five cargoes in which other brokers participated. The
sugar, for April/May and April/June shipment, was
sold at between 214 and 218 dlrs a tonne cif, it
said.
Representaci
on: En la figura 2.1 se puede contemplar
la representacion del texto anterior en base a este
En la aplicacion de la Categorizacion Automatica de Textos propuesta por Schneider (2004), la representacion formal del texto se basa en
el modelo de bolsa de palabras. De este modo, cada documento tiene
asociado un vector caracterstico bidimensional. La primera dimension
del vector refleja las diferentes palabras del documento mientras que la
segunda dimension del vector indica la frecuencia de aparicion de cada
una de las palabras en el documento. En base a este modelo de representacion, la clasificacion se basa en una computacion estocastica de
estos vectores basada en Naive Bayes considerando la divergencia KL.
La propuesta de Categorizacion Automatica de Textos planteada por
Zelikovitz et al. (2007) utiliza una representacion formal del texto basada en el modelo bolsa de palabras. Sobre esta representacion y la incorporacion de conocimiento del medio (background knowledge) al sistema
WHIRL (Word-based Heterogeneous Information Retrieval Language)
realiza el proceso de clasificacion de los textos.
37
38
2. Estado del arte

London
cif
based
tonne
sugar
dirs
operator
shipment
Kaines
June
May
confirmed
April
sold
participated
cargoes
brokers
white
total
sales
estimated
India
Figura 2.1. Grafo que representa el texto del ejemplo
Di
alogo
texto que utilizan los sistemas de Dialogo desarrollados en los centros
de investigacion de Saarsbrucken, Wisconsin, Rochester y Valencia bajo
la supervision de los investigadores Ralf Engel, Susan M. Haller, James
F. Allen y Emilio Sanchs respectivamente.
El sistema de Dialogo multimodal de Engel et al. (2007) utiliza un analizador sintactico que usa dos tipos de reglas:
el primer tipo de reglas es un conjunto de reglas especficas del dominio cuyo proposito es convertir las expresiones de entrada al sistema
en una representacion sintactica intermedia.
el segundo tipo de reglas es un conjunto de reglas independiente del
dominio cuyo objeto se centra en realizar una transformacion de las
representaciones sintacticas intermedias obtenidas en el paso previo
en un arbol de derivacion basado en una gramatica adyacente (treeadjoining grammar).
El sistema de Dialogo propuesto por McRoy et al. (1998) plantea una
representacion profunda mixta (mixed-depth representation) del tex-
2.5 La representaci
to que maneja tanto informacion sintactica como conceptual. Para ello

utiliza un analisis sintactico con una gramatica basada en ling
ustica
(linguistically based grammar) para capturar la sintaxis y la conceptualizacion de las expresiones de entrada al sistema.
Ademas, la representacion del conocimiento del dominio y la representacion del discurso se realiza en un framework uniforme como una red
semantica proposicional. En este framework la informacion se representa como un grafo compuesto de nodos y arcos dirigidos etiquetados que
cumplen las siguientes propiedades:
cada nodo representa un u
nico concepto.
cada concepto representado en la red tiene un u
nico nodo asociado.
el conocimiento representado sobre cada concepto es representado por
la estructura de toda la red conectada al nodo que representa el concepto.
El sistema de Dialogo propuesto por Poesio et al. (1994) utiliza un
analisis sintactico para representar la semantica lexica. A esta representacion la llama episodica logica (episodic logic) y la define como
una logica situacional desarrollada como una representacion semantica
y del conocimiento adecuada para la comprension general del lenguaje
natural. Para ello, cada una de las reglas de la gramatica se empareja
con una regla semantica, y de este modo se construye el arbol de analisis
sintactico de la frase.
El sistema de Dialogo DIHANA (2005) obtiene una representacion basada en frames de las expresiones de usuario. Los frames se obtienen en
dos pasos: el primero de ellos consiste en obtener una frase semantica
definida como una sequential Intermediate Semantic Language (ISL)
de la expresion de entrada al sistema; el segundo paso consiste en traducir esta frase semantica en su correspondiente frame asociado. Para
ello utiliza un procesamiento totalmente estocastico basado en los modelos ocultos de Markov y el uso de n-gramas sobre un amplio corpus
de aprendizaje.
Extracci
on de Informaci
on
texto que utilizan los sistemas de Extraccion de Informacion desarrollados en los centros de investigacion de Chennai, Pars y Sheffield bajo
la supervision de los investigadores Manjula Dhevi, Patrick Gallinari y
39
40
2. Estado del arte
Yorick Wilks respectivamente.

La propuesta presentada por Manjula et al. (2003) realiza una representacion formal del texto enriqueciendo el modelo de bolsa de palabras
con relaciones lexicas, conceptuales y contextuales. Las relaciones lexicas las adquiere explotando las relaciones definidas en la base de datos
lexica WordNet. Las relaciones conceptuales son extradas a partir de la
definicion de la glosa de WordNet, incluyendo su synset. De este modo,
a cada termino representado mediate el modelo de bolsa de palabras
le extiende su representacion incluyendo esta informacion extrada de
WordNet. Para la obtencion de las relaciones contextuales aplica una
serie de heursticas de PLN sobre el analisis de dependencias entre las
palabras.
El enfoque planteado por Amini et al. (1999) considera la representacion formal del texto siguiendo el modelo basado en bolsa de palabras
enriquecido con informacion morfosintactica (concretamente el POS de
las palabras). Sobre este tipo de representacion realiza una computacion
matematica aplicando los modelos ocultos de Markov y los perceptrones
multicapa.
La propuesta planteada por Kuper et al. (2003) representa formalmente
el texto basandose en el modelo de formas logicas. Concretamente, para
la lengua inglesa, define una gramatica para resolver, entre otros, los
sujetos y objetos logicos as como los pronombres y las expresiones
definitivas (ej. the Barcelona striker) derivando, a partir de dicha
gramatica, la forma logica. A continuacion aplica una serie de reglas
de extraccion de informacion basadas en logica para operar sobre las
formas logicas obtenidas a partir del analisis sintactico.
Generaci
on de Res
umenes
texto que utilizan los sistemas de Generacion de Res
umenes desarrollados en los centros de investigacion de Texas, Toyohashi y California
bajo la supervision de los investigadores Rada Mihalcea, Hiroyuki Sakai
y Eduard Hovy respectivamente.
La propuesta presentada por Rada Mihalcea et al. (2005) para la Generacion Automatica de Res
umenes realiza representacion formal del
texto como un grafo que contiene vertices y arcos donde los vertices
representan los conceptos extrados del texto y los arcos representan las
relaciones existentes entre los conceptos. A partir de esta representacion
aplica una computacion estadstica que asigna a cada vertice del gra-
2.6 Conclusiones
fo y a cada arco un factor de peso indicador de su relevancia en el grafo.

El planteamiento definido en el trabajo de investigacion de Hiroyuki
Sakai et al. (2004) propone una representacion formal del texto basada
en el modelo basico de representacion. Sobre esta representacion aplica
complejos calculos matematicos para computar las apariciones de los
terminos en los documentos, sus entropas, y el calculo de similitudes.
La aproximacion planteada por Lin et al. (2002) propone una representacion formal del texto basada en n-gramas. En concreto, la identificacion de conceptos la realiza aplicando unigramas, bigramas y trigramas. Sobre esta representacion aplica un procesamiento estadstico con
el proposito de realizar la tarea propuesta.
2.6 Conclusiones
En los u
ltimos a
nos se esta produciendo en la sociedad una utilizacion,
cada vez mayor, por una parte de los sistemas de PLN y, por otra, de los
sistemas que hacen uso del PLN. Un claro ejemplo de los primeros son
los sistemas de b
usqueda de respuestas, que permiten obtener de una
coleccion documental una respuesta concreta a una pregunta formulada, mientras que un claro ejemplo de los segundos, son los sistemas de
control domotico que facilitan al usuario la interaccion sobre los diferentes elementos del hogar domotico a traves de las ordenes expresadas
en lenguaje natural.
Los sistemas de PLN, no son capaces de procesar el texto tal cual esta escrito o transcrito sino que, para su proceso, el texto precisa ser representado formalmente, facilitando con ello la comprension de los que se
expresa en el texto. Existen numerosos modelos de representacion del
texto. Estos modelos, atendiendo a las tecnicas utilizadas, se clasifican
en estadsticos o basados en PLN.
A lo largo del captulo se han presentado las aplicaciones o sistemas
mas comunes del PLN categorizados seg
un el grado de PLN que incor
poran. Estos
son: los sistemas de Traduccion Automatica, los sistemas
de Categorizacion Automatica de Textos, los sistemas de Recuperacion de Informacion, los sistemas de Correccion de Textos, los sistemas
de Dialogo, los sistemas de Extraccion de Informacion, los sistemas de
B
usqueda de Respuestas y los sistemas de Generacion de Res
umenes.
Ademas se han mostrado los diferentes modelos de representacion formal del texto empleados por estos sistemas, agrupados tambien, seg
un
su grado de uso de informacion ling
ustica. Concretamente, los modelos de representacion formal del texto se han clasificado en modelos sin
41
42
2. Estado del arte
contenido ling
ustico y en modelos con contenido ling
ustico atendiendo
a la informacion ling
ustica que incorporan. Dentro de los modelos sin
contenido ling
ustico tenemos el modelo basico (bag-of-words) y el modelo de n-gramas. Por otro lado, dentro de los modelos con contenido
ling
ustico nos encontramos con el modelo de representacion sintactica, el modelo basado en relaciones de dependencia entre palabras, el
modelo de fusion de pares de dependencias sintacticas, el modelo de
formas logicas, el modelo de representacion semantica basado en grafos, el modelo basado en ontologa y el modelo basado en el analisis de
la semantica latente (LSA).
Tambien se ha hecho una sntesis tanto de los diferentes metodos de representacion formal del texto como de los diferentes modelos dentro de
cada metodo, y tras esta sntesis, se han presentado los diferentes usos
y enfoques que los principales sistemas de PLN vistos en el captulo hacen de estos modelos de representacion. Estos modelos de representacion
no abordan el problema de la independencia del dominio y de la lengua.
Una vez analizado todo ello y, teniendo en consideracion que las u
ltimas tendencias en el ambito del PLN han derivado a que los sistemas de
PLN por un lado, sean capaces de tratar la multilingualidad y, por otro
lado, sean adaptables del dominio abierto a cualquier dominio restringido, el trabajo de investigacion presentado en esta tesis se centra en
desarrollar un recurso logico-conceptual para la representacion formal
del texto que contemple aspectos como la independencia de la lengua y
su facil adaptacion del dominio abierto a cualquier dominio restringido
y viceversa.
El recurso logico-conceptual desarrollado para la representacion del texto se enmarca dentro del modelo de formas logicas. En los siguientes
captulos se detalla este modelo y se presentan los diferentes recursos de
representacion textual existentes en el marco de este modelo. Tambien
se matizan los detalles del recurso presentado para que contemple su
implantacion en dominios abiertos y en cualquier dominio restringido y
para que de soporte a los aspectos de la multilingualidad.
3. La Forma L
ogica
El instrumento fundamental de comunicacion humana son las lenguas

naturales. Las lenguas naturales estan formadas por palabras que se relacionan y estructuran formando oraciones. Uno de los principales tipos
de oraciones son las del tipo declarativo que se utilizan para la descripcion del conocimiento.
Aristoteles (384 adC - 322 adC) fue el primero en emplear el termino
Logica para referirse al estudio de los argumentos dentro del lenguaje
natural. En el Organon1 , Aristoteles la define como el arte de la argumentacion correcta y verdadera. Luego, podemos deducir que desde
antes de Cristo, ya exista una estrecha relacion entre la logica y la lengua natural. Se plantea otra definicion mas aplicada de la logica como
la disciplina que estudia los metodos de formalizacion del conocimiento
humano (Sperschneider & Antoniou, 1991).
Existen diferentes sistemas logicos tales como logica aristotelica, logica
baconiana, logica matematica, logica de primer orden, logica de segundo
orden, logica booleana y empirismo logico que a continuacion se pasa a
describir brevemente:
Logica aristotelica. La logica aristotelica (Lear, 1980) (Parry & Hacker, 1991) se ocupa del estudio de los conceptos, dedicando especial
atencion a los predicables, y de las categoras (o predicamentos), que
se completa con el analisis de los juicios y de las formas de razonamiento, prestando especial atencion a los razonamientos deductivos
categoricos o silogismos, como formas de demostracion especialmente
adecuadas al conocimiento cientfico.
Logica baconiana (Garret, 2003). La parte constructiva de la logica es
la exposicion de la teora de la induccion baconiana, o metodo baco
niano. Este
no consiste en una simple recogida de datos, sino en una
observacion cuidadosa y completa de los hechos, que llama historia
natural y experimental, realizada seg
un tablas de presencia, ausencia
y comparacion o grados. La induccion baconiana supone de hecho la
obtencion de hipotesis o conjeturas por eliminacion, las cuales somete
1
El Organon es un conjunto de obras escritas por Arist

oteles de Estagira.
44
3. La Forma L
ogica
de nuevo a otras pruebas.

Logica matematica. La logica matematica (Ben-Ari, 2001), tambien
llamada logica simbolica, consiste en el estudio matematico de la logica y en la aplicacion de este estudio a otras areas de las matematicas.
La logica matematica estudia los sistemas formales en relacion con el
modo en el que codifican conceptos intuitivos de objetos matematicos
como conjuntos, n
umeros, demostraciones y computacion. La logica
matematica suele dividirse en cuatro subcampos: teora de modelos,
teora de la demostracion, teora de conjuntos y teora de la recursion.
Logica de primer orden (Fitting, 1990). La logica de primer orden
(LPO) o calculo de predicados de primer orden es cualquier sistema
de la logica matematica que extiende la logica proposicional empleando variables, predicados y cuantificadores de variables. La logica de
primer orden consta de objetos, propiedades de esos objetos y relaciones entre los objetos. A lo largo del captulo se profundiza en los
detalles de la logica de primer orden.
Logica de segundo orden (Manzano, 1996). La logica de segundo orden es una extension de la logica de primer orden en la que se a
naden
variables y cuantificadores que operan sobre conjuntos de individuos.
Logica booleana. La logica booleana (Roth Jr., 2006), conocida tambien como algebra booleana, es un sistema matematico deductivo centrado en los valores cero y uno (falso y verdadero). Su algebra consiste
en un metodo para resolver problemas de logica que recurre solamente
a los valores binarios 1 y 0 y a tres operadores fundamentales: and
(y), or (o) y not (no).
Empirismo logico. El empirismo logico, tambien denominado positivismo logico, sostiene que un enunciado es cognitivamente significativo solo si, posee un metodo de verificacion emprica o es analtico.
Solo los enunciados de la ciencia emprica cumplen con el primer requisito, y solo los enunciados de la logica y las matematicas cumplen
con el segundo.
Para manejar formalmente el conocimiento humano descrito en los textos es necesario disponer de un elemento que permita, por una parte, tener una representacion formal del conocimiento y, por otra parte, hacer
deducciones sobre el conocimiento que se esta representando (Garrido,
2003). Este elemento es la forma logica y se compone de una secuencia
de uno o mas predicados relacionados entre s. Cada predicado tiene,
al menos, un argumento, pudiendo tener varios seg
un el tipo de predicado. Cada uno de los argumentos de los predicados queda instanciado
3.1 El c
alculo de predicados de primer orden en el PLN
mediante variables. A continuacion se define formalmente cada uno de

estos elementos constituyentes de la forma logica:
Smbolos de predicado. Los predicados son los elementos principales
de la forma logica. Mediante su uso, se establecen las propiedades y
relaciones de los objetos. Es decir, a traves de la utilizacion de predicados se definen las propiedades y relaciones de aquellas palabras o
secuencias de palabras susceptibles de ser entidades de pensamiento
autonomas e independientes.
Argumentos de predicado. Mediante su utilizacion, de manera estatica, quedan representados los objetos que relaciona el predicado.
Variables. Se utilizan para instanciar los argumentos de los predicados e identifican exclusivamente tanto a los objetos como a los propios
predicados.
Smbolos de puntuacion: ( ) ,. Estos smbolos son utilizados por los
predicados. Entre parentesis se detallan los argumentos de los predicados, separados por comas.
Por ejemplo, PRED(., ., ..., .) es un smbolo de predicado de n argumentos en el que cada argumento quedara instanciado por una variable.
El empleo de estos smbolos para representar la forma logica viene derivado de la simbologa utilizada en el calculo de predicados de primer
orden, tal y como se refleja a continuacion.
3.1 El c
alculo de predicados de primer orden en el
PLN
Seg
un Moore (1995), una de los mayores aplicaciones de la logica en el
ambito de la inteligencia artificial es, por una parte, su utilizacion como
formalismo de representacion del conocimiento en un sistema computacional inteligente y, por otra parte, el empleo de la deduccion logica para
la abstraccion de inferencias en el marco del conocimiento representado.
En la mayor parte de las ocasiones, el uso de la logica como mecanismo
de representacion formal y el uso de la deduccion logica para la abstraccion de inferencias del conocimiento representado van de la mano.
Es por ello por lo que muchos autores las consideran simultaneamente.
En cambio Newell (1980) considera que el rol de la logica es el de una
herramienta para el analisis del conocimiento, no para el razonamiento
de agentes inteligentes.
45
46
3. La Forma L
ogica
Seg
un matiza Poesio (2000), la teora de proposito general mejor conocida para la representacion del conocimiento es la logica de primer
orden, tambien conocida como calculo de predicados de primer orden.
El calculo de predicados de primer orden, como sucede con otras teoras
de representacion del conocimiento, permite expresar ciertos tipos de informacion: en el caso del calculo de predicados de primer orden, ciertas
propiedades de conjuntos de objetos. Este proceso se lleva a cabo utilizando para ello una sintaxis y una semantica.
En el inicio del captulo se ha comentado, por una parte, que las frases
declarativas constituyen el elemento basico de descripcion del conocimiento y, por otra parte, que la logica es la disciplina que estudia los
metodos de formalizacion del conocimiento humano. Por lo tanto, en
logica se estudian los metodos de formalizacion de frases declarativas.
Para ello existen dos niveles de abstraccion seg
un el grado de detalle
que se quiera formalizar: logica proposicional y calculo de predicados
de primer orden.
La logica proposicional o logica de enunciados toma como elemento
basico las frases declarativas simples o proposiciones, que son aquellos
elementos de una frase que constituyen por s solos una unidad de comunicacion de conocimientos y pueden ser considerados verdaderos o
falsos.
El calculo de predicados de primer orden estudia las frases declarativas
con mayor grado de detalle, considerando la estructura interna de las
proposiciones. Se tomaran como elementos basicos los objetos y las relaciones entre dichos objetos distinguiendose que se afirma (predicado
o relacion) y de quien se afirma (objeto).
El calculo de predicados de primer orden, y en general la logica, permite
hacer deducciones sobre un universo de discurso. Por ello, es imprescindible disponer de un lenguaje preciso que permita describir aquellos
aspectos relevantes de la realidad objeto de estudio. Este lenguaje, conocido como lenguaje de primer orden, consta de unos smbolos y unas
reglas precisas para combinarlos en expresiones sintacticamente correctas, en formulas. Con el lenguaje de primer orden se puede representar
el conocimiento descrito en el texto mediante la utilizacion de formulas.
Con la interpretacion del lenguaje de primer orden, es decir, con la interpretacion de sus formulas, se define el valor de verdad de tales formulas.
Seguidamente se detallan los matices que se hacen en la forma logica
desde la perspectiva del lenguaje de primer orden, la interpretacion y
3.1 El c
la evaluacion de formulas.
3.1.1 Lenguaje de primer orden

El lenguaje de primer orden es un conjunto de smbolos, un alfabeto, y
unas reglas que nos dicen que unas secuencias de smbolos son correctas y otras no (unas estan bien escritas y otras no). Seguidamente, se
estudia la adaptacion de estos elementos a la forma logica.
Alfabeto. Un lenguaje de primer orden, L, viene definido por un par
(A, F), donde A es un alfabeto de smbolos y F el conjunto de todas
las expresiones sintacticamente correctas (formulas bien formadas) que
se pueden construir utilizando los smbolos de A. Del alfabeto se emplean las siguientes clases de smbolos:
Variables. Se utilizan las variables para representar los objetos del
universo de discurso que cumplen los predicados de la forma logica
y, junto a los predicados, indican las relaciones existentes en la forma logica. Las variables vienen integradas en los predicados como
argumentos de los mismos. Como criterio de unificacion, las variables se suelen identificar a traves de las u
ltimas letras del alfabeto en
min
usculas, pudiendose utilizar subndices. Por ejemplo: x, y, z, x1 ,
y1 y z1 son smbolos de variable.
Smbolos de predicado. Los predicados son los elementos principales
de la forma logica. Mediante su uso, se establecen las propiedades y
relaciones de los objetos.
Smbolos de puntuacion: ( ) ,. Estos smbolos son utilizados en las
definicion de los predicados. Entre parentesis vendran dados los argumentos de los predicados y estos, a su vez, estaran separados por
comas.
T
ermino. En la adaptacion del lenguaje de primer orden a la forma
logica, se hablara de terminos para referirse u
nica y exclusivamente a
las variables, cuyo principal proposito sera instanciar elementos determinados del universo de discurso.
F
ormula at
omica. En la adaptacion del lenguaje de primer orden a
la forma logica, el concepto de formula atomica o atomo es equivalente
al original del lenguaje de primer orden. Luego, si PRED(., ., ..., .) es
un smbolo de predicado de n argumentos y t1 , t2 , ..., tn son terminos,
entonces PRED(t1 , t2 , ..., tn ) es una formula atomica o atomo.
47
48
3. La Forma L
ogica
F
ormula bien formada. En la adaptacion del lenguaje de primer
orden a la forma logica, u
nicamente la secuencia de una o mas formulas
atomicas relacionadas seran formulas bien formadas. Seg
un se ha comentado, las formulas atomicas se corresponden con los predicados. La
secuencia de uno o mas predicados relacionados consecutivos compone
la forma logica. Luego, la forma logica es una formula bien formada.
F
ormulas abiertas. En las formulas bien formadas o formas logicas,
tal y como se acaba de comentar, no se utilizan los cuantificadores, luego ninguna variable esta en el alcance de ning
un cuantificador. Es por
ello que todas las ocurrencias de variable seran libres. Por lo tanto, las
formas logicas tendran la consideracion de formulas abiertas.
3.1.2 Interpretaci
on
En la definicion original de Interpretacion, se trata de dotar a cada
smbolo del lenguaje de un contenido, es decir, establecer los valores
que definen la evaluacion a cierto o falso de las formulas. En este sentido se pretende que:
las variables identifican a los objetos del universo de discurso.
los predicados denotan las propiedades y relaciones sobre los objetos
del universo de discurso.
las formulas bien formadas sean enunciados o sentencias sobre el universo.
En la adaptacion del lenguaje de primer orden L=(A, F) a la forma
logica, el objetivo es la asignacion a cada smbolo del alfabeto A de un
valor del universo de discurso de forma que, utilizando esta asignacion
como base, se pueda definir el valor de verdad de cualquier formula
de dicho lenguaje. Para ello se introduce el concepto de interpretacion
adaptada a la forma logica.
Interpretaci
on adaptada a la forma l
ogica. Una interpretacion I
de un lenguaje de primer orden, L=(A, F), es una dupla (D, E) 2 donde:
D es un conjunto no vaco, llamado dominio de I, en el que las variables de A toman valores, y que constituye el universo de discurso.
2
N
otese que K y H desaparecen del concepto de interpretaci
on original del c
alculo de predicados de
primer orden porque en la adaptaci
on del lenguaje de primer orden a la forma l
ogica desaparecen
tanto los smbolos de constante como los smbolos de funci
on
3.1 El c
E es una aplicacion que asigna a cada smbolo de predicado n-ario

una relacion sobre Dn .
Para ilustrar la definicion anterior, se plantea el ejemplo de forma logica
P(x) Q(z, x, y) R(z, w) S(w). Cabe suponer que el universo de discurso
esta identificado y definido a traves de terminos instanciados mediante
el empleo de variables y, ello deriva que tambien este bien definido
L=(A, F).
3.1.3 Evaluaci
on de formas l
ogicas
Al hacer referencia a la evaluacion de las formulas o formas logicas, como
se ha comentado anteriormente, se hablara de la evaluacion de formulas
abiertas ya que las formas logicas se corresponden con formulas abiertas.
Debido a que en las formas logicas no se manejan operadores (parentesis, cuantificadores, conjuncion, ...) no tiene sentido hablar de orden de
precedencia entre ellos.
El resultado de evaluar una formula abierta o forma logica G con n
(n > 0) variables libres en una interpretacion, es una relacion n-aria,
RG , definida sobre el dominio de la interpretacion D. Cada tupla de
esta relacion es tal que, al sustituir las variables libres por las correspondientes componentes de la tupla, la formula cerrada que resulta es
cierta en la interpretacion. Si la relacion RG coincide con Dn la formula
se eval
ua simplemente a cierto; si RG no contiene ninguna tupla, entonces la formula se eval
ua a falso.
Tomando como ejemplo la forma logica P(x) Q(z, x, y) R(z, w) S(w),
las tuplas que haran cierta la forma logica deberan cumplir que las variables x, y, z y w quedaran instanciadas con objetos que haran ciertos
cada uno de los predicados. Cualquier otra tupla que no cumpla alguna
de las propiedades anteriores, hara falsa la forma logica.
Continuando en el marco de las consideraciones realizadas por Poesio
(2000), una de las razones por las que el calculo de predicados de primer orden es tan popular es porque sus formalizaciones son validadas,
esto es, permite deducir a partir de un conjunto de frases expresadas
en lenguaje natural aquellas frases cuyas consecuencias se deducen a
partir de la semantica especificada por otras frases. Estas formalizaciones se especifican a partir de la aplicacion de reglas de inferencia y de
un conjunto de axiomas. En concreto, una regla de inferencia consiste
en un conjunto de proposiciones llamadas premisas, y una proposicion
llamada conclusion. La regla de inferencia es un escenario en el que
se consideran las premisas verdaderas y, en consecuencia, la conclusion
tambien es verdadera. Una regla de inferencia es valida solo en este su-
49
50
3. La Forma L
ogica
puesto. Un claro ejemplo de sistema completo de formalizacion validada

en base a reglas de inferencias es la deduccion natural (Gamut, 1991).
Poesio tambien concluye que el calculo de predicados de primer orden
tiene una problematica asociada cuando es usado como herramienta
para capturar las inferencias relacionadas con la comprension de las expresiones formuladas en lenguaje natural.
Un primer problema son los costes computacionales que acarrea. En
determinadas situaciones, no se garantiza que un proceso de inferencia vaya a terminar. Este hecho sugiere que el calculo de predicados de
primer orden no pueda ser una caracterizacion apropiada del modo en
que los humanos hacen inferencias, debido a que los humanos pueden
inferir mas rapidamente que los sistemas. Debido a ello, diferentes investigadores han desarrollado sistemas logicos menos potentes que el
calculo de predicados de primer orden y, consecuentemente, mucho mas
eficientes. Prolog (Colmerauer & Roussel, 1996) y la forma logica son el
mejor ejemplo de ello. Otros investigadores, especialmente los ling
uistas, opinan que el problema del calculo de predicados de primer orden
es justo todo lo contrario: no tiene la suficiente potencia.
Seg
un Moore (1995), los formalismos de representacion basados en logica ofrecen la posibilidad de representar la informacion sobre una situacion aunque no se disponga de la descripcion completa de la situacion.
Los metodos de inferencia basados en deduccion permiten dar respuesta logica a preguntas complejas utilizando para ello la base de conocimiento que contiene la informacion, a
un cuando una pregunta no se
puede evaluar directamente. Para ello, la logica de primer orden permite representar informacion incompleta sobre las situaciones. Cualquier
mecanismo de representacion que considere estas peculiaridades sera, al
menos, una extension de la clasica logica de primer orden, y cualquier
sistema de inferencia capaz de manejar adecuadamente este tipo de generalizaciones tendra la consideracion de sistema automatico-deductivo.
3.2 La forma l
ogica en el PLN
La utilizacion de la forma logica para describir predicados ling
usticos y,
en concreto, la utilizacion de la forma logica en tareas de procesamiento
del lenguaje natural se remonta a la decada de los sesenta. Prueba de
ello son las investigaciones realizadas por autores como Davidson (1967)
y Barwise et al. (1983) que utilizan la forma logica como mecanismo de
representacion formal del conocimiento representado en el texto.
3.2 La forma l
ogica en el PLN
Donald Davidson (1967) plantea un marco teorico para representar formalmente las oraciones de accion (action sentences) en base a formas
logicas. Ejemplos de frases de accion son las siguientes: Vasco da Gama
discovered the north pole, Aristotle married Jocasta y I am telling
falsities. En la propuesta de representacion planteada en este estudio,
la forma logica se basa en una extension del lenguaje de primer orden
derivado de la logica clasica de primer orden (calculo de predicados de
primer orden) que se aborda a lo largo del captulo. En la representacion destaca la utilizacion de predicados, variables libres y ligadas como
argumentos de los predicados, y conectivas logicas. Seg
un esta representacion, cada predicado representa una accion e incluye tantos argumentos como sean necesarios para representar los agentes que intervienen
en la accion. Estos argumentos estan instanciados mediante variables
(ligadas y no ligadas). El ejemplo 15, mostrado a continuacion, refleja
la representacion formal de una oracion en base a la forma logica planteada por Davidson. Existen extensiones a esta representacion formal
basada en formas logicas planteada por Davidson. La representacion
formal basada en formas logicas propuesta por Hobbs (1985) extiende
a la predecesora propuesta por Davidson en el punto de que incluye
predicados predecesores en la forma logica indicadores de los predicados de acciones. La propuesta realizada por Balkanski (1991) considera
los problemas derivados de la realizacion de acciones (especialmente
expresiones temporales) en la forma logica de Davidson.
(15) Frase: Mary gave the pencil.
Representaci
on: (e) Giving(M ary, pencil, e)
El fuerte planteamiento teorico propuesto en el trabajo de investigacion de Barwise et al. (1983) se centra en la semantica de vecindarios
(neighborhood semantics), siendo esta una semantica que delimita las
situaciones mnimas en la definicion de los criterios de verdad. Para ello
valida diferentes principios logicos derivados de la logica clasica de primer orden (calculo de predicados de primer orden) basados en clausulas
semanticas. En base a este planteamiento teorico define un nuevo marco
semantico conocido como semantica de situacion (situation semantics).
Tambien, en el ambito de la interpretacion semantica basada en la unificacion, se dise
nan gramaticas de unificacion que tienen un componente
elevado de utilizacion de la logica en general y, en concreto, de la forma
logica en la tarea del dise
no de las reglas de las gramaticas. En el dise
no
de estas reglas se consideran dos tipos de reglas:
Reglas sintacticas. Estas reglas reflejan las estructuras sintacticas dadas en las oraciones por sus constituyentes.
51
52
3. La Forma L
ogica
Reglas de interpretacion semantica. Relacionadas con las anteriores

reglas sintacticas, las reglas de interpretacion semantica permiten dar
significado a las estructuras sintacticas obtenidas por las anteriores
reglas sintacticas.
En este segundo tipo de reglas, por cada expresion de categora gramatical definida en las reglas sintacticas, una forma logica especifica
la interpretacion semantica del correspondiente constituyente.
Este tipo de gramaticas suelen ser modeladas a partir de la utilizacion
del lenguaje de programacion logica Prolog (Colmerauer & Roussel,
1996). El desarrollo basado en este lenguaje de programacion tiene un
alto componente logico basado en clausulas de Horn (Hodges, 1993) que
constituyen reglas del tipo modus ponendo ponens, es decir, si es verdad
el antecedente, entonces es verdad el consecuente. Trabajos como el de
Pereira et al. (1983) son un claro ejemplo de este tipo de tratamiento. Este trabajo de investigacion explora las relaciones entre el parsing
y la deduccion destacando el procedimiento de pruebas de deduccion
para las clausulas definidas. La conexion entre el analisis sintactico y
la deduccion esta basada en la axiomatizacion de gramaticas libres de
contexto en clausulas definidas, siendo las clausulas definidas un subconjunto de la logica de primer orden (Kowalski, 1980) (van Emden &
Kowalski, 1976). La axiomatizacion permite identificar algoritmos de
analisis sintacticos libres de contexto con procedimientos de prueba para una clase restringida de clausulas definidas derivadas a partir de una
serie de reglas libres de contexto. Cuando se utiliza un procedimiento
de pruebas de clausulas definidas, como Prolog, una declaracion objetivo requiere el procedimiento de prueba para encontrar posibles instancias que cumplan dicha declaracion objetivo. Para la deduccion en las
clausulas definidas cabe destacar que la regla de inferencia fundamental
se basa en una aplicacion de reglas de resolucion. Como beneficio principal destaca el mecanismo teoricamente limpio para conectar el analisis
sintactico con la inferencia necesaria para la interpretacion semantica.
En la decada de los ochenta, el trabajo presentado por Stallard (1987)
utiliza las formas logicas como mecanismo de representacion formal
del texto utilizando la notacion definida en la logica de primer orden.
Este trabajo presenta un esquema en dos niveles para la interpretacion semantica del texto donde el primer nivel trata las consecuencias
semanticas de la estructura sintactica mientras que el segundo nivel
trata la eleccion adecuada del significado de las palabras. En el primer
nivel, los significados de las palabras ambiguas, referencias pronominales, nominales compuestos y metonmias no son tratadas sino que son
representadas por variables libres sobre predicados y funciones. La dependencia del contexto del significado lexico es tratada en el segundo
nivel como un proceso de propagacion de restricciones que asigna valo-
3.2 La forma l
ogica en el PLN
res a esas variables sobre la base de la coherencia logica del resultado

global. Para la derivacion de la forma logica utiliza un parser de unificacion sobre una gramatica grande. En la forma logica utiliza variables
libres y variables ligadas. Las variables libres tienen la peculiaridad de
que vienen determinadas por las estructuras del analisis sintactico. Seguidamente, el ejemplo 16 muestra la forma logica de una expresion
siguiendo esta metodologa. En dicho ejemplo, las variables libres estan
subrayadas.
(16) Frase: John has a car.
Representaci
on: (x (car x) & (have John x))
Continuando con la programacion logica llevada a cabo durante la decada de los noventa en el seno del PLN, en el libro de Jurafsky & Martin
(2000), se presenta el recurso Attribute Logic Engine (ALE). Este recurso esta implementado en Prolog e integra el parsing estructural de
las frases con la programacion logica de restricciones cuyo tipos caractersticos se estructuran como terminos. La programacion logica y el
analisis sintactico pueden ser usados en conjunto o de manera independiente. Los terminos implicados en las gramaticas y en los programas
logicos estan especificados utilizando una extension tipada de la logica
de pares atributo-valor de Rounds-Kasper, incluyendo variables, disjuncion plena, inecuaciones y descripciones funcionales.
En relacion al trabajo de investigacion presentado por Delisle et al.
(1994) que permite la extraccion del conocimiento de textos tecnicos,
los autores consideran que la sintaxis es una indicacion segura del significado. En consecuencia, la interpretacion semantica del texto comienza
desde la sintaxis mas superficial. El componente ling
ustico integra un
parser as como un interprete semantico asistido por el usuario que memoriza la experiencia acumulada en el proceso. Las estructuras semanticas resultantes son traducidas a clausulas de Horn, una representacion
susceptible de aprendizaje basado en explicacion (Explanation-based
Learning, EBL). Un motor EBL realiza el aprendizaje a nivel de smbolo en las representaciones tanto de la teora del dominio como de la
muestra dada por la parte ling
ustica del sistema. A continuacion en
el ejemplo 17 se detalla la representacion formal de una frase seg
un su
clausula de Horn asociada por este sistema.
(17) Frase: Jim is a resident of Canada because he is serving abroad in the armed forces.
53
54
3. La Forma L
ogica
Representaci
on: is resident of(jim, canada) :- serve agt lat benf(jim,
abroad, armed forces)
La clasica Teora de Representacion del Discurso formulada por Hans
Kamp (1981) (1993) tambien tiene un alto componente del calculo de
predicados de primer orden. En esta teora se utiliza el calculo de predicados de primer orden como mecanismo de representacion en la interpretacion. La interpretacion se consigue en dos pasos fundamentales:
el primero de ellos consiste en la construccion de las representaciones
semanticas referidas como Estructuras de Representacion del Discurso
(DRSs) a partir del discurso de entrada; el segundo y definitivo paso
consiste en la interpretacion teorico-modelica de las DRSs. Seguidamente, el ejemplo 18 muestra la DRS de una frase definida en esta clasica
Teora de Representacion del Discurso.
(18) Frase: If Pedro owns a donkey, he likes it.

Representaci
on: x y (pedro(x) donkey(y) own(x, y)
z w (bealt(z, w), z = x, w = y))
La forma logica presentada en el trabajo de investigacion de Lascarides
& Asher (1993) introduce entidades de discurso que reflejan los eventos
y los tiempos con el proposito de capturar la referencia dectica. Para
ello, tiene en cuenta los eventos, los estados de los eventos y los instantes
temporales. En esta propuesta se define la funcion cs que recibe como
u
nico argumento un evento y devuelve su estado. A continuacion, los
ejemplos 19 y 20 muestran la representacion de dos frases con sendas
formas logicas asociadas en las que se puede apreciar las representaciones de los eventos y los tiempos.
(19) Frase: Max stood up.

Representaci
on: [e, t][t now, hold(e, t), standup(max, e)]
(20) Frase: Max had stood up.
Representaci
on: [s, t][s : [e][standup(max, e) , s =
cs(e)], hold(s, t), t now]
En el ejemplo 19, la forma logica introduce las entidades de discurso e
y t, y los predicados que indican que el evento e es Max realizando
la accion stand up, y que e es llevado a cabo en el instante temporal
anterior al actual. Por el contrario, en el ejemplo 20, en la forma logica
se indica que s es el estado consecuente del evento Max standing up,
y se lleva a cabo en el instante temporal t que precede al actual (now).
3.3 La forma l
ogica en aplicaciones de PLN
En el ejemplo se aplica la regla definida por Moens et al. (1988) que

dice a perfect transforms an event into a consequent state, and asserts
that the consequent state holds. Consecuentemente y, en relacion a los
estados consecuentes, asume que las siguientes reglas son materializadas
entre un evento y su estado consecuente:
(t)(hold(cs(e), t) (t0 )(hold(e, t0 ) t0 t))
(t0 )(hold(e, t0 ) (t)(hold(cs(e), t) t0 t))
De este modo un estado es materializado si y solo si el evento es llevado
a cabo en un instante temporal mas temprano.
Una vez analizados los diferentes enfoques teoricos aplicados al PLN
tanto de la logica como de la forma logica, la tabla 3.1 recoge, a modo
de sntesis, las caractersticas mas relevantes de cada uno de ellos.
3.3 La forma l
En la decada de los 80, Moore (1981) llega a una conclusion que a fecha
de hoy todava sigue siendo valida: If real progress is to be made on
understanding the logical form of natural-language utterances, it must
be studied in a unified way and treated as an important research problem
in its own right.
Como consecuencia de esta conclusion efectuada por Moore y de las
previas investigaciones realizadas en las pasadas decadas referentes a la
utilizacion de la logica en general y, en particular, de la forma logica en
el ambito del PLN, durante la decada actual, diferentes investigadores
del area del PLN han introducido en sus trabajos de investigacion el
concepto de la forma logica, tales como Rus (2002) y Moldovan (2002),
que definen la forma logica como una representacion del conocimiento logico de primer orden de oraciones expresadas mediante lenguaje
natural. De esta definicion cabe deducir que toda oracion expresada
en lenguaje natural podra ser representada mediante su forma logica
asociada.
Distintos sistemas de Extraccion de Informacion y B
usqueda de Respuestas han utilizado las formas logicas en sus tareas de procesamiento.
El formato de la forma logica depende de cada autor. Antes de entrar
a especificar los dos tipos de formas logicas que com
unmente se han
empleado en el PLN, cabe hacer una definicion de algunos conceptos
introducidos por Molla et al. (2002):
55
56
3. La Forma L
ogica
Moore
(Moore, 1995)
Poesio
(Dale et al. , 2000)
Davidson
(Davidson, 1967)
Hobbs
(Hobbs, 1985)
Balkanski
(Balkanski, 1991)
Barwise
(Barwise & Perry, 1983)
Pereira
(Pereira & Warren, 1983)
Stallard
(Stallard, 1987)
Jurafsky
(Jurafsky & Martin, 2000)
Delisle
(Delisle et al. , 1994)
Kamp
(Kamp, 1981)
(Kamp & Reyle, 1993)
Lascarides
(Lascarides & Asher, 1993)
Caracter
sticas
Formalismo de representaci
on
basado en l
ogica. Abstracci
on
de inferencias de conocimiento
mediante deducci
on l
ogica.
Representaci
on del conocimiento
a traves del CPPO.
Formalizaciones especificadas
mediante reglas y axiomas.
Representaci
on formal de las
oraciones de acci
on en base
a formas l
ogicas.
Extensi
on de la forma l
ogica
definida por Davidson. Inclusi
on
de predicados indicadores de
la realizaci
on de acciones.
Extensi
on de la forma l
ogica
definida por Davidson.
Tratamiento l
ogico-temporal
de la realizaci
on de acciones.
Utiliza el CPPO basado en
cl
ausulas sem
anticas.
Gram
aticas modeladas mediante
la utilizaci
on de Prolog.
Conexi
on del an
alisis sint
actico
y la deducci
on basada en
axiomatizaci
on de GLC mediante
cl
ausulas definidas de Prolog.
Utilizaci
on de formas
l
ogicas mediante notaci
on
definida en CPPO para la
representaci
on formal del texto.
An
alisis sint
actico estructural
integrado con programaci
on
l
ogica de restricciones cuyos
tipos caractersticos se estructuran
en terminos. Uso de Prolog.
Utilizaci
on de cl
ausulas de Horn
para representar formalmente
las frases del texto.
Utilizaci
on del CPPO
como mecanismo de
representaci
on en la interpretaci
on.
Utilizaci
on de formas
l
ogicas en la representaci
on
de las oraciones del texto.
Ventajas/Desventajas
Representaci
on del conocimiento
incompleto. Dar respuesta l
ogica
a preguntas complejas.
Formalizaciones validadas.
Elevado coste computacional.
Potencia insuficiente.
Extensi
on del lenguaje de primer
orden especificado en el CPPO.
Dificultad de comprensi
on.
No considera temporalidad.
on algo
menor. Especificaci
on de la
realizaci
on de acciones.
on algo
menor. Temporalidad de la
realizaci
on de acciones.
Sem
antica de vecindarios que
delimita las situaciones
mnimas en la definici
on
de criterios de verdad.
Conexi
on del an
alisis
sint
actico con la inferencia
necesaria para la
interpretaci
on sem
antica.
Interpretaci
on sem
antica en
dos niveles. Derivaci
on de
la forma l
ogica a partir
de an
alisis sint
actico.
La programaci
on l
ogica y
el an
alisis sint
actico
pueden ser usados en
conjunto o de manera
independiente.
Cl
ausulas de Horn
derivadas a partir
de an
alisis sint
actico.
Formulaci
on de la
Teora de Representaci
on
del discurso.
Consideraci
on de los
eventos, sus estados y
los instantes temporales.
Tabla 3.1. Sntesis de los enfoques basados tanto en l

ogica como en formas l
ogicas aplicados al
PLN
3.3 La forma l
Objeto: es todo aquello de lo cual es posible una percepcion, es decir, son todas las cosas que encontramos en nuestra experiencia. Los
objetos se utilizan para representar las realidades independientes o
sustancias que nos encontramos en las oraciones. Se suelen identificar con una letra (generalmente la letra o) seguida de un n
umero.
A continuacion, en el ejemplo 21 se muestra la identificacion de los
objetos (no sintacticos) de la oracion.
(21) Frase: Juan pasea por el jardn alegremente.

Objetos: Juan, identificado por o1, y jardn, identificado por o2.
Eventos: representan las relaciones existentes entre los objetos. Se suelen identificar mediante una letra (generalmente la letra e) seguida
de un n
umero. Seguidamente, el ejemplo 22 muestra la identificacion
de los eventos de la oracion anterior.

Eventos: pasear por, identificado por e1.
Propiedades: con ellas se representan las caractersticas tanto de los
objetos como de los eventos. La identificacion de la propiedad se suele
hacer con una letra (generalmente la letra p) seguida de un n
umero.
A continuacion, el ejemplo 23 detalla la identificacion de las propiedades de la oracion anterior.

Propiedades: alegremente, identificada por p1.
Una vez que se han introducido estos conceptos, a continuacion se detallan dos de los enfoques de formas logicas mas utilizados en el PLN:
Molla et al. (2002), en la definicion de la forma logica, utiliza tres
tipos de predicados:
Objetos. Este tipo de predicado es usado para representar los objetos (no sintacticos) de las oraciones y tiene tres argumentos. El
primer argumento quedara instanciado con el propio objeto. El segundo argumento quedara instanciado con una variable que iden-
57
58
3. La Forma L
ogica
tificara exclusivamente al propio predicado. El tercer argumento

vendra instanciado con una variable que identificara exclusivamente al propio objeto.
Eventos. Este tipo de predicado es utilizado representar los eventos,
es decir, las relaciones existentes entre los objetos. Los predicados
del tipo evento tienen tres argumentos. El primero de ellos quedara instanciado con el propio evento. El segundo argumento es
instanciado con la variable que identifica exclusivamente al propio
predicado. El tercer argumento vendra instanciado con una lista de
variables que identifica de manera exclusiva a los objetos implicados
en el evento.
Propiedades. Se utiliza este tipo de predicados para representar las
propiedades, es decir, las caractersticas tanto de los eventos como
de los objetos. Este tipo de predicados tiene tambien tres argumentos. El primer argumento queda instanciado con la propiedad. El
segundo de ellos queda instanciado con la variable que identifica de
manera exclusiva el propio predicado. El tercer argumento queda
identificado con una variable que identifica al objeto/evento (o su
predicado asociado) que cumple dicha propiedad.
Ademas, pueden aparecer otros tipos de predicados en la forma logica
cuyo u
nico proposito es el de relacionar otros predicados de la misma.
Un ejemplo de ellos son los predicados asociados a las preposiciones
que tienen dos argumentos que identifican a los predicados relacionados por medio de la preposicion. Se ha de considerar tambien que
la forma logica de Molla et al. (2002) esta orientada a manejar textos en el dominio restringido de los manuales del sistema operativo
Unix. Es por ello por lo que tambien introduce predicados dependientes del dominio de aplicacion. A continuacion, el ejemplo 24 muestra
la representacion de una frase del manual del sistema operativo Unix
mediante su forma logica asociada.
(24) Frase: cp copies very long files.

Forma l
ogica: holds(e1), object(cp, o1, x1), evt(copy,
e1, [x1, x2]), object(file, o2, x2), prop(long, p1,
x2), prop(very, p2, p1)
En la forma logica del ejemplo, el predicado holds(e1) es dependiente
del dominio de aplicacion e indica que el predicado identificado por
la variable e1, es decir, object(cp, o1, x1), pertenece al dominio res-
3.3 La forma l
tringido de manuales del sistema operativo Unix.

Moldovan et al. (2003) distingue cuatro tipos de predicados seg
un su
funcion sintactica. Cada predicado incluye su raz lexica:
Sustantivo. Este tipo de predicado representa a los sustantivos de
la frase y tiene un u
nico argumento que se instancia con la variable
que identifica al objeto que cumple el predicado.
Verbo. Este tipo de predicado representa a los verbos de la frase y
tiene tres argumentos. El primer argumento se instancia con la variable que identifica exclusivamente la accion del verbo. El segundo
argumento se corresponde con la variable que identifica al objeto
que desempe
na el rol de sujeto sintactico del verbo. El tercer argumento se corresponde con la variable que identifica al objeto que
hace las funciones de objeto sintactico del verbo.
Adjetivo. Este tipo de predicado representa a los adjetivos que aparecen en la frase y tiene un u
nico argumento que se instancia con
la variable que identifica al objeto que cumple el predicado. Generalmente, el adjetivo suele acompa
nar a un sustantivo. Este hecho
hace que en la forma logica ambos predicados queden instanciados
por la misma variable.
Adverbio. Este tipo de predicado representa a los adverbios que
aparecen en la frase y tiene un u
nico argumento que se instancia
con la variable que identifica al objeto que cumple el predicado. Generalmente, el adverbio suele acompa
nar al verbo y, en este caso, en
la forma logica ambos quedan identificados por la misma variable.
Al igual que en el caso de la forma logica de Molla et al., en este
formato de forma logica, tambien existen predicados cuya funcion es
relacionar otros predicados de la forma logica. Un ejemplo de ello son
tambien las preposiciones que introducen predicados con dos argumentos que quedan instanciados con las variables identificadoras de
los predicados relacionados mediante la preposicion. A continuacion
el ejemplo 25 ilustra la representacion de una frase a traves de su
forma logica asociada.
(25) Frase: John gave Mary the book on Saturday.

Forma l
ogica: John NN(x1) give VB(e1, x1, x3) Mary:NN (x2)
book NN(x3) on IN(e1, x4) Saturday NN(x4)
59
60
3. La Forma L
ogica
Metodologa de derivaci
on de la forma l
ogica.
Ademas del formato de ambas formas logicas, la metodologa de obtencion de la forma logica tambien es una cuestion a tener en cuenta.
Ambos metodos de obtencion de la formas logicas utilizan un analisis
sintactico en su labor de derivacion de la forma logica de las frases expresadas en lenguaje natural:
Molla et al. (2002) utiliza Link Grammar como modulo de analisis
sintactico. Link Grammar es un analizador sintactico basado en una
gramatica de diccionario que cuenta con alrededor de 60.000 palabras
(Sleator & Temperley, 1993). Link Grammar devuelve las relaciones
de dependencia entre pares de palabras de la frase, pero tiene un
inconveniente y es que no devuelve la direccion de la dependencia
entre los pares de palabras. Con objeto de solventar este problema,
el sistema ExtrAns incorpora un modulo que a
nade la direccion de
las dependencias a la salida de Link Grammar. Ademas, como el sistema ExtrAns esta enfocado al dominio restringido de los manuales
de las paginas del sistema operativo Unix, es necesario incorporar al
diccionario de Link Grammar toda la terminologa de comandos del
sistema operativo.
Moldovan et al. (2003) utiliza el arbol de analisis sintactico para construir la forma logica. El analizador sintactico utilizado esta basado en
el estilo de analisis sintactico de Penn Treebank (Marcus et al. , 1994).
Partiendo del arbol de analisis sintactico de constituyentes de la frase
en lenguaje natural, aplica una serie de reglas de transformacion que
derivan la forma logica asociada (Rus, 2002).
Con todo esto, cabe deducir, que el formato de forma logica empleado por Molla et al. (2002) es muy ad-hoc al dominio del manual de
usuario de Unix, empleando predicados como holds e introduciendo en
ocasiones diversos predicados para un mismo objeto-concepto que hacen a la forma logica muy compleja de leer e interpretar, mientras que el
formato escogido por Moldovan et al. es mas natural que el formato de
Molla et al. y hace a la forma logica mas facil de ser leda e interpretada.
Referente a la metodologa de derivacion de ambas formas logicas, el
metodo escogido por Molla et al. presenta el inconveniente de que aparte del analisis sintactico, hay que resolver la direccion de las dependencias entre pares de palabras dadas por Link Grammar, mientras que
la metodologa empleada por Moldovan et al. no tiene problemas de
esta ndole ya que utiliza directamente el arbol de analisis sintactico de
constituyentes. Como dicen Courtin y Genthial (1998), el procesamiento basado en analisis sintactico permite a
nadir informacion semantica a
3.4 La forma l
ogica extendida: independiente del dominio y de la lengua
las palabras. En dominios abiertos, el metodo de derivacion de formas

logicas a partir del analisis sintactico mejora el conocimiento del sistema. Por otro lado, en los dominios restringidos, existen otras fuentes de
conocimiento tales como tesauros y ontologas de dominio que pueden
ser usados para incorporar informacion conceptual y semantica a las
palabras de la frase. Cuando con este proposito se hace uso de este tipo
de recursos, la derivacion de las formas logicas a partir de dependencias
entre pares de palabras es mucho mas precisa.
3.4 La forma l
ogica extendida: independiente del
dominio y de la lengua
Se acaban de introducir dos modelos distintos de forma logica aplicados al PLN. Por una parte, la forma logica de Molla et al. se aplica a
dominios restringidos, mientras que por otro lado, la forma logica de
Moldovan et al. esta enfocada hacia el dominio abierto.
Se debe considerar que en los u
ltimos a
nos las herramientas del PLN
se han extendido hacia los dominios restringidos. Un claro ejemplo de
esto u
ltimo ha ocurrido con la adaptacion de los sistemas de B
usqueda de Respuestas de dominio abierto hacia los dominios restringidos
como puede comprobarse en la edicion especial de la prestigiosa revista Computational Linguistics dedicada a QA en dominios restringidos
(Daelemans & van den Bosch, 2007). Cuando se trabaja sobre dominios
restringidos, se dispone de multitud de recursos lexicos y semanticos que
aportan informacion de diversa ndole a las frases expresadas en lenguaje natural. La adaptacion de los sistemas del PLN hacia los dominos
restringidos hace que los propios sistemas necesiten de la utilizacion de
mecanismos de representacion formal del texto capaces de tratar textos tanto en el dominio abierto como en los dominios restringidos. En
los u
ltimos tiempos tambien han surgido una serie de tendencias que
han derivado hacia el tratamiento multiling
ue de la informacion. Por
ello tambien los sistemas de PLN deben disponer de un mecanismo que
proporcione la representacion formal de los textos en diferentes lenguas.
Las formas logicas introducidas en el inicio del captulo no tienen en
cuenta estas dos consideraciones referentes a la independencia del dominio y de la lengua. La forma logica de Molla et al. introduce terminologa
adicional dependiente del dominio para matizar aquellos predicados que
son exclusivos del dominio restringido. Un ejemplo de ello es el predicado holds que hemos visto en el anterior ejemplo. Ademas, introduce
variables para identificar exclusivamente, y de manera independiente,
tanto los predicados como los objetos asociados a tales predicados. Ello
hace que la forma logica a
nada mucha terminologa que la hace difcil
61
62
3. La Forma L
ogica
de leer y, en algunos casos, de interpretar. En contrapartida, la forma

logica de Moldovan et al. introduce u
nicamente la terminologa necesaria para matizar los detalles relevantes de las frases asociadas. Ello
hace que esta forma logica sea mas sencilla de leer y de interpretar que
la forma logica de Molla et al.
Considerando todo ello, la propuesta que se plantea en el trabajo de
investigacion se centra en la derivacion de una forma logica precisa,
independiente del dominio, conceptualmente completa e independiente
de la lengua:
Precisa: el proposito perseguido consiste en derivar una forma logica
que introduzca u
nicamente los elementos necesarios para reflejar el
contenido de la frase asociada. Es decir, todos los elementos constituyentes de la forma logica tendran la suficiente entidad por s solos y
en conjunto para dotar de contenido a la forma logica.
Independiente del dominio: la forma logica es adaptable para trabajar
tanto en sistemas de dominio abierto como en sistemas de dominio
restringido.
Conceptualmente completa: el proposito que se persigue es el de obtener una representacion conceptual completa y no ambigua del texto.
Independiente de la lengua: la forma logica debe ser capaz de modelar
en cualquier lengua el conocimiento asociado al texto procesado.
Estos retos propuestos a la forma logica se abordan en el captulo actual
y en el proximo. A continuacion se detalla el proceso de derivacion de
formas logicas a partir de frases expresadas en lenguaje natural.
La forma logica de una frase se deriva a partir de la aplicacion de
reglas basadas en PLN a las relaciones de dependencia entre los pares
de palabras de la frase.
3.4.1 Obtenci
on de las relaciones de dependencia entre pares
de palabras
El primer paso necesario para obtener la forma logica de una frase es
obtener las relaciones de dependencia entre los pares de palabras de la
frase.
Seg
un la definicion propuesta por Lin (1998b), una relacion de dependencia entre dos de palabras es una relacion binaria asimetrica entre una
3.4 La forma l
palabra llamada n
ucleo y otra palabra llamada modificador. Normalmente, las relaciones de dependencia constituyen un arbol que enlaza
todas las palabras de la frase. Este arbol de dependencias tiene diferentes niveles de palabras porque una palabra en la frase puede tener
diferentes modificadores, pero cada palabra debe modificar, al menos,
a otra palabra. La raz del arbol de dependencia no modifica a ninguna
palabra. A ella se la denomina la cabeza de la frase. A continuacion, el
ejemplo 26 detalla las relaciones de dependencia entre las palabras de
una frase.
(26) Frase: The story of Mr. Fly and the Emergency Rescue Committee who saved thousands in Marseille.
Representaci
on: Vease Tabla 3.2
Modificador
Marseille [N]
who [N]
thousands [N]
in [Prep]
Emergency [N]
Rescue [N]
saved [V]
Mr. [N]
Committee [N]
Fly [N]
The [Det]
of [Prep]
Cabeza
in [Prep]
saved [V]
saved [V]
saved [V]
Committee [N]
Committee [N]
Committee [N]
Fly [N]
Fly [N]
of [Prep]
story [N]
story [N]
Relaci
on de dependencia
pcomp-n
whn-subj
obj
mod
lex-mod
lex-mod
rel
lex-mod
conj
pcomp-n
det
mod
Tabla 3.2. Relaciones de dependencias entre las palabras de la frase
3.4.2 Derivaci
on de la forma l
ogica
Una vez que las relaciones de dependencias han sido obtenidas, el siguiente paso para inferir automaticamente la forma logica de la frase
consiste en analizar las relaciones de dependencia entre las palabras de
la frase. A continuacion se muestra el algoritmo de derivacion de la forma logica.
63
64
3. La Forma L
ogica
Algoritmo: Derivaci
on de la forma l
ogica de una frase
Entrada: frase
Salida: forma logica
arbol dependencias := derivacion arbol dependencias(frase)
para cada (nodo en hojas(arbol dependencias))
aplica regla simple(nodo)
fpara cada
para cada (nodo en recorrido post orden(arbol dependencias))
si (no es hoja(nodo))
para cada (hijo en hijos in orden(nodo))
aplica regla compleja(nodo, hijo)
fpara cada
fsi
fpara cada
forma logica := forma logica(dame raiz(arbol dependencias))
devuelve forma logica
fAlgoritmo
De este modo, cabe matizar que la derivacion de la forma logica consiste en un proceso composicional que comienza en las hojas del arbol de
dependencias y contin
ua por sus ramificaciones en sentido ascendente
hasta llegar a la raz. En cada nodo del arbol de dependencias se puede
inferir, al menos, un predicado, aunque pueden haber nodos del arbol
de dependencias que no infieran ning
un predicado. De este modo, todo
nodo del arbol de dependencias, infiera o no alg
un predicado de la forma
logica, recogera los predicados que vengan de sus nodos inferiores, en
caso de que tenga nodos por debajo de el, los agrupara y los enviara a
su nodo superior, junto con el predicado o predicados que dicho nodo
pueda inferir. El nodo raz del arbol de dependencias sera el que obtenga
la forma logica de la frase, en funcion de los predicados que le vengan
de sus nodos inferiores, y del predicado o predicados que pueda inferir
dicho nodo. Para ello, sobre cada uno de los nodos del arbol de derivacion se le aplican una serie de reglas basadas en PLN. En los Anexos
A y B del presente trabajo de investigacion estan detalladas las tareas
computacionales que se ejecutan para aplicar las reglas basadas en PLN
que permiten derivar las formas logicas partiendo del arbol de analisis
de dependencias. Estas reglas pueden ser de dos tipos dependiendo si
el nodo es o no un nodo hoja:
3.4 La forma l
65
Reglas simples: las reglas simples se aplican sobre los nodos hoja del
arbol de dependencias. A continuacion, en el cuadro 27 se muestra el
pseudocodigo asociado al procesamiento de las reglas simples.
Reglas complejas: las reglas complejas tienen como origen de la dependencia un nodo hoja o un intermedio del arbol de dependencias
y como destino de la dependencia, un nodo intermedio o la raz del
arbol de dependencias. Seguidamente, en el cuadro 28 se presenta el
pseudocodigo asociado a la computacion de las reglas complejas.
Algoritmo: Regla Simple

Entrada: nodo hoja
var predicado := nulo
si (generaPredicado(nodo hoja))
predicado := nuevo predicado()
(27) predicado.lema := nodo hoja.lema
predicado.infoSintactica := InfoSin(nodo hoja)
predicado.argumentos := Args(predicado.infoSintactica)
fsi
asocia(predicado, nodo hoja)
fAlgoritmo
Algoritmo: Regla Compleja

Entrada: modificador, n
ucleo
(28)
var relacion := Rel Dependencia(modificador, n

ucleo)
var esAntMod := Antes En Frase(modificador, n
ucleo)
Analiza Caso(modificador, n
ucleo, relacion, esAntMod)
fAlgoritmo
En relacion a la aplicacion de las reglas complejas 28, cabe matizar

que la mayor parte del contenido del Anexo B esta dedicado al estudio,
analisis y dise
no de la funcion Analiza Caso. Dicha funcion se encarga
de analizar toda la casustica existente para la generacion o modificacion
del predicado asociado al n
ucleo de la dependencia. Para ello analiza la
cabeza, el modificador, el tipo de relacion de dependencia y la posicion
del modificador (anterior o posterior) con respecto a la cabeza.
Existe una distincion entre reglas simples y reglas complejas porque,
como se ha matizado anteriormente, la derivacion de la forma logica
consiste en un proceso composicional que comienza en las hojas del
66
3. La Forma L
ogica
arbol de dependencias y termina en la raz del arbol de dependencias.

En las hojas del arbol de dependencia, no se arrastra ning
un constituyente de la forma logica (predicados, variables, ...) que venga desde
un nodo inferior, porque las hojas del arbol no tienen ning
un nodo por
debajo de ellas. Es por ello por lo que no se tiene que hacer ning
un
tipo de comprobacion sobre los constituyentes de la forma logica que
vienen heredados de los nodos inferiores, ya que no viene ninguno. En
cambio, en los nodos intermedios, s que se tienen constituyentes que
vienen heredados desde nodos inferiores, con lo cual se tienen que enlazar los constituyentes que vienen heredados de los nodos inferiores con
el constituyente tratado en el nodo intermedio.
Por ejemplo, un argumento del predicado generado en el nodo tratado
puede depender del argumento de un predicado generado en un nodo
inferior. Este tipo de comprobaciones nunca se daran en los nodos hojas,
debido a que en los nodos hojas no se arrastra ning
un tipo de constituyente de la forma logica. En los nodos hojas, mediante la aplicacion de
las reglas simples, se generan los predicados y las variables instanciadoras de los argumentos de los predicados, en el caso de que ambos se
generen, y sera en los nodos intermedios y en la raz, mediante la aplicacion de las reglas complejas, donde se comprueben los constituyentes
que vienen heredados de los nodos inferiores al tratado, en el proceso
de generacion del predicado o los predicados y las variables, en el caso
de que se generen, en el citado nodo.
Mas adelante se muestra un ejemplo de derivacion de una forma logica a
partir de una oracion donde se detalla la computacion del algoritmo especificado previamente y se pueden comprobar claramente la aplicacion
de cada una de las reglas simples y complejas sobre el arbol de analisis
de dependencias. En los Anexos A y B de este trabajo de investigacion
estan especificadas cada una de las reglas simples y complejas de PLN
aplicadas al arbol de analisis de dependencias para la derivacion de la
forma logica.
Cabe volver a matizar que la forma logica es inferida, por una parte,
a traves de la aplicacion de una serie de reglas simples de PLN sobre
las hojas del arbol de dependencias y, por otra parte, a traves de reglas
complejas de PLN aplicadas a las dependencias entre pares de palabras
(n
ucleo y modificador) en el arbol de dependencia.
En el dise
no de las reglas simples, solamente se ha contemplado la categora lexica de la palabra mientras que en el dise
no de las reglas
compuestas se he tenido en cuenta la categora lexica del n
ucleo, la
categora lexica del modificador, el tipo de relacion de dependencia y
la posicion relativa del modificador (antes o despues del n
ucleo). La
3.4 La forma l
67
Tabla 3.3 muestra un peque

no subconjunto de reglas simples de PLN
mientras que en la Tabla 3.4 estan reflejadas algunas reglas complejas.
En ellas, la columna Hoja refleja la categora lexica de la palabra que
esta en la hoja del arbol de dependencias, la columna CLC muestra
la categora lexica de la palabra situada en el n
ucleo de la relacion de
dependencia, la columna CLM indica la categora lexica de la palabra
situada en el modificador de la relacion de dependencia, la columna RD
detalla la relacion de dependencia existente entre n
ucleo y modificador,
la columna PM indica la posicion relativa del modificador respecto al
n
ucleo (anterior o posterior en la frase) y, la columna LF muestra la
forma logica derivada en el nodo n
ucleo de la dependencia, en el caso
de haberse aplicado una regla compleja, o en las hojas del arbol, en el
caso de haberse aplicado una regla simple.
Hoja
Det
A
N
FL
void
lema:JJ( nueva variable x)
lema:NN( nueva variable x)
Tabla 3.3. Subconjunto de reglas simples de PLN aplicadas a las hojas en el

arbol de dependencias
CLC
N
A
VBE
CLM
Det
A
N
RD
det
mod
subj
PM
anterior
anterior
anterior
VBE
pred
posterior
FL
lema n
ucleo:NN( nueva variable x)
FL modificador + lema n
ucleo:JJ( variable x modificador)
FL modificador +
lema n
ucleo:VB( nueva variable e, variable x modificador, nueva variable x)
FL n
ucleo +
Atributo:IN( variable e n
ucleo, variable x modificador) + FL modificador
Tabla 3.4. Subconjunto de reglas complejas de PLN aplicadas a las relaciones de dependencia
El formato de esta forma logica es muy parecido al formato de la forma

logica de Moldovan et al. (2003). Este formato introduce predicados
en la forma logica de manera composicional. Los predicados tienen la
on Sint
actica(argumentos), es decir, informa Lema Palabra:Informaci
cluyen tanto el lema como la informacion sintactica de las propiedades
que estan representando en ellos. En funcion de la informacion sintactica, variara el n
umero de argumentos del predicado. Los argumentos de
los predicados pueden ser de dos tipos:
Tipo e: son usados u
nicamente para identificar las acciones asociadas
a los predicados del tipo verbo.
68
3. La Forma L
ogica
Tipo x : se utilizan para identificar el resto de argumentos de los predicados.

En la forma logica cabe destacar los siguientes tipos de predicado:
Sustantivo: Se utiliza este tipo de predicados para identificar a los
sustantivos de las oraciones. Tiene un u
nico argumento que es instanciado con una variable que identifica exclusivamente al objeto que
cumple dicho predicado. A continuacion, el ejemplo 29 introduce la
derivacion de este tipo de predicado.
(29) Expresi
on: The house...
Representaci
on: house:NN(x1)
Verbo: Este tipo de predicados se utiliza para representar los verbos
que aparecen en las oraciones. Tiene tres argumentos. El primer argumento, de tipo e, identifica la accion del verbo. El segundo argumento
se utiliza para identificar al objeto que hace las funciones de sujeto
sintactico de la accion. El tercer argumento se utiliza para identificar
al objeto que hace las funciones de objeto sintactico de la accion.
En aquellas oraciones en las que el verbo sea intransitivo, o bien tengan el sujeto omitido, las variables instanciadoras del segundo y tercer
argumento del predicado seran zombies (dummies), es decir, no se relacionaran con ning
un otro predicado de la forma logica. El ejemplo
30 detallado a continuacion muestra la de derivacion de este tipo de
predicado en la forma logica.
(30) Expresi
on: Nicolas bought a car.
Representaci
on: Nicolas:NN(x1) buy:VB(e1, x1, x2)
car:NN(x2)
Adjetivo: Este tipo de predicado es utilizado para representar los adjetivos que aparecen en las oraciones. Tiene un u
nico argumento que es
instanciado con una variable que identifica exclusivamente al objeto
que cumple dicho predicado. Ademas, cuando en la oracion el adjetivo
modifica a un sustantivo, ambos predicados quedan instanciados por
la misma variable identificadora del objeto que cumple ambos predicados. Seguidamente, se detalla en el ejemplo 31 la derivacion de este
tipo de predicado.
(31) Expresi
on: Nicolas bought a green car.
3.4 La forma l
Representaci
on: Nicolas:NN(x1) buy:VB(e1, x1, x2)
green:JJ(x2) car:NN(x2)
Adverbio: Este tipo de predicado se utiliza para representar los adverbios de las oraciones. Tiene un u
nico argumento que es instanciado
con una variable que identifica exclusivamente al objeto que cumple
dicho predicado. Ademas, cuando en la oracion el adverbio acompa
na
directamente al verbo, ambos predicados quedan instanciados por la
misma variable, indicando as que la accion del verbo cumple el predicado del tipo adverbio. Seguidamente, en el ejemplo 32 se detalla la
(32) Expresi
on: Nicolas quickly bought a green car.
Representaci
on: Nicolas:NN(x1) quickly:RB(e1) buy:VB(e1,
x1, x2) green:JJ(x2) car:NN(x2)
Preposicion: Se utiliza este tipo de predicados para enlazar los objetos que cumplen los dos predicados asociados a las palabras de la
oracion que quedan relacionadas mediante la preposicion. Este tipo
de predicado tiene dos argumentos que se instancian con las variables
identificadoras de los objetos asociados a los predicados que relaciona.
A continuacion, se muestra en el ejemplo 33 el resultado fruto de la
(33) Expresi
on: Nicolas quickly bought a green car in
London.
Representaci
x1, x2) green:JJ(x2) car:NN(x2) in:IN(e1, x3)
London:(x3)
Atributo. Se utiliza este tipo de predicado para denotar que un verbo copulativo tiene un atributo en la frase debido a que este tipo de
verbos nunca tendran objetos sintacticos relacionados. Este predicado tiene dos argumentos. El primer argumento instanciara la accion
del predicado asociado al verbo copulativo mientras que el segundo
atributo hara lo propio con la variable identificadora del objeto que
cumple el predicado asociado al atributo. A continuacion, en el ejemplo 34 se muestra la derivacion de este tipo de predicado.
(34) Expresi
on: The car is green.
Representaci
on: car:NN(x1) be:VB(e1, x1, x3) Atributo:IN(e1, x2) green:JJ(x2)
69
70
3. La Forma L
ogica
Conjuncion/Disyuncion. Este tipo de predicado se utiliza para representar las conjunciones y disyunciones que aparecen en las oraciones.
Tiene tres argumentos. El primero de ellos identifica al objeto que
cumple dicho predicado. El segundo y el tercero identifican a los objetos que cumplen los predicados relacionados mediante el predicado
conjuncion/disyuncion. A continuacion, el ejemplo 35 detalla un ejemplo de derivacion de este tipo de predicado.
(35) Expresi
on: Nicolas quickly bought a green car and a
motorbike in London.
Representaci
x1, x4) green:JJ(x2) car:NN(x2) and:CC(x4, x2,
x3) motorbike:NN(x3) in:IN(e1, x5) London:(x5)
Nominal compuesto. Este tipo de predicado se utiliza para reflejar
los nominales compuestos presentes en las oraciones. Tiene tres argumentos. El primero identifica al objeto resultante de la composicion
de los nominales. Los dos restantes argumentos identifican a los objetos que cumplen los predicados asociados a los nominales simples.
Seguidamente, en el ejemplo 36 se presenta la derivacion de este tipo
de predicado.
(36) Expresi
on: Nicolas Smith quickly bought a green car
and a motorbike in London.
Representaci
on: Nicolas:NN(x1) Nicolas Smith:NNC(x3,
x1, x2) Smith:NN(x2) quickly:RB(e1) buy:VB(e1,
x3, x6) green:JJ(x4) car:NN(x4) and:CC(x6, x4,
x5) motorbike:NN(x5) in:IN(e1, x7) London:(x7)
Aposicion. Al igual que ocurre con los nominales complejos, la aposicion marca una relacion muy estrecha entre dos elementos de la
oracion. Este tipo de relaciones tiene entidad suficiente para ser representada en la forma logica. Este tipo de predicado que se utiliza para
reflejar las aposiciones presentes en las oraciones tiene tres argumentos. El primero identifica al objeto resultante de la propia aposicion.
Los dos restantes argumentos identifican a los objetos que cumplen los
predicados constituyentes de la aposicion. A continuacion, el ejemplo
37 muestra la derivacion de este tipo de predicado.
(37) Expresi
on: Nicolas Smith, the bank manager, quickly
bought a green car and a motorbike in London.
3.4 La forma l
71
Representaci
on: Nicolas:NN(x1) Nicolas Smith:NNC(x3,
x1, x2) Smith:NN(x2) Nicolas Smith bank manager:APPO(x7,
x3, x6) bank:NN(x4) bank manager:NNC(x6, x4,
x5) manager:NN(x5) quickly:RB(e1) buy:VB(e1,
x7, x10) green:JJ(x8) car:NN(x8) and:CC(x10,
x8, x9) motorbike:NN(x9) in:IN(e1, x11) London:(x11)
3.4.3 Ejemplo de derivaci
on
Una vez especificado este complejo proceso de derivacion de las formas
logicas asociadas a oraciones expresadas en lenguaje natural, cabe hacer una sntesis del mismo mediante la derivacion de la forma logica
asociada a la frase The aspirin is effective.
El primer paso consiste en encontrar las relaciones de dependencia
entre las palabras de la frase. A continuacion, el cuadro 38 muestra
el analisis de dependencias entre las palabras de la frase.
(38) Frase: The aspirin is effective.

Representaci
on: En la tabla 3.5 se pueden contemplar las relaciones de dependencia existentes en la
frase anterior
Modificador
The [Det]
aspirin [N]
effective [N]
Cabeza
aspirin [N]
is [V]
is [V]
Relaci
on de dependencia
det
subj
pred
Tabla 3.5. Relaciones de dependencias entre las palabras de la frase
El segundo paso consiste en aplicar las reglas simples de PLN a las

hojas del arbol de dependencias, generando con ello los predicados de
la forma logica asociados a las hojas. A continuacion, el cuadro 39
detalla la aplicacion de este paso del algoritmo.
(39) Paso: Aplicacion de reglas simples a los nodos hoja.

Representaci
on: La tabla 3.6 detalla la aplicacion de
este paso del algoritmo
En este paso del algoritmo (ver tabla 3.6) se aprecia que la hoja The
[Det] no genera ning
un predicado en la forma logica, mientras que la
72
3. La Forma L
ogica
hoja effective [A] genera el predicado effective:JJ(x1), un predicado

cuyo lema viene determinado por effective, su informacion sintactica
la define JJ, y su u
nico argumento se instancia con la variable x1, que
identifica al objeto que cumple este predicado.
Finalmente, el u
ltimo paso del algoritmo consiste en aplicar las reglas
complejas de PLN a las ramificaciones y a la raz del arbol de dependencias. En la raz del arbol de dependencias queda derivada la forma
logica. A continuacion, el cuadro 40 detalla la aplicacion de este paso
del algoritmo.
(40) Paso: Aplicacion de reglas complejas a los nodos que

no son hoja.
Representaci
on: La tabla 3.7 detalla la aplicacion de
este paso del algoritmo
En este paso del algoritmo (ver tabla 3.7) se procesan las tres relaciones de dependencia existentes:
1. La primera relacion de dependencia tiene como n
ucleo el sustantivo aspirin, como modificador el determinante The, la relacion de
dependencia es del tipo det y la posicion del modificador es anterior al n
ucleo. Con estas premisas, la regla aplicada consiste en
generar un nuevo predicado asociado al sustantivo aspirin e instanciado con una nueva variable que identifica al objeto que cumple
este predicado. Tras aplicar la regla a esta relacion de dependencia,
la forma logica asociada al n
ucleo de la dependencia queda del modo aspirin:NN(x2), es decir, contiene un predicado cuyo lema viene
identificado por aspirin, su informacion sintactica la define NN, y
su u
nico argumento queda instanciado por la variable x2.
2. La segunda relacion de dependencia tiene como n
ucleo el verbo
is(be), como modificador el sustantivo aspirin, la relacion de dependencia esta etiquetada con el tipo subj y la posicion del modificador
es anterior al n
ucleo. Ello hace que la regla aplicar consista en generar un predicado asociado al verbo is(be). Este predicado tiene tres
argumentos: la variable e1 instancia la accion del verbo, la variable
x2 instancia al objeto que hace las funciones de sujeto sintactico
del verbo y la variable x3 instancia al objeto que desempe
na el rol
de objeto sintactico del verbo. La regla tambien dice que a este
predicado hay que anteponerle el predicado asociado al modificador
y, ademas, que el primer argumento del predicado del modificador
y el segundo argumento del predicado del n
ucleo, deben quedar
instanciados por la misma variable debido al tipo de relacion de
3.4 La forma l
dependencia (el modificador es el sujeto sintactico del n

ucleo). Una
vez aplicada la regla, la forma logica asociada al n
ucleo queda del
modo aspirin:NN(x2) be:VB(e1, x2, x3).
3. La u
ltima relacion de dependencia tiene como n
ucleo el verbo is(be),
como modificador el adjetivo effective, la relacion de dependencia
es del tipo pred y la posicion del modificador es posterior a la posicion del n
ucleo. Bajo estas premisas, la regla consiste en generar
un predicado cuyo lema viene determinado por Atributo, la informacion sintactica queda definida en IN, dicho predicado tiene dos
argumentos: el primero de ellos queda instanciado con la variable
identificadora de la accion del verbo, e1, mientras que el segundo
queda instanciado con la variable identificadora del objeto que cumple el predicado asociado al adjetivo. La regla dice tambien que hay
que concatenar el predicado asociado al modificador de la dependencia. Tras la aplicacion de la regla asociada a la u
ltima dependencia
la forma logica queda del modo aspirin:NN(x2) be:VB(e1, x2, x3)
Atributo:IN(e1, x1) effective:JJ(x1).
Hoja
The [Det]
effective [A]
FL
void
effective:JJ(x1)
Tabla 3.6. Reglas simples de PLN aplicadas a las hojas del

arbol de dependencias
CLC
aspirin [N]
is [VBE]
is [VBE]
CLM
The [Det]
aspirin [N]
effective [A]
RD
det
subj
pred
PM
anterior
anterior
posterior
FL
aspirin:NN(x2)
aspirin:NN(x2) be:VB(e1, x2, x3)
aspirin:NN(x2) be:VB(e1, x2, x3)
Atributo:IN(e1, x1) effective:JJ(x1)
Tabla 3.7. Reglas complejas de PLN aplicadas a las relaciones de dependencias
Una vez que todas estas reglas de PLN se han aplicado sobre el arbol
de dependencias de la frase The aspirin is effective, la forma logica
derivada es aspirin:NN(x2) be:VB(e1, x2, x3) Atributo:IN(e1, x1) effective:NN(x1). En ella, cabe destacar que el predicado Atributo que
relaciona los predicados be y effective como consecuencia de que el sustantivo effective es el atributo del verbo intransitivo be. Ademas, como
dicho verbo no tiene objeto, el argumento x3 del predicado be es zombie.
73
74
3. La Forma L
ogica
3.5 Conclusiones
A lo largo del captulo se ha introducido como, desde antes de Cristo,
uno de los principales cometidos de la logica en general es la representacion y gestion del conocimiento del universo del discurso. Tambien se ha
analizado la fuerte vinculacion existente entre la logica de primer orden
o el calculo de predicados de primer orden y la representacion formal del
conocimiento expresado en los textos mediante oraciones formuladas en
lenguaje natural. Fruto de ello se originan las primeras investigaciones
con un alto componente teorico en el seno del PLN durante las decadas
de los sesenta, setenta y ochenta. A partir de la decada de los ochenta y,
sobre todo, en la decada de los noventa, en el ambito del PLN, empieza a despertar especial interes el empleo de la forma logica, como una
extension de la clasica logica de primer orden, para la representacion
del conocimiento expresado en los textos. En el captulo se analizan los
diferentes enfoques del uso de la clasica logica de primer orden as como
de sus diferentes extensiones, en especial de la forma logica, que, en el
ambito del PLN, se estan llevando a cabo desde los a
nos sesenta. Estos
enfoques quedan sintetizados en el captulo.
Ya en el nuevo siglo, una parte importante de los sistemas de PLN
incorporan la forma logica como mecanismo de representacion formal
del texto. En estos sistemas, la forma logica queda definida como una
representacion del conocimiento logico de primer orden de oraciones
expresadas mediante lenguaje natural. De esta definicion se deduce
que toda oracion expresada en lenguaje natural podra ser representada
mediante su forma logica asociada. A lo largo del captulo se ha especificado la vinculacion existente de la forma logica como una extension
de la logica de primer orden o calculo de predicados de primer orden.
Tal y como se detalla en el transcurso del captulo, la representacion
formal del texto mediante la utilizacion de la forma logica se remonta
a la decada de los sesenta. Prueba de ello son las diferentes investigaciones en esta materia que han sido presentadas en el discurrir de este
captulo. Gran parte de estos autores de la epoca coinciden en la utilizacion de un parser que permita, partiendo del analisis sintactico de
las oraciones, la derivacion de las formas logicas asociadas. Como se ha
matizado a lo largo del captulo, la granularidad que aporta el analisis
de dependencias junto con la informacion semantica adquirida de los
diferentes recursos de PLN hacen que este tratamiento sea mucho mas
preciso que el analisis sintactico. En la u
ltima decada, los autores que
mas relevancia le han dado a la representacion formal del texto mediante la utilizacion de formas logicas han sido Moldovan y Molla.
3.5 Conclusiones
El formato de la forma logica y su proceso de derivacion depende de

cada autor. La tecnica propuesta en este trabajo de investigacion para
derivar la forma logica de una oracion declarativa consiste en aplicar un
conjunto de reglas sobre cada uno de los nodos del arbol de dependencias de la oracion. Esta tecnica de derivacion de la forma logica consiste
en un proceso composicional que empieza en los nodos hojas de arbol de
dependencias y contin
ua en sentido ascendente por sus ramificaciones
hasta llegar al nodo raz, donde la forma logica queda constituida. Esta
tecnica difiere de las otras dos tecnicas de inferencia de la forma logica
vistas en el captulo. La tecnica continusta planteada por Moldovan
et al. (2003) utiliza el arbol de analisis sintactico de constituyentes en
el proceso de derivacion de la forma logica. La tecnica empleada por
Molla el at. (2002) parte del analisis sintactico, resuelve el sentido de
las dependencias y, a partir de estas u
ltimas deriva la forma logica, introduciendo en ella predicados alternativos dependientes del dominio
de aplicacion de su sistema (comandos del sistema operativo Unix).
La forma logica de Moldovan esta dise
nada para el texto en dominio
abierto, mientras que la de Molla esta concebida para trabajar en un
dominio restringido concreto. El proposito perseguido en esta investigacion es que la forma logica sea capaz de trabajar tratar textos en el
dominio abierto como en cualquier dominio restringido. En el siguiente
captulo se detalla como se consigue este proposito.
Desde el punto de vista de la independencia de la lengua, tanto la forma
logica de Moldovan como la de Molla no consideran una representacion
independiente de la lengua de la oracion asociada, ya que u
nicamente
modelan una representacion en la lengua inglesa. En cambio, la forma logica planteada en esta tesis tiene un tratamiento independiente
de la lengua que permite representaciones en cualquier lengua, incluso
planteamientos multiling
ues. En el siguiente captulo se detalla como se
consigue el tratamiento independiente de la lengua.
75
4. La forma l
ogico-conceptual
Como se esta comentado a lo largo de este trabajo de investigacion,

la forma logica, por definicion, permite disponer de una representacion del conocimiento logico de primer orden de oraciones expresadas
mediante lenguaje natural, es decir, facilita la comprension del texto
mediante su transformacion en una determinada representacion formal.
Tambien se ha comentado que las u
ltimas tendencias en el ambito del
PLN han derivado a que los sistemas de PLN por un lado, sean capaces
de tratar la multilingualidad y, por otro lado, sean adaptables del dominio abierto a cualquier dominio restringido y viceversa. Ello requiere que
los sistemas de PLN dispongan de alg
un mecanismo de representacion
formal del texto que sea capaz de contemplar estas dos particularidades. Como se ha detallado en el anterior captulo donde se realiza un
estudio sobre las diferentes representaciones de texto existentes utilizando la forma logica, las propuestas existentes hasta el momento no
contemplan los detalles de la independencia del dominio y de la lengua,
frente a la propuesta presentada en esta tesis que s que abarca estas
dos propiedades. Por un lado, es capaz de representar el texto tanto
en dominios abiertos como en cualquier dominio restringido y, por otro
lado, es capaz de obtener una representacion del texto independiente de
la lengua, todo ello basandose en los recursos disponibles de PLN pertenecientes tanto al dominio abierto como a los dominios restringidos.
Tal y como se ha detallado en el anterior captulo, los predicados inferidos en la forma logica tienen una relacion directa con las palabras
de la frase que representa formalmente la forma logica. A lo largo del
presente captulo se aborda el problema, pero cabe adelantar que, con
el proposito de abordar los matices inherentes a la independencia del
dominio y de la lengua, los predicados de la forma logica necesitan incorporar conocimiento semantico a traves de la informacion conceptual
que representan sus palabras asociadas seg
un el contexto de la frase.
Este tratamiento conceptual llevado a cabo en la forma logica hace que
la forma logica tenga la consideracion de forma logico-conceptual.
Seguidamente se describen los detalles de la extension de la forma logica
a la forma logico-conceptual. Posteriormente, se especifica la aplicacion
78
4. La forma l
ogico-conceptual
de la forma logico-conceptual al tratamiento de las particularidades

referentes a la independencia del dominio para, finalmente, matizar los
aspectos que permiten tratar la independencia de la lengua.
4.1 Tratamiento l
ogico-conceptual y representaci
on
sem
antica
El proposito perseguido consiste en, a partir de la representacion formal del texto mediante la forma logica, dotar a esta u
ltima de una
mayor granularidad semantica a traves de la conceptualizacion de sus
predicados asociados a las palabras del texto representado. Para ello,
se debe disponer de alg
un recurso del tipo ontologico o tesauro capaz
de conceptualizar las unidades lexicas presentes en el texto. Cuando las
unidades lexicas asociadas a los predicados quedan conceptualizadas, la
informacion relativa a los conceptos pasa a enriquecer la representacion
formal del texto en la forma logica. En este instante, en el que la forma
logica incorpora la informacion conceptual asociada a sus predicados,
la propia forma logica pasa a recibir el tratamiento de forma logicoconceptual.
En determinadas ocasiones, una palabra puede tener asociada mas de
un concepto. Ello implica que el predicado asociado a esa palabra quede multiconceptualizado, produciendo que, a partir de la original forma
logica, se deriven diversas formas logico-conceptuales.
A lo largo del presente captulo se explica la derivacion de formas logicoconceptuales a partir de una forma logica pero, cabe adelantar que el
n
umero de formas logico-conceptuales viene determinado por el producto cartesiano (todos con todos) de los predicados conceptualizados en
la forma logica.
Garca de Quesada (2001) hace un analisis teorico de la distincion entre
los conceptos de concepto y termino. En este analisis justifica que, desde
un principio, los teoricos que se han dedicado al estudio y descripcion de
la definicion en terminografa han tenido clara la necesidad de otorgar
prioridad al concepto sobre el termino. El papel nuclear de los conceptos
en la gestion terminologica es indiscutible. Sin embargo, en la practica
terminografica real, es innegable que el concepto de concepto es, quiza,
uno de los mas difciles de delimitar y definir.
En el estudio realizado en Sager (1990) se recogen las siguientes definiciones de concepto establecidas en diversas instituciones estandarizadoras:
4.1 Tratamiento l
on sem
antica
Los conceptos son constructos mentales, abstracciones que se pueden

emplear para clasificar los distintos objetos del mundo exterior e interior (Recomendacion Estandar Britanica para la seleccion, formacion
y definicion de terminos tecnicos).
Los objetos de todos los campos de conocimiento y actividades humanas, las cosas, sus propiedades, cualidades, fenomenos, etc., se representan mediante conceptos (Propuesta de revision del Reino Unido
para el documento de la ISO R/704).
Un concepto es un constructo mental para la clasificacion de objetos
individuales del mundo exterior e interior por medio de una abstraccion mas o menos arbitraria (Borrador de 1968 del estandar ISO 704).
Un concepto es una unidad de pensamiento, generada mediante la
agrupacion de objetos individuales relacionados entre s por caractersticas comunes (Borrador de documento DIN, aleman).
Un concepto es un grupo coherente de juicios sobre un objeto cuyo
n
ucleo se compone de aquellos juicios que reflejan las caractersticas
inherentes del objeto (Propuesta de la Union Sovietica para la revision del documento ISO 704).
Un concepto es una unidad de pensamiento.
Ademas, tambien a
nade las siguientes puntualizaciones:
1. Un concepto se usa para estructurar el conocimiento y percepcion
del mundo circundante y no necesita ser expresado.
2. Distintas escuelas de pensamiento tienen definiciones diferentes del
concepto concepto (Version final del Draft International Standard
ISO/DIS 704, 1985).
A continuacion, el autor propone que dada la gran diversidad de opiniones, para los propositos de la terminologa es mejor dejar el concepto
sin definir (Sager, 1990).
En el marco del trabajo de investigacion que nos ocupa, no creemos que
sea necesario debatir la naturaleza de concepto. Esta tarea nos llevara
a multitud de cuestiones de naturaleza filosofica que quedan lejos de
los objetivos de esta tesis. Seg
un matiza Garca de Quesada en su tesis
(Garca de Quesada, 2001), los conceptos no son mas que una formalizacion posible de una parte del conocimiento. Estos conceptos seran un
79
80
4. La forma l
ogico-conceptual
punto de referencia para el termino, que se puede definir en este contexto, como la formalizacion de uno o varios conceptos, para su uso en la
comunicacion experta, preferentemente. Seg
un matiza De Besse (1997),
lo que se ha de definir no es el termino, sino el objeto o idea en cuestion,
y mas concretamente su representacion conceptual. Dubuc y Lauriston
(1997) concluyen que, de la misma forma, en terminografa biling
ue el
establecimiento de equivalencias en ambas lenguas se realiza a traves de
la representacion conceptual, de manera que la equivalencia no es entre los terminos sino entre los conceptos designados por dichos terminos.
El objetivo fundamental que se persigue en esta investigacion consiste
en tener una representacion formal del texto que sea independiente del
dominio y de la lengua. Para abordar este problema, el enfoque adoptado en esta tesis se basa en dotar de contenido semantico a la forma
logica. Tal y como se acaba de justificar, este reto se consigue a partir
de la forma logica y del empleo de recursos del tipo ontologico o tesauros que permiten dotar de informacion conceptual a los predicados
cuyas palabras asociadas queden conceptualizadas en dichos recursos.
Este tratamiento conceptual de los predicados de la forma logica da
lugar a las formas logico-conceptuales.
A continuacion se especifican los requisitos que se deben cumplir para
poder tener una representacion formal del texto independiente del dominio y de la lengua seg
un el tratamiento logico-conceptual presentado
en este trabajo de investigacion:
Recurso conceptual: Independientemente del dominio de los textos a
representar, tanto en el dominio abierto como en el dominio restringido, se debe disponer de recursos que aporten, con mayor o menor
granularidad, la informacion conceptual que representan las palabras.
Generalmente, un concepto viene siempre identificado por un identificador exclusivo del propio concepto.
Conexion multiling
ue: El recurso conceptual debe tener una conexion
entre las diferentes lenguas.
Tratamiento de categoras semanticas: En los dominios especficos,
suele ser bastante com
un disponer de ontologas de categoras semanticas del dominio. Cuando se dispone de esta informacion, cada concepto definido en el tesauro esta asociado a su categora o categoras
semanticas. Unicamente
en este caso, y de manera excepcional, la representacion logico-conceptual incorporara no solo el concepto, sino
tambien sus categoras semanticas asociadas enriqueciendo semanticamente a
un mas si cabe el predicado de la forma logica.
4.1 Tratamiento l
on sem
antica
Seg
un matiza Dick (1991), los conceptos representan una entidad, accion o estado que pueden ser descritos en el lenguaje, y las relaciones
conceptuales muestran los roles que cada entidad juega. Una de las conclusiones a las que llega en esta tesis doctoral viene determinada en la
frase a concept is the basic unit for representing knowledge. Dada esta conclusion y, en la lnea de otros trabajos de investigacion previos
en el dominio abierto (Baziz et al. , 2005) (Ramakrishnanan & Bhattacharyya, 2003) (Zhang & Li, 2005) (Gomez-Hidalgo et al. , 2004), que
tambien utilizan los conceptos asociados a las palabras para representar
formalmente el texto, en esta tesis se ha optado por la continuacion de
esta tendencia consistente en la extraccion de la informacion conceptual
de las unidades lexicas del texto para su representacion formal. De este
modo, se incorpora a la forma logica la informacion conceptual asociada
a sus predicados conceptualizados, tanto en el dominio abierto como en
cualquier dominio restringido.
Para tratar de entender mejor este proceso, en el marco del tratamiento
semantico de la forma logica, a continuacion se presentan las propiedades explotadas de los recursos ontologicos y tesauros tanto en el dominio
abierto como en los dominios restringidos. En el caso particular, en el
dominio abierto, el recurso utilizado es WordNet, mientras que en el
ambito del dominio restringido, se introduce el dominio medico, explotando el recurso UMLS.
4.1.1 WordNet y EuroWordNet

En la base de datos lexica WordNet (Miller, 1995), el n
ucleo fundamental es el synset. Un synset se define como un conjunto de palabras
que tienen el mismo significado (sinonimos). Debido a ello, un synset
contiene una o mas palabras con sentido (tambien llamadas conceptos)
y cada palabra con sentido (concepto) pertenece u
nica y exclusivamente a un solo synset. Dicho de otro modo, cada concepto tiene asociado
exactamente una palabra que lo representa lexicamente y, cada palabra
puede estar relacionada con al menos un concepto. Cada synset tiene un
identificador exclusivo formado por una combinacion de dgitos. Como
ejemplo, la tabla 4.1 muestra los synsets del sustantivo car.
WordNet es un recurso que esta disponible en multitud de lenguas (ingles, espa
nol, catalan, euskera, checo,...). Con el proposito de interconectar diferentes lenguas europeas, se desarrollo el recurso EuroWordNet
(Vossen, 1998) (Vossen, 2002). El objetivo de EuroWordNet es la construccion de un recurso lexico-semantico de diversas lenguas, integradas
e interconectadas, tomando WordNet como punto de referencia. Las
conexiones entre los WordNet de cada lengua se realiza mediante equi-
81
82
4. La forma l
ogico-conceptual
Identificador
02958343
02959942
02960501
02960352
02934451
Conceptos del synset

car#1, auto#1, automobile#1, machine#6, motorcar#1
car#2, railcar#1, railway car#1, railroad car#1
car#3, gondola#3
car#4, elevator car#1
cable car#1, car#5
Tabla 4.1. Synsets del sustantivo car
valencias a una estructura interling

ustica, el Inter-Lingual-Index (ILI).
Es decir, el ILI conecta los synsets de las diferentes lenguas. Como
ejemplo, la figura 4.1 muestra las relaciones existentes entre la lengua
inglesa y la lengua espa
nola del sustantivo prohibition. En este ejemplo,
el sustantivo prohibition tiene cuatro entradas de synset en el WordNet
ingles, dos de las cuales (la segunda y la cuarta) estan relacionadas con
synsets del WordNet espa
nol a traves del ILI. Diferentes autores han
utilizado el ILI de EuroWordNet para tratar los aspectos relevantes de
la multilingualidad en sus investigaciones en PLN (Soria et al. , 2006)
(Marchetti et al. , 2006) (Ferrandez et al. , 2006b).
4.1.2 UMLS
En el dominio medico existen distintos recursos que aportan conocimiento relativo a su terminologa. El mas extendido es UMLS (Unified
Medical Language System) (Humphreys & Lindberg, 1993). Este recurso
esta compuesto a partir de la integracion de tres fuentes de conocimiento: el Metatesauro, el Lexicon Especializado y la Red Semantica que
cabe describir brevemente a continuacion:
El Metatesauro es el n
ucleo de UMLS y consta de una coleccion de
conceptos y terminos extrados de diferentes vocabularios controlados, incluyendo tambien sus relaciones.
El Lexicon Especializado es una base de datos de informacion lexicografica para el uso en PLN.
La Red Semantica consta de un conjunto de categoras y sus relaciones cuya utilidad es la de clasificar y relacionar las entradas del
metatesauro.
De entre estos tres recursos de UMLS, el que mejor se adapta a la necesidad de extraccion de los conceptos es el Metateusauro, que sera el
que se utilizara. Ademas, cabe destacar que, tal y como se acaba de
describir, UMLS incorpora una Red Semantica en la que los conceptos
4.2 Derivaci
on de las formas l
ogico-conceptuales
representados en el Metatesauro quedan categorizados semanticamente. Ello permite que dado un concepto se pueda conocer cual es su tipo
semantico o categora semantica.
En UMLS, independientemente de la lengua, dado un termino se puede conocer el concepto o conceptos que tiene asociados. Cada concepto
tiene un identificador exclusivo, y se relaciona con uno o varios tipos
semanticos de los categorizados en la Red Semantica. Tambien, dado un
concepto, es posible conocer los terminos que se asocian a dicho concepto en cada una de las lenguas tratadas en este recurso. Como ejemplo, la
tabla 4.2 muestra la informacion semantica del sustantivo aspirin. En
este ejemplo estan detallados u
nicamente los terminos en las lenguas
inglesa y espa
nola, descartando el resto de terminos que tiene asociados
el concepto.
Identificador
Concepto
C0004057
Aspirin
Tipo Sem
antico
Organic Chemical
Pharmacologic Substance
T
erminos
Aspirin, 2-(Acetyloxy)benzoic Acid,
Acetylsalicylic Acid, ...,
Aspirina, Acido
Acetilsaliclico, ...
Tabla 4.2. Informaci

on sem
antica relativa al sustantivo aspirin
4.2 Derivaci
on de las formas l
ogico-conceptuales
Se acaba de comentar que la forma logico-conceptual es una extension
de la forma logica que enriquece a esta u
ltima desde una perspectiva
semantica a traves de la incorporacion de la informacion conceptual
asociada a sus predicados. En este contexto tambien se ha justificado la
necesidad de utilizacion de recursos del tipo ontologico o tesauros que
permitan extraer la informacion conceptual asociada a los predicados
de la forma logica.
Seg
un se ha matizado en la seccion anterior, en este tipo de recursos,
la terminologa esta asociada a los conceptos. Ademas, cada concepto
tiene un identificador exclusivo que lo diferencia del resto de conceptos
del recurso. Tambien cabe destacar que, en los recursos pertenecientes a
los dominios restringidos, los conceptos quedan categorizados semanticamente en tipos o categoras semanticas pertenecientes al dominio restringido. Al igual que los conceptos, cada tipo o categora semantica
cuenta con un identificador exclusivo que lo diferencia del resto de tipos o categoras semanticas del recurso.
83
84
4. La forma l
ogico-conceptual
Situandose en el ambito de la forma logica, la terminologa susceptible de ser conceptualizada se corresponde con los propios predicados de
la forma logica. Esto

quiere decir que, dado un predicado de la forma
logica, el tratamiento logico-conceptual, en un primer lugar, tratara de
extraer del recurso la informacion conceptual del predicado, en el caso
de que dicho predicado quede conceptualizado en el recurso. Concretamente, la informacion conceptual susceptible de ser extrada se corresponde con el identificador u
nico del concepto (o los identificadores de
los diferentes conceptos, en el caso de que el predicado sea multiconceptualizado en el recurso). Ademas, si se esta realizando la representacion
formal del texto en el ambito de cualquier dominio restringido, y en
el recurso empleado esten categorizados semanticamente los conceptos,
tambien seran extrados del recurso los identificadores de las categoras
semanticas relacionadas con cada uno de los conceptos asociados al
predicado. Una vez que toda esta informacion semantica ha sido extrada del recurso, el siguiente paso consiste en reflejar esta informacion
semantica en la forma logica, dando origen a la forma logico-conceptual.
A lo largo del captulo anterior se ha comentado que en la forma logica los predicados tienen la forma Lema Palabra:Informaci
on Sintactica(argumentos), es decir, incluyen tanto el lema como la informacion
sintactica de las propiedades que estan representando en ellos. En la
forma logico-conceptual, aquellos predicados de la forma logica que tengan asociado alg
un concepto en el recurso utilizado tendran la forma
Id Concepto:Lema Palabra:Info Sint
actica(argumentos), es decir, incorporaran tambien la informacion del concepto que tienen asociado en el
recurso empleado. En el caso de que un predicado tenga asociado mas
de un concepto en el recurso, se derivaran tantos predicados logicoconceptuales como conceptos tengan asociados en el recurso. Este hecho
da origen a que de una forma logica se deriven diversas formas logicoconceptuales como resultado del producto cartesiano de los predicados
conceptualizados, tal y como se ha comentado en la seccion anterior.
Luego, el n
umero de formas logico-conceptuales derivadas de la forma
logica viene determinado por la combinacion de conceptualizaciones de
cada predicado conceptualizado con el resto de los predicados. El resto
de predicados que no esten conceptualizados, no sufriran ninguna alteracion, manteniendo su estructura original definida en la forma logica.
Tambien puede darse el caso de formas logicas cuyos predicados no tengan conceptualizacion alguna. En este caso, la forma logica derivara una
u
nica forma logico-conceptual, teniendo ambas la misma representacion.
Cabe volver a matizar que las formas logico-conceptuales derivadas a
partir de una forma logica se obtienen mediante el producto cartesiano
de todos los predicados conceptualizados.
4.2 Derivaci
on de las formas l
ogico-conceptuales
85
No conviene olvidar que en el anterior captulo se matizo que la forma logica debe ser conceptualmente completa. Esto es, de manera sofisticada, el proposito final de la forma logica es conseguir una u
nica
representacion semantica no ambigua de la frase asociada. La representacion semantica de una frase se corresponde con una u
nica forma
logico-conceptual de las derivadas a partir de la forma logica original.
Concretamente, la representacion semantica de la frase es el resultado
de la desambiguacion de la forma logico-conceptual, de entre todas las
formas logico-conceptuales derivadas, en la que cada predicado, en el
caso de ser multiconceptualizado, queda asociado con aquel concepto
que mejor representa el concepto de la unidad lexica seg
un el contexto
de la frase asociada. A continuacion, el ejemplo 41 detalla la derivacion
de las formas logico-conceptuales asociadas a una forma logica, as como
la representacion semantica de su frase asociada como resultado de la
desambiguacion de la forma logico-conceptual mas significativa seg
un
el contexto de entre todas las posibles. En el captulo siguiente, donde
se matizan los detalles de la evaluacion del recurso logico-conceptual
desarrollado en el trabajo de investigacion, se especifican los matices
referentes al proceso de desambiguacion utilizado.
(41) Forma L
ogica: P1:NN(x1) P2:VB(e1, x1, x2) P3:NN(x2)
P4:IN(e1, x3) P5:NN(x3)
Predicados Conceptualizados: La tabla 4.3 detalla
la conceptualizacion de predicados de la anterior
forma logica.
Formas L
ogico-Conceptuales: La tabla 4.4 muestra
las formas logico-conceptuales derivadas a partir de
la conceptualizacion de predicados sobre la anterior
forma logica.
Representaci
on sem
antica: 1 C1:P1:NN(x1) C2:P2:VB(e1,
x1, x2) C5:P3:NN(x2) P4:IN(e1, x3) P5:NN(x3).
Predicado
P1
P2
P3
Conceptos
C1
C2, C3
C4, C5
Tabla 4.3. Predicados conceptualizados de la forma l

ogica
En el ejemplo se asume que los conceptos que mejor conceptualizan a los predicados P2 y P3 son
C2 y C5 respectivamente.
86
4. La forma l
ogico-conceptual
Conceptos Combinados
C1, C2, C4
C1, C2, C5
C1, C3, C4
C1, C3, C5
C1:P1:NN(x1)
C1:P1:NN(x1)
C1:P1:NN(x1)
C1:P1:NN(x1)
Forma L
ogico-Conceptual
C2:P2:VB(e1, x1, x2) C4:P3:NN(x2) P4:IN(e1,
x3)
x3)
x3)
x3)
P5:NN(x3)
P5:NN(x3)
P5:NN(x3)
P5:NN(x3)
Tabla 4.4. Formas l

ogico-conceptuales derivadas de la forma l
ogica original
El anterior ejemplo 41 modela el proceso dentro del marco logicoconceptual llevado a cabo y que concluye en la obtencion de la representacion semantica de la frase. Este ejemplo esta presentado desde
un punto de vista muy teorico y formal permitiendo distinguir las diferentes etapas del proceso logico-conceptual desarrollado y que concluye
con la obtencion de la representacion semantica de la frase fruto de la
desambiguacion de la forma logico-conceptual en la que cada predicado
conceptualizado es asociado al concepto que mejor le identifica en el
contexto de la frase.
Haciendo una sntesis del proceso logico-conceptual de una manera mas
natural con un ejemplo, cabe pensar en la frase Ayer ingrese el dinero
en el banco. Este frase deriva una forma logica que contiene una serie de
predicados, entre los cuales, uno de ellos se asocia a la palabra banco.
Analizando los diferentes conceptos que tiene asociados esta palabra 2
se obtiene que del predicado original asociado a la palabra banco en la
forma logica, se derivan n predicados logico-conceptuales (un predicado
logico-conceptual por cada concepto asociado a la palabra) que seran
combinados en las diferentes formas logico-conceptuales obtenidas fruto
del producto cartesiano de los predicados conceptualizados. Finalmente, la representacion semantica de la frase se corresponde con aquella
forma logico-conceptual en la que cada predicado conceptualizado es
asociado al concepto que mejor le identifica seg
un el contexto de la
frase. Concluyendo este proceso logico-conceptual, en la representacion
semantica de la frase Ayer ingrese el dinero en el banco, el predicado
conceptualizado asociado a la palabra banco vendra definido por el
concepto sucursal financiera que es el concepto que mejor le identifica
en el contexto de la oracion.
Seg
un se esta comentando a lo largo del captulo, cuando se esta procesando el texto en el ambito de cualquier dominio restringido, es mas
que probable que, en el recurso ontologico o tesauro dependiente del
dominio, los conceptos sean asignados a los tipos semanticos del dominio categorizados en el recurso. Extraordinariamente, cuando se dispone de esta informacion, los predicados conceptualizados incorporan
2
Los conceptos asociados a la palabra banco son: asiento, mesa de trabajo, sucursal financiera,
etc.
4.3 Independencia del dominio en la forma l

ogica
tambien la informacion relativa a su categora o tipo semantico, consiguiendo con ello un enriquecimiento semantico del predicado conceptualizado en particular, y de la representacion en general. En concreto,
incluyen el identificador exclusivo de la categora semantica a la que
pertenece el concepto. Si el concepto pertenece a mas de una categora semantica, incorporan los identificadores de todas las categoras
semanticas a las que pertenece el concepto. Considerando esta caracterstica, cada uno de los predicados logico-conceptuales pasa de tener la
forma Id Concepto:Lema Palabra:Info Sintactica(argumentos) a tener
la forma Id Concepto(Id TS1, ..., Id TSn):Lema Palabra:Info Sint
actica(argumentos). Es decir, a continuacion del identificador del concepto
se incluyen entre parentesis y separados por comas cada uno de los
identificadores de los tipos o categoras semanticas del dominio a las
que pertenece el concepto.
Se acaba de presentar el proceso de derivacion de las formas logicoconceptuales inferidas a partir de la incorporacion de la informacion
conceptual a los predicados de la forma logica. Este tratamiento logicoconceptual permite que la representacion formal del texto sea independiente del dominio y de la lengua, tal y como se pasa a explicar en las
siguientes secciones del captulo.

ogica
En la seccion anterior se ha tratado la derivacion de las formas logicoconceptuales a partir de la extraccion de la informacion conceptual asociada a los predicados de la original forma logica. Para ello se debe
disponer de alg
un recurso del tipo ontologico o tesauro que proporcione
la informacion conceptual de la terminologa presente en las oraciones
del texto. Ello quiere decir que, a partir de los terminos presentes en
el texto, se debe extraer del recurso toda la informacion conceptual
asociada a ellos. Hasta el momento se propone este planteamiento sin
entrar en matices inherentes al dominio en el que se enmarca el texto.
El texto a representar puede estar bajo cualquier dominio, bien sea el
dominio abierto, bien sea cualquier dominio especfico. Ello quiere decir
que, dependiendo del dominio de aplicacion en el que se enmarque el
texto, se debera disponer de un recurso ontologico o tesauro dependiente de dicho dominio capaz de conceptualizar la terminologa del dominio
atendiendo a los requisitos establecidos en la seccion previa del captulo. Este planteamiento, hace que el tratamiento logico-conceptual sea
independiente del dominio. Lo u
nico que es dependiente del dominio es
el recurso conceptual en el ambito de cada dominio especfico.
87
88
4. La forma l
ogico-conceptual
Una vez especificadas todas estas consideraciones, se puede hablar de

tratamiento logico-conceptual modular donde existe un modulo cambiante que se corresponde con el recurso conceptual utilizado en el proceso. Por ejemplo, si se esta representando formalmente el texto en el
dominio A, el modulo cambiante se corresponde con un recurso dependiente del dominio A que cumpla los requisitos establecidos en la
seccion anterior del captulo. Si por el contrario, se quiere representar
formalmente el texto en el ambito del dominio B, entonces habra que
instanciar el modulo cambiante a un recurso dependiente del dominio B
que cumpla los requisitos establecidos en la seccion anterior del captulo.
Y as sucesivamente para cualquier dominio. De este modo, cabe concluir que el tratamiento logico-conceptual es siempre fijo, atendiendo a
las especificaciones definidas en la seccion previa del captulo, e independiente del dominio. Lo u
nico que depende del dominio es el modulo
cambiante que se corresponde con el recurso del dominio utilizado en
cada momento, y que variara en funcion de que se represente el texto
en un dominio de aplicacion o en otro. El resto del tratamiento logicoconceptual permanece siempre constante.
Una vez realizados estos matices sobre la independencia del dominio en
el tratamiento logico-conceptual, a continuacion se enfoca este tratamiento logico-conceptual tomando como referencia dos dominios diferentes: el primero de ellos es el dominio abierto, mientras que el segundo se corresponde con un dominio especfico, concretamente, el dominio
medico.
4.3.1 La forma l
ogico-conceptual en el dominio abierto
Cuando se esta procesando texto en el dominio abierto, se dispone de
recursos ontologicos o tesauros del dominio abierto como WordNet (Miller, 1995), que nos permite conocer con todo detalle la informacion
conceptual asociada a las palabras del texto.
Tal y como se esta comentando a lo largo del captulo, la forma logicoconceptual no es mas que la incorporacion de informacion conceptual a los predicados de la forma logica. En el dominio abierto, tomando como referencia el recurso WordNet, los predicados susceptibles de tener alg
un concepto asociado en WordNet son aquellos cuya informacion sintactica se corresponda con sustantivo, verbo, adjetivo, adverbio y nominal compuesto. De este modo, en la forma logicoconceptual, si un predicado representa un concepto tendra la forma
Id Concepto WordNet:Lema Palabra:Info Sintactica(argumentos). Por el
contrario, si un predicado no representa ning
un concepto, su forma en
la forma logico-conceptual no variara respecto a su estructura original

ogica
89
en la forma logica.
Una vez introducidos los matices referentes a la utilizacion del recurso
WordNet como fuente del conocimiento conceptual asociado a las palabras del texto, a continuacion, el ejemplo 42 muestra claramente el
proceso de transformacion o derivacion de una forma logica en una o
mas formas logico-conceptuales.
(42) Frase: You can proceed to the bank near the corner.
Forma L
ogica: you:NN(x1) proceed:VB(e1, x1, x2)
to:IN(e1, x3) bank:NN(x3) near:IN(x3, x4) corner:NN(x4)
Predicados Conceptualizados: 3 La tabla 4.5 detalla la conceptualizacion de predicados de la anterior
forma logica.
Formas L
ogico-Conceptuales: Las formas logico-conceptuales
son derivadas siguiendo un procedimiento similar al
del anterior ejemplo 41. En dicho ejemplo, la tabla 4.4 muestra la derivacion de las formas logicoconceptuales fruto del producto cartesiano de los
predicados.
Predicado
bank:NN(x3)
corner:NN(x4)
proceed:VB(e1, x1, x2)
Concepto
Bank river
Depository finantial institution
Bank building
Geometric corner
Street corner
Continue
Follow a procedure
Identificador Concepto
bank#1(09213565)
bank#2(08420278)
bank#9(02787772)
corner#2(08544275)
corner#4(03109486)
proceed#1(00781000)
proceed#3(02372605)
Tabla 4.5. Predicados conceptualizados de la forma l

ogica
Se acaba de introducir, en el ambito del dominio abierto, la forma logicoconceptual como una extension de la forma logica que permite a
nadir
informacion conceptual sobre algunos de sus predicados. La informacion
conceptual asociada a los predicados se extrae del recurso WordNet. A
continuacion se detalla la derivacion de la representacion semantica de
la frase a partir de la desambiguacion de las formas logico-conceptuales
donde cobran especial interes los predicados multiconceptualizados. Tal
3
Los conceptos del ejemplo han sido obtenidos del recurso lexico WordNet. No se han tenido en
cuenta todos los conceptos que puede representar cada predicado con el prop
osito de no hacer
muy complejo y extenso el ejemplo de derivaci
on de la formas l
ogico-conceptuales.
90
4. La forma l
ogico-conceptual
y como se ha comentado en la seccion anterior, en el marco del proceso

logico conceptual llevado a cabo, para la obtencion de la representacion
semantica de la frase, cada predicado multiconceptualizado se desambigua con el concepto que mejor le identifica en el contexto de la frase.
on sem
antica de la frase en el dominio
abierto
A lo largo de este trabajo de investigacion, se ha hablado de la forma logica como un mecanismo que permite obtener una representacion
formal de las frases expresadas en lenguaje natural. Cuando en el procesamiento, se hace uso de alg
un recurso ontologico o tesauro capaz de
dotar a los predicados de la forma logica de su informacion conceptual,
se pueden derivar automaticamente las formas logico-conceptuales asociadas a la forma logica de la frase. A pesar de que una oracion puede
tener diversas formas logico-conceptuales, solo debe tener una representacion semantica y esta debe ser u
nica. Esta representacion semantica
se correspondera con una u
nica forma logico-conceptual de las asociadas
a la oracion. En la representacion semantica de la frase cada predicado multiconceptualizado adquiere el concepto mas relevante seg
un el
contexto de la frase. Es por ello por lo que, seg
un el ambito de aplicacion de la forma logica (B
usqueda de Respuestas, Recuperacion de
Informacion, Extraccion de Informacion, ...), el sistema debe disponer
de alg
un mecanismo de desambiguacion que, partiendo de las formas
logico-conceptuales asociadas a la frase, sea capaz de seleccionar aquella que considera mas adecuada, siendo esta la representacion semantica
de la oracion. Siguiendo esta definicion y, dado el anterior ejemplo 42,
a continuacion, el cuadro 43 detalla la representacion semantica de la
frase.
(43) Frase: You can proceed to the bank near the corner.
Predicados Multiconceptualizados Desambiguados:
La tabla 4.6 detalla la desambiguacion de los predicados multiconceptualizados en la anterior forma
logica.
Representaci
on sem
antica: you:NN(x1) 00781000:proceed:VB(e1, x1, x2) to:IN(e1, x3) 02787772:bank:NN(x3)
near:IN(x3, x4) 03109486:corner:NN(x4)
Se acaba de introducir, en el ambito del dominio abierto, la representacion semantica de la frase a partir de la desambiguacion de los predicados multiconceptualizados en la forma logico-conceptual, tal y como
se detalla en el marco del tratamiento logico-conceptual. En el dominio
abierto, el recurso lexico WordNet es una buena fuente de informacion

ogica
Predicado
bank:NN(x3)
corner:NN(x4)
proceed:VB(e1, x1, x2)
Concepto Desambiguado
Bank building
Street corner
Continue
bank#9(02787772)
corner#4(03109486)
proceed#1(00781000)
Tabla 4.6. Predicados multiconceptualizados desambiguados de la forma l

ogico-conceptual
conceptual. En cambio, cuando se esta trabajando sobre un dominio

restringido, se debe disponer de otros recursos del tipo ontologico y tesauros que sean tambien una buena fuente de informacion conceptual
sobre dicho dominio restringido. A continuacion se presenta se presenta
la aplicacion del tratamiento logico-conceptual en el dominio restringido cuyo proposito final consiste en la obtencion de la representacion
semantica de las oraciones. El dominio especfico tomado de referencia
es el dominio medico.
4.3.3 La forma l
ogico-conceptual en los dominios restringidos
La clave del tratamiento logico-conceptual en los dominios restringidos esta en encontrar el recurso del tipo ontologico o tesauro especfico
del dominio que pueda ser utilizado para extraer la informacion conceptual de la terminologa dependiente del dominio, e incorporar esta
informacion a los predicados de la forma logico-conceptual atendiendo
al procedimiento explicado en la seccion anterior. Si se dispone del mencionado recurso se podra llevar a cabo el tratamiento logico-conceptual
en el dominio restringido. En el caso de que no se disponga de tal recurso no tiene ning
un sentido realizar el tratamiento logico-conceptual en
el dominio restringido puesto que la terminologa especfica del dominio restringido presente en el texto no podra ser conceptualizada bajo
ning
un concepto atendiendo a la semantica del dominio restringido.
El hecho de disponer de un recurso del tipo ontologico o tesauro del
dominio restringido para ser incorporado como fuente del conocimiento conceptual de dicho dominio especfico no excluye que tambien se
pueda utilizar cualquier otro recurso, tanto del dominio abierto, como
del dominio especfico, pudiendo ambos coexistir en el proceso logicoconceptual. Una justificacion de ello esta en utilizar WordNet (o cualquier otro recurso del dominio abierto que cumpla las especificaciones
matizadas en la anterior seccion) junto con el recurso especfico del dominio restringido en el tratamiento logico-conceptual en el ambito de
un dominio restringido. Ello se justifica porque, en general, los recursos
ontologicos o tesauros en el marco de un dominio especfico conceptualizan u
nicamente la terminologa especfica del dominio, dejando sin
conceptualizar el resto de la terminologa. Para solventar este problema,
el recurso WordNet es utilizado para extraer la informacion conceptual
91
92
4. La forma l
ogico-conceptual
del resto de las unidades lexicas no conceptualizadas por el recurso especfico del dominio restringido. Si se utiliza un recurso especfico del
dominio y otro recurso del dominio abierto en el tratamiento logicoconceptual del texto en el ambito de un dominio restringido, el recurso
especfico del dominio restringido debe ser predominante sobre el recurso del dominio abierto. Esto se justifica porque si un predicado de
la forma logica puede ser conceptualizado en ambos recursos, la conceptualizacion realizada por el recurso especfico del dominio le dara al
predicado una semantica mas cercana al propio dominio restringido que
la conceptualizacion realizada por el recurso del dominio abierto, que
le dara una conceptualizacion mas generica.
Una vez realizadas estas consideraciones, a continuacion se detalla el
tratamiento logico-conceptual de la forma logica tomando como referencia el dominio medico.
La forma l
ogico-conceptual en el dominio m
edico. Se ha comentado que, en el dominio abierto, se dispone de WordNet como un recurso
capaz de extraer informacion conceptual sobre determinadas palabras
del texto atendiendo a su categora sintactica. Ademas, en el dominio medico, existen distintos recursos que aportan conocimiento de la
terminologa medica. El mas extendido es UMLS (Unified Medical Language System) (Humphreys & Lindberg, 1993), presentado al inicio del
captulo. De las tres fuentes de conocimiento de las que consta UMLS
(Metatesauro, Lexicon Especializado y Red Semantica), la que mejor
se adapta a la necesidad de extraccion de los conceptos asociados a los
predicados de la forma logica es el Metateusauro, que sera el que se
utilizara.
Cuando se emplea la forma logica para representar formalmente los
textos en el ambito del dominio medico, la terminologa susceptible de
ser concepto se corresponde con los predicados asociados tanto a los
sustantivos como a los nominales complejos acompa
nados de sus posibles adjetivos modificadores, as como a los predicados asociados a los
verbos. Ademas, los adverbios y los adjetivos pueden ser tratados conceptualmente a traves de WordNet.
De este modo y dada la forma logica de la frase, se buscara en el metatesauro de UMLS la informacion conceptual de los lemas de aquellos
predicados de la forma logica cuya categora sintactica se corresponda
con sustantivo o nominal complejo, incluyendo sus posibles adjetivos
modificadores, y verbo. Seguidamente, se buscara en WordNet la informacion conceptual asociada a los predicados del tipo anterior que no
han sido conceptualizados en el Metatesauro de UMLS, y la informacion conceptual asociada a los predicados del tipo adverbio y adjetivo.

ogica
93
Una vez que la informacion conceptual de estos predicados ha sido obtenida, tanto del metatesauro de UMLS como de WordNet, el siguiente
paso consiste en derivar todas las formas logico-conceptuales tal y como se ha explicado en la seccion anterior. Finalmente, la representacion
semantica de la frase se calculara a partir de la desambiguacion de las
formas logico-conceptuales derivadas tal y como se matiza tambien en
la seccion previa del captulo.
Con el proposito de simplificar este proceso, a continuacion, el ejemplo
44 detalla claramente el proceso de transformacion de una forma logica
en una o mas formas logico-conceptuales en el dominio medico.
(44) Frase: Accupril treats high blood pressure.

Forma L
ogica: accupril:NN(x1) treat:VB(e1, x1, x2)
high:JJ(x2) blood:NN(x3) blood pressure:NNC(x2,
x3, x4) pressure:NN(x4)
Predicados Conceptualizados: 4 La tabla 4.7 detalla la conceptualizacion de predicados de la anterior
forma logica.
Formas L
ogico-Conceptuales: Atendiendo a la metodologa especificada en la seccion previa del captulo, se derivan 480 formas logico-conceptuales fruto
de la combinacion de los conceptos asociados a
cada predicado (2 4 1 3 5 4).
Cabe destacar que el predicado blood pressure:NNC(x2, x3, x4) como tal, tiene cuatro conceptos asociados que son: Blood Pressure,
Blood pressure determination, Blood pressure finding y Systemic arterial pressure.
Ademas, dicho predicado tiene un predicado del tipo adjetivo (high:JJ(x2))
que lo modifica y, tal y como se ha comentado, este predicado interviene tambien, junto con el nominal complejo, en la identificacion de
conceptos del nominal complejo. Es por ello por lo que a la combinacion
de estos dos predicados se les asocia el concepto Hypertensive disease.
Ademas, la tabla 4.8 detalla la codificacion de los tipos semanticos de
UMLS asociados a los predicados conceptualizados.
on sem
antica de la frase en los dominios
restringidos
En el ambito de los dominios restringidos, igual que sucede en el dominio abierto, a pesar de que una oracion puede tener diversas formas
4
Por simplificar el ejemplo, se considera que seg

un WordNet, el predicado del tipo adjetivo
high:NN(x2) tiene asociado u
nicamente el concepto high#1(01210854), descartando el resto de
conceptos del adjetivo.
94
4. La forma l
ogico-conceptual
Predicado
accupril:NN(x1)
treat:VB(e1, x1, x2)
blood:NN(x3)
pressure:NN(x4)
blood pressure:NNC(x2, x3, x4)
Concepto
Accupril
Received therapy or drug for
Treated with
Treating
Treatment intent
Blood
In Blood
Bloods
Pressure-physical agent
Baresthesia
Pressure(finding)
Pressure-action
Blood Pressure
Blood pressure determination
Blood pressure finding
Systemic arterial pressure
Hypertensive disease
C0244580(T109, T121)
C0332154(T169)
C0332293(T061)
C1522326(T169)
C1292734(T169)
C0005767(T024)
C0005768(T031)
C0392895(T098)
C0033095(T067)
C0234222(T042)
C0460139(T033)
C1306345(T169)
C0005823(T040)
C0005824(T060)
C1271104(T033)
C1272641(T033)
C0020538(T047)
Tabla 4.7. Conceptos de UMLS asociados a los predicados de la forma l

ogica
Identificador
T024
T031
T033
T040
T042
T047
T060
T061
T067
T098
T109
T121
T169
Tipo Sem
antico
Tissue
Body Substance
Finding
Organism Function
Organ or Tissue Function
Disease or Syndrome
Diagnostic Procedure
Therapeutic or Preventive Procedure
Phenomenon or Process
Population Group
Organic Chemical
Pharmacologic Substance
Functional Concept
Tabla 4.8. Tipos sem

anticos en UMLS asociados a los predicados conceptualizados
logico-conceptuales, u
nicamente debe tener una representacion semantica. Esta representacion semantica se asociara con una u
nica forma
logico-conceptual de las asociadas a la oracion, fruto del proceso de
desambiguacion entre todas las formas logico-conceptuales derivadas.
Del mismo modo en el que se ha explicado anteriormente el tratamiento de las formas logico-conceptuales, tanto a nivel general como en el
ambito del dominio abierto, se detalla a continuacion la representacion
semantica de la frase para el dominio medico.
La representaci
on sem
antica de la frase en el dominio m
edico.
Atendiendo a las especificaciones del tratamiento logico-conceptual matizadas a lo largo del captulo y, dado el anterior ejemplo 44, el cuadro
4.4 La independencia de la lengua de la forma l

ogica
95
45 detalla la representacion semantica de la frase definida en el ambito

del dominio medico.
(45) Frase: Accupril treats high blood pressure.

Predicados Multiconceptualizados Desambiguados:
La tabla 4.9 detalla la desambiguacion de los predicados multiconceptualizados en la anterior forma
logica.
Representaci
on sem
antica: C0244580(T109, T121):accupril:NN(x1)
C0332154(T169):treat:VB(e1, x1, x2) 01210854:high:JJ(x2)
C0005767(T024):blood:NN(x3) C0020538(T047):blood pressure:NNC(x2,
x3, x4) C0033095(T067):pressure:NN(x4)
Predicado
treat:VB(e1, x1, x2)
blood:NN(x3)
blood pressure:NNC(x2, x3, x4)
pressure:NN(x4)
Concepto Desambiguado
Received therapy or drug for
Blood
Hypertensive disease
Pressure-physical agent
C0332154(T169)
C0005767(T024)
C0020538(T047)
C0033095(T067)
Tabla 4.9. Predicados multiconceptualizados desambiguados de la forma l

ogico-conceptual en el
dominio medico
En la actual seccion se han matizado las especificaciones que permiten

que el tratamiento logico-conceptual sea independiente del dominio. La
siguiente seccion del captulo hace lo propio desde el punto de vista de
la independencia de la lengua.
4.4 La independencia de la lengua de la forma

l
ogica
El hecho de hablar de independencia de la lengua significa que el tratamiento logico-conceptual detallado en el captulo se le puede aplicar a
cualquier oracion con el objeto de obtener su representacion semantica,
independientemente de la lengua en la que este expresada dicha oracion.
Ademas, en el marco de la independencia de la lengua, nos estamos refiriendo tambien al tratamiento que permite obtener representaciones
semanticas equivalentes de una misma oracion expresada en diferentes lenguas. Por ejemplo, supongase una misma oracion expresada en
la lengua A y en la lengua B. La representacion semantica de la frase expresada en la lengua A debe ser equivalente a la representacion
semantica de la frase expresada en la lengua B. A continuacion se especifica el tratamiento logico-conceptual que permite adquirir el grado
96
4. La forma l
ogico-conceptual
de independencia de la lengua alcanzado en esta investigacion.

Seg
un a la conclusion planteada con anterioridad en el captulo a la que
llegan Dubuc y Lauriston (1997) en su investigacion previa, de la misma forma, en terminografa biling
ue el establecimiento de equivalencias
en ambas lenguas se realiza a traves de la representacion conceptual,
de manera que la equivalencia no es entre los terminos sino entre los
conceptos designados por dichos terminos.
Esta conclusion a la que llegan Dubuc y Lauriston justifica la necesidad
de un recurso en el que por un lado, la terminologa este conceptualizada
y, por otro lado, exista una conexion entre los terminos de las diferentes
lenguas a traves de los conceptos. Ello quiere decir que para conseguir
un tratamiento logico-conceptual independiente de la lengua, la terminologa perteneciente a las lenguas a tratar debe estar conceptualizada
en alg
un recurso del tipo ontologico o tesauro del modo que exista una
conexion conceptual entre la terminologa de las diferentes lenguas. Por
ejemplo, si las lenguas a relacionar son el ingles y el espa
nol, debe haber
alg
un recurso de este tipo que permita establecer que los terminos run
y correr conceptualmente reflejan lo mismo.
Es sabido que las lenguas mas extendidas en el mundo son la lengua
inglesa, el chino y la lengua arabe. No es necesario dar cifras para afirmar que en un universo con formas globales de comunicacion, donde ya
existe una tradicion de uso del ingles, acompa
nada de una realidad de
poder en todos los niveles sustentada en ese idioma, el ingles es la lengua franca de nuestra epoca; mucho mas cuando en ingles se crea y se
bautiza la ciencia. Se trata de la primera lengua de intercambio com
un.
Su expansion esta asegurada se mire desde la optica que se mire. Debido
a ello, la lengua inglesa dispone de multitud de recursos frente a otras
lenguas. Prueba de ello es, por ejemplo, el recurso WordNet. La u
ltima
version del WordNet en lengua inglesa es la 2.1, mientras que la u
ltima
version en otras lenguas son anteriores a ella. Por ejemplo, la u
ltima
version de WordNet para la lengua espa
nola es la 1.5.
Debido a la extension y a la riqueza de recursos disponibles en la lengua
inglesa frente al resto de lenguas, para comparar que n representaciones
semanticas de una misma oracion en n lenguas diferentes (una representacion semantica por cada lengua) son equivalentes, cada una de las
representaciones semanticas sera transformada de su lengua origen a
la lengua inglesa, siempre que la lengua origen no sea la lengua inglesa,
en cuyo caso, no sera necesario el proceso de transformacion.
En un proceso de transformacion entre una lengua origen y la lengua
inglesa, aparte de la traduccion entre los terminos, otras consideraciones

ogica
deben ser tenidas en cuenta como, por ejemplo, el orden de las palabras
en la frase. Cabe pensar en la expresion en la lengua espa
nola el coche
rojo. Su traduccion a la lengua inglesa viene dada por la expresion
the red car. Aparte de la traduccion de los diferentes terminos, en
la expresion dada en la lengua espa
nola, el adjetivo sucede al nombre;
mientras que en la expresion dada en la lengua inglesa, el adjetivo precede al nombre. Este tipo de alteraciones sintacticas producidas en el
proceso de traduccion de una lengua original a la lengua inglesa viene
especificado en las gramaticas contrastivas entre la lengua original y
la lengua inglesa. Una gramatica contrastiva es aquella que estudia la
relacion y posicion que ocupan dos lenguas. Normalmente se estudia
entre lenguas de un mismo origen. Algunos gramaticos clasifican como
contrastivas al estudio de dos lenguas que no comparten origen. Es por
ello por lo que para tratar de conservar la maxima naturalidad en la
transformacion de la representacion semantica de la frase de una lengua
original a la lengua inglesa, el tratamiento logico-conceptual se hace eco
de las reglas especificadas en las gramaticas contrastivas entre la lengua
original y la lengua inglesa.
Una vez realizadas estas consideraciones, la transformacion de la representacion semantica obtenida en la lengua origen a su representacion
semantica equivalente en la lengua inglesa se lleva a cabo del siguiente
modo:
La traduccion de los predicados conceptualizados se realiza seg
un la
conexion existente en el recurso multiling
ue entre la lengua origen y la
lengua inglesa a traves de los conceptos. Si esta conexion conceptual
no existe, la traduccion se realiza utilizando un diccionario biling
ue
entre la lengua origen y la lengua inglesa.
Aquellos predicados que no son conceptualizados en el recurso multiling
ue, son traducidos utilizando un diccionario biling
ue entre la
lengua origen y la lengua inglesa.
Una vez que ya ha sido materializada la traduccion de los predicados
de la representacion semantica de la lengua origen a la lengua inglesa,
el siguiente paso consiste en aplicar las reglas contrastivas entre la
lengua origen y la lengua inglesa que derivan en una posible alteracion de la secuencia de predicados de la representacion semantica para
adaptar tal representacion semantica a la lengua inglesa. Las reglas
contrastivas que se deben aplicar sobre la estructura de predicados
de la representacion semantica depende de cada lengua origen. Ello
se justifica porque cada lengua tiene sus propias reglas gramaticales,
y la lengua inglesa tiene tambien las suyas propias. Por ejemplo, las
reglas contrastivas entre la lengua espa
nola y la lengua inglesa son di-
97
98
4. La forma l
ogico-conceptual
ferentes a las reglas contrastivas entre la lengua alemana y la lengua

inglesa.
Debido a la extension y complejidad que supone establecer el conjunto
de reglas contrastivas en las diferentes lenguas, a partir de ahora y hasta
el final del captulo haremos enfasis en las reglas contrastivas entre la
lengua espa
nola y la lengua inglesa. Ello no significa que el tratamiento
logico-conceptual solo sea posible llevarlo a cabo en estas dos lenguas.
El tratamiento logico-conceptual es independiente de la lengua. Como
se ha matizado en esta seccion, lo u
nico dependiente de la lengua es la
utilizacion de recursos conceptuales biling
ues entre las lenguas origen y
la lengua inglesa, los diccionarios biling
ues entre las lenguas origen y la
lengua inglesa, y las reglas contrastivas a aplicar sobre los predicados
de las representaciones semanticas entre las propias lenguas origen y la
lengua inglesa. Una vez que se dispone de todo ello, la representacion
formal del texto basada en el tratamiento logico-conceptual es independiente de la lengua.
El subconjunto de reglas contrastivas entre la lengua espa
nola y la lengua inglesa aplicadas sobre los predicados de la representacion semantica de la frase en espa
nol se basa en las reglas contrastivas derivadas
previamente a raz de los estudios en este tema realizados por los investigadores Fernandez et al. (2003) and Martinez-Vazquez (1996). Concretamente, el subconjunto de reglas contrastivas aplicadas sobre los
predicados de la representacion semantica viene especificado en la tabla
4.10. En ella cabe destacar que la regla n
umero cuatro es recursiva porque, seg
un se ha matizado en el captulo anterior, un nominal complejo
(NNC) puede derivar a otros de manera recursiva. Las reglas en las que
intervienen predicados del tipo sustantivo (NN) se aplican siempre que
dicho predicados se correspondan con nombres comunes, nunca nombres
propios. Ademas, en la regla n
umero 1, el predicado del tipo sustantivo
(NN) no podra ir nunca precedido por ning
un otro predicado del mismo
tipo.
Id. Regla
1
2
3
4
5
Estructura Espa~
nola
NN + JJ
JJ1 + NN + JJ2
N N1 + N N 2
NNC + de- NN
N N1 + JJ + de- N N2
Estructura Inglesa
Traducci
on(JJ) + Traducci
on(NN)
Traducci
on(JJ1 ) + Traducci
on(JJ2 ) + Traducci
on(NN)
Traducci
on(N N2 ) + Traducci
on(N N1 )
Traducci
on(NN) + Traducci
on(NNC)
Traducci
on(JJ) + Traducci
on(N N2 ) + Traducci
on(N N1 )
Tabla 4.10. Reglas contrastivas aplicadas entre la lenguas espa

nola e inglesa

ogica
Como ejemplo de aplicacion de las reglas contrastivas especificadas en

la tabla 4.10, en la tabla 4.11 se especifican las traducciones finales de
bajo nivel (aplicadas directamente a los terminos) fruto de la aplicacion
de cada una de estas reglas.
Id. Regla
1
2
3
4
5
Expresi
on Espa~
nola
coche rojo
bonitos ojos verdes
coche electrico
oficina de billetes de estaci
on de tren
modelo m
ultiple de regresi
on
Traducci
on Inglesa
red car
beautiful green eyes
electric car
train station ticket office
multiple regression model
Tabla 4.11. Ejemplos de aplicaci

on de las reglas contrastivas
Se acaban de introducir las propiedades referentes a la independencia de

la lengua en el marco del tratamiento logico-conceptual. A continuacion
se matiza este tratamiento desde el punto de vista tanto del dominio
abierto como del dominio restringido.
4.4.1 La independencia de la lengua de la forma l
ogica en el
dominio abierto
A lo largo del capitulo se detalla que cuando se procesa el texto en dominio abierto, partiendo del recurso WordNet es posible asociar conceptos
de este recurso con los lemas de determinados predicados (sustantivos,
adjetivos, verbos, adverbios y nominales complejos).
En relacion a la forma logica, cuando el lema de un predicado del tipo
sustantivo, adjetivo, adverbio, verbo o nominal compuesto tiene alg
un
concepto asociado en WordNet, lo que se hace es buscar las relaciones
de ese concepto a traves del ILI en las diferentes lenguas. Como ejemplo,
la figura 4.1 muestra las relaciones existentes entre la lengua inglesa y
la lengua espa
nola del lema prohibition. En este ejemplo, el sustantivo
prohibition tiene cuatro entradas en el WordNet ingles, dos de las cuales (la segunda y la cuarta) estan relacionadas con synsets del WordNet
espa
nol a traves del ILI. Los synsets del ejemplo estan ordenados de
mayor a menor frecuencia de aparicion.
De este modo, es decir, mediante la exploracion de los synsets de
las lenguas origen y destino, el concepto asociado al predicado logicoconceptual puede ser traducido, en el caso de que exista conexion entre
los synsets de las lenguas origen y la lengua inglesa. Para ello, si los synsets de ambas lenguas estan conectados a traves del ILI, la traduccion
del predicado logico-conceptual se llevara a cabo del siguiente modo:
99
100
4. La forma l
ogico-conceptual
El identificador del concepto asociado al lema del predicado se correspondera con el synset de WordNet en la lengua inglesa relacionado a
traves del ILI.
Los restantes constituyentes del predicado logico-conceptual, es decir,
tanto el lema como su categora, no seran traducidos.
Figura 4.1. Enlaces al lema prohibition
Una vez que se han traducido los predicados que tienen una relacion a
traves del ILI, el siguiente paso es traducir el resto de predicados utilizando para ello diccionarios que integren las lenguas implicadas en la
traduccion. Los predicados que, a pesar de quedar conceptualizados en
la lengua origen, no estan relacionados con ning
un synset de la lengua
inglesa a traves del ILI, no quedaran conceptualizados en la representacion semantica transformada, debido a que su traduccion se realiza a
traves del empleo de diccionarios, y no a traves de la relacion entre los
conceptos entre las diferentes lenguas.
Como ejemplo, para una traduccion espa
nol-ingles de los predicados de
la forma logica que no estan conceptualizados en WordNet o, que a pesar de estarlo, no estan enlazados en el ILI, se utilizan dos diccionarios:
Free Translation y Babylon 5 . El proceso de traduccion queda especificado a traves del siguiente algoritmo:
5
http://www.freetranslation.com y http://www.babylon.com

ogica
101
Algoritmo: Traducci
on del lema del predicado a partir de FT y WR
Entrada: lema
Salida: lema traducido
trad FT := traduce en FT(predicado.lema)
trad WR := traduce en WR(predicado.lema)
si (trad WR == NULL)
lema traducido := trad FT
sino
si (trad WR.contiene(trad FT))
lema traducido := trad FT
sino
lema traducido := trad WR.obten traduccion en(1)
fsi
fsi
devuelve lema traducido
fAlgoritmo
El funcionamiento del algoritmo es el siguiente:
Se busca el lema del predicado en Free Translation. Este diccionario
devuelve una palabra o una expresion, sin entrar en detalles del tipo
categora gramatical de la palabra o expresion devuelta, ejemplos de
utilizacion en frases, etc.
Se busca el lema del predicado en Babylon. Este diccionario devuelve una lista de palabras o expresiones clasificadas seg
un su categora
gramatical.
Se produce una comparacion entre la palabras o expresiones devueltas
por Free Translation y la lista de palabras o expresiones clasificadas
seg
un su categora gramatical devuelta por Babylon consistente en:
Si Babylon no devuelve ninguna lista de palabras o expresiones cuya
categora gramatical coincida con el tipo de predicado, entonces la
traduccion es la palabra o expresion devuelta por Free Translation.
Si la palabra o expresion devuelta por Free Translation se encuentra
en la lista de palabras o expresiones devuelta por Babylon dentro
de las clasificadas en la categora gramatical coincidente con el tipo de predicado, entonces la palabra o expresion devuelta por Free
Translation es la traduccion a ese predicado.
Si la palabra o expresion devuelta por Free Translation no se encuentra en la lista de palabras o expresiones devuelta por Babylon
102
4. La forma l
ogico-conceptual
dentro de las clasificadas en la categora gramatical coincidente con

el tipo de predicado, entonces la traduccion es la primera palabra o
expresion devuelta por Babylon seg
un la categora gramatical asociada al tipo de predicado.
Con el proposito de clarificar este proceso, el cuadro 46 muestra un
ejemplo de transformacion seg
un esta metodologa de la representacion
semantica de la oracion dada. En este ejemplo, con objeto de evitar la
redundancia, se ha omitido el paso de derivacion de las formas logicoconceptuales, pasando directamente de la forma logica a la representacion semantica de la oracion.
(46) Frase: Usted puede proceder al banco cerca de la esquina.
Arbol
de dependencias: La figura 4.2 muestra el arbol
de relaciones de dependencia entre las palabras de
la oracion.
Forma l
ogica: usted:NN(x1) proceder:VB(e1, x1, x2)
a:IN(e1, x3) banco:NN(x3) cerca de:IN(x3, x4) esquina:NN(x4)
Representaci
on sem
antica: 6 usted:NN(x1) 01360914:proceder:VB(e1, x1, x2) a:IN(e1, x3) 06227059:banco:NN(x3) cerca de:IN(x3, x4) 02501820:esquina:NN(x4)
Traducci
on de predicados: La tabla 4.12 detalla la
traduccion realizada sobre los predicados de la representacion semantica, y la tabla 4.13 detalla los
conceptos en la version inglesa de WordNet que
han sido traducidos a traves del ILI.
Representaci
on sem
antica transformada: you:NN(x1)
01360914:proceder:VB(e1, x1, x2) to:IN(e1, x3)
06227059:banco:NN(x3) near:IN(x3, x4) 02501820:esquina:NN(x4)
Se acaba de detallar el tratamiento independiente de la lengua de las
formas logico-conceptuales en el dominio abierto. A continuacion se va
a proceder a especificar el tratamiento independiente de la lengua de
las formas logico-conceptuales en el dominio restringido, tomando como
marco de referencia el dominio medico.
6
Los identificadores de los conceptos (c

odigos de synsets) han sido extrados utilizando la versi
on
1.6 de WordNet

ogica
103
puede
subj
usted
obj
proceder
loc
obj
banco
pm
cerca
mod
det
el
esquina
pm
de
det
la
Figura 4.2. Arbol

de relaciones de dependencia entre las palabras de la frase.
Predicado
usted:NN(x1)
01360914:proceder:VB(e1, x1, x2)
a:IN(e1, x3)
06227059:banco:NN(x3)
cerca de:IN(x3, x4)
02501820:esquina:NN(x4)
Traducci
on
you:NN(x1)
01360914:proceder:VB(e1, x1, x2)
to:IN(e1, x3)
06227059:banco:NN(x3)
near:IN(x3, x4)
02501820:esquina:NN(x4)
Recurso
Diccionario
ILI
Diccionario
ILI
Diccionario
ILI
Tabla 4.12. Traducci

on al espa
nol de los predicados de la forma l
ogica
Identificador
01360914
06227059
02501820
Conceptos del synset

proceed#2, go forward#1, continue#4
depository financial institution#1, bank#1, banking concern#1, banking company#1
corner#4, street corner#1, turning point#2
Tabla 4.13. Conceptos de la version inglesa de Wornet 1.5 traducidos mediante el ILI
4.4.2 La independencia de la lengua de la forma l

ogica en los
dominios restringidos
Al igual que se ha comentado en el dominio abierto, para tratar la independencia de la lengua en el dominio restringido se necesita de alg
un
recurso del tipo ontologico o tesauro multiling
ue capaz de aportar la informacion conceptual asociada a los lemas de determinados predicados
de la forma logica, y ademas, que en dicho recurso multiling
ue exista
una interconexion de esos conceptos entre sus diferentes lenguas. No
obstante, para aquellos predicados de la forma logica que no esten conceptualizados en dicho recurso, al igual que se ha hecho en el dominio
abierto, se pueden utilizar recursos del dominio abierto como el ILI y,
ademas, se debe disponer de diccionarios que den soporte a la traduccion de palabras entre las lenguas a tratar. Seguidamente se matizan
los detalles para tratar la independencia de la lengua de la forma logica
104
4. La forma l
ogico-conceptual
en el dominio medico.
La independencia de la lengua de la forma l
ogica en el dominio
m
edico. Como se ha detallado al inicio del captulo, el metatesauro de
UMLS es un recurso multiling
ue. Diferentes autores han utilizado dicho
recurso para tratar los detalles referentes a la multilingualidad en sus
trabajos de investigacion tales como Tran et al. (2004) y Eichmann et al.
(1998). En el metatesauro esta recogida toda la terminologa relacionada con un concepto. Ademas esta terminologa esta disponible en todas
las lenguas tratadas en el recurso. Por ello, cuando se conceptualiza un
predicado a partir del metatesauro, implcitamente se esta traduciendo
dicho predicado (debido a que toda la terminologa multiling
ue asociada a cada concepto esta bajo el ambito del concepto). Para realizar la
traduccion del resto de los predicados de la representacion semantica
que no son conceptualizados en el metatesauro, se sigue el mismo proceso recientemente especificado para el dominio abierto.
Con el proposito hacer mas claro este proceso de transformacion, el
cuadro 47 muestra un ejemplo de transformacion seg
un este metodo de
la representacion semantica de la oracion dada. En este ejemplo, con
objeto de evitar la redundancia, se ha omitido tanto el paso de derivacion del arbol de analisis de dependencias entre las palabras de la frase,
como el paso de inferencia de las formas logico-conceptuales.
(47) Frase: Acupril trata la tension arterial alta.

Forma l
ogica: acupril:NN(x1) tratar:VB(e1, x1, x2)
tension:NN(x3) tension arterial:NNC(x2, x3, x4)
arterial:NN(x4) alta:JJ(x2)
Representaci
on sem
antica: C0244580(T109, T121):acupril:NN(x1)
C0332154(T169):tratar:VB(e1, x1, x2) C0033095(T067):tension:NN(x3)
C0020538(T047):tension arterial:NNC(x2, x3, x4)
C0005767(T024):arterial:NN(x4) 01159358:alta:JJ(x2)
Traducci
on de predicados: El unico predicado traducido es a traves del ILI, quedando del modo
01159358:alta:JJ(x4).
Representaci
on sem
antica transformada: C0244580(T109,
T121):acupril:NN(x1) C0332154(T169):tratar:VB(e1,
x1, x2) C0033095(T067):tension:NN(x3) C0020538(T047):tension arterial:NNC(x2,
x3, x4) C0005767(T024):arterial:NN(x4) 01159358:alta:JJ(x2)
4.5 Conclusiones
4.5 Conclusiones
En los u
ltimos a
nos, se esta implantando una clara tendencia enfocada
a que los sistemas mas comunes del PLN sean capaces de afrontar los retos referentes, por un lado, a manejar textos tanto en dominios abiertos
como en dominios restringidos y, por otro lado, a considerar los detalles
referentes a la independencia de la lengua. Para afrontar estos retos, los
sistemas de PLN deben disponer de un mecanismo de representacion
formal del texto que sea tanto independiente del dominio como de la
lengua.
La forma logica presentada en este trabajo de investigacion, por definicion, es capaz de dotar a los sistemas de PLN de una representacion del
conocimiento logico de primer orden de oraciones expresadas mediante
lenguaje natural.
En el captulo se muestra que el concepto es la unidad basica de representacion del conocimiento. Tambien se muestra que, en terminografa
biling
ue el establecimiento de equivalencias en ambas lenguas se realiza
a traves de la representacion conceptual, de manera que la equivalencia
no es entre los terminos sino entre los conceptos designados por dichos
terminos. Luego, para obtener una representacion formal del texto que
considere los aspectos referentes tanto a la independencia del dominio
como de la lengua, se debe hacer uso de recursos ontologicos y tesauros
que permitan identificar la informacion conceptual asociada a la terminologa presente en el texto.
En la forma logica, las palabras con sentido del texto (sus lemas) quedan
representadas mediante predicados relacionados. Cuando se dispone de
alg
un recurso del tipo ontologico o tesauro, la forma logica es capaz
de adquirir la informacion conceptual asociada a algunos de sus predicados, en concreto aquellos predicados que quedan conceptualizados
en dicho recurso. Con ello y, partiendo de la forma logica, se derivan
una serie de formas logico-conceptuales, que integran la informacion
conceptual asociada a los predicados conceptualizados. El n
umero de
formas logico-conceptuales derivadas viene determinado por el producto cartesiano todos con todos de las conceptualizaciones de todos los
predicados conceptualizados de la forma logica. Cada oracion tiene una
u
nica representacion semantica que la identifica. Para ello es necesario
un proceso de desambiguacion que permita identificar la forma logicoconceptual de entre todas las formas logico-conceptuales derivadas en
la que el concepto asociado a cada predicado es el mas adecuado seg
un
el contexto de la oracion. Esta forma logico-conceptual desambiguada
se correspondera con la representacion semantica de la frase.
105
106
4. La forma l
ogico-conceptual
Los requisitos que se deben cumplir para poder tener una representacion formal del texto independiente del dominio y de la lengua seg
un el
tratamiento logico-conceptual son: a) disponer de un recurso conceptual
en el que quede conceptualizada la terminologa presente en el texto; b)
que exista una conexion multiling
ue de la terminologa conceptualizada
en las diferentes lenguas a traves del recurso; c) que los recursos del
dominio restringido, de manera opcional, categoricen semanticamente
los conceptos del recurso.
En funcion del dominio del texto, bien sea dominio abierto o alg
un
dominio restringido, la forma logica utilizara un determinado recurso
ontologico o tesauro del dominio (o mas de uno) para extraer la informacion conceptual asociada a los predicados. La utilizacion del recurso
en el ambito del dominio en que se enmarquen los textos a procesar
es la u
nica caracterstica que depende del dominio en el tratamiento
logico-conceptual. El resto del tratamiento es totalmente independiente del dominio, es decir, cualquier texto bajo cualquier dominio puede
ser representado formalmente mediante la forma logica, siempre que se
re
unan los requisitos mencionados en el anterior parrafo. Cuando se trabaja con texto en el dominio abierto, el recurso utilizado para aportar la
informacion conceptual a la forma logica es WordNet. En cambio, cuando se trabaja en un dominio restringido, se recurre a recursos dependientes del dominio restringido que aportan la informacion conceptual
en el mencionado dominio restringido. Ademas, independientemente de
los recursos disponibles en el dominio restringido, siempre se puede hacer uso del recurso WordNet de dominio abierto, con el proposito de
aportar tambien informacion conceptual. Para el ejemplo de representacion formal de textos en el dominio medico, la forma logica hace uso
del metatesauro de UMLS que aporta informacion conceptual en el dominio restringido, y de WordNet.
Del mismo modo que sucede con la independencia del dominio, cuando
se quiere obtener una representacion formal del texto que sea independiente de la lengua, los mencionados recursos ontologicos o tesauros
deben ser multiling
ues. Ademas se debe hacer uso de diccionarios que
traten la interconexion de las lenguas tratadas. En este sentido, y para
tratar la representacion de las lenguas inglesa y espa
nola vista en los
ejemplos, WordNet a traves del ILI de EuroWordNet, el metatesauro
multiling
ue de UMLS, y los diccionarios Free Translation y Babylon
han sido introducidos.
La utilizacion que la forma logica hace de estos recursos permite el tratamiento de la independencia del dominio y de la lengua a traves del
tratamiento logico-conceptual. Es por ello por lo que el recurso logico-
4.5 Conclusiones
conceptual desarrollado en este trabajo de investigacion es tanto independiente del dominio como independiente de la lengua.
107
5. Evaluaci
on del recurso l
ogico-conceptual
para la representaci
on formal del texto
La evaluacion de cualquier sistema o recurso de PLN requiere del estudio y/o analisis de los siguientes conceptos:
Eficacia: este concepto mide la capacidad que tiene el sistema o el
recurso para lograr sus objetivos.
Eficiencia: este concepto indica la cantidad de recursos que necesita
el sistema o el recurso para lograr sus objetivos.
A lo largo del captulo se destaca que la mayora de evaluaciones que se
proponen para indicar lo bueno o lo malos que son los sistemas o recursos del PLN solo tienen en cuenta el concepto de eficacia, siendo una
peque
na minora las que consideran tambien el concepto de eficiencia.
No conviene perder de vista que, ante dos sistemas o recursos de PLN
diferentes cuyos niveles de eficacia son muy parejos, siempre sera mejor
el que menor n
umero de recursos necesite para alcanzar los objetivos,
esto es, el mas eficiente. Es por ello por lo que, a la hora de evaluar lo
bueno o lo malo que es el recurso desarrollado, se hara siempre desde
estos dos conceptos: la eficacia y la eficiencia.
Corcho y Gomez-Perez et al. (2001) plantean una forma de evaluar los
recursos de representacion del conocimiento a partir de la definicion
de un marco de evaluacion en el que queden integrados los componentes principales que constituyen el recurso de representacion del conocimiento a evaluar. Una vez definido este marco, la evaluacion global
del recurso se estructura en evaluaciones parciales que, tanto de manera
individual como de un modo colectivo, indican la validez de cada uno
de estos componentes as como la validez global del recurso de representacion del conocimiento.
Tal y como se comenta a lo largo de los sucesivos captulos del trabajo
de investigacion, el recurso desarrollado consiste en un mecanismo de
representacion formal del texto basado en formas logicas cuyos componentes o caractersticas fundamentales son: ser precisa, conceptualmente
completa, independiente del dominio e independiente de la lengua. El
recurso de representacion formal del texto desarrollado puede ser usado
110
5. Evaluaci
on del recurso l
on formal del texto
por cualquier sistema de PLN para el desempe

no de sus funciones.
Tomando como referencia el metodo de evaluacion propuesto por Corcho y Gomez-Perez et al. (2001) y, considerando las caractersticas principales del propio recurso, los matices que debe contemplar la evaluacion
global del recurso son:
Precision: La evaluacion debe reflejar los aspectos referentes a la cantidad de constituyentes que componen la representacion. Esto es, se
eval
ua que la representacion tenga el suficiente detalle para identificar
formalmente el texto asociado y que deje de lado los detalles superfluos, irrelevantes y redundantes de las oraciones asociadas.
Completitud conceptual: La evaluacion debe plasmar las particularidades referidas a la completitud conceptual y a la no ambig
uedad de la
representacion. Esto es, la incorporacion de la informacion semantica
referida a los conceptos de las palabras representadas en las oraciones debe quedar reflejada en la representacion formal de cada oracion
y, ademas, esta informacion conceptual debe ser no ambigua, con el
proposito de no introducir ambig
uedad en la representacion.
Independencia del dominio: La evaluacion debe contemplar los detalles referentes al comportamiento del recurso tanto en el dominio
abierto como en cualquier dominio restringido. Esto es, la portabilidad del recurso, el mantenimiento de sus propiedades pese al proceso
de migracion de un dominio a otro y el apoyo que pueda proporcionar
al proceso de portabilidad de la herramienta en la que se esta implantando.
Independencia de la lengua: La evaluacion debe plasmar tambien los
aspectos referentes al comportamiento del recurso en cualquier lengua. Esto es, la portabilidad del recurso, el mantenimiento de sus
propiedades pese al proceso de migracion de una lengua a otra y el
apoyo que pueda proporcionar al proceso de portabilidad de la herramienta en la que se esta implantando.
Sin embargo, estudios iniciales realizados durante la ejecucion de este
trabajo determinaron que era practicamente imposible encontrar una
u
nica tarea de evaluacion que tenga en cuenta a la vez todo este tipo
de matices. Es por ello, por lo que la evaluacion practicada al recurso
debe ser llevada a cabo a traves de diferentes tareas de evaluacion que,
en su conjunto, engloben todos los matices detallados.
Como se viene detallando en el transcurso de este trabajo de investigacion, el recurso desarrollado puede ser integrado en cualquier sistema
5.1 An
alisis y determinaci
on de las tareas de evaluaci
on
de PLN con el proposito de brindar al sistema la representacion formal

del texto que debe procesar. Por ello, la utilidad o validez que la incorporacion del recurso ejerce en el sistema de PLN puede ser evaluada de
manera global en el marco de la tarea o tareas estandares de evaluacion
del sistema de PLN.
Una vez tenidas en cuenta todas estas consideraciones, el siguiente paso
consiste en analizar y determinar las diferentes tareas de evaluacion que
tengan en cuenta estos matices.
5.1 An
alisis y determinaci
on de las tareas de
evaluaci
on
Existen diferentes campa
nas internacionales de evaluacion donde los sistemas mas comunes del PLN pueden ser evaluados, tales como TREC,
CLEF, SENSEVAL, PASCAL RTE, etc. Basicamente, el objetivo fundamental de todas estas campa
nas se centra en definir tareas estandares
de evaluacion aplicadas a los diferentes sistemas de PLN que permitan
cuantificar la validez de estos sistemas y establecer una comparacion
referente al funcionamiento entre los diferentes sistemas participantes a
la vez que promueven las lneas de investigacion sobre dichos recursos
y herramientas.
Por otra parte, al inicio del captulo se justifica que los propositos fundamentales de la evaluacion del recurso desarrollado en la investigacion
deben considerar los cuatro matices detallados.
Con este objeto, en el proceso de analisis y determinacion de las tareas
de evaluacion, en un primer lugar, se tienen en cuenta las campa
nas
internacionales de evaluacion existentes cuyas tareas consideren alguno
de los matices planteados. En segundo lugar, para el resto de matices
, es necesario el dise
no de tareas de evaluacion ad-hoc. Finalmente, se
eval
ua la validez del recurso desarrollado en la investigacion en el marco
de cada una de estas tareas.
Seg
un se ha detallado en el captulo dos, existe un amplio espectro de
diferentes sistemas de PLN donde el recurso puede ser incorporado con
la finalidad de evaluar la validez que la incorporacion del recurso aporta
a cada uno de los diferentes sistemas. El llevar a cabo este proceso de
evaluacion con todo el abanico de sistemas de PLN hara interminable
el mismo. Con objeto de evitar esto, se ha escogido una muestra mas
reducida del espectro de sistemas de PLN que abarque las necesidades
de representacion formal del texto que tienen en su conjunto el amplio
espectro de sistemas de PLN. Concretamente, los sistemas de PLN en
111
112
5. Evaluaci
on del recurso l
on formal del texto
los que se va a evaluar la validez que aporta la incorporacion del recurso

son: Vinculacion o Implicacion Textual, Recuperacion de Informacion
y B
usqueda de Repuestas. A continuacion se matiza el porque de la
eleccion de esta muestra de sistemas de PLN.
La eleccion de la vinculacion o implicacion textual en esta muestra es
debido a que, como se justifica mas adelante, la vinculacion textual
resume las necesidades principales de inferencia semantica de otros sistemas del PLN como la B
usqueda de Respuestas, la Recuperacion de
Informacion, la Extraccion de Informacion y la Generacion Automatica
de Res
umenes. Estas necesidades de inferencia semantica requieren de
una representacion formal del texto. Por ello y, dado este contexto, en
la evaluacion de la Vinculacion Textual se estan evaluando tambien,
indirectamente, las necesidades de representacion formal del texto de
todo este subconjunto de sistemas de PLN.
De un modo mas complementario a lo matizado en el parrafo anterior,
la eleccion de la Recuperacion de Informacion y de la B
usqueda de Respuestas se ha efectuado porque estos dos tipos de sistemas, tanto a nivel
cuantitativo como a nivel cualitativo, han centrado uno de los mayores
esfuerzos de la u
ltima decada de las investigaciones en el area de PLN,
tal y como demuestran la multitud de proyectos de investigacion surgidos en el seno de los diferentes grupos de investigacion en el area de
PLN en esta u
ltima decada.
Mas concretamente, para la evaluacion del recurso se han seleccionado
las tareas Cross-Language Speech Retrieval (CL-SR), Answer Validation Exercise (AVE) y Multiple Language Question Answering (QACLEF), todas ellas pertenecientes a las campa
nas de evaluacion del
CLEF. Ademas, la tarea Recognising Textual Entailment (RTE) en el
marco de la campa
na de evaluacion PASCAL RTE tambien ha sido
considerada en el escenario de la evaluacion del recurso. Por u
ltimo,
tambien se efect
ua una evaluacion ad-hoc de la clasificacion de preguntas medicas seg
un la taxonoma generica planteada en el estudio
realizado por Ely et al. (2000).
En las siguientes secciones del captulo, en lo que respecta a la especificacion de cada una de las tareas de evaluacion efectuadas al recurso,
se especifica la relacion de cada una de ellas con los diferentes matices
planteados en el captulo. No obstante, la tabla 5.1 introduce la relacion
existente entre cada una de estas tareas y cada uno de los matices.
Las siguientes secciones del captulo especifican con detalle la aplicacion
de cada una de estas tareas desarrolladas en el marco de la evaluacion
del recurso presentado en el trabajo de investigacion. Finalmente se
5.2 Evaluaci
on en la tarea Cross-Language Speech Retrieval del CLEF 2005
Tareas
Matices
Precisi
on
Completitud conceptual
Ind. del dominio
Ind. de la lengua
CL-SR
AVE
QACLEF
RTE
Clasificaci
on Preguntas
X
X
113
Tabla 5.1. Relaci

on existente entre las tareas de evaluaci
on y los matices contemplados en la
evaluaci
on
muestra un analisis exhaustivo de los resultados obtenidos en cada una

de las tareas de evaluacion.
5.2 Evaluaci
on en la tarea Cross-Language Speech
Retrieval del CLEF 2005
5.2.1 Introducci
on
El objetivo de la tarea Cross-Language Speech Retrieval de la conferencia CLEF 2005 (White et al. , 2006) consiste en evaluar el rendimiento
de diferentes sistemas de PLN en tareas de Recuperacion de Documentos Transcritos. Para ello, los sistemas deben ser capaces de identificar
los segmentos de texto topicamente coherentes en entrevistas hechas en
ingles en una condicion de fronteras conocidas. Estas entrevistas fueron realizadas a supervivientes, testigos y rescatadores del Holocausto
judo. El proposito de esta tarea se resume en una Recuperacion de
Informacion sobre habla transcrita en documentos. Basicamente, cada
entrevista esta formada por unos segmentos ordenados secuencialmente que son transcritos a documentos sobre los que se aplica el proceso
de Recuperacion de Informacion. Cada documento se compone de una
serie de campos:
INTERVIEWDATA. Contiene los nombres y las fechas de nacimiento
de los entrevistados.
NAME. Contiene los nombres del resto de personas mencionadas en
la entrevista.
MANUALKEYWORD. Contiene palabras clave extradas de un tesauro. Estas palabras clave suelen referencias a sujetos, objetos y lugares mencionados en la entrevista.
SUMMARY. Contiene un resumen de tres frases de la entrevista.
114
5. Evaluaci
on del recurso l
on formal del texto
ASRTEXT2003A. Contiene la secuencia de palabras producida por

un transcriptor de habla con una elevada tasa de error.
ASRTEXT2004A. Contiene la secuencia de palabras producida por
un transcriptor de habla con una tasa de error inferior a la anterior.
AUTOKEYWORD2004A1. Contiene un conjunto de palabras clave
extradas del tesauro de modo automatico a partir de un clasificador
basado en el vecino mas cercano sobre las palabras de la transcripcion
ASRTEXT2004A.
AUTOKEYWORD2004A2. Contiene un conjunto de palabras clave
extradas del tesauro de modo automatico a partir de un clasificador
basado en el segundo vecino mas cercano sobre las palabras de la
transcripcion ASRTEXT2004A.
La tarea Cross-Language Speech Retrieval presenta diferentes medidas
de evaluacion que revelan la validez de los sistemas participantes en
dicha tarea. Concretamente, estas medidas de evaluacion son: la media
de precision no interpolada (MAP), la r-precision (Rprec), la medida
basada en la preferencia binaria (Bpref) y la precision a los N documentos recuperados (pN). A continuacion se define cada una de ellas:
La media de precision no interpolada (MAP) act
ua sobre la lista de
mil documentos que los sistemas consideran relevantes para cada topico. Esta medida, sobre la lista de documentos devuelta por los sistemas, destaca aquellos que son relevantes y penaliza aquellos que no lo
son. Por ello, la medida recompensa los sistemas que recuperan los documentos relevantes en los primeros lugares. La MAP es la media de
la precision obtenida despues que cada documento relevante es recuperado, siendo la precision la relacion entre el n
umero de documentos
relevantes recuperados y el n
umero de documentos recuperados. Para
calcularla se considera:
Cuando no se ha recuperado todava ning
un documento relevante,
la precision es 0.
Cada vez que se obtiene un documento relevante se calcula la precision.
La MAP se calcula como media aritmetica de las precisiones anteriores.
La r-precision (Rprec) calcula la precision considerando que existen
un total de r documentos relevantes para cada topico y, en consecuen-
5.2 Evaluaci
cia, se define como la precision despues de r documentos recuperados.

La medida basada en la preferencia binaria (Bpref) utiliza la informacion de los criterios de relevancia para definir la frecuencia en la
que los documentos relevantes son recuperados con anterioridad a los
documentos no relevantes.
La precision a los N documentos recuperados (pN) se define como la
relacion entre el n
umero de documentos relevantes recuperados sobre
los N primeros documentos recuperados.
Estas medidas de evaluacion son indicadores de la eficacia de los sistemas. En las siguientes subsecciones se introduce la medida que cuantifica
la validez de los sistemas desde el punto de vista de la eficiencia.
5.2.2 Motivaci
on y aportaciones esperadas
Basicamente, la resolucion de este problema se efect
ua aplicando un
sistema de Recuperacion de Informacion sobre las transcripciones de
las entrevistas donde las palabras clave en el proceso de Recuperacion
de Informacion son identificadas a partir del conjunto de palabras que
componen cada uno de los topicos.
En este tipo de problemas, donde a partir de una oracion o conjunto de
oraciones, en este caso el topico, es necesaria la estimacion de que palabras (terminos) son los mas relevantes o que mejor describen al topico,
el desarrollo de heursticas que permitan pesar los terminos en funcion de su importancia estructural y conceptual tiene especial interes,
indicandole este hecho de alg
un modo al sistema de Recuperacion de
Informacion para que sea tenido en cuenta en el propio proceso de Recuperacion de Informacion. En este trabajo, se pretende demostrar que
el uso de la forma logico-conceptual favorece la construccion de dichas
heursticas, mejorando con ello la eficacia del proceso de Recuperacion
de Informacion.
Cabe adelantar que el desarrollo de esta heurstica puede ser efectuado
a partir de otras representaciones formales del texto, no necesariamente
la forma logica. Por ello se pretende demostrar tambien que el desarrollo
de esta heurstica bajo el formalismo de la forma logico-conceptual optimiza su eficiencia frente a otros tipos de representacion formal. Luego,
se esta evaluando el matiz de precision definido al inicio del captulo.
En la siguiente subseccion se analiza la estructura del topico, se introduce el sistema de Recuperacion de Informacion utilizado en el proceso
y se detalla la heurstica y su aplicacion al sistema de Recuperacion de
Informacion.
115
116
5. Evaluaci
on del recurso l
on formal del texto
5.2.3 Desarrollo
En el marco de las tareas de evaluacion derivadas en el ambito de la Recuperacion de Informacion en las competencias CLEF, los topicos estan
compuestos de un ttulo, una descripcion y una narrativa. El ttulo contiene las palabras clave de b
usqueda y suele estar formado entre dos y
seis palabras. La descripcion es bastante similar al ttulo y describe de
manera escueta en una sola frase la accion a realizar. La narrativa detalla en mayor medida el objeto del topico y suele estar formada por
varias frases. La tabla 5.2 muestra un ejemplo de topico.
T
opico
Jewish
resistance
in Europe
Descripci
on
Provide testimonies or
describe actions of
Jewish resistance in Europe
before and during the war.
Narrativa
The relevant material should
describe actions of only- or mostly
Jewish resistance in Europe. Both
individual and group-based actions...
Tabla 5.2. Ejemplo de t

opico
Para realizar el proceso de Recuperacion de Informacion, se utiliza el

sistema estadstico de Recuperacion de Pasajes IR-n (Llopis, 2003) que,
en su fase de indexacion, asigna un peso a las palabras (terminos) presentes en la coleccion documental seg
un el modelo bag of words.
Tras hacer un peque
no analisis sobre la descripcion de los topicos, se
concluye que determinadas palabras podran ser mas relevantes que
otras en el proceso de Recuperacion de Informacion. Es por ello que
el peso de estas palabras debera sufrir un incremento moderado del
peso original asignado por el sistema IR-n en la fase de indexacion.
Concretamente, estas palabras son aquellas que en la oracion act
uan
como objeto indirecto o circunstancial. De ah que la heurstica del tipo
ling
ustico aplicada consista en hacer un analisis sobre la forma logica
de los topicos, detectando este tipo de palabras con el proposito de incrementarles su peso original en un determinado porcentaje.
A continuacion se presenta la materializacion de esta heurstica aplicando el recurso de representacion formal del texto desarrollado en la
investigacion, se analizan los resultados en terminos de eficacia que la incorporacion de esta heurstica produce en el sistema de Recuperacion de
Pasajes IR-n y, por u
ltimo, se analizan los resultados en terminos de eficiencia desde dos enfoques claramente diferenciados: el primer enfoque
consiste en analizar los resultados de eficiencia aplicando la heurstica mediante el recurso desarrollado, mientras que, el segundo enfoque
consiste en analizar los resultados en terminos de eficiencia aplicando
5.2 Evaluaci
117
la heurstica mediante otros recursos de representacion formal del texto.

Para materializar la heurstica utilizando el recurso desarrollado en la
investigacion, en la forma logica de los topicos, aquellos predicados del
tipo preposicion (IN) cuyo segundo argumento instancie, bien un objeto que cumpla un predicado del tipo sustantivo (NN) o bien un objeto
que derive en otro objeto que cumpla un predicado del tipo sustantivo,
deben propiciar un incremento porcentual en el peso de los terminos
(palabras) asociados a este tipo de predicados seg
un sus pesos originales asignados por el sistema IR-n.
Aparte de mejorar la eficacia del proceso de Recuperacion de Informacion, la aplicacion de esta heurstica tambien tiene como proposito la
determinacion de que valor porcentual de incremento del peso original
de las palabras (terminos) del topico produce, en el caso de que as sea,
la mejor optimizacion de la eficacia del proceso de Recuperacion de Informacion. Para ello, este porcentaje toma valores empricos a partir del
100 % del peso de los terminos del topico en el intervalo de un umbral
razonable de veinte puntos porcentuales con incrementos sucesivos de
un punto porcentual. En el ejemplo 48 se muestra un escenario de este
proceso donde la aplicacion de la heurstica hace que se incremente en
un valor porcentual el peso original de este tipo de terminos.
(48) T
opico: The story of Mr. Fly and the Emergency Rescue Committee who saved thousands in Marseille.
Forma l
ogica asociada: story:NN(x14) of:IN(x14, x13)
mr:NN(x10) mr fly:NNC(x11, x10, x12) fly:NN(x12)
and:CC(x13, x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6, x5, x7) rescue:NN(x8)
rescue committee:NNC(x7, x8, x9) committee:NN(x9)
who:NN(x13) save:VB(e1, x13, x2) thousand:NN(x2)
in:IN(e1, x3) marseille:NN(x3)
Predicados implicados: of:IN(x14, x13) mr:NN(x10)
mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13,
x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6,
x5, x7) rescue:NN(x8) rescue committee:NNC(x7,
x8, x9) committee:NN(x9) in:IN(e1, x3) marseille:NN(x3)
Palabras (t
erminos) implicadas: Variant, Fry, Emergency, Rescue, Committee y Marseille.
118
5. Evaluaci
on del recurso l
on formal del texto
Pesos originales y modificados: La tabla 5.3 detalla esta informacion.
T
ermino (stem)
stori
fly
emerg
rescu
committe
save
thousand
marseil
Peso inicial
1.84449
6.19484
6.47296
6.19484
4.08194
3.06725
2.33944
5.13363
Peso actualizado
1.84449
7.124066
7.443904
7.124066
4.694231
3.06725
2.33944
5.9036745
Tabla 5.3. Pesos de los terminos asignados por el sistema IR-n y su actualizaci
on seg
un la heurstica
aplicada sobre la forma l
ogica del t
opico
Con el proposito de comprobar el grado de eficacia de este tratamiento

heurstico, su aplicacion ha sido llevada a cabo en la tarea de Recuperacion de Informacion biling
ue ingles-portugues de la edicion del a
no 2004
de la competencia CLEF. Esta prueba realizada no ha sido publicada
en el marco de la competencia CLEF porque su realizacion se produjo a
posteriori, aunque para ello, el sistema de Recuperacion de Informacion
biling
ue ingles-portugues base es la version del sistema IR-n con tama
no
de pasaje normalizado que se presento en la competencia CLEF en su
edicion del a
no 2004 (Llopis et al. , 2005).
Los propositos fundamentales que tiene esta prueba son dos. Por una
parte, el primero de ellos consiste en justificar la motivacion consiguiendo una mejora de la eficacia del proceso de Recuperacion de Informacion global mediante el incremento de los pesos de algunos terminos del
topico seg
un lo especificado en la heurstica aplicada a su representacion
formal basada en la forma logica. Por otra parte, el segundo proposito
consiste en determinar que porcentaje de incremento del peso de los
terminos del topico optimiza la eficacia del proceso de Recuperacion de
Informacion.
A continuacion, la tabla 5.4 detalla la eficacia del proceso de Recuperacion de Informacion aplicando la heurstica especificada tomando un
umbral maximo de 20 puntos porcentuales con incrementos unitarios
de los pesos originales de los terminos de los topicos asignados por el
sistema IR-n.
Analizando los resultados de evaluacion obtenidos en el proceso de Recuperacion de Informacion (vease tabla 5.4) cabe concluir que, por una
5.2 Evaluaci
Peso t
erminos
Valor original
+1 %
+2 %
+3 %
+4 %
+5 %
+6 %
+7 %
+8 %
+9 %
+10 %
+11 %
+12 %
+13 %
+14 %
+15 %
+16 %
+17 %
+18 %
+19 %
+20 %
119
Precisi
on
0.2975
0.2975
0.2975
0.2976
0.2978
0.2979
0.2981
0.2983
0.2987
0.2997
0.3014
0.3022
0.3025
0.3034
0.3066
0.3086
0.3047
0.3009
0.2961
0.2907
0.2889
Tabla 5.4. Precisi

on del proceso de Recuperaci
on de Informaci
on aplicando la heurstica sobre la
forma l
ogica del t
opico
parte, la aplicacion de la heurstica detallada contribuye en la mejora de

la eficacia del proceso de Recuperacion de Informacion y, que ademas, el
porcentaje de incremento de los pesos originales de los terminos asignados por el sistema IR-n se corresponde con quince puntos porcentuales.
Por ello, en el ambito de la Recuperacion de los Documentos Transcritos, este incremento porcentual de quince puntos se aplica a los pesos
de los terminos de los topicos que cumplen la heurstica. De este modo,
se han llevado a cabo dos experimentos:
El experimento UATDASR04 se basa en la indexacion de la transcripcion ASRTEXT2004A y en la Recuperacion de Informacion partiendo
de la combinacion de los campos texto y descripcion de los topicos
originales.
El experimento UATDASR04FL se basa en el experimento anterior
sobre el que se efect
ua una alteracion de los pesos de algunas palabras
del topico atendiendo a la heurstica aplicadas a la representacion formal del topico mediante la forma logica. Concretamente, el porcentaje
de incremento del peso de los terminos se corresponde con un 15 %
debido a que, seg
un la evaluacion anterior, este incremento es el que
optimiza el proceso de Recuperacion de Informacion.
120
5. Evaluaci
on del recurso l
on formal del texto
5.2.4 Resultados
Evaluaci
on de la eficacia. Los resultados obtenidos en ambos experimentos quedan detallados en la tabla 5.5. La columna map muestra
la media de la medida de precision no interpolada mientras que en las
restantes columnas se detalla la precision a los 5, 20, 100 y 1000 documentos respectivamente.
Experimento
UATDASR04
UATDASR04LF
map
0,0724
0,0768
p5
0,1840
0,2160
p20
0,1660
0,1740
p100
0,1036
0,1088
p1000
0,0313
0,0324
Rprec
0,1246
0,1230
Bpref
0,0899
0,0949
Tabla 5.5. Resultados de evaluaci

on en la tarea CL-SR del CLEF 2005
Como se puede apreciar en los resultados presentados en la tabla 5.5, el

incremento en el peso de las palabras que cumplen las especificaciones
detalladas anteriormente en la heurstica contribuye a mejorar sensiblemente la precision de la Recuperacion de Pasajes del sistema estadstico
IR-n, haciendo que este incremento de la precision sea de un 6,08 % respecto a su valor original. La aplicacion de esta heurstica demuestra
que, en terminos de eficacia, la utilizacion del recurso contribuye a la
mejora del proceso base de Recuperacion de Informacion.
Tambien, de manera explcita, se pretende demostrar que la eleccion de
nuestro recurso para la materializacion de la heurstica del tipo ling
ustico es el mas optimo, en terminos de eficiencia, frente a otros recursos
de representacion formal del texto capaces de satisfacer tambien el desarrollo de dicha heurstica. Ello queda reflejado a continuacion.
Evaluaci
on de la eficiencia. La heurstica del tipo ling
ustico que se
acaba de detallar precisa de una representacion formal de los topicos
que le proporcione la informacion ling
ustica necesaria para la aplicacion de las reglas. En este sentido, cualquier modelo de representacion
con contenido ling
ustico de los tratados en el captulo 2 que identifique
la categora lexica e indique la relacion existente entre las palabras de
los topicos servira de base al desarrollo de la heurstica.
La Real Academia Espa
nola define el adjetivo preciso/a como necesario, indispensable, que es menester para un fin. Tomando como base
esta definicion, en la evaluacion de la eficiencia se pretende premiar al
modelo de representacion con contenido ling
ustico que sea mas preciso,
es decir, aquel que su representacion tenga el suficiente detalle para la
aplicacion de la heurstica ignorando aspectos superfluos, irrelevantes y
redundantes. Ello implica que de todos los modelos de representacion
5.2 Evaluaci
121
formal del texto capaces de materializar el desarrollo de la heurstica sera mas preciso aquel cuya representacion contenga menor n
umero
de constituyentes ya que, seg
un la definicion recien especificada, este
modelo, haciendo uso de un menor n
umero de constituyentes en la representacion, es capaz de representar la informacion necesaria para el
desarrollo de la heurstica, ignorando detalles superfluos, irrelevantes y
redundantes introducidos por el resto de modelos.
Por ello, y con el objeto de evaluar y contrastar lo mas o menos precisos
que son los diferentes modelos de representacion capaces de dar soporte
al desarrollo de la heurstica, se hace hincapie en el concepto de eficiencia introducido al inicio del captulo, que permite cuantificar el n
umero
de items o constituyentes que introducen las diferentes representaciones
formales del texto seg
un el modelo aplicado. De este modo, aquel modelo cuya representacion haga uso de un menor n
umero de constituyentes
para identificar formalmente al texto asociado sera el mas eficiente y,
en consecuencia, el mas preciso seg
un este punto de vista.
Desde el punto de vista de la eficiencia, se va a establecer una comparacion de los tama
nos (seg
un el n
umero de constituyentes) de las
diferentes representaciones formales de los topicos para la aplicacion de
la heurstica entre los modelos de representacion formal capaces de dar
soporte al desarrollo de esta heurstica que son: el basado en el arbol
de analisis de dependencias, el basado en el arbol de analisis sintactico
de constituyentes, y el recurso de formas logicas desarrollado como embrion del recurso logico-conceptual. Para ello, conviene tener un ejemplo
com
un de la representacion de un mismo topico seg
un cada uno de estos
modelos de representacion formal. Ello queda presentado en el ejemplo
49.
(49) T
opico: The story of Mr. Fly and the Emergency Rescue Committee who saved thousands in Marseille.
Arbol
de dependencias: Vease figura 5.1
Arbol
de constituyentes: Vease figura 5.2
Forma l
ogica: story:NN(x14) of:IN(x14, x13) mr:NN(x10)
mr fly:NNC(x11, x10, x12) fly:NN(x12) and:CC(x13,
x11, x6) emergency:NN(x5) emergency rescue committee:NNC(x6,
x5, x7) rescue:NN(x8) rescue committee:NNC(x7,
x8, x9) committee:NN(x9) who:NN(x13) save:VB(e1,
x13, x2) thousand:NN(x2) in:IN(e1, x3) marseille:NN(x3)
122
5. Evaluaci
on del recurso l
on formal del texto
Arbol
l
ogico: Vease figura 5.31
story [N]
det
mod
The [Det]
of [Prep]
pcomp-n
Fly [N]
lex-mod
conj
Mr. [U]
Committee [N]
lex-mod
Emergency [U]
rel
Rescue [U]
() fin [C]
whn
who [N]
saved [V]
subj
() who [N]
obj
mod
thousands [N]
in [Prep]
pcomp-n
Marseille [N]
Figura 5.1. Arbol

de dependencias del t
opico
n-chunk
n-chunk
The
[NP]
story
[NN]
sppart
sn-chunk
n-chunk nex-coord
of Mr. Fly
[IN]
[NP]
and
[CC]
sp-chunk
n-chunk
the
[DT]
Emergency Rescue Committee

[NP]
wh-prc vb-chunk n-chunk
who
[WP]
saved
[VBD]
thousands
[NNS]
spin
n-chunk
in Marseille
[NP]
[IN]
Figura 5.2. Arbol

de constituyentes del t
opico
Seg
un el ejemplo 49, para la representacion formal de un mismo topico,
el arbol de analisis de dependencias tiene 15 nodos (constituyentes), el
arbol de analisis de constituyentes tiene 26 nodos y el arbol logico tiene
10 nodos. Si se consideran los 75 topicos que se han utilizado en la evaluacion, la tabla 5.6 detalla el n
umero de nodos total que se obtienen
con cada uno de estos tres modelos de representacion.
1
El
arbol l
ogico simplemente representa los predicados relacionados de la forma l
ogica en forma
de
arbol con objeto de facilitar el estudio de la complejidad
5.2 Evaluaci
123
save:VB(e1, x13, x2)
who:NN(x13)
thousand:NN(x2)
and:CC(x13, x11, x6)
of:IN(x14, x13)
mr_fly:NNC(x11, x10, x12)
in:IN(e1, x3)
marseille:NN(x3)
emergency_rescue_committee:NNC(x6, x5, x7)
story:NN(x14)
Figura 5.3. Arbol

l
ogico del t
opico
Representaci
on
Arbol constituyentes
Arbol dependencias
Arbol
l
ogico
No nodos
1628
1059
771
Tabla 5.6. N
umero de nodos obtenidos por cada formalismo en la representaci
on de los t
opicos
Si se comparan estos resultados de eficiencia reflejados en la tabla 5.6

se obtiene que la representacion basada en el arbol logico es un 52,64 %
mas eficiente que la basada en el arbol de constituyentes, y un 27,2 %
mas eficiente que la basada en el arbol de dependencias.
Acorde a lo especificado en los parrafos anteriores, aquel mecanismo de
representacion formal que sea mas eficiente, es decir, que menor n
umero
de constituyentes introduzca en la representacion implica que, sera tambien el mas preciso, es decir, introduce la menor cantidad de informacion
necesaria para el desarrollo de la heurstica tratando de evitar detalles
superfluos, irrelevantes y redundantes.
Tal y como se acaba de demostrar en esta evaluacion, la representacion del arbol logico, derivado a partir de la forma logica, es la mas
eficiente de las representaciones debido a que es la que menor n
umero
de nodos contiene. Por ello y, aunque la heurstica ling
ustica puede ser
aplicada a partir de diferentes representaciones formales del texto, es la
representacion basada en formas logicas la mas precisa frente al resto
de representaciones quedando demostrado con ello el matiz de precision
introducido en el marco global de evaluacion.
5.2.5 An
alisis y discusi
on
Dentro del amplio espectro de sistemas de PLN, con la participacion
en esta tarea, se ha demostrado la validez del recurso representacion
124
5. Evaluaci
on del recurso l
on formal del texto
formal del texto en el ambito de la Recuperacion de Informacion. Para ello, sobre la representacion formal de los topicos implicados en el
proceso de Recuperacion de Informacion, se ha aplicado una heurstica
que hace que determinadas palabras del topico incrementen su importancia o relevancia en el proceso. Desde el punto de vista de la eficacia,
los resultados obtenidos tras la aplicacion de esta heurstica mejoran
los resultados obtenidos por el sistema de Recuperacion de Informacion
base produciendo un incremento de un 6,08 % del valor original de la
medida map.
Desde el punto de vista de la eficacia, el recurso de formas logicas no es
imprescindible para la aplicacion de la heurstica ya que esta se puede
aplicar sobre cualquier otro tipo de representacion formal, como se ha
demostrado con los arboles de dependencias y de constituyentes.
Uno de los propositos fundamentales de la participacion en esta tarea es
demostrar el matiz de precision introducido al inicio del captulo. Para
ello, desde el punto de vista de la eficiencia, la utilizacion del recurso de
formas logicas para la representacion formal de los topicos mejora los
resultados de la aplicacion de la heurstica sobre cualquier otro tipo de
representacion, tal y como se ha demostrado en la subseccion anterior.
Ello demuestra que la representacion basada en formas logicas obtenida
a partir del recurso logico-conceptual es mas precisa que el resto de
representaciones.
5.3 Participaci
on en la tarea Recognising Textual
Entailment del PASCAL 2006
5.3.1 Introducci
on
El reconocimiento de la Vinculacion o Implicacion Textual (Recognising
Textual Entailment) (Bar-Haim et al. , 2006) ha sido propuesto en los
u
ltimos a
nos en el ambito del PLN como una tarea generica que captura
las necesidades principales de inferencia semantica a traves de las aplicaciones del PLN como la B
usqueda de Respuestas, la Recuperacion de
Informacion, la Extraccion de Informacion y la Generacion Automatica
de Res
umenes.
El Textual Entailment o Implicacion Textual consiste en decidir, dados
dos fragmentos de texto denominados texto (T) e hipotesis (H), si el
texto vincula a la hipotesis, es decir, si el significado de la hipotesis
es inferido a traves del texto. El ejemplo 50 muestra una vinculacion
textual, es decir, T vincula a H.
5.3 Participaci
on en la tarea Recognising Textual Entailment del PASCAL 2006
(50) Texto (T): His family has steadfastly denied the charges.
Hip
otesis (H): The charges were denied by his family.
La tarea PASCAL RTE (Recognising Textual Entailment) (Bar-Haim
et al. , 2006) promociona la formacion de una comunidad investigadora
en al ambito de la tarea de vinculacion textual. La principal tarea consiste en determinar si una hipotesis (H) es vinculada por un texto (T).
Uno de los principales objetivos de su conjunto de datos se centra en
proveer ejemplos realistas de pares texto-hipotesis, la mayora de ellos
basados en las salidas proporcionadas por los sistemas actuales de PLN.
En concreto se basan en las caractersticas de aplicacion de los sistemas
mencionados anteriormente: B
usqueda de Respuestas, Recuperacion de
Informacion, Extraccion de Informacion y Generacion Automatica de
Res
umenes. Cada porcion del conjunto de datos incluye ejemplos tpicos
de pares texto-hipotesis obtenidas a partir de los aciertos y los fallos
obtenidos por estas aplicaciones. Los ejemplos representan diferentes
niveles de razonamiento de la vinculacion tales como lexico, sintactico,
morfologico y logico.
Dicha tarea proporciona un marco de evaluacion com
un a los sistemas
de Textual Entailment. Los sistemas de Textual Entailment participantes en esta tarea de evaluacion deberan decidir dados los pares texto e
hipotesis, si el texto vincula a la hipotesis o no, y estos resultados se
compararan con las anotaciones manuales correspondientes.
La evaluacion de las ejecuciones de los sistemas es automatica. Los criterios devueltos por los sistemas son comparados con los criterios de
relevancia asignados manualmente por los anotadores. El porcentaje de
emparejamiento de criterios debe proveer la precision de la tarea (ej. la
relacion de respuestas correctas).
Como una segunda medida de evaluacion, la precision media (average
precision) eval
ua la capacidad de los sistemas en determinar las implicaciones correctas de acuerdo a su coeficiente de confianza, en orden
decreciente desde el par texto-hipotesis que posee un coeficiente mayor
hasta el que posee el menor coeficiente. Se define formalmente esta medida como:
P recM edia =
1
R
Pn
i=1
E(i) #correctos ihasta
par i
donde n es la cantidad de pares en el corpus, R es la cantidad de pares

positivos, E(i) es 1 si el par es positivo y 0 si no lo es, e i recorre todos
los pares ordenados seg
un el coeficiente de confianza. Estas dos medidas
125
126
5. Evaluaci
on del recurso l
on formal del texto
de evaluacion miden la validez de los sistemas desde el punto de vista

del concepto de eficacia.
5.3.2 Motivaci
Dentro del amplio espectro de las aplicaciones del PLN, la tarea de
la vinculacion textual resume las necesidades principales de inferencia
semantica de otros sistemas del PLN como la B
usqueda de Respuestas,
la Recuperacion de Informacion, la Extraccion de Informacion y la Generacion Automatica de Res
umenes.
El problema de la Implicacion o Vinculacion Textual se resuelve mediante la comparacion de las representaciones semanticas asociadas al
texto y a la hipotesis. A partir de ambas representaciones semanticas
y su comparacion, el sistema de Textual Entailment debe decidir si el
texto vincula o no a la hipotesis. Para realizar esta funcion el sistema
necesita de conocimiento semantico que le permita saber el grado de
relacion existente entre las palabras del texto y de la hipotesis.
El recurso de representacion semantica desarrollado en el trabajo de
investigacion, a traves del tratamiento logico-conceptual llevado a cabo
sobre la forma logica, re
une los requisitos necesarios para su integracion en el sistema de textual entailment. Por ello, se pretende que el
n
ucleo del sistema de vinculacion textual sea la propia representacion
semantica del par texto-hipotesis derivada a partir de este tratamiento. A partir del par de representaciones semanticas texto-hipotesis, se
pretende aplicar una serie de tecnicas de exploracion en la jerarqua de
WordNet para decidir si existe o no vinculacion entre ambas representaciones, produciendo con ello la salida generada por el sistema.
El proposito de la aplicacion de la investigacion en esta tarea emergente de Textual Entailment pretende demostrar la validez del recurso en
el ambito de la propia tarea visto desde el enfoque del matiz de completitud conceptual detallado al inicio del captulo. Con ello quedara
demostrado que el tratamiento logico-conceptual proporcionado por el
recurso que hace que la representacion semantica incorpore la informacion conceptual contenida en WordNet asociada a las palabras del par
texto-hipotesis y, a su vez, que esta informacion conceptual sea no ambigua, es perfectamente valido para ser incorporado en el sistema de
vinculacion textual.
Para demostrar la validez del recurso de representacion desde el punto
de vista del matiz de la completitud conceptual se realiza la evaluacion
global del sistema de vinculacion textual desarrollado en el ambito de la
tarea RTE. En esta evaluacion se pretende que, los resultados del siste-
5.3 Participaci
127
ma desarrollado ronden la media de los resultados de todos los sistemas

participantes en la tarea, seg
un las medidas de evaluacion especificadas
en el apartado anterior. Con ello quedara demostrada la validez del
recurso en el ambito del Textual Entailment.
5.3.3 Desarrollo
La tarea RTE considera que T vincula a H si, tpicamente, un humano
que lee T inferira que H es mas que probable que sea verdadero. Esta
definicion algo informal se basa en (y asume) la comprension humana
com
un del lenguaje as como el conocimiento com
un del mundo. La
tabla 5.7 muestra varios ejemplos del reconocimiento de la vinculacion
textual a partir de la salida de los diferentes sistemas del PLN.
Texto
The drugs that slow down or halt
Alzheimers disease work best the
earlier you administer them.
Drew Walker, NHS Taysides public
health director, said: It is
important to stress that this is
not a confirmed case of rabies.
Yoko Ono unveiled a bronze statue
of her late husband, John Lennon,
to complete the official renaming
of Englands Liverpool Airport as
Liverpool John Lennon Airport
Arabic, for example, is used
densely across North Africa and
from the Eastern Mediterranean
to the Philippines, as the key
language of the Arab world and
the primary vehicle of Islam.
About two weeks before the trial
started, I was in Shapiros
office in Century City.
Meanwhile, in his interview to a
Western print publication since his
election as president of Iran
earlier this year, Ahmadinejad
attacked the threat to bring
the issue of Irans nuclear
activity to the UN Security council
by the US, France and Britain.
Hip
otesis
Alzheimers disease
is treated
using drugs.
Tarea
Vinculaci
on
RI
S
I
A case of rabies
was confirmed.
RI
NO
BR
S
I
BR
NO
Shapiro works in
Century City.
BR
S
I
Ahmadinejad is a
citizen of Iran.
EI
S
I
Yoko Ono is
John Lenonns
widow.
Arabic is the
primary
language of the
Philippines.
Tabla 5.7. Ejemplos de reconocimiento de la Vinculaci

on Textual
128
5. Evaluaci
on del recurso l
on formal del texto
Los criterios de relevancia y las pautas seguidas para su dise

no se detallan a continuacion:
La Vinculacion Textual es una relacion bidireccional. La hipotesis debe ser inferida a partir del texto, pero el texto no necesariamente es
inferido a partir de la hipotesis.
La hipotesis debe ser plenamente inferida por el texto. Los criterios no
consideran si la hipotesis incluye partes que pueden no ser inferidas a
partir del texto.
Los casos en que la inferencia es muy probable (pero no completamente cierta) son juzgados como vinculacion positiva. En los ejemplos de
la tabla 5.7, en el marco del quinto se puede pensar que aunque Shapiros office esta en Century City, el sujeto nunca llega a su oficina y,
en consecuencia, trabaja en otra parte. Sin embargo, esta interpretacion del texto es muy improbable y, en consecuencia, la vinculacion
encaja con gran probabilidad.
La definicion de vinculacion permite suposiciones del conocimiento
del mundo del tipo: una empresa tiene un director general, un director general es un empleado de la compa
na, un empleado es una
persona, etc. Por ejemplo, en la u
ltima vinculacion de la tabla 5.7, la
vinculacion depende de conocer que el presidente de un pas es tambien un ciudadano de ese pas.
El experimento desarrollado (Ferrandez et al. , 2006a) para abordar
el problema de la vinculacion textual existente entre texto e hipotesis consiste en establecer una comparacion entre las representaciones
semanticas asociadas a T y H, obteniendo un factor de similitud y, en
base a este factor, decidir si existe vinculacion o no. Para ello, el primer
paso consiste en analizar la relacion existente entre los predicados del
tipo verbo (VB) del texto y la hipotesis. Si los conceptos que representan ambos predicados tienen alg
un tipo de relacion 2 , a continuacion se
analiza la relacion existente entre los restantes predicados relacionados
con los predicados del tipo verbo. Las relaciones entre predicados se
indica asignandoles un peso que toma valores entre 0 y 1 dependiendo
del grado de relacion existente entre ambos predicados. Si este peso toma un valor proximo a cero significa que apenas existe relacion entre
ambos predicados, mientras que si toma un valor proximo a 1 significa
que ambos predicados estan muy relacionados. Todos estos pesos derivados del analisis de los pares de predicados del texto y la hipotesis son
2
Por ejemplo, los conceptos representados por los verbos run y walk tendran relaci
on. Sin embargo,
no ocurrira lo mismo con los conceptos que representan los verbos eat y run.
5.3 Participaci
sumados y normalizados, produciendo el factor de similitud entre texto

e hipotesis. Si este factor de similitud supera cierto umbral implica que
existe una relacion de vinculacion textual entre T y H; en otro caso, no
existe dicha relacion de vinculacion textual entre T y H. Este umbral
ha sido establecido previamente en la fase de entrenamiento del sistema con el corpus de desarrollo. La figura 5.4 resume esta arquitectura
general del sistema de vinculacion textual.
Texto
Hiptesis
Derivacin de las
Formas Lgicas
FL Texto
FL Hiptesis
Computacin de la similitud
Semntica entre Formas Lgicas
factor
Implicacin?
SI
NO
Figura 5.4. Arquitectura del sistema de vinculaci

on textual
Para el calculo del peso de la relacion entre pares de predicados se han

seguido dos estrategias: la primera de ellas esta basada en las relaciones entre sentidos definidas en el recurso lexico WordNet (Miller, 1995)
mientras que la segunda esta basada en la medida de Lin (Lin, 1998a).
Ambas estrategias se basan en la jerarqua definida en WordNet.
Para determinar el valor del umbral se asignan valores empricos sobre tres ejecuciones diferentes: WNsuperficial, WNdetallado y WNLin.
WNsuperficial hace uso de tres relaciones de WordNet (sinonimia, hiponimia y entailment) que se consideran mas adecuadas para la tarea de
implicacion textual. WNdetallado utiliza seis relaciones (hiperonimia,
hiponimia, implicacion, sinonimia, meronimia y holonimia) para obtener el peso de similitud entre dos conceptos. La u
ltima ejecucion, que
utiliza la medida de similitud de Lin, se le denomina WNLin. La figura
5.5 muestra la relacion existente entre los valores empricos que toma
el umbral y la precision obtenida por el sistema para cada uno de estos
valores en la fase de entrenamiento del sistema.
El umbral que mejores resultados de precision obtiene sobre el corpus
de desarrollo es de 0.24 para las ejecuciones WNLin y WNdetallado,
mientras que para la ejecucion WNsuperficial el mejor umbral emprico
es de 0.25. Aunque los umbrales son bastante parecidos y sufren un
comportamiento similar conforme se van aumentando, para la evalua-
129
130
5. Evaluaci
on del recurso l
on formal del texto
0,55
0,545
Accuracy
0,54
0,535
WNLin
0,53
0,525
0,52
WNsuperficial
WNcomplejo
0,515
0,51
0,505
0,5
0,1
0,2 0,21 0,23 0,24 0,25 0,26 0,3 0,5
0,7
Umbral
Figura 5.5. Ajuste del umbral sobre el corpus de desarrollo
cion se considera el valor de 0.24.

Como se puede apreciar en los ejemplos de vinculacion textual de la
tabla 5.7, debe existir cierta vinculacion entre los pares de palabras del
texto y de la hipotesis (ej. husband y widow, treat y administer, president y citizen, etc). Por ello, para la desambiguacion del sentido de
las palabras se consideran, en conjunto, los pares de palabras del texto
y la hipotesis. Para ello son tenidos en cuenta u
nicamente la mitad de
los sentidos de WordNet ordenados por frecuencia de aparicion. Dada
esta consideracion del n
umero de sentidos a considerar, a continuacion
se analizan las relaciones de similitud semantica existentes entre los
pares de conceptos asociados a las palabras del texto y la hipotesis.
La relacion que maximiza la similitud semantica desambigua el sentido
del par de palabras del texto y la hipotesis. Ello permite determinar el
concepto asociado a cada predicado de la forma logica. A continuacion
se especifican las dos estrategias seguidas para determinar la similitud
semantica entre los pares de palabras del texto y la hipotesis.
Estrategia basada en las relaciones entre sentidos de WordNet. En la base de datos lexica WordNet (Miller, 1995), un synset es
un conjunto de conceptos que expresan el mismo significado. Se define
un concepto como el uso de una palabra en un determinado contexto
(sentido). De este modo, esta estrategia nos permite conocer si dos conceptos distintos estan relacionados entre si mediante la composicion de
diferentes relaciones definidas en WordNet. Estas relaciones son: hiperonimia, hiponimia, entailment, similitud, meronimia y holonimia. La
longitud del camino que debe relacionar los dos conceptos, en el caso de
que exista esta relacion, nunca debe exceder los cuatro synsets. Cada
una de estas relaciones definida en WordNet tiene asociado un peso:
0.8 para la relacion de hiperonimia, 0.7 para la relaciones de hiponimia
y entailment, 0.9 para la relacion de similitud, y 0.5 para las relaciones de meronimia y holonimia. De este modo, el peso del camino entre
dos conceptos distintos se calcula como el producto de los pesos de las
relaciones existentes en el camino. Esta tecnica es una derivacion de
5.3 Participaci
la tecnica empleada por Moldovan y Novischi (2002) en su algoritmo

SpreadWeights.
Estrategia basada en la medida de Lin. En este enfoque, la relacion entre dos conceptos es un valor calculado aplicando la medida
de similitud de Lin (1998a) que viene integrada en el recurso WordNet::Similarity (Pedersen et al. , 2004). Este recurso consiste en un
software de dominio abierto desarrollado en la Universidad de Minnesota que permite calcular la relacion existente entre dos conceptos, o
entre dos palabras. La medida de similitud de Lin se centra en el analisis
de las relaciones es-a de WordNet. Esta considerada como una medida
basada en el contenido de la informacion, frente a la anterior medida que
se centra en la ruta de las relaciones. Esta medida aumenta el contenido
de la informacion del least common subsumer (LCS) 3 de dos conceptos
con la suma del contenido de informacion de los propios conceptos.
5.3.4 Resultados
La evaluacion del sistema de Textual Entailment se enmarca dentro de
la evaluacion estandar definida en la tarea PASCAL Second Recognising Textual Entailment Challenge (Bar-Haim et al. , 2006). En ella,
los sistemas tiene que decidir si existe entailment o no entre los 800
pares de texto e hipotesis de la coleccion de test. Los resultados del
Textual Entailment vienen determinados a traves de dos medidas de
evaluacion: la precision (accuracy) y la precision media (average precision). La tabla 5.8 muestra los resultados obtenidos obtenidos por los
sistemas participantes en la tarea.
Ambas medidas de evaluacion presentan ligeras contradicciones a la hora de decidir, seg
un los n
umeros obtenidos en ellas, que el sistema A
es mejor que el sistema B. Por ejemplo, se puede dar el caso en el que
sistema A obtiene mejor resultado que el sistema B en la medida de precision, pero el sistema B obtiene mejor resultado que el sistema A en
la medida de precision media. Concretamente, en la competicion RTE2
participaron 23 sistemas en 41 ejecuciones. La media de la precision de
estos sistemas ronda el 58,55 % mientras que la media de la precision
media ronda los 59,09 puntos porcentuales. Seg
un la medida de precision, la ejecucion basada en la medida Lin ocupa el puesto n
umero 29
alcanzando una precision del 55,63 %, mientras que la ejecucion basada en relaciones de WordNet ocupa el puesto n
umero 34 obteniendo
una precision del 54,75 %. En cambio, si nos fijamos en la medida de
precision media, la participacion fue de 18 sistemas con un total de 31
ejecuciones. En el ambito de la precision media, la ejecucion basada
en la medida Lin ocupa el puesto n
umero 12 alcanzando un valor de
3
LCS es el concepto m
as especfico que dos conceptos comparten como antecesor
131
132
5. Evaluaci
on del recurso l
on formal del texto
Grupo
LCC (Hickl et al. )
LCC (Tatu et al. )
Mil
an y Roma (Zanzotto et al. )
Dallas (Adams et al. )
Mil
an y Roma (Zanzotto et al. )
Roma y Leeds (Bos et al. )
Colorado (Nielsen et al. )
Roma y Leeds (Bos et al. )
Stanford (de Marneffe et al. )
ITC-irst y Trento (Kouylekov et al. )
Tilburg y Twente (Marsi et al. )
Colorado (Nielsen et al. )
Microsoft y Stanford (Vanderwende et al. )
UNED (Herrera et al. )
Memphis (Rus et al. )
Saarland (Burchart et al. )
Amsterdam (Katrenko et al. )
UNED (Herrera et al. )
Microsoft y Stanford (Vanderwende et al. )
Memphis (Rus et al. )
Ottawa (Inkpen et al. )
CL Research (Litkowski et al. )
Ottawa (Inkpen et al. )
Saarland (Burchart et al. )
Stanford (de Marneffe et al. )
ITC-irst y Trento (Kouylekov et al. )
Amsterdam (Katrenko et al. )
CL Research (Litkowski et al. )
Alicante (Ferr
andez et al.)
Venecia (Delmonte et al. )
Thomson y Minnesota (Schilder et al. )
Alicante (Kozareva et al. )
Alicante (Kozareva et al. )
Alicante (Ferr
andez et al.)
Sussex (Clarke et al. )
Dublin (Newman et al. )
Thomson y Minnesota (Schilder et al. )
Melbourne (Nicholson et al. )
Sussex (Clarke et al. )
Dublin (Newman et al. )
Melbourne (Nicholson et al. )
Ejecuci
on
1
1
1
1
2
1
2
2
2
2
1
1
1
1
1
1
1
2
2
2
2
1
1
2
1
1
2
2
Lin
1
2
2
1
Rel. WN
2
2
1
1
1
1
2
Precisi
on
0.7538
0.7375
0.6388
0.6262
0.6250
0.6162
0.6112
0.6062
0.6050
0.6050
0.6050
0.6025
0.6025
0.5975
0.5900
0.5900
0.5900
0.5887
0.5850
0.5837
0.5825
0.5813
0.5800
0.5775
0.5763
0.5725
0.5713
0.5663
0.5563
0.5563
0.5550
0.5500
0.5487
0.5475
0.5475
0.5437
0.5437
0.5288
0.5275
0.5250
0.5088
Precisi
on Media
0.8082
0.7133
0.6441
0.6282
0.6317
0.6689
0.6379
0.6042
0.5800
0.5046
Tabla 5.8. Resultados de la evaluaci

on en la tarea Recognising Textual Entailment
0.6396
0.6181
0.5663
0.6047
0.6170
0.5785
0.5816
0.5751
0.6131
0.5249
0.6089
0.5685
0.5485
0.5589
0.5743
0.5260
0.5103
0.5464
0.5254
0.5052
0.5053
5.3 Participaci
60,89 puntos porcentuales mientras que la ejecucion basada en relaciones de WordNet ocupa el puesto n
umero 19 con una precision media
del 57,43 %.
Analizando los resultados en terminos de eficacia obtenidos en ambas
medidas y comparandolos con la media de los resultados obtenidos por
los sistemas participantes en la tarea, se puede concluir que el recurso
de representacion formal del texto desarrollado en la investigacion es
totalmente valido para su incorporacion en los sistemas de Vinculacion
Textual.
5.3.5 An
alisis y discusi
on
El principal proposito de la participacion en la tarea Recognising Textual Entailment viene marcado por el tratamiento logico-conceptual de
la informacion manejada en los pares texto-hipotesis para decidir si
el texto vincula o no la hipotesis. El tratamiento logico de la informacion se centra en el manejo de los predicados de las formas logicas
asociadas tanto al texto como a la hipotesis. Desde el punto de vista
del tratamiento conceptual de la informacion se trata de establecer el
grado de relacion que pueda existir entre determinados predicados de
ambas formas logicas. Estas relaciones vienen determinadas a partir de
la exploracion de conceptos mediante la jerarqua definida en el recurso
lexico WordNet.
Analizando los resultados de eficacia obtenidos de la participacion en
la tarea RTE, se puede concluir que el procedimiento empleado para resolver el problema del textual entailment obtiene unos resultados
en la media de los obtenidos por el resto de sistemas participantes en
esta competicion. Se puede concluir que la aplicacion del recurso logicoconceptual como n
ucleo del sistema es un metodo valido en el tratamiento de la Vinculacion Textual.
Una vez demostrada la validez del recurso en el problema de la vinculacion textual y, debido a que la tarea de la vinculacion textual resume
las necesidades principales de inferencia semantica de otros sistemas
del PLN como la B
usqueda de Respuestas, la Recuperacion de Informacion, la Extraccion de Informacion y la Generacion Automatica de
Res
umenes, podemos concluir tambien que la aplicacion del recurso en
estas cuatro aplicaciones del PLN es perfectamente valida desde el punto de vista del matiz de completitud conceptual detallado al inicio del
captulo.
133
134
5. Evaluaci
on del recurso l
on formal del texto
5.4 Participaci
on en la tarea Answer Validation
Exercise del CLEF 2006
5.4.1 Objetivos
El objetivo de la tarea Answer Validation Exercise del CLEF 2006
(Pe
nas et al. , 2007) consiste en evaluar los sistemas capaces de decidir
si la respuesta devuelta por un sistema de B
usqueda de Respuestas es
correcta o no. El punto de partida de la tarea AVE es la reformulacion
de la validacion de la respuesta como un problema de reconocimiento
del Textual Entailment bajo la presuncion de que la hipotesis puede ser
generada automaticamente instanciando patrones de hipotesis con las
respuestas devueltas por los sistemas de B
usqueda de Respuestas. Con
ello se pretende promover nuevas lneas de investigacion en el desarrollo y evaluacion de subsistemas capaces de validar la correccion de las
respuestas devueltas por los sistemas de B
usqueda de Respuestas.
Los sistemas participantes en la tarea de evaluacion deben devolver un
valor de dos posibles (SI o NO) para cada par de texto-hipotesis indicando si el texto vincula o no la hipotesis (ej. la respuesta es correcta
acorde al texto).
La evaluacion se basa u
nicamente en la deteccion de las respuestas
correctas, considerando si existe o no la suficiente evidencia de estas.
Las medidas de evaluacion utilizadas para describir la eficacia de los sistemas participantes en la tarea AVE son la precision, la cobertura y la
medida F sobre los pares con entailment verdadero. La precision (vease
51) y la cobertura (vease 52) han sido definidas en las secciones previas del captulo. En cambio, la medida F (vease 53) se define como la
media armonica ponderada (factor 1) de precision y cobertura. Esto es
as porque el proposito perseguido es destacar aquellos sistemas capaces
de detectar vinculacion en los pares texto-hipotesis, o capaces de detectar si existe suficiente evidencia para considerar que existe vinculacion
entre el texto y la hipotesis.
(51) precision =
(52) cobertura =
(53) F =
| correctos pronosticados como SI |

| {pronosticados como SI} {pares DESCON OCIDOS} |
| correctos pronosticados como SI |

| {pares SI} |
2precisioncobertura
precision+cobertura
5.4 Participaci
on en la tarea Answer Validation Exercise del CLEF 2006
5.4.2 Motivaci
El problema planteado en la tarea Answer Validation Exercise es claramente un problema de Vinculacion Textual o Textual Entailment en el
que el conjunto de pares texto-hipotesis se deriva a partir de los recursos
existentes para la tarea de B
usqueda de Respuestas de la campa
na de
evaluacion CLEF as como de las respuestas generadas por los sistemas
participantes en dicha tarea. En la seccion anterior del captulo, donde
se detalla todo lo relativo a la participacion en la tarea PASCAL RTE,
se ha especificado este problema. Debido a la similitud existente entre
la anterior tarea PASCAL RTE y la tarea Answer Validation Exercise, tanto la motivacion como las aportaciones esperadas para la tarea
Answer Validation Exercise son exactamente las mismas que para su
homologa PASCAL RTE y, por ello, no cabe repetir lo ya especificado
anteriormente en el captulo.
Como novedad y extension a todo lo anterior, conviene matizar que
se quiere medir la eficacia del sistema desde el punto de vista de la
precision, cobertura y medida F, frente a la precision y precision media utilizadas en la anterior tarea PASCAL RTE. Tambien se quiere
contrastar la eficacia del sistema en el conjunto de los nuevos sistemas
participantes en esta tarea.
5.4.3 Desarrollo
Con diferencia a anteriores campa
nas de evaluacion de los sistemas de
B
usqueda de Respuestas, un fragmento de texto es requerido para apoyar la correccion de las respuestas. Los criterios de relevancia de la
B
usqueda de Respuestas se dise
nan considerando el fragmento de texto
dado como conservando la relacion directa entre los criterios de relevancia de la B
usqueda de Respuestas y los del Reconocimiento de la
Implicacion Textual:
Los pares correspondientes a respuestas consideradas como correctas
tienen un valor de vinculacion igual a SI.
Los pares correspondientes a respuestas consideradas como incorrectas o no soportadas tienen un valor de vinculacion igual a NO.
Los pares correspondientes a respuestas consideradas como inexactas
tienen un valor de vinculacion igual a DESCONOCIDO y son ignoradas de la propuesta de evaluacion.
Los pares de provenientes de respuestas no evaluadas en la tarea de
B
usqueda de Respuestas son etiquetados tambien como DESCONO-
135
136
5. Evaluaci
on del recurso l
on formal del texto
CIDO as como excluidos de la evaluacion.

La coleccion se ha construido del siguiente modo: los textos se corresponden con cada una de las respuestas devueltas por los sistemas de
B
usqueda de Respuestas para cada una de las preguntas, mientras que
las hipotesis se obtienen a partir de las preguntas expresadas de modo
afirmativo junto con su respuesta correcta.
Debido a que se trata de un problema de reconocimiento del Textual
Entailment, el experimento realizado para resolver el problema planteado por la tarea AVE (Ferrandez et al. , 2007) es exactamente el mismo
que el realizado para la tarea PASCAL RTE detallado en la seccion
anterior del captulo con la salvedad de las particularidades incluidas
en las medidas de evaluacion de la tarea AVE frente a las de la tarea
PASCAL RTE.
5.4.4 Resultados
La tabla 5.9 muestra los resultados obtenidos de la participacion en la
tarea AVE del CLEF 2006.
Grupo
LCC
Roma
ITC-irst
Roma
Alicante
Alicante
Alicante
Alicante
Twente
Twente
Valencia
Sistema
COGEX
ZNZ - TV 2
itc-irst
ZNZ - TV 1
MLEnt 2
Lin
MLEnt 1
Rel. WN
utwente.ta
utwente.lcs
ebisbal
Medida F
0.4559
0.4106
0.3919
0.3780
0.3720
0.3177
0.3174
0.3070
0.3022
0.2759
0.075
Precisi
on
0.3261
0.2838
0.3090
0.2707
0.2487
0.2040
0.2114
0.2144
0.3313
0.2692
0.2143
Cobertura
0.7576
0.7424
0.5354
0.6263
0.7374
0.7172
0.6364
0.5404
0.2778
0.2828
0.0455
Tabla 5.9. Resultados de la evaluaci

on en la tarea Answer Validation Exercise
A pesar de que se utilizan las medidas de evaluacion precision, cobertura

y medida F, es esta u
ltima la que combina los resultados obtenidos por
las dos anteriores y, en consecuencia, es la mas adecuada para sacar las
conclusiones pertinentes a la validez de los sistemas desde el punto de
vista de la eficacia. La media de la medida F de todos los sistemas es
de 32,76 puntos porcentuales. Comparando este valor con los resultados
obtenidos por el sistema desarrollado (31,77 % para la ejecucion basada
en la medida Lin y 30,70 % para la ejecucion basada en la exploracion
de las relaciones de WordNet) cabe concluir que el sistema desarrollado
5.4 Participaci
on en la tarea Answer Validation Exercise del CLEF 2006
tomando como n
ucleo principal el tratamiento logico-conceptual que
proporciona el recurso de representacion formal del texto esta en la
media del resto de sistemas de vinculacion textual participantes en la
tarea.
5.4.5 An
alisis y discusi
on
El cometido principal de la participacion en la tarea Answer Validation
Exercise del CLEF 2006, al igual que en la participacion en la tarea
Recognising Textual Entailment viene determinado por el tratamiento
logico-conceptual de la informacion manejada en los pares texto-hipotesis para decidir si el texto vincula la hipotesis o no. El tratamiento logico
de la informacion se centra en el manejo de los predicados de las formas
logicas asociadas tanto al texto como a la hipotesis. Desde el punto de
vista del tratamiento conceptual de la informacion se trata de establecer el grado de relacion que pueda existir entre determinados predicados
de ambas formas logicas. Estas relaciones vienen determinadas a partir
exploracion de conceptos mediante la jerarqua definida en el recurso
lexico WordNet.
Al igual que ocurra en la participacion en la tarea PASCAL RTE,
analizando los resultados de eficacia obtenidos de la participacion en
la tarea AVE del CLEF 2006, se puede concluir que el procedimiento empleado para resolver el problema del Textual Entailment obtiene
unos resultados obtiene unos resultados en la media de los obtenidos
por el resto de sistemas participantes en esta competicion. Por ello,
analizando y comparando los resultados obtenidos seg
un las medidas
de evaluacion utilizadas en la tarea PASCAL RTE como los resultados
obtenidos seg
un las medidas de evaluacion utilizadas en la tarea AVE,
se puede concluir que la aplicacion del recurso logico-conceptual como
n
ucleo del sistema es un metodo valido en el tratamiento de la Vinculacion Textual.
Al igual que se detalla en la seccion anterior del captulo, una vez demostrada la validez del recurso en el problema de la vinculacion textual
y, debido a que la tarea de la vinculacion textual resume las necesidades principales de inferencia semantica de otros sistemas del PLN
como la B
usqueda de Respuestas, la Recuperacion de Informacion, la
Extraccion de Informacion y la Generacion Automatica de Res
umenes,
podemos concluir tambien que la aplicacion del recurso en estas cuatro
aplicaciones del PLN es perfectamente valida desde el punto de vista
del matiz de completitud conceptual detallado al inicio del captulo.
137
138
5. Evaluaci
on del recurso l
on formal del texto
5.5 Participaci
on en la tarea Multilingual Question
Answering del CLEF 2008
5.5.1 Introducci
on
La tarea de evaluacion Multilingual Question Answering (Forner et al.
, 2008) propone dos subtareas para evaluar la validez de los sistemas de
B
usqueda de Respuestas:
La subtarea monoling
ue en la que el idioma de las preguntas (source
language) y el idioma de la coleccion de documentos (target language)
es el mismo.
La subtarea de idiomas cruzados en la que las preguntas se formulan
en un idioma diferente al de la coleccion de documentos.
En esta tarea, los sistemas deben dar respuesta a 200 preguntas relacionadas por topico del modo mas exacto posible. Cada respuesta debe ser
extrada de alguna porcion de texto contenida en alg
un documento de
la coleccion. Estas porciones de texto pueden ser extradas de diferentes
secciones de los documentos relevantes y pueden ser resumidas hasta un
maximo de 700 bytes. No existen restricciones particulares en la longitud de las respuestas aportadas por los sistemas, pero se penalizan las
piezas innecesarias de informacion en ellas.
Las preguntas se relacionan por topico del siguiente modo:
El topico es nombrado bien en la primera pregunta o bien en la respuesta a esta primera pregunta.
Las siguientes preguntas pueden tener correferencias al topico expresado en el primer par pregunta-respuesta.
Por ejemplo, si el topico es George W. Bush, el conjunto de preguntas
relacionadas podras ser:
(54) Q1: Who is George W. Bush?

Q2: When was he born?
Q3: Who is his wife?
La coleccion de documentos de la subtarea de idiomas cruzados inglesespa
nol comprende las noticias de los a
nos 1994 y 1995 publicadas por
5.5 Participaci
on en la tarea Multilingual Question Answering del CLEF 2008
la agencia espa
nola de noticias EFE.
Las preguntas pueden ser de tres tipos:
Factuales. Estas preguntas se basan en hechos y pueden referirse a una
persona, un lugar, etc. Estas preguntas solo pueden tener ocho tipos
de respuesta: persona, tiempo, lugar, organizacion, medida, computo,
objeto y otro.
Definicion. Estas
son del tipo Que/Quien es X? y se dividen en
cuatro subtipos: persona, organizacion, objeto y otro.
Lista cerrada. La respuesta a este tipo de preguntas es una lista de
elementos.
Los criterios de evaluacion consideran la respuestas devueltas por los
sistemas en uno de los siguientes cuatro tipos:
R (correcta) si la respuesta es correcta.
W (incorrecta) si la respuesta es incorrecta.
X (inexacta) si la respuesta contiene menos o mas informacion de la
requerida como correcta.
U (no soportada) si el documento contenedor de la respuesta es
erroneo o no se corresponde con ninguno de los de la coleccion. Tambien se consideran en este tipo aquellas respuestas cuya porcion de
texto no contiene la respuesta exacta.
La principal medida de evaluacion es la precision aunque tambien, debido a que los sistemas pueden devolver mas de una respuesta por pregunta, se consideran en la evaluacion las dos siguientes medidas:
la medida de confianza ponderada Confident Weighted Score (CWS).
Las respuestas estan en un orden decreciente de confianza y CWS
premia a los sistemas dan las respuestas correctas en los primeros lugares del ranking.
el rango de media recproca Mean Reciprocal Rank (MRR) sobre N
respuestas calculadas por pregunta (para considerar las tres respuestas). Esta medida mide el n
umero de respuestas correctas en las primeras N posiciones. Por ejemplo, si la respuesta correcta esta en la
tercera posicion y N vale 3, su valor es de 1/3.
139
140
5. Evaluaci
on del recurso l
on formal del texto
5.5.2 Motivaci
En lo que respecta a la evaluacion llevada a cabo hasta el actual apartado, el recurso logico-conceptual ha sido integrado en sistemas de PLN
que procesan textos en la lengua inglesa. Por el contrario, en el ambito
de esta evaluacion, el recurso se incorpora a un sistema de B
usqueda de
Respuestas en el que la coleccion documental se compone de un gran
volumen de noticias en espa
nol de la agencia EFE. Sin embargo, la coleccion de preguntas que procesa el sistema viene dada en la lengua inglesa.
Con el proposito de traducir cada una de estas preguntas de la lengua
inglesa a la espa
nola, se va a integrar el recurso de representacion desarrollado en el sistema de B
usqueda de Respuestas. Con ello se pretende
que, a partir del tratamiento logico-conceptual que hace a la representacion formal del texto independiente de la lengua, las preguntas representadas sean traducidas de la lengua inglesa a la espa
nola.
Tal y como se matiza en el tercer captulo, el n
ucleo de la representacion
es la forma logica. En la forma logica, alguna de las palabras del texto a representar como los determinantes y las palabras que indican los
tiempos verbales, no son representadas porque son consideradas como
irrelevantes en la propia representacion. Este hecho implica que, en el
proceso de traduccion de las preguntas a partir de esta representacion,
la propia traduccion va a tener una calidad ligeramente inferior a la obtenida por cualquier sistema de Traduccion Automatica que considera
todas las palabras de las preguntas. Debido a ello y a que el recurso
desarrollado no ha sido originalmente concebido para ser utilizado en
tareas de traduccion, se pretende que los resultados del proceso global
de B
usqueda de Respuestas aplicando la traduccion de las preguntas a
traves del tratamiento logico-conceptual proporcionado por el recurso
no sean muy inferiores a los obtenidos aplicando cualquier sistema de
Traduccion Automatica.
Con ello quedara demostrado que el tratamiento logico-conceptual proporcionado por el recurso que hace que la representacion semantica incorpore la informacion conceptual contenida en WordNet y relacionada
entre las diferentes lenguas a traves de EuroWordNet es perfectamente
valido para ser incorporado en el sistema de B
Desde esta optica quedaran demostrador los matices de completitud
conceptual e independencia de la lengua tratados al inicio del captulo.
5.5.3 Desarrollo
El problema de B
usqueda de Respuestas sobre la coleccion de documentos de EFE en el idioma espa
nol a preguntas traducidas del ingles al
5.5 Participaci
on en la tarea Multilingual Question Answering del CLEF 2008
141
idioma espa
nol se solventa aplicando el sistema de B
usquedas de Respuestas AliQAn (Roger et al. , 2005) desarrollado en el propio grupo
de investigacion. AliQAn es un sistema de B
usqueda de Respuestas en
el dominio abierto que hace un uso intenso de herramientas de PLN, en
concreto, etiquetado POS, analisis parcial y desambiguacion del sentido
de las palabras.
Este sistema, partiendo del analisis parcial, identifica las distintas estructuras gramaticales de una frase, llamadas bloques sintacticos (SB).
Estos bloques se corresponden con sintagmas verbales, sintagmas nominales o sintagmas preposicionales. Para detectar y extraer las respuestas
a las preguntas, a partir de las porciones de texto devueltas por el modulo de Recuperacion de Informacion, establece un emparejado entre los
bloques sintacticos de estas porciones de texto y los bloques sintacticos
de las preguntas.
Con el proposito de traducir las preguntas del ingles al espa
nol para poder ser procesadas por AliQAn se utiliza el tratamiento logicoconceptual que proporciona el recurso de formas logicas desarrollado en
el trabajo de investigacion. En concreto, este proceso se basa en el tratamiento especificado en las secciones 4.4 y 4.4.1 del anterior captulo.
Mediante este procedimiento de traduccion, la traduccion de preguntas
se basa en la traduccion de los diferentes predicados logico-conceptuales
que tiene la representacion semantica de las preguntas. Seg
un lo especificado en el trabajo de investigacion, la representacion semantica,
derivada a partir de la forma logica, no incluye en esta algunos constituyentes del texto como determinantes y tiempos verbales que, al no
tenerlos en la representacion, hacen que la calidad de la traduccion sea
algo inferior a la calidad de la traduccion realizada por cualquier otro
mecanismo de traduccion que disponga de toda la informacion dada en
las frases o expresiones a traducir.
Para demostrar este hecho, se utiliza un sistema de Traduccion Automatica ingles-espa
nol 4 con el que se comparara el resultado global del proceso de B
usqueda de Respuestas ante la traduccion de las preguntas
realizada con este traductor automatico frente a la traduccion de las
preguntas realizada a partir del tratamiento logico-conceptual incorporado en el recurso de formas logicas. Con ello, se pretende demostrar
que, aunque el tratamiento logico-conceptual que proporciona el recurso
de formas logicas, permite obtener una representacion en cualquier lengua de la oracion representada, la traduccion entre diferentes lenguas
a partir de esta representacion, no es tan buena como la Traduccion
4
Free Translation en http://www.freetranslation.com
142
5. Evaluaci
on del recurso l
on formal del texto
Automatica debido a que en esta representacion, no estan representadas

algunas palabras de la frase como determinantes y tiempos verbales que,
no son cruciales en la propia representacion semantica, pero s cobran
especial interes a la hora de traducir una oracion entre las diferentes
lenguas.
Ademas, en sistemas de B
usqueda de Respuestas que tienen un alto
componente ling
ustico, como AliQAn, el hecho de omitir palabras en
la traduccion implica que surjan errores en el etiquetado de los bloques
sintacticos y, en consecuencia, un decremento del resultado global del
proceso de B
5.5.4 Resultados
La tabla 5.10 muestra los resultados del proceso global de B
usqueda
de Respuestas obtenidos en las dos ejecuciones sobre las 200 preguntas tratadas en cada ejecucion. En el marco de la precision, principal
medida de evaluacion de la Recuperacion de Informacion, la ejecucion
que traduce las preguntas mediante Traduccion Automatica obtiene un
12,5 % de precision frente al 9 % de precision obtenido en la ejecucion
que traduce las preguntas a partir del tratamiento logico-conceptual.
Ejecuci
on
Trad. aut.
L
ogico-C.
#R
25
18
#W
173
176
#X
0
3
#U
2
3
% Precisi
on
12.5
9
CSW
0.011
0.006
MRR
0.1450
0.1108
Tabla 5.10. Resultados de la B

usqueda de Respuestas ingles-espa
nol
Considerando estos valores de precision en el marco de la B

usqueda
de Respuestas, la traduccion de las preguntas a partir del tratamiento
logico-conceptual obtiene un rendimiento del 72 % del rendimiento obtenido por la Traduccion Automatica. Teniendo en cuenta que el recurso
logico-conceptual no ha sido originalmente concebido para traducir textos entre diferentes lenguas y, haciendo eco de la perdida de palabras
que tiene el tratamiento logico-conceptual para hacer la traduccion, este
resultado es mucho mas que aceptable.
5.5.5 An
alisis y discusi
on
El principal proposito de la participacion en la tarea Multilingual Question Answering viene marcado por el tratamiento logico-conceptual de
las preguntas formuladas en la lengua inglesa que permite su traduccion a la lengua espa
nola. Este tratamiento requiere la utilizacion de los
5.6 Evaluaci
on en la clasificaci
on de preguntas medicas
WordNets de ambas lenguas relacionados a partir de EuroWordNet.

Analizando los resultados de eficacia obtenidos por el traductor
logico-conceptual y el traductor automatico en la participacion en la
tarea Multilingual Question Answering, se puede concluir que el procedimiento logico-conceptual empleado para resolver el problema de traduccion de las preguntas obtiene unos resultados mas que aceptables.
Se puede concluir que la aplicacion del recurso logico-conceptual como
n
ucleo del proceso de traduccion de la pregunta es un metodo valido
para ser incorporado en el sistema de B
usqueda de Respuestas entre
lenguas cruzadas.
Por ello, se puede concluir que la aplicacion del recurso en la B
usqueda
de Respuestas entre lenguas cruzadas es perfectamente valido desde el
punto de vista de los matices de completitud conceptual e independencia
de la lengua tratados al inicio del captulo.
5.6 Evaluaci
on de preguntas
m
edicas
5.6.1 Introducci
on
Una de las principales tareas de los sistemas de B
es la clasificacion y el analisis de las preguntas formuladas al sistema.
Basicamente esta tarea tiene como proposito principal identificar tanto
el tipo de pregunta como el tipo de respuesta esperado, as como la
deteccion de las palabras clave de la pregunta. Toda esta informacion
la etiqueta de alguna manera para informar de ello al resto de tareas
que componen en su conjunto el proceso de B
Cuando se trabaja en B
usqueda de Respuestas en el dominio abierto, se
tiende a darle mas prioridad a la cobertura que a la precision, esto es, se
le suele dar mas importancia al gran abanico de preguntas de diferente naturaleza capaces de ser contestadas por los sistemas (ej. Donde
esta situado el edificio mas grande del mundo?, Cuantos torneos de la
ATP gano Roger Federer en el a
no 2006?, Cuando se caso por primera
vez Elizabeth Taylor?, Quien es Bill Clinton?,...) que a la precision
de la respuestas devueltas por el sistema para cualquier pregunta. Por
el contrario, cuando se habla de la B
usqueda de Respuestas en los dominios especficos, se reduce notablemente la cobertura por la propia
naturaleza del dominio especfico y la precision pasa a cobrar una mayor
importancia.
La primera tarea que hacen los sistemas de B
usqueda de Respuestas es
la clasificacion de las preguntas formuladas al sistema. Esta tarea re-
143
144
5. Evaluaci
on del recurso l
on formal del texto
quiere de una gran precision porque errores en esta tarea condiciona negativamente el resultado global de la B
usqueda de Respuestas. Ademas,
en cualquier dominio especfico, se reduce notablemente la tipologa de
preguntas capaces de ser resueltas por los sistemas de B
usqueda de
Respuestas. Esto
es, se reduce la cobertura del sistema de B
usqueda
de Respuestas y, en consecuencia, se requiere que el proceso tenga una
elevada precision dada la reducida muestra de preguntas que el sistema
es capaz de resolver.
El objetivo perseguido en este hito consiste en desarrollar un clasificador de preguntas medicas (Terol et al. , 2007) basado en el tratamiento
logico-conceptual de las preguntas y en el manejo de la terminologa
empleada en el dominio medico.
Las diferentes preguntas en el dominio de la medicina pueden ser muy
numerosas, mas a
un si se tienen en cuenta cada una de sus disciplinas.
Con el proposito de construir un clasificador preciso, la tipologa de
preguntas medicas tratadas por el clasificador se centra en las definidas
por Ely et al. (2000) en la taxonoma de preguntas propuesta. Esta taxonoma de preguntas se obtiene de las diez preguntas mas frecuentes
que, seg
un un estudio practicado a 103 medicos de familia de Iowa y
a 49 medicos de atencion primaria de Oregon, manejan este tipo de
especialistas. Concretamente, estas diez preguntas son:
1. What is the drug of choice for condition x?
2. What is the cause of symptom x?
3. What test is indicated in situation x?
4. What is the dose of drug x?
5. How should I treat condition x (not limited to drug treatment)?
6. How should I manage condition x (not specifying diagnostic or therapeutic)?
7. What is the cause of physical finding x?
8. What is the cause of test finding x?
9. Can drug x cause (adverse) finding y?
10. Could this patient have condition x?
5.6 Evaluaci
Para evaluar la validez del clasificador se utiliza la medida de precision,

esto es, la relacion entre el n
umero de preguntas clasificadas correctamente y el n
umero de preguntas clasificadas.
5.6.2 Motivaci
En lo que respecta la evaluacion llevada a cabo hasta este punto del
trabajo de investigacion, se han contemplado u
nicamente las particularidades referidas al tratamiento del texto en el dominio abierto. Por el
contrario y, en el ambito de la evaluacion de la clasificacion de preguntas
planteada en esta seccion del captulo, se va a utilizar el recurso para
realizar la representacion formal del texto en el ambito de un dominio restringido, concretamente, el dominio medico. Con ello se pretende
demostrar la validez del recurso desde el punto de vista del matiz de
independencia del dominio visto al inicio del captulo. Esto es, tanto la
portabilidad del recurso al dominio restringido como el mantenimiento
de sus propiedades pese al proceso de migracion al dominio medico.
Las diferentes tareas de evaluacion vistas hasta este punto del trabajo
de investigacion permiten que los resultados proporcionados por el resto
de sistemas participantes en dichas tareas puedan ser comparados con
los resultados proporcionados por los sistemas desarrollados que utilizan el recurso de formas logicas. En cambio, al ser esta una tarea de
evaluacion ad-hoc, no se pueden contrastar los resultados del clasificador desarrollado con otros clasificadores debido a que no se dispone de
la participacion de tales clasificadores. Con el proposito de contrastar
la validez del clasificador frente a alg
un otro clasificador del mismo tipo
de preguntas, se va a integrar en la evaluacion otro clasificador desarrollado mediante aprendizaje automatico utilizando la tecnica Support
Vector Machine (SVM) que es la tecnica que, en general, mejor resultados de clasificacion de preguntas obtiene en el tratamiento basado en
aprendizaje automatico (Zhang & Lee, 2003).
El problema de la clasificacion de las preguntas medicas seg
un la taxonoma planteada por Ely et al. (2000) se resuelve mediante la comparacion de la representacion semantica asociada a la pregunta con cada
una de las representaciones semanticas asociadas a las preguntas genericas de la taxonoma. Mediante esta comparacion, el clasificador debe
decidir con cual de los diez tipos genericos se corresponde la pregunta
formulada al sistema. Para realizar esta funcion el sistema necesita de
conocimiento semantico del dominio medico.
El recurso de representacion semantica desarrollado en el trabajo de
investigacion, a traves del tratamiento logico-conceptual en el dominio
medico llevado a cabo sobre la forma logica, re
une los requisitos necesa-
145
146
5. Evaluaci
on del recurso l
on formal del texto
rios para su integracion en el clasificador de preguntas medicas. Por ello,

se pretende que el n
ucleo del clasificador sea la propia representacion
semantica de las preguntas tratadas. A partir de las representaciones
semanticas de las preguntas genericas y de cada una de las preguntas
tratadas, se pretende aplicar una tecnica de comparacion para que el
clasificador decida el tipo de la pregunta tratada.
Por ello, el segundo proposito de la aplicacion de la investigacion en
la clasificacion de preguntas en el dominio medico pretende demostrar
tambien la validez del recurso en el ambito de la propia tarea visto desde el enfoque del matiz de completitud conceptual detallado al inicio
del captulo. Con ello quedara tambien demostrado que el tratamiento
logico-conceptual proporcionado por el recurso que hace que la representacion semantica incorpore la informacion conceptual contenida en
el tesauro medico asociada a las palabras de las preguntas y, a su vez,
que esta informacion conceptual sea no ambigua, es perfectamente valido para ser incorporado en el clasificador de las preguntas medicas.
Para demostrar la validez del recurso de representacion desde el punto
de vista del matiz de la completitud conceptual se realiza la evaluacion
de la clasificacion de las preguntas. En esta evaluacion se pretende que,
los resultados del sistema desarrollado esten en la lnea e incluso superen
los resultados obtenidos por el otro clasificador basado en aprendizaje
automatico.
5.6.3 Desarrollo
En esta subseccion del captulo, en un primer lugar se van a introducir
las consideraciones tenidas en cuenta para el desarrollo del clasificador de preguntas medicas basado en el tratamiento logico-conceptual.
Posteriormente, se va a presentar la evaluacion ad-hoc llevada a cabo
sobre este clasificador (Terol et al. , 2007). En tercer lugar se presentaran las caractersticas basicas del clasificador basado en aprendizaje
automatico (SVM). Por u
ltimo, se introducen las caractersticas de la
nueva evaluacion ad-hoc, mas extensa que la anterior, utilizada para
contrastar la validez de ambos clasificadores.
Desde el punto de vista del desarrollo del clasificador basado en el tratamiento logico-conceptual, se considera que cada una de las diez preguntas genericas tiene uno o mas patrones semanticos asociados. En
concreto, un patron semantico esta compuesto por una combinacion de
verbos y tipos semanticos que pueden o deben aparecer en cualquier
pregunta expresada en lenguaje natural que este asociada a una de las
preguntas genericas tratadas. Como se detalla en el captulo anterior, la
semantica asociada a la terminologa medica expresada en este dominio
5.6 Evaluaci
es manejada a partir de la informacion disponible en el Metatesauro

(Humphreys & Lindberg, 1993) de UMLS (Lindberg & Humphreys,
1993). Por ejemplo, los patrones Pharmacologic Substance + treat +
Sign or Symptom y Clinical Drug + control + Disease or Syndrome
seran dos ejemplos de patrones semanticos asociados a la primera pregunta generica. Los patrones tienen asociados dos umbrales que relacionan el n
umero de entidades medicas que contienen:
MELT, definido como el n
umero mnimo de entidades medicas que
la forma semantica de una pregunta debe tener para poder asociarse
con el patron.
MEUT, que se define como el n
umero maximo de entidades medicas
que la forma semantica de una pregunta puede tener para poder asociarse con el patron.
En caso concreto de los dos patrones de anterior ejemplo, tanto MELT
como MEUT quedaran instanciadas a dos entidades medicas.
Al igual que las preguntas genericas tienen uno o mas patrones semanticos asociados, cada una de las preguntas a clasificar tiene una u
nica forma semantica asociada. La forma semantica de una pregunta a clasificar
tiene la misma estructura que un patron semantico, es decir, consta de
uno o mas verbos y tipos semanticos. A continuacion, el ejemplo 55
detalla la forma semantica asociada a una pregunta:
(55) Pregunta: What drug can I take to manage my high

blood pressure?
Forma sem
antica: Pharmacologic Substance + take
+ manage + Disease or Syndrome
La tarea de clasificacion de preguntas debe decidir si la pregunta a
clasificar pertenece a alguna clase (se empareja con alguna pregunta
generica) o no pertenece a ninguna clase (no se empareja con ninguna
pregunta generica). Para conseguir este objetivo, esta tarea se enfoca
en el tratamiento de las formas semanticas de las preguntas a clasificar y los patrones semanticos de las preguntas genericas, y se realiza
siguiendo los siguientes pasos:
Derivar la representacion semantica asociada a la pregunta a clasificar, tal y como se explica en el captulo anterior.
147
148
5. Evaluaci
on del recurso l
on formal del texto
Extraer el verbo principal de la representacion semantica.

Derivar la forma semantica de la pregunta a clasificar, calculando con
ello su marcador de entidades medicas (MESQ). MESQ se define como el n
umero de entidades medicas en la forma de la pregunta del
usuario.
Filtrar aquellos patrones en cuya lista de verbos este contenido el verbo principal de la representacion semantica de la pregunta a clasificar
y que, ademas, cumplan la restriccion M ELT M ESQ M EU T .
Asignar la medida de emparejado de entidades (EMM) definida como el n
umero de entidades medicas que se deben emparejar entre la
pregunta y el patron.
Seleccionar el patron que minimiza diferencia entre EMM y MELT.
A continuacion, el ejemplo 56 muestra un escenario de la tarea de clasificacion de la pregunta concreta What drug manages temperature?,
emparejada con el primer tipo generico de preguntas de la taxonoma.
(56) Pregunta: What drug manages temperature?

Representaci
on sem
antica: T121:C1254351:drug:NN(x2)
manage:VB(e1, x2, x1) T032:C0005903:temperature:NN(x1)
Verbo Principal: manage
Forma sem
antica: Pharmacologic Substance(T121) +
manage + Organism Attribute(T032). MESQ=2
Patrones Comparables: 5 P11 , P12 , P13 , P14 , P15 y
P16
Q
Q
Q
Q
Q
EMM: P11
= 1, P12
= 2, P13
= 1, P14
= 0, P15
=1
Q
y P16
=0
Patr
on Seleccionado: P12
5
En este ejemplo s
olo se comparan patrones del primer tipo generico
5.6 Evaluaci
Clase de Pregunta Gen

erica: GE1 (primera pregunta generica)
La primera tarea de evaluacion ad-hoc propuesta para cuantificar la
validez del clasificador de preguntas medicas basado en el tratamiento
logico-conceptual (Terol et al. , 2007) se basa en una evaluacion de similares caractersticas realizada por Chung et al. (Chung et al. , 2004)
en un trabajo de investigacion previo sobre la B
en dominios restringidos. Concretamente, para definir el corpus de evaluacion de preguntas, por una parte, se han desarrollado una serie de
preguntas que encajan con cada una de las preguntas genericas tratadas
por el clasificador y, por otra parte, se ha utilizado el corpus de las 200
preguntas de evaluacion de la tarea en ingles QA del CLEF 2005. De
este modo, el corpus de evaluacion se puede dividir en las siguientes
clases de preguntas:
GQ: 50 preguntas asociadas a la taxonoma de preguntas tratada
por el clasificador del modo: GQ1 es la subclase que contiene cinco
preguntas asociadas con la primera pregunta generica, GQ2 es la subclase que contiene cinco preguntas asociadas con la segunda pregunta
generica, ..., GQ1 0 es la subclase que contiene cinco preguntas asociadas con la decima pregunta generica.
OQ: las 200 preguntas de la tarea de evaluacion QA en ingles del
CLEF 2005.
De este modo, el clasificador debe clasificar cada una de las preguntas
tratadas en una de las siguientes clases de preguntas:
GE: Esta clase de preguntas incluye las preguntas genericas de la taxonoma tratada siendo: GE1 la subclase asociada a la primera pregunta
generica, GE2 la subclase asociada a la segunda pregunta generica,
..., GE1 0 la subclase asociada a la decima pregunta generica.
OE: El resto de preguntas de cualquier otro dominio.
De este modo, la tarea de evaluacion consiste en comprobar si cada una
de las 250 preguntas (GQ1 , ..., GQ1 0 y OQ) tratadas por el clasificador
son correctamente clasificadas en sus clases asociadas (GE1 , ..., GE1 0 y
OE). Como medida de evaluacion aplicamos la medida de precision (P)
definida como el ratio entre el n
umero de preguntas clasificadas correctamente y el n
umero de preguntas clasificadas.
149
150
5. Evaluaci
on del recurso l
on formal del texto
El principal cometido del clasificador consiste en decidir, dada una pregunta, si dicha pregunta se corresponde con una de las 10 preguntas
genericas tratadas, y en este caso cual, o si por el contrario, dicha pregunta no se corresponde con ninguna de las genericas de la taxonoma
tratada. Para ello, el clasificador realiza una comparacion entre la forma semantica de la pregunta tratada y los patrones semanticos de las
preguntas genericas que realiza del siguiente modo:
El primer paso consiste en derivar la forma semantica de la pregunta
tratada as como su MESQ, del mismo modo que se ha visto en el
ejemplo 56.
Seguidamente, se extrae el verbo principal de la forma semantica.
El siguiente paso consiste en encontrar los patrones semanticos de
las preguntas genericas cuyo verbo coincida con el verbo de la forma semantica de la pregunta tratada y se cumpla que M ELT
M ESQ M EU T .
Finalmente calculamos el factor EMM definido como el n
umero de
entidades medicas que tienen en com
un la forma semantica de la pregunta y el patron semantico.
El u
ltimo paso consiste en quedarse con el patron semantico cuya diferencia entre el factor EMM y el umbral MELT es mnima.
Si ning
un patron semantico cumple los requisitos de este proceso, entonces la pregunta tratada no se asocia con ninguna de las preguntas
genericas de la taxonoma.
Los resultados obtenidos en esta primera tarea de clasificacion se muestran en las tablas 5.11 y 5.12. En la tabla 5.11 se muestran los resultados
obtenidos en la clasificacion de cada subclase de preguntas, mientras que
en la tabla 5.12 se muestran los mismos resultados desde un punto de
vista mas global de la evaluacion taxonoma de preguntas genericas.
Se puede apreciar en la tabla 5.12 que el resultado global de la clasificacion de preguntas es de un 94,4 %. Analizando este valor se puede llegar
a una primera conclusion de que el metodo de clasificacion de preguntas
medicas desarrollado a partir del tratamiento logico-conceptual aportado en el recurso, es un metodo factible.
Con el proposito de realizar una comparacion con alg
un otro tipo de
clasificador, en el seno del grupo de investigacion, se ha desarrollado
un clasificador para el mismo tipo de preguntas basado en aprendizaje
5.6 Evaluaci
Clase Clasificada
GQ1
GQ2
GQ3
GQ4
GQ5
GQ6
GQ7
GQ8
GQ9
GQ10
OQ
Clase Relacionada
GE1
GE2
GE3
GE4
GE5
GE6
GE7
GE8
GE9
GE10
OE
Preguntas
5
5
5
5
5
5
5
5
5
5
200
Correctas
5
5
3
4
5
4
4
3
5
4
194
Precisi
on
1
1
0.6
0.8
1
0.8
0.8
0.6
1
0.8
0.97
Tabla 5.11. Evaluaci

on detallada de la clasificaci
on de preguntas
Clase Clasificada
GQ
OQ
Global
Clase Relacionada
GE
OE
Preguntas
50
200
250
Correctas
42
194
231
Precisi
on
0.84
0.97
0.944
Tabla 5.12. Evaluaci

on global de la clasificaci
on de preguntas
automatico utilizando la tecnica SVM (Bisbal et al. , 2005). Este clasificador se basa en caractersticas textuales superficiales que hacen un
escaso uso de recursos y herramientas ling
usticas adicionales.
Este segundo clasificador basado en aprendizaje automatico requiere de
un entrenamiento previo a la clasificacion. Para ello se han desarrollado
300 preguntas (30 preguntas por cada uno de los 10 tipos genericos).
En el Anexo C estan detalladas cada una de estas 300 preguntas.
Para la clasificacion se elaborado tres diferentes colecciones de preguntas que tambien estan detalladas en el anexo C:
Coleccion 1: Contiene cien preguntas de test (diez de cada tipo generico) con un lexico similar a las preguntas de entrenamiento.
Coleccion 2: Modifica las preguntas de la coleccion 1 incluyendo alteraciones del lexico consistentes en el cambio de los tiempos verbales
y la utilizacion de sinonimos para los verbos y los sustantivos.
Coleccion 3: Modifica las preguntas de la coleccion 2 incluyendo alteraciones del lexico consistentes en la supresion de la terminologa
gua. En esta version, las expresiones drug accupril y situation
constipated de la coleccion 2 pasaran a la forma accupril y constipated respectivamente.
151
152
5. Evaluaci
on del recurso l
on formal del texto
Luego, en la segunda tarea de evaluacion ad-hoc de la clasificacion de

las preguntas medicas, se van a tener en cuenta estas tres colecciones.
Para ello, cada uno de los dos clasificadores va a lanzar tres ejecuciones
de la clasificacion: La primera ejecucion toma como origen la coleccion
1, la segunda hace lo propio con la segunda coleccion mientras que la
tercera considera la tercera coleccion.
5.6.4 Resultados
La tabla 5.13 muestra los resultados de la clasificacion global de preguntas en terminos de precision de los dos clasificadores en cada una de
las tres ejecuciones propuestas en la evaluacion.
Ejecuci
on
1
2
3
Clasificador l
ogico-conceptual
0.98
0.98
0.98
Clasificador SVM
1
0.73
0.45
Tabla 5.13. Precisi

on de los clasificadores en cada ejecuci
on de la evaluaci
on
Tras apreciar los resultados obtenidos por ambos clasificadores, cabe

concluir que el clasificador logico-conceptual es constante en la clasificacion obteniendo una precision del 98 % pese a las alteraciones del
lexico introducidas en las diferentes ejecuciones. Por el contrario, el clasificador basado en aprendizaje automatico es muy irregular, empeorando considerablemente los resultados de la clasificacion ante alteraciones
del lexico. Este segundo clasificador, al igual que cualquier clasificador
basado en aprendizaje automatico, necesita una muestra amplia y muy
rica en cuanto a variaciones lexicas de cada tipo de preguntas para obtener un 100 % de precision.
Ademas, por este mismo motivo, en esta segunda tarea de evaluacion
ad-hoc, no se han considerado otras preguntas como las del CLEF tratadas en la primera evaluacion. Resulta practicamente inviable disponer
de una muestra de entrenamiento con las infinitas preguntas que se le
podran hacer al clasificador, que le permitiese realizar una clasificacion
post-entrenamiento con ciertas garantas.
5.6.5 An
alisis y discusi
on
En el ambito de la evaluacion de la clasificacion de preguntas en el dominio medico, se ha utilizado el tratamiento logico-conceptual proporcionado por el recurso para realizar la representacion formal del texto
5.7 Conclusiones
en el ambito del restringido dominio medico.

Al ser esta una tarea de evaluacion ad-hoc, con el proposito de comparar los resultados obtenidos por el clasificador logico-conceptual con
alg
un otro tipo de clasificador, se ha mediante aprendizaje automatico
utilizando la tecnica Support Vector Machine (SVM) que es la tecnica
que, en general, mejor resultados de clasificacion de preguntas obtiene
en el tratamiento basado en aprendizaje automatico (Zhang & Li, 2005).
El problema de la clasificacion de las preguntas medicas seg
un la taxonoma planteada por Ely et al. (2000) se resuelve mediante la comparacion de la representacion semantica asociada (forma semantica) a
la pregunta con cada una de las representaciones semanticas asociadas
a las preguntas genericas de la taxonoma (patrones semanticos). Mediante esta comparacion, el clasificador debe decidir con cual de los diez
tipos genericos se corresponde la pregunta formulada al sistema. Para
realizar esta funcion, el sistema necesita de conocimiento semantico del
dominio medico obtenido a partir del metatesauro de UMLS (Humphreys & Lindberg, 1993).
Tras realizar un analisis de los resultados de la clasificacion de preguntas
medicas obtenidos en ambas tareas de evaluacion ad-hoc, se demuestra
la validez del recurso desde el punto de vista del matiz de independencia
del dominio visto al inicio del captulo. Esto es, tanto la portabilidad
del recurso al dominio restringido como el mantenimiento de sus propiedades pese al proceso de migracion al dominio medico.
Tambien, en el marco de este analisis y comparacion de los resultados
de ambos clasificadores, se demuestra la validez del propio recurso desde
el enfoque del matiz de completitud conceptual detallado al inicio del
captulo. Esto
es, queda demostrado tambien que el tratamiento logicoconceptual proporcionado por el recurso que hace que la representacion
semantica incorpore la informacion conceptual contenida en el tesauro
medico asociada a las palabras de las preguntas y, a su vez, que esta
informacion conceptual sea no ambigua, es perfectamente valido para
ser incorporado en el clasificador de las preguntas medicas.
5.7 Conclusiones
A lo largo del captulo se justifica la necesidad de evaluar toda la funcionalidad proporcionada por el recurso logico-conceptual a partir de
diferentes evaluaciones que, en su conjunto, engloben las diferentes aportaciones efectuadas por el recurso logico-conceptual.
153
154
5. Evaluaci
on del recurso l
on formal del texto
Por ello, para demostrar la validez del recurso logico-conceptual se define un marco de evaluacion en el que queden integrados los componentes
principales que constituyen el recurso logico-conceptual. Una vez definido este marco, la evaluacion global del recurso se estructura en evaluaciones parciales que, tanto de manera individual como de un modo
colectivo, indican la validez de cada uno de estos componentes as como
la validez global del recurso logico-conceptual.
Debido a que el recurso logico-conceptual consiste en un mecanismo de
representacion formal del texto basado en formas logicas cuyos componentes o caractersticas fundamentales son: ser precisa, conceptualmente
completa, independiente del dominio e independiente de la lengua, los
matices que contempla este marco de evaluacion son: precision, completitud conceptual e independencia tanto del dominio como de la lengua.
Por ello, la evaluacion practicada al recurso es llevada a cabo a traves
de diferentes tareas de evaluacion que, en su conjunto, engloban todos
los matices detallados. De este modo, la utilidad o validez que la incorporacion del recurso ejerce en los sistemas de PLN es evaluada de
manera global en el marco de la tarea o tareas estandares de evaluacion
de cada sistema de PLN.
En el proceso de analisis y determinacion de las tareas de evaluacion que
deben ser practicadas al recurso para demostrar su validez, en un primer
lugar, se tienen en cuenta las campa
nas internacionales de evaluacion
existentes cuyas tareas consideren alguno de los matices planteados. En
segundo lugar, para el resto de matices no contemplados por este primer conjunto de tareas de evaluacion, es necesario el planteamiento de
tareas de evaluacion ad-hoc. Finalmente, se eval
ua la validez del recurso
desarrollado en la investigacion en el marco de cada una de estas tareas.
En el ambito del amplio espectro de diferentes sistemas de PLN donde
el recurso puede ser incorporado con la finalidad de evaluar la validez
que la incorporacion del recurso aporta a cada uno de los diferentes
sistemas, el hecho de llevar a cabo este proceso de evaluacion con todo
el abanico de sistemas de PLN hara interminable el propio proceso de
evaluacion. Con objeto de evitar esto, se ha escogido una muestra mas
reducida del espectro de sistemas de PLN que abarque las necesidades
de representacion formal del texto que tienen en su conjunto el amplio espectro de sistemas de PLN. Concretamente, los sistemas de PLN
en los que se eval
ua la validez que aporta la incorporacion del recurso
logico-conceptual son: Recuperacion de Informacion, B
usqueda de Repuestas y, Vinculacion o Implicacion Textual.
5.7 Conclusiones
Mas concretamente, para la evaluacion del recurso se han analizado

las tareas Cross-Language Speech Retrieval (CL-SR), Answer Validation Exercise (AVE) y Multiple Language Question Answering (QACLEF), todas ellas pertenecientes a las campa
nas de evaluacion del
CLEF. Ademas, la tarea Recognising Textual Entailment (RTE) en el
marco de la campa
na de evaluacion PASCAL RTE tambien ha sido
considerada en el escenario de la evaluacion del recurso. Por u
ltimo,
tambien se efect
ua una evaluacion ad-hoc de la clasificacion de preguntas medicas seg
un la taxonoma generica planteada en el estudio
realizado por Ely et al. (2000).
En la tarea CL-SR de la edicion del a
no 2005 de la campa
na de evaluacion CLEF, se pretende demostrar que la aplicacion de heursticas
del tipo ling
ustico sobre el proceso de Recuperacion de Informacion
contribuyen en la mejora de la eficacia del propio proceso de recuperacion de informacion. A pesar de que este tipo de heursticas pueden
ser llevadas a cabo mediante diferentes representaciones formales del
texto, se pretende demostrar tambien que la forma logica es, de todas
ellas, la representacion formal que optimiza la eficiencia de la aplicacion
de las heursticas ling
usticas. Con ello se pretende demostrar la validez del recurso desde el punto de vista del matiz de precision definido
en el marco de la evaluacion. Desde el punto de vista de la eficacia,
analizando los resultados de ambas tareas de evaluacion, se demuestra
que, en efecto, la aplicacion de heursticas del tipo ling
ustico sobre el
proceso de Recuperacion de Informacion contribuye al incremento de la
precision del propio proceso de Recuperacion de Informacion. Desde el
punto de vista de la eficiencia, se verifica tambien que, la aplicacion de
las formas logicas en el desarrollo de las heursticas del tipo ling
ustico
es la mas optima frente a otro tipo de representaciones formales del
texto. Con todo ello se puede concluir que el recurso logico-conceptual
es perfectamente valido desde el punto de vista del matiz de precision
definido en el marco de la evaluacion.
Con la participacion en las tareas RTE y AVE se pretende demostrar
que el recurso logico-conceptual es valido desde el punto de vista del
matiz de completitud conceptual definido en el marco de la evaluacion.
Con ello quedara demostrado que el tratamiento logico-conceptual que
aporta el recurso mediante la incorporacion de la informacion conceptual no ambigua contenida en WordNet asociada a las palabras del
par texto-hipotesis sobre sus respectivas representaciones semanticas es
perfectamente valido para su incorporacion en el n
ucleo del sistema
de Vinculacion Textual. Tras analizar los resultados obtenidos por el
sistema de Vinculacion Textual en ambas tareas y comparar estos resultados con los obtenidos por el resto de sistemas se concluye la validez
del sistema de vinculacion textual desarrollado a partir del tratamiento
155
156
5. Evaluaci
on del recurso l
on formal del texto
logico-conceptual y, en consecuencia, se demuestra la validez del recurso logico-conceptual desde el punto de vista del matiz de completitud
conceptual definido en el marco de la evaluacion.
Mediante la participacion en la tarea QACLEF se pretende demostrar
que el recurso logico-conceptual es valido desde el punto de vista de los
matices de completitud conceptual e independencia de la lengua definidos en el marco de la evaluacion. Analizando los resultados en esta
tarea se demuestra que el recurso logico-conceptual es valido desde estos dos matices, siendo capaz de obtener una representacion com
un de
cualquier oracion expresada en sus diferentes lenguas a traves del tratamiento logico-conceptual.
Mediante la participacion en la tarea ad-hoc de clasificacion de preguntas medicas se pretende demostrar que el recurso logico-conceptual es
valido desde el punto de vista de los matices de completitud conceptual e independencia del dominio definidos en el marco de la evaluacion. Analizando los diferentes resultados obtenidos por el clasificador
de preguntas logico-conceptual y comparandolos con los obtenidos por
el clasificador de preguntas basado en aprendizaje automatico se concluye que la validez del recurso logico-conceptual desde ambos matices.
En general y, tras analizar los resultados de la evaluacion del recurso
logico-conceptual en el marco de las evaluaciones definido en estas tareas
y, considerando los matices que contemplan cada una de ellas, cabe
concluir que el recurso logico-conceptual desarrollado en la investigacion
es preciso, conceptualmente completo e independiente tanto del dominio
como de la lengua. Con ello quedan totalmente alcanzados los objetivos
planteados al inicio del trabajo de investigacion.
6. Conclusiones finales
Durante los u
ltimos a
nos se esta produciendo un notable crecimiento
de la cantidad de informacion multiling
ue en formato digital unido a
la fuerte expansion de las comunicaciones entre ordenadores como va
principal de transmision de informacion entre usuarios. La gran cantidad de informacion multiling
ue disponible junto al creciente n
umero de
usuarios finales que disponen de acceso directo a dicha informacion a
traves de las redes de ordenadores, ha derivado la investigacion en sistemas de informacion textual o sistemas de PLN que faciliten el analisis,
la localizacion, la gestion, el acceso y el tratamiento automatico de toda
esta informacion multiling
ue.
Aparte de esta cantidad ingente de informacion multiling
ue que debe
ser tratada por los sistemas de PLN, se debe considerar tambien que en
los u
ltimos a
nos se esta produciendo una adaptacion de aplicaciones o
sistemas de PLN del dominio abierto al dominio restringido, y viceversa.
Los diferentes sistemas de PLN (B
usqueda de Respuestas, Recuperacion
de Informacion, Generacion de Res
umenes, Categorizacion Automatica
del Texto, ...) no procesan el texto directamente tal cual ha sido escrito o
transcrito sino que, previo a su procesamiento, el texto es transformado
en una representacion formal que preserva sus caractersticas relevantes.
Es por ello por lo que la representacion formal del texto es una cuestion
muy importante a tener en cuenta en el PLN.
El trabajo de investigacion desarrollado en esta tesis profundiza en el estudio de los mecanismos de representacion formal del texto que incorporan los diferentes sistemas de PLN para realizar su cometido. Dadas las
necesidades de procesamiento del texto tanto en entornos multiling
ues
como en entornos multidominio, se ha definido un nuevo mecanismo
o recurso de representacion formal del texto que puede ser utilizado
por cualquier sistema de PLN con la particularidad de ser sencillamente adaptable y portable tanto a cualquier dominio como a cualquier
lengua.
158
6.1 Aportaciones
A continuacion se resumen las principales contribuciones de esta Tesis:
1. Recopilacion de los diferentes tipos de sistemas de PLN.
Se han descrito las caractersticas basicas de las diferentes aplicaciones de PLN en base a las actuaciones que deben llevar a cabo
para realizar su cometido. Se han establecido una serie de pautas
para la clasificacion de este tipo de aplicaciones seg
un el grado de
informacion ling
ustica utilizado en el desempe
2. Analisis de las u
ltimas tendencias en los sistemas de PLN.
Se ha efectuado un analisis de las predisposiciones surgidas durante
la u
ltima decada en los sistemas mas comunes del PLN, detectandose que:
a) Estos sistemas son capaces de procesar el texto tanto en el dominio abierto como en cualquier dominio restringido.
b) Los sistemas de PLN son capaces de trabajar indistintamente en
diferentes lenguas.
3. Recopilacion, estudio y clasificacion de los modelos de representacion formal del texto.
Se ha justificado la necesidad que tienen los diferentes sistemas de
PLN de disponer de alg
un mecanismo de representacion formal del
texto que facilite su analisis y comprension. En esta Tesis se ha
realizado una clasificacion y un profundo estudio de los diferentes
enfoques de representacion formal del texto existentes, as como una
comparacion de los diferentes enfoques destacando las ventajas e inconvenientes de unos frente a otros. Se ha efectuado tambien un
estudio referente a la integracion de estos modelos de representacion formal del texto en los principales sistemas de PLN.
4. Analisis y estudio de los modelos de representacion formal del texto
basados en logica y en formas logicas.
Se examinan los diferentes modelos de representacion del conocimiento que hacen uso de un fuerte formalismo logico, desembocando
en un estudio exhaustivo de los dos modelos de representacion del
texto basados en formas logicas mas utilizados y referenciados en el
6.1 Aportaciones
PLN durante la u
ltima decada.
5. Definicion de un nuevo modelo de representacion formal del texto
basado en formas logicas.
El recurso logico-conceptual es un modelo de representacion formal
del texto basado en formas logicas que se diferencia del resto por:
a) El metodo de inferencia de la forma logica se realiza de manera composicional a partir del arbol de dependencias de la frase
resolviendo, en un primer lugar, los nodos hoja del arbol de dependencias y, en segundo lugar, las relaciones de dependencia
entre los nodos intermedios del arbol hasta llegar a la raz donde, definitivamente, queda inferida la forma logica.
b) La informacion semantica representada en la forma logica se
efect
ua mediante los conceptos asociados a las palabras de la
frase que quedan representadas mediante los predicados. Si,
ademas, el recurso o recursos utilizados para extraer esta informacion conceptual de las palabras permite adquirir mas informacion semantica que pueda resultar de utilidad en la representacion como los tipos o categoras semanticas de los conceptos,
esta informacion es incorporada tambien en la propia representacion.
c) Este tratamiento hace que el recurso logico-conceptual sea tanto
independiente del dominio como de la lengua. La portabilidad
del recurso logico-conceptual tanto entre diferentes dominios como entre diferentes lenguas depende u
nica y exclusivamente de
la disposicion o no que se tenga de un recurso en el que queden
conceptualizadas las palabras del nuevo dominio o la nueva lengua a tratar.
6. Definicion de un nuevo marco de evaluacion.
Con objeto de evaluar la validez del recurso logico-conceptual se ha
definido un marco de evaluacion en el que quedan integrados los
componentes principales del recurso. Este marco de evaluacion global se estructura en evaluaciones parciales con objeto de, tanto de
manera individual como de un modo colectivo, indicar la validez de
cada uno de estos componentes as como la validez global del recurso
logico-conceptual. En este marco de evaluacion han sido incluidas
diferentes tareas de PLN:
159
160
a) Evaluacion del recurso logico-conceptual en tareas de Recuperacion de Informacion.

Mediante la evaluacion en la tarea Cross Language Speech Retrieval en el ambito de las conferencias CLEF-2005 y CLEF-2006
se verifica la validez del recurso logico-conceptual desde el punto
de vista del matiz de precision definido en el marco global de
evaluacion.
b) Evaluacion del recurso logico-conceptual en tareas de Implicacion o Vinculacion Textual.
Al evaluar el recurso logico-conceptual en la tareas Recognising
Textual Entailment, en el ambito de la conferencia PASCAL2006, y Answer Validation Exercise, en el marco de la conferencia CLEF-2006, queda consolidada la validez del recurso logicoconceptual desde el punto de vista del matiz de completitud conceptual definido en el marco global de evaluacion.
c) Evaluacion del recurso logico-conceptual en tareas de B
usqueda
de Respuestas.
Mediante la evaluacion en la tarea Multilingual Question Answering en el ambito de las conferencia CLEF-2008 se verifica
la validez del recurso logico-conceptual desde el punto de vista
de los matices de completitud conceptual e independencia de la
lengua definidos en el marco global de evaluacion.
d ) Evaluacion del recurso logico-conceptual en tareas de clasificacion de preguntas.
Al evaluar el recurso logico-conceptual en la tarea ad-hoc de clasificacion de preguntas medicas queda consolidada la validez del
recurso logico-conceptual desde el punto de vista de los matices
de completitud conceptual e independencia del dominio definidos en el marco global de evaluacion.
6.2 Trabajos futuros

Desde el inicio de la investigacion, el objetivo del recurso logicoconceptual ha sido siempre el incremento paulatino de su funcionalidad.
En esta lnea, las directrices de estudio futuras son las siguientes:
6.2 Trabajos futuros
Incorporacion de roles semanticos en la representacion.

La informacion semantica presente en la representacion formal del
texto se corresponde con la conceptualizacion de determinados predicados de la forma logica. Especialmente en la u
ltima decada, los roles
semanticos han emergido de un modo notable en diferentes sistemas
de PLN. Por ello, se pretende dotar al recurso logico-conceptual de
esta nueva funcionalidad que proporcione a la representacion formal
del texto la informacion relativa a los roles semanticos para que, de
este modo, los diferentes sistemas de PLN que hagan uso del recurso
logico-conceptual puedan tener toda esta informacion semantica en el
desempe
Resolucion de la correferencia.
Tras un periodo de tiempo en el que se le haba restado importancia
frente a otra problematica, la correferencia esta volviendo a tener un
auge en los u
ltimos a
nos en el seno del PLN. Por ello, se pretende
dotar al recurso logico-conceptual de tecnicas que resuelvan este problema e identifiquen la correferencia, cuando esta se produzca, en la
representacion formal del texto, facilitando as esta informacion a los
sistemas de PLN.
Adaptacion del recurso logico-conceptual ante los nuevos retos de la
comunicacion digital.
La actual Sociedad de la Informacion utiliza nuevos instrumentos para la propagacion de la informacion permitiendo que sus usuarios
no sean solo consumidores, sino tambien productores de sus propios
mensajes. Estos nuevos mensajes se integran da a da en Internet
conformando la llamada web 2.0, como la mayor plataforma comunicativa y colaborativa de la historia. Como consecuencia, se dispone
de un gran volumen de informacion digital en el que destacan los registros de uso con diferentes grados de ritualidad (formal/informal) y
especializacion, emitidos desde diferentes actitudes subjetivas y desde
diferentes situaciones de espacio y tiempo que deben ser analizadas y
comprendidas por los sistemas de PLN.
Ello hace que en la representacion formal del texto a traves del recurso
logico-conceptual deban quedar reflejados los detalles referentes a los
sentimientos y actitudes del productor de la informacion analizando,
entre otros, expresiones del tipo gestual como son los emoticonos con
el objetivo de detectar e interpretar contenidos indirectos como son
la irona y el sarcasmo.
161
162
Otro detalle a tener en cuenta consiste en contemplar en la representacion formal del texto las nuevas unidades lexicas que simplifican la
escritura de palabras y expresiones utilizando menor n
umero de caracteres. Ejemplo de ello son expresiones del tipo xq (porque), aptc
(apetece), see u (adios), etc.
Extension de la evaluacion del recurso a otros sistemas de PLN.
Se ha evaluado el recurso en el ambito de la Recuperacion de Informacion, la B
usqueda de Respuestas y Vinculacion Textual. Se pretende
extender este espectro de evaluacion a otros sistemas de PLN tales como la Categorizacion Automatica del Texto, la Generacion de
Res
umenes, los Sistemas de Dialogo, la Extraccion de Informacion,
etc.
Estudio de nuevas metricas de evaluacion.
Se han considerado metricas de evaluacion que indican la validez del
recurso desde los puntos de vista de las propiedades de precision,
completitud conceptual e independencia tanto del dominio como de
la lengua. Estas metricas han sido tenidas en cuenta desde la perspectiva de los conceptos de eficacia y eficiencia. Sera interesante sopesar
tambien nuevas metricas que indiquen la validez de las propiedades
del recurso desde el punto de vista del concepto de efectividad.
Incorporacion del recurso a una plataforma de integracion de herramientas de PLN.
Desde el punto de vista de la programacion, la integracion del recurso
efectuada por los sistemas de PLN no ha sido trivial ya que previamente se han tenido que resolver diferentes dependencias entre los
lenguajes de programacion y las plataformas. Para evitar este tipo de
problemas, la incorporacion del recurso a la plataforma de integracion
InTime (Gomez, 2008) permitira que los diferentes sistemas de PLN
pudiesen integrar el recurso de una manera modular y, en consecuencia, ello permitira una extensibilidad del recurso hacia los sistemas
de PLN de un modo sencillo.
6.3 Producci
on cientfica
Revistas indexadas (SCI):
R.M. Terol, P. Martnez-Barco y M. Palomar (2007). A knowledge
based method for the medical question answering problem. Compu-
6.3 Producci
on cientfica
ters in Biology and Medicine 37(10). Indice de impacto en 2007:

r 2008, published by Thomson
1.170 (Journal Citation Reports
Reuters)
Revistas no indexadas:
R.M. Terol, P. Martnez-Barco y M. Palomar (2006). Aplicacion de
tecnicas basadas en PLN al tratamiento de preguntas medicas en
B
usqueda de Respuestas. Procesamiento del Lenguaje Natural, 37.
Ferrandez, R.M. Terol, R. Mu
O.
noz, P. Martnez-Barco y M. Palomar (2006). Un Sistema basado en Conocimiento para el Reconocimiento de Implicacion Textual. Procesamiento del Lenguaje Natural, 37.
Captulos de libro:
R.M. Terol, M. Puchol-Blasco, M. Pardi
no, J.M. Gomez, S. Roger, K. Vila, A. Ferrandez, J. Peral y P. Martnez-Barco (2009).
Integrating Logic Forms and Anaphora Resolution in the AliQAn
System, en: Peters, C.;... (Eds.) .... 9th Workshop of the CrossLanguage Evaluation Forum, CLEF 2008, Aarhus, Denmark, September 17-19, 2008, Revised Selected Papers. Lecture Notes in Computer Science, Vol. x/2009, Springer-Verlag. (Pendiente de publicacion)
M. Pardi
no, J.M. Gomez, H. Llorens, R.M. Terol, B. Navarro, E. Saquete, P. Martnez-Barco, P. Moreda y M. Palomar (2009). IBQAst:
a Question Answering system for text transcriptions, en: Peters,
C.;... (Eds.) .... 9th Workshop of the Cross-Language Evaluation
Forum, CLEF 2008, Aarhus, Denmark, September 17-19, 2008,
Revised Selected Papers. Lecture Notes in Computer Science, Vol.
x/2009, Springer-Verlag. (Pendiente de publicacion)
O.
noz, P. Martnez-Barco y M. Palomar (2007). A Knowledge-Based Textual Entailment Approach
Applied to the AVE Task, en: Peters, C.; Clough, P.; Gey, F.;
Karlgren, J.; Magnini, B.; Oard, D.; de Rijke, M.; Stempfhuber,
M. (Eds.) Evaluation of Multilingual and Multi-modal Information
Retrieval. 7th Workshop of the Cross-Language Evaluation Forum,
CLEF 2006, Alicante, Spain, September 20-22, 2006, Revised Selected Papers. Lecture Notes in Computer Science, Vol. 4730/2007,
Springer-Verlag.
163
164
R.M. Terol, P. Martnez-Barco y M. Palomar (2007). Applying Logic Forms and Statistical Methods to CL-SR Performance, en: Peters, C.; Clough, P.; Gey, F.; Karlgren, J.; Magnini, B.; Oard, D.;
de Rijke, M.; Stempfhuber, M. (Eds.) Evaluation of Multilingual
and Multi-modal Information Retrieval. 7th Workshop of the CrossLanguage Evaluation Forum, CLEF 2006, Alicante, Spain, September 20-22, 2006, Revised Selected Papers. Lecture Notes in Computer Science, Vol. 4730/2007, Springer-Verlag.
O.
noz, P. Martnez-Barco y M. Palomar (2006). Deep vs. Shallow Semantic Analysis Applied to Textual
Entailment Recognition, en: Salakoski, T.; Ginter, F.; Pyysalo, S.;
Pahikkala, T. (Eds.) Advances in Natural Language Processing. 5th
International Conference on NLP, FinTAL 2006 Turku, Finland,
August 23-25, 2006 Proceedings, Lecture Notes in Computer Science, Vol. 4139/2006, Springer-Verlag.
O.
noz, P. Martnez-Barco y M. Palomar (2006). A Knowledge Based Strategy for Recognising Textual
Entailment, en: Sojka, P.; Kopecek, I.; Pala, K. (Eds.) Text, Speech
and Dialogue. 9th International Conference, TSD 2006, Brno, Czech Republic, September 11-15, 2006. Proceedings, Lecture Notes in
Computer Science, Vol. 4188/2006, Springer-Verlag.
R.M. Terol, P. Martnez-Barco y M. Palomar (2007). Applying NLP
Techniques and Biomedical Resources to Medical Questions in QA
Performance, en: Gelbukh, A.; Reyes-Garcia, C.A. (Eds.) MICAI
2006: Advances in Artificial Intelligence. 5th Mexican International
Conference on Artificial Intelligence, Apizaco, Mexico, November
13-17, 2006. Proceedings, Lecture Notes in Computer Science, Vol.
4293/2006, Springer-Verlag.
E. Noguera, F. Llopis, R. Mu
noz, R.M. Terol, M.A. Garca-Cumbreras,
F. Martnez-Santiago, y A. Montejo-Raez (2005). Bilingual and
Multilingual Experiments with the IR-n system, en: Peters, C.; Gonzalo, J.; M
uller, H.; Jones, G.J.F.; Kluck, M.; Magnini, B.; de Rijke, M. (Eds.) Accessing Multilingual Information Repositories. 6th
Workshop of the Cross-Language Evalution Forum, CLEF 2005,
Vienna, Austria, 21-23 September, 2005, Revised Selected Papers,
Lecture Notes in Computer Science, Volume 4022/2006. SpringerVerlag.
noz, F. Llopis
R.M. Terol, P. Martnez-Barco, M. Palomar, R. Mu
y E. Noguera (2005). The University of Alicante at CL-SR Track,
en: Peters, C.; Gonzalo, J.; M
uller, H.; Jones, G.J.F.; Kluck, M.;
6.3 Producci
on cientfica
Magnini, B.; de Rijke, M. (Eds.) Accessing Multilingual Information Repositories. 6th Workshop of the Cross-Language Evalution
Forum, CLEF 2005, Vienna, Austria, 21-23 September, 2005, Revised Selected Papers, Lecture Notes in Computer Science, Volume
4022/2006. Springer-Verlag.
F. Llopis, R. Mu
noz, R.M. Terol y E. Noguera (2005). IR-n r2:
Using Normalized Passages, en: Peters, C.; Clough, P.; Gonzalo,
J.; Jones, G.J.F.; Kluck, M.; Magnini, B. (Eds.) Multilingual Information Access for Text, Speech and Images. 5th Workshop of the
Cross-Language Evaluation Forum, CLEF 2004, Bath, UK, September 15-17, 2004, Revised Selected Papers, Lecture Notes in Computer Science, Volume 3491/2005. Springer-Verlag.
R.M. Terol, P. Martnez-Barco, F. Llopis y T. Martnez (2005). An
Application of NLP Rules to Spoken Document Segmentation Task,
en: Montoyo, A.; Mu
noz, R.; Metais, E. (Eds.) Natural Language
Processing and Information Systems. 10th International Conference on Applications of Natural Language to Information Systems,
NLDB 2005, Alicante, Spain, June 15-17, 2005. Proceedings, Lecture Notes in Computer Science, Volume 3513/2005. Springer-Verlag.
R.M. Terol, P. Martnez-Barco y M. Palomar (2004). An architecture for Spoken Document Retrieval, en: Sojka, P.; Kopecek, I.;
Pala, K. (Eds.) Text, Speech and Dialogue. 7th International Conference, TSD 2004, Brno, Czech Republic, September 8-11, 2004.
Proceedings, Lecture Notes in Computer Science, Vol. 3206/2004,
Springer-Verlag.
Congresos internacionales:
M. Pardi
no, R.M. Terol, P. Martnez-Barco, F. Llopis y E. Noguera
(2007). Using IR-n for Information retrieval of Genomics Track 16th
Text REtrieval Conference (TREC-16), Gaithersburg (EEUU).
R.M. Terol (2006) Applying NLP Methods to Medical QA Performance I Congreso Internacional de Tecnologas del Lenguaje Humano (INAOE), Tonantzintla (Mexico).
noz, P. Martnez-Barco y M. Pa O.
lomar (2006). An Approach Based on Logic Forms and WordNet
relationships to Textual Entailment Performance. The Second PASCAL Recognising Textual Entailment Challenge (PASCAL RTE-2),
Venecia (Italia).
165
166
R.M. Terol, P. Martnez-Barco y M. Palomar (2005). Applying Logic Forms to Biomedical Q-A. International Symposium on Innovations in Intelligent Systems and Applications, Estambul (Turqua).
R.M. Terol, P. Martnez-Barco y M. Palomar (2003). Architecture of a multimodal dialogue system oriented to multilingual
question-answering. Recent Advances on Natural Language Processing (RANLP 2003). Borovets (Bulgaria).
Anexo A. Reglas simples de derivaci

on de
predicados en la forma l
ogica
En el captulo 3 se ha comentado que la derivacion de la forma logica consiste en un proceso composicional que empieza en las hojas del
arbol de dependencias y contin
ua por sus ramificaciones en sentido ascendente hasta llegar a la raz. Luego, la primera tarea del proceso de
derivacion de la forma logica consiste en resolver los nodos hoja del
arbol de dependencias. En el mismo captulo, tambien se ha justificado
la necesidad de reglas simples cuyo proposito es resolver los predicados
de la forma logica generados en las hojas del arbol de dependencias. A
continuacion se especifican estas reglas simples.
Especificaci
on de las reglas simples
Tal y como matiza el algoritmo Regla Simple detallado en el captulo 3,
el primer paso consiste en decidir si el nodo hoja genera o no un predicado en la forma logica. Los nodos hoja que infieren un predicado en la
forma son aquellos cuya categora lexica se corresponda con sustantivo,
adjetivo, indeterminado y preposicion. Cabe destacar, que en el analisis de dependencias, los adverbios son etiquetados de la misma manera
que los adjetivos y, en la forma logica, tienen el mismo tratamiento, a
excepcion de los adverbios que indican la negacion del verbo.
Una vez comprobada la categora lexica del nodo hoja, en el caso de
que esta se corresponda con alg
un tipo de los comentados en el parrafo
anterior, el siguiente paso del algoritmo consiste en generar el predicado
asociado al nodo hoja. A continuacion se especifica la derivacion de los
predicados asociados a los nodos hoja atendiendo a la categora lexica
de los nodos hoja.
Derivaci
on de predicados en nodos hoja del tipo sustantivo
Los nodos hoja del tipo sustantivo infieren un predicado con un u
nico
argumento que queda instanciado con una variable del tipo x. A continuacion, el cuadro 57 muestra un ejemplo de derivacion del predicado
asociado a un nodo hoja de tipo sustantivo.
168
(57) Expresi
on: The northeast of London.
Nodo hoja: London
Predicado inferido: london:NN(x1)
Derivaci
on de predicados en nodos hoja del tipo adjetivo
Los nodos hoja del tipo adjetivo infieren un predicado con un u
nico
argumento que queda instanciado con una variable del tipo x. A continuacion, el cuadro 59 muestra un ejemplo de derivacion del predicado
asociado a un nodo hoja de tipo adjetivo.
(58) Expresi
on: The red house.
Nodo hoja: red
Predicado inferido: red:JJ(x1)
Derivaci
on de predicados en nodos hoja del tipo indeterminado
Los nodos hoja del tipo indeterminado infieren un predicado con un
u
nico argumento que queda instanciado con una variable del tipo x.
Como caracterstica significativa, el tipo de predicado inferido no es
posible determinado en este nivel del proceso de inferencia de la forma
logica. Ello lo realizara la regla compleja que tenga en cuenta los detalles
significativos al n
ucleo, modificador, tipo y posicion de la dependencia,
tal y como se matiza en el siguiente anexo. A continuacion, el cuadro
59 muestra un ejemplo de derivacion del predicado asociado a un nodo
hoja de tipo indeterminado.
(59) Expresi
on: The magnetic resonance imaging.
Nodo hoja: magnetic
Predicado inferido: magnetic: (x1)
Nodo hoja: resonance
Predicado inferido: resonance: (x2)
Derivaci
on de predicados en nodos hoja del tipo preposici
on
Este tipo de nodo hoja tiene un tratamiento especial. Se suele dar en
los phrasal verbs. Por ello, la estrategia de la regla simple en este caso
es no hacer nada y dejar que sea la regla compleja quien resuelva la
dependencia. A continuacion, el cuadro 60 muestra un ejemplo de este
tratamiento.
(60) Expresi
on: Switch the light on.
169
Nodo hoja: on
Predicado inferido:
Anexo B. Reglas complejas de derivaci

on
de predicados en la forma l
ogica
Continuando en el marco del proceso composicional de derivacion de

las formas logicas que tiene su origen en las hojas del arbol de dependencias y contin
ua por sus ramificaciones en sentido ascendente hasta
llegar a la raz, en este apartado se hace un analisis de las reglas complejas de derivacion que, seg
un se ha comentado en el captulo 3, tienen
en cuenta las categoras lexicas tanto del n
ucleo como del modificador
de la dependencia, la posicion del modificador (anterior o posterior)
frente al n
ucleo de la dependencia y el tipo de relacion de dependencia. Ademas, el n
ucleo de la dependencia tiene en cuenta los predicados
inferidos hasta el momento por el modificador o los nodos inferiores a
este para, si procede, relacionarlos con el predicado o predicados que se
puedan generar en dicho n
ucleo.
La casustica que se puede dar en las reglas complejas es muy extensa.
Cabe pensar que las reglas complejas dependen de los cuatro factores
mencionados en el anterior apartado (categoras lexicas tanto del n
ucleo
como del modificador de la dependencia, la posicion del modificador
frente al n
ucleo de la dependencia y el tipo de relacion de dependencia). Cada una de las combinaciones de los valores que pueden adquirir
estos factores da origen a una regla compleja diferente. Si se analizan
todas ellas, la redaccion y posterior lectura de este anexo sera tediosa.
Para evitar producir este efecto, la estrategia seguida consiste en especificar alguna de las reglas complejas que se tienen en cuenta para inferir
los principales predicados de la forma logica explicados en el captulo
3, simplificando con ello la redaccion y posterior lectura de este anexo.
A continuacion se detallan estas reglas complejas.
Reglas de derivaci
on de predicados del tipo sustantivo
En un nodo intermedio del tipo sustantivo, el n
umero de reglas complejas que se pueden dar es muy alto, dependiendo de los factores mencionados al inicio del anexo. Basicamente, todas estas reglas complejas
tienen en com
un la derivacion del predicado de tipo sustantivo asociado
al nodo n
ucleo de la relacion de dependencia, as como la comproba-
172
cion de existencia de alg

un tipo de relacion entre predicados inferidos
en los nodos inferiores y el predicado de tipo sustantivo inferido en el
nodo n
ucleo tratado que deba ser reflejada de alg
un modo en la forma
logica. En el caso de que exista alguna relacion entre estos nodos que
deba ser reflejada en la forma logica, esta se resuelve en el nodo n
ucleo
de la relacion de dependencia, relacionando el nuevo predicado del tipo
sustantivo generado en el nodo n
ucleo de la relacion de dependencia
con los predicados inferidos en sus nodos inferiores en el marco de este
proceso composicional. Esta comprobacion se debe tener en cuenta, no
solo para los predicados del tipo sustantivo tratados en este apartado,
sino tambien para los restantes tipos de predicado que se detallan a
continuacion en este anexo.
Para clarificar mejor este proceso, a continuacion se especifica la aplicacion de tres reglas complejas sobre tres ejemplos de relaciones de dependencia cuyo n
ucleo es un predicado del tipo sustantivo. En el ejemplo
61 no se da ninguna relacion que deba ser tratada en el nodo n
ucleo
de la relacion de dependencia y reflejada consiguientemente en la forma
logica. Por el contrario, en los ejemplos 62 y 63 s que se trata la relacion
existente entre los predicados de la forma logica inferidos en los nodos
inferiores al nodo n
ucleo de la relacion de dependencia y el predicado
inferido en el propio nodo n
ucleo que debe ser tenida en cuenta en la
forma logica.
(61) Expresi
on: The red house.
Nodo modificador: the
Categora l
exica nodo modificador: Det
Posici
on nodo modificador: anterior
Predicados del nodo modificador:
Nodo n
ucleo: house
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: det
Predicados del nodo n
ucleo: house:NN( )1
Restricciones a tratar: Ninguna.
(62) Expresi
on: The red house.
Nodo modificador: red
Categora l
exica nodo modificador: A
1
Todava ninguna variable instancia el predicado porque faltan relaciones de dependencia por
resolver en el nodo n
ucleo
173
Posici
Predicados del nodo modificador: red:JJ(x1)
Nodo n
ucleo: house
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: mod
ucleo: red:JJ(x1) house:NN( )
Restricciones a tratar: S.
ucleo tras tratamiento de restricciones:
red:JJ(x1) house:NN(x1)
(63) Expresi
Nodo modificador: of
Categora l
exica nodo modificador: Prep
Posici
on nodo modificador: posterior
Predicados del nodo modificador: of:IN( , x1)2 london:NN(x1)
Nodo n
ucleo: northeast
Categora l
exica del nodo n
ucleo: N
Relaci
ucleo: northeast:NN(x2) of:IN( ,
x1) london:NN(x1)
northeast:NN(x2) of:IN(x2, x1) london:NN(x1)
Reglas de derivaci
on de predicados del tipo verbo
Del mismo modo que sucede en el caso de los sustantivos, el n
umero de
reglas complejas que se pueden dar en una relacion de dependencia en
la que el nodo n
ucleo de la relacion es del tipo verbo es muy elevado.
Para simplificar, a continuacion se van a mostrar tres ejemplos de ellas.
El ejemplo 64 muestra una relacion de dependencia del tipo sujeto. Estas dos relaciones de dependencia originan que se tengan que realizar
comprobaciones entre los predicados provenientes de los nodos modificadores y el predicado generado en el nodo n
ucleo, reflejando con ello
las relaciones entre estos predicados de la forma logica. Por el contrario,
el ejemplo 65 muestra una relacion de dependencia del tipo objeto. Por
2
El nodo modificador previamente no resolvi

o el primer argumento del predicado of:IN de aridad
2. Esta tarea la deja para la resoluci
on de la relaci
on dependencia actual.
174
u
ltimo, el ejemplo 66 muestra la relacion de dependencia relativa a un
phrasal verb. Esta u
ltima relacion de dependencia produce que al lema
del predicado generado en el nodo n
ucleo se le concatene el lema de la
preposicion del nodo modificador.
(64) Expresi
on: Peter had filled the tank up.
Nodo modificador: Peter
Categora l
exica nodo modificador: N
Posici
Predicados del nodo modificador: peter:NN(x1)
Nodo n
ucleo: filled
Categora l
exica del nodo n
ucleo: V
Relaci
on de dependencia: subj
ucleo: peter:NN(x1) fill:VB(e1,
, )
peter:NN(x1) fill:VB(e1, x1, )
(65) Expresi
Nodo modificador: tank
Categora l
Posici
Predicados del nodo modificador: tank:NN(x2)
Nodo n
ucleo: filled
Categora l
exica del nodo n
ucleo: V
Relaci
on de dependencia: obj
x1, ) tank:NN(x2)
peter:NN(x1) fill:VB(e1, x1, x2) tank:NN(x2)
(66) Expresi
Nodo modificador: up
Categora l
exica nodo modificador: Prep
Posici
175

Nodo n
ucleo: filled
Categora l
exica del nodo n
ucleo: V
Relaci
x1, x2) tank:NN(x2)
peter:NN(x1) fill up:VB(e1, x1, x2) tank:NN(x2)
Reglas de derivaci
on de predicados del tipo adjetivo
En lenguaje natural es bastante frecuente encontrar la secuencia de dos
o mas adjetivos que modifican a un sustantivo o a un sintagma nominal. Ejemplo de ello son las expresiones long fair hair, massive young
stars, etc. Cuando en la fase analisis de las relaciones de dependencias
se encuentra una expresion de este tipo, la regla que la resuelve ha de
realizar la comprobacion entre los predicados provenientes del nodo modificador y el predicado generado en el nodo n
ucleo, reflejando con ello
las relaciones entre estos predicados de la forma logica. A continuacion,
el ejemplo 67 muestra la resolucion de la relacion de dependencia relativa a este tipo de expresiones.
(67) Expresi
on: Susan has long fair hair and blue eyes.
Nodo modificador: long
Categora l
Posici
Predicados del nodo modificador: long:JJ(x1)
Nodo n
ucleo: fair
Categora l
exica del nodo n
ucleo: A
Relaci
ucleo: long:JJ(x1) fair:JJ( )
long:JJ(x1) fair:JJ(x1)
176
Reglas de derivaci
on de predicados del tipo preposici
on
Este tipo de reglas de derivacion siempre van a tener que realizar comprobaciones entre el predicado proveniente del nodo modificador y el
predicado generado en el nodo n
ucleo, reflejando de este modo las relaciones entre estos predicados de la forma logica. A continuacion, el
ejemplo 68 refleja la regla que resuelve un caso particular de relacion
de dependencia asociada a una preposicion en el nodo n
ucleo.
(68) Expresi
Nodo modificador: London
Categora l
Posici
Predicados del nodo modificador: london:NN(x1)
Nodo n
ucleo: of
Categora l
exica del nodo n
ucleo: Prep
Relaci
on de dependencia: pcomp-n
ucleo: of:JJ( , ) london:NN(x1)
of:JJ( , x1) london:NN(x1)
Reglas de derivaci
on de predicados del tipo atributo
En este tipo de reglas, el nodo n
ucleo de la relacion de dependencia
es siempre un verbo copulativo. La caracterstica principal de este tipo
de reglas es que deben chequear las relaciones existentes entre los predicados del nodo n
ucleo y modificador de la relacion de dependencia,
quedando reflejadas en el predicado del tipo atributo inferido en la regla. Seguidamente se especifica en el ejemplo 69 la aplicacion de una de
estas reglas.
(69) Expresi
on: The car is green.
Nodo modificador: green
Categora l
Posici
Predicados del nodo modificador: green:JJ(x1)
177
Nodo n
ucleo: is
Categora l
exica del nodo n
ucleo: V
Relaci
on de dependencia: pred
ucleo: be:VB(e1, , ) Atributo:IN( , ) green:JJ(x1)
be:VB(e1, , ) Atributo:IN(e1, x1) green:JJ(x1)
Reglas de derivaci
on de predicados del tipo conjunci
on/disyunci
on
Este tipo de reglas de derivacion incorporan en la forma logica el predicado asociado a la relacion de conjuncion/disyuncion existente entre
los predicados inferidos en los nodos inferiores al nodo cabeza de la dependencia. Para ello, siempre van a tener que realizar comprobaciones
entre los predicados provenientes de los nodos modificadores y el predicado generado en el nodo n
ucleo, reflejando de este modo esta relacion
de conjuncion/disyuncion entre estos predicados de la forma logica. A
continuacion, el ejemplo 70 detalla la aplicacion de una de estas reglas.
(70) Expresi
on: U.S. and Iraqi forces have begun a push
into Falluja.
Nodo modificador: forces
Categora l
Posici
Predicados del nodo modificador: iraqi:JJ(x1) forces:NN(x1)
Nodo n
ucleo: U.S.
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: conj
ucleo: u.s.:NN(x2) and:CC(x3,
x2, ) iraqi:JJ(x1) forces:NN(x1)
u.s.:NN(x2) and:CC(x3, x2, x1) iraqi:JJ(x1) forces:NN(x1)
178
Reglas de derivaci
on de predicados del tipo nominal
compuesto
Este tipo de reglas de derivacion, cuyo proposito es inferir en la forma
logica el predicado asociado al nominal compuesto a partir de los predicados asociados a los nominales simples, siempre van a tener que realizar
comprobaciones entre el predicado proveniente del nodo modificador y
el predicado generado en el nodo n
ucleo, reflejando de este modo esta
relacion entre ambos predicados de la forma logica. A continuacion, el
ejemplo 71 detalla la aplicacion de una de estas reglas.
(71) Expresi
on: Peter Douglas had filled the tank up.
Nodo modificador: Peter
Categora l
Posici
Predicados del nodo modificador: Peter:NN(x1)
Nodo n
ucleo: Douglas
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: nn
ucleo: peter:NN(x1) peter douglas:NNC(x3,
, x2) douglas:NN(x2)
peter:NN(x1) peter douglas:NNC(x3, , x2) douglas:NN(x2)
A veces sucede que, en el arbol de dependencias, el nominal simple proveniente del nodo modificador de la relacion de dependencia esta etiquetado incorrectamente. En este caso, todos los predicados inferidos en la
forma logica a partir de los dos nodos implicados en la relacion se infieren en el tratamiento de esta regla compleja, con lo que no es necesario
ning
un tipo de comprobacion adicional, ya que desde nodos inferiores
no viene ning
un predicado. A continuacion, el ejemplo 72 muestra la
regla compleja que resuelve este tipo de casos.
(72) Expresi
on: The position of pitcher on a baseball team.
Nodo modificador: baseball
Categora l
exica nodo modificador: U
Posici
179
Nodo n
ucleo: team
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: lex-mod
ucleo: baseball:NN(x1) baseball team:NNC(x3, x1, x2) team:NN(x2)
Restricciones a tratar: No porque todos los predicados se infieren en el nodo nucleo.
Reglas de derivaci
on de predicados del tipo aposici
on
Este tipo de reglas de derivacion incorporan en la forma logica el predicado asociado a la relacion de aposicion existente entre los predicados
inferidos en los nodos inferiores al nodo cabeza de la dependencia. Para
ello, siempre van a tener que realizar comprobaciones entre los predicados provenientes de los nodos modificadores y el predicado generado
en el nodo n
ucleo, reflejando de este modo esta relacion de aposicion
entre estos predicados de la forma logica. A continuacion, el ejemplo 73
detalla la aplicacion de una de estas reglas.
(73) Expresi
on: Tony Blair, the British Prime Minister, will visit Iraq next week.
Nodo modificador: Minister
Categora l
Posici
Predicados del nodo modificador: tony:NN(x1) tony blair:NNC(x3,
x1, x2) blair:NN(x2)
Nodo n
ucleo: Blair
Categora l
exica del nodo n
ucleo: N
Relaci
on de dependencia: appo
ucleo: tony:NN(x1) tony blair:NNC(x3,
x1, x2) blair:NN(x2) tony blair british prime minister:APPO(x7,
x3, ) british:JJ(x4) prime:NN(x5) prime minister:NNC(x4,
x5, x6) minister:NN(x6)
tony:NN(x1) tony blair:NNC(x3, x1, x2) blair:NN(x2)
tony blair british prime minister:APPO(x7, x3, x4)
180
british:JJ(x4) prime:NN(x5) prime minister:NNC(x4,

x5, x6) minister:NN(x6)
Anexo C. Preguntas desarrolladas para la

evaluaci
on de la tarea de clasificaci
on
Este anexo muestra las 300 preguntas de entrenamiento y las 300 de evaluacion (100 en cada una de las tres versiones) que se han utilizado en
el marco de la tarea de evaluacion del recurso logico-conceptual referida
a la clasificacion de preguntas medicas seg
un la taxonoma planteada
en el estudio de Ely et al. (Ely et al. , 2000).
182
Preguntas de entrenamiento
Primer tipo gen
erico
La tabla 6.1 muestra la coleccion de preguntas de entrenamiento asociadas al primer tipo generico de las preguntas de la taxonoma.
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Pregunta
What is the drug of choice for condition high blood pressure?
Is drug flunitrazepam indicated in situation anxiety?
Is drug galantamine indicated for condition pink eye?
What are the indications for drug liothyronine?
Is any drug indicated for situation scabies?
Does drug dosulepin work for condition slapped cheek syndrome?
How effective is drug edronax for condition stress?
Should this kind of patient get prophylactic drug efexor to prevent condition threadworms?
Is prophylactic drug elavil indicated to prevent condition tuberculosis?
What prophylactic drug should I give to prevent condition ulcerative colitis?
How effective is prophylactic drug epanutin in preventing condition urinary tract infection?
For how long is drug epilim effective in preventing condition varicose veins?
Name the drugs that treat cerebral palsy.
List the drugs that manage catarrh.
Tell me the drugs that prevent cellulitis.
What is the drug of choice for condition chlamydia?
Is drug abacavir indicated in situation coccydinia?
Is drug abafungin indicated indicated for condition cold sores?
What are the indications for drug abamectin?
Is any drug indicated for situation constipation?
Does drug abciximab work for condition crohns disease?
How effective is drug abecarnil for condition cystic fibrosis?
Should this kind of patient get prophylactic drug abiraterone to prevent condition cystitis?
Is prophylactic drug abitesartan indicated to prevent condition deafblindness?
What prophylactic drug should I give to prevent condition diphtheria?
How effective is prophylactic drug ablukast in preventing condition dry eye syndrome?
For how long is drug abunidazole effective in preventing condition duodenal ulcer?
Name the drugs that treat dyspepsia.
List the drugs that manage dysphagia.
Tell me the drugs that prevent dystonia.
Tabla 6.1. Preguntas de entrenamiento del tipo generico 1
183
Segundo tipo gen

erico
La tabla 6.2 muestra la coleccion de preguntas de entrenamiento asociadas al segundo tipo generico de las preguntas de la taxonoma.
No
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
Pregunta
What is the cause of symptom abdominal pain?
What is the differential diagnosis of symptom missed menstrual period?
Could symptom dermatitis be a result of condition dementia?
What is the likelihood that symptom dysmenorrhea is coming from condition eczema?
Name the possible causes of symptom vaginal discharge.
List the possible causes of symptom nail discoloration.
Tell me the possible causes of symptom swollen dlands.
What is the cause of symptom hair loss?
What is the differential diagnosis of symptom hematemesis?
Could symptom impotence be a result of condition congenital cataracts?
What is the likelihood that symptom hyperventilation is coming from condition ectropion?
Name the possible causes of symptom infertility.
List the possible causes of symptom insomnia.
Tell me the possible causes of symptom itch.
What is the cause of symptom knee pain?
What is the differential diagnosis of symptom watery eye?
Could symptom muscle cramps be a result of condition embolism?
What is the likelihood that symptom lethargy is coming from condition encephalitis?
Name the possible causes of symptom Diarrhea.
List the possible causes of symptom Dizziness.
Tell me the possible causes of symptom confusion.
What is the cause of symptom Anemia?
What is the differential diagnosis of symptom breast lumps?
Could symptom lymphadenopathy be a result of condition epidermolysis bullosa?
What is the likelihood that symptom mastodynia is coming from condition epiglottitis?
Name the possible causes of symptom mennorrhagia.
List the possible causes of symptom pleurisy.
Tell me the possible causes of symptom pyrosis.
What is the cause of symptom red eye?
What is the differential diagnosis of symptom rubor?
184
Tercer tipo gen

erico
La tabla 6.3 muestra la coleccion de preguntas de entrenamiento asociadas al tercer tipo generico de las preguntas de la taxonoma.
No
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
Pregunta
What test is indicated in situation swollen glands?
Is test HIDA scan indicated in situation yeast infection?
What test is appropriate with clinical finding autosplenectomy?
What is the best test in situation toe tingling?
What test is indicated in situation profound bronchospasm?
Is test magnetic resonance imaging indicated in situation hypertension?
What test is appropriate with clinical finding rheumatic fever?
What is the best test in situation atrial fibrillation?
What test is indicated in situation hypoxia?
Is test myocardial biopsy indicated in situation laryngospasm?
What test is appropriate with clinical finding hyperparathyroidism?
What is the best test in situation anticipated apnoea?
What test is indicated in situation multifocal ventricular ectopics?
Is test CT scan indicated in situation cardiac arrest?
What test is appropriate with clinical finding bronchial asthma?
What is the best test in situation bradycardia?
What test is indicated in situation osteoarthritis?
Is occult fecal blood test indicated in situation anaphylaxis?
What test is appropriate with clinical finding super ventricular tachycardia?
What is the best test in situation breathing system failure?
Name the tests for patients in situation myocardial infartion.
List the possible tests indicated in situation total spinal anaesthesia.
Tell me the best test in situation oxygen supply failure.
Name the tests for patients in situation unanticipated apnoea.
List the possible tests indicated in situation malignant hyperpyrexia.
Tell me the best test in situation gastric aspiration.
Name the tests for patients in situation bradycardia.
List the possible tests indicated in situation cardiac ischemia.
Tell me the best test in situation hypercarbia.
Name the tests for patients in situation ventricular ectopics.
185
Cuarto tipo gen

erico
La tabla 6.4 muestra la coleccion de preguntas de entrenamiento asociadas al cuarto tipo generico de las preguntas de la taxonoma.
No
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Pregunta
What is the dose of drug prinivil?
Should I change the dose of drug aspirin?
What is the maximum dose of drug accupril?
What are equivalent doses among members of drug class benzodiazepine?
How do you prescribe drug viagra?
How do you administer drug clomipramine?
When I start drug acyclovir?
How should I stop drug Concordin?
How long should I give drug dalmane?
When should I give drug donopezil?
List the possible dosages of drug fadrozole.
Tell me the dosage of drug famotidine.
What is the dose of drug fananserin?
Should I change the dose of drug faralimomab?
What is the maximum dose of drug toremifene?
What are equivalent doses among members of drug class 4-aminopyridine?
How do you prescribe drug faropenem?
How do you administer drug fulvestrant?
When I start drug fasoracetam?
How should I stop drug flosequinan?
How long should I give drug fluticasone?
When should I give drug floxuridine?
List the possible dosages of drug flucloxacillin.
Tell me the dosage of drug fluconazole.
What is the dose of drug flucytosine?
Should I change the dose of drug fludarabine?
What is the maximum dose of drug fludiazepam?
What are equivalent doses among members of drug class fludorex?
How do you prescribe drug fludrocortisone?
How do you administer drug fludroxycortide?
186
Quinto tipo gen

erico
La tabla 6.5 muestra la coleccion de preguntas de entrenamiento asociadas al quinto tipo generico de las preguntas de la taxonoma.
No
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
Pregunta
How should I manage condition fibromyalgia?
How do you manage condition depression?
How well do you manage condition constipation?
How should I manage condition acne?
How do you manage condition allergies?
How well do you manage condition asthma?
How should I manage condition autism?
How do you manage condition back pain?
How well do you manage condition bulimia?
How should I manage condition cataracts?
How do you manage condition chlamydia?
How well do you manage condition cirrhosis?
How should I manage condition cystitis?
How do you manage condition deafness?
How well do you manage condition dementia?
How should I manage condition dysphasia?
How do you manage condition eczema?
How well do you manage condition epilepsy?
How should I manage condition gallstones?
How do you manage condition glaucoma?
How well do you manage condition gonorrhea?
How should I manage condition hemophilia?
How do you manage condition heartburn?
How well do you manage condition hepatitis?
How should I manage condition impotence?
How do you manage condition indigestion?
How well do you manage condition infertility?
How should I manage condition insomnia?
How do you manage condition leukemia?
How well do you manage condition meningitis?
187
Sexto tipo gen

erico
La tabla 6.6 muestra la coleccion de preguntas de entrenamiento asociadas al sexto tipo generico de las preguntas de la taxonoma.
No
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
Pregunta
What is the cause of physical finding angiokeratomas?
What is the differential diagnosis of physical finding pulsus alterans?
At what level does physical finding ulnar deviation become clinically important?
What is considered normal for physical finding succussion splash?
Could physical finding argyll robertson pupils be a result of condition anaemia?
What is the likehood that sign deafness is coming from condition arthritis?
Name the possible causes of physical finding alert mentation.
List the causes of physical finding cool skin capillary refill.
Tell me the causes of physical finding normal mucous membranes.
What is the cause of physical finding increased heart rate?
What is the differential diagnosis of physical finding thready pulse?
At what level does physical respiratory rate deviation become clinically important?
What is considered normal for physical finding blood pressure?
Could physical finding slow skin turgor be a result of condition narcolepsy?
What is the likehood that sign earache is coming from condition psoriasis?
Name the possible causes of physical decreased urine output.
List the causes of physical finding xanthelasma.
Tell me the causes of physical finding ulnar deviation.
What is the cause of physical finding titubation?
What is the differential diagnosis of physical finding tophi?
At what level does physical finding suck reflex become clinically important?
What is considered normal for physical finding subcutaneous nodules?
Could physical finding striae be a result of condition meningitis?
What is the likehood that sign erythema is coming from condition menopause?
Name the possible causes of physical finding strawberry tongue.
List the causes of physical finding simian crease.
Tell me the causes of physical finding pulsus alterans.
What is the cause of physical finding petechiae?
What is the differential diagnosis of physical finding pingueculae?
At what level does physical finding ptosis become clinically important?
188
S
eptimo tipo gen
erico
La tabla 6.7 muestra la coleccion de preguntas de entrenamiento asociadas al septimo tipo generico de las preguntas de la taxonoma.
No
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
Pregunta
How should I treat condition fibromyalgia?
How do you treat condition depression?
How well do you treat condition constipation?
How should I treat condition allergies?
How do you treat condition asthma?
How well do you treat condition autism?
How should I treat condition bedwetting?
How do you treat condition blepharospasm?
How well do you treat condition blindness?
How should I treat condition bulimia?
How do you treat condition cataracts?
How well do you treat condition chlamydia?
How should I treat condition cirrhosis?
How do you treat condition cleft lip?
How well do you treat condition cold sores?
How should I treat condition cot death?
How do you treat condition cystic fibrosis?
How well do you treat condition deafness?
How should I treat condition downs syndrome?
How do you treat condition gauchers disease?
How well do you treat condition huntington disease?
How should I treat condition legionnaire disease?
How do you treat condition meniere disease?
How well do you treat condition muscular dystrophy?
How should I treat condition polycystic ovary syndrome?
How do you treat condition polymyalgia rheumatica?
How well do you treat condition repetitive strain injury?
How should I treat condition restless legs?
How do you treat condition systemic lupus erythematosus?
How well do you treat condition ulcerative colitis?
189
Octavo tipo gen

erico
La tabla 6.8 muestra la coleccion de preguntas de entrenamiento asociadas al octavo tipo generico de las preguntas de la taxonoma.
No
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
Pregunta
What is the cause of test finding bronchoscopy?
What is the differential diagnosis of test finding hemoglobin electrophoresis?
Could test finding home blood glucose test be condition diabetes?
Could test finding pericardial drainage be a result of condition endometriosis?
What is the likehood that test finding ECG is coming from condition endometriosis?
How should I interpret test finding treadmill test?
How should I use test finding acoustic reflex test in my decision?
At what level does the value of ACTH test clinically important?
What are the normal values of AFP test?
How good is allergy test in situation mammalgia?
What are the performance characteristics of DST test in situation menstrual cramps?
What is the efficacy of screening with dobutamine stress test?
What is the efficacy of screening for condition febrile convulsions?
When should I do drug screening test?
When should I do DST test to monitor condition food intolerance?
How often should screening dipyridamole stress test be done?
How often should you screen for condition gallstones?
Name the cause of test finding FOBT.
Tell me the cause of test finding FSH.
What is the cause of test finding funduscopy?
What is the differential diagnosis of test finding fetoscopy?
Could test finding free cortisol test be condition endocarditis?
Could test finding fasting blood sugar test be a result of condition encephalitis?
What is the likehood that test finding GHb test is coming from condition epiglottitis?
How should I interpret test finding globulin test?
How should I use test finding glaucoma test in my decision?
At what level does the value of GHb test clinically important?
What are the normal values of gastric ulcer test?
How good is galactosemia test in situation dyspepsia?
What are the performance characteristics of HFE test in situation vertigo?
190
Noveno tipo gen

erico
La tabla 6.9 muestra la coleccion de preguntas de entrenamiento asociadas al noveno tipo generico de las preguntas de la taxonoma.
No
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
Pregunta
Could this patient have condition gauchers disease?
What is the likelihood that this patient has condition parkinson disease?
What does this patient have whooping cough?
Could this patient have condition chest infection?
What is the likelihood that this patient has condition chronic fatigue syndrome?
What does this patient have coeliac disease?
Could this patient have condition conjunctivitis?
What is the likelihood that this patient has condition cradle cap?
What does this patient have diverticulitis?
Could this patient have condition erectile dysfunction?
What is the likelihood that this patient has condition food intolerance?
What does this patient have glandular fever?
Could this patient have condition hay fever?
What is the likelihood that this patient has condition irritable bowel syndrome?
What does this patient have kidney failure?
Could this patient have condition jet lag?
What is the likelihood that this patient has condition kidney stones?
What does this patient have labyrinthitis?
Could this patient have condition laryngitis?
What is the likelihood that this patient has condition migraine?
What does this patient have MRSA?
Could this patient have condition multiple sclerosis?
What is the likelihood that this patient has condition nappy rash?
What does this patient have nosebleed?
Could this patient have condition obesity?
What is the likelihood that this patient has condition phobias?
What does this patient have renal colic?
Could this patient have condition shingles?
What is the likelihood that this patient has condition tennis elbow?
What does this patient have threadworms?
191
D
ecimo tipo gen
erico
La tabla 6.10 muestra la coleccion de preguntas de entrenamiento asociadas al decimo tipo generico de las preguntas de la taxonoma.
No
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
Pregunta
Could drug accupril cause adverse finding muscle pain?
Could finding angioid streaks be cause by drug nitrazepam?
Does drug reboxetine cause finding arcus senilis?
What are the adverse effects of drug temazepam?
What is the likehood of adverse effect uterine hemorrhage resulting from drug cytotec?
How long do the adverse effects from drug escitalopram last after stopping it?
Which drug has the fewest adverse effects?
How can drug exelon be administered without causing adverse effect deafness?
What dose of drug fluvoxamine cause adverse effect fever?
What dose of drug perphenazine cause any adverse effect?
Is drug flupenthixol save to use in situation vertigo?
Is drug fluoxetine contraindicated in situation warts?
Could drug phentermine cause adverse finding angiokeratomas?
Could finding pulsus alterans be cause by drug tacalcitol?
Does drug tacrine cause finding ulnar deviation?
What are the adverse effects of drug talaporfin?
What is the likehood of adverse effect abdominal pain resulting from drug talipexole?
How long do the adverse effects from drug taltirelin last after stopping it?
How can drug tandospirone be administered without causing adverse effect asthenia?
What dose of drug taranabant cause adverse effect diarrhea?
What dose of drug tazarotene cause any adverse effect?
Is drug flupenthixol save to use in situation dyspepsia?
Is drug fluoxetine contraindicated in situation mammalgia?
Could drug tazobactam cause adverse finding bronchial asthma?
Could finding hyperparathyroidism be cause by drug tazobactam?
Does drug paclitaxel cause finding rheumatic fever?
What are the adverse effects of drug pagoclone?
What is the likehood of adverse effect autosplenectomy resulting from drug palonosetron?
How long do the adverse effects from drug pamaquine last after stopping it?
How can drug panadiplon be administered without causing adverse effect rhabdomyolysis?
192
Preguntas de evaluaci
on
Primer tipo gen
erico
La tabla 6.11 muestra la coleccion de preguntas de evaluacion, en cada
una de sus tres versiones, asociadas al primer tipo generico de las preguntas de la taxonoma.
No
7
16
29
33
42
57
64
72
87
100
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
What are the indications for drug reboxetine?
What are the indications for drug reboxetine?
What are the indications of reboxetine?
Is any drug indicated for situation total spinal anaesthesia?
Is any drug prescribed for situation total spinal anaesthesia?
Is any drug prescribed for total spinal anaesthesia?
Is drug nitrazepam indicated for condition dementia?
Could drug nitrazepam be prescribed for condition dementia?
Could nitrazepam be prescribed for dementia?
Is drug accupril indicated in situation myocardial infartion?
Is drug accupril prescribed in situation myocardial infartion?
Is accupril prescribed in myocardial infartion?
Does drug temazepam work for condition congenital cataracts?
Could drug temazepam be prescribed for condition congenital cataracts?
Could temazepam be prescribed for congenital cataracts?
What is the drug of choice for condition eczema?
What is the drug of selection for condition eczema?
What is the drug of selection for eczema?
How effective is drug cytotec for condition parkinson disease?
How good is drug cytotec for condition parkinson disease?
How good is cytotec for parkinson disease?
Name the drugs that treat ectropion.
Name the drugs that control ectropion.
Name the drugs that control ectropion.
List the drugs that manage fibromyalgia.
List the drugs that control fibromyalgia.
List the drugs that control fibromyalgia.
Tell me the drugs that prevent depression.
Tell me the drugs that control depression.
Tell me the drugs that control depression.
Tabla 6.11. Preguntas de evaluaci

on del tipo generico 1
193
Segundo tipo gen

erico
La tabla 6.12 muestra la coleccion de preguntas de evaluacion, en cada una de sus tres versiones, asociadas al segundo tipo generico de las
preguntas de la taxonoma.
No
10
13
21
37
41
59
70
77
90
96
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Could symptom abdominal pain be a result of condition fibromyalgia?
Does symptom abdominal pain induced by condition fibromyalgia?
Does abdominal pain induced by fibromyalgia?
What is the likelihood that symptom headache is coming from condition depression?
What is the likeliness that symptom headache is induced from condition depression?
What is the likeliness that headache is induced from depression?
Name the possible causes of symptom fever.
Name the potential reasons of symptom fever.
Name the potential reasons of fever.
List the possible causes of symptom body ache.
List the potential reasons of symptom body ache.
List the potential reasons of body ache.
Tell me the possible causes of symptom moist skin.
Tell me the potential reasons of symptom moist skin.
Tell me the potential reasons of moist skin.
What is the cause of symptom nausea?
Which one is the reason of symptom nausea?
Which one is the reason of nausea?
What is the differential diagnosis of symptom depression?
What is the differential diagnosis of symptom depression?
What is the differential diagnosis of depression?
Could symptom irritability be a result of condition acne?
Is symptom irritability induced by condition acne?
Is irritability induced by acne?
What is the likelihood that symptom bedwetting is coming from condition asthma?
What is the likeliness that symptom bedwetting is induced by condition asthma?
What is the likeliness that bedwetting is induced by asthma?
Name the possible causes of symptom vomiting.
Name the potential reasons of symptom vomiting.
Name the potential reasons of vomiting.

194
Tercer tipo gen

erico
una de sus tres versiones, asociadas al tercer tipo generico de las preguntas de la taxonoma.
No
1
17
30
32
50
51
67
79
82
94
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Name the tests for patients in situation cardiac emergency.
Name the tests for patients in situation cardiac emergency.
Name the tests for patients in cardiac emergency.
List the possible tests indicated in situation respiratory emergency.
List the potential tests suggested in situation respiratory emergency.
List the potential tests suggested in respiratory emergency.
Tell me the best test in situation oxygen medical emergency.
Tell me the best test in situation oxygen medical emergency.
Tell me the best test in oxygen medical emergency.
What test is indicated in situation yeast vaginitis?
Which test is suggested in situation yeast vaginitis?
Which test is suggested in yeast vaginitis?
Is test bronchoscopy indicated in situation oral thrush?
Could test bronchoscopy be suggested in situation oral thrush?
Could bronchoscopy be suggested in oral thrush?
What test is appropriate with physical finding angiokeratomas?
Which test is appropriate with physical finding angiokeratomas?
Which test is appropriate with angiokeratomas?
What is the best test in situation candida infection?
Which test is the best one in situation candida infection?
Which test is the best one in candida infection?
What test is indicated in situation systemic infection?
Which test is prescribed in situation systemic infection?
Which test is prescribed in systemic infection?
Is ACTH test indicated in situation opportunistic infection?
Could ACTH test be suggested in situation opportunistic infection?
Could ACTH test be suggested in opportunistic infection?
What test is appropriate with physical finding pulsus alterans?
Which test is appropriate with physical finding pulsus alterans?
Which test is appropriate with pulsus alterans?

195
Cuarto tipo gen

erico
una de sus tres versiones, asociadas al cuarto tipo generico de las preguntas de la taxonoma.
No
9
20
27
31
43
52
61
73
81
91
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
List the possible dosages of drug abacavir.
List the potential dosages of drug abacavir.
List the potential dosages of abacavir.
Tell me the dosage of drug abafungin.
Tell me the dosage of drug abafungin.
Tell me the dosage of abafungin.
What is the dose of drug abamectin?
Which one is the dose of drug abamectin?
Which one is the dose of abamectin?
Should I change the dose of drug abciximab?
Should I change the dose of drug abciximab?
Should I change the dose of abciximab?
What is the maximum dose of drug abecarnil?
Which one is the upper dose of drug abecarnil?
Which one is the upper dose of abecarnil?
What are equivalent doses among members of drug class bisphosphonate?
Whose are tantamount doses among members of drug class bisphosphonate?
Whose are tantamount doses among members of bisphosphonate?
How do you prescribe drug perphenazine?
How can drug perphenazine be dispensed?
How can perphenazine be dispensed?
How do you administer drug fluvoxamine?
How can drug fluvoxamine be dispensed?
How can fluvoxamine be dispensed?
When I start drug exelon?
When do I begin to take drug exelon?
When do I begin to take exelon?
How should I stop drug escitalopram?
How should I end drug escitalopram?
How should I end escitalopram?

196
Quinto tipo gen

erico
una de sus tres versiones, asociadas al quinto tipo generico de las preguntas de la taxonoma.
No
8
19
28
39
49
60
69
80
89
99
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
How should I manage condition gauchers disease?
How should be handled condition gauchers disease?
How should be handled gauchers disease?
How do you manage condition parkinson disease?
How does condition parkinson disease be handled?
How does parkinson disease be handled?
How well do you manage condition chest infection?
How good should condition chest infection be handled?
How good should chest infection be handled?
How should I manage condition chronic fatigue syndrome?
How should condition chronic fatigue syndrome be handled?
How should chronic fatigue syndrome be handled?
How do you manage condition conjunctivitis?
How could condition conjunctivitis be handled?
How could conjunctivitis be handled?
How well do you manage condition cradle cap?
How good could condition cradle cap be handled?
How good could cradle cap be handled?
How should I manage condition erectile dysfunction?
How should condition erectile dysfunction be handled?
How should erectile dysfunction be handled?
How do you manage condition back chlamydia?
How should be handled condition back chlamydia?
How should be handled back chlamydia?
How well do you manage condition cold sores?
How good should be handled condition cold sores?
How good should be handled cold sores?
How should I manage condition cystic fibrosis?
How should condition cystic fibrosis be handled?
How should cystic fibrosis be handled?

197
Sexto tipo gen

erico
una de sus tres versiones, asociadas al sexto tipo generico de las preguntas de la taxonoma.
No
3
11
22
34
48
55
62
71
83
92
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
What is the cause of clinical finding rheumatic fever?
Which one is the reason of clinical finding rheumatic fever?
Which one is the reason of rheumatic fever?
What is the differential diagnosis of clinical finding autosplenectomy?
What is the differential diagnosis of clinical finding autosplenectomy?
What is the differential diagnosis of autosplenectomy?
At what level does physical finding muscle pain become clinically important?
At what degree does physical finding muscle pain become clinically important?
At what degree does muscle pain become clinically important?
What is considered normal for physical finding angioid streaks?
What is considered normal for physical finding angioid streaks?
What is considered normal for angioid streaks?
Could physical finding arcus senilis be a result of condition anaemia?
Should physical finding arcus senilis produced by condition anaemia?
Should arcus senilis produced by anaemia?
What is the likehood that sign deafness is coming from condition arthritis?
Which one is the likeliness that sign deafness is induced by condition arthritis?
Which one is the likeliness that deafness is induced by arthritis?
Name the possible causes of physical finding angiokeratomas.
Name the possible reasons of physical finding angiokeratomas.
Name the possible reasons of angiokeratomas.
List the causes of physical finding bronchial asthma.
List the reasons of physical finding bronchial asthma.
List the reasons of bronchial asthma.
Tell me the causes of clinical finding hyperparathyroidism.
Tell me the reasons of clinical finding hyperparathyroidism.
Tell me the reasons of hyperparathyroidism.
What is the cause of clinical finding super ventricular tachycardia?
Which one is the reason of clinical finding super ventricular tachycardia?
Which one is the reason of super ventricular tachycardia?

198
S
eptimo tipo gen
erico
una de sus tres versiones, asociadas al septimo tipo generico de las preguntas de la taxonoma.
No
2
14
23
40
44
53
63
78
84
93
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
How should I treat condition gauchers disease?
How good should condition gauchers disease be cared for?
How good should gauchers disease be cared for?
How do you treat condition parkinson disease?
How should be cared for condition parkinson disease?
How should be cared for parkinson disease?
How well do you treat condition chest infection?
How does condition chest infection be cared for?
How does chest infection be cared for?
How should I treat condition chronic fatigue syndrome?
How should condition chronic fatigue syndrome be cared for?
How should chronic fatigue syndrome be cared for?
How do you treat condition conjunctivitis?
How could condition conjunctivitis be cared for?
How could conjunctivitis be cared for?
How well do you treat condition cradle cap?
How good could condition cradle cap be cared for?
How good could cradle cap be cared for?
How should I treat condition erectile dysfunction?
How should condition erectile dysfunction be cared for?
How should erectile dysfunction be cared for?
How do you treat condition back chlamydia?
How should be cared for condition back chlamydia?
How should be cared for back chlamydia?
How well do you treat condition cold sores?
How good should be cared for condition cold sores?
How good should be cared for cold sores?
How should I treat condition cystic fibrosis?
How should condition cystic fibrosis be cared for?
How should cystic fibrosis be cared for?

199
Octavo tipo gen

erico
una de sus tres versiones, asociadas al octavo tipo generico de las preguntas de la taxonoma.
No
6
12
24
36
45
54
65
76
85
97
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
What is the cause of test finding HIDA scan?
Which one is the reason of test finding HIDA scan?
Which one is the reason of HIDA scan?
What is the differential diagnosis of test finding magnetic resonance imaging?
Which one is the differential diagnosis of test finding magnetic resonance imaging?
Which one is the differential diagnosis of magnetic resonance imaging?
Could test finding myocardial biopsy be condition conjunctivitis?
Could test finding myocardial biopsy be stimulate condition conjunctivitis?
Could myocardial biopsy be stimulate conjunctivitis?
Could test finding CT scan be a result of condition cradle cap?
Could test finding CT scan be stimulated by condition cradle cap?
Could CT scan be stimulated by cradle cap?
What is the likehood that test finding occult fecal blood test is coming from condition dysfunction?
Which one is the likeliness that test finding occult fecal blood test is induced by condition dysfunction?
Which one is the likeliness that occult fecal blood test is induced by dysfunction?
How should I interpret test finding endoscopy?
How can test finding endoscopy be construed?
How can endoscopy be construed?
How should I use test finding biopsy in my decision?
How can I utilise test finding biopsy in my conclusion?
How can I utilise biopsy in my conclusion?
At what level does the value of EEG clinically important?
At what degree does the value of EEG clinically important?
At what degree does the value of EEG clinically important?
What are the normal values of PET scan?
Tell me the cause of test nuclear scan.
Tell me the reason of test nuclear scan.
Tell me the reason of nuclear scan.

200
Noveno tipo gen

erico
una de sus tres versiones, asociadas al noveno tipo generico de las preguntas de la taxonoma.
No
4
18
26
38
47
58
66
75
86
98
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Could this patient have condition chlamydia?
Does the patient suffer condition chlamydia?
Does the patient suffer chlamydia?
What is the likelihood that this patient has condition cold sores?
Which one is the likeliness that the patient suffers condition cold sores?
Which one is the likeliness that the patient suffers cold sores?
What does this patient have cystic fibrosis?
What does the patient suffer condition cystic fibrosis?
What does the patient suffer cystic fibrosis?
Could this patient have condition dyspepsia?
Can the patient suffer condition dyspepsia?
Can the patient suffer dyspepsia?
What is the likelihood that this patient has condition dysphagia?
Which one is the likeliness that the patient suffer condition dysphagia?
Which one is the likeliness that the patient suffer dysphagia?
What does this patient have dystonia?
What does this patient suffer condition dystonia?
What does this patient suffer dystonia?
Could this patient have condition dementia?
Can the patient suffer condition dementia?
Can the patient suffer dementia?
What is the likelihood that this patient has condition eczema?
Which one is the likeliness that the patient suffers condition eczema?
Which one is the likeliness that the patient suffers eczema?
What does this patient have congenital cataracts?
What does the patient suffer condition congenital cataracts?
What does the patient suffer congenital cataracts?
Could this patient have condition ectropion?
Can the patient suffer condition ectropion?
Can the patient suffer ectropion?

201
D
ecimo tipo gen
erico
una de sus tres versiones, asociadas al decimo tipo generico de las preguntas de la taxonoma.
No
5
15
25
35
46
56
68
74
88
95
V
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
Pregunta
Could drug abacavir cause adverse finding abdominal pain?
Can drug abacavir origin adverse finding abdominal pain?
Can abacavir origin adverse finding abdominal pain?
Could finding autosplenectomy be cause by drug abafungin?
Can adverse finding autosplenectomy be origined by drug abafungin?
Can adverse finding autosplenectomy be origined by abafungin?
Does drug abamectin cause finding rheumatic fever?
Does drug abamectin induce finding rheumatic fever?
Does abamectin induce rheumatic fever?
What are the adverse effects of drug abciximab?
Whose are the adverse effects of drug abciximab?
Whose are the adverse effects of abciximab?
What is the likehood of adverse effect bloody stool resulting from drug abecarnil?
Which is the likeliness of adverse effect bloody stool resulting from drug abecarnil?
Which is the likeliness of adverse effect bloody stool resulting from abecarnil?
How long do the adverse effects from drug fadrozole last after stopping it?
How long do the adverse effects from drug fadrozole last after ending it?
How long do the adverse effects from fadrozole last after ending it?
How can drug famotidine be administered without causing adverse effect gastroenteritis?
How can drug famotidine be prescribed without causing adverse effect gastroenteritis?
How can famotidine be prescribed without causing adverse effect gastroenteritis?
What dose of drug prinivil cause adverse effect colitis?
Which dose of drug prinivil cause adverse effect colitis?
Which dose of prinivil cause adverse effect colitis?
What dose of drug aspirin cause any adverse effect?
Which dose of drug aspirin cause any adverse effect?
Which dose of aspirin cause any adverse effect?

Referencias
Amini, M.-R., Zaragoza, H., & Gallinari, P. 1999. Stochastic Models

for Surface Information Extraction in Texts. In: Proceedings of the
International Conference of Artificial Neural Networks (ICANN).
Aone, C., Okurowski, M.E., Gorlinsky, J., & Larsen, B. 1997. A Scalable
Summarization System using Robust NLP. Pages 6673 of: Proceedings of the Workshop on Intelligent Scalable Text Summarization
at the ACL/EACL Conference.
Baeza-Yates, R., Gionis, A., Junqueira, F., Murdock, V., Plachouras,
V., & Silvestri, F. 2007. The Impact of Caching on Search Engines. In: Proceedings of The 30th Annual International ACM SIGIR
Conference.
Balkanski, C.T. 1991. Logical Form of Complex Sentences in TaskOriented Dialogues. In: Proceedings of the 29th Annual Meeting of
the Association for Computational Linguistics.
Balog, K., Hofmann, K., Weerkamp, W., & de Rijke, M. 2007. Query
and Document Models for Enterprise Search. In: Proceedings of
the Sixteenth Text REtrieval Conference (TREC).
Bar-Haim, R., Dagan, I., Dolan, B., Ferro, L., Giampiccolo, D., Magnini, B., & Szpektor, I. 2006. The Second PASCAL Recognising
Textual Entailment Challenge. In: Proceedings of the Second PASCAL Recognising Textual Entailment Challenge.
Barwise, J., & Perry, J. 1983. Situations and Attitudes. Cambridge,
MA: MIT Press.
Barzilay, R., & Elhadad, M. 1997. Using Lexical Chains for Text Summarization. Pages 1017 of: Proceedings of the Workshop on Intelligent Scalable Text Summarization at the ACL/EACL Conference.
Baziz, M., Boughanem, M., & Aussenac-Gilles, N. 2005. A Conceptual
Indexing Approach for the TREC Robust Task. In: Proceedings of
the Fourteenth Text REtrieval Conference (TREC 2005).
Ben-Ari, M. 2001. Mathematical Logic for Computer Science. SpringerVerlag.
Besse, B. De. 1997. Terminological Definitions. Handbook of Terminology Management. John Benjamins: 63-74.
Bi, Y., Bell, D., & Guan, J. 2004. Combining Evidence from Classifiers in Text Categorization. Pages 521528 of: 8th International
204
Referencias
Conference on Knowledge-Based Intelligent Information and Engineering Systems.

Bisbal, E., Tomas, D., Moreno, L., Vicedo, J.L., & Suarez, A. 2005.
A Multilingual SVM-Based Question Classification System. Pages
806815 of: MICAI 2005: Advances in Artificial Intelligence.
Bixler, D., Moldovan, D., & Fowler, A. 2005. Using knowledge extraction and maintenance techniques to enhance analytical performance. In: Proceedings of the 2005 International Conference on
Intelligence Analysis.
Cabre, M. T. 1999. La Terminologa. Representaci
on y Comunicaci
on.
Barcelona: Institut Universitari de Ling
ustica Aplicada. Universitat Pompeu Fabra.
Caropreso, M. F., Matwin, S., & Sebastiani, F. 2001. A learnerindependent evaluation of the usefulness of statistical phrases for
automated text categorization. Pages 78102 of: Text Databases
and Document Management: Theory and Practice.
Castro, M.J., Vilar, D., Aibar, P., & Sanchis, E. 2003. Dialogue Act
Classification in a Spoken Dialogue System. Pages 260270 of:
Proceedings of the 10th Conference of the Spanish Association for
Artificial Intelligence (CAEPIA03).
Chung, H., Song, Y.-I., Han, K.-S., Yoon, D.-S., Lee, J.-Y., Rim, H.C., & Kim, S.-H. 2004. A practical QA system in restricted domains. In: Proceedings of 42nd Annual Meeting of the Association
for Computational Linguistics.
Camara de la Fuente, L. 2004. La representacion ling
ustica del conocimiento y su relevancia en la ingeniera ling
ustica. Hipertext.net,
2.
Codina, L., Dom`enech, M., Mart, J., & Rojo, A. 2001. Elementos a
considerar en la representacion del conocimiento de cara a la recuperacion de informacion (el punto de vista cognitivo). In: La
terminologa cientfico-tecnica: reconocimiento, analisis y extracci
on de informacion formal y semantica (DGES PB96-0293).
Colmerauer, A., & Roussel, P. 1996. The birth of Prolog. History of
programming languages, 331367.
Contreras, H.Y. 2001. Procesamiento del Lenguaje Natural basado en
una gram
atica de estilos para el idioma espa
nol. Ph.D. thesis,
Universidad de los Andes.
Corcho, O., & Gomez-Perez, A. 2001. Evaluating Knowledge Representation and Reasoning Capabilities of Ontology Specification Languages. In: Proceedings of the EON2002 Workshop on Evaluation
of Ontology-based Tools.
Courtin, J., & Genthial, D. 1998. Parsing with dependency relations and
robust parsing. Pages 8894 of: Proceedings of COLING-ACL98
Workshop on Processing of Dependency-based Grammars.
Referencias
Croft, W.B., Turtle, H.R., & Lewis, D.D. 1991. The use of phrases
and sructured queries in information retrieval. Pages 3243 of:
Proceedings of ACM SIGIR.
Daelemans, W., & van den Bosch, A. 2007. Special Section on
Restricted-Domain Question Answering. Computational Linguistics, 33(1).
Dale, R., Somers, H. L., & Moisl, H. 2000. Semantic Analysis. Handbook
of Natural Language Processing. Marcel Dekker, Inc. New York,
NY, USA.
Darriba, V.M. 2007. Universidad de Vigo: Asignatura Lenguajes Naturales. Campus de Orense. Chap. Tema 1 y 2.
Davidson, D. 1967. The Logical Form of Action Sentences. Pages 8195
of: Rescher, N. (ed), The Logic of Decision and Action.
Deerwester, S., Dumais, S.T., Furnas, G.W., K, T.K. Landauer T., &
Harshman, R. 1990. Indexing by Latent Semantic Analysis. Journal
of the American Society for Information Science.
Delisle, S., Barker, K., Delannoy, J.-F., Matwin, S., & Szpakowicz, S.
1994. From Text to Horn Clauses: Combining Linguistic Analysis
and Machine Learning. In: Proceedings of Canadian AI-94.
Demner-Fushman, D., Humphrey, S. M., Ide, N. C., Loane, R. F., Mork,
J. G., Ruch, P., Ruiz, M. E., Smith, L. H., Wilbur, W. J., & Aronsona, A. R. 2007. Combining resources to find answers to biomedical
questions. In: Proceedings of the Sixteenth Text REtrieval Conference (TREC).
Dez, P. L. 1999. La relaci
on de meronimia en los sustantivos del lexico
espa
nol: contribuci
on a la semantica computacional. Vol. 2. Estudios de Ling
ustica Espa
nola.
Dick, J. P. 1991. A conceptual, case-relation representation of text for
intelligent retrieval. Ph.D. thesis, University of Toronto.
Dillon, M., & Gray, A.S. 1983. FASIT: A fully automatic syntactically based indexing system. Journal of the American Society for
Information Science, 34(2), 99108.
Doi, T., & Sumita, E. 2005. Splitting Input for Machine Translation
Using N-gram Language Model Together with Utterance Similarity.
IEICE Transactions, 88-D(6), 12561264.
Dubuc, R., & Lauriston, A. 1997. Terms and Contexts. Handbook of
Terminology Management. John Benjamins: 80-88.
Eichmann, D., Ruiz, M., & Srinivasan, P. 1998. Cross-Language Information Retrieval with the UMLS Metathesaurus. Pages 7280 of:
Proc. of the 21st Annual International ACM SIGIR Conference on
Research and Development in Information Retrieval.
Ely, J.W., Osheroff, J.A., Gorman, P.N., Ebell, M.H., Chambliss, M.L.,
Pifer, E.A., & Stavri, P.Z. 2000. A taxonomy of generic clinical
questions: classification study. Pages 429432 of: British Medical
Journal (BMJ), vol. 321.
205
206
Referencias
Engel, R., & Sonntag, D. 2007. Text Generation in the SmartWeb

Multimodal Dialogue System. In: KI 2007: Proceedings of the 30th
Annual German Conference on Artificial Intelligence.
Fagan, J.L. 1987. Automatic phrase indexing for document retrieval:
An examination of syntactic and non-syntactic methods. Pages
91101 of: Proceedings of ACM SIGIR.
Fernandez, F., & Montero-Fleta, B. 2003. La premodificaci
on nominal
en el ambito de la informatica. Estudio contrastivo ingles-espa
nol.
Universidad de Valencia.
Ferrandez, O., Terol, R.M., Martnez-Barco, P., & Palomar, M. 2006a.
A Knowledge Based Strategy for Recognising Textual Entailment.
Pages 5360 of: Text, Speech and Dialogue.
Ferrandez, O., Terol, R.M., Mu
noz, R., Martnez-Barco, P., & Palomar, M. 2007. A Knowledge-Based Textual Entailment Approach
Applied to the AVE Task. Pages 490493 of: Evaluation of Multilingual and Multi-modal Information Retrieval, 7th Workshop of
the Cross-Language Evaluation Forum.
Ferrandez, S., & Ferrandez, A. 2007. The Negative Effect of Machine
Translation on Cross-Lingual Question Answering. Pages 494505
of: CICLing 2007.
Ferrandez, S., Ferrandez, A., Roger, S., Lopez-Moreno, P., & Peral, J.
2006b. BRILI, an English-Spanish Question Answering System.
Pages 2329 of: Proceedings of the International Multiconference
on Computer Science and Information Technology.
Fitting, M. 1990. First-Order logic and automated theorem proving.
Springer-Verlag.
Forner, P., Pe
nas, A., Alegria, I., Forascu, C., Moreau, N., Osenova,
P., Prokopidis, P., Rocha, P., Sacaleanu, B., Sutcliffe, R., & Sang,
E.T.K. 2008. Overview of the CLEF 2008 Multilingual Question
Answering Track. In: Working Notes for the CLEF 2008 Workshop.
Galinsky, C. 2000. Terminology and Knowledge Representation. In:
KnowTech 2000 Conference and Exhibition.
Galvez, C., de Moya-Anegon, F., & Solana, V.H. 2005. Term conflation
methods in information retrieval. Journal of Documentation, 61(4),
520547.
Gamut, L. T. F. 1991. Logic, Language and Meaning. Chicago: Univ.
chicago Press.
Garca-Marco, F. J. 1998. El concepto de informacion: una aproximacion transdisciplinar. Revista general de informacion y documentaci
on, 8(1), 303326.
Garca de Quesada, M. 2001. Estructura definicional terminogr
afica en
el subdominio de la oncologa clnica. Ph.D. thesis, University of
Granada.
Garret, A. V. 2003. Meaning in Spinozas Method. Cambridge University Press.
Referencias
Garrido, M. 2003. Logica simbolica. Ed. Tecnos.

Gomez, J.M. 2008. InTiMe: plataforma de integracion de recursos de
PLN. In: Procesamiento del lenguaje natural. N. 40.
Gomez-Hidalgo, J.M., Cortijo, J.C., Puertas, E., & Ruiz, M. 2004. Concept Indexing for Automated Text Categorization. Pages 195206
of: Proceedings of the 9th International Conference on Applications
of Natural Language to Information Systems, NLDB 2004.
Gonzalo, J., Verdejo, F., & Cigarran, J. 1998. Indexing with WordNet synsets can improve text retrieval. In: Proceeding of the COLING/ACL Workshop on Usage of WordNet in Natural Language
Processing.
Hasan, M., & Matsumoto, Y. 1999. Document Clustering: Before and
After the Singular Value Decomposition. Information Processing
Society of Japan (IPSJ-TR:99-NL-134.), 4755.
Hassan, S., Mihalcea, R., & Banea, C. 2007. Random-Walk Term
Weighting for Improved Text Classification. In: Proceedings of
the IEEE International Conference on Semantic Computing (ICSC
2007).
Hayashi, M., Yamada, S., Kataoka, A., & Yokoo, A. 2001. ALT-J/C A
Prototype Japanese-to-Chinese Automatic Language Translation
System. Pages 157161 of: In proceedings of the MT Summit VIII.
Hobbs, J. 1985. Ontological promiscuity. In: Proceedings of the 23rd
Annual Meeting of the Association for Computational Linguistics.
Hodges, W. 1993. Logical features of Horn Clauses. In: Handbook of
logic in artificial intelligence and logic programming (vol. 1).
Humphreys, B.L., & Lindberg, D.A.D. 1993. The UMLS proyect: making the conceptual connection between users and the information
they need. Pages 170177 of: Bulletin of the Medical Library Association, vol. 81.
Hurtado, L. F., Blat, F., Garca, F., Grau, S., Griol, D., Sanchs, E.,
Segarra, E., & Torres, E. 2005. Sistema de dialogo para el Proyecto
DIHANA. Procesamiento del Lenguaje Natural, 35.
Hutchins, J. W., & Somers, H. L. 1992. An introduction to machine
translation. Academic Press.
Jacquemin, C., & Tzoukeman, E. 1999. NLP for term variant extraction:
A synergy of morphology, lexicon and syntax. Pages 2574 of:
Natural Language Information Retrieval.
Jung, H., & Lee, G.G. 2002. Multilingual question answering with high
portability on relational databases. International Conference On
Computational Linguistics. Proceeding of the 2002 conference on
multilingual summarization and question answering, 19.
Junker, M., & Abecker, A. 1997. Exploiting thesaurus knowledge in rule
induction for text classification. Pages 202207 of: Proceedings of
RANLP-97, 2nd International Conference on Recent Advances in
Natural Language Processing.
207
208
Referencias
Jurafsky, D., & Martin, J. H. 2000. Speech and Language Processing.

An Introduction to Natural Language Processing, Computational
Linguistics and Speech Recognition. London: Prentice Hall.
Justeson, J.S., & Katz, S.M. 1995. NLP for term variant extraction:
A synergy of morphology, lexicon and syntax. Natural Language
Engineering, 1, 927.
Kamp, H. 1981. A theory of truth and semantic representation. Pages
277322 of: Formal Methods in the Study of Language.
Kamp, H., & Reyle, U. 1993. From Discourse to Logic: Introduction
to Modeltheoretic Semantics of Natural Language, Formal Logic
and Discourse Representation Theory. Institute for Computational
Linguistics, University of Stuttgart.
Kandel, E. R., Schwartz, I. H., & Jessel, T. M. 1996. Essentials of
Neural Science and Behavior. McGraw-Hill/Appleton & Lange.
Kang, S.-S. 2004. Term-Specific Language Modeling Approach to Text
Categorization. Pages 735742 of: International Conference on
Computational Science and Its Applications - ICCSA 2004.
Keselj, V., Peng, F., Cercone, N., & Thomas, C. 2003. N-gram-based
Author Profiles for Authorship Attribution. In: Proceedings of the
Conference Pacific Association for Computational Linguistics.
Kirakowski, J. 1988. Human/Computer Interaction: From Voltage to
Knowledge. Chartwell-Bratt.
Kjell, B., Addison-Woods, W., & Frieder, O. 1994. Discrimination of
authorship using visualization. Information Processing and Management, 30(1).
Kowalski, R. 1980. Logic for Problem Solving. North Holland, New
York.
Kuper, J., Saggion, H., Cunningham, H., Declerck, T., de Jong, F.,
Reidsma, D., Wilks, Y., & Wittenburg, P. 2003. Intelligent Multimedia Indexing and Retrieval through Multi-source Information
Extraction and Merging. In: International Joint Conferences on
Artificial Intelligence (IJCAI).
Lascarides, A., & Asher, N. 1993. Temporal Interpretation, Discourse
Relations, and Commonsense Entailment. Linguistics and Philosophy, 16, 437493.
Lear, J. 1980. Aristotle and Logical Theory. Cambridge University
Press.
Lewis, D. D. 1992. Representation and learning in information retrieval.
Ph.D. thesis, University of Massachusetts.
Lin, C.-Y., & Hovy, E. 2002. From Single to Multi-document Summarization: A Prototype System and its Evaluation. Pages 457464
of: Proceedings of the 40th Annual Meeting of the Association for
Computational Linguistics (ACL).
Lin, C.-Y., & Och, F. J. 2004. Automatic evaluation of machine translation quality using longest common subsequence and skip-bigram
Referencias
statistics. In: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics.
Lin, D. 1998a. An Information-Theoretic Definition of Similarity. Pages
296304 of: Proceedings of the International Conference on Machine Learning.
Lin, D. 1998b. Dependency-based Evaluation of MINIPAR. In: Workshop on the Evaluation of Parsing Systems.
Lin, J. 2006. The role of information retrieval in answering complex
questions. Pages 523530 of: Proceedings of the COLING/ACL
2006.
Lindberg, D.A.D., & Humphreys, B.L. 1993. The Unified Medical Language System. Pages 281291 of: Methods of Information in Medicine, vol. 32.
Llopis, F. 2003. IR-n: Un Sistema de Recuperaci
on de Informacion
basado en pasajes. Ph.D. thesis, Universidad de Alicante.
Llopis, F., Mu
noz, R., Terol, R.M., & Noguera, E. 2005. IR-n r2: Using
Normalized Passages. Multilingual Information Access for Text,
Speech and Images, 9099.
Magnini, B., Negri, M., Prevete, R., & Tanev, H. 2002. Mining Knowledge from Repeated Co-occurrences: DIOGENE at TREC-2002.
In: Proceedings of The Eleventh Text Retrieval Conference (TREC
2002).
Manjula, D., Aghila, G, & Geetha, T. V. 2003. Document Knowledge
Representation using Description Logics for Information Extraction and Querying. In: Proceedings of the International Conference
on Information Technology: Computers and Communications.
Manning, C. D., & Sch
utze, H. 1999. Foundations of Statistical Natural
Language Processing. Cambridge: The MIT Press.
Manzano, M. 1996. Extensions of first order logic. Cambridge University Press.
Marchetti, A., Tesconi, M., Ronzano, F., Rosella, M., Bertagna, F.,
Monachini, M., Soria, C., Calzolari, N., Huang, C.-R., & Hsieh, S.K. 2006. Toward an Architecture for the Global Wordnet Initiative.
In: Proceedings of the 3rd Italian Semantic Web Workshop.
Marcus, M.P., Santorini, B., & Marcinkiewicz, M.A. 1994. Building a
Large Annotated Corpus of English: The Penn Treebank. Computational Linguistics, 19, 313330.
Marquez, L. 2001. Tratamiento del lenguaje natural. Edicions Universitat Barcelona. Chap. Aprendizaje automatico y procesamiento del
lenguaje natural, pages 133188.
Martnez-Vazquez, M. 1996. Gram
atica contrastiva ingles-espa
nol. Servicio de publicaciones de la Universidad de Huelva.
Matsumura, A., Takasu, A., & Adachi, J. 2006. Effect of relationships
between words on Japanese information retrieval. ACM Transac-
209
210
Referencias
tions on Asian Language Information Processing (TALIP), 5(3),

264289.
Mauldin, M.L. 1991. Performance in ferret: a conceptual information
retrieval system. Pages 347355 of: Proceedings of ACM SIGIR.
McRoy, S., Haller, S., & Ali, S. 1998. Mixed Depth Representations for
Dialog Processing. In: Proceedings of Cognitive Science 98.
Mihalcea, R., & Tarau, P. 2005. An Algorithm for Language Independent Single and Multiple Document Summarization. In: Proceedings of the International Joint Conference on Natural Language
Processing (IJCNLP).
Miller, G. A. 1995. WordNet: A Lexical Database for English. Communications of the ACM, 38(11), 39 41.
Minsky, M. 1975. A Framework for Representing Knowledge. The Psychology of Computer Vision, McGraw-Hill.
Mladenic, D., & Grobelnik, M. 1998. Word sequences as features in textlearning. Pages 145148 of: Proceedings of ERK-98, the Seventh
Electrotechnical and Computer Science Conference.
Moens, M., & Steedman, M.J. 1988. Temporal ontology and temporal
reference. Computational Linguistics, 14, 1528.
Moldovan, D., & Novischi, A. 2002. Lexical Chains for Question Answering. Pages 17 of: Proceedings of the 19th International Conference on Computational Linguistics, vol. 1.
Moldovan, D., Clark, C., Harabagiu, S., & Maiorano, S. 2003. COGEX:
a logic prover for question answering. Pages 8793 of: Proceedings
of HTL-NAACL 2003, Human Language Technology Conference.
Moldovan, D., Clark, C., Harabagiu, S., & Maiorano, S. 2007. COGEX:
A semantically and contextually logic prover for question answering. Journal of Applied Logic, 5(1), 4969.
Molla, D., & Vicedo, J.L. 2004. Question Answering in Restricted Domains. Association for Computational Linguistics.
Molla, D., Schwitter, R., Hess, M., & Fournier, R. 2002. ExtrAns,
an answer extraction system. TAL Special Issue on Information
Retrieval Oriented Natural Language Processing, 495522.
Moore, R. 1981. Problems in logical form. In: Proceedings of the 19th
Moore, R. C. 1995. Logic and Representation. CSLI Lecture Notes.
Moreda, P., Llorens, H., Saquete, E., & Palomar, M. 2008. The influence
of Semantic Roles in QA: A comparative analysis. In: Actas del
XXIV Congreso de la SEPLN.
Moreno, L., Palomar, M., Molina, A., & Ferrandez, A. 1999. Introducci
on al Procesamiento del Lenguaje Natural. Alicante: Universidad
de Alicante.
Newell, A. 1980. The Knowledge Level. Presidential Address, American
Association for Artificial Intelligence, 2(2), 120.
Parry, W. T., & Hacker, E. A. 1991. Aristotelian Logic. SUNY Press.
Referencias
Partee, B. H., ter Meulen, A. G., & Wall, R. 2004. Mathematical Methods in Linguistics. Springer.
Pe
nas, A., Rodrigo, A., Sama, V., & Verdejo, F. 2007. Overview of the
Answer Validation Exercise 2006. Pages 257264 of: Evaluation of
Multilingual and Multi-modal Information Retrieval, 7th Workshop
of the Cross-Language Evaluation Forum.
Pedersen, T., Patwardhan, S., & Michelizzi, J. 2004.
WordNet::Similarity - Measuring the Relatedness of Concepts. In: Proceedings of the 19th National Conference on Artificial Intelligence.
Pereira, F. C. N., & Warren, D. H. D. 1983. Parsing as Deduction. In:
Proceedings of 21st Annual Meeting of the Association for Computational Linguistics.
Petridis, V., Kaburlaos, V. G., Fragkou, P., & Kehagias, A. 2001. Text
classification using the -FLNMAP neural network. In: Proceedings
of the 2001 International Joint Conference on Neural Networks.
Poesio, M., Ferguson, G., Heeman, P., Hwang, C. H., Traum, D. R.,
Allen, J. F., Martin, N., & Schubert, L. K. 1994. Knowledge Representation in the TRAINS System. In: In Working Notes of the
AAAI 1994 Fall Symposium on 156 Knowledge Representation for
Natural Language Processing in Implemented Systems.
Porter, M.F. 1980. An algorithm for suffix stripping. Program, 14(3),
130137.
Perez, M., Solorio, T., Montes, M., Lopez, A., & Villase
nor, L. 2004.
Question answering for Spanish based on lexical and context annotation. Pages 325333 of: Advances in Artificial Intelligence IBERAMIA 2004.
Quirk, C., Menezes, A., & C.Cherry. 2005. Dependency Treelet Translation: Syntactically Informed Phrasal SMT. In: Proceedings of 43rd
Ramakrishnanan, G., & Bhattacharyya, P. 2003. Text Representation
with WordNet Synsets Using Soft Sense Disambiguation. Ingenierie des Systems d Information, 8(3), 5570.
Rich, E., & Knight, K. 1994. Inteligencia Artificial. McGraw Hill.
Riloff, E, & Jones, R. 1999. Learning Dictionaries for Information Extraction by Multilevel Bootstrapping. In: Proceedings of the 13th
National Conference on Artificial Intelligence (AAAI).
Roger, S., Ferrandez, S., Ferrandez, A., Peral, J., Llopis, F., Aguilar, A.,
& Tomas, D. 2005. AliQAn, Spanish QA System at CLEF-2005.
Pages 457466 of: Accessing Multilingual Information Repositories,
6th Workshop of the Cross-Language Evalution Forum.
Roth Jr., C.H. 2006. Fundamentos de dise
no logico. Ed. Thomson.
Rumelhart, D.E., Widrow, B., & Lehr, M.A. 1994. The Basic Ideas in
Neural Networks. Communications of the ACM (CACM), 37(3).
Rus, V. 2002. Logic Form for WordNet Glosses. Ph.D. thesis, Southern
Methodist University.
211
212
Referencias
Rus, V., & Moldovan, D.I. 2002. High performance logic form transformation. International Journal for Tools with Artificial Intelligence,
3, 437454.
Russell, S., & Norving, P. 1996. Inteligencia Artificial: un enfoque moderno. Prentice Hall.
Sager, J. C. 1990. A Practical Course in Terminology Processing. John
Benjamins Publishing Company.
Sakay, H., & Masuyama, S. 2004. A multiple-document summarization
system with user interaction. Proceedings of the 20th International
Conference on Computational Linguistics.
Salton, G. 1989. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison Wesley.
Sanderson, M. 2000. Retrieving with Good Sense. Information Retrieval
Journal, 2(1), 4961.
Sasaki, Y., & Matsuo, Y. 2000. Learning Semantic-Level Information
Extraction Rules by Type-Oriented ILP. In: Proceedings of the 18th
International Conference on Computational Linguistics, COLING2000.
Schneider, K. 2004. A new feature selection score for multinomial naive
Bayes text classification based on KL-divergence. In: Proceedings
of 42st Annual Meeting of the Association for Computational Linguistics.
Scott, S., & Matwin, S. 1999. Feature engineering for text classification. Pages 379388 of: Proceedings of ICML-99, 16th International Conference on Machine Learning.
Shaban, K. 2006. A Semantiic Graph Modell for Text Representatiion
and Matchiing iin Document Miiniing. Ph.D. thesis, University of
Waterloo.
Shimohata, S., Kitamura, M., Sukehiro, T., & Murata, T. 2001. Collaborative Translation Environment on the Web. Pages 331334 of:
In proceedings of the MT Summit VIII.
Sikorski, T., & Allen, J. F. 1996. A Task-Based Evaluation of the
TRAINS-95 Dialogue System. Pages 207220 of: Workshop on
Dialogue Processing in Spoken Language Systems.
Silva, J., & Lopes, G. 1999. A local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units. In: Proceedings
of the 6th Meeting on the Mathematics of Language.
Sleator, D., & Temperley, D. 1993. Parsing English with a link grammar. In: Porceedings of Third International Workshop on Parsing
Technologies.
Soria, C., Tesconi, M., Marchetti, A., Bertagna, F., Monachini, M.,
Huang, C.-H., & Calzolari, N. 2006. Towards Agent-based Crosslingual Interoperability of Distributed Lexical Resources. Pages
1724 of: Proceedings of the Workshop on Multilingual Langua-
Referencias
ge Resources and Interoperability. Association for Computational

Linguistics.
Sosa, E. 1997. Procesamiento del lenguaje natural: revision del estado
actual, bases teoricas y aplicaciones (Parte I). El profesional de la
informaci
on.
Sperschneider, V., & Antoniou, G. 1991. Logic: A foundation for Computer Science. Addison-Wesley.
Stallard, D. 1987. The logical analysis of lexical ambiguity. In: Proceedings of the 25th annual meeting on Association for Computational
Linguistics.
Steels, L. 1997. Synthesising the Origins of Language and Meaning
Using Co-evolution, Self-organisation and Level formation. In: Approaches to the Evolution of Language: Social and Cognitive bases.
Steels, L. 2000. The puzzle of language evolution. Kognitionswissenschaft, 8(4), 143150.
Strzalkowski, T., Wang, J., & Wise, B. 1998. Summarization-based
Query Expansion in Information Retrieval. In: Proceedings of the
17th International Conference on Computational Linguistics (COLING98) and 36th Annual Meeting of the Association for Computational Linguistics (ACL98).
Terol, R.M., Martinez-Barco, P., & Palomar, M. 2007. A knowledge
based method for the medical question answering problem. Pages
1511 1521 of: Computers in Biology and Medicine, vol. 37.
Tran, T.D., Garcelon, N., Burgun, A., & Beux, P. Le. 2004. Experiments in cross-language medical information retrieval using a mixing translation module. Medinfo, 11(2), 946949.
Ullman, J. D., & Widom, J. 1999. Introducci
on a los Sistemas de Bases
de Datos. Prentice Hall.
van Emden, M. H., & Kowalski, R. 1976. The Semantics of Predicate
Logic as a Programming Language. Journal of the ACM, 24(4),
733742.
Veronis, J. 1988. Morphosyntactic correction in natural language interfaces. Pages 708713 of: Proceedings of the 13th International
Conference on Computational Linguistics (COLING88).
Vicedo, J.L. 2002. SEMQA: un modelo semantico aplicado a los sistemas de b
usqueda de respuestas. Ph.D. thesis, University of Alicante.
Vilares, J., Barcala, F. M., & Alonso, A. 2002. Using Syntactic
Dependency-Pairs Conflation to Improve Retrieval Performance in
Spanish. Pages 381390 of: CICLing.
Vosse, T. 1992. Detecting and correcting morpho-syntactic errors in
real texts. Pages 111118 of: Proceedings of the Third Conference
on Applied Natural Language Processing.
Vossen, P. 1998. A Multilingual Database with Lexical Semantic Networks. Dordrecht: Kluwer Academic Publisher.
213
214
Referencias
Vossen, P. 2002. EuroWordNet General Document. Part A. Final Document. EuroWordNet (LE2-4003, LE4-8328).
White, R.W., Oard, D.W., Jones, G.J.F., Soergel, D., & Huang, X.
2006. Overview of the CLEF-2005 Cross-Language Speech Retrieval Track. Pages 744 759 of: Accessing Multilingual Information
Repositories.
Yangarber, R. 2003. Counter-Training in Discovery of Semantic Patterns. In: Proceedings of the 41th Annual Meeting of the Association for Computational Linguistics (ACL).
Yangarber, R., Grishman, R., Tapanainen, P., & Huttunen, S. 2000.
Unsupervised Discovery of Scenario-Level Patterns for Information
Extraction. In: Proceedings of the 18th International Conference
on Computational Linguistics, COLING-2000.
Zelikovitz, S., Cohen, W. W., & Hirsh, H. 2007. Extending WHIRL
with background knowledge for improved text classification. Information Retrieval, 10(1), 3567.
Zhang, D., & Lee, W.S. 2003. Question classification using support vector machines. Annual ACM Conference on Research and Development in Information Retrieval. Proceedings of the 26th annual international ACM SIGIR conference on Research and development
in informaion retrieval, 2632.
Zhang, J, & Li, C. 2005. A Comparative Study for WordNet Guided
Text Representation. Pages 883887 of: Proceedings of AI 2005:
Advances in Artificial Intelligence.

Tesis Rafamt

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tesis Rafamt

Diunggah oleh

Hak Cipta:

Format Tersedia

Representacion del conocimiento

textual mediante tecnicas

A mis sobrinos: Jose,

Esta Tesis no habra sido posible sin el alentador trabajo de mi director,

2.5.7. La representacion formal del texto en los sistemas de Generacion de Res

5.2.4. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

6.. Conclusiones finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

2.1. Ejemplo de representacion seg

Synsets del sustantivo car . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4.8. Tipos semanticos en UMLS asociados a los predicados conceptualizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

entrenamiento del tipo generico 1 . . . . . . . . . . . . . . . . . . . 182

6.18.Preguntas de evaluacion del tipo generico 8 . . . . . . . . . . . . . . . . . . . . . . 199

2.1. Grafo que representa el texto del ejemplo . . . . . . . . . . . . . . . . . . . . . . . . 38

Arbol logico del topico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

El Procesamiento del Lenguaje Natural (PLN) es una disciplina con una

1.1 La independencia del dominio en los sistemas de

1.2 La multilingualidad en los sistemas de PLN

La representacion del conocimiento cobra especial relevancia en los

Para entender la necesidad de dotar a los sistemas de PLN de esquemas

del conocimiento son:

las palabras y la semantica asociada a las palabras. Ademas, como se

1.4 Objetivos de la tesis

1.4 Objetivos de la tesis

Como proposito del trabajo de investigacion, conviene destacar tambien

en este desarrollo de sus funciones.

2. Estado del arte

2. Estado del arte

consiste en su transformacion a una determinada representacion formal

2.1 Aplicaciones del PLN

2.1 Aplicaciones del PLN

2. Estado del arte

fican en sistemas estadsticos y en sistemas basados en reglas de PLN o

2.1.1 Sistemas estadsticos

2.1 Aplicaciones del PLN

reglas de PLN se centra en el dise

2. Estado del arte

En este modelo, las unidades basicas de representacion son los terminos

Frase: The story of Mr. Fly and the Emergency Rescue

Tabla 2.1. Ejemplo de representaci

Este modelo de representacion del texto no tiene en cuenta aspectos

2. Estado del arte

frases estadsticas definidas como n-gramas normalizados considerando

Frase: The story of Mr. Fly and the Emergency Rescue

Una variante de la representacion siguiendo el modelo de n-gramas son

Frase: The story of Mr. Fly and the Emergency Rescue

Frase: The story of Mr. Fly and the Emergency Rescue

2. Estado del arte

muestra la representacion formal del texto seg

Frase: John drove his car yesterday.

Parte izda. regla gramatical

Parte drcha. regla gramatical

Tabla 2.2. Ejemplo de representaci

2.3.2 Modelo basado en relaciones de dependencia entre

6 donde se matiza la representacion formal del texto seg

Frase: The story of Mr. Fly and the Emergency Rescue

Tabla 2.3. Ejemplo de representaci

2.3.3 Modelo de fusi

Ejemplo: the neighbours big dog

2. Estado del arte

pln: texto plano eliminando las palabras de parada.

Frase: Docenas de ninos muy alegres han tenido que

Tabla 2.4. Ejemplo de representaci

2.3.4 Modelo de formas l