Resumen
En esta investigacin, proponemos un modelo para la generacin de resmenes
abstractivos de un solo documento, basado en la representacin conceptual del texto.
Aunque hay investigaciones que toman en cuenta la representacin sintctica o semntica
parcial del texto, hasta ahora, una representacin semntica completa de textos no se
ha usado para la generacin de resmenes. Nuestro modelo usa una representacin
semntica completa del texto por medio de estructuras de grafos conceptuales. En
este contexto, la tarea de la generacin del resumen se reduce a resumir el conjunto de
los grafos conceptuales correspondientes. Para realizar esto, se aplica un conjunto de
operaciones sobre los grafos: generalizacin, unin o asociacin, ponderacin y poda.
Adems, se usan una jerarqua de conceptos (WordNet) y reglas heursticas basadas
en los patrones semnticos de VerbNet para apoyar a las operaciones. El conjunto
resultante de grafos representa al resumen del texto a nivel conceptual. El mtodo se
evalu con la coleccin de datos DUC 2003. Los resultados muestran que el mtodo es
efectivo para resumir textos cortos.
INTRODUCCIN
Actualmente, se cuenta con gran cantidad de informacin textual, pero las personas
no tienen suficiente tiempo para leerla, analizarla y tomar decisiones importantes
basndose en ella. De ah que las tecnologas para la generacin automtica de
resmenes, capaces de presentar la informacin de manera concisa, estn adquiriendo
gran importancia. La generacin automtica de resmenes textuales de calidad es una
tarea desafiante debido a que involucra anlisis y comprensin del texto, el uso de
informacin del dominio y generacin de lenguaje natural.
Se han propuesto diferentes clasificaciones para la generacin automtica de
resmenes (Sprck Jones, 1999; Hovy & Chin-Yew, 1999; Nenkova & McKeown,
2011; Lloret & Palomar, 2012); sin embargo, los factores predominantes en tales
clasificaciones son el medio de informacin (textos, imgenes, videos o voz), la
entrada (un documento o mltiples documentos), la salida (extractivo o abstractivo), el
propsito (genrico, personalizado, enfocado a una consulta, indicativo o informativo)
y la cantidad de lenguas (monolinge o multilinge).
En este trabajo, se consideran especialmente dos factores: la cantidad de
documentos en la entrada y el tipo de resumen que se genera a la salida: extractivo o
abstractivo.
Los resmenes extractivos se generan a partir de la seleccin de oraciones
consideradas sobresalientes en el texto de origen. Las oraciones se extraen literalmente,
se unen libremente, y se presentan como el resumen del texto. En este enfoque, que
se ha estudiado ampliamente (Nenkova & McKeown, 2011; Lloret & Palomar, 2012),
1. Marco terico
Otro elemento clave de los GCs es el concepto tipo. Los conceptos tipo
representan clases de entidades como Person (Persona), Money (Dinero), etc. Esto se
conoce como una relacin jerrquica de conceptos tipo que representa a una jerarqua
ES-UN. La jerarqua se usa para vincular conceptos para propsitos de inferencia
(Sowa, 1984; Sowa, 1999; Chein & Mugnier, 2009). Por ejemplo, en la Figura 1, Person:
Joe denota el concepto tipo Person y su referente Joe que es una instancia de Person.
2. Metodologa
Nuestro modelo para la generacin de resmenes abstractivos se basa en la
representacin semntica completa del texto por medio de GCs. De modo que el
problema de la generacin del resumen se simplifica en seleccionar los nodos ms
importantes de los grafos y reducir las estructuras grficas manteniendo su coherencia
estructural.
2.1. Herramientas
Nuestro enfoque se basa en el formalismo de GCs, el cual requiere de informacin
semntica adicional que se agrega a los grafos durante su creacin: una jerarqua de
conceptos para propsitos de generalizacin y patrones verbales para mantener la
coherencia estructural de los grafos. Dichos recursos lingsticos son especficos para
el idioma de estudio y son necesarios para el funcionamiento adecuado de nuestro
modelo.
En esta investigacin, aplicamos el modelo presentado en la Figura 3 al idioma
ingls, debido a que este idioma cuenta con los recursos lingsticos mencionados y
son de libre acceso como WordNet (Fellbaum, 1998) y VerbNet (Kipper, Trang Dang
& Palmer, 2000).
WordNet es una base de datos lxica para el ingls agrupada en sustantivos, verbos,
adjetivos y adverbios. Est organizada jerrquicamente en grupos de sinnimos
llamados synsets, y est enlazada mediante relaciones semnticas de hiperonimia
(G1)
(G2)
(G3)
2.2.2.2. Generalizacin
Esta operacin une dos conceptos relacionados de dos GCs. Nuestro supuesto
es que un texto fuente es coherente y cohesivo, donde las oraciones probablemente
refieren a conceptos que fueron previamente mencionados u otros conceptos
relacionados (Halliday & Hasan, 1976).
Esta operacin apoya y mejora los resultados del proceso de ponderacin. En la
Figura 8, los GCs pueden leerse como G4: Typhoon Babs weakened into severe storm y G5:
Storm killed at least 156 people in Philippines.
En estos grafos hay dos traslapes de conceptos relacionados: la primera asociacin
se identifica por (1,1), Typhoon: Babs (concepto 1, G4) y atmospheric_phenomenon: storm
(concepto 1, G5); y la otra asociacin identificada por (3,1), atmospheric_phenomenon:
storm (concepto 3, G4) y atmospheric_phenomenon: storm (concepto 1, G5), esta ltima tiene
la similitud mxima usando la jerarqua (b) de la Figura 8. Ambas asociaciones son
vlidas, pero se usa la asociacin con la medida de similitud mxima para establecer
la asociacin entre los nodos. Por lo tanto, consideramos como el mismo nodo ambos
conceptos: concepto 3 de G4 y concepto 1 de G5.
(G4)
(G5)
2.2.2.4. Ponderacin
Las ecuaciones (1) y (2) se calculan iterativamente para cada nodo hasta que
converja el algoritmo (no haya cambios en las mtricas AUTH y HUB) o hasta un
determinado nmero de iteraciones previamente definidas. Mihalcea y Tarau (2004)
usan de 20 a 30 iteraciones en el algoritmo, otros autores usan una sola iteracin
(Litvak & Last, 2008). Nosotros hemos identificado que 15 iteraciones son suficientes
para la coleccin de grafos, ms iteraciones no mejoran la seleccin de los nodos.
2.2.2.5. Poda
La operacin de poda se aplica para reducir los grafos. Esta operacin toma en
cuenta los resultados de la ponderacin, los patrones verbales para remover los nodos
irrelevantes y la tasa de compresin o umbral para establecer cuntos nodos deben
incluirse en el resumen resultante. Esta operacin selecciona los nodos segn su valor
de la mtrica AUTH y que se encuentren dentro del porcentaje de compresin.
De acuerdo con Hovy (2005) un resumen es til si se encuentra entre el 15% y
el 35% de longitud con respecto al documento original. Nosotros usamos el 20%
de compresin, ya que al analizar los resmenes con los cuales se compara nuestro
mtodo, la mayora de los resmenes hechos manualmente estaban dentro de este
porcentaje.
Los datos presentados en el Grupo I nos indican que el mtodo para textos muy
breves se desempean casi igual que un mtodo ms simple de implementar, menos
costoso computacionalmente y sin usar tantos recursos lingsticos como el mtodo
que presentamos.
No obstante, segn los datos mostrados en los grupos II y III, se puede inferir
que para textos a nivel de prrafo, nuestro mtodo puede identificar aceptablemente
(68% en promedio) los conceptos relevantes del texto analizado. De lo anterior,
podemos deducir que el mtodo se desempea mejor debido a que, a nivel de prrafo,
se tiene un texto ms estructurado y cohesionado, por lo que el mtodo aprovecha esa
caracterstica al representarse como GCs.
Tambin, podemos observar que la lnea base va mejorando mientras aumentamos
la cantidad de oraciones. Sin embargo, el mtodo propuesto se mantiene por arriba
de la lnea base. Se esperaba que la lnea base mejorara ya que existen estudios que
han demostrado que, en general, las primeras y ltimas oraciones en los prrafos son
buenos indicadores para identificar la informacin relevante, y, en el caso particular
de documentos de noticias, las primeras lneas contienen la informacin ms relevante
(Baxendale, 1958; Luhn, 1958; Hovy & Chin-Yew, 1999).
Aunado a lo anterior, la competencia DUC report los resultados para la tarea
de generacin de resmenes de un solo documento de noticias para los aos 2001 y
2002, donde ningn sistema participante super a la lnea base, la cual consista en
recuperar el inicio de los prrafos de los artculos de noticia, similar a la usada en esta
investigacin. En los experimentos realizados, se mostr que el grupo de humanos
que generaron los resmenes son mucho mejor que los sistemas de generacin de
resmenes. Tales hechos indican que aunque la generacin automtica de resmenes
monodocumento ya no se continu realizando en los aos siguientes de la competencia
DUC, sigue siendo un problema abierto (Nenkova, 2005; Nenkova & McKeown,
2011).
480 Sabino M iranda Jimnez, A lexander Gelbukh y Grigori Sidorov
CONCLUSIONES
En esta investigacin propusimos un nuevo modelo para la generacin de
resmenes abstractivos de un solo documento basado en GCs como la representacin
intermedia del texto. El modelo proporciona una combinacin del contenido del
texto con los roles semnticos dentro de un contexto de ponderacin basado en la
conectividad de los conceptos por medio de su semntica.
El modelo presentando, tambin, incorpora los flujos semnticos vinculados a los
GCs que proporcionan un esquema flexible para la creacin de resmenes orientados
a los intereses del usuario ya sean por la preferencia de los tpicos, o por el inters de
ciertos actores inherentes a los grafos tales como los agentes, los lugares, los temas,
etc. Esta caracterstica detallada de la semntica del texto no se haba usado para la
generacin de resmenes.
Tambin, cabe mencionar las limitaciones del mtodo presentado ya que se
requiere de recursos lingsticos externos (WordNet y VerbNet), los cuales lo
hacen dependiente del idioma; adicionalmente, la obtencin de los GCs a partir del
texto es otra limitante ya que por el momento no hay herramientas que los generen
automticamente.
Finalmente, la evaluacin del mtodo se realiz con documentos de noticias muy
breves y se super a la lnea base con un promedio del 11%, similar a la usada
en los aos de la competencia DUC 2001 y DUC 2002, donde ningn sistema
super a la lnea base. Un reto futuro es aplicar nuestro modelo a textos ms largos
y a la generacin de resmenes multidocumento, siendo la principal limitante la
construccin automtica de los GCs.
* AGRADECIMIENTOS
Este trabajo fue realizado con el apoyo parcial del gobierno de Mxico (CONACYT, SNI), del
IPN, Mxico (proyectos SIP 20120418, 20131441, 20131702; COFAA, PIFI), del proyecto 122030
CONACYT-DST India Answer Validation through Textual Entailment, y del proyecto 269180
de la comunidad europea: FP7-PEOPLE-2010-IRSES Web Information Quality - Evaluation Initiative
(WIQ-EI).