Agrupación Semántica de Sustantivos Basada en Similitud Distribucional. Implicaciones Lexicográficas

Agrupacin semntica de sustantivos basada en similitud distribucional.
Implicaciones lexicogrficas
ROGELIO NAAR! IRENE RENA"
Instituto "niversitario de Ling#$stica Aplicada
"niversitat %ompeu &abra
'(Roc )oronat *+,! -,-*, )arcelona
-. IN.RO/"''I0N 1 O)2E.I3O4
Este art$culo
*
describe un experimento de agrupacin semntica de sustantivos basada en la
5iptesis distribucional de 6arris 7*89:;! seg<n la cual la similitud semntica entre unidades
l=xicas puede detectarse a trav=s de la b<s>ueda de coincidencias en el contexto ling#$stico.
Nuestro estudio busca demostrar >ue! dado un con?unto de sustantivos con distintos
5ipernimos 7en este caso! bebidas! >uesos! sombreros! ve5$culos @ animales;! es posible su
agrupacin ba?o el 5ipernimo correcto por procedimientos estad$sticos >ue prcticamente no
re>uieren conocimiento expl$cito de la lengua analiAada.
%ara ilustrar el argumento! la .abla * muestra el e?emplo de tres sustantivos en
castellano! cerveza! caf @ t! con sus respectivos elementos coocurrentes! >ue son palabras
>ue muestran una tendencia a aparecer con frecuencia en el corpus ?unto a cada unidad en
cuestin. Esto es! es mu@ frecuente >ue palabras como beber! tomar! servir! etc.! apareAcan
con frecuencia en combinacin con estas tres unidades l=xicas por>ue son bebidas. .al como
la tabla indica! las unidades >ue coocurren con frecuencia con cada unidad analiAada
contienen importante informacin semntica sobre ellas! la cual nos permite compararlas entre
s$ @ agruparlas en funcin de la cantidad de atributos compartidos. En verdad se trata de
atributos en muc5os de los casos! como el color! el sabor o la temperatura. %or un lado! estos
atributos nos permiten ver lo >ue las tres unidades tienen en com<n! @a >ue comparten el
vocabulario >ue acompaBa t$picamente a las bebidas @ >ue cabr$a en la interseccin en la
&igura * entre los tres con?untos analiAadosC pero por otro lado tambi=n nos permitir$a
continuar 5aciendo distinciones dentro del grupo de las bebidas! @a >ue! por e?emplo! t @ caf
tienen algunas unidades en com<n >ue las caracteriAan como bebidas calientes >ue se beben
* Este traba?o 5a sido posible gracias a la financiacin de los pro@ectos DAgrupacion semntica @ relaciones
lexicolgicas en el diccionarioE! dirigido por 2. /e'esaris 76"FG--8H-I9,,(&ILO; @ por el pro@ecto A%LEJ
D%rocesos de actualiAacin del l=xico del espaBol a partir de la prensa escritaE! dirigido por F... 'abre
7&&IG--8H*G*,,H'-9H-*(&ILO;.
Art$culo publicado en las actas del 3 'ongreso Internacional de Lexicograf$a 6ispnica! Fadrid! G9HGI de ?unio de G-*G.
en taAa 7con coocurrentes como caliente, preparar, taza, cucharada, etc.; >ue como cabe
esperar no aparecen con cerveza. En menor medida existen tambi=n atributos compartidos
entre cerveza @ caf! como el amargor! o entre la cerveza @ el t! como una temperatura
inadecuada para el consumo 7tibia(o;.
cerveza caf t
beber
tomar
pedir
>uerer
servir
beber
tomar
pedir
>uerer
servir
beber
tomar
pedir
>uerer
servir
amarga amargo
tibia tibio
caliente
negro
preparar
taAa
plantacin
cuc5arada
caliente
negro
preparar
taAa
plantacin
cuc5arada
fr$a
fresca
local
embotellar
botella
lata
?arra
vaso
triste
irland=s
5umeante
gustar
m>uina
poso
verde
aromtico
bolsa
5o?a
infusin
.abla *J 'omparacin de palabras >ue coocurren con tres sustantivos
&igura *J representacin de la interseccin de
unidades l=xicas como con?untos de unidades
coocurrentes
4in lugar a dudas el estudio de la similitud distribucional de las unidades l=xicas puede dar pie
a una serie de investigaciones distintas. 4in embargo! en el presente art$culo nos limitamos a
una primera exploracin de la posibilidad de agrupar unidades mediante la t=cnica estad$stica
de clustering! tomando como funcin de similitud la cantidad de palabras coocurrentes >ue los
comparandos tienen en com<n. %ara ello adoptamos un enfo>ue t=cnico sencillo @ ms bien
conservador! de?ando para traba?o futuro una ma@or elaboracin de los algoritmos utiliAados @
una ma@or experimentacin con la modificacin de distintas variables! tal como se explica en
ma@or detalle en la seccin de traba?o futuro.
La estructura del art$culo es la siguiente. /espu=s de esta introduccin! el art$culo se
divide en las restantes cinco secciones >ue abordan respectivamente los siguientes aspectosJ
en la seccin * ofrecemos una descripcin del contexto de esta investigacin @ explicamos por
>u= es relevante para la lexicograf$aC en la seccin G comentamos el traba?o relacionado con el
pro@ectoC en la seccin + explicamos nuestra metodolog$a cu@os resultados se detallan en la
seccin : @! finalmente! en la seccin 9 exponemos nuestras conclusiones @ posibles l$neas de
traba?o futuro.
*. 'ON.EK.O E IF%LI'A'IONE4 LEKI'OGRL&I'A4
*.*. Fotivacin
La motivacin de este traba?o est en el desarrollo de una metodolog$a para la generacin de
taxonom$as como una pieAa ms general de un pro@ecto de estudio de las relaciones
predicadoHargumento. En un traba?o anterior 7Renau @ NaAar G-**; describimos una
metodolog$a de anlisis de corpus basado en el 'orpus %attern Anal@sis 7'%A; de 6anMs
7G--:; con el cual pretendemos determinar las clases de sustantivos >ue en castellano pueden
operar como argumentos de cada verbo 7para una presentacin @ adaptacin de '%A al
castellano con fines lexicogrficos! cf. Renau @ Alonso! en prensa! @ Renau G-*G;.
El anlisis de textos reales se ve favorecido con la deteccin automtica de
5ipernimos @a >ue esto permite aumentar la capacidad de generaliAacin a partir del corpus.
%ara mencionar un e?emplo! consid=rese el verbo abrir en dos de sus acepcionesJ una! N>uitar
lo >ue cubre o tapa un recipiente u ob?eto similarO 7abrir una ca?a! lata! botella! etc.;! @ otra!
Ninaugurar un negocioO 7abrir una tienda! empresa! cadena! etc.; 7Renau! G-*G;. La estructura
de ambos usos es la misma! se trata de verbos transitivos! pero el significado cambia pues est
ligado a la combinatoria. Nuestra idea entonces es sustentar este tipo de distincin en los usos
de los verbos por medio del anlisis estad$stico de grandes cantidades de texto. %ara poder
llevar a cabo tal estudio! se necesita un sistema capaA de relacionar las entidades >ue aparecen
en el corpus analiAado con la o las categor$as a las >ue estas entidades pertenecen. En el caso
de nombres propios de persona! estos deber$an ser reconocidos con la eti>ueta semntica
%ER4ONA! @ de la misma forma! el resto de las unidades >ue pueden funcionar como argumentos
de un verbo tienen >ue ser asociadas a su o sus categor$as generales ms prximas 7sus
5ipernimos;! como la palabra tienda con respecto a un tipo semntico E4.A)LE'IFIEN.O o la
palabra caja con respecto a O)2E.O. Es evidente >ue se encuentra a>u$ una diversidad de
problemas! entre ellos el de la polisemia por>ue tienda! establecimiento o caja pueden pueden
tener significados distintos. /isponemos! sin embargo! de algoritmos para la induccin de los
sentidos de unidades polis=micas con una fiabilidad superior al 8-P 7NaAar! G-*-;. Fs
comple?o resulta plantearse >u= nivel de ri>ueAa @ granularidad debe alcanAar la taxonom$a @
si debe contener unidades polil=xicas! por>ue debe encontrarse un e>uilibrio entre la
arbitrariedad de la clasificacin 5ec5a por >uienes desarrollan la taxonom$a @ las clases >ue se
generan automticamente con los datos del corpus. %or e?emplo! uno debe decidir si incluir o
no un nodo como E4.A)LE'IFIEN.O 'OFER'IAL para distinguirlo de E4.A)LE'IFIEN.O u O)2E.O Q"E
4E A)RE para ser ms espec$fico respecto a O)2E.O! decisiones >ue a nuestro ?uicio deben
tomarse en el mbito de la lexicograf$a o donde sea >ue se apli>ue tal taxonom$a.
%ara un pro@ecto de este tipo se necesita una taxonom$a del castellano mu@ completa
o! me?or a<n! un sistema capaA de asignar el 5ipernimo ms probable para a una determinada
unidad l=xica potencialmente desconocida. Esto es entonces lo >ue motiva nuestros traba?os
en relacin con la deteccin de similitud semntica @ extraccin de taxonom$as.
*.G. Aplicaciones
El experimento de agrupacin de unidades semnticamente similares interesa a la lexicograf$a
en varios sentidos. En primer lugar! contribu@e al anlisis semntico de las unidades l=xicas
partiendo de datos de corpus. La observacin de datos emp$ricos se considera una condicin
sine qua non para la realiAacin de diccionarios 74inclair *8,I! *88*;! @ son muc5os los
investigadores >ue 5an reclamado una lexicograf$a sistemtica 7Apres?an! G--,;. No obstante!
el anlisis de dic5os datos es costoso en tiempo @ esfuerAo! lo >ue conlleva >ue los
diccionarios no siempre se 5a@an confeccionado basndose en dic5o anlisis o >ue este se
5a@a 5ec5o de forma poco metdica. 4e estn comenAando a desarrollar! con ms empu?e
desde la d=cada de *88-! 5erramientas >ue faciliten esta tarea! entre ellas la deteccin de
similitud semntica en una l$nea inspirada en el traba?o de ellig 6arris 7Grefenstette! *88:C
Lin! *88,;.
As$ pues! las utilidades >ue se pueden derivar de este estudio estn relacionadas con el
uso >ue se le d= para agrupar los lemas @ definirlos acorde con sus rasgos semnticos! o con
poder ofrecer esta agrupacin al usuario en un diccionario electrnico. La relevancia del
experimento espec$ficamente para la lexicograf$a viene dada por posibles aplicaciones comoJ
*; facilitar @ me?orar el anlisis semntico basado en corpus! pues la agrupacin
de concordancias por similitud semntica de sus argumentos facilita @ acelera
el lento @ arduo proceso manual de tratamiento de los datos! uno de los
principales escollos de tipo prctico con los >ue se 5a topado la lexicograf$a de
corpus
G; la creacin! ampliacin o actualiAacin del lemario! >ue puede ser agrupado
con criterio semntico @! de este modo! ser tratado de manera ms 5omog=nea!
en correspondencia con el lemario @a disponible si es el caso
+; la agrupacin de palabras para una redaccin ms co5erente! pues se pueden
crear grupos de ob?etos similares @ definirlos con el mismo patrn de
definicin 7p. e?. definir los >uesos o los sombreros de la misma manera;! lo
>ue 5asta a5ora se ven$a 5aciendo con cierta a@uda de procedimientos
informticos pero insuficientes
:; permitir una consulta por rasgos semnticos al usuario en el caso de un
diccionario Reb.
*.+. El contexto de la investigacin
Querr$amos referirnos brevemente a otros traba?os sobre extraccin de taxonom$as en los >ue
estamos traba?ando en paralelo @ >ue esperamos poder integrar en un sistema final! tal como
anuncibamos en el apartado *.*. En general se trata de estrategias sencillas e independientes
de lengua >ue si bien a<n no ofrecen resultados de calidad suficiente para un usuario final
cuando se aplican de forma aislada! su combinacin! >ue de?amos para traba?o futuro! s$
parece prometedora @a >ue esto permitir$a aumentar la cantidad @ certeAa de la informacin
contenida.
Nuestro primer enfo>ue fue la extraccin de relaciones de 5iperonimia a partir de
m<ltiples diccionarios electrnicos utiliAando estad$sticas de coocurrencia entre las palabras
del definiens @ las del definiendum! siguiendo la intuicin de >ue una las palabras ms
frecuentes en un con?unto de definiciones de una misma unidad l=xica suele ser su 5ipernimo
7Renau @ NaAar! G-*G;. .ambi=n investigamos la posibilidad de extraer las relaciones de
5iperonimia a trav=s de la asociacin de coocurrencia asim=trica de las palabras en corpus
7NaAar @ Renau! G-*G;. /e esta forma encontramos por e?emplo >ue palabras como
ciclomotor o bicicleta tienen tendencia a aparecer con frecuencia en oraciones con la palabra
vehculo @ >ue esta relacin no es rec$proca. Las palabras tienen tendencia a aparecer en las
mismas oraciones pero la asociacin es ms fuerte en un sentido! es decir >ue tiene una
direccin! @ esto permite construir un grafo dirigido >ue se aseme?a a una taxonom$a
DnaturalE! @a >ue surge directamente del texto @ no a trav=s de la introspeccin.
&inalmente! estamos llevando a cabo tambi=n un experimento de agrupacin de
unidades l=xicas 7no slo sustantivos; de acuerdo con su similitud paradigmtica en un sentido
estricto! >ue es calculada como la probabilidad de dos palabras de aparecer exactamente en los
mismos fragmentos de texto tales como secuencias de entre tres @ cuatro palabras 7NaAar @
Renau! en preparacin;. As$! una secuencia en ingl=s como Dare t5e Ra@s of t5e LordE puede
ser precedida por una serie limitada de palabras! tales como inscrutable! strange! mysterious!
infinite! unsearchable! etc. Este mecanismo sirve para agrupar palabras en clases semnticas @
morfolgicas! pero en cual>uier caso se puede decir >ue se trata de unidades de
comportamiento sintctico similar. %or eso! esta <ltima l$nea de investigacin promete
resultados no solo en relacin a la agrupacin de unidades semnticamente similares sino
tambi=n como una nueva v$a para la induccin automtica de sintaxis @ su aplicacin al
eti>uetado morfosintctico.
G. .RA)A2O RELA'IONA/O
El campo de la extraccin automtica de relaciones semnticas 7con particular =nfasis en la
extraccin de relaciones de 5iperonimia; comenA a desarrollarse a partir de la publicacin de
los primeros diccionarios en formato electrnico en la d=cada del setenta. Este nuevo recurso
favoreci la aparicin de una serie de publicaciones sobre distintos m=todos para convertir el
diccionario pensado para el usuario 5umano en una base de datos con informacin semntica
accesible para el ordenador 7'5odoroR et al.! *8,9C Als5aRi! *8,8C &ox et al.! *8,,C
NaMamura @ Nagao! *8,,C SilMs et al! *8,8C Gut5rie et al! *88-C )oguraev! *88*C entre
muc5os otros;. Estos autores comparten la idea de tomar un diccionario electrnico @ estudiar
las regularidades en las definiciones >ue permitan la extraccin de relaciones semnticas
mediante sistemas de reglas. /ependiendo del diccionario! una de estas reglas podr$a ser >ue
el primer sustantivo en la definicin de un sustantivo es su 5ipernimo. El problema est!
naturalmente! en >ue no siempre es el caso! @ ello re>uiere entonces de nuevas reglas >ue
salven las excepciones.
'on el boom de la ling#$stica de corpus en la d=cada de los noventa! el inter=s de los
investigadores se traslad de la extraccin de relaciones semnticas a partir de diccionarios
5acia la extraccin a partir de corpus! aun>ue con una filosof$a similar @a >ue lo >ue se busca
en corpus en este caso son patrones l=xicoHsintcticos tales como DK es un tipo de 1E! donde
la relacin de 5iperonimia entre las unidades K e 1 encontradas en corpus se expresa de una
manera ms o menos expl$cita. Esta l$nea tiene muc5os partidarios particularmente en el
campo de la terminolog$a especialiAada 76earst! *88GC )arriTre @ %opoRic5! *88UC %earson!
*88,C Fe@er! G--*C R@din! G--GC %otric5 @ %ianta! G--,C Auger @ )arriTre! G--,C AussenacH
Gilles @ 2ac>ues! G--,! entre diversos otros;. Algunos de los inconvenientes de este enfo>ue
es >ue no siempre los patrones recolectados expresan las relaciones esperadas! >ue las
relaciones pueden aparecer en patrones >ue >uienes desarrollan el sistema de extraccin no
son capaces de prever @! sobre todo! >ue todav$a no se 5a encontrado una manera de combinar
eficientemente la informacin >ue se encuentra en el corpus. "n e?emplo de ello es >ue en
general no se tiene en cuenta como indicador de veracidad de la supuesta relacin de
5iperonimia la cantidad de veces en >ue un mismo par de entidades K e 1 aparece en corpus
instanciando estos patrones l=xicoHsintcticos! una informacin >ue con seguridad contribuir$a
a aumentar la calidad de los resultados.
"n enfo>ue diferente @ cuantitativo por naturaleAa es el de los autores >ue! tambi=n a
partir de corpus! buscan encontrar unidades l=xicas >ue son semnticamente similares! @a sea
por sinonimia o e>uivalencia como por pertenencia a una misma clase semntica @! en
consecuencia! gobernada por un mismo 5ipernimo 7Grefenstette! *88:C 4c5#tAe @ %edersen!
*88IC Lin! *88,C Alfonseca @ Fanand5ar! G--GC Vilgarriff et al! G--:C 'urran! G--:C %eMar et
al. G--:C )ullinaria! G--,C entre muc5os otros;. Estos traba?os parten tambi=n de la l$nea
iniciada por 6arris 7*89:; @ en general 5ablan de extraccin de tesauros ms >ue de
taxonom$as. "na mencin aparte merece la aplicacin de la misma estrategia para la
extraccin de unidades l=xicas e>uivalentes en distintas lenguas! lo cual aBade un grado ms
de comple?idad al problema 7&ung @ FcVeoRn! *88IC Rapp! *888C NaAar! G-*-;.
Nuestro enfo>ue en el presente art$culo se acerca ms a este tercer grupo de autores
mencionado! pero probablemente sea la primera veA >ue se intenta 5acer algo as$ en
castellano! @a >ue no 5emos sido capaces de encontrar traba?os similares en esta lengua.
Naturalmente! no 5a@ raAones para esperar >ue con respecto a los estudios de semntica
distribucional el castellano se comporte de una manera mu@ distinta al ingl=s.
+. FE.O/OLOGWA
+.*. Fateriales
En este experimento intentamos agrupar palabras en categor$as semnticas utiliAando una
medida de similitud paradigmtica! es decir! una comparacin de los contextos de ocurrencia
de estas palabras. %ara ello! tomamos como contexto una sola palabra a la derec5a @ a la
iA>uierda de la unidad analiAada en el corpus de enegramas de Google )ooMs 7Fic5el et al.
G-**;! cu@o tamaBo es de alrededor de :9.--- millones de palabras! la ms grande coleccin
de castellano escrito en formato digital existente en la actualidad.
%ara este experimento se seleccionaron arbitrariamente *:9 sustantivos >ue! en su
significado ms frecuente! tuvieran como 5ipernimo principal las palabras bebida! queso!
sombrero! vehculo @ animal. .ales son unidades como ajenjo! brandy! horchata! limonada o
ponche, como bebidas! gorgonzola! gruyer! mozzarella o roquefort, como >uesos! etc.
Naturalmente! esto no implica >ue el algoritmo exi?a un n<mero reducido de unidades para
analiAar ni >ue estas perteneAcan a un n<mero reducido de clases semnticas. El motivo de
este diseBo experimental es facilitar la evaluacin! pero damos por supuesto >ue la aplicacin
del m=todo es general a cual>uier muestra.
+.G. Extraccin de datos
4e buscaron en el corpus los bigramas 7secuencias de dos palabras; en los >ue aparecen los
sustantivos de la muestra. En el caso de la palabra brandy! por e?emplo! encontramos en el
corpus bigramas como mucho brandy! buen brandy! brandy espaol! brandy francs!
bebiendo brandy! tomar brandy! brandy barato! etc.
+.+. &iltrado de los datos
Las unidades ms comunes @ >ue por tanto resultan escasamente informativas 7palabras como
mucho! buen! como! etc; se eliminan del anlisis por medio del coeficiente w definido en la
ecuacin *! donde f
o
es la frecuencia observada @ f
e
la frecuencia esperada. Esta <ltima
representa la probabilidad de una palabra de aparecer en un contexto cual>uiera! @ se calcula
registrando la frecuencia de tal unidad en un corpus de referencia >ue se supone representa
una muestra de lengua general. El proceso de filtrado se lleva a cabo eliminado a>uellas
unidades >ue obtienen una puntuacin w por deba?o de un umbral arbitrario.
*
+.:. 'onstruccin de los vectores
'on las unidades restantes! pasamos a construir una estructura de datos en la >ue cada
sustantivo >ueda asociado a una lista de palabras 7lematiAadas; con las >ue comparte
bigramas! la cual representamos como un con?unto o vectorJ
brand@ X Y beber! francs! tomar! barato! presidenteZ [
+.9. 4imilitud entre vectores
"tiliAamos estos vectores para comparar los sustantivos entre s$ @ agrupar a>uellos >ue
resultan ms similares! calculando esta similitud como la cantidad de palabras >ue tienen en
com<n. 'omo di?imos en la introduccin en el caso de las bebidas 7.abla *;! algunos >uesos
suelen cooccurrir con palabras como rallar, algunos animales con feroz! etc. La comparacin
entre vectores puede 5acerse utiliAando alguna de las diversas medidas de similitud >ue
existen! como por e?emplo los coeficientes de 2accard! /ice @ overlap 7o solapamiento;!
definidas en las ecuaciones G! + @ :! respectivamente.
2accard7K! 1; X G
/ice7K! 1; X +
Overlap7K! 1; X :
'omprobamos emp$ricamente >ue los me?ores resultados se obtienen con el coeficiente de
2accard! aun>ue una confirmacin conclu@ente se alcanAar$a con una investigacin sistemtica
con distintos tipos de coeficientes >ue de?amos para traba?o futuro. Es importante advertir >ue!
debido a la forma en >ue se 5a implementado este coeficiente! la comparacin admite slo
valores binarios 7es decir presencia o ausencia de los elementos coocurrentes; sin tener en
cuenta la frecuencia de aparicin de estos elementos. Esto se 5iAo ba?o el supuesto de >ue las
unidades >ue aparecen con una frecuencia estad$sticamente no significativa @a 5an sido
eliminadas por el filtro de la seccin +.+.! sin embargo no se puede obviar el 5ec5o de >ue la
frecuencia todav$a tiene un papel importante a la 5ora de ponderar los atributos cuando se
comparan los vectores. 4in embargo! tambi=n en este caso tenemos >ue de?ar para traba?o
futuro la implementacin de medidas ms eficientes >ue las basadas en valores binarios.
+.U. 'lustering
El proceso de clustering re>uiere la comparacin de todas las unidades entre s$ utiliAando el
coeficiente de similitud elegido! para lo cual necesitamos una tabla de distancias tal como la
>ue se e?emplifica en la .abla G. %ara facilitar la explicacin! supongamos >ue son solo cuatro
las unidades >ue se someten al clustering! a las >ue llamaremos a, b, c @ d. /ispuestas en las
filas @ en las columnas de la tabla! cada celda especifica el valor obtenido en la comparacin
de las dos unidades. 'omo la tabla es sim=trica 7es decir! obtenemos el mismo valor
comparando a con b >ue b con a;! slo usamos la mitad superior a la diagonal principal de la
tabla. Al ser *:9 o cual>uier otra cantidad de unidades! la forma de la tabla no cambia!
simplemente contiene ms celdas @ columnas. El l$mite en la cantidad de unidades para
analiAar est en la capacidad tecnolgica @ viene dado por la comple?idad cuadrtica de la
tabla 7a un aumento lineal de unidades corresponde un aumento exponencial del coste
computacional;.
b c d
a ... ... ...
b ... ...
c ...
.abla GJ .abla de distancias entre las unidades a! b! c @ d
El proceso de clustering comienAa con la elaboracin de la tabla de distancias @ de ella se
obtiene el par de unidades >ue muestran ma@or similitud. A continuacin! los miembros de
este par se funden en lo >ue ser$a un primer cluster! >ue pasa a ocupar el lugar de las dos
unidades seleccionadas @ a contener la suma de los atributos de ambas. El proceso es iterativo!
es decir >ue de nuevo se vuelve a producir una nueva tabla de distancias aun>ue cada veA con
un elemento menos. Este proceso puede detenerse cuando @a no 5a@ ms unidades >ue
agrupar o bien seg<n se especifi>ue mediante distintos parmetros tales como un n<mero
mximo de clusters o un umbral de similitud >ue represente la cantidad m$nima de atributos
en com<n >ue tienen >ue tener dos unidades para formar parte de un mismo cluster.
:. RE4"L.A/O4
6acemos una descripcin de los resultados en dos momentos del proceso de clustering. En
una primera medicin! interrumpimos el proceso por la mitad @ tomamos nota de las
agrupaciones >ue el sistema llevaba 5ec5as 5asta el momento! @ luego de?amos >ue el proceso
continuara para analiAar el resultado final! cuando el proceso acaba por no poder 5acer ms
agrupaciones.
'uando pausamos el proceso para la primera medicin! el algoritmo 5ab$a creado G,
grupos! clasificando correctamente la ma@or$a de los sustantivos. /e los *:9 iniciales! en esta
primera agrupacin se clasificaron correctamente I9 sustantivos @ solo + errneamente! lo
cual representa una precisin de 8UP @ una cobertura de 9*P. En la segunda medicin!
cuando el proceso 5ab$a concluido! los G, grupos iniciales >uedaron reducidos a 9 >ue! tal
como se muestra en la .abla +! coinciden ?ustamente con los grupos inicialesJ vehculos!
quesos! bebidas! sombreros @ animales.
Cluster Miembros del Cluster
1 carro, automvil, coche, autobs, tranva, carroza, carruaje, camin,
jeep, camioneta
2 brie, parmesano, camembert, mozzarella, gorgonzola, roquefort, gruyer
3 chocolate, licor, chicha, cerveza, aguardiente
4 pavero, tricornio, bicornio, guarapn, canotier, calas
5 venado, ciervo, tigre, elefante, perro, gato, puerco, cerdo, carnero,
conejo, ratn, rata
.abla +J Resultado final con seis agrupaciones de unidades.
En el resultado final no 5a@ elementos mal clasificados 7*--P de precisin;! pero en
contrapartida la cobertura 5a ca$do significativamente @a >ue son solo :- los elementos >ue se
consiguen clasificar 7GI!9P de cobertura;.
9. 'ON'L"4IONE4 1 .RA)A2O &"."RO
'on los datos obtenidos en este art$culo 5emos demostrado >ue la similitud semntica entre
las unidades l=xicas se ve refle?ada en las similitudes de sus contextos de uso. Los porcenta?es
de cobertura obtenidos todav$a no son lo suficientemente elevados para cumplir ob?etivos
prcticos como el desarrollo de una taxonom$a. 4in embargo! @ tal como 5emos explicado en
la seccin *.+.! esta taxonom$a final deber ser el resultado de una combinacin de estrategias
distintas >ue >ueda para traba?o futuro.
Adems de la integracin de estrategias! en un prximo art$culo afinaremos tambi=n la
expuesta en este art$culo. Estamos explorando distintas alternativas para elevar el porcenta?e
de cobertura buscando un e>uilibrio ptimo con la precisin. Este e>uilibrio se encontrar por
medio de la comprobacin emp$rica a?ustando los parmetros de distinta manera @ evaluando
con distintas muestras de unidades l=xicas. "na forma de atacar el problema de la ba?a
cobertura es a?ustar parmetros para >ue el algoritmo sea ms DpermisivoE a la 5ora de ?uAgar
>ue dos unidades son similares 7es decir! rela?ando el umbral de similitud; aun>ue esto
implica >ue incurrir en errores con ma@or frecuencia.
Fs all del dato de la cobertura! consideramos >ue se trata de un resultado
prometedor sobre todo si se tiene en cuenta >ue el algoritmo no sabe cuntas ni cules son las
clases semnticas. A>u$ no tenemos un t$pico escenario de clasificacin en el >ue se dispone
previamente de una serie de clases semnticas a las >ue asignar los 5ipnimos 7como en
Alfonseca @ Fanand5ar! G--G o 'iaramita! G--G; sino >ue las clases son tambi=n el producto
de la clasificacin. Es por este motivo >ue creemos >ue en esta etapa del proceso es ms
importante la precisin >ue la cobertura! por>ue es conveniente tener primero un n<mero
reducido de clusters en los >ue se tenga un grado m$nimo de confianAa! como nuestros cinco
grupos en este caso! para comenAar entonces a distribuir en estas clases los elementos >ue
>uedaron sin clasificar! procedimiento comple?o >ue >ueda pendiente explorar por>ue!
naturalmente! siempre debe reservarse la posibilidad de crear un nuevo grupo si una unidad no
se a?ustara a ninguno de los >ue @a se 5an creado.
'omo traba?o futuro tiene importancia tambi=n la tarea de asignar un nombre a los
clusters generados. Esto es un aspecto >ue en este art$culo no 5emos evaluado
sistemticamente! sin embargo se observa >ue en los clusters >ue se 5an generado! el atributo
>ue aparece con ms frecuencia suele ser el nombre correcto del cluster. Es decir! por
e?emplo! >ue en el cluster >ue corresponde a los >uesos! la palabra >ue coocurre con ms
miembros de ese cluster es ?ustamente la palabra queso! etc. %or lo tanto! creemos >ue es
conveniente separar las distintas etapas del proceso. A5ora nos 5emos concentrado en la
agrupacin de unidades! pero en una etapa posterior nos concentraremos en desarrollar un
algoritmo apropiado para la seleccin del me?or nombre para los clusters generados basado en
la b<s>ueda del atributo ms recurrente dentro de cada cluster. 'onseguir esta segunda etapa
implicar$a 5aber pasado de simplemente agrupar palabras semnticamente similares a
construir una taxonom$a propiamente dic5a! es decir con unidades gobernadas por sus
correspondientes 5ipernimos 7horchata como un tipo de bebida! bicicleta como un tipo de
vehculo! etc.;.
En la misma l$nea se puede ir incluso ms all @ acometer tambi=n el intento de
clasificar estos atributos >ue encontramos coocurriendo frecuentemente con nuestras unidades
analiAadas. Esto ser$a un experimento de otra naturaleAa @a >ue re>uerir$a ma@or informacin
acerca de la lengua castellana! pero es tambi=n una v$a de investigacin mu@ interesante. %or
un lado! se tratar$a de intentar >ue el algoritmo distinga a>uellos atributos >ue no son
apropiados como 5ipernimos! entre los cuales encontramos t$picamente calificativos sobre
color! el tamaBo! la edad @ los distintos aspectos sobre los >ue los sustantivos estudiados
pueden admitir una predicacin. %ero por otro lado tambi=n podr$amos 5acer un estudio
previo para 5acer listas de cules son los atributos t$picos de ciertos tipos de entidades! por
e?emplo los animales pueden ser salva?es! 5embra! mac5o! @ de un determinado color! de un
tamaBo! etc. Lo >ue >ueremos decir es >ue existe un n<mero limitado de predicados para cada
tipo de entidad 7o al menos un n<mero limitado de predicados t$picos o normales! @a >ue la
naturaleAa del lengua?e es ilimitada @ el corpus abunda siempre en contrae?emplos @
peculiaridades;.
&inalmente! >uedan tambi=n como traba?o pendiente los siguientes puntosJ *; ampliar
el experimento con ma@or n<mero de nombres @ grupos semnticosC G; ampliar la ventana de
contexto a enegramas de n \ GC +; tener en cuenta la frecuencia de los coocurrentes en lugar
de considerarlos como valores binarios! tal como se explica en la seccin +.:.C :; observar por
separado los coocurrentes seg<n su categor$a gramatical! @a >ue en este experimento los
5emos tratado a todos de la misma manera! 9; intentar! de la misma forma! la utiliAacin
clases semnticas en lugar de los coocurrentes tal como aparecen en el corpus 7es decir!
cambiar en el corpus coocurrentes como blanco, negro, azul, etc.! por 'OLOR o bien caliente!
tibio! helado! etc.! por una eti>ueta como .EF%ERA."RA; @a >ue esto aumentar$a nuevamente
nuestra capacidad de generaliAar a partir del corpus al permitirnos relacionar elementos
formalmente distintos. &inalmente! @ como @a di?imos! U; combinar este m=todo con los otros
>ue estamos desarrollando en paralelo.
I. RE&EREN'IA4 )I)LIOGRL&I'A4
Alfonseca! E. ( Fanand5ar! 4. 7G--G;J ]Extending a lexical ontolog@ b@ a combination of
distributional semantics signatures^. !roceedings of "#$%O-G! *HI.
Als5aRi! 6. 7*8,8;J ]Anal@sing t5e dictionar@ definitions^. En &omputational le'icography
for natural language processing. Longman %ublis5ing Group! S5ite %lains! N1! "4A!
*9+H*U8.
Apres?an! 2. /. 7G--,;J (ystematic )e'icography. OxfordJ Oxford "niversit@ %ress.
Auger! A. ( )arriTre! '. 7eds.; 7G--,;J ]%atternHbased Approac5es to 4emantic Relation
Extraction^. N<mero especial de *erminology *:7*;.
AussenacHGilles! N. ( 2ac>ues! F. 7G--,;J ]/esigning and evaluating patterns for relation
ac>uisition from texts Rit5 'am=l=on^. *erminology *:7*;J G-H::.
)arriTre! '. ( %opoRic5! &. 7*88U;J ])uilding a noun taxonom@ from a c5ildrenOs dictionar@^.
!roceedings of "urale'O8U! Got5enburg! 4Reeden! U9HI-.
)oguraev! ). 7*88*;J ])uilding a lexiconJ .5e contribution of computers^. +nternational
,ournal of )e'icography! :7+;J GGIHGU-.
)ullinaria! 2.A. 7G--,;J ]4emantic 'ategoriAation "sing 4imple Sord 'oHoccurrence
4tatistics^. !roceedings of the "(())+ %or-shop on .istributional )e'ical (emantics,
6amburg! German@.
'5odoroR! F. ( )@rd! R. ( 6eidorn! G. 7*8,9;J ]Extracting semantic 5ierarc5ies from a large
onHline dictionar@^. !roceedings of the /0rd annual meeting on $ssociation for
&omputational )inguistics! '5icago! Illinois! G88H+-:.
'iaramita! F. 7G--G;J ])oosting Automatic Lexical Ac>uisition Rit5 Forp5ological
Information^. !roceedings of the $&)H-G %or-shop on 1nsupervised )e'ical
$cquisition! A'L! 4troudsburg! %A! "4A! *IHG9.
'urran! 2. 7G--:;J 2rom .istributional to (emantic (imilarity. .esis doctoral! "niversit@ of
Edinburg5.
&ox! E. ( Nutter! 2. ( A5lsRede! .. ( Evens! F. ( FarMoRitA! 2. 7*8,,;J ])uilding a large
t5esaurus for information retrieval^. !roceedings of the second conference on $pplied
natural language processing! Association for 'omputational Linguistics! ForristoRn!
N2! "4A! *-*H*-,.
&ung! %. ( FcMeoRn! V. 7*88I;J ]&inding .erminolog@ .ranslations &rom NonH%arallel
'orpora^. !roceedings of the 3th $nnual %or-shop on 4ery )arge &orpora! 6ong
Vong! *8GHG-G.
Grefenstette! G. 7*88:;J "'plorations in $utomatic *hesaurus &onstruction. VluRer!
/ordrec5t! .5e Net5erlands.
Gut5rie! L. ( 4lator! ). ( SilMs! 1. ( )ruce! R. 7*88-;J ]Is t5ere content in empt@ 5eads_^
!roceedings of &5)+67O8-! 6elsinMi! &inland! *+,H*:+.
6anMs! %. 7G--:;J ]'orpus %attern Anal@sis^. !roceedings of "18$)"9 /::;! Lorient!
&rance! ,IH8I.
6arris! . 7*89:;J ]/istributional structure^. %ord *-7G+;J *:UH*UG.
6earst! F. 7*88G;J ]Automatic ac>uisition of 5@pon@ms from large text corpora^.
!roceedings of &5)+67<=/! Nantes! &rance! 9+8H9:9.
Vilgarriff! A. ( R@c5l@! %. ( 4mrA! %. ( .ugRell! /. 7G--:;J ].5e 4Metc5 Engine^. !roceedings
of "18$)"9 /::;! Lorient! &rance! *-9H**U.
Lin! /. 7*88,;J ]Automatic Retrieval and 'lustering of 4imilar Sords^. !roceedings of
&5)+67<=>! IU,HII:.
Fe@er! I. 7G--*;J ]Extracting VnoRledgeHric5 'ontexts for .erminograp5@J A 'onceptual
and Fet5odological &rameRorM^. En /. )ourigault! '. 2ac>uemin and F.'. LO
6omme 7eds;! 8ecent $dvances in &omputational *erminology! 2o5n )en?amins! GI8H+-G.
Fic5el! 2. ( 45en! 1. ( Aiden! A. ( 3eres! A. ( Gra@! F. ( .5e Google )ooMs .eam ( %icMett!
2. ( 6oiberg /. ( 'lanc@! /. ( Norvig! %. ( OrRant! 2. ( %inMer! 4. ( NoRaM! F. A. ( Aiden!
E. 7G-**;J ]Quantitative Anal@sis of 'ulture "sing Fillions of /igitiAed )ooMs^.
(cience ++*7U-*:;J *IUH*,G.
NaMamura! 2. ( Nagao! F. 7*8,,;J ]Extraction of 4emantic Information from an Ordinar@
Englis5 /ictionar@ and its Evaluation^. !roceedings of &5)+67<,,! )udapest!
6ungar@! :98H:U:.
NaAar! R. 7G-*-;J $ ?uantitative $pproach to &oncept $nalysis. .esis doctoral. I"LA `
"niversitat %ompeu &abra.
NaAar! R. ( Renau! I. 7G-*G;J ]A 'oHoccurrence .axonom@ from a General Language
'orpus^. !roceedings of "18$)"9 /:@/. Oslo! NorRa@! +UIH+I9.
NaAar! R. ( Renau! I. 7en preparacin;J ]InscrutableHstrangeHm@steriousHinfiniteHunsearc5able
are t5e Ra@s of t5e LordJ paradigmatic relations and t5e clustering of semanticall@
similar Rords^.
%earson! 2. 7*88,;J *erms in conte't. 2o5n )en?amins.
%eMar! 3. ( VrMosMa! F. ( 4taab! 4. 7G--:;J ]&eature Seig5ting for 'oHoccurrenceHbased
'lassification of Sords^. !roceedings of &5)+67<-:.
%otric5! A. ( %ianta! E. 7G--,;J ]LH5@pern@m@J Learning /omain 4pecific 5@pern@m@
relations from t5e Seb^. !roceedings of )8"&<:>! FarraMec5! Forocco. ELRA.
Rapp! R. 7*888;J ]Automatic Identification of Sord .ranslations from "nrelated Englis5 and
German 'orpora^. !roceedings of 0Ath $nnual Beeting of the $ssociation for
&omputational )inguistics! 9*8H9GU.
Renau! I. 7G-*G;J 7ramCtica y diccionarioD las construcciones con EseF en las entradas
verbales del diccionario de espaol como lengua e'tranjera. .esis doctoral. I"LA H
"niversitat %ompeu &abra.
Renau! I. ( Alonso! A. 7En prensa;J ]"sing 'orpus %attern Anal@sis for t5e 4panis5 LearnersO
/ictionar@ /AELE 7/iccionario de aprendiAa?e del espaBol como lengua extran?era;^.
'orpus Linguistics 'onference! )irming5am 7Reino "nido;! G-HGG ?ulio G-**.
Renau! I. ( NaAar! R. 7G-**;J ]%ropuesta metodolgica para la creacin automtica de
patrones l=xicos usando el 'orpus %attern Anal@sis^. !roceedings of the /Ath
&onference of the (panish (ociety for 6atural )anguage !rocessing. 6uelvaJ "niversit@
of 6uelva.
Renau! I. ( NaAar! R. 7G-*G;J ]6@pern@m extraction b@ definiensHdefiniendum coHoccurrence
in multiple dictionaries^. !rocesamiento del )enguaje 6atural 7:8;! ,+H8-.
R@din! 4. 7G--G;J ])uilding a 5@pon@m@ lexicon Rit5 5ierarc5ical structure^. !roceedings of
the $&)G:/ wor-shop on 1nsupervised le'ical acquisition! ForristoRn! N2! "4A.
Association for 'omputational Linguistics! GUH++.
4c5#tAe! 6. ( %edersen! 2.7*88I;J ]A coHoccurrenceHbased t5esaurus and tRo applications to
information retrieval^. +nformation !rocessing and Banagement ++7+;J +-IH+*,.
4inclair! 2. 7ed.; 7*8,I;. )oo-ing 1p. $n $ccount of the &5H1+). !roject in )e'ical
&omputing. LondonJ 'ollins.
4inclair! 2. 7*88*;. &orpus. &oncordance. &ollocation. OxfordJ Oxford "niversit@ %ress.
SilMs! 1. ( &ass! /. ( Guo! '. ( Fc/onald! 2. ( %late! .. ( 4lator! ). 7*8,8;J ]A .ractable
Fac5ine /ictionar@ as a Resource for 'omputational 4emantics^. En &omputational
)e'iography for 6atural )anguage !rocessing. ). )oguraev and .. )riscoe 7eds;J *8+H
GG,. Essex! "VJ Longman.

Agrupación Semántica de Sustantivos Basada en Similitud Distribucional. Implicaciones Lexicográficas

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Agrupación Semántica de Sustantivos Basada en Similitud Distribucional. Implicaciones Lexicográficas

Diunggah oleh

Hak Cipta:

Format Tersedia

Agrupacin semntica de sustantivos basada en similitud distribucional.

Anda mungkin juga menyukai