Anda di halaman 1dari 5

GRUPO DE INGENIERA LINGSTICA

INSTITUTO DE INGENIERA

QUINES SOMOS
El grupo de Ingeniera Lingstica (GIL) es un grupo de investigacin interdisciplinaria fundado en 1999 con el fin de desarrollar formalmente el rea de ingeniera lingstica en la UNAM y a nivel nacional. La sede de ste se encuentra en el Instituto de Ingeniera. El GIL representa un grupo de investigacin en el que dos reas, la lingstica y la ingeniera, se unen con el fin de resaltar el sentido de la unidad e independencia para formar un solo ncleo. El GIL se form con el objetivo de crear una base de conocimiento concerniente a la ingeniera lingstica y formar personal especializado y comprometido con el estudio y desarrollo de las diversas reas que sta ofrece. El inters de GIL radica en la realizacin de proyectos que superen las necesidades y los problemas presentados para el procesamiento de lenguaje natural, incluyendo el desarrollo de aplicaciones especficas que sirvan a las diferentes reas con las que interacta.

QU REAS TRABAJAMOS
En el GIL trabajamos conjuntamente con expertos en las reas de ingeniera lingstica, lingstica computacional y procesamiento del lenguaje natural, sobre todo. Es decir, es un rea interdisciplinar que conjuga los conocimientos de lingista y de computlogos. Hay diferencias claras entre estas subreas: la lingstica computacional se encarga de la modelacin de teora que apoyen al procesamiento del lenguaje natural en todas sus formas, siendo su preocupacin principal de ndole terica. Por su parte, la ingeniera lingstica se enfoca en desarrollar productos y/o sistemas principales para la extraccin procesamiento y generacin de informacin computacional.

QU PRODUCTOS Y SERVICIOS OFRECEMOS


Los servicios y productos que ofrecemos se enfocan a la aplicacin de los conocimientos sobre el lenguaje para el desarrollo de sistemas informticos que sean capaces de reconocer, comprender, interpretar y generar lenguaje humano en todas sus formas. Tomando en cuenta lo anterior, hemos logrado delimitar lneas de investigacin slidas que han desembocado en reas de desarrollo de productos y servicios como lo que a continuacin se enumeran.

REAS DE RECURSOS PARA EL PROCESAMIENTO DEL LENGUAJE NATURAL


ETIQUETADOR DE CATEGORAS GRAMATICALES (POST) El etiquetador de categoras gramaticales (partes de la oracin) desarrollo en el Grupo de Ingeniera Lingstica est basado en el etiquetador de Eric Brill e incorpora el uso de unidades afijales descubiertas automticamente por el mtodo de Alfonso Medina. Actualmente se cuenta con reglas de etiquetado para el espaol del siglo XVI y el espaol contemporneo. Esta ltima versin est basaba en el Corpus del Espaol Mexicano Contemporneo de El Colegio de Mxico A.C.

BANCO TERMINOLGICO Un Banco Terminolgico se define como una coleccin de bases de datos que contienen conjuntos de datos estructurados, fiables y homogneos almacenados en una computadora. La informacin contenida en un banco es sobre una temtica de carcter cientfica y/o tecnolgica, y contiene las terminologas con sus respectivas definiciones catalogada en diferentes reas temticas. Nuestro banco cuenta con las reas de fsica, lingstica, ingeniera lingstica, metrologa, desastres y sexualidad. Existen diversas aplicaciones muy tiles para un banco de este tipo, entre ellas podemos contar, por un lado, que el banco terminolgico constituye una base de conocimiento particular para el especialista en Ingeniera Lingstica, ya que sus actividades dependen en gran medida de la informacin contenida en dicho banco; y por otro, que cualquier persona interesada en consultar trminos y definiciones de estas reas se ver beneficiado con el uso de esta herramienta, ya que le ahorrar tiempo de bsqueda y adems cuenta con las ventajas de que es una herramienta de libre acceso va Internet, que es posible que los expertos incluyan sus terminologas y, que las definiciones que se encuentran dentro del banco terminolgico pueden ser adquiridas y utilizadas sin costo alguno. CORPUS LINGSTICOS Un corpus lingstico electrnico es una coleccin de textos digitales organizados y estructurados de acuerdo a criterios lingsticos. Son una valiosa herramienta de trabajo para terminlogos, lingistas, lingistas computacionales y cualquier investigador que desee conocer la distribucin y uso de formas lingsticas de una lengua dada. Estos corpus pueden utilizarse, adems, en sistemas de resumen automtico de textos, sistemas de extraccin y recuperacin de informacin y en cualquier aplicacin de minera de textos. Actualmente, el GIL est desarrollando un corpus diacrnico de espaol de los siglos XVI al XIX, el Corpus Histrico del Espaol en Mxico (CHEM). Tambin se estn creando del corpus sincrnico: el Corpus Lingstico en Ingeniera (CLI) y el Corpus de las Sexualidades en Mxico (CSMX). Actualmente, el GIL asesora y colabora en proyectos con reconocidos lingistas mexicanos para la construccin de corpus lingsticos personalizados a sus necesidades de investigacin.

REA DE EXTRACCIN DE INFORMACIN


EXTRACTOR DE AFIJOS El extractor de Afijos es un sistema cuyo objetivo es la extraccin automtica de los afijos (prefijos y sufijos) y cadenas de afijos caracterizadores de un amplio rango de lenguas naturales. Su aplicacin genera catlogos de extremos de palabras con carcter morfolgico, en el orden de su afijalidad en esa lengua. Estos resultados tienen aplicacin en el desarrollo de aplicaciones para el procesamiento del lenguaje natural, como analizadores morfolgicos y lematizadores, y en la construccin de tecnologas del lenguaje como sintetizadores (texto-voz) de seleccin de unidades. EXTRACTOR TERMINOLGICO Una de las reas de mayor inters en la extraccin de informacin es la extraccin de trminos de un dominio particular. En el GIL desarrollamos un extractor terminolgico hbrido para el espaol, es decir, un sistema basado en reglas lingsticas y estadsticas que por su naturaleza provee resultados ms confiables. Esta herramienta permite al usuario ingresar un texto o una serie de textos, y a partir de estos encontrar automticamente los trminos ms relevantes. Este tipo de sistemas pueden servir como informacin de entrada para otros sistemas de procesamiento del lenguaje natural, por ejemplo sistema para la extraccin de definiciones, o bien sistemas de resumen automtico.

EXTRACTOR DE CONTEXTOS DEFINITORIAS (ECODE) El Extractor de Contextos Definitorios es un sistema basado en la extraccin automtica de conocimiento definitorio de textos especializados en espaol. Nuestra metodologa est basada en la bsqueda de patrones verbales definitorios para extraer contextos definitorios de acuerdo con diferentes tipos de definiciones: analticas, extensionales, funcionales y sinonmicas. Este sistema puede ser una herramienta muy til en el proceso de elaboracin de diccionarios especializados, glosarios y ontologas.

REA DE MINERA DE TEXTOS


AGRUPAMIENTO SEMNTICO El programa es un sistema de recuperacin de informacin que tiene como finalidad agrupar formas lingsticas con caractersticas semnticas comunes sin una relacin de sinonimia plena. En una primera etapa, el sistema alinea dos definiciones de un mismo trmino; el procedimiento se repite hasta agotar todas las posibles combinaciones de pares de definiciones para cada trmino. Este sistema es de gran utilidad en el rea lexicolgica y lexicogrfica ya que ayuda al procesamiento del lenguaje natural a nivel semntico y sintctico. RESUMEN AUTOMTICO El resumen automtico permite condensar en fragmento textual la parte ms informativa de uno o varios documentos. El GIL ha trabajado en el desarrollo de un programa de resumen extractivo independiente de la lengua. ste obtiene extractos del documento original usando medidas estadsticas de corpus. Uno de sus usos ha sido para realizar un programa de clasificacin y agrupamiento que en lugar de utilizar documentos completos utiliza el resumen extractivo.

REA DE WEB SEMNTICA


DESCRIBE Una aplicacin directa del ECODE es un sistema denominado DESCRIBE para la bsqueda, clasificacin y agrupamiento de definiciones en la WEB. La metodologa parte de utilizar robots para indexar constantemente pginas que contengan alguno de los 2 millones de trminos en el rea de medicina. Estas pginas constituyen nuestra base de datos inicial para la extraccin de contextos definitorios. Una vez extrados los diferentes tipos de definiciones, stos se clasifican segn su tipo y se agrupan de acuerdo con el contenido semntico que en ellos se vincula. Este sistema es de gran utilidad tanto para especialistas como para individuos que deseen profundizar en el significado de un trmino especializado. Por ahora se trabaja en el rea de medicina y se tiene contemplado ampliar el alcance de esta herramienta a otras reas de conocimiento. ONTOLOGAS Un rea de investigacin reciente en el GIL es la explotacin de recursos existentes en lnea (Blogs, Wikipedia) con el fin de conformar bases de conocimiento que puedan reutilizarse por nuevas aplicaciones. Dentro de esta se desarrolla una ontologa de pelculas a partir de informacin proporcionada por Wikipedia en espaol. A partir de esta herramienta se puede relacionar cualquier director (existente en Wikipedia) con sus pelculas, obtener sus ttulos en espaol o en idioma original, el ao y el gnero. Esta informacin puede ser utilizada por nuevos sistemas automticos.

REA DE LEXICOGRFICA COMPUTACIONAL

DICCIONARIO ELECTRNICO PARA LA BSQUEDA ONOMASIOLGICA (DEBO) Este diccionario es un prototipo que permite la bsqueda de trminos en el rea de fenmenos destructivos. Se trata del primer diccionario de GIL enfocado a la bsqueda inversa onomasiolgica- que rompe con los esquemas del trabajo lexicogrfico clsico al ser, por una parte, totalmente diseado con herramientas de esta rea y, en segundo lugar, por ser inverso y de nueva planta. Su finalidad es ofrecer al usuario una herramienta que vaya ms all de las bsquedas a las que est acostumbrado ya que permite introducir, mediante lenguaje natural, palabras relativas al trmino que no sean especficamente las que encontrara una definicin comn. La herramienta puede arrojar resultados con un alto ndice de coincidencia entre la bsqueda insertada y el trmino obtenido debido a las efectivas tcnicas de agrupamiento semntico con las que trabaja. La ventaja de este diccionario sobre otros es que no existen diccionarios onomasiolgicos exceptuado el de Casares- y, adems, ste ltimo no existe en lnea. ILEX (INTERFAZ LEXICOGRFICA) El objetivo de la Interfaz Lexicogrfica es proporcionar al usuario una herramienta que reduzca el tiempo de bsqueda en la extraccin y recuperacin de informacin en todas las reas del conocimiento, adems con ella el usuario podr crear campos semnticos y de relacin entre trminos que le ayuden a conceptualizar y contextualizar el foco de su investigacin. En su primera versin se enfoca nicamente a los trminos bsicos del rea de lingstica. El ILEX tom su contenido del Diccionario Bsico de Lingstica, el cual tiene como objetivo presentar terminologa bsica de lingstica de una manera precisa pero sencilla. El Diccionario Bsico se distribuye en doce temas: lingstica general, fontica, fonologa, gramtica, morfologa, sintaxis, semntica, lexicologa, terminologa, pragmtica, sociolingstica y dialctica; los cuales son retomados por el Ilex para una mejor explotacin de los trminos que en dicho diccionario se encuentran. VARIACIN LXICA INTERNACIONAL DEL ESPAOL (VALIDE) El VALIDE, o Variacin Lxica Internacional del espaol es una herramienta desarrollada por miembros del GIL entre 2005 y 2006. Se trata de una interfaz ergonmica y divertida que trata de ser una herramienta til para todo aquel que se encuentre en la bsqueda de sinnimos geogrficos o variantes lxica del espaol. El VALIDE surge como una solucin al uso ms adecuado de las variantes lxicas en contextos determinados. De tal manera que este desarrollo tiene como fin ser una herramienta, primero, para todos aquellos que deseen crear textos homogneos lxicamente y, en segundo plano, para ayudar a los especialistas e investigadores de la lengua espaola en cualquier pas de habla hispana. Este ltimo punto se ve beneficiado por la flexibilidad del VALIDE para incorporar, eliminar y/o modificar las entradas del programa.

REA DE LINGSTICA FORENSE


DETECCIN DE PLAGIO Los estudio realizados por el Grupo de Ingeniera Lingstica para la deteccin de plagio o determinacin de autora corresponden a diversos subproblemas que en su conjunto intentan identificar las similitudes y diferencias entre dos o ms textos atribuidos a un autor (a). Estos mtodos incluyen anlisis lingsticos y estadsticos computacionales hechos por los expertos en cada rea. La ventaja de nuestro mtodo es que adems de ser altamente confiable por el preciso anlisis computacional a travs de patrones regulares e irregulares, se ve beneficiado por la corroboracin de los datos relevantes por medios semiautomticos de lingistas avocados a este tipo de anlisis.

DETECCIN DE FRAUDE Esta rea junto a la determinacin de autoras es quiz una de las ms fructferas dentro del campo de la lingstica computacional por dos razones concisas: en primer lugar ayuda de manera significativa al mbito legal dentro de una investigacin y por otro lado es un rea casi sin desarrollo en Mxico, lo que nos permite experimentar ser pioneros dentro del territorio nacional. La deteccin de un fraude se ve beneficiada por pruebas de ndole legal capaces de corroborar o mostrar los puntos clave donde el pleito jurdico puede identificar posibles culpables. Nuestros mtodos se apoyan en ndices lingsticos y anlisis estadsticos aplicados que nos llevan a proponer un mtodo nuevo y efectivo.

GRUPO DE INGENIERA LINGSTICA (GIL)


Dr. Gerardo Sierra Martnez. Jefe del GIL Circuito Escolar, Torre de Ingeniera, Basamento, cubculo 3. Ciudad Universitaria. Del. Coyoacn. 5623500 ext. 1008 y 1009. Mxico, D.F.

http://www.iling.unam.mx

Anda mungkin juga menyukai