Anda di halaman 1dari 10

UNIVERSIDAD NACIONAL DE SAN ANTONIO ABAD DEL CUSCO

FACULTAD DE CIENCIAS QUIMICAS,


FISICAS Y MATEMATICAS

CARRERA PROFESIONAL INGENIERIA


INFORMATICA Y DE SISTEMAS

ANALISIS SINTACTICO Y GRAMATICAL

((INFERENCIA LOGICA -PROLOG)

Curso : INTELIGENCIA ARTIFICIAL

Docente : ING. LUIS PALMA TTITO

Alumnos : MONTESINOS YNQUILTUPA WILBERT

OVALLE GAMARRA GIONAL

PUMACHARA CUTIPA DORA

Cusco-Peru
INTRODUCCION

El procesamiento del lenguaje natural (Natural Language Processing) es uno de los campos
relacionados con la inteligencia artificial y con los procesadores del lenguaje en los que ms se
ha trabajado e investigado a lo largo de los ltimos aos. El conocimiento humano, tal como lo
entendemos nosotros, sera incomprensible para una computadora, teniendo en cuenta que una
computadora puede almacenar un texto en archivos, con lo que poseera la misma informacin
que una persona, pero no podra extraer inferencias lgicas de ese texto, generalizarlo,
resumirlo, o responder a preguntas sobre dicho texto, porque no lo entiende, simplemente lo
conoce.

En el presente trabajo se pretende mostrar la manera en que se puede trabajar el rea de


procesamiento del lenguaje natural haciendo uso del lenguaje de programacin Prolog, y para
lo cual se ha implementado un analizador sintctico el cual podr verificar si una oracin est
correctamente escrita respetando las reglas gramaticales del lenguaje quechua.

Una de las lenguas americanas nativas ms hablada es el quechua . Quechua tiene 37 variaciones
segn Torero ( Torero, 1964 ) , como consecuencia de ello no existe un estndar .Centramos
nuestra atencin en la gramtica del quechua que se ensea en Cusco - Per , el dialecto Qosqo
- Qollao que pertenece a la lengua quechua - I1C ( Ros, 2011 ) . Las reglas de la gramtica que
se presentan aqu son de acuerdo a la Academia del idioma quechua , que es la nica
organizacin que ensea este idioma. En esta demostracin , se mostrar el proceso de anlisis
en un analizador sintctico que utiliza una gramtica libre de contexto y anlisis morfolgico.
1. DESCRIPCION DEL PROBLEMA
En realidad, las computadoras son ms capaces de procesar la informacin que las personas.
Pueden procesar muchsimos ms grandes volmenes de informacin que una persona puede
leer en su vida. A base de sta, pueden hacer inferencias lgicas tomando en cuenta ms hechos
y ms fuentes.

Todo parece estar preparado para el uso de las computadoras para procesar volmenes grandes
de informacin: los mtodos lgicos ya son muy fuertes, los procesadores muy rpidos, muchos
textos ya estn disponibles en forma digital, tanto en las casas editoriales como en Internet. El
nico problema para la computadora al procesar los textos es que simplemente no los entiende!
Hasta ahora, los textos son para la computadora solamente cadenas de letras sin cualquier
sentido y no una informacin til para el razonamiento lgico.

Para convertir la computadora en nuestro verdadero ayudante en el procesamiento de textos, se


necesita pasar un largo camino de aprendizaje de la estructura de textos y de su formalizacin.

Pero si es tan largo el camino, existe una razn prctica para trabajar en esta rea ahora? S,
existe, porque con cada paso obtenemos las herramientas que ya tienen gran valor prctico, que
ayudan en nuestras tareas cotidianas.

Uno podra pensar que para la generacin de texto slo es suficiente saber las reglas de
gramtica, es decir, saber palabras de cuales nmeros, tiempos y gneros hay que usar en la
oracin y en qu orden ponerlas. Sin embargo, hay algunos problemas en la generacin de texto.
Uno reside en la necesidad de elegir las palabras y expresiones que se usan en el contexto
dado.
Por ejemplo, hay que saber que para expresar la idea Chaypi, Chaqaypi, hay que usar palabras
diferentes: achkha runa, tawa allqu etc.

2. OBJETIVOS

- Conocer la manera de trabajar el rea de procesamiento del lenguaje natural en el


lenguaje de programacin para la investigacin en inteligencia artificial Prolog.

- Investigar y conocer la manera correcta de declarar las diferentes sentencias y reglas


gramaticales correctamente en nuestro idioma autctono como es el QUECHUA.

- Creacin de una Gramtica de Clausulas Definidas que permita analizar


sintcticamente una oracin en quechua de la forma SN (Sintagma Nominal) + SV (Sintagma
Verbal) el cual nos indicara si nuestra oracin est correctamente escrita.
3. MARCO TEORICO

El lenguaje se considera como un mecanismo que nos permite hablar y entender. Los lenguajes
naturales, es decir, el ingls, el francs, el espaol, el quechua etc. son una herramienta
genuina para la comunicacin entre los seres humanos, ya sea en forma oral o escrita.
Actualmente, el avance tecnolgico en los medios de comunicacin impresos y electrnicos
nos permite obtener grandes volmenes de informacin en forma escrita. La mayora de esta
informacin se presenta en forma de textos en lenguajes naturales. Toda esa informacin
contenida en los textos es muy importante ya que permite analizar, comparar, entender el
entorno en el que vive el ser humano.
Sin embargo, se presentan dificultades por la imposibilidad humana de manejar esa enorme
cantidad de textos. Entre las herramientas que ayudan en las tareas diarias, la computadora es,
hoy en da, una herramienta indispensable para el procesamiento de grandes volmenes de
datos. Pero todava no se logra que una mquina al capturar una coleccin de textos los
comprenda suficientemente bien; por ejemplo, para que pueda aconsejar qu hacer en
determinado momento basndose en toda la informacin proporcionada, para que pueda
responder a preguntas acerca de los temas contenidos en esa informacin pero no
explcitamente descritos, o para que pueda elaborar un resumen de la informacin.
Para lograr esta enorme tarea de procesamiento de lenguaje natural por computadora,
analizando oracin por oracin para obtener el sentido de los textos, es necesario conocer las
reglas y los principios bajo los cuales funciona el lenguaje, a fin de reproducirlos y adecuarlos
a la computadora, incluyendo posteriormente el procesamiento de lenguaje natural en el
proceso general del conocimiento y el razonamiento.
El estudio del lenguaje, est relacionado con diversas disciplinas. De entre ellas, la Lingstica
General es el estudio terico que se ocupa de los mtodos de investigacin y de las cuestiones
comunes a las diversas lenguas. Esta disciplina a su vez comprende una multitud de aspectos
(temporales, metodolgicos, sociales, culturales, de aprendizaje, etc.). Los aspectos
metodolgicos y de aplicacin brindan los principios y las reglas necesarios en el
procesamiento de textos.
Los principios y las reglas de la lingstica general, aunados a los mtodos de la computacin
forman la Lingstica Computacional. Esta es el rea dentro de la cual se han desarrollado y
discutido muchos formalismos adecuados para la computadora a fin de reproducir el
funcionamiento del lenguaje con la finalidad de extraer sentido a partir de textos y viceversa,
transformando los conceptos de sentidos especficos a los correspondientes textos correctos.
El proceso que se realiza con las herramientas proporcionadas por la Lingstica
Computacional para realizar las tareas necesarias para pasar del texto a la estructura
conceptual, y de sta a los textos, lo denominamos, de aqu en adelante, proceso lingstico
de textos.

PROCESO LINGUSTICO DE TEXTOS


El proceso lingstico considera anlisis y sntesis de textos, es decir, comprensin y
generacin de oraciones en lenguaje natural. Tanto en la generacin como en la comprensin
se realizan diferentes transformaciones o cambios de una estructura a otra para llegar al
objetivo correspondiente, obtener los conceptos del texto o crear textos, respectivamente.
La generacin de texto dentro de este mbito empieza con la conceptualizacin del mensaje
que se transmitir y con la definicin del nivel de generalizacin o de detalle en que se
realizar. A continuacin se sigue con la planeacin de las estructuras. Los problemas
especficos para construir estas estructuras estn relacionados con las elecciones para
representar un sentido especfico, y con las elecciones de las estructuras particulares que se
enlazan a las palabras. Existen otros criterios que intervienen en la construccin de la
estructura, que no se consideran en el nivel de oracin sino en el nivel del discurso completo,
como la coherencia, expuesta mediante enlaces entre oraciones.
La comprensin en el proceso lingstico, ms compleja que la generacin, parte de la
representacin de la informacin textual, es decir, de la cadena de palabras, y la traduce a
diversas estructuras lingsticas en varias etapas.
Las transformaciones que se requieren en el anlisis y la sntesis son tan complejas que se
dividen, tanto en la teora como en la aplicacin, en etapas generales. Para que la computadora
realice estas etapas se requieren mtodos adecuados para la descripcin y construccin de las
estructuras correspondientes, es decir, se requieren formalismos lingsticos de representacin
y computacionales.
En la lingstica general se considera que tres niveles generales componen el procesamiento
lingstico: la morfologa, la sintaxis y la semntica. En el procesamiento lingstico de textos,
entre estos niveles, se elaboran descripciones y transformaciones computacionales de
estructuras, al menos en dos etapas, en la primera a una estructura sintctica y en la segunda
a la estructura conceptual. Estos niveles no estn totalmente delimitados, investigadores
diversos difieren un poco en los puntos de vista para esta delimitacin pero las diferencias no
son cruciales.
Cada uno de los niveles, tanto en la generacin como en la comprensin, tiene sus propias
reglas y requiere colecciones de datos (diccionarios) apropiadas, aunque ciertas tareas pueden
compartir recursos en el anlisis y en la sntesis de textos. De hecho, en la construccin de
recursos para el procesamiento lingstico de textos un concepto importante es compartir
recursos, dados los grandes esfuerzos que normalmente se requieren para su compilacin.
Nuestra investigacin se centra en el anlisis y en el nivel sintctico. Por lo que los niveles
morfolgico y semntico se consideran como los niveles adyacentes, cada uno apoyado en sus
propias caractersticas. La sintaxis tiene estrechas relaciones con ambos niveles. En el nivel
morfolgico, las caractersticas que estn relacionadas con el nivel sintctico son las
categoras gramaticales (las partes del habla y sus subclases), y algunas caractersticas
morfolgicas.
Las partes del habla (part of speech en ingls, POS) son: sustantivo, verbo, artculo, etc. En
el anlisis se realiza un marcaje de POS cuando se asignan estas categoras gramaticales a
cada palabra dada, es decir, cuando se indica la funcin de cada palabra en el contexto
especfico de la oracin. Este marcaje se hace considerando caractersticas morfolgicas y
sintcticas del lenguaje.
Las caractersticas morfolgicas relacionadas con la sintaxis son las combinaciones que
pueden caracterizar paradigmas. Los paradigmas aqu se refieren a los grupos de palabras
relacionadas por su semejanza de significantes (la mnima forma significativa en la palabra)
o por alguna relacin entre sus significados (idea contenida en el significante). Entre las
caractersticas morfolgicas que caracterizan paradigmas estn las formas de conjugacin de
los verbos (uqa ka-ni, Qam ka-nki, Pay-mi, uqanchik, etc.), las variantes que expresan
gnero y nmero de sustantivos, etc. Por ejemplo, la palabra mihunku, donde la
inflexin unku describe tiempo presente, modo indicativo, tercera persona del plural. Estas
caractersticas se utilizan para relacionar palabras, frases u oraciones entre s, es decir, para la
coordinacin; por ejemplo, del verbo con el sujeto (paykuna mihunku), etc.
SINTAXIS
La tarea principal en este nivel es describir cmo las palabras de la oracin se relacionan y
cul es la funcin que cada palabra realiza en esa oracin, es decir, construir la estructura de
la oracin de un lenguaje.

Las normas o reglas para construir las oraciones se definen para los seres humanos en una
forma prescriptiva, indicando las formas de las frases correctas y condenando las formas
desviadas, es decir, indicando cules se prefieren en el lenguaje. En contraste, en el
procesamiento lingstico de textos, las reglas deben ser descriptivas, estableciendo mtodos
que definan las frases posibles e imposibles del lenguaje especfico de que se trate.

Las frases posibles son secuencias gramaticales, es decir, que obedecen leyes gramaticales,
sin conocimiento del mundo, y las no gramaticales deben postergarse a niveles que consideren
la nocin de contexto, en un sentido amplio, y el razonamiento. Establecer mtodos que
determinen nicamente las secuencias gramaticales en el procesamiento lingstico de textos
ha sido el objetivo de los formalismos gramaticales en la Lingstica Computacional. En ella
se han considerado dos enfoques para describir formalmente la gramaticalidad de las
oraciones: las dependencias y los constituyentes.

IDIOMA QUECHUA
Quechua es una lengua aglutinante ya que el proceso de derivacin se realiza por la posicin
puesto de sufijos a la raz. La estructura bsica de una oracin es Verbo Sujeto - Objeto El objeto
es identificado por los morfemas de posicin como -ta , -wan y -man . Un ejemplo se muestra
en la Tabla
En la identificacin de un verbo, se necesita morfemas especiales que se utilizan como
posposiciones verbales. El ejemplo en la Tabla 2 presenta la conjugacin del verbo mijuy (
comer).
Sujeto pay(el) churi(hijo) maki(mano)

Objeto Aychata qanwan Qosqoman

Tabla 1 : Identificacin de sujeto y objeto

Pronombre Raz Pasado Presente I Futuro

Noqa(Yo) miju rani ni saq

Qan(Tu) miju ranki nki nki


Pay(El/Ella) miju ran n nqa

Tabla 2: Conjugacin del Verbo Mijuy

4. DISEO DE SOLUCION DEL PROBLEMA


La metodologa que se sigui para desarrollar el siguiente proyecto es el de Gramticas Libres
de contexto que son un conjunto de reglas que expresan los modos en los que los smbolos
lingsticos pueden agruparse formando categoras gramaticales y, por otro, un lexicn que
contiene dichos smbolos.

5. IMPLEMENTACION DEL DISEO PLANTEADO

Proceso de anlisis y resultados


La estructura de rbol sintctico de una oracin est construido en varias etapas. (1) En primer
lugar , la frase se estructura, ( 2 ) a continuacin, se analiza cada palabra para obtener su
estructura morfolgica , que contiene las reglas gramaticales del quechua para componer y
derivar palabras.

6. CONCLUSIONES

Con el objeto de dar a conocer el estado actual del Procesamiento del Lenguaje Natural se han
definido, de forma muy concisa, los principales conceptos y tcnicas asociados a esta disciplina,
que adems se han ilustrado con sencillos ejemplos para facilitar su comprensin.
As mismo, se ha comprobado que, pese a su madurez, el NLP es una disciplina viva y en pleno
desarrollo, con multitud de retos que superar fruto de la ambigedad subyacente al lenguaje
natural.

En relacin con la recuperacin de informacin, las tcnicas de procesamiento estadstico son


las ms extendidas en las aplicaciones comerciales. No obstante, y en nuestra opinin, el
comportamiento y eficacia de las distintas tcnicas de NLP variar en funcin de la naturaleza
de la tarea que tratemos de resolver, del tipo de documentos a analizar, y del coste computacional
que podamos asumir.

De todo lo dicho, se deduce la necesidad de continuar trabajando con el fin de dilucidar nuevas
tcnicas o enfoques que contribuyan a superar las deficiencias de las existentes.

7. TRABAJOS FUTUROS

La construccin del analizador sintctico basado en Contexto Gramticas Libres y la inferencia


logica permite gestionar casi todas las reglas de la gramtica del quechua. El uso de FST en la
implementacin del analizador Morfologico que nos permite utilizar como un generador
morfolgico tambin. Tenemos la intencin de construir un treebank ms grande, utilizando
nuestro programa de anlisis , y luego hacer frente a la construccin de un programa de anlisis
probabilstico . Tambin planeamos utilizar este primer programa de anlisis para ayudar en un
sistema de aprendizaje para ensear la gramtica quechua.

8. BIBLIOGRAFIA

1. Stuart J. Russell y Peter Norvig Inteligencia Artificial Un enfoque Moderno,


PEARSON EDUCACION, S.A. Madrid 2004 (Segunda Edicin).
2. Eduardo Costa Visual Prolog 7.3 for Tyros.

3. http://programacionlogica.blogspot.com/2006_03_01_archive.html

4. http://www.elprofesionaldelainformacion.com/contenidos/1997/marzo/procesamiento
_del_lenguaje_natural_revisin_del_estado_actual_bases_tericas_y_aplicaciones_parte_ii.html

5. Rios, Anette, 2011. Spell checking an agglutinative lan- guage: Quechua. In 5th
Language and Technology Con- ference: Human Language Technologies as a Challenge
for Computer Science and Linguistics:51-55.
6. Rios, Anette, A. Gohring, and M. Volk, 2012. Parallel tree- banking spanish-
quechua: How and how well do they align? In The 10th International Workshop on
Tree- banks and Linguistic Theories(TLTlO).
7. Torero, A., 1964. Los dialectos quechuas. Anales Cientificos de la Universidad
Nacional Agraria, N