Resumen
El objetivo del presente artculo es clasificar los usos de la coma enfocada en el
aspecto gramatical y desde la perspectiva de la lingstica computacional. A partir
de este objetivo, se exponen algunas consideraciones tericas sobre dicho signo de
puntuacin y se establecen las siguientes funciones: (i) funcin indicadora: seala
enumeraciones y elipsis; (ii) funcin delimitadora: enmarca todo tipo de inciso
(aposiciones, vocativos, etctera), y (iii) funcin desambiguadora: evita confusiones
en expresiones que pueden llegar a tener ms de una interpretacin. Posteriormente,
se realiza una modelizacin y una implantacin computacional de dicha clasificacin,
a fin de detectar automticamente las funciones establecidas, mediante los programas
Smorph y Mdulo Post Smorph (MPS). Smorph es un analizador y generador textual que,
en una nica etapa, realiza la delimitacin previa de los segmentos a considerar y el
anlisis morfolgico. Por su parte, MPS toma como input el output de Smorph y analiza
la cadena de lemas resultante del anlisis morfolgico. Se trabaj con un corpus textual
compuesto por artculos periodsticos que sumaban un total de 10.000 palabras. Los
resultados arrojaron medidas de precisin, cobertura y medida-f lo suficientemente
adecuados para confirmar la validez de la clasificacin propuesta.
Palabras Clave: Puntuacin, coma, funciones gramaticales, anlisis automtico,
lingstica computacional.
Abstract
INTRODUCCIN
La problemtica acerca del sistema de los signos de puntuacin ha recibido un
tardo y, en cierta medida, escaso inters en los estudios lingsticos, ya sea desde el
punto de vista del anlisis del discurso, de la relacin con la enseanza-aprendizaje
o bien desde el alcance semntico y pragmtico de su empleo. Al respecto, Figueras
(1997) menciona que una posible causa del exiguo inters que ha despertado entre
lingistas y psiclogos del lenguaje se deba a que tiene la condicin de ser un
recurso propio de la escritura. Dicha concepcin implicara que, por el solo hecho
de constituirse como un aspecto de lo escrito, las condiciones del empleo de los
signos de puntuacin estaran reguladas por la normativa y, a tales efectos, dicho uso
estara dado por un conjunto de reglas unvocas y uniformes que no presentaran
problemas de aplicacin. No obstante, es posible apreciar que la utilizacin de estas
marcas no siempre responde a aspectos normativos, sino que, en su uso, subyacen
decisiones estilsticas y de significado. La puntuacin, seala Figueras (2001), es un
sistema de marcas vinculado a la construccin del texto, y eso dificulta la posibilidad
de establecer normas.
Al respecto, si bien la RAE (2010) dedica un apartado a la puntuacin en la
Ortografa de la lengua espaola, seala que su uso va ms all de los lmites de la
ortografa, en la medida en que la mayora de los signos que componen el sistema
413
Walter Koza
En el primer caso, se da a entender que alguien no debe hacer algo, mientras que
en (2), con las mismas palabras, se indica lo contario. Posteriormente, para validar
dicha clasificacin, se realiza una modelizacin y una implantacin computacional a
fin de detectar automticamente las funciones establecidas. Para ello, se recurri a los
softwares Smorph (At-Mokthar, 1998) y Mdulo Post Smorph (MPS) (Abacci, 1999). Los
resultados obtenidos fueron evaluados mediante las medidas de precisin, cobertura
y medida F.
415
enfoque pragmtico para desarrollar una gramtica de los signos de puntuacin. Para
Figueras (2001), la puntuacin es considerada un mecanismo cuya funcin principal
es controlar eficientemente la interpretacin del lector.
Con respecto a los estudios realizados en el marco de la lingstica computacional,
la caracterizacin de Nunberg (1990) dio inicio a diversos trabajos. Entre ellos, seala
White (1995), se pueden apreciar dos ramas: una perteneciente al terreno de la sntesis,
cuyo inters est enfocado en la manera de formalizar las funciones discursivas de la
puntuacin, y otra que se centra en el anlisis en donde el objetivo es producir mejoras
en el anlisis robusto.
1.1. Primeras investigaciones. La lingstica de la puntuacin
de Nunberg (1990)
Nunberg (1990) asocia la puntuacin a otros recursos grficos y de diseo que se
utilizan para dar cuenta del sistema de categoras textuales. No obstante, argumenta
adems que se trata de un subsistema lingstico y, por lo tanto, debe considerrsela
como parte del vasto sistema del lenguaje escrito. Las reglas de puntuacin son
verdaderamente complejas y sistemticas, no accesibles a la introspeccin casual, y se
organizan a lo largo de lneas que sugieren la influencia de principios de organizacin
que subrayan la estructura de otros sistemas de lenguaje natural.
The term punctuation is generally used to refer to a category defined
in partially graphic terms: a set of non-alphanumeric characters that
are used to provide information about structural relations among
elements of a text, including commas, semicolons, colons, periods,
parentheses, quotations marks and so forth. From the point of view
of function, however, punctuation must be considered together
with a variety of other graphical features of the text, including fontand-face-alternations, capitalization, indentation and spacing, all of
which can be used to the same sorts of purposes (Nunberg, 1990:
17).
Debe notarse, sin embargo, que los indicadores de categora no pueden ser
clasificados solo sobre la base de sus propiedades grficas, puesto que el mismo
recurso grfico podra tener mltiples funciones. Por ejemplo, el punto funciona
tanto como delimitador de oracin, como marcador de una abreviacin lexical y una
mayscula inicial sirve tanto para delimitar oraciones como para marcar nombres
propio. Asimismo, la clasificacin de un recurso grfico particular puede depender
del gnero particular de escritura en el que aparece. As, una nueva lnea sirve como
una indicadora de categora en listas (donde separa elementos de la categora tem)
y en un poema (donde separa elementos de la categora lnea). Pero las cadenas
de caracteres separadas por saltos de lnea en la prosa corrida no son elementos de
ninguna categora textual.
Nunberg (1990) plantea que el sistema de indicadores de categoras textuales
es una aplicacin del lenguaje natural, lo que significa que surge a travs de un
416
Walter Koza
417
Walter Koza
419
autores construyen una gramtica del texto, como la que intenta Nunberg (1990), a
partir de la tokenizacin de los signos de puntuacin, separadamente de las palabras,
y usan una gramtica de unificacin en conjuncin con un parser para ciertos usos
lexicogrficos. Aqu, la puntuacin es vista como un uso no solo para segmentar el
texto en unidades adecuadas para el anlisis, sino tambin para resolver estructuras
ambiguas.
Otro de los trabajos destacados es el de White (1995), que examina a la puntuacin
desde un punto de vista de la Generacin de Lenguaje Natural (GLN). El autor investiga
cmo las aproximaciones de Nunberg (1990) estaran reflejadas si se incorporan en
un sistema de GLN. Asimismo, extiende y critica los anlisis de la puntuacin de
Nunberg (1990) y propone una arquitectura abocada para la implementacin con tres
componentes: sintctico, morfolgico y grfico. Estos se ocupan de las reglas de la
presentacin de la puntuacin para la jerarqua, la adyacencia, y la forma grfica,
respectivamente. De este modo, apunta a poner reglas en curso de generacin de la
puntuacin en accin, superando as algunos de los defectos del marco de Nunberg
(1990).
Un tercer trabajo fundamental es el de Jones (1996), quien describe una tarea
computacional de anlisis relacional tambin basado en el marco terico de Nunberg
(1990). No obstante, el autor se abstiene de usar una gramtica de dos niveles,
considerando que las interacciones entre ambos complejizan innecesariamente el
sistema. Por el contrario, establece la necesidad de una nueva teora de la puntuacin,
que sea adecuada para la implementacin computacional y examina las funciones
sintcticas de los signos en el texto. Su gramtica revisada produce similares (o en todo
caso, mejores) resultados que los obtenidos por Briscoe y Carroll (1995). Jones (1996)
tambin da una teora esquemtica de la puntuacin en la que l clasifica sintctica,
semntica y pragmticamente los usos de los signos.
1.3.2. Trabajos computacionales enfocados en la coma
420
Walter Koza
421
422
Walter Koza
Fuente, 2005), puesto que pueden ser reordenados a fin de mantener el orden regular
y, en algunas ocasiones, se podra prescindir de la puntuacin. En el caso de con el
paso firme, su reubicacin dara la siguiente clusula:
(7) [Los caballeros se fueron al combate con el paso firme.]
Lo que se puede observar es que se est ante la confluencia de dos cuestiones dada
por un elemento que altera el orden cannico y se ubica en una posicin incidental.
El hecho de considerar a con el paso firme nicamente como una alteracin o como
un inciso implica caer en un anlisis parcial, en donde se dejara de percibir uno u
otro fenmeno. Este hecho se puede comparar con la metfora del significado y el
significante, que Saussure (2007) los presenta como dos caras de una misma hoja de
papel, que no se pueden separar y que, a la vez, una vale por la existencia de la otra.
Pues, en este caso, se puede ver que hubo una alteracin, porque hay un inciso, y, a la
inversa, hay un inciso porque se ha dado un caso de alteracin.
A partir de los ejemplos presentados, y en relacin con la definicin clsica de
inciso expuesta ms arriba, por lo menos para los que se hayan delimitados por comas,
se puede apreciar que muchas construcciones que pueden considerarse incidentales
poseen funcin sintctica, no interrumpen la oracin y, en algunos casos, como ser la
aposicin, ni siquiera alteran el orden regular.
Adems de lo que se ha planteado en esta seccin, tambin, por el contrario, es
posible encontrar incisos que no cumplen funcin sintctica y no aportan informacin
a la clusula que los contiene, como ser el vocativo (8) y la construccin interjectiva
(9).
(8) [Hoy, Juan, tengo ganas de ir al cine.]
(9) [La prxima vez, quiera dios!, me llame Mara.]
Con todo lo dicho, se desprende que las tres caractersticas primordiales que
se enumeraron ms arriba sobre el inciso son incompatibles cuando este se haya
delimitado por comas. Pues, no siempre interrumpen la clusula; cuando aportan
informacin a esta, no pueden considerarse como independientes, sintcticamente
hablando, y en los casos en los que hay independencia sintctica, se tratan de elementos
marginales que no aportan informacin (Koza, 2013).
Tanto por esta problemtica referente al inciso en particular, como as tambin
inconvenientes de otras ndoles, como, por ejemplo, la enumeracin, sumado a la
complejidad que presentaban las clasificaciones analizadas, se opt por establecer
una clasificacin propia, compatible con la descripcin gramatical y el trabajo
computacional.
El primer paso en la elaboracin de la nueva clasificacin fue englobar aquellas
423
424
Walter Koza
Cerradas:
(19) [Compr pan, verduras y carne.]
Abiertas:
(20) [Platero es pequeo, peludo, suave, etctera.]
(21) [Platero es pequeo, peludo, suave]
Los incisos, por su parte, se clasificaron de acuerdo con si tenan o no funcin
sintctica y, para el caso de que los tuvieran, si requeran o no de un antecedente.
Con funcin sintctica:
Con antecedente: aposiciones, subordinadas relativas explicativas, etctera
(22) [ Juan, el marido de Mara, sali a pasear.]
(23) [ Juan, que ya saba todo, pidi el divorcio.]
Sin antecedente: Alteraciones en el orden cannico y construcciones dicendi
Los primeros remiten a elementos de la oracin, generalmente complementos
verbales, desplazados de su lugar habitual. Las construcciones dicendi son aquellas
utilizadas por el autor para insertar en el texto palabras provenientes de un discurso
ajeno (Koza, 2009).
(24) [Mara, mientras Juan trabajaba, tena una aventura.]
(25) [Juan, dijo Mara, vayamos al cine.]
Sin funcin sintctica
Construcciones interjectivas
(26) [No s, ay de m!, cunto ms voy a soportarlo.]
Vocativos
(27) [Una vez que se descarta lo imposible, querido Watson, lo que queda es la
verdad.]
Los casos de elipsis sern tratados en trabajos futuros y, para los marcadores
discursivos, se tom la clasificacin que presentan Zorraquino y Portols (1999).
Posteriormente, a partir de las clasificaciones de las funciones de la coma y de
las expresiones afectadas por ella, se procedi a la modelizacin que permiti la
implantacin computacional.
425
3. Metodologa
Se desarroll un mtodo computacional para el reconocimiento automtico de las
funciones gramaticales de la coma, de modo de comprobar la clasificacin propuesta.
A tales efectos, fue necesaria la creacin de reglas de anlisis que permitieran sealar
la manera en que se relacionaban ciertas unidades (palabras, sintagmas, clusulas,
otros signos de puntuacin) con la coma dentro de un texto. En esta ocasin, se tom
como base la nocin del sistema de los signos de puntuacin propuesta por Nunberg
(1990) en cuanto a que los signos delimitan unidades textuales y, a tales efectos y
tratndose de la coma, se focaliz en el nivel del sintagma (Figueras, 2001).
Para el trabajo informtico, se recurri a los programas Smorph (At-Mokthar, 1998)
y Mdulo Post Smorph (MPS) (Abacci, 1999). Smorph permite analizar morfolgicamente
la cadena de caracteres, dando como salida la asignacin categorial y morfolgica
correspondiente a cada ocurrencia de acuerdo con los rasgos declarados. MPS tiene
como input el output de Smorph y, a partir de reglas de recomposicin, descomposicin
y correspondencia declaradas por el usuario, analiza la cadena de lemas resultante del
anlisis morfolgico. Se trabaj con un corpus compuesto por textos periodsticos
que sumaban un total de 10.000 palabras.
La modelizacin y la posterior implantacin computacional se focalizaron en:
(i) enumeraciones sintagmticas nominales, verbales, adjetivales y preposicionales
completas con conjuncin y abiertas; (ii) incisos: interjecciones, aposiciones,
subordinadas relativas explicativas, construcciones dicendi y otros incisos ubicados al
inicio de la clusula o incrustados en ella (aqu se incluyen incisos que modifican a toda
la clusula, alteraciones en el orden regular, etctera), y (iii) marcadores discursivos.
El trabajo informtico se llev a cabo de la siguiente manera:
0. Etapa previa: Anlisis morfolgico y reconocimiento de los signos de
puntuacin con Smorph, deteccin de sintagmas nominales y adjetivales, y sintagmas
verbales ncleos, que empiezan en el primer elemento del sintagma (por ejemplo,
un pronombre) y finalizan en el ncleo, es decir, el verbo conjugado (Bs & Solana,
2004) a partir de reglas de reagrupamiento con MPS;
1. Deteccin de Enumeraciones;
2. Deteccin de interjecciones, aposiciones, subordinadas relativas explicativas y
construcciones dicendi;
3. Deteccin de sintagmas preposicionales y adverbiales, posterior deteccin de
expresiones delimitadas por comas no detectadas en 2;
4. Desambiguacin y reconocimiento de marcadores discursivos.
A continuacin, se describe el trabajo realizado.
426
Walter Koza
427
a.
[ a, EMS,prep].
declarar.
[ declarar, EMS,v, MODOV,infin, TR,r, TC,c1].
.
[ linsig, EMS,pun].
Una vez realizado el anlisis de Smorph, se procedi a la elaboracin de reglas para
el reconocimiento de sintagmas y, posteriormente, de las funciones gramaticales de
la coma.
3.2. Modelizacin y creacin de reglas para MPS
El output generado por Smorph es el input con el que trabaja MPS. Una vez obtenidos
los resultados del primero, se constituyeron las reglas para formar los sintagmas. A
partir de ellos, fue posible establecer, luego, las reglas para el reconocimiento de las
funciones de la coma, dado que el signo afecta, precisamente, a estas unidades.
Se ejemplificar con la enumeracin, puesto que, en los textos, es la funcin ms
clara de observar y, dentro del anlisis computacional, la ms sencilla de modelizar y
reconocer automticamente. Si se toma el ejemplo (10)
(10) [Escribi una obra de teatro, dos libros de poesa y una novela romntica.],
una modelizacin pertinente para la enumeracin sera:
SN + coma + SN + cop. + SN = Enumeracin Nominal Completa
Esto quiere decir que, si en el texto se encuentra un SN seguido de coma, ms
otro SN seguido de una conjuncin copulativa (cop), ms otro SN; entonces hay una
enumeracin nominal completa.
De esta manera, se desarroll un conjunto de reglas que modelan los casos posibles
de enumeraciones sintagmticas, las cuales eran las siguientes:
(SX + coma) 1 + SN + conjuncin + SN = ESX
(SX + coma) 2 + punto suspensivos = ESX
(SX + coma) 2 + etctera = ESX
(SX + coma) 2 + entre otras cosas = ESX
(SX + coma) 3 = ESX (para los casos de asndeton)
428
Walter Koza
4. Resultados obtenidos
Se evaluaron los resultados de la implantacin computacional realizada a partir de
las medidas de precisin, cobertura y medida F. A continuacin se presenta una tabla
(Tabla 1) con los porcentajes obtenidos.
Tabla 1. Resultados obtenidos.
Elementos a Total de
Elementos No
Detecciones Precisin Cobertura Medida F
reconocer
expresiones detectados detectados errneas
Enumeracin
33
29
4
4
87%
93%
89,90%
Aposicin
29
27
2
3
90%
93,1%
91,52%
Sub. Rel. Exp.
32
31
1
6
81,25%
97%
88,43%
Const. Dic.
9
8
1
0
100%
89%
94,17%
Del. al inicio
72
62
10
2
97,2%
86%
91,25%
Del. incrust.
50
46
4
96%
92%
93,96%
Marc. Disc.
34
34
0
0
100%
100%
100%
429
CONCLUSIONES
Se present el anlisis del uso de la coma en relacin con la sintaxis y,
posteriormente, se estableci una clasificacin de las funciones gramaticales de
este signo de puntuacin basada en la relacin que establece la coma con los otros
elementos del texto en el nivel sintctico. A partir de esta clasificacin, se present un
mtodo de deteccin automtica de estas construcciones, a partir de la formalizacin
y creacin de reglas. Los porcentajes de precisin, cobertura y medida F obtenidos en
la evaluacin son lo suficientemente adecuados como para validar la efectividad de las
reglas elaboradas. Esto ltimo, se puede apreciar especialmente en la medida F ms
baja, que super el 88%.
Durante el anlisis, se pudo apreciar que, si bien es posible establecer un uso
normativo de la puntuacin, en los textos reales se observan desviaciones a dicha
normativa sin que eso implique una escritura errnea. As por ejemplo, es posible
observar en el corpus fragmentos de este estilo:
() Desde hace un mes el presidente Nstor Kirchner vive de roce en roce con la
dirigencia de su Partido Justicialista ()
430
Walter Koza
Aqu hay una alteracin del orden regular que debiera estar delimitada por coma.
No obstante, es necesario advertir, en estos casos, se puede prescindir de la puntuacin,
si la expresin es breve (RAE, 2005). Quedara, entonces, al criterio del autor, cundo
una expresin es breve o extensa. Algo similar ocurrira con las rematizaciones, en
donde el uso o no de coma depende, en gran medida, del autor (Figueras, 2001).
(28) Una pavada dijo Juan la semana pasada.
(29) A Mara la vi la semana pasada.
No obstante, y ms all de estas particularidades, el presente trabajo constituira
un aporte tanto a los estudios gramaticales, con respecto al rol de la coma en la
sintaxis, como as tambin a la lingstica computacional. Se pretende que la presente
investigacin sea el inicio para investigaciones futuras en el rea y, para ello, se cree
que, con la clasificacin propuesta, se contarn con nuevos elementos de anlisis. Por
otro lado, siguiendo la perspectiva de la lingstica computacional, se logr establecer
un mtodo que permitiera detectar las funciones gramaticales de la coma en textos de
lenguaje natural, pero que, adems, con ello validara la descripcin y el anlisis previo,
con lo cual, puede sealarse que el presente trabajo constituye una contribucin de la
formalizacin de estructuras sintcticas.
En relacin con trabajos futuros, se plantea analizar textos no periodsticos, lo
que podra suscitar modificaciones a las reglas y a las categoras aqu propuestas.
Por otro lado, se ha podido apreciar que la puntuacin puede ser til para tareas de
extraccin automtica de informacin en textos de lenguaje natural, por lo que se
intentar probar el mtodo de deteccin propuesto en dicho mbito.
431
REFERENCIAS BIBLIOGRFICAS
Abacci, F. (1999). Dveloppement du Module Post Smorph. Clermont-Fd.: Memoria del
DEA de Linguistique et Informatique. Universidad Blaise-Pascal/GRIL.
At-Mokthar, S. (1998). Smorph: Guide dutilisation. Rapport technique. Clermont-Fd.:
Universidad Blaise Pascal/GRIL.
Alcoba, S. (2000). Puntuacin y meloda de la frase. En S. Alcoba (Coord.), La expresin
oral (pp. 147-186). Madrid: Ariel Practicum.
Bayraktar, M., Say, B. & Akman, V. (1998). An analysis of English punctuation: The
special case of comma. International Journal of Corpus Linguistics, 3(1), 33-57.
Bs, G. & Solana, Z. (2004). Anlisis morfolgico y gramticas locales: Introduccin y una aplicacin
concreta. Ponencia presentada en las I Jornadas Argentinas de Lingstica
Informtica: Modelizacin e Ingeniera, Facultad de Humanidades y Artes,
Universidad Nacional de Rosario, Rosario.
Briscoe, T. & Carroll J. (1995). Developing and evaluating a probabilistic LR Parser of
Part-Of-Speech and punctuation labels. En Proceedings of the ACL/SIGPARSE
4th International Workshop on Parsing Technologies (pp. 48-58). Prague: ACL.
Chian, C., Wan, Y. & Chen, S. (2012). Punctuation generation inspired linguistic
features for mandarin prosodic boundary prediction. ICASSP 2012, 45974600.
Cipriano, N. (1976). El uso de la coma. Teora y prctica. Buenos Aires: Ediciones Depalma.
Dvalos, D. & Alvarado, E. (2009). La puntuacin y otros recursos en la organizacin
de textos infantiles propios y ajenos. Lectura y vida, 30(1), 6-16.
De la Fuente, M. (2005). La coordinacin en inciso y su puntuacin. Revista de estudios literarios.
[en lnea]. Disponible en: http://www.ucm.es/info/especulo/numero29/
dobles.html
Desinano, N. (2004). Puntuacin y gramtica. En N. Mgica & N. Desinano (Comps),
Estudios del lenguaje y enseanza de la lengua (44-88). Rosario: Ediciones Juglara.
Ehrlich, E. (1992). Theory and problems of punctuation, capitalization, and spelling. Hong
Kong: McGraw-Hill.
Favre, B., Grishman, R., Hillard, D., Hi, H., Hakkani-Tr, D. & Ostendorf, M. (2008).
Punctuating speech for information extraction. Spoken Language Technologies. [en lnea].
Disponible en: http://www.cs.nyu.edu/hengji/ssie.pdf
Figueras, C. (1997). La semntica procedimental de la puntuacin. Espculo. Revista de
estudios literarios [en lnea]. Disponible en: http://www.ucm.es/info/especulo/
numero12/puntuac.html
432
Walter Koza
433
434
Walter Koza