Ronaldo MARTINS*
RESUMO: Este artigo explora algumas das questes epistemolgicas envolvidas na demarcao
do territrio da Lingustica Computacional, mais especificamente do Processamento
Automtico das Lnguas Naturais, quando concebido como regio de interseo entre a
Lingustica Tradicional, de um lado, e as Cincias da Computao, de outro. O texto procura
mapear a natureza dessa interseo e constata que os objetivos, os objetos e os mtodos
da Lingustica Computacional no coincidem com os da Lingustica Tradicional, razo pela
qual o novo domnio constituiria no exatamente um subdomnio ou rea de aplicao desta,
mas um novo campo de explorao cientfica, colonizado ainda pelas prticas de anlise e
de investigao que caracterizam a Lingustica Tradicional, mas cujas contradies internas
conduziriam progressivamente formao de uma nova razo lingustica, que envolveria
a constituio de categorias menos antropocntricas e antropomrficas de anlise e de
descrio lingustica, mas que se revelariam mais adequadas para a emulao, pela mquina,
do comportamento lingustico humano.
PALAVRAS-CHAVE: Lingustica Computacional. Processamento Automtico das Lnguas
Naturais. Traduo Automtica.
Introduo
A Traduo Automtica (Machine Translation), ou Traduo Mecnica
(Mechanical Translation), ostenta a dupla condio de ser, entre os aplicativos
do processamento automtico das lnguas naturais, a mais antiga veleidade
e a mais reiterada frustrao. Nas mais recentes competies entre sistemas
promovidas pelo National Institute of Standards and Technology (NIST, 2008),
o melhor sistema de traduo automtica (Google) no chegava a nem mesmo
50% da referncia humana. Se considerarmos que as primeiras tentativas de
construo de um sistema que traduzisse automaticamente os enunciados entre
duas lnguas naturais coincidem com o desenvolvimento da tcnica de criptografia,
logo aps a Segunda Guerra Mundial, seremos forados a admitir que todo o
capital simblico e cientfico acumulado pelos estudos da Traduo Automtica
nos ltimos 50 anos no foi capaz, ainda, de produzir sistemas inteligentes que
pudessem substituir o tradutor humano. Nenhum dos sistemas disponveis, sejam
*
UNIVS Universidade do Vale do Sapuca. Faculdade de Filosofia, Cincias e Letras Eugnio Pacelli. Pouso
Alegre - MG Brasil. 37550-000 ronaldo.martins@uol.com.br
287
288
289
290
291
293
294
O termo linguisticalismo faz aqui evidente aluso a fisicalismo, termo cunhado por Rudolf Carnap, em
Conceituao fisicalista, de 1926, como expresso da ideia de que a fsica constituiria um paradigma a ser
utilizado por todas as cincias, fossem elas naturais ou humanas: Uma das tarefas mais importantes, relativas
lgica da cincia, ser o desenvolvimento das operaes que o fisicalismo sustenta que so possveis: indicar as
regras sintticas para a insero dos diferentes conceitos biolgicos, psicolgicos e sociolgicos na linguagem
fsica. Essa anlise dos conceitos de linguagem parciais conduz concepo de uma linguagem unitria
que suprimiria o estado de disperso que reina atualmente na cincia. (CARNAP, 1937). Uma hiptese que
mereceria ser considerada com muito mais profundidade do que este texto permite a de que a Lingustica, que
j foi considerada cincia-piloto e emprestou o paradigma estruturalista a muitas outras cincias humanas,
talvez guardasse a iluso (totalitria) de que todas as cincias que tomam a linguagem por objeto (ainda que
indireto) de explorao deveriam obrigatoriamente compartilhar de uma mesma metalinguagem.
295
Da matria do PLN
As indefinies que marcam o programa terico do PLN no derivam apenas
da ausncia de um ncleo de tarefas comuns em torno das quais possam se
organizar pesquisadores e desenvolvedores. O objeto do PLN igualmente
proteiforme. Como o era, de resto, o prprio objeto da Lingustica no incio do
sculo XX.
Para Saussure (1973, p.17), o objeto de estudo da Lingustica seria a lngua,
o produto social da faculdade de linguagem e um conjunto de convenes
necessrias, adotadas pelo corpo social para permitir o exerccio dessa faculdade
nos indivduos.
A opo de Saussure (1973) pela langue reveste-se de uma necessidade
metodolgica, mais do que de uma ingenuidade terica acerca dos fatos da
linguagem. Para ele, seja qual for a perspectiva que se adote para a considerao das
manifestaes da linguagem, o fenmeno lingustico apresenta perpetuamente
duas faces que se correspondem e das quais uma no vale seno pela outra.
(SAUSSURE, 1973, p.15). Haveria, assim, a face acstica e a face articulatria; a
face fisiolgica (acstico-vocal) e a face psicolgica (mental); a face individual e
a face social; a face esttica e a face dinmica:
Tomada em seu todo, a linguagem multiforme e heterclita; a cavaleiro
de diferentes domnios, ao mesmo tempo fsica, fisiolgica e psquica,
ela pertence alm disso ao domnio individual e ao domnio social; no
se deixa classificar em nenhuma categoria de fatos humanos, pois no
se sabe como inferir sua unidade. (SAUSSURE, 1973, p.17).
A soluo encontrada por Saussure (1973, p.16-17, grifo do autor) para evitar
tamanha volatilidade e que se transformaria no divisor de guas da Lingustica
bem conhecida:
296
A legitimidade desse repertrio de habilidades lingusticas no ser aqui posta em discusso, embora
talvez merecesse uma considerao mais detalhada: ser possvel efetivamente pensar nessa especializao
de habilidades lingusticas, diferenciando-as em traduo, reviso, sumarizao e tantas outras, ou
constituiro todas elas diferentes faces de uma mesma competncia lingustica subjacente e que no caberia
segmentar? Acompanho aqui o senso comum, minha intuio de falante e minha experincia como professor,
que tem percebido, com frequncia, que h de fato diferenas (lingusticas?) importantes em cada uma dessas
atividades. No entanto, devo confessar que escapa ao objeto da discusso tentar declinar quais seriam as
habilidades lingusticas e investigar se estariam todas elas efetivamente, e da mesma forma, relacionadas a uma
competncia lingustica mais geral. O fato que, ainda que as diferenas entre elas possam ser de ordem apenas
cosmtica e acidental, tem sido observada uma diviso social do trabalho lingustico que, principalmente
por meio de polticas de formao e de remunerao, tem confirmado a pertinncia e a possibilidade dessa
subclassificao.
297
Num texto clssico, On Linguistic Aspects of Translation, Roman Jakobson (2000) deixa claro que a) h mais
de um aspecto lingustico envolvido na traduo (o que , alis, confirmado pelo prprio ttulo do texto) e b)
h mais na traduo do que simplesmente Lingustica. O mesmo ocorre em relao a Nida (1964), em que a
traduo concebida no apenas como equivalncia formal (fidelidade mensagem, i.e., forma e matria do
texto de partida), mas talvez principalmente como equivalncia dinmica (fidelidade resposta do receptor
do texto de partida). O autor considera, claramente, alm dos aspectos lingusticos da traduo, os elementos
contextuais e culturais, que seriam, em sua opinio, mais determinantes que os prprios elementos lingusticos:
differences between cultures cause many more severe complications for the translator than do differences in
language structure (NIDA, 2000, p.130). Mounin (1975, p.26-27), por fim, categrico: A traduo (sobretudo
nas reas do teatro, do cinema, da interpretao) comporta sem dvida aspectos francamente no-lingusticos,
extralingusticos. O autor afirma, com seus prprios grifos, que os problemas tericos suscitados pela
legitimidade ou ilegitimidade da operao de traduzir, e por sua possibilidade ou impossibilidade, s podem ser
esclarecidos em primeiro lugar no quadro da cincia lingustica. Mas importante observar que em primeiro
lugar no significa exclusivamente e que exerce, na sentena, o duplo papel de: a) afirmar a importncia dos
aspectos lingusticos da traduo; b) indicar que h outros aspectos a serem considerados.
298
[...] acredita-se, quando se trata da tcnica interna de comparao das lnguas estar lidando com a prpria
lngua, mas isto iluso. No a prpria lngua, mas seus disiecta membra, que no permitem apreender a
totalidade que a lngua; um tal mtodo alcana as contribuies fsicas e fisiolgicas, psicolgicas e lgicas,
sociolgicas e histricas, mas no a prpria lngua. (HJELMSLEV, 1978, p. 180-181).
299
Considere-se, a este propsito, apenas um exemplo: a traduo, para o portugus, da sentena do ingls (1)
The police refused the students a permit because they feared violence, de forma que a traduo portuguesa da
sentena corresponda a (2) A polciai recusou uma autorizao para os estudantes porque ei temia violncia.
Instala-se um problema se se admite que (1) ambgua do ponto de vista sinttico e/ou semntico, e no
ambgua do ponto de vista pragmtico. Ou seja, se se admite que, embora sejam possveis duas indexaes
para o pronome they:
(1a) The policei refused the students a permit because theyi feared violence.
(1b) The police refused the studentsi a permit because theyi feared violence,
apenas a primeira (1a) autorizada no contexto do estado normal das coisas no mundo, em que (a) a polcia
(inglesa) tem o poder de conceder ou negar autorizaes para manifestaes pblicas (como passeatas
estudantis, por exemplo); (b) os estudantes (na Inglaterra) so obrigados a solicitar permisso polcia para
a realizao de manifestaes; (c) as manifestaes estudantis no raro (?) acabam em protestos violentos;
e (d) a polcia, como agente estatal de manuteno da ordem, no deve medir esforos para a preveno da
violncia. importante observar que, no caso, para a resoluo da anfora endofrica representada por they,
no apenas no so suficientes as relaes lxico-gramaticais (a desambiguizao envolve, inapelavelmente,
a representao, para a mquina, de a+b+c+d indicados acima), mas talvez essas relaes no sejam nem
mesmo necessrias, j que a indexao refere-se antes ao compartilhamento de tpico (tema) do que ao
compartilhamento do nmero gramatical, que diferente para o pronome (plural) e seu antecedente (singular).
300
Do mtodo do PLN
Tomar (tambm) a fala como objeto de investigao do PLN implica redefinir,
em larga medida, o referencial terico que vinha sendo at aqui considerado: no
existe, na matriz saussuriana, uma teoria da parole:
Pode-se, a rigor, conservar o nome da Lingustica para cada uma dessas
duas disciplinas e falar duma Lingustica da fala. Ser, porm, necessrio
no confundi-la com a Lingustica propriamente dita, aquela cujo nico
objeto a lngua. Unicamente desta ltima que cuidaremos, e
se por acaso, no decurso de nossas demonstraes, pedirmos luzes ao
estudo da fala, esforar-nos-emos para jamais transpor os limites que
separam os dois domnios. (SAUSSURE, 1973, p.28, grifo nosso).
A matria do PLN seria, portanto, mais afeita quilo que Saussure (1973)
entendia por Lingustica da Fala, e que aqui associarei Psicolingustica, embora a
Psicolingustica no represente, no caso, seno parte de uma Lingustica (externa)
da Lngua.
A Psicolingustica pode ser definida, grosseiramente, como um domnio
ponte entre a Lingustica, cujos conceitos ressignifica, e a Psicologia, cujos
procedimentos refuncionaliza. Trata-se de uma rea do conhecimento que,
principalmente a partir da dcada de 1950, procura programaticamente realizar
a sntese entre fenmenos lingusticos e fenmenos psicolgicos.
A possibilidade dessa interdisciplinaridade entre Lingustica e Psicologia
emerge, no contexto do desenvolvimento das chamadas Cincias da Cognio,
de um reposicionamento epistemolgico que postula que a linguagem, mais
do que um sistema exterior e anterior ao falante, uma sua faculdade mental,
uma sua competncia, em parte congnita, determinada (ou suportada) por
uma estrutura biolgica especfica, de natureza neuroanatomofisiolgica, que
projeta uma organizao psicolgica universal, compartilhada, inevitavelmente,
por todos os falantes humanos. Recusa-se, portanto, a autonomia da lngua,
e afirma-se que as estruturas lingusticas, em lugar de funcionarem
revelia do falante, s existem na medida em que so por ele materializadas
e dele derivadas; que as categorias lingusticas, longe de representarem
uma nomenclatura intersubjetiva da realidade, longe de servirem simples
transmisso do conhecimento, so, elas mesmas, parte desse conhecimento
na verdade, o resultado da prpria organizao psicolgica do falante; que a
linguagem, enfim, sobretudo ao.
As implicaes dessa concepo dinmica da linguagem so principalmente
duas: o privilegiamento, como objeto de estudo, das restries de desempenho
do falante, as quais invariavelmente condicionam a produo e a compreenso
Alfa, So Paulo, 55 (1): 287-307, 2011
301
302
303
304
Como produto desta perspectiva que ser ainda uma profisso de f, mais
do que uma hiptese que tenha sido empiricamente (com)provada , este texto
deve propor uma fronteira semntica imaginria entre duas diferentes classes
verbais do portugus: de um lado, emular, sintetizar, replicar; de outro,
copiar, imitar, mimetizar, simular. No primeiro caso, o compromisso
nico com a produo dos mesmos resultados; no segundo, a fidelidade
tambm ao processo. Em ambas as classes, a adeso ao paradigma do dualismo
psicofsico, pedra angular da Inteligncia Artificial: o pensamento humano
porque independente de sua extenso material, o corpo poderia ser imitado
ou sintetizado pela mquina.
interessante ressaltar que a metfora pouco tem a ver aqui com a
concepo mecanicista da mente que inaugura a Inteligncia Artificial. No se
trata, absolutamente, da mente como mquina, do crebro como hardware, mas
da mente e da mquina como meios diferentes para se atingirem os mesmos
resultados. A ausncia de qualquer especularidade entre a arquitetura da mente
humana e a do computador, e a incomensurabilidade dos meios de expresso
bioqumico, de um lado; fsico, de outro , repelem, j de incio, a possibilidade de
qualquer paralelismo e aproximao entre desempenho humano e desempenho
computacional.
preciso, pois, pensar a formalizao de um modelo de processamento no
supervisionado da linguagem capaz de fundar suas prprias orientaes de
pesquisa e universos categoriais. Interessa no dotar a mquina de um aparato
terico pronto e acabado, mas investigar a possibilidade de investi-la de uma
autonomia que a torne capaz de replicar o dinamismo e a instabilidade que so
prprios da linguagem. Em ltima instncia, interessa pesquisar a formulao
de estratgias computacionalmente implementveis de aquisio (e no de
representao) da linguagem.
Ser preciso, ento, discutir a aplicabilidade dos conceitos e mtodos da
Lingustica terica para o desenvolvimento de processadores automticos de
lnguas naturais. E a hiptese que se espreita justamente a da negao de que
os instrumentos normalmente desenvolvidos pelos linguistas para entender o
funcionamento da linguagem possam ser eficientemente tra(ns)duzidos para a
mquina. Eles seriam pertinentes apenas a um paradigma absolutamente alheio
teoria computacional. No seria autorizado, portanto, o movimento epistemolgico
que leva cientistas da computao a querer buscar, na Lingustica, modelos de
representao da linguagem. O deslocamento necessrio seria outro: as mquinas
redescrevendo a linguagem a partir de suas prprias experincias lingusticas.
A justificativa desta abordagem se constitui em torno desta aparentemente
absurda possibilidade que se desdobra em uma pletora de outras interrogaes
a serem adicionadas quelas que inauguram este texto: ser possvel mquina
305
MARTINS, R. The original sin of Computational Linguistics. Alfa, Araraquara, v.55, n.1, p.287307, 2011.
ABSTRACT: This paper explores some of the epistemological issues concerning the scope of
Computational Linguistics, more specifically the scope of Natural Language Processing (by
computers) when conceived of as the area of study where Traditional Linguistics and Computer
Sciences overlap. By discussing the nature of this overlap, it concludes that the goals, objects
and methods of Computational Linguistics do not match those of Traditional Linguistics, and
that the former would not constitute a subdomain or application area of the latter, but a new
scientific exploration field, where, although Traditional Linguistics research practices are
still dominant, its internal contradictions gradually would lead to a new linguistic reason
that would postulate less anthropocentric and anthropomorphic categories of analysis and
description of languages, which would prove to be more suitable for the human linguistic
behavior emulation by computers.
KEYWORDS: Computational Linguistics. Natural Language Processing. Machine Translation.
REFERNCIAS
CARNAP, R. The logical syntax of language. London: K. Paul Trench, 1937.
______. Physikalische begriffsbildung. Karlsruhe: Braun, 1926.
CHOMSKY, N. Aspects of the theory of syntax. Cambridge: MIT Press, 1965.
DE LEMOS, C. T. G. Sobre a aquisio da linguagem e seu dilema (pecado) original.
Boletim da Abralin, Recife, n.3, p.97-136, 1982.
306
307