Anda di halaman 1dari 2

Pereira, M.B e Souza, C.F.R (2001).

Implementação, Avaliação e Validação de


Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português.
Universidade de São Paulo – São Carlos.

Implementação, Avaliação e Validação de Algoritmos de Extração de


Palavras−Chave de Textos Científicos em Português, tendo como autores Marcel Brito
Pereira e Carolina F. Reis de Souza no Núcleo Interinstitucional de Lingüística
Computacional (NILC), Instituto de Ciências Matemáticas e de Computação (ICMC) na
Universidade de São Paulo - São Carlos, sendo alunos do curso de Bacharelado em
Ciência da Computação.

O trabalho apresentado teve como objetivo investigar o desempenho de dois algoritmos


de extração de palavras−chave de textos em português, usando técnicas extrativas
simples, recursos adicionais de processamento de língua natural (PLN), e metodologia
compatível com os trabalhos desenvolvidos para outras línguas.O porquê do surgimento
desse trabalho foi para a destinação de um projeto de iniciação científica destinado a
implementar, avaliar e validar, por meio de extração de palavras-chaves de textos
científicos em português. De acordo com o artigo a aplicação que motivou diretamente
esse estudo – embora não a única – é a geração de sumários (resumos) extrativos de
textos em português.

A forma na qual os autores utilizaram para expor as suas ideias foi na de um


artigo científico, o foco principal do artigo é a geração automática de sumários
extrativos de textos em português. Esse artigo contém um prefácio, que é um resumo
informativo, onde fala sobre a importância das palavras-chaves na indexação de
documentos, os resultados obtidos durante o projeto, a relevância e a originalidade desse
trabalho pela escassez de trabalhos nessa área em português.

As palavras−chave podem ser úteis em diversas aplicações computacionais, em


especial aquelas que necessitam indexar documentos para buscas posteriores. A
literatura apresenta diversas técnicas de extração de palavras−chave de textos, em sua
maioria aplicada à língua inglesa. Nenhum trabalho que leve em conta a língua
portuguesa foi encontrado na literatura. No caso do português, o que se têm usado são
técnicas bastante superficiais, como as baseadas unicamente na freqüência de palavras e
não no seu contexto.

Os autores delimitaram dois tipos de métodos de extração já estabelecidos o EPC-P


(Extrator de Palavras−Chave por freqüência de Padrões) e o EPC-R (Extrator de
Palavras−Chave por freqüência de Radicais). O EPC−P não trabalha sobre o texto

1
Pereira, M.B e Souza, C.F.R (2001). Implementação, Avaliação e Validação de
Algoritmos de Extração de Palavras−Chave de Textos Científicos em Português.
Universidade de São Paulo – São Carlos.

original, e sim sobre um texto etiquetado, onde todas as palavras ‘Nome’ podem ser um
Nome Próprio ou um Substantivo Comum, ele não as difere, e sim faz uma análise da
freqüência de determinados padrões morfossintáticos no texto para decidir quais
palavras podem ser utilizadas para representar o tema central do mesmo; já o EPC-R
utiliza somente a freqüência de radicais no texto, não se prendendo a padrões, portanto
há uma análise morfossintática (combinações de categorias gramaticais) das palavras, o
EPC-R faz uma análise da freqüência de radicais (simples, duplas ou trios) no texto, em
detrimento à utilização de padrões.

O artigo foi de fato muito esclarecedor, com um tema muito interessante e que é
usado comumente, sendo que a maioria das vezes as pessoas nem se quer sabem da
existência desse tipo de ferramenta.

Existe uma grande importância de se investir e criar aplicações dedicadas à língua


portuguesa, já que esses experimentos constituem passos iniciais para um sistema de
simplificação automática de textos, além da ferramenta que pode auxiliar tanto os
escritores quanto para algum tipo de usuário final comum, de diferentes níveis de
escolaridade e idade.

Já a metodologia utilizada, deixou a desejar um pouco quanto a gramática e a sua


coerência, em alguns pontos foi percebido erros gramaticais e uma falta de nexo entro
uma frase e outra.

O assunto do artigo foi de muita originalidade, pois como os próprios autores disseram
há pouco material disponível sobre a sumarização automática utilizando a língua
portuguesa como base. Assim o trabalho dos mesmos é de grande contribuição
acadêmica, pois além pode ser destinado e ajudar tanto os profissionais da área como os
escritores, quanto a alunos e pessoas em geral na criação de seus trabalhos, artigos
científicos, etc.

Anda mungkin juga menyukai