BRASÍLIA
2004
MARCELO VICENTE DE PAULA
BRASÍLIA
2004
À Ariadne e à Luciana
RESUMO ...............................................................................................................................................VI
ABSTRACT......................................................................................................................................... VII
LISTA DE TABELAS........................................................................................................................... 12
LISTA DE TABELAS........................................................................................................................... 12
CAPÍTULO 1......................................................................................................................................... 13
1 INTRODUÇÃO ........................................................................................................................... 13
CAPÍTULO 2......................................................................................................................................... 19
2 REVISÃO DA LITERATURA................................................................................................... 19
CAPÍTULO 3......................................................................................................................................... 96
3 METODOLOGIA........................................................................................................................ 96
CAPÍTULO 1
1 INTRODUÇÃO
Nos últimos anos, a larga utilização de sistemas de informática deu origem a grandes
bases de dados, a partir do armazenamento de informações coletadas incessantemente através
dos mais diversos sistemas de automação.
Segundo diversos autores, a maior riqueza destas grandes bases ainda não está sendo
devidamente explorada, e sugerem que podem ser utilizadas técnicas específicas para se
extrair delas conhecimentos não explícitos. Este assunto é tratado através de DCBD -
Descoberta de Conhecimento de Bases de Dados, do inglês KDD - Knowledge Discovery in
Databases. Segundo Fayyad [FAYYA96], DCBD é “o processo não trivial de identificar, em
dados, padrões válidos, novos e potencialmente úteis”.
Mineração de Dados é a parte deste processo onde se produzem conjuntos de padrões
a partir da aplicação de algoritmos de exploração. Vale-se de diversos algoritmos que
processam os dados e encontram esses "padrões válidos, novos e potencialmente úteis".
Entretanto, embora os algoritmos atuais sejam capazes de descobrir padrões "válidos e
novos", ainda não existe uma solução eficaz para determinar padrões “potencialmente úteis”.
Assim, Mineração de Dados ainda requer uma interação muito forte com analistas humanos,
que são, em última instância, os principais responsáveis pela determinação do valor dos
padrões encontrados. Além disso, a condução do direcionamento da exploração de dados é
também tarefa fundamentalmente confiada a analistas humanos.
A Plataforma Lattes, uma iniciativa do Ministério da Ciência e Tecnologia através do
CNPq1, constitui-se atualmente em um grande acervo de informações sobre os pesquisadores
e sua produção científica e tecnológica, através do Currículo Lattes, o formulário eletrônico
1
CNPq: Conselho Nacional de Desenvolvimento Científico e Tecnológico.
14
2
MCT: Ministério da Ciência e da Tecnologia
3
FINEP: Financiadora de Estudos e Projetos do MCT
4
CAPES: Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
15
1.3 Justificativa
1.4 Objetivos
Quanto aos fins, este trabalho é classificado como uma proposta de pesquisa aplicada,
uma vez que tem por objetivo o estudo e a utilização de técnicas de Mineração de Dados e
Mineração de Texto na base do Currículo Lattes, para oferecer recursos de gestão de
conhecimento em Ciência & Tecnologia.
Quanto aos meios de investigação, foi utilizada a pesquisa bibliográfica, para a
identificação das técnicas de Mineração de Dados aderentes ao objeto pesquisado; e a
pesquisa documental, em documentos que tratam de questões sobre gestão da Ciência &
Tecnologia.
Foi utilizada também a pesquisa de laboratório, onde se experimentou a aplicação dos
algoritmos selecionados em amostras da base de dados pesquisada; e estudos de casos, onde
dados da Plataforma Lattes foram submetidos a algoritmos de Mineração de Dados e
Mineração de Texto.
1.8 Suposições
CAPÍTULO 2
2 REVISÃO DA LITERATURA
O Diretório de Grupos de Pesquisa é um sistema que mantém uma base de dados com
informações coletadas a partir de 1992. Foi desenvolvido pelo CNPq para manter informações
sobre os grupos de pesquisa existentes no país.
Os grupos de pesquisa podem ser definidos como um conjunto de pessoas organizadas
hierarquicamente, a partir de uma liderança de destaque no ambiente de ciência e tecnologia,
envolvidos permanentemente em atividades de pesquisa, cujo trabalho se organiza em linhas
comuns aos membros do grupo, e que, de alguma maneira, compartilhem instalações e
equipamentos. Estão localizados em universidades, instituições isoladas de ensino superior,
institutos de pesquisa científica, institutos tecnológicos, laboratórios de pesquisa e
desenvolvimento de empresas estatais ou ex-estatais e em algumas organizações não-
governamentais com atuação em pesquisa científica ou tecnológica [CNPQ03].
Os principais objetivos deste sistema são:
a) Manter um histórico das atividades dos grupos de pesquisa, preservando sua
memória.
b) Servir de base de consulta para a comunidade científica, que passa a contar com
uma ferramenta que permite a identificação dos membros, dos trabalhos
realizados, das linhas de pesquisa, facilitando o intercâmbio entre os
pesquisadores.
c) Prover os gestores de Ciência & Tecnologia de uma ferramenta para avaliação e
planejamento dos investimentos em atividades de pesquisa, a partir de informações
qualitativas e quantitativas sobre os trabalhos realizados no âmbito dos grupos.
21
a) Informações gerais
a.1. Identificação
a.2. Endereço
a.3. Formação Acadêmica e Titulação
a.4. Atuação profissional
a.5. Áreas de atuação
a.6. Idiomas
a.7. Prêmios e títulos
b) Produção Científica e Tecnológica
b.1. Produção bibliográfica
b.1.1. Trabalhos em eventos
b.1.2. Artigos publicados
b.1.3. Livros e capítulos
b.1.4. Texto em jornal ou revista (magazine)
b.1.5. Demais tipos de produção bibliográfica
b.2. Produção técnica
b.2.1. Softwares
b.2.2. Produtos
24
b.2.3. Processos
b.2.4. Trabalhos técnicos
b.2.5. Demais tipos de produção técnica
b.2.6. Propriedade intelectual
b.3. Outra produção
b.3.1. Produção artística e cultural
b.3.2. Orientações concluídas
b.3.3. Demais trabalhos
b.3.4. Outras informações relevantes
c) Informações complementares
c.1. Formação complementar
c.2. Participação em banca de trabalhos de conclusão
c.3. Participações em eventos, congressos e outros
c.4. Participações em bancas de comissões julgadoras
c.5. Orientações em andamento
5
Estratos de Qualidade: obtidos a partir de algoritmos desenvolvidos no CNPq para a identificação de níveis de
qualidade, a partir de informações das bases de coleta e de parâmetros de produtividade e desempenho
[CNPQ03b].
28
O Sistema Gerencial de Fomento é composto por módulos que têm por objetivo
fornecer informações de natureza gerencial sobre as operações de fomento realizadas pelo
CNPq.
Estas transações são inicialmente tratadas por sistemas específicos, de natureza
operacional, cujos dados são armazenados em tabelas relacionais. A partir de extrações,
análises e consolidações dos dados da base operacional, é constituída outra base de dados de
cunho gerencial.
São os seguintes os módulos do Sistema Gerencial de Fomento:
a) Busca por histórico de fomento: este serviço permite a realização de consultas na
base de dados de fomento, a partir de um dos parâmetros abaixo:
a.1. Nome
a.2. Área do conhecimento
a.3. Instituição
a.4. UF da instituição
a.5. Modalidade
b) Investimentos do CNPq em C&T: este serviço permite a realização de consultas
na base de dados gerenciais de fomento, e fornece diversas resultados a de:
b.1. Capacitação de recursos humanos para a pesquisa
b.1.1. Bolsas no país
b.1.2. Bolsas no exterior
b.2. Fomento à pesquisa
b.2.1. Apoio a projetos de pesquisa
b.2.2. Apoio à editoração
b.2.3. Apoio a eventos
29
2.2.1.1 Dado
2.2.1.2 Informação
Vários autores tentam estabelecer um conceito para informação. Paulo Foina afirma
que ”informação é um valor, ou dado, que possa ser útil para alguma aplicação ou pessoa”
[FOINA01].
Já Solange Resende define informação como “um dado que tem o conteúdo e forma
apresentada de uma maneira que seja útil para um processo de tomada de decisão”
[REZEN03].
Entretanto, o professor Setzer prefere estabelecer uma caracterização do termo, e não
propor uma definição. Afirma que “informação é uma abstração informal (isto é, não pode ser
formalizada através de uma teoria lógica ou matemática), que está na mente de alguém,
representando algo significativo para essa pessoa” [SETZE03]. Portanto, informação tem
sentido somente quando uma pessoa recebe dados sobre um determinado elemento e forma
uma imagem mental a partir deles, ou de sua correlação com outros dados. Por exemplo, a
leitura da manchete de um jornal que estampa “as ações da Petrobrás subiram 5% no último
pregão” pode representar uma informação para uma pessoa que saiba o que é Petrobrás, e que
tenha conhecimentos mínimos do mercado acionário. Sem isso, a frase é somente um
conjunto de dados.
Para ser armazenada em um computador, a informação deve ser representada na forma
de dados. Mas, ainda segundo Setzer [SETZE03], o que é armazenado no computador não é
informação, mas os dados que a representam. Através de processamento, esta representação
da informação, ou o conjunto de dados, pode ser manipulado, mas somente do ponto de vista
sintático. O computador não altera o sentido de um conjunto de dados. Pode até modificá-los
de maneira que não sejam mais inteligíveis, através de criptografia, ou substituir uma palavra
por outra, mas o que ocorreu na máquina foi somente uma mudança sintática, somente o
receptor humano pode empreender uma mudança semântica.
Dados e informações são essencialmente diferentes. O primeiro tem uma característica
sintática, enquanto o segundo tem sentido somente com uma componente semântica, isto é,
deve poder ser interpretado pelo agente humano. Os computadores são fundamentalmente
sintáticos, possuindo capacidade apenas para a manipulação de dados, o que não
caracterizaria o processamento de informação. Quando o computador Deep Blue6 derrotou o
6
Deep Blue: supercomputador da IBM Research.
31
2.2.1.3 Sistemas
As definições acima são suficientes para introduzir o conceito de sistema, que pode ser
entendido como a união de partes coerentes para a formação de um todo. Um sistema,
normalmente, não existe de forma isolada, mas se relaciona com outros sistemas mais
abrangentes. Um sistema pode ser parte de outro maior, e ser compostos por sistemas
menores. Para cada sistema pode ser definido um “espaço de existência”, com fronteiras
estabelecidas. A maior ou a menor proximidade de outros sistemas é definitiva para o grau de
interatividade entre eles.
Este texto não pretende explorar toda a complexidade que envolve o estudo dos
sistemas, tratado na Teoria Geral dos Sistemas. No ocidente, os trabalhos do biólogo austríaco
Ludwig Von Bertalanffy representam um marco, com a apresentação de propostas para
abordagens científicas do que se chamou “todos integrados”, na década de 1950. Este termo
teria sido citado anteriormente pelo médico, filósofo e economista russo Alexander
Bogdanov, em 1922, mas seus trabalhos foram pouco divulgados no ocidente [UHLMA02].
intrínseco ao agente, que pode se valer de recursos computacionais para incrementar sua
capacidade de aprendizado, e a construção de conhecimento.
Assim, pode-se perceber a importância que o item dados tem no ambiente de sistemas
de informações. Os dados são, em resumo, o que se pode efetivamente armazenar, processar,
manipular, organizar, transformar e recuperar. Em conjunto com os programas que atuam
sobre eles, os dados se constituem em uma das unidades fundamentais de qualquer sistema de
informação.
Inicialmente, os dados eram armazenados na forma de seqüências, ordenadas ou não, e
toda sua manipulação era realizada através de rotinas construídas pelas equipes de
programação, específicas para cada sistema. Para tal, era necessário programar, a cada sistema
construído, o método de acesso, as rotinas de ordenação, as rotinas de controle.
Com o crescimento da utilização dos computadores pelas empresas, e com o grande
aumento do volume de dados armazenados, fez-se necessário o desenvolvimento de produtos
específicos para o tratamento destes dados, os quais livrassem as equipes de desenvolvimento
da necessidade de construir todas as rotinas para o seu armazenamento, processamento e
recuperação. Surgiram assim os DBMS – Database Management Systems, ou sistemas
gerenciadores de bancos de dados.
Estes DBMS são constituídos de rotinas que implementam recursos para:
a) A definição da base de dados (DDL – Data Definition Language), por exemplo, a
criação de tabelas, visões, índices;
b) O controle da base de dados (DCL – Data Control Language), por exemplo, a
criação de usuários, a atribuição de privilégios;
c) A manipulação dos dados (DML – Data Manipulation Language), por exemplo,
para a inserção, alteração e recuperação de registros nas tabelas.
São constituídos também de sistemas de arquivos que permitem o armazenamento de
grandes volumes de dados.
Os DBMS podem ser classificados, quanto à sua estratégia de armazenamento e busca,
em:
a) Hierárquicos: as tabelas são organizadas de maneira que ocorra uma hierarquia
entre elas. Por exemplo, a tabela DEPARTAMENTOS está em uma posição
hierarquicamente superior à tabela FUNCIONÁRIOS. Este modelo é pouco
utilizado atualmente. Como vantagem, pode ser citada a capacidade de definição
34
2.2.1.6 Conhecimento
O tema conhecimento talvez seja o que mais provoca discussões sobre o seu
entendimento, discussões essas originadas há milênios. Formalmente, o estudo dos
fundamentos filosóficos do conhecimento é chamado epistemologia7. Nonaka e Takeuchi
[NONAK97], estudiosos da gestão do conhecimento, defendem que a resposta para a
7
Epistemologia: Conjunto de conhecimentos que têm por objeto o conhecimento científico, visando a explicar
os seus condicionamentos (sejam eles técnicos, históricos, ou sociais, sejam lógicos, matemáticos, ou
35
lingüísticos), sistematizar as suas relações, esclarecer os seus vínculos, e avaliar os seus resultados e aplicações
[FERREI01]
36
2.2.2.1 Conceitos
2.2.2.2 Histórico
Pouco tempo também foi necessário para que esse tipo de trabalhador da indústria
fosse substituído por maquinário, no crescente processo de automatização das plantas de
fábrica. Nestas últimas décadas o espaço para o trabalhador braçal está sendo visivelmente
reduzido.
Neste contexto, surge a figura do trabalhador do conhecimento. Para atender aos
desafios de aumento de produtividade e redução de custos das organizações, é fundamental a
presença de um novo perfil de trabalhador: um indivíduo com considerável educação formal,
com alta capacidade de aprendizado, com capacidade de autogestão. Este trabalhador passa do
mero executor de tarefas para o trabalhador do conhecimento, deixa de ter seu ritmo ditado
pela máquina e passa a estabelecer a sua própria lógica de trabalho.
Entretanto, a passagem do trabalho industrial para o trabalho com o conhecimento não
é uma tarefa fácil. Ao contrário do que ocorreu nas transformações anteriores, onde a
necessidade de educação formal não era acentuada, permitindo que indivíduos originados do
campo e de trabalhos domésticos pudessem com certa facilidade desenvolver as tarefas
necessárias nas plataformas industriais, a passagem para a nova realidade exige uma apurada
educação formal. Além disso, habilidades manuais ainda são necessárias. Um operário deve
ser capaz de operar uma máquina complexa, o que exige conhecimento técnico e habilidade
manual. Drucker cita como exemplo o neurocirurgião, que é um profissional que necessita de
uma excelente educação formal, obtida através de entidades educacionais de alto nível, mas
que não pode abrir mão das habilidades manuais, sem as quais torna-se desqualificado
profissionalmente.
Este trabalhador do conhecimento atua em empresas e organizações que estão
descobrindo a necessidade de se gerenciar esse conhecimento. Vários autores citam o
conhecimento como o fator de produção mais importante deste novo mundo.
A terra, o capital e o trabalho – os tradicionais fatores de produção, passam a ter um
papel secundário diante do conhecimento [DRUCK94].
Já Toffler [TOFFL94] anuncia que o conhecimento é fundamental para a obtenção do
poder, notadamente do poder de mais alta qualidade, e que o conhecimento é também fator
crítico para a mudança de poder. O autor defende que o conhecimento deixou de ser um de
mero auxiliar dos poderes financeiros e administrativos, tornando-se a própria essência destes
poderes. Assim, o poder econômico e de produção de uma empresa moderna é conseguido
muito mais em função das capacidades intelectuais de seus membros do que em função de
seus ativos imobilizados – terra, instalações, capital financeiro, equipamento. Segundo Quinn:
41
Podem ser citados diversos exemplos onde o conhecimento é utilizado para aumentar
o valor agregado dos produtos de uma determinada organização. Atualmente, uma lata de
alumínio para o acondicionamento de líquidos é aproximadamente 80% mais fina que suas
antecessoras, utilizando, assim, menos matéria prima, reduzindo o gasto de energia na sua
produção, incrementando a sua eficiência. Assim, pode-se considerar que estes resultados
financeiros oriundos da produção deste tipo de recipiente são 80% incrementados pela
utilização de conhecimento.
Outro exemplo: atualmente, países como os Estados Unidos da América são grandes
produtores de grãos. A produção de alimentos nos países desenvolvidos cresceu muito, mas a
quantidade de mão-de-obra envolvida neste processo foi drasticamente reduzida. Este
crescimento de produção e produtividade se deve basicamente pela utilização de
conhecimento, desde a produção das sementes, das técnicas de preparação do solo, do
maquinário utilizado nas fases de produção, às técnicas de administração e gerenciamento
destas empresas. A utilização de conhecimento tem permitido um grande incremento na
produção agrícola destes países, mesmo com a utilização decrescente de mão-de-obra.
Assim, a Gestão do Conhecimento passa a ser um tema de crescente importância para
as organizações que desejam, através de uma utilização cada vez mais eficiente de seu capital
intelectual, obter vantagens competitivas.
Conhecimento. Alguns autores afirmam, inclusive, que não é possível construir a Gestão do
Conhecimento sem a utilização intensiva da Tecnologia da Informação.
Segundo Jayme Teixeira:
O desafio para a área da Tecnologia da Informação passa a ser migrar de
uma posição de suporte a processos para o suporte a competências
[TEIXE00].
2.2.2.5 Modelos
Modelos de GC Descrição
American Management (1) Encontrar [criar centros de conhecimento], (2) Organizar [motivar
Systems e conhecer pessoas] e (3) Compartilhar
Arthur Andersen (1) Avaliar, (2) Definir o papel do conhecimento, (3) Criar uma
Consulting estratégia de conhecimento ligada aos objetivos do negócio, (4)
Identificar processos, culturas e tecnologias necessárias para a
implementação de uma estratégia de conhecimento e (5)
44
Modelos de GC Descrição
Implementação de mecanismo de realimentação.
Andersen Consulting (1) Adquirir, (2) Criar, (3) Sintetizar, (4) Compartilhar, (5) Usar para
alcançar objetivos organizacionais,
Dataware Technologies (1) Identificar o problema do negócio, (2) Preparar para mudança, (3)
Criar a equipe de gestão do conhecimento, (4) Realizar auditoria e
análise do conhecimento, (5) Definir as características chaves da
solução, (6) Implementar atividades integrantes da gestão do
conhecimento (7) Ligar o conhecimento às pessoas
Buckley and Carter Método de processo de negócios para gestão do conhecimento [não
Centre for International existe metodologia formal mas processos chaves do conhecimento são
Business, University of identificados]: (1) Características do conhecimento, (2) Valor
Leeds adicionado da combinação de conhecimento, (3) Participantes, (4)
Métodos de transferência do conhecimento, (5) controle e (6)
execução
The Delphi Group Não publicaram detalhes de uma metodologia, mas as seguintes
questões são tratadas: (1) Conceitos chaves e estruturas para gestão do
conhecimento, (2) Como usar gestão do conhecimento como uma
ferramenta competitiva, (3) Aspectos culturais e organizacionais da
gestão do conhecimento, (4) Melhores práticas na gestão do
conhecimento, (5) A tecnologia da gestão do conhecimento, (6)
Análise de mercado,
Modelos de GC Descrição
avaliação, produção e transferência] e (6) Externalização do
conhecimento [inclui focalização do alvo, Produção e Transferência]
Holsapple and Joshi (1) Influências gerenciais [inclui liderança, coordenação, controle,
medida], (2) Influência de recursos [inclui humano, conhecimento,
financeiro, material] , (3) Influências do ambiente [inclui costumes,
mercador, competidores, tecnologia, equipe, clima] , (4) Atividades
[inclui aquisição, seleção, internalização, uso], (5) Aprendizado e
projeção como resultados.
Knowledge Associates (1) Adquirir, (2) Desenvolver, (3) Reter e (4) Compartilhar
The Knowledge Research (1) Fazer levantamento do conhecimento existente, (2) Criar novos
Institute conhecimentos, (3) Capturar e armazenar conhecimento, (4)
Organizar e transformar conhecimento e (5) Desenvolver
conhecimento.
Modelos de GC Descrição
The National Technical (1) Contexto [geração de conhecimento], (2) Objetivos da gestão do
University of Athens, conhecimento [organização do conhecimento], (3) Estratégia
Greece [desenvolvimento e distribuição de conhecimento] e (4) Cultura
O’Dell American (1) Identificar, (2) Coletar, (3) Adaptar, (4) Organizar, (5) Aplicar, (6)
Productivity and Quality Compartilhar e (7) Criar
Center
PriceWaterhouse (1) Encontrar, (2) Filtrar [por relevância], (3) Formatar [para o
Ruggles (1) Geração [inclui criação, aquisição, síntese, fusão, adaptação], (2)
Codificação [inclui captura e representação] e (3) Transferência
Van der Spek and de (1) Conceituar [inclui fazer um inventário do conhecimento existente
Hoog e analisar os pontos fortes e fracos], (2) Refletir [inclui tomar
decisões sobre as melhorias requeridas e fazer planos para melhorar o
processo] , (3) Agir [inclui adquirir conhecimento, combinar
conhecimento, distribuir conhecimento e desenvolver conhecimento]
e (4) Revisar [inclui comparar situações velhas e novas e avaliar
resultados alcançados]
Van der Spek and (1) Desenvolvimento de novos conhecimentos, (2) Aquisição de
47
Modelos de GC Descrição
Spijkervet conhecimentos novos e existentes, (3) Distribuição de conhecimento e
(4) Combinação de conhecimentos disponíveis
Van Heijst et al. CIBIT, (1) Desenvolvimento [criação de novas idéias, análise de falhas e
Netherlands exame de experiência atuais], (2) Consolidação [armazenamento de
conhecimentos individuais, avaliação e indexação] , (3) Distribuição
[informação de usuários] e (4) Combinação [combinação de
informações muito diferentes e aumento de acesso para distribuir
dados]
Aquisição de conhecimento 15
Geração de conhecimento 15
Compartilhamento de conhecimento 13
Uso de conhecimento 11
Identificação do conhecimento 6
Armazenamento do conhecimento 5
Realimentação (feedback) 5
Aprendizado 4
48
Organização do conhecimento 4
Aprendizado 4
Organização 4
Codificação 3
Filtragem 3
Avaliação 2
Seleção e avaliação
O processo de seleção e avaliação, segundo Stollenwerk, “visam a filtrar o
conhecimento, avaliar sua qualidade e sintetizá-lo para fins de aplicação futura” [STOLL01].
Isto é necessário para se evitar que sejam armazenados pela organização itens de
conhecimento não úteis, desnecessários ou fora do contexto dos objetivos a serem alcançados.
Para tal, é necessário avaliar questões como a relevância do conhecimento e sua
veracidade ou confiabilidade. Também é necessário o estabelecimento de visões múltiplas
para casos de conhecimentos conflitantes, para se evitar que ocorram discrepâncias entre o
que foi obtido, mas evitando-se descartar conhecimentos eventualmente importantes para a
organização.
Organização e armazenagem
Uma vez identificados os itens de conhecimento úteis para a organização, é importante
que sejam armazenados de maneira a preservá-los, bem como possibilitar uma recuperação
rápida, fácil e correta. Isto pode ser obtido pela utilização de ferramentas da Tecnologia da
Informação.
Para tal, é necessário que o conhecimento seja formalizado, e quanto mais esta
formalização for eficiente, mais qualidade terá a informação armazenada.
Segundo Stollenwerk, as etapas deste processo são:
a) Classificação do conhecimento já validado;
b) Definição da arquitetura da Tecnologia da Informação e das ferramentas de
gerenciamento da informação;
c) Criação e gerenciamento dos bancos de dados para atuar como repositórios do
conhecimento.
Compartilhamento
51
Aplicação
O processo de aplicação do conhecimento consiste na utilização real e prática do
conhecimento formalizado, armazenado e disponibilizado, de maneira a produzir melhoria de
desempenho e viabilizar que os objetivos da organização sejam alcançados.
As etapas deste processo são:
a) Aplicação do conhecimento em processos decisórios, de inovação, operacionais e
de aprendizagem;
b) Registro das lições aprendidas e dos ganhos obtidos com a utilização do
conhecimento.
Criação
A seguir, uma representação gráfica das diversas relações dos componentes do modelo
genérico de Gestão do Conhecimento proposto por Stollenwerk:
8
Storage: unidades de armazenamento magnético para grandes volumes de dados, normalmente compartilhados
por diversos computadores.
54
2.3.1 Conceito
2.3.2 Histórico
2.3.3 Etapas
O termo DCBD muitas vezes é entendido como Mineração de Dados, o que gera uma
certa confusão na definição da abrangência de cada um destes temas. De maneira geral, pode-
se dizer que Mineração de Dados é uma das fases do DCBD, talvez a fase mais importante,
mas Mineração de Dados não é sinônimo de DCBD.
O termo Mineração de Dados se refere especificamente à execução de algoritmos de
reconhecimento de padrões sobre uma base de dados anteriormente preparada. O resultado
deste processamento deve ser então avaliado, e identificados eventuais padrões que podem se
tornar úteis para a aquisição de conhecimento.
O processo de DCBD é mais abrangente, considera a origem dos dados, a sua
formatação inicial, a sua qualidade, a necessidade de pré-processamento dos dados, o contexto
onde estes estão inseridos, a definição dos métodos mais adequados de Mineração de Dados,
a avaliação dos eventuais padrões obtidos e a sua utilidade na geração de conhecimento sobre
a base de dados original. É também cíclico, devendo ser repetido tantas vezes quanto for
necessário para a obtenção de resultados satisfatórios.
Segundo Usama Fayyad, “DCBD é um processo interativo e repetitivo, envolvendo
numerosos passos com muitas decisões tomadas pelo usuário” [FAYYA96].
A figura a seguir identifica as principais etapas do processo de DCBD.
56
2.3.3.1 Seleção
ser um processo cíclico, executado tantas vezes quanto for necessário para a obtenção de
conhecimento a partir da base de dados investigada. Os sucessivos aprimoramentos do
conjunto de dados tratado, e o constante aprendizado dos analistas a partir da manipulação da
base de dados podem propiciar um resultado final satisfatório.
2.3.3.2 Pré-processamento
2.3.3.3 Transformação
Para que seja produtivo o processo de obtenção de padrões, uma série de modificações
dos dados das tabelas de origem podem ser implementadas. Atributos redundantes devem ser
eliminados, evitando-se assim desperdício de recursos com o processamento de dados não
relevantes.
A padronização de variáveis também é necessária, para evitar erros de interpretação e
desvio na obtenção dos padrões. Por exemplo, uma determinada coluna pode ter como
domínio o conjunto {1, 2, 3} representando, respectivamente, “ensino fundamental”, “ensino
médio”, “ensino superior”. Outra coluna pode ter os valores {F, M, S}, para representar o
mesmo conjunto “ensino fundamental”, “ensino médio”, “ensino superior”. Assim, faz-se
necessário definir um único padrão para a representação deste conjunto de valores, alterando
as tabelas para representá-lo de maneira consistente.
Usama Fayyad propõe ainda, para esta fase, a utilização de técnicas para a redução de
dados e para a projeção [FAYYA96]. Este passo envolve transformação dos dados dentro de
formas mais apropriadas para os métodos de Mineração de Dados. Estas transformações
podem incluir reduções de passos de dimensionalidade - substituindo alguns campos com um
campo derivado - ou redução de dados - mapeando múltiplos registros para uma simples
entidade e derivando os resultados dentro de conjuntos de registros. Também podem ser
adicionados novos registros julgados relevantes para o problema.
das informações obtidas para a geração de conhecimento efetivo a partir dos dados avaliados.
Nesta etapa, é avaliado o conjunto de padrões em função dos objetivos iniciais, decidindo
quais deles são interessantes, para conseqüentemente interpretá-los de maneira que se tornem
legíveis para os usuários finais do sistema, bem como torná-los acessíveis para as aplicações
que deverão utilizá-los.
Como o processo de Descoberta de Conhecimento em Bases de Dados é cíclico, esta
etapa pode indicar a necessidade de se repetir qualquer outra das etapas anteriores, até a
obtenção de resultados satisfatórios [FAYYA96].
Após a realização de todas as iterações que se fizerem necessárias, os resultados
considerados positivos devem ser incorporados ao sistema, consolidando o conhecimento
obtido depois de todas as etapas anteriores.
estruturadas, pois normalmente são inseridos nestas bases em sua forma original. Somente
seriam considerados estruturados se as informações que contêm fossem decompostas em
colunas específicas com um domínio bem caracterizado.
Do ponto de vista metodológico, os processos envolvidos na Descoberta de
Conhecimento em Textos são muito semelhantes aos processos de Descoberta de
Conhecimento em Bases de Dados. A diferença básica é que as técnicas e ferramentas devem
ser aplicadas sobre o conjunto de documentos textuais a ser estudado e não sobre itens de
bancos de dados [LOH01].
Assim, serão relacionadas aqui as mesmas etapas propostas por Fayyad at al
[FAYYA96], com as devidas observações quando da aplicação em conjuntos de dados
textuais. Serão acrescentadas, entretanto, técnicas propostas por outros autores e que podem
ser consideradas complementares ao trabalho de Fayyad, as quais são adequadas às
especificidades encontradas no tratamento de informações armazenadas em conjuntos de
textos.
2.4.1.1 Seleção
O processo de DCT tem início na definição do conjunto de textos que deverá ser
utilizado para a execução do trabalho. Esta é uma etapa fundamental para todo o processo.
Os objetos de estudo podem estar armazenados em diversos formatos, sejam
arquivados em papel, sejam em arquivos de formatação livre nos diversos sistemas de
arquivos hoje utilizados, sejam em arquivos de sistemas processadores de texto, sejam em
bancos de dados em colunas específicas para informações textuais.
Nesta etapa deve-se identificar informações que possam ser relevantes para o estudo,
discriminando seu conteúdo, descrição, qualidade e utilidade. É necessário mapear a
localização, o formato e o estado dos documentos que serão processados, considerando a
propriedade, os esforços a serem empreendidos e a oportunidade da utilização de cada um
deles em função do custo-benefício da operação.
Como acontece nos processos de Descoberta de Conhecimento em Bases de Dados,
esta tarefa de identificação de padrões também é muito dependente da decisão de analistas
humanos, e do seu conhecimento do assunto que estará sendo pesquisado. Um documento
desprezado nesta fase pode ser exatamente aquele que contém a maior riqueza de informações
sobre o assunto tratado. Assim, a DCT também é um processo cíclico, executado tantas vezes
quanto for necessário para a obtenção de conhecimento a partir do conjunto de documentos
61
2.4.1.2 Pré-processamento
2.4.1.3 Transformação
Esta etapa tem por objetivo realizar operações sobre os objetos estudados para que
possa ser mais eficiente a etapa posterior de mineração de texto. Segundo Wives [WIVES00],
diversas técnicas podem ser utilizadas para tornar os objetos textuais mais adequados para o
processamento posterior, tais como:
a) A estruturação do documento, considerando com peso maior palavras presentes em
títulos, subtítulos, notas de explicação [Cow 96 apud WIVES99]. Entretanto, esta
técnica pode ser considerada uma etapa adicional, e por demais custosa, caso o
documento não seja originalmente estruturado.
b) A adaptação de vocabulário, com a utilização de sinônimos. A utilização desta
técnica facilita as tarefas de agrupamento, uma vez que palavras consideradas
diferentes a partir da grafia, depois de substituídas, podem representar um peso
maior quando submetidas aos algoritmos de identificação de freqüência.
c) A eliminação de diferenças morfológicas de uma mesma palavra – singular e
plural, masculino e feminino, entre outras. Hwee Ng propõe uma técnica que
identifica os radicas das palavras, unificando o vocabulário [NG97]. Entretanto, a
utilização destes recursos pode tornar os documentos muito abrangentes, já que as
palavras podem ficar muito semelhantes entre si.
d) A retirada de caracteres especiais, tornando as palavras mais simples. Esta técnica
pode auxiliar ainda na eliminação de erros de grafia pela utilização de caracteres
acentuados, bem como aumentar a padronização do texto.
e) A transformação de todos os caracteres para um mesmo padrão quanto à utilização
de letras maiúsculas e minúsculas. Assim, uma mesma palavra não corre o risco de
ser considerada por diferenças de tipo de grafia em caixa alta ou caixa baixa.
63
2.5.1.1 Agrupamento
2.5.1.2 Classificação
As Redes Neuronais Artificiais podem ser definidas como uma técnica que procura
simular a inteligência humana. Segundo Laurene Fausset:
71
Neurais Artificiais utilizam arquiteturas diferentes para tipos diferentes de tarefas [BRASI02].
A figura a seguir ilustra a semelhança entre um neurônio biológico e um neurônio artificial.
O neurônio artificial tem sua inspiração no modelo natural, tentando imitar o seu
funcionamento através de funções matemáticas e algoritmos computacionais. O neurônio
artificial é um modelo simplificado, em vista da complexidade do sistema nervoso biológico,
e a sua compreensão incompleta mesmo após os grandes avanços da medicina.
As RNA são formadas por neurônios artificiais, sendo que cada um pode receber uma
ou mais entradas, processa as informações recebidas e gera uma única saída. A entrada pode
vir de tipos de dados naturais ou ainda vir da saída de outros neurônios, bem como a saída
pode representar a resolução final do problema, ou pode ser a entrada para outro neurônio. Os
neurônios, em uma RNA, são agrupados em camadas, sendo a primeira camada a que recebe
os dados externos, a ultima camada a responsável pelos dados de saída, e, entre estas, uma ou
mais camadas intermediárias. A figura a seguir mostra em exemplo de uma RNA com uma
camada intermediária [BRASI02].
73
dos fatos pesquisados, a segunda técnica apresenta bons resultados em tarefas de explanação,
mas restringe-se a “particionamentos” lineares do espaço de entrada.
Como exemplos de propostas de sistemas híbridos, podem ser citados:
a) Modelo Neural Combinatório – MNC: entende-se por Modelo Neural
Combinatório uma rede neural capacitada para operações de classificação. O
treinamento dessa rede pode ser feito através de um algoritmo baseado em
backpropagation9, utilizando punições e recompensas. O MNC integra os
paradigmas simbólico e conexionista, e utiliza aprendizado supervisionado em
uma topologia feedforward com as seguintes características: uma camada de
entrada, uma camada combinatória e uma camada de saída [PRADO98]. Os
neurônios são conectados através de arcos ou sinapses.
9
Backpropagation: é a base para o treinamento de uma rede neural supervisionada. Depois que os padrões de
entrada são processados pela rede, os resultados obtidos são utilizado como parâmetros para ajustá-la.
76
10
Aprendizagem de Máquina: do inglês Machine Learning, é um ramo da Inteligência Artificial que estuda
algoritmos que permitam aos computadores efetivar aprendizado a partir de exemplos anteriores e estímulos
(entradas) no sistema.
77
2.5.6.1 Estrutura
PACOTE DESCRIÇÃO
PACOTE DESCRIÇÃO
determinado valor, o número de instâncias com alguns
valores ausentes.
O WEKA define um padrão de entrada específico que deve ser obedecido para o
correto processamento das informações. É um arquivo com extensão .ARFF, dividido
basicamente em três partes:
a) O nome a ser atribuído ao trabalho de mineração correspondente àquele arquivo. É
precedido pelo rótulo @RELATION.
b) Descrição dos atributos: nesta seção, devem ser relacionados todos os atributos
que serão processados. Podem ser descritos alguns níveis de detalhamento. É
precedido pelo rótulo @ATTRIBUTE.
c) Seqüência de dados: são os dados que serão processados. Cada linha contém
valores para os atributos relacionados em (b). Inicia com uma linha com o rótulo
@DATA.
Na figura a seguir é mostrado um exemplo de um arquivo de entrada do WEKA.
80
@RELATION Producao_Grupo_Tipo_0001
@data
"André Fernando da Silva Nobre",nao,nao,nao,nao,sim,nao,1
"Bruno Pacheno Novais Clemente",nao,nao,nao,nao,sim,nao,1
"Carlos Campos Silveira Brito",nao,nao,nao,nao,sim,nao,1
"Douglas Cerqueira Silva Pacheco Meireles",nao,nao,nao,nao,sim,nao,1
"Edimária Vanessa da Silva Soares",nao,nao,nao,nao,nao,sim,1
Este tipo de arquivo pode ser gerado a partir de ferramentas dos principais bancos de
dados, que permitem a criação de listas separadas por um determinado caractere, neste caso, a
vírgula.
2.5.6.3 Algoritmos
O WEKA implementa uma série de algoritmos especialistas que podem ser utilizados
em tarefas de mineração de dados. Estes algoritmos são organizados em pacotes específicos:
a) Associations
b) Classifiers
c) Clusteres
Associations
As regras de associação são utilizadas na tentativa de se encontrar relacionamentos
significativos entre informações de mesma natureza. Estas bases de dados estão se tornando
cada vez mais extensas, o que demanda a utilização de algoritmos eficientes para viabilizar a
pesquisa em um tempo aceitável.
Para a tarefa de estabelecer regras de associação, o WEKA implementa o algoritmo
Apriori. Este algoritmo foi proposto por Agrawal e Srikant [AGRAW94] em 1994, na
intenção de proporcionar uma maneira mais eficiente de percorrer bases de dados e gerar
regras de associação.
81
Classifiers
O objetivo das rotinas de classificação é associar uma determinada instância a uma
classe. Estas rotinas têm por resultado, normalmente, árvores de decisão ou um conjunto de
regras que definam os critérios necessários para realizar a associação do item considerado
com a classe adequada.
O WEKA implementa vários algoritmos de classificação, relacionados na figura a
seguir [WITTE99]:
Clusteres
O WEKA oferece também um pacote que contém algoritmos de agrupamento,
chamado weka.clusteres. A figura abaixo relaciona as classes implementadas [WITTE99]:
weka.clusterers.Cobweb
weka.clusterers.EM
weka.clusterers.SimpleKMeans
Figura 14: algoritmos de agrupamento do WEKA
2.5.6.4 Interface
Assim como na Mineração de Dados, o conceito de tarefas básicas pode ser aplicado à
Mineração de Texto.
2.6.2.1 Agrupamento
Segundo Wives:
O objetivo do agrupamento de informações textuais é separar uma série de
documentos dispostos de forma desorganizada em um conjunto de grupos
que contenham documentos de assuntos similares [WIVES99].
2.6.2.2 Classificação
Os documentos que o Eurekha analisa podem ser das origens mais variadas, uma vez
que a ferramenta foi construída para utilizar textos não formatados e sem uma estrutura
padrão. Isto permite que sejam analisadas inclusive páginas da Web [VARGA00].
O Eurekha apresenta algumas funções que permitem uma análise de conteúdo de uma
coleção de documentos, como uma análise lexical, onde são relacionadas as palavras contidas
em cada documento e seus respectivos valores de freqüência e relevância. Também podem ser
listadas as palavras mais relevantes de um determinado agrupamento, normalmente as que são
determinantes para a classificação do documento em determinado agrupamento.
O aplicativo oferece também uma considerável lista de palavras que podem ser
consideradas “palavras negativas”, ou stop words. Estas palavras normalmente têm caráter
genérico, e não agregam sentido no contexto da pesquisa, devendo ser desprezadas. Assim, o
Eurekha já traz cadastrados conjuntos de stop words, tais como advérbios, pronomes,
preposições, artigos, numerais cardinais e ordinais, entre outras. É possível ainda definir
grupos de stop words que sejam relacionados ao assunto pesquisado. A figura a seguir
apresenta a janela de escolha dos grupos de stop words do Eurekha.
90
F abs x
Frel x = (1)
N
∑ gih(a, b)
gs ( X , Y ) = h =1
(2)
n
onde:
a) gs é o grau de similaridade entre os documentos X e Y;
b) gi é o grau de igualdade entre os pesos do termo h (peso a no documento X e peso
b no documento Y);
c) h é um índice para os termos comuns aos dois documentos;
d) k é o número total de termos comuns aos dois documentos;
e) n é o número total de termos nos dois documentos, sem contagem repetida.
(3)
onde:
Na fórmula (2) é utilizado um contador incrementado a cada vez que uma palavra é
encontrada nos dois documentos comparados. A fórmula (3) é utilizada para introduzir um
fator qualitativo no cálculo, estabelecendo pesos a partir da freqüência relativa do termo nos
dois documentos.
Ao final do processo, obtém-se uma matriz de similaridade onde os valores variam no
intervalo [0,1], o valor [0] indica documentos sem nenhuma semelhança, e o valor [1] indica
documentos muito similares [WIVES99].
As declarações são atos lingüísticos que, de forma muito mais eloqüente, alteram o
ambiente em que se inserem o observador declarante com os que com ele estão associados no
contexto em que se dá a declaração. As declarações se pautam na autoridade que o
observador declarante tem para proferi-las, e, ao fazê-lo, estabelece uma nova realidade a
partir de sua declaração. Com as declarações, ao contrário das afirmações, “o mundo segue a
palavra”.
A tabela a seguir descreve sumariamente conceitos relacionados às afirmações e às
declarações[ECHEV99]:
Tabela 4: Sobre afirmações e declarações
AFIRMAÇÕES DECLARAÇÕES
• Observador relata o que observa. • Observador gera novos contextos através do falar.
• A palavra segue o mundo. • O observador opta, toma decisões.
• Podem ser: • O mundo segue a palavra.
− Falsas ou verdadeiras de acordo com a • Podem ser: válidas ou inválidas, de acordo com a
evidência que se prove seja aceita pelos autoridade conferida a quem as profere.
demais;
− Relevantes ou irrelevantes de acordo com
nossas inquietações.
COMPROMISSO COMPROMISSOS
• Quando afirma, o observador assume o • Quando declara, o observador assume os seguintes
compromisso de que suas afirmações são compromissos:
verdadeiras. − Que suas declarações sejam válidas (ou seja, que
tenha autoridade para fazê-las).
− Que atuará de forma consistente com o que
declara.
Elementos Orador
Ouvinte
Ação
Fator tempo
Cumprir a promessa
ITEM COMPONENTE
2.7.2 Juízos
Juízos pertencem à classe das declarações. Como toda declaração, os juízos podem
ser: válidos ou inválidos, de acordo com a autoridade conferida a quem os faz. Além disso, os
juízos podem ser ainda: fundamentados ou não-fundamentados (ou fundados ou infundados),
de acordo com as ações executadas no passado que são utilizados para respaldá-los.
Juízos são como bússolas para o futuro. Quando se estabelecem juízos, utiliza-se no
presente experiências do passado como guia para o futuro. Por exemplo, toma-se a
declaração: Miguel é uma pessoa sensata. A partir de alguma observação do passado - Miguel
realizou algo no passado - emite-se a declaração que Miguel se mostra, aqui e agora, no
presente, uma pessoa sensata. Então, podem-se esperar, no futuro, atitudes sensatas de
Miguel.
Fundamentação de juízos
a) Definir com qual propósito se estabelece o juízo: sempre existe um motivo para a
emissão de um juízo. Quando é emitido, abrem-se ou fecham-se possibilidades no
futuro. Por exemplo: quando é emitido o juízo “Mário é um executivo eficiente”
antecipam-se algumas ações no futuro, como a delegação a Mário de tarefas
relevantes que somente pessoas eficientes podem cumprir.
95
CAPÍTULO 3
3 METODOLOGIA
Plataforma Lattes, respectivamente: definição do perfil dos docentes que orientam alunos de
iniciação científica, a partir de informações sobre concessões de bolsas do PIBIC – Programa
de Institucional de Bolsa de Iniciação Científica; e geração de agrupamentos para a
identificação de linhas de pesquisa em uma universidade a partir de informações sobre
publicações de seus pesquisadores e docentes, a partir dos títulos das publicações e de suas
palavras-chave.
A revolução tecnológica e o grande avanço nas áreas de pesquisa estão gerando, cada
vez mais, linhas de trabalho e pesquisa que abrangem uma grande variedade de assuntos.
Os gestores de programas de graduação e pós-graduação nas instituições de ensino,
bem como os gestores de unidades de pesquisa, geralmente necessitam de informações sobre
as áreas de atuação e áreas de interesse de seus colaboradores, no intuito de aproveitar melhor
o potencial criativo do grupo para o desenvolvimento dos trabalhos de educação e pesquisa.
Procurando contribuir com a geração de conhecimento organizacional sobre essa
questão, este estudo de caso buscou identificar, a partir de técnicas de Mineração de Textos,
as principais linhas de pesquisa de um determinado conjunto de docentes e pesquisadores, a
partir de exploração das informações armazenadas no Currículo Lattes.
Foram utilizadas informações sobre os trabalhos científicos e tecnológicos do grupo de
professores do programa Mestrado em Gestão do Conhecimento e da Tecnologia da
Informação da Universidade Católica de Brasília, armazenados na base de dados da
Plataforma Lattes, utilizando-se os títulos dos trabalhos e publicações, suas palavras-chaves e
as áreas de interesse cadastrados no Currículo Lattes.
99
Organização e armazenagem
A etapa posterior à seleção e validação do conhecimento é a sua organização e
armazenagem, para permitir que o conhecimento capturado ou gerado seja preservado para a
sua posterior utilização pelos componentes da instituição.
A formalização do conhecimento capturado ou gerado tem por objetivo ainda
possibilitar uma recuperação rápida, fácil, correta e segura deste conhecimento.
Apesar de não ser uma obrigatoriedade, a utilização de ferramentas da Tecnologia da
Informação é importante para a organização e o armazenamento do conhecimento obtido.
Para isso, os seguintes itens deverão ser observados:
a) Classificar o conhecimento anteriormente avaliado e selecionado.
b) Definir a arquitetura de Tecnologia da Informação que serão utilizadas.
c) Definir as ferramentas de Tecnologia da Informação que poderão ser utilizadas ou
construídas para o armazenamento, manutenção e disponibilização do
conhecimento.
d) Criar e gerenciar os bancos de dados que armazenarão o conhecimento
formalizado.
Compartilhamento
Para que possa ser convertido em vantagens competitivas para a organização, o
conhecimento deve ser tratado de forma que possa ser compartilhado entre os membros desta
organização. Entretanto, a prática demonstra, em geral, que muitas informações e
conhecimento ficam restritos a pequenos grupos de indivíduos.
Novamente, a importância de se utilizar de recursos da Tecnologia da Informação é
salientada, no intuito de se permitir que o conhecimento organizacional esteja disponível para
a utilização por todos os que dele vierem necessitar.
105
Aplicação
O objetivo do processo de Descoberta de Conhecimento é a possibilidade de aplicação
prática dos conhecimentos criados ou apreendidos. Não basta que estes sejam descobertos,
selecionados, avaliados, armazenados, distribuídos. Não gerarão nenhuma vantagem
competitiva se não forem efetivamente aplicados nas atividades da organização.
Para tal, é necessário que as organizações se empenhem no sentido de utilizar o
conhecimento organizacional para produzir benefícios concretos, na melhoria do desempenho,
no lançamento de novos produtos, na conquistas de novos mercados, no atendimento
satisfatório de seus clientes [STOLL01].
É importante observar que a própria aplicação do conhecimento organizacional pode
gerar mais conhecimento para a organização, se este processo for devidamente registrado,
avaliando-se objetivamente os ganhos obtidos, as dificuldades encontradas, os benefícios
alcançados. É um processo cíclico que pode aumentar continuamente o conhecimento da
organização.
Para este estudo de caso, foi escolhida uma avaliação do perfil dos orientadores de
alunos de orientação científica do PIBIC – Programa Institucional de Bolsa de Iniciação
Científica.
A partir de uma necessidade prática dos gestores do programa no CNPq, buscou-se
identificar, através da aplicação de técnicas de Descoberta de Conhecimento em Bases de
Dados, o perfil dos orientadores do PIBIC que obtiveram os melhores resultados junto aos
seus alunos participantes do programa.
As informações necessárias para a condução do estudo de caso foram obtidas da base
de dados da Plataforma Lattes, dos sistemas de Fomento do CNPq e da base de dados de
alunos titulados da CAPES.
Os dados originais se encontravam armazenados em bases de dados relacionais Oracle
8i, instaladas em servidores Sun Microsystems.
As ferramentas utilizadas para a extração e manipulação dos dados foram:
a) Oracle SQL*PLUS
b) Linguagem de programação Oracle PLSQL
c) Editor de textos vi
106
3.4.2.1 Seleção
A partir das definições sobre o conjunto de dados que seria utilizado, o trabalho de
seleção se constituiu em um esforço para coletar o conjunto de registros necessários a partir
das tabelas relacionais dos Sistemas de Fomento, da Plataforma Lattes e da base de alunos
titulados da CAPES.
Do sistema de controle das operações de Fomento do CNPq foram extraídas as
informações a respeito das bolsas de PIBIC concedidas no período de 1994 a 1999. Estes
dados foram coletados a partir das tabelas relacionais PROCESSOS e
ORIENTADORES_PROCESSOS.
107
1996 13.963
1997 15.433
1998 16.902
1999 16.555
2000 16.403
2001 18.045
2002 17.645
2003 15.506
TOTAL 130.452
1996 13.509
1997 15.637
1998 16.745
1999 20.243
2000 23.724
2002 45.503
TOTAL 135.361
3.4.2.2 Pré-processamento
A partir dos dados obtidos na etapa de seleção, foram geradas tabelas de trabalho com
as informações necessárias ao estudo de caso. Estas tabelas contêm as informações de
detalhes dos processos de PIBIC, os códigos dos orientadores e alunos, as informações
curriculares dos orientadores, enfim, os dados necessários para a montagem dos arquivos de
entrada para a ferramenta de mineração de dados.
Como o foco inicial é no orientador, os dados foram organizados e modelados
considerando o código do orientador como chave principal. Este formato viria a facilitar as
etapas posteriores de transformação e mineração de dados.
Uma das atividades desta etapa é a seleção de colunas das tabelas principais. Para a
geração das tabelas de trabalho, foram selecionadas apenas as colunas que traziam as
informações consideradas necessárias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados trabalhados, com reflexos positivos no tempo de processamento.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de ruído, ou seja, alguma inconsistência. Foram encontrados alguns
registros com datas incoerentes, mas, em geral, a qualidade dos dados de entrada foi
considerada satisfatória. Esta boa qualidade dos dados decorreu da utilização de restrições de
entrada implementadas tanto no nível do banco de dados quanto no nível da aplicação,
diminuindo consideravelmente a necessidade de aplicação de algoritmos para a redução de
ruídos nesta etapa.
109
Nesta etapa foi ainda realizado um trabalho para identificar os bolsistas do programa
de bolsa de iniciação científica que constavam da base de titulados da CAPES. Como as bases
de dados do CNPq e da CAPES não são originalmente integradas , foi necessário utilizar de
algoritmos de comparação textual para incrementar a qualidade da pesquisa. O primeiro passo
foi efetuar uma pesquisa a partir do nome dos alunos. Para aumentar o número de acertos, foi
utilizada uma rotina para eliminar caracteres especiais e excessos de espaços das colunas de
nome nas tabelas envolvidas. A seguir, todos os nomes tiveram seus caracteres transformados
em letras maiúsculas.
Para evitar problemas com homônimos, foi utilizada a coluna da tabela da CAPES que
traz informações sobre um documento de identificação do aluno, utilizando esta para
comparar com as informações armazenadas na base de dados do CNPq. Ao final deste
trabalho, foram identificados 7.325 ex-bolsistas do programa de bolsas de iniciação científica
que constavam da base de dados de alunos titulados da CAPES.
1996 127
1997 180
1998 485
1999 1.158
2000 2.007
2002 3.368
TOTAL 7.325
3.4.2.3 Transformação
Uma vez escolhidas as tabelas e as colunas necessárias para o estudo a ser realizado,
fez-se necessário efetuar uma série de alterações nos dados, tanto na sua forma de
apresentação quanto no conteúdo de algumas colunas. Foram realizadas:
a) Totalizações por orientador: para utilização da ferramenta de mineração de dados,
foi necessário transformar informações sobre a produção científica e tecnológica
em colunas que representam quantidade. As tabelas originais, segundo sua
modelagem, armazenam um registro para cada produção cadastrada. Este formato
110
11
Discretização de variáveis: processo que consiste em estabelecer faixas de valores para itens excessivamente
granulares.
111
@RELATION Orientadores_0015
@data
0000849502,N,Nivel_tecnico,999,43,M,40-50,9,1,0,0,0,0,0,0,10,1,6,?,BM
0000858587,N,Nivel_tecnico,999,55,M,50-60,4,0,0,0,0,0,0,0,0,0,4,?,FR
0000009890,S,Pos-doutorado,4,53,F,50-60,4,0,1,1,1,5,2,0,0,0,4,1-10,FR
0000088129,S,Doutorado,3,54,F,50-60,8,0,1,8,0,4,1,0,0,0,6,1-10,OT
0000088137,S,Doutorado,23,57,M,50-60,13,2,0,14,1,0,12,0,10,2,7,20-30,BM
Esta etapa demandou um considerável esforço, uma vez que foram necessárias
sucessivas operações de transformação de dados. Ao final desta, obteve-se como resultado as
tabelas temporárias carregadas e transformadas e os arquivos de entrada do WEKA gerados.
Uma vez que a base de dados estava consolidada e preparada para gerar os arquivos no
formato do aplicativo que seria utilizado para a mineração de dados, passou-se à etapa de
mineração propriamente dita.
Para tal, foi necessário gerar um arquivo no formato definido pela ferramenta, onde
cada registro contém informações consolidadas do fato que se deseja estudar. Como o foco da
pesquisa é orientador de iniciação científica, os registros foram agrupados pela chave do
orientador.
A partir dos dados consolidados, utilizou-se o aplicativo WEKA para realizar diversas
sessões de mineração de dados. Foi escolhido o algoritmo de classificação J48, que gera
árvores de decisão, utilizadas para o processo de classificação das informações.
Após a etapa de mineração, Fayyad [FAYYA96] propõe uma etapa onde o produto
final é interpretado e avaliado com o objetivo de identificar os resultados potencialmente úteis
para a organização.
Por questões de organização deste trabalho, esse assunto será tratado no capítulo
seguinte.
Para este estudo de caso, foi realizada uma análise da produção científica e
tecnológica dos docentes do programa MGCTI – Mestrado em Gestão do Conhecimento e da
Tecnologia da Informação da Universidade Católica de Brasília, a partir das informações
cadastradas no Currículo Lattes, com o objetivo de identificar as linhas de pesquisa destes
docentes. A partir desta identificação, gerar conhecimento organizacional para ser utilizado na
geração de políticas de gestão do referido programa.
113
3.4.3.1 Seleção
A partir das definições sobre o conjunto de dados que seria utilizado, o trabalho de
seleção se constituiu em um esforço para coletar o conjunto de registros necessários a partir
das tabelas relacionais do Currículo Lattes, bem como obter as informações institucionais
necessárias sobre os docentes a partir de consultas ao setor de administração de pessoal da
Universidade Católica de Brasília.
114
Docentes 22 DOCENTES
3.4.3.2 Pré-processamento
A partir dos dados obtidos na etapa de seleção, foram geradas tabelas de trabalho com
as informações necessárias ao estudo de caso. Estas tabelas contêm as informações
curriculares dos orientadores, e detalhes sobre a sua produção científica e tecnológica, dados
necessários para a montagem dos arquivos de entrada para a ferramenta de mineração de
texto.
115
Uma das atividades desta etapa é a seleção de colunas das tabelas principais. As
tabelas de trabalho foram reestruturadas, mantendo somente as colunas que traziam as
informações consideradas necessárias para o estudo de caso. Este processo tem por objetivo
reduzir o volume de dados manuseado, com reflexos positivos no tempo de processamento e
na complexidade do conjunto de informações tratado.
Foram tratados ainda, nesta etapa, os registros cujas colunas selecionadas
apresentavam algum tipo de ruído, ou seja, alguma inconsistência. Em geral, a qualidade de
dos dados de entrada foi considerada satisfatória. Esta boa qualidade dos dados decorreu da
utilização, pelos sistemas de origem, de restrições de entrada implementadas tanto no nível do
banco de dados quanto no nível da aplicação, diminuindo a necessidade de aplicação de
algoritmos para a redução de ruídos.
Outras tarefas cumpridas nesta etapa:
a) Formatação para preparar os documentos com um único padrão: a entrada de
dados para a ferramenta Eurekha, utilizada na etapa de mineração de textos, são
arquivos textuais, sem a necessidade de uma estruturação prévia. Assim, os dados
que seriam utilizados foram formatados nas tabelas de trabalho de maneira a
facilitar a geração destes arquivos de texto.
b) Eliminação de linhas e caracteres de controle: os arquivos de texto foram gerados a
partir das tabelas de trabalho sem a existência de caracteres de controle, exceto o
caractere de fim de linha. Outros controles, como definição de parágrafos, tabelas,
tabulações, entre outros, não foram utilizados.
c) Criação de uma lista de palavras negativas: com o objetivo de remover dos textos
gerados palavras que não agregam significado especial, foram geradas listas de
palavras negativas (stop words), e acrescentadas ao conjunto de listas de palavras
negativas já existentes no Eurekha. Estas novas listas geradas dizem respeito ao
conjunto de dados pesquisado, e foram identificadas tanto anteriormente à primeira
execução das rotinas de mineração de texto, quanto incrementadas após a obtenção
dos primeiros resultados. Como o processo Descoberta de Conhecimento em
Textos é cíclico, após cada execução das tarefas de agrupamento procurava-se
identificar novas palavras candidatas à listas de palavras negativas, buscando
evidenciar o conjunto de palavras que realmente poderia acrescentar sentido ao
conjunto de textos pesquisado. A seguir, são relacionadas as principais palavras
negativas identificadas:
116
3.4.3.3 Transformação
Com o objetivo de tornar os textos que seriam gerados mais adequados para o
processamento posterior de mineração, os registros das tabelas de trabalho foram submetidos
a alguns processos de transformação, conforme segue:
a) Adaptação do vocabulário: esta tarefa teve como objetivo a substituição de
palavras semelhantes, ou de mesmo significado, por um único termo que
representasse o significado de todas elas. Este processo tem conseqüências diretas
no tempo de processamento e na qualidade dos grupos formados, uma vez que
aumenta a repetição de uma determinada palavra que expressa o significado de
todas as que foram substituídas, reduzindo o universo de palavras tratadas, bem
como passando a ter um peso maior na identificação dos grupos. Para viabilizar
esta tarefa foi construída uma rotina no banco de dados, composta por uma tabela
117
Criação de projeto
Criação de um novo projeto na tela inicial da ferramenta, ou a abertura de um projeto
criado anteriormente.
119
sua produção científica e tecnológica cadastradas no Currículo Lattes com data entre 1998 e
1999, extraídas da base de dados de trabalho, a qual representa os resultados das etapas
anteriores de seleção, pré-processamento e transformação.
Depois de todos os ajustes considerados necessários, como adequação do dicionário de
sinônimos e das listas de palavras negativas, obteve-se o seguinte resultado para este conjunto
de arquivos:
d) Os padrões de julgamento
Avaliados à luz destes itens, os resultados das etapas anteriores de Descoberta de
Conhecimento podem constituir-se em novos conhecimentos organizacionais devidamente
constituídos, resultados de uma análise sistemática.
Os resultados desta etapa serão tratados no Capítulo 4.
130
CAPÍTULO 4
conhecer com maior profundidade o conjunto de informações que se tem disponível sobre os
bolsistas, sobre os orientadores e sobre o processo de concessão de bolsas de uma maneira
geral.
A partir destes novos conhecimentos adquiridos no decorrer do processo, foi possível
obter outros resultados, descritos a seguir:
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0 1000 2000 3000 4000 5000 6000 7000 8000
1 2 3 4 5 6 7 8 9 10 11 12 13 14
35000
30000
25000
20000 Orientadores
15000 Bolsistas
10000
5000
0
1 2
6
Alunos titulados
4
0 100 200 300 400 500 600 700 800 900 1000 1100
0 1 2 3 4 5 6 7
Qtd. Orientadores 1073 673 363 136 50 12 4 2
25%
41%
01-10
42%
Feminio 10-20
75%
Masculino 20- 30
34%
42%
66%
58%
27%
42%
19%
5%
Artigo
73% 3%
Trabalhos em eventos
17% Livro publicado
Capit ulo de livro
Est adual
Orient açao - dissertação
Federal Orient ação - t ese
12
Palavras negativas (stopwords): conjunto de palavras consideradas não representativas no processo de
mineração de texto (e.g.: advérbios, numerais, conjunções, artigos).
13
Centróides: são os itens mais representativos que caracterizam determinado agrupamento.
136
Total
12
11
10
8
Tipo de Produção
Apresentação de Trabalho
Artigo publicado em periódicos
6 6
Demais trabalhos relevantes
Livro ou capítulo de livro
5
Trabalhos técnicos
4 4 4 4
3 3 3 3
2 2 2 2
1 1 1
0
1998 1999 2000 2001 2002 2003
ANO_
Total
90
80
77
70
64
60 Tipo de Produção
Dissertação de mestrado
50
Participação em banca de trabalhos de
conclusão
40 Participações em eventos
39
Trabalho publicado em anais de evento
32
30
27
22
20
10 10 9 9
8
6
5 6
3 4
2 1 1
0
1998 1999 2000 2001 2002 2003
ANO_
Soma de QTDE
100%
80%
60%
73 143
8 39 CATEGORIA
25
Nacional
Internacional
40%
7
20%
13 29
1 5
2
0%
1998 1999 2000 2001 2002 2003
ANO
Propósito da pesquisa
Desejando identificar as vocações do MGCTI, surgiu a oportunidade de verificação
das linhas de produção dos docentes que participam do programa. A partir das informações
sobre a produção científica e tecnológica contida no Currículo Lattes, decidiu-se utilizar estes
dados para relacionar os docentes entre si, com o objetivo de identificar áreas de afinidade.
Assim, o propósito desta avaliação é identificar as linhas de pesquisa possíveis, a
partir da produção de cada docente.
Domínios
Os principais domínios considerados na avaliação foram:
a) Espaço das publicações (nacionais ou internacionais)
b) Idioma de publicação
140
Padrões de julgamento
a) Qualis Multidisciplinar da CAPES
b) Qualidade dos eventos
c) Tipo de eventos
Afirmações de suporte
a) Os agrupamentos resultantes dos processos de mineração de texto passaram de
dois para quatro do período inicial para o período final avaliado.
b) Os números da produção científica e tecnológica do MGCTI cresceram ano a ano.
c) Apesar de pequeno, ocorreu um aumento no percentual de publicações e
participações em eventos internacionais.
d) Algumas publicações ocorreram em veículos citados no Qualis14 Multidisciplinar.
14
Qualis: lista com a classificação dos veículos utilizados pelos programas de pós-graduação para a divulgação
dos resultados da produção científica e tecnológica de seus alunos e professores, elaborado pela CAPES –
Coordenação de Aperfeiçoamento de Pessoal de Nível Superior do Ministério da Educação.
141
REFERÊNCIAS BIBLIOGRÁFICAS
[AGRAW94] AGRAWAL, R., SRIKANT, R. Fast Algorithms for Mining Association Rules.
IBM Research Report RJ 9839. IBM Almaden Research Center, Junho
de 1994
[CHEN96] CHEN, Ming-Syan, HAN, Jiawei, YU, Philip S. Data mining: an overview
from a database perspective. IEEE Transactions on Knowledge and Data
Engineering, v. 8, n.6, p.866-883, dez. 1996.
[DRUCK94] DRUCKER, Peter F. The Age of Social Transformation, The Atlantic Monthly,
Boston, United States
Disponível em:
http://www.theatlantic.com/politics/ecbig/soctrans.htm#Drucker
Acesso em: 15 out. 2003
[ECHEV99] ECHEVERRÍA, Rafael. La Ontologia del Lenguaje, Chile, Dólmen, 408 pp.
1999.
[GRECO02] GREGO, Maurício A Petrobras doma seus terabytes, InfoExame, São Paulo:
ano 18, n. 203, p. 78-79, fev. 2003.
[UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo.
Visitado em 30/03/2003
Disponível em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[LOH01] LOH, Stanley, REATEGUI, Eliseu, WIVES, Leandro Krug, OLIVEIRA, Jose
Palazzo Moreira de, GAMEIRO, Maurício Almeida. Formalizando e
Explorando Conhecimento Tácito com a Tecnologia de Text Mining para
Inteligência. In: ISKM/DM 2001, 2001, Curitiba, 13 a 15 de Agosto.
Anais. 2001
[LUCEN01] LUCENA, Percival de; Paula, Marcos Ferreira de, Árvores de Decisão Fuzzy
Disponível em: www.icmc.sc.usp.br/~percival/download/fidt.pdf
Acesso em: 21 mai. 2003.
[NG97] NG, Hwee et al. Feature selection, perceptron learning, and a usability
casestudy for text categorization. In: Special Interest Group on
Information Retrieval - SIGIR, 1997. New York: Association for
Computing Machinery, 1997.
[SOUSA03] SOUSA, Paulo de Tarso Costa de. Mineração de Dados para Indução de um
Modelo de Gestão do Conhecimento. 2003. Dissertação (Gestão do
Conhecimento e da Tecnologia da Informação) - Universidade Católica
de Brasília
[UHLMA02] UHLMANN, Günter W. Teoria Geral dos Sistemas, CISC, São Paulo.
Visitado em 30/03/2003
Disponível em:
http://www.cisc.org.br/biblioteca/teoria_sistemas.pdf
[WITTE99] WITTEN, Ian H., FRANK, Eibe: Data Mining: Practical Machine Learning
Tools e Techniques with Java Implementations . Morgan Kaufmann
Publ., 1999.