Mineração de Dados Aplicações, Eficiência e Usabilidade PDF

Michel Ferreira Bueno
Instituto Nacional de Telecomunicaes - Inatel

michel.ferreira@gec.inatel.br
Maury Reis Viana
Instituto Nacional de Telecomunicaes - Inatel
maury@gmail.com
1

Abstract - Since the computer has taken over our lives,
huge volumes of information have been systematically
collected and stored. The simple storage and retrieval of
information already brings a great benefit. However, only
retrieving information does not provide every possible
advantage. The data mining techniques allow us to
investigate data looking for patterns that have value to the
organization in order to understand the data generator
phenomenon. This article attempts to explain the concepts
behind this important technology and the description and
presentation of the results of a practical application of the
studies involved.
Keywords data mining, knowledge discovery, database.
Resumo Desde que a informtica tomou conta de
nossas vidas, imensos volumes de informao tm sido
sistematicamente coletados e armazenados. O simples
armazenamento e recuperao dessa informao j traz
um grande benefcio. Contudo, apenas recuperar
informao no propicia todas as vantagens possveis. As
tcnicas de minerao de dados permitem que se
investiguem esses dados procura de padres que tenham
valor para a organizao a fim de se entender o fenmeno
gerador dos dados. Neste artigo pretende-se expor os
conceitos que esto por trs dessa importante tecnologia e
a descrio e apresentao dos resultados de uma
aplicao prtica dos estudos envolvidos.
Palavras chaveminerao dados, descoberta de
conhecimento, banco de dados.
I. INTRODUO
As duas ultimas dcadas foram marcadas por um avano
dramtico na computao e tecnologia em geral. Tais avanos
trazem consigo uma quantidade de informaes antes
inimaginveis. Este acumulo de informaes ocorre a taxas
explosivas e tende a crescer cada vez mais conforme a
tecnologia e computao continuam avanando. Um estudo
realizado por pesquisadores na Carolina do Sul, Estados
Unidos, revela que a quantidade de dados produzida no
perodo compreendido entre 1986 e 2007 se aproxima dos 296
exabytes, o equivalente a 296 bilhes de gigabytes. O valor

M. F. Bueno (michel.ferreira@inatel.br) e M. R. Viana
(mauryrv@gmail.com) so alunos do 5 ano do curso de Engenharia da
Computao pelo Instituto Nacional de Telecomunicaes - Inatel. Av. Joo
de Camargo, 510 - Santa Rita do Sapuca - MG - Brasil - 37540-000.

destes dados armazenados est diretamente ligado
capacidade de extrair informaes uteis de mais alto nvel que
se encontra subjacente a estes dados, ou seja, informao til
que pode ser utilizada no entendimento do fenmeno gerador
dos dados. Podem existir padres de vinculaes neste
amontoado de informaes que so uteis, por exemplo, para
aperfeioar um processo de negocio em uma empresa, na
analise de resultados de estudos cientficos, sugerir tendncias
e desvendar particularidades.
Neste contexto surge um conceito chamado data mining ou
minerao de dados que, basicamente, consiste da extrao de
informaes implcitas e padres ocultos em massas de dados.
O uso dessas informaes um fator importante para manter a
competitividade no ambiente comercial atual. Devido ao
continuo crescimento do poder de processamento dos
computadores, diversas empresas buscam hoje por tecnologia
e ferramentas para extrair informaes uteis dos dados.
II. KDD
O KDD, Knowledge Discovery in Database ou descoberta
de conhecimento em banco de dados em portugus, um
processo usado para a identificao de padres vlidos em
analise de grandes conjuntos de dados , podendo descobrir
informaes relevantes e importantes que podem ajudar e/ou
facilitar na formao de postura estratgica de marketing, no
aumento de lucratividade de um determinado comrcio ou
empresa, entre outros tipos de aplicaes. O processo de KDD
formado por cinco etapas que so: seleo, pr-
processamento, transformao, minerao dos dados e
interpretao do resultado.
Esse processo pode ser usado em qualquer tipo de banco de
dado desde que antecipadamente seja realizada uma limpeza
nos dados de forma que fiquem somente os mais importantes e
necessrios.

Fig. 1. Etapas do processo KDD. Fayyad et al. (1996)).

A seguir so detalhadas as fases do processo KDD:
Minerao de dados: Aplicaes, Eficincia e
Usabilidade.
ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 86
A. Seleo
A fase de seleo a primeira fase do KDD, uma fase
muito importante, pois nela que sero decididos quais os
conjuntos de dados que sero relevantes para que sejam
obtidos resultados com informaes uteis.
B. Pr-processamento
Na fase de pr-processamento acontece a limpeza dos dados
e seleo de atributos. Nesta etapa informaes ausentes,
errneas ou inconsistentes nas bases de dados devem ser
corrigidas de forma a no comprometer a qualidade dos
modelos de conhecimento a serem extrados ao final do
processo de KDD.
C. Transformao
Nesta fase acontece a transformao dos dados, ou seja, os
dados importantes que foram retirados no processo anterior
so modificados de forma que a prxima etapa possa ser
realizada. A transformao nada mais do que analisar os
dados e reorganiz-los de uma forma especifica e sero
interpretados por um software de minerao de dados.
D. Minerao de dados
Na fase de minerao onde tudo acontece, os dados depois
de transformados sero lidos e interpretados. A minerao faz
com que meros dados sejam transformados em informaes,
tais informaes so indicadas atravs de regras que s podem
ser interpretadas atravs de fora bruta, ou seja, lendo regra
por regra e as interpretando.
E. Anlise dos resultados
Nesta ultima fase onde as regras indicadas pelo processo
anterior sero interpretadas e avaliadas. Aps a interpretao
podero surgir padres, relacionamentos e descoberta de
novos fatos, que podem ser utilizados para pesquisas,
otimizao e outros.
III. DATA MINING
Data mining, ou minerao de dados, a tcnica de
explorao de grandes conjuntos de dados, com o objetivo de
estabelecer relaes, associaes e padres de difcil
visualizao, transformando dados brutos em informao de
alto valor. Para tanto, so utilizados algoritmos de
aprendizagem ou classificao baseados em redes neurais e
estatstica. Os resultados geralmente so expressos na forma
de regras, hipteses, rvores de deciso e grafos.
importante distinguir o que uma tarefa e o que uma
tcnica de minerao. A tarefa consiste na especificao do
que estamos querendo buscar nos dados, que tipo de
regularidades ou categoria de padres temos interesse em
encontrar, ou que tipo de padres poderiam nos surpreender
(por exemplo, um gasto exagerado de um cliente de carto de
crdito, fora dos padres usuais de seus gastos).
A tcnica de minerao consiste na especificao de
mtodos que nos garantam como descobrir os padres que nos
interessam. Dentre as principais tcnicas utilizadas em
minerao de dados, temos tcnicas estatsticas, tcnicas de
aprendizado de mquina e tcnicas baseadas em crescimento-
poda-validao. Dentre estes, esto: redes neurais,
classificao bayesiana, arvores de deciso, etc.
No entanto, a unio de trs principais recursos o que torna
o data mining possvel, conforme esquematizado na Fig. 2.

Fig. 2. Principais recursos que consistem o data mining.
IV. TAREFAS
De acordo com os objetivos pretendidos, podem ser
realizadas vrias tarefas de minerao de dados. O conjunto de
tarefas realizadas sobre os dados disponveis define a anlise
realizada em um dado intervalo de tempo. Uma tarefa pode
utilizar-se de diferentes abordagens para alcanar os objetivos.
Essas abordagens so conhecidas como tcnicas. Por sua vez,
uma tcnica pode utilizar diferentes tipos de algoritmos para
implementar um determinado tipo de tarefa. A interao entre
esses elementos esquematizada na Fig. 3:

Fig. 3. Interao entre os elementos do data mining.

De uma maneira geral, podemos classificar as anlises
possveis sobre um conjunto de dados como anlise de
amostragem, anlise descritiva ou anlise de prognstico. A
seguir temos esquematizada essa classificao, incluindo os
subtipos de anlise possveis em cada um desses tipos gerais.
A Fig. 4 esquematiza essa classificao:

Fig. 4. Classificao das tarefas de data mining quanto aos objetivos
pretendidos.
A. Tarefas de Amostragem
Este tipo de anlise tem como objetivo encontrar
comportamentos que fogem muito situao em geral, desta
forma aumentando a confiabilidade da amostragem e dos
resultados encontrados.

Deteco de desvios
Nessa tarefa so encontradas informaes que no obedecem
ao comportamento geral do modelo de dados. Esses dados
desarmnicos podem ser tratados aplicando-se alguma diretiva
ou simplesmente sero descartados antes de iniciar o processo
de minerao.

Anlise de desvios
bastante parecido com a deteco de desvios, porm, a
medida de comparao que define se um dado que foge ao
comportamento do modelo estudado j um padro
estabelecido. Para elucidar essa tarefa temos o caso do carto
de crdito. Se em um determinado ms a fatura foge muito do
padro de consumo daquele usurio (includo localidade da
compra, valores e tipo de produtos), pode ser um indicio de
clonagem de carto, fraude ou uma ocorrncia parecida.
B. Tarefas Descritivas
Nesta anlise a varredura feita em busca de estabelecer
relaes, associaes, descrevendo e caracterizando o modelo,
e encontrar informaes relevantes de difcil visualizao. Um
ponto interessante deste tipo de anlise que ela pode ser
iniciada sem que haja, necessariamente, uma ideia ou hiptese
clara estabelecida previamente.
Classificao
As tarefas de classificao consistem em categorizar os
dados em classes previamente definidas de acordo com a
similaridade de alguma caracterstica dos dados. Para
exemplificar, podemos usar o supermercado, onde os produtos
podem ser classificados em frios, laticnios, bebidas, higiene
pessoal, etc.
Associaes
A associao visa identificar grupos de fatos que ocorrem
em conjunto ou de forma condicionada. Nela encontramos
associaes e relacionamentos entre itens. Os resultados
normalmente so expressos em forma de regras de associao.
Uma regra de associao uma regra da forma X->Y, onde X
e Y so conjuntos de itens significando que se X ocorre em
uma transao da base de dados Y tambm tende a ocorrer.
A anlise de associao em um banco de dados pode gerar
uma grande quantidade de regras de associao. Algumas
dessas regras podem no ser interessantes, pois ocorrem com
baixas frequncias nos dados. Para contornar esse problema
foram definidos parmetros que determinam quais regras so
interessantes ou no.
Agrupamento
Essa tarefa se assemelha com a tarefa de classificao. A
diferena que na classificao, as classes so definidas de
forma prvia, enquanto que no agrupamento, as classes so
definidas durante a tarefa de acordo com o estabelecimento do
conjunto de atributos que devem direcionar essa
categorizao. Os grupos so formados de acordo com a
similaridade desses atributos direcionadores.
Descrio
Consiste de uma descrio textual de um conjunto de
particularidades observadas com frequncia para um
determinado evento. comumente utilizada para traar perfis
comportamentais. Por exemplo, pessoas envolvidas em
fraudes de carto de crdito em geral so homens, entre 25 e
40 anos, com bom nvel de instruo (possivelmente curso
superior).
Deteco de Sequencias
Este tipo de tarefa tem por objetivo estabelecer
relacionamentos temporais entre fatos. Por exemplo, 30% dos
compradores de notebooks voltam em at um ms pra comprar
um mouse. Estimular a compra desses itens em conjunto
certamente trar aumento na venda de mouses.
Segmentao
a subdiviso do conjunto de dados em conjuntos menores
atravs da formao de grupos de acordo com alguma
distino. A segmentao difere do agrupamento por ser um
passo intermedirio. Utiliza-se a segmentao para depois
realizar-se uma nova tarefa sobre esses dados segmentados.
Por exemplo, podemos segmentar os consumidores por regio
e sexo antes de buscar associaes nesses dados segmentados.
A inteno nesse caso seria descobrir possveis diferenas de
hbitos de compras nas diferentes regies e entre homens e
mulheres.
C. Tarefas de prognstico
Esse tipo de anlise busca inferir um valor ou
comportamento futuro ou estimar valores desconhecidos,
utilizando como base as informaes colhidas na anlise
descritiva. Destacamos duas classes de tarefas aqui:
Estimao
Podemos estimar um valor desconhecido a partir de valores
conhecidos. Por exemplo, analisando o padro de despesas e a
idade de uma pessoa, podemos estimar o seu salrio e seu
nmero de filhos.
Predio
o processo de predizer um determinado valor em um
instante futuro baseado nos valores conhecidos. Por exemplo,
baseado na formao escolar, no seu emprego atual e no ramo
de atividade profissional, pode-se predizer o salrio que a
pessoa ganhar daqui a alguns anos.
A Tabela I mostra de forma resumida as principais tarefas de
minerao de dados e suas reas de aplicao:

TABELA I
TAREFAS VS APLICAES.

Tarefa Descrio Aplicaes
Classificao
Constri um modelo de
algum tipo que possa
ser aplicado a dados
no classificados a fim
de categoriz-los
Classificar
pedidos de
crditos;
Esclarecer
pedidos de
seguros
fraudulentos;
Identificar a
melhor forma de
tratamento de um
paciente.

V. PRINCIPAIS SOFTWARES NO MERCADO
Existem diversas ferramentas gratuitas e pagas para
minerao de dados disponveis no mercado. Essas
ferramentas agrupam e so capazes de executar diversas
etapas do processo de minerao. Na Tabela II apresentamos
os principais softwares disponveis:

TABELA II
PRINCIPAIS SOFTWARES NO MERCADO.
Nome Fabricante Funo Destaque
Intelligent
Miner
IBM
Algoritmos para regras
de associao,
classificao,
regresso, padres
sequenciais e
agrupamento.
Integrado com o
SGBD DB2 da
IBM. Grande
escalabilidade
dos algoritmos.
MineSet
Silicon
Graphics Inc.
Algoritmos para regras
de associao,
classificao e anlise
estatstica.
Um robusto
conjunto de
ferramentas
avanadas de
visualizao.
Clementine
Integral
Solutions Ltd.
Algoritmos de regras
de induo, redes
neurais, classificao e
ferramenta de
visualizao.
Interface
orientada a
objeto.
DBMiner
DBMiner
Technology
Inc.
Algoritmos de regras
de associao,
classificao e
agrupamento.
Data Mining
utilizando
OLAP.
Genamics
Expression
Genamics
Developer
Algoritmo de anlise
de sequencias.
Anlise de
protenas de
sequencias de
DNA.
Microsoft
SQL
Server
Microsoft
Possui 8 algoritmos na
verso do SQL Server
2008.
A plataforma
extensvel para
integrao de
outros
algoritmos
desenvolvidos.
WEKA
The
University of
Waikato
Algoritmos de
associao,
agrupamento e
classificao.
Software
licenciado ao
abrigo
da General
Public License.
KDB2000
Universit
Degli Dtudi
Di Bari
Algoritmos de
classificao,
regresso,
agrupamento e
associao.
Ferramenta
livre em C++
que integra
acesso s bases
de dados
KNIME KNIME Tech
Algoritmos de
regresso,
agrupamento, regras
de induo, redes
neurais, arvore de
deciso, regras de
associao e outros.
Implementa o
paradigma
de pipelining de
dados.
VI. ESTUDO DE CASO
A. Identificao do problema
O volume de publicaes continua em crescimento assim
como a sede de informao em um pas em desenvolvimento
como o Brasil. Sejam elas em papel ou em formato eletrnico,
importante que as bibliotecas possuam sistemas de
informaes capazes de armazenar e indexar informaes
bibliogrficas de forma a facilitar a recuperao e
disseminao aos usurios.
Conhecer o usurio importante e j era uma necessidade do
passado, onde o bibliotecrio sabia e conseguia lembrar as
preferencias de cada um de seus usurios para fazer
recomendaes e ajuda-los a encontrar obras. Hoje se faz
necessrio o uso de ferramentas que auxiliem nesse processo.
As tcnicas de data mining permitem que se conhea o perfil
do usurio, delineando suas preferncias e seus interesses.
Esse processo possibilita a personalizao dos processos de
recuperao e disseminao da informao, tornando-os
objetivos e seletivos. Esta confluncia de acertos caracteriza a
relevncia da informao.
Pensando nisso e levando em considerao a oportunidade
de estarmos inseridos em grande instituio de ensino que o
Inatel e poder usufruir dos recursos disponibilizados por sua
biblioteca, traou-se o objetivo de desenvolver um sistema
para aplicao de data mining na base de dados do Centro de
Informaes Cientficas e Tecnolgicas (CICT) do instituto.
Mais especificamente, o desenvolvimento desse sistema nos
permitiu aplicar na pratica grande parte dos conceitos
Estimativa (ou
Regresso)
Usada para definir
um valor para
alguma varivel
contnua
desconhecida
Estimar o numero de filhos
ou a renda total de uma
famlia;
Estimar o valor em tempo
de vida de um cliente;
Estimar a probabilidade de
que um paciente morrer
baseando-se nos resultados
de diagnsticos mdicos;
Prever a demanda de um
consumidor para um novo
produto.
Associao
Usada para
determinar quais
itens tendem a co-
ocorrerem(serem
adquiridos juntos)
em uma mesma
transao
Determinar quais produtos
costumam ser colocados
juntos em um carrinho de
supermercado.
Segmentao
Processo de
partio de uma
populao
heterognea em
vrios subgrupos
ou grupos mais
homogneos.
Agrupar clientes por regio
do pas;
Agrupar clientes com
comportamento de compra
similar;
Agrupar sees de usurios
web para prever
comportamento futuro de
usurio.
Sumarizao
Envolve mtodos
para encontrar
uma descrio
compacta para um
subconjunto de
dados.

Tabular o significado e
desvios padro para todos os
itens de dados;
Derivar regras de sntese.
estudados ao longo do programa de iniciao cientifica e obter
informaes relevantes quanto a padres de utilizao
envolvendo os prprios usurios, suas preferencias quanto ao
assunto e tipos de artefato utilizados. Tais informaes podem
ser usadas pela administrao do CICT ajudando na tomada de
decises quanto aquisio de obras, utilizao dos servios,
entre outras informaes relevantes. Alm disso, pudemos
perceber, tambm na prtica, vrios dos problemas
enfrentados na implantao de um sistema como esse.
B. Obteno dos dados
Mediante a identificao do problema e encontrada uma
soluo baseando-se em data mining, fez-se necessrio a
busca por recursos que simulassem ou se aproximassem de
uma situao real. Posto isso, procuramos inicialmente a
administrao do CICT juntamente com setor de TI da
instituio em busca desses recursos.
As principais fontes dos dados so os sistemas legados
utilizados pela instituio. So eles:
- Software administrativo mantido pelo CICT que faz toda a
automao do controle, cadastro e circulao de todo o
material disponvel, composto de uma base de dados e um
sistema para atendimento aos usurios.
- Sistema de identificao nica de pessoas, mantido pela
Seo de Registros Acadmicos.
A unio desses sistemas permite fazer a ligao entre o
usurio e suas transaes, alimentando uma base de dados
onde foi aplicado o data mining.
C. Implementao
Partindo dos objetivos de estudo foi gerada uma sub-base
dados dos sistemas legados da instituio, dessa forma sendo
possvel popular a sub-base de dados com as amostras
provenientes destes sistemas. O sistema utilizado na biblioteca
armazena cada transao feita por um usurio. Nessa transao
so armazenados valores referentes ao usurio e artefato em
questo.
Tomando por base o problema e os dados disponveis, foi
desenvolvido um sistema para aplicao de tcnicas de data
mining na sub-base de dados gerada.
VII. SISTEMA DESENVOLVIDO
O sistema desenvolvido tem por objetivo executar o
algoritmo de minerao implementado variando-se os
atributos de configurao e arquivos de dados que so usados.
Atravs dele possvel gerar o arquivo de dados que serve
como entrada para o algoritmo, variando-se os atributos que
ele contm. Alm disso, possvel configurar os parmetros
de execuo do algoritmo, que influenciam na execuo do
mesmo e nos resultados obtidos.
Na seo VIII.C deste artigo so detalhadas as configuraes
e modelos de dados usados para minerao.
As seguintes tecnologias foram empregadas no
desenvolvimento do sistema:
Linguagem Java SE;
Banco de dados Oracle;
API Weka(API de recursos para data mining);
A. Seleo dos dados
Aps o reconhecimento das variveis de interesse foi gerado
um modelo de dados do sistema. Com a criao desse modelo
foi possvel popular o base de dados com as amostras colhidas
do sistema. Foram selecionados valores na amostra de itens
disponibilizados pela biblioteca, funcionrios e alunos da
instituio. Dentre os dados contidos nas amostras esto:
Alunos de graduao;
Alunos de ps-graduao;
Alunos de mestrado;
Professores;
Funcionrios;
Outros (pessoas da comunidade e outras instituies).
Artefatos disponveis (livros, CDs, revistas, etc.).
Com a seleo das tabelas, excluem-se alguns dados como
CPF, Endereo, etc. Essa remoo foi feita devido ao fato de
serem usados com finalidades operacionais que no se aplicam
a esta pesquisa. Alm disso, todos os nomes de usurios
envolvidos foram substitudos por nomes gerados
randomicamente com o objetivo de mascarar os verdadeiros
nomes. Na Fig. 5 temos o modelo de dados gerado a partir da
seleo:

Fig. 5. Representao do modelo de dados gerado.
B. Classificao do acervo em grandes reas (CDD)
A CDD (classificao decimal de Dewey) consiste em
examinar livros de assuntos diversos e encaix-los em uma
rea pr-definida por especialistas em biblioteconomia. Este
tipo de classificao ajuda muito quando h a necessidade de
saber em qual rea um livro ou artefato se encaixa.
O objetivo da CDD organizar o acervo de bibliotecas de
forma a facilitar o acesso de usurios s informaes contidas
nesses acervos. O idealizador deste sistema foi Melvil Dewey,
e este sistema bibliogrfico um dos mais utilizados em todo
o mundo. A Tabela III mostra como composto o sistema de
classificao:

TABELA III
CLASSIFICAO DECIMAL DE DEWEY.

rea Assunto
000 Generalidades
100 Filosofia
200 Religio
300 Cincias Sociais
400 Lnguas
500 Cincias puras
600 Cincias aplicadas
700 Artes
800 Literatura
900 Histria e geografia

Vale ressaltar que dentro de cada rea pode haver uma
subrea e dentro desta ainda podem existir outras
ramificaes. Por exemplo, na rea 6 existe a subrea 620 e
pode existir uma ramificao 622.
C. Pr-processamento dos dados
Aps a seleo dos dados, faz-se a verificao da existncia
de inconsistncias e/ou erros nas amostras de forma a
assegurar a qualidade (completude, veracidade e integridade
dos dados).
Para contorn-los foi preciso fazer o preenchimento de
alguns campos e pequenas correes em outros. Alm disso,
foi efetuado o descarte das transaes onde a correo no foi
possvel devido natureza ou significncia do campo, de
forma a no comprometer o resultado.
D. Extrao, transformao e carga dos dados.
Para que a minerao possa ser realizada, o sistema
desenvolvido necessita de um padro de arquivo para
armazenar os valores a serem minerados. Esse arquivo
composto de um cabealho que descreve quais campos sero
usados e como devem ser tratados pelo algoritmo de
minerao. Toda a carga de dados para o algoritmo de
minerao feita atravs deste arquivo. Os dados so
extrados da sub-base de dados gerada a partir do modelo
original escolhido. Aps a extrao, os dados so
transformados para serem includos nesse arquivo. Essa
transformao inclui converso de datas em valores
representativos, binarizao, discretizao, criao de novos
atributos, transformao de variveis, etc.
E. Anlises preliminares
Em qualquer pesquisa fundamental para o pesquisador ter
uma viso geral dos dados a serem analisados. A seguir
apresenta-se uma anlise descritiva dos dados da amostra
envolvidos neste estudo para o perodo registrado.
A amostra composta por 22735 ttulos registrados,
somando obras de literatura e livros tcnicos de publicao
nacional, internacional, da prpria instituio e publicaes
peridicas.
O nmero total de usurios registrados 5394, estando nessa
contagem alunos, ex-alunos, professores, funcionrios e
pessoas da comunidade em geral. A seguir apresentado um
grfico dessa diviso. Os usurios registrados so aqueles que
realizaram uma ou mais transaes.
O perodo de registro das transaes efetuadas est
compreendido entre julho de 2001 a dezembro de 2011. Nesse
espao de tempo foram realizadas 393020 transaes, sendo
383964 de emprstimo e 9056 de reserva. Tivemos uma mdia
de 72,86 transaes por usurio.

Fig. 6. Distribuio dos usurios da biblioteca.
VIII. APLICAO NO MODELO ESCOLHIDO
A. Escolha do algoritmo
Toda a movimentao da biblioteca registrada pelo
software de gerencia atravs de transaes. Cada transao
representa um nico item retirado do acervo ou reservado.
Cada usurio pode fazer uma ou mais transaes. Se um
usurio retira n itens, sero armazenadas n transaes no
banco de dados.
Essa forma de armazenamento caracteriza uma possvel
tarefa descritiva em minerao dados, mais especificamente
para aplicao de algoritmos associativos onde o objetivo
identificar grupos de fatos que ocorrem em conjunto ou de
forma condicionada.
O algoritmo escolhido foi o Apriori, por ser o mais usado e
considerado um dos mais eficientes entre os algoritmos
associativos. Sua implementao exige uma serie de
parmetros de configurao que sero detalhados na subseo
a seguir.
B. Parmetros
Os parmetros de configurao definem o fluxo de execuo
do algoritmo e influenciam incisivamente no tempo de
execuo. A combinao deles, em alguns casos, pode afetar
de maneira significativa o resultado obtido. A seguir so
detalhados cada um desses parmetros:
car: Se verdadeiro considera que os dados j foram
minerados;
classIndex: ndice da classe atributo. Se indicada como -1, o
ultimo atributo considerado como atributo classe.
delta: O algoritmo diminui o suporte de confiana pelo valor
especificado em delta, no caso de mineraes mais detalhadas
este valor deve ser pequeno, mas como consequncia o tempo
de interao aumenta.
lowerBoundMinSupport: a menor confiana permitida para
exibio de regras por minerao.
metricType: o tipo de mtrica a qual sero geradas as regras,
Existem quatro tipos:
confidence: Mede a probabilidade condicional de P(c)
dado A, geralmente da nfase a regras que no esto
relacionadas.
83%
6%
10%
1%
Usurios
Alunos e Ex-alunos
Funcionrios
Outros
Professores
lift: Mede a distncia para a independncia entra A e
C e pode variar entre 0 e infinito.
leverage: Mede o numero de casos extras obtidos em
relao ao esperado.
conviction: Tenta capturar o grau de implicao entre
A e C, se nos resultados o valor for 1 indica
independncia.
minMetric: a menor confiana aceita.
numRules: Determina o numero de regras que ser mostrada
pelo software;
outputItemSets: Se verdadeiro, o software vai mostra os
conjuntos de item sets descobertos;
removeAllMissingCols: Se verdadeiro remove as colunas de
valores dos atributos que estiverem nulos;
significanceLevel: teste de significncia (usando somente
com a mtrica confidence);
upperBoundMinSupport: a menor confiana permitida para
exibio de regras por minerao;
verbose: se verdadeiro mostra os detalhes da minerao, os
passos do algoritmo.
C. Arquivo de dados
Conforme citado anteriormente, para que seja possvel a
minerao preciso usar um arquivo de texto puro contendo
os dados para serem minerados. Esse arquivo possui uma
extenso .arff, usada em diversos softwares de minerao,
onde se descreve as relaes e seus atributos.
Partindo do modelo de dados, utilizamos cinco atributos para
aplicao do data mining:
USUARIO: tipo de usurio da biblioteca;
AREA_CONHECIMENTO: Grande rea do livro
emprestado segundo a classificao de Dewey;
DEVOLUCAO: indica se a devoluo foi feita aps,
antes ou na data prevista.
OPERACAO: Indica se a operao foi de reserva ou
emprstimo;
TIPOMIDIA: Indica o tipo de mdia (CD, DVD, livro,
revista, etc.).
D. Set de configuraes
Para execuo do algoritmo de minerao, foi gerada uma
tabela variando-se os atributos exigidos. O principal objetivo
dessa variao avaliar qual o impacto sobre os resultados e o
quanto o tempo de execuo afetado. A Tabela IV relaciona
as configuraes usadas e o tempo (ms) gasto na execuo de
cada uma delas.
TABELA IV
CONFIGURAES E TEMPO DE EXECUO.
Configurao Resultado
Num Mtrica Delta
Suporte
Mnimo
Tempo
(ms)
N de
regras
geradas
1 Confidence 0,005 50% 1419634 47
2 Confidence 0,01 50% 732716 47
3 Confidence 0,05 50% 149495 47
4 Confidence 0,07 50% 99435 47
5 Confidence 0,09 50% 85909 47
6 Lift 0,005 50% 1239975 47
7 Lift 0,01 50% 562945 47
8 Lift 0,05 50% 157607 47
9 Lift 0,07 50% 111836 47
10 Lift 0,09 50% 75847 47
11 Leverage 0,005 50% 1309355 47
12 Leverage 0,01 50% 676650 47
13 Leverage 0,05 50% 150087 47
14 Leverage 0,07 50% 115222 47
15 Leverage 0,09 50% 86081 47
16 Conviction 0,005 50% 1331550 47
17 Conviction 0,01 50% 679104 47
18 Conviction 0,05 50% 150135 47
19 Conviction 0,07 50% 95956 47
20 Conviction 0,09 50% 82789 47
IX. RESULTADOS
A. Apresentao dos resultados
Atravs do modelo proposto e do sistema desenvolvido foi
possvel explorar na prtica e de maneira plena e efetiva todas
as etapas e procedimentos envolvidos na implantao de uma
ferramenta de minerao de dados. Para este estudo de caso,
conforme discutido anteriormente, foi aplicada uma tarefa de
Classificao em cima do modelo de dados gerado a partir das
informaes obtidas.
O resultado do algoritmo com os dados totais encontrou 47
regras associativas. As regras geradas seguem o seguinte
formato:

Uma regra nesse formato significa que das (C) ocorrncias
em que os atributos (A) e (B) estavam presentes, o atributo
(D) tambm estava presente em (E) daquelas ocorrncias,
portanto gerando uma confiana (F). Exemplificando com
uma regra encontrada no trabalho:
USUARIO=outros OPERACAO=emprestimo 33433 ==>
DEVOLUCAO=exato 28532 conf.: (0.85)
A regra acima informa que das 33433 ocorrncias em que
usurios externos instituio fizeram uma operao de
emprstimo, a data de devoluo foi exata em 28532 dessas
ocorrncias, gerando uma confiana de 85% para esta regra.
A Tabela V mostra as 10 melhores regras encontradas
baseando-se na confiana.
TABELA V
MELHORES REGRAS ENCONTRADAS.

Ordem Regra Confiana
1
USUARIO=out ros DEVOLUCAO=exat o 28549 ==>
OPERACAO=emprest imo 28532
100%
2 USUARIO=out ros 33516 ==> OPERACAO=emprest imo 33433 100%
3
AREA_CONHECIMENTO=cincias aplicadas DEVOLUCAO=exat o
42179 ==> OPERACAO=emprest imo 41337
98%
4 DEVOLUCAO=exat o 99169 ==> OPERACAO=emprest imo 96731 98%
5
AREA_CONHECIMENTO= cincias aplicadas 119005 ==>
OPERACAO=emprest imo 115982
97%
6
AREA_CONHECIMENTO= cincias aplicadas DEVOLUCAO=adiant ado
97%
7
USUARIO=aluno AREA_CONHECIMENTO=Cincias aplicadas
DEVOLUCAO=adiant ado 31059 ==> OPERACAO=emprest imo 30129
97%
8
AREA_CONHECIMENTO= cincias aplicadas DEVOLUCAO=at rasado
97%
9
USUARIO=alunos AREA_CONHECIMENTO= cincias aplicadas 89696
==> OPERACAO=emprest imo 86784
97%
10 DEVOLUCAO=adiant ado 83744 ==> OPERACAO=emprest imo 80972 97%
B. Discusso dos resultados
O principal objetivo desse sistema foi aplicar na prtica todo
o conhecimento terico gerado sobre o processo de descoberta
de conhecimento em bases de dados, cujo resultado foi
analisado. Entende-se, portanto, que os objetivos foram
alcanados.
Diante dos resultados apresentados, pode-se perceber que,
com a minerao de dados, possvel obter-se uma viso mais
abrangente dos dados institucionais da biblioteca, pelo fato de
ter sido disponibilizada uma grande quantidade de
informaes sobre a circulao de artefatos disponibilizados.
Com relao s limitaes e aos problemas envolvendo os
dados extrados est a prpria maneira como so registradas as
transaes dos usurios, que influencia na abordagem das
tcnicas e tarefas de minerao de dados. O ponto de maior
dificuldade est na escolha os atributos certos para que se
alcance um resultado satisfatrio.
Dos dados extrados observando-se os nmeros de artefatos
e usurios frequentes, fcil perceber que, um grande volume
de transaes feito por alunos na instituio, envolvendo os
vrios nveis de educao que a instituio oferece. Porem
notvel que um nmero grande de transaes foram feitas por
pessoas oriundas da prpria comunidade onde est inserida a
instituio e que dessas transaes os tipos de artefato mais
frequentes so livros de literatura em geral.
Com relao aplicabilidade do processo de minerao de
dados, pode-se afirmar que:
a partir da verificao da circulao dos artefatos,
poderiam ser tomadas decises na compra de novos itens
e atendimento ao publico em geral;
pode-se analisar os diversos casos de pessoas que
fogem ao padro de comportamento observado (outliers),
tentando verificar se esse ou no um bom
comportamento, se deveria ser seguido, formando um
novo padro ou, ao contrrio, ser evitado;
a partir dos agrupamentos de artefatos que
inicialmente no esto diretamente ligados, alterar a
disposio e forma de organizao dos itens no ambiente
da biblioteca a fim de melhorar o atendimento ao
usurio;
a partir de diversos padres de comportamento
observados nas informaes que foram apresentadas,
decises podem ser tomadas no somente a curto prazo,
mas tambm a longo prazo, pois possvel prever de
forma segura provveis comportamentos futuros;
as diversas regras de associao que foram
apresentadas mostram que dados que aparentemente no
esto relacionados, na realidade possuem aspectos em
comum que podem ser explorados.
X. CONCLUSES
O objetivo deste artigo foi estudar, analisar e apresentar a
tecnologia de minerao de dados como parte do processo de
descoberta de conhecimento em banco de dados. Foi feito um
estudo terico sobre como esse processo se apresenta,
destacando suas funcionalidades, tcnicas e abordagens de
aplicao, seguido da distino e conceituao das tarefas,
mtodos e recursos, e de que maneira cada elemento desses
pode contribuir para o processo de descoberta de padres.
Atravs deste estudo foi possvel explorar na pratica as
etapas envolvidas em um processo de minerao de dados.
Foram elaboradas solues prticas para situaes adversas
como limpeza, transformao de dados, entre outras.
O processo de descoberta do conhecimento e a minerao de
dados fazem parte da evoluo natural de TI e com toda a
certeza tendem a crescer muito ainda. A alta competitividade
existente hoje no mercado far com que as organizaes
procurem cada vez mais esse tipo de soluo. Grandes
empresas j utilizam largamente esse tipo de ferramenta
atualmente e a tendncia que se torne uma prtica cada vez
mais comum alm de evoluda.
Por fim, pode-se dizer que os resultados demonstram o
potencial que a minerao de dados possui com suas vrias
abordagens, tarefas e tcnicas que pode ser usado na gesto de
conhecimento disponvel em uma organizao, seja ela de
qualquer ramo ou atividade. Diversos padres e associaes
foram identificados, porm, h muitas outras descobertas que
ainda podem ser feitas aproveitando-se a sub-base de dados
criada.
Podemos esperar sistemas cada vez mais inteligentes, com
maior capacidade de oferecer ao usurio aquilo que ele espera,
aquilo que relevante pra ele, graas minerao de dados,
que fornece essa capacidade.
XI. REFERENCIAS BIBLIOGRFICAS
[1] ANDR PONCE DE LEON F. DE CARVALHO. Redes neurais
artificiais. Disponvel em:
<http://www.icmc.usp.br/~andre/research/neural/>. Acesso em: 24
jan. 2012.

[2] REDE neural. , 2003. Disponvel em:
<http://pt.wikipedia.org/wiki/Rede_neural>. Acesso em: 24 jan.
2012.
[3] HAYKIN, Simon S.. Redes neurais - princpios e prticas. 2. ed.
Porto Alegre: Bookman, 2001. 898 p.
[4] PABLO DE ASSIS. O que so redes neurais?. Disponvel em:
<http://www.tecmundo.com.br/programacao/2754-o-que-sao-
redes-neurais-.htm>. Acesso em: 24 jan. 2012.
[5] PR-PROCESSAMENTO em data-mining. , [20--]. Disponvel
em: <http://www.din.uem.br/gpea/projetos-de-pesquisa/>. Acesso
em: 23 jan. 2012.
[6] PITONI, Rafael Moreira. Minerao de regras de associao nos
canais de informao do direto. 2002. Monografia (Graduao em
Cincia da Computao) - Universidade Federal do Rio Grande do
Sul. Porto Alegre.

[7] DESCOBERTA do conhecimento (kdd). , [20--]. Disponvel em:
<http://sites.google.com/site/mineracaodedados1b/descoberta-do-
conhecimento-kdd>. Acesso em: 19 jan. 2012.
[8] ZANUSSO, Maria Bernadete. Data mining: Introduo. , [20--].
Disponvel em:
<http://www.dct.ufms.br/~mzanusso/Data_Mining.htm>. Acesso
em: 19 jan. 2012.
[9] MAURO PICHILIANI. Data mining na prtica: classificao
bayesiana. Disponvel em:
<http://imasters.com.br/artigo/4926/sql_server/data_mining_na_pr
atica_classificacao_bayesiana/>. Acesso em: 22 jan. 2012.
[10] RENAN HAMANN. Cientistas divulgam nmeros da quantidade
de dados no mundo. Disponvel em:
<http://www.tecmundo.com.br/armazenamento/8429-cientistas-
divulgam-numeros-da-quantidade-de-dados-no-mundo.htm>.
Acesso em: 20 jan. 2012.
[11] GAMA, Joo. rvores de deciso. , 2002. Disponvel em:
<http://www.liaad.up.pt/~jgama/Bdc/arv.pdf>. Acesso em: 23 jan.
2012.
[12] PAMPLONA, Edson De O. rvores de deciso. , [20--].
Disponvel em:
<http://www.iepg.unifei.edu.br/edson/download/Engecon2/Cap7E
E2Arvdecslides.pdf>. Acesso em: 23 jan. 2012.
[13] CARVALHO, Daniel Dias de;DIAS, Maxwell Macedo.
Descoberta de conhecimento em ambientes virtuais de
aprendizagem: um estudo de caso no labsql. 2008. Dissertao
(Graduao em Cincia da Computao) - Universidade Federal do
Par. Belm
[14] WITTEN, Ian H.; FRANK, Eibe. Data mining : practical machine
learning tools and techniques with java implementations. San
Francisco: Morgan Kaufmann, 2000. 371 p.

Mineração de Dados Aplicações, Eficiência e Usabilidade PDF

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Mineração de Dados Aplicações, Eficiência e Usabilidade PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Michel Ferreira Bueno

Instituto Nacional de Telecomunicaes - Inatel

Anda mungkin juga menyukai