0 penilaian0% menganggap dokumen ini bermanfaat (0 suara)
143 tayangan9 halaman
O documento discute a mineração de dados e o processo de descoberta de conhecimento em bancos de dados (KDD). Ele explica que a mineração de dados permite a extração de padrões ocultos em grandes volumes de dados, e que o processo KDD consiste em cinco etapas para identificar padrões válidos nos dados: seleção, pré-processamento, transformação, mineração e interpretação.
Deskripsi Asli:
Judul Asli
Mineração de dados aplicações , eficiência e usabilidade.pdf
O documento discute a mineração de dados e o processo de descoberta de conhecimento em bancos de dados (KDD). Ele explica que a mineração de dados permite a extração de padrões ocultos em grandes volumes de dados, e que o processo KDD consiste em cinco etapas para identificar padrões válidos nos dados: seleção, pré-processamento, transformação, mineração e interpretação.
O documento discute a mineração de dados e o processo de descoberta de conhecimento em bancos de dados (KDD). Ele explica que a mineração de dados permite a extração de padrões ocultos em grandes volumes de dados, e que o processo KDD consiste em cinco etapas para identificar padrões válidos nos dados: seleção, pré-processamento, transformação, mineração e interpretação.
michel.ferreira@gec.inatel.br Maury Reis Viana Instituto Nacional de Telecomunicaes - Inatel maury@gmail.com 1
Abstract - Since the computer has taken over our lives, huge volumes of information have been systematically collected and stored. The simple storage and retrieval of information already brings a great benefit. However, only retrieving information does not provide every possible advantage. The data mining techniques allow us to investigate data looking for patterns that have value to the organization in order to understand the data generator phenomenon. This article attempts to explain the concepts behind this important technology and the description and presentation of the results of a practical application of the studies involved. Keywords data mining, knowledge discovery, database. Resumo Desde que a informtica tomou conta de nossas vidas, imensos volumes de informao tm sido sistematicamente coletados e armazenados. O simples armazenamento e recuperao dessa informao j traz um grande benefcio. Contudo, apenas recuperar informao no propicia todas as vantagens possveis. As tcnicas de minerao de dados permitem que se investiguem esses dados procura de padres que tenham valor para a organizao a fim de se entender o fenmeno gerador dos dados. Neste artigo pretende-se expor os conceitos que esto por trs dessa importante tecnologia e a descrio e apresentao dos resultados de uma aplicao prtica dos estudos envolvidos. Palavras chaveminerao dados, descoberta de conhecimento, banco de dados. I. INTRODUO As duas ultimas dcadas foram marcadas por um avano dramtico na computao e tecnologia em geral. Tais avanos trazem consigo uma quantidade de informaes antes inimaginveis. Este acumulo de informaes ocorre a taxas explosivas e tende a crescer cada vez mais conforme a tecnologia e computao continuam avanando. Um estudo realizado por pesquisadores na Carolina do Sul, Estados Unidos, revela que a quantidade de dados produzida no perodo compreendido entre 1986 e 2007 se aproxima dos 296 exabytes, o equivalente a 296 bilhes de gigabytes. O valor
M. F. Bueno (michel.ferreira@inatel.br) e M. R. Viana (mauryrv@gmail.com) so alunos do 5 ano do curso de Engenharia da Computao pelo Instituto Nacional de Telecomunicaes - Inatel. Av. Joo de Camargo, 510 - Santa Rita do Sapuca - MG - Brasil - 37540-000.
destes dados armazenados est diretamente ligado capacidade de extrair informaes uteis de mais alto nvel que se encontra subjacente a estes dados, ou seja, informao til que pode ser utilizada no entendimento do fenmeno gerador dos dados. Podem existir padres de vinculaes neste amontoado de informaes que so uteis, por exemplo, para aperfeioar um processo de negocio em uma empresa, na analise de resultados de estudos cientficos, sugerir tendncias e desvendar particularidades. Neste contexto surge um conceito chamado data mining ou minerao de dados que, basicamente, consiste da extrao de informaes implcitas e padres ocultos em massas de dados. O uso dessas informaes um fator importante para manter a competitividade no ambiente comercial atual. Devido ao continuo crescimento do poder de processamento dos computadores, diversas empresas buscam hoje por tecnologia e ferramentas para extrair informaes uteis dos dados. II. KDD O KDD, Knowledge Discovery in Database ou descoberta de conhecimento em banco de dados em portugus, um processo usado para a identificao de padres vlidos em analise de grandes conjuntos de dados , podendo descobrir informaes relevantes e importantes que podem ajudar e/ou facilitar na formao de postura estratgica de marketing, no aumento de lucratividade de um determinado comrcio ou empresa, entre outros tipos de aplicaes. O processo de KDD formado por cinco etapas que so: seleo, pr- processamento, transformao, minerao dos dados e interpretao do resultado. Esse processo pode ser usado em qualquer tipo de banco de dado desde que antecipadamente seja realizada uma limpeza nos dados de forma que fiquem somente os mais importantes e necessrios.
Fig. 1. Etapas do processo KDD. Fayyad et al. (1996)).
A seguir so detalhadas as fases do processo KDD: Minerao de dados: Aplicaes, Eficincia e Usabilidade. ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 86 A. Seleo A fase de seleo a primeira fase do KDD, uma fase muito importante, pois nela que sero decididos quais os conjuntos de dados que sero relevantes para que sejam obtidos resultados com informaes uteis. B. Pr-processamento Na fase de pr-processamento acontece a limpeza dos dados e seleo de atributos. Nesta etapa informaes ausentes, errneas ou inconsistentes nas bases de dados devem ser corrigidas de forma a no comprometer a qualidade dos modelos de conhecimento a serem extrados ao final do processo de KDD. C. Transformao Nesta fase acontece a transformao dos dados, ou seja, os dados importantes que foram retirados no processo anterior so modificados de forma que a prxima etapa possa ser realizada. A transformao nada mais do que analisar os dados e reorganiz-los de uma forma especifica e sero interpretados por um software de minerao de dados. D. Minerao de dados Na fase de minerao onde tudo acontece, os dados depois de transformados sero lidos e interpretados. A minerao faz com que meros dados sejam transformados em informaes, tais informaes so indicadas atravs de regras que s podem ser interpretadas atravs de fora bruta, ou seja, lendo regra por regra e as interpretando. E. Anlise dos resultados Nesta ultima fase onde as regras indicadas pelo processo anterior sero interpretadas e avaliadas. Aps a interpretao podero surgir padres, relacionamentos e descoberta de novos fatos, que podem ser utilizados para pesquisas, otimizao e outros. III. DATA MINING Data mining, ou minerao de dados, a tcnica de explorao de grandes conjuntos de dados, com o objetivo de estabelecer relaes, associaes e padres de difcil visualizao, transformando dados brutos em informao de alto valor. Para tanto, so utilizados algoritmos de aprendizagem ou classificao baseados em redes neurais e estatstica. Os resultados geralmente so expressos na forma de regras, hipteses, rvores de deciso e grafos. importante distinguir o que uma tarefa e o que uma tcnica de minerao. A tarefa consiste na especificao do que estamos querendo buscar nos dados, que tipo de regularidades ou categoria de padres temos interesse em encontrar, ou que tipo de padres poderiam nos surpreender (por exemplo, um gasto exagerado de um cliente de carto de crdito, fora dos padres usuais de seus gastos). A tcnica de minerao consiste na especificao de mtodos que nos garantam como descobrir os padres que nos interessam. Dentre as principais tcnicas utilizadas em minerao de dados, temos tcnicas estatsticas, tcnicas de aprendizado de mquina e tcnicas baseadas em crescimento- poda-validao. Dentre estes, esto: redes neurais, classificao bayesiana, arvores de deciso, etc. No entanto, a unio de trs principais recursos o que torna o data mining possvel, conforme esquematizado na Fig. 2.
Fig. 2. Principais recursos que consistem o data mining. IV. TAREFAS De acordo com os objetivos pretendidos, podem ser realizadas vrias tarefas de minerao de dados. O conjunto de tarefas realizadas sobre os dados disponveis define a anlise realizada em um dado intervalo de tempo. Uma tarefa pode utilizar-se de diferentes abordagens para alcanar os objetivos. Essas abordagens so conhecidas como tcnicas. Por sua vez, uma tcnica pode utilizar diferentes tipos de algoritmos para implementar um determinado tipo de tarefa. A interao entre esses elementos esquematizada na Fig. 3:
Fig. 3. Interao entre os elementos do data mining.
De uma maneira geral, podemos classificar as anlises possveis sobre um conjunto de dados como anlise de amostragem, anlise descritiva ou anlise de prognstico. A seguir temos esquematizada essa classificao, incluindo os subtipos de anlise possveis em cada um desses tipos gerais. A Fig. 4 esquematiza essa classificao:
Fig. 4. Classificao das tarefas de data mining quanto aos objetivos pretendidos. ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 87 A. Tarefas de Amostragem Este tipo de anlise tem como objetivo encontrar comportamentos que fogem muito situao em geral, desta forma aumentando a confiabilidade da amostragem e dos resultados encontrados.
Deteco de desvios Nessa tarefa so encontradas informaes que no obedecem ao comportamento geral do modelo de dados. Esses dados desarmnicos podem ser tratados aplicando-se alguma diretiva ou simplesmente sero descartados antes de iniciar o processo de minerao.
Anlise de desvios bastante parecido com a deteco de desvios, porm, a medida de comparao que define se um dado que foge ao comportamento do modelo estudado j um padro estabelecido. Para elucidar essa tarefa temos o caso do carto de crdito. Se em um determinado ms a fatura foge muito do padro de consumo daquele usurio (includo localidade da compra, valores e tipo de produtos), pode ser um indicio de clonagem de carto, fraude ou uma ocorrncia parecida. B. Tarefas Descritivas Nesta anlise a varredura feita em busca de estabelecer relaes, associaes, descrevendo e caracterizando o modelo, e encontrar informaes relevantes de difcil visualizao. Um ponto interessante deste tipo de anlise que ela pode ser iniciada sem que haja, necessariamente, uma ideia ou hiptese clara estabelecida previamente. Classificao As tarefas de classificao consistem em categorizar os dados em classes previamente definidas de acordo com a similaridade de alguma caracterstica dos dados. Para exemplificar, podemos usar o supermercado, onde os produtos podem ser classificados em frios, laticnios, bebidas, higiene pessoal, etc. Associaes A associao visa identificar grupos de fatos que ocorrem em conjunto ou de forma condicionada. Nela encontramos associaes e relacionamentos entre itens. Os resultados normalmente so expressos em forma de regras de associao. Uma regra de associao uma regra da forma X->Y, onde X e Y so conjuntos de itens significando que se X ocorre em uma transao da base de dados Y tambm tende a ocorrer. A anlise de associao em um banco de dados pode gerar uma grande quantidade de regras de associao. Algumas dessas regras podem no ser interessantes, pois ocorrem com baixas frequncias nos dados. Para contornar esse problema foram definidos parmetros que determinam quais regras so interessantes ou no. Agrupamento Essa tarefa se assemelha com a tarefa de classificao. A diferena que na classificao, as classes so definidas de forma prvia, enquanto que no agrupamento, as classes so definidas durante a tarefa de acordo com o estabelecimento do conjunto de atributos que devem direcionar essa categorizao. Os grupos so formados de acordo com a similaridade desses atributos direcionadores. Descrio Consiste de uma descrio textual de um conjunto de particularidades observadas com frequncia para um determinado evento. comumente utilizada para traar perfis comportamentais. Por exemplo, pessoas envolvidas em fraudes de carto de crdito em geral so homens, entre 25 e 40 anos, com bom nvel de instruo (possivelmente curso superior). Deteco de Sequencias Este tipo de tarefa tem por objetivo estabelecer relacionamentos temporais entre fatos. Por exemplo, 30% dos compradores de notebooks voltam em at um ms pra comprar um mouse. Estimular a compra desses itens em conjunto certamente trar aumento na venda de mouses. Segmentao a subdiviso do conjunto de dados em conjuntos menores atravs da formao de grupos de acordo com alguma distino. A segmentao difere do agrupamento por ser um passo intermedirio. Utiliza-se a segmentao para depois realizar-se uma nova tarefa sobre esses dados segmentados. Por exemplo, podemos segmentar os consumidores por regio e sexo antes de buscar associaes nesses dados segmentados. A inteno nesse caso seria descobrir possveis diferenas de hbitos de compras nas diferentes regies e entre homens e mulheres. C. Tarefas de prognstico Esse tipo de anlise busca inferir um valor ou comportamento futuro ou estimar valores desconhecidos, utilizando como base as informaes colhidas na anlise descritiva. Destacamos duas classes de tarefas aqui: Estimao Podemos estimar um valor desconhecido a partir de valores conhecidos. Por exemplo, analisando o padro de despesas e a idade de uma pessoa, podemos estimar o seu salrio e seu nmero de filhos. Predio o processo de predizer um determinado valor em um instante futuro baseado nos valores conhecidos. Por exemplo, baseado na formao escolar, no seu emprego atual e no ramo de atividade profissional, pode-se predizer o salrio que a pessoa ganhar daqui a alguns anos. A Tabela I mostra de forma resumida as principais tarefas de minerao de dados e suas reas de aplicao:
TABELA I TAREFAS VS APLICAES.
Tarefa Descrio Aplicaes Classificao Constri um modelo de algum tipo que possa ser aplicado a dados no classificados a fim de categoriz-los Classificar pedidos de crditos; Esclarecer pedidos de seguros fraudulentos; Identificar a melhor forma de tratamento de um paciente.
ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 88 V. PRINCIPAIS SOFTWARES NO MERCADO Existem diversas ferramentas gratuitas e pagas para minerao de dados disponveis no mercado. Essas ferramentas agrupam e so capazes de executar diversas etapas do processo de minerao. Na Tabela II apresentamos os principais softwares disponveis:
TABELA II PRINCIPAIS SOFTWARES NO MERCADO. Nome Fabricante Funo Destaque Intelligent Miner IBM Algoritmos para regras de associao, classificao, regresso, padres sequenciais e agrupamento. Integrado com o SGBD DB2 da IBM. Grande escalabilidade dos algoritmos. MineSet Silicon Graphics Inc. Algoritmos para regras de associao, classificao e anlise estatstica. Um robusto conjunto de ferramentas avanadas de visualizao. Clementine Integral Solutions Ltd. Algoritmos de regras de induo, redes neurais, classificao e ferramenta de visualizao. Interface orientada a objeto. DBMiner DBMiner Technology Inc. Algoritmos de regras de associao, classificao e agrupamento. Data Mining utilizando OLAP. Genamics Expression Genamics Developer Algoritmo de anlise de sequencias. Anlise de protenas de sequencias de DNA. Microsoft SQL Server Microsoft Possui 8 algoritmos na verso do SQL Server 2008. A plataforma extensvel para integrao de outros algoritmos desenvolvidos. WEKA The University of Waikato Algoritmos de associao, agrupamento e classificao. Software licenciado ao abrigo da General Public License. KDB2000 Universit Degli Dtudi Di Bari Algoritmos de classificao, regresso, agrupamento e associao. Ferramenta livre em C++ que integra acesso s bases de dados KNIME KNIME Tech Algoritmos de regresso, agrupamento, regras de induo, redes neurais, arvore de deciso, regras de associao e outros. Implementa o paradigma de pipelining de dados. VI. ESTUDO DE CASO A. Identificao do problema O volume de publicaes continua em crescimento assim como a sede de informao em um pas em desenvolvimento como o Brasil. Sejam elas em papel ou em formato eletrnico, importante que as bibliotecas possuam sistemas de informaes capazes de armazenar e indexar informaes bibliogrficas de forma a facilitar a recuperao e disseminao aos usurios. Conhecer o usurio importante e j era uma necessidade do passado, onde o bibliotecrio sabia e conseguia lembrar as preferencias de cada um de seus usurios para fazer recomendaes e ajuda-los a encontrar obras. Hoje se faz necessrio o uso de ferramentas que auxiliem nesse processo. As tcnicas de data mining permitem que se conhea o perfil do usurio, delineando suas preferncias e seus interesses. Esse processo possibilita a personalizao dos processos de recuperao e disseminao da informao, tornando-os objetivos e seletivos. Esta confluncia de acertos caracteriza a relevncia da informao. Pensando nisso e levando em considerao a oportunidade de estarmos inseridos em grande instituio de ensino que o Inatel e poder usufruir dos recursos disponibilizados por sua biblioteca, traou-se o objetivo de desenvolver um sistema para aplicao de data mining na base de dados do Centro de Informaes Cientficas e Tecnolgicas (CICT) do instituto. Mais especificamente, o desenvolvimento desse sistema nos permitiu aplicar na pratica grande parte dos conceitos Estimativa (ou Regresso) Usada para definir um valor para alguma varivel contnua desconhecida Estimar o numero de filhos ou a renda total de uma famlia; Estimar o valor em tempo de vida de um cliente; Estimar a probabilidade de que um paciente morrer baseando-se nos resultados de diagnsticos mdicos; Prever a demanda de um consumidor para um novo produto. Associao Usada para determinar quais itens tendem a co- ocorrerem(serem adquiridos juntos) em uma mesma transao Determinar quais produtos costumam ser colocados juntos em um carrinho de supermercado. Segmentao Processo de partio de uma populao heterognea em vrios subgrupos ou grupos mais homogneos. Agrupar clientes por regio do pas; Agrupar clientes com comportamento de compra similar; Agrupar sees de usurios web para prever comportamento futuro de usurio. Sumarizao Envolve mtodos para encontrar uma descrio compacta para um subconjunto de dados.
Tabular o significado e desvios padro para todos os itens de dados; Derivar regras de sntese. ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 89 estudados ao longo do programa de iniciao cientifica e obter informaes relevantes quanto a padres de utilizao envolvendo os prprios usurios, suas preferencias quanto ao assunto e tipos de artefato utilizados. Tais informaes podem ser usadas pela administrao do CICT ajudando na tomada de decises quanto aquisio de obras, utilizao dos servios, entre outras informaes relevantes. Alm disso, pudemos perceber, tambm na prtica, vrios dos problemas enfrentados na implantao de um sistema como esse. B. Obteno dos dados Mediante a identificao do problema e encontrada uma soluo baseando-se em data mining, fez-se necessrio a busca por recursos que simulassem ou se aproximassem de uma situao real. Posto isso, procuramos inicialmente a administrao do CICT juntamente com setor de TI da instituio em busca desses recursos. As principais fontes dos dados so os sistemas legados utilizados pela instituio. So eles: - Software administrativo mantido pelo CICT que faz toda a automao do controle, cadastro e circulao de todo o material disponvel, composto de uma base de dados e um sistema para atendimento aos usurios. - Sistema de identificao nica de pessoas, mantido pela Seo de Registros Acadmicos. A unio desses sistemas permite fazer a ligao entre o usurio e suas transaes, alimentando uma base de dados onde foi aplicado o data mining. C. Implementao Partindo dos objetivos de estudo foi gerada uma sub-base dados dos sistemas legados da instituio, dessa forma sendo possvel popular a sub-base de dados com as amostras provenientes destes sistemas. O sistema utilizado na biblioteca armazena cada transao feita por um usurio. Nessa transao so armazenados valores referentes ao usurio e artefato em questo. Tomando por base o problema e os dados disponveis, foi desenvolvido um sistema para aplicao de tcnicas de data mining na sub-base de dados gerada. VII. SISTEMA DESENVOLVIDO O sistema desenvolvido tem por objetivo executar o algoritmo de minerao implementado variando-se os atributos de configurao e arquivos de dados que so usados. Atravs dele possvel gerar o arquivo de dados que serve como entrada para o algoritmo, variando-se os atributos que ele contm. Alm disso, possvel configurar os parmetros de execuo do algoritmo, que influenciam na execuo do mesmo e nos resultados obtidos. Na seo VIII.C deste artigo so detalhadas as configuraes e modelos de dados usados para minerao. As seguintes tecnologias foram empregadas no desenvolvimento do sistema: Linguagem Java SE; Banco de dados Oracle; API Weka(API de recursos para data mining); A. Seleo dos dados Aps o reconhecimento das variveis de interesse foi gerado um modelo de dados do sistema. Com a criao desse modelo foi possvel popular o base de dados com as amostras colhidas do sistema. Foram selecionados valores na amostra de itens disponibilizados pela biblioteca, funcionrios e alunos da instituio. Dentre os dados contidos nas amostras esto: Alunos de graduao; Alunos de ps-graduao; Alunos de mestrado; Professores; Funcionrios; Outros (pessoas da comunidade e outras instituies). Artefatos disponveis (livros, CDs, revistas, etc.). Com a seleo das tabelas, excluem-se alguns dados como CPF, Endereo, etc. Essa remoo foi feita devido ao fato de serem usados com finalidades operacionais que no se aplicam a esta pesquisa. Alm disso, todos os nomes de usurios envolvidos foram substitudos por nomes gerados randomicamente com o objetivo de mascarar os verdadeiros nomes. Na Fig. 5 temos o modelo de dados gerado a partir da seleo:
Fig. 5. Representao do modelo de dados gerado. B. Classificao do acervo em grandes reas (CDD) A CDD (classificao decimal de Dewey) consiste em examinar livros de assuntos diversos e encaix-los em uma rea pr-definida por especialistas em biblioteconomia. Este tipo de classificao ajuda muito quando h a necessidade de saber em qual rea um livro ou artefato se encaixa. O objetivo da CDD organizar o acervo de bibliotecas de forma a facilitar o acesso de usurios s informaes contidas nesses acervos. O idealizador deste sistema foi Melvil Dewey, e este sistema bibliogrfico um dos mais utilizados em todo o mundo. A Tabela III mostra como composto o sistema de classificao:
ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 90 TABELA III CLASSIFICAO DECIMAL DE DEWEY.
rea Assunto 000 Generalidades 100 Filosofia 200 Religio 300 Cincias Sociais 400 Lnguas 500 Cincias puras 600 Cincias aplicadas 700 Artes 800 Literatura 900 Histria e geografia
Vale ressaltar que dentro de cada rea pode haver uma subrea e dentro desta ainda podem existir outras ramificaes. Por exemplo, na rea 6 existe a subrea 620 e pode existir uma ramificao 622. C. Pr-processamento dos dados Aps a seleo dos dados, faz-se a verificao da existncia de inconsistncias e/ou erros nas amostras de forma a assegurar a qualidade (completude, veracidade e integridade dos dados). Para contorn-los foi preciso fazer o preenchimento de alguns campos e pequenas correes em outros. Alm disso, foi efetuado o descarte das transaes onde a correo no foi possvel devido natureza ou significncia do campo, de forma a no comprometer o resultado. D. Extrao, transformao e carga dos dados. Para que a minerao possa ser realizada, o sistema desenvolvido necessita de um padro de arquivo para armazenar os valores a serem minerados. Esse arquivo composto de um cabealho que descreve quais campos sero usados e como devem ser tratados pelo algoritmo de minerao. Toda a carga de dados para o algoritmo de minerao feita atravs deste arquivo. Os dados so extrados da sub-base de dados gerada a partir do modelo original escolhido. Aps a extrao, os dados so transformados para serem includos nesse arquivo. Essa transformao inclui converso de datas em valores representativos, binarizao, discretizao, criao de novos atributos, transformao de variveis, etc. E. Anlises preliminares Em qualquer pesquisa fundamental para o pesquisador ter uma viso geral dos dados a serem analisados. A seguir apresenta-se uma anlise descritiva dos dados da amostra envolvidos neste estudo para o perodo registrado. A amostra composta por 22735 ttulos registrados, somando obras de literatura e livros tcnicos de publicao nacional, internacional, da prpria instituio e publicaes peridicas. O nmero total de usurios registrados 5394, estando nessa contagem alunos, ex-alunos, professores, funcionrios e pessoas da comunidade em geral. A seguir apresentado um grfico dessa diviso. Os usurios registrados so aqueles que realizaram uma ou mais transaes. O perodo de registro das transaes efetuadas est compreendido entre julho de 2001 a dezembro de 2011. Nesse espao de tempo foram realizadas 393020 transaes, sendo 383964 de emprstimo e 9056 de reserva. Tivemos uma mdia de 72,86 transaes por usurio.
Fig. 6. Distribuio dos usurios da biblioteca. VIII. APLICAO NO MODELO ESCOLHIDO A. Escolha do algoritmo Toda a movimentao da biblioteca registrada pelo software de gerencia atravs de transaes. Cada transao representa um nico item retirado do acervo ou reservado. Cada usurio pode fazer uma ou mais transaes. Se um usurio retira n itens, sero armazenadas n transaes no banco de dados. Essa forma de armazenamento caracteriza uma possvel tarefa descritiva em minerao dados, mais especificamente para aplicao de algoritmos associativos onde o objetivo identificar grupos de fatos que ocorrem em conjunto ou de forma condicionada. O algoritmo escolhido foi o Apriori, por ser o mais usado e considerado um dos mais eficientes entre os algoritmos associativos. Sua implementao exige uma serie de parmetros de configurao que sero detalhados na subseo a seguir. B. Parmetros Os parmetros de configurao definem o fluxo de execuo do algoritmo e influenciam incisivamente no tempo de execuo. A combinao deles, em alguns casos, pode afetar de maneira significativa o resultado obtido. A seguir so detalhados cada um desses parmetros: car: Se verdadeiro considera que os dados j foram minerados; classIndex: ndice da classe atributo. Se indicada como -1, o ultimo atributo considerado como atributo classe. delta: O algoritmo diminui o suporte de confiana pelo valor especificado em delta, no caso de mineraes mais detalhadas este valor deve ser pequeno, mas como consequncia o tempo de interao aumenta. lowerBoundMinSupport: a menor confiana permitida para exibio de regras por minerao. metricType: o tipo de mtrica a qual sero geradas as regras, Existem quatro tipos: confidence: Mede a probabilidade condicional de P(c) dado A, geralmente da nfase a regras que no esto relacionadas. 83% 6% 10% 1% Usurios Alunos e Ex-alunos Funcionrios Outros Professores ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 91 lift: Mede a distncia para a independncia entra A e C e pode variar entre 0 e infinito. leverage: Mede o numero de casos extras obtidos em relao ao esperado. conviction: Tenta capturar o grau de implicao entre A e C, se nos resultados o valor for 1 indica independncia. minMetric: a menor confiana aceita. numRules: Determina o numero de regras que ser mostrada pelo software; outputItemSets: Se verdadeiro, o software vai mostra os conjuntos de item sets descobertos; removeAllMissingCols: Se verdadeiro remove as colunas de valores dos atributos que estiverem nulos; significanceLevel: teste de significncia (usando somente com a mtrica confidence); upperBoundMinSupport: a menor confiana permitida para exibio de regras por minerao; verbose: se verdadeiro mostra os detalhes da minerao, os passos do algoritmo. C. Arquivo de dados Conforme citado anteriormente, para que seja possvel a minerao preciso usar um arquivo de texto puro contendo os dados para serem minerados. Esse arquivo possui uma extenso .arff, usada em diversos softwares de minerao, onde se descreve as relaes e seus atributos. Partindo do modelo de dados, utilizamos cinco atributos para aplicao do data mining: USUARIO: tipo de usurio da biblioteca; AREA_CONHECIMENTO: Grande rea do livro emprestado segundo a classificao de Dewey; DEVOLUCAO: indica se a devoluo foi feita aps, antes ou na data prevista. OPERACAO: Indica se a operao foi de reserva ou emprstimo; TIPOMIDIA: Indica o tipo de mdia (CD, DVD, livro, revista, etc.). D. Set de configuraes Para execuo do algoritmo de minerao, foi gerada uma tabela variando-se os atributos exigidos. O principal objetivo dessa variao avaliar qual o impacto sobre os resultados e o quanto o tempo de execuo afetado. A Tabela IV relaciona as configuraes usadas e o tempo (ms) gasto na execuo de cada uma delas. TABELA IV CONFIGURAES E TEMPO DE EXECUO. Configurao Resultado Num Mtrica Delta Suporte Mnimo Tempo (ms) N de regras geradas 1 Confidence 0,005 50% 1419634 47 2 Confidence 0,01 50% 732716 47 3 Confidence 0,05 50% 149495 47 4 Confidence 0,07 50% 99435 47 5 Confidence 0,09 50% 85909 47 6 Lift 0,005 50% 1239975 47 7 Lift 0,01 50% 562945 47 8 Lift 0,05 50% 157607 47 9 Lift 0,07 50% 111836 47 10 Lift 0,09 50% 75847 47 11 Leverage 0,005 50% 1309355 47 12 Leverage 0,01 50% 676650 47 13 Leverage 0,05 50% 150087 47 14 Leverage 0,07 50% 115222 47 15 Leverage 0,09 50% 86081 47 16 Conviction 0,005 50% 1331550 47 17 Conviction 0,01 50% 679104 47 18 Conviction 0,05 50% 150135 47 19 Conviction 0,07 50% 95956 47 20 Conviction 0,09 50% 82789 47 IX. RESULTADOS A. Apresentao dos resultados Atravs do modelo proposto e do sistema desenvolvido foi possvel explorar na prtica e de maneira plena e efetiva todas as etapas e procedimentos envolvidos na implantao de uma ferramenta de minerao de dados. Para este estudo de caso, conforme discutido anteriormente, foi aplicada uma tarefa de Classificao em cima do modelo de dados gerado a partir das informaes obtidas. O resultado do algoritmo com os dados totais encontrou 47 regras associativas. As regras geradas seguem o seguinte formato:
Uma regra nesse formato significa que das (C) ocorrncias em que os atributos (A) e (B) estavam presentes, o atributo (D) tambm estava presente em (E) daquelas ocorrncias, portanto gerando uma confiana (F). Exemplificando com uma regra encontrada no trabalho: USUARIO=outros OPERACAO=emprestimo 33433 ==> DEVOLUCAO=exato 28532 conf.: (0.85) A regra acima informa que das 33433 ocorrncias em que usurios externos instituio fizeram uma operao de emprstimo, a data de devoluo foi exata em 28532 dessas ocorrncias, gerando uma confiana de 85% para esta regra. A Tabela V mostra as 10 melhores regras encontradas baseando-se na confiana. TABELA V MELHORES REGRAS ENCONTRADAS.
Ordem Regra Confiana 1 USUARIO=out ros DEVOLUCAO=exat o 28549 ==> OPERACAO=emprest imo 28532 100% 2 USUARIO=out ros 33516 ==> OPERACAO=emprest imo 33433 100% 3 AREA_CONHECIMENTO=cincias aplicadas DEVOLUCAO=exat o 42179 ==> OPERACAO=emprest imo 41337 98% 4 DEVOLUCAO=exat o 99169 ==> OPERACAO=emprest imo 96731 98% 5 AREA_CONHECIMENTO= cincias aplicadas 119005 ==> OPERACAO=emprest imo 115982 97% 6 AREA_CONHECIMENTO= cincias aplicadas DEVOLUCAO=adiant ado 38148 ==> OPERACAO=emprest imo 37175 97% 7 USUARIO=aluno AREA_CONHECIMENTO=Cincias aplicadas DEVOLUCAO=adiant ado 31059 ==> OPERACAO=emprest imo 30129 97% 8 AREA_CONHECIMENTO= cincias aplicadas DEVOLUCAO=at rasado 38678 ==> OPERACAO=emprest imo 37470 97% 9 USUARIO=alunos AREA_CONHECIMENTO= cincias aplicadas 89696 ==> OPERACAO=emprest imo 86784 97% 10 DEVOLUCAO=adiant ado 83744 ==> OPERACAO=emprest imo 80972 97% ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 92 B. Discusso dos resultados O principal objetivo desse sistema foi aplicar na prtica todo o conhecimento terico gerado sobre o processo de descoberta de conhecimento em bases de dados, cujo resultado foi analisado. Entende-se, portanto, que os objetivos foram alcanados. Diante dos resultados apresentados, pode-se perceber que, com a minerao de dados, possvel obter-se uma viso mais abrangente dos dados institucionais da biblioteca, pelo fato de ter sido disponibilizada uma grande quantidade de informaes sobre a circulao de artefatos disponibilizados. Com relao s limitaes e aos problemas envolvendo os dados extrados est a prpria maneira como so registradas as transaes dos usurios, que influencia na abordagem das tcnicas e tarefas de minerao de dados. O ponto de maior dificuldade est na escolha os atributos certos para que se alcance um resultado satisfatrio. Dos dados extrados observando-se os nmeros de artefatos e usurios frequentes, fcil perceber que, um grande volume de transaes feito por alunos na instituio, envolvendo os vrios nveis de educao que a instituio oferece. Porem notvel que um nmero grande de transaes foram feitas por pessoas oriundas da prpria comunidade onde est inserida a instituio e que dessas transaes os tipos de artefato mais frequentes so livros de literatura em geral. Com relao aplicabilidade do processo de minerao de dados, pode-se afirmar que: a partir da verificao da circulao dos artefatos, poderiam ser tomadas decises na compra de novos itens e atendimento ao publico em geral; pode-se analisar os diversos casos de pessoas que fogem ao padro de comportamento observado (outliers), tentando verificar se esse ou no um bom comportamento, se deveria ser seguido, formando um novo padro ou, ao contrrio, ser evitado; a partir dos agrupamentos de artefatos que inicialmente no esto diretamente ligados, alterar a disposio e forma de organizao dos itens no ambiente da biblioteca a fim de melhorar o atendimento ao usurio; a partir de diversos padres de comportamento observados nas informaes que foram apresentadas, decises podem ser tomadas no somente a curto prazo, mas tambm a longo prazo, pois possvel prever de forma segura provveis comportamentos futuros; as diversas regras de associao que foram apresentadas mostram que dados que aparentemente no esto relacionados, na realidade possuem aspectos em comum que podem ser explorados. X. CONCLUSES O objetivo deste artigo foi estudar, analisar e apresentar a tecnologia de minerao de dados como parte do processo de descoberta de conhecimento em banco de dados. Foi feito um estudo terico sobre como esse processo se apresenta, destacando suas funcionalidades, tcnicas e abordagens de aplicao, seguido da distino e conceituao das tarefas, mtodos e recursos, e de que maneira cada elemento desses pode contribuir para o processo de descoberta de padres. Atravs deste estudo foi possvel explorar na pratica as etapas envolvidas em um processo de minerao de dados. Foram elaboradas solues prticas para situaes adversas como limpeza, transformao de dados, entre outras. O processo de descoberta do conhecimento e a minerao de dados fazem parte da evoluo natural de TI e com toda a certeza tendem a crescer muito ainda. A alta competitividade existente hoje no mercado far com que as organizaes procurem cada vez mais esse tipo de soluo. Grandes empresas j utilizam largamente esse tipo de ferramenta atualmente e a tendncia que se torne uma prtica cada vez mais comum alm de evoluda. Por fim, pode-se dizer que os resultados demonstram o potencial que a minerao de dados possui com suas vrias abordagens, tarefas e tcnicas que pode ser usado na gesto de conhecimento disponvel em uma organizao, seja ela de qualquer ramo ou atividade. Diversos padres e associaes foram identificados, porm, h muitas outras descobertas que ainda podem ser feitas aproveitando-se a sub-base de dados criada. Podemos esperar sistemas cada vez mais inteligentes, com maior capacidade de oferecer ao usurio aquilo que ele espera, aquilo que relevante pra ele, graas minerao de dados, que fornece essa capacidade. XI. REFERENCIAS BIBLIOGRFICAS [1] ANDR PONCE DE LEON F. DE CARVALHO. Redes neurais artificiais. Disponvel em: <http://www.icmc.usp.br/~andre/research/neural/>. Acesso em: 24 jan. 2012.
[2] REDE neural. , 2003. Disponvel em: <http://pt.wikipedia.org/wiki/Rede_neural>. Acesso em: 24 jan. 2012. [3] HAYKIN, Simon S.. Redes neurais - princpios e prticas. 2. ed. Porto Alegre: Bookman, 2001. 898 p. [4] PABLO DE ASSIS. O que so redes neurais?. Disponvel em: <http://www.tecmundo.com.br/programacao/2754-o-que-sao- redes-neurais-.htm>. Acesso em: 24 jan. 2012. [5] PR-PROCESSAMENTO em data-mining. , [20--]. Disponvel em: <http://www.din.uem.br/gpea/projetos-de-pesquisa/>. Acesso em: 23 jan. 2012. [6] PITONI, Rafael Moreira. Minerao de regras de associao nos canais de informao do direto. 2002. Monografia (Graduao em Cincia da Computao) - Universidade Federal do Rio Grande do Sul. Porto Alegre.
[7] DESCOBERTA do conhecimento (kdd). , [20--]. Disponvel em: <http://sites.google.com/site/mineracaodedados1b/descoberta-do- conhecimento-kdd>. Acesso em: 19 jan. 2012. [8] ZANUSSO, Maria Bernadete. Data mining: Introduo. , [20--]. Disponvel em: <http://www.dct.ufms.br/~mzanusso/Data_Mining.htm>. Acesso em: 19 jan. 2012. [9] MAURO PICHILIANI. Data mining na prtica: classificao bayesiana. Disponvel em: <http://imasters.com.br/artigo/4926/sql_server/data_mining_na_pr atica_classificacao_bayesiana/>. Acesso em: 22 jan. 2012. [10] RENAN HAMANN. Cientistas divulgam nmeros da quantidade de dados no mundo. Disponvel em: <http://www.tecmundo.com.br/armazenamento/8429-cientistas- divulgam-numeros-da-quantidade-de-dados-no-mundo.htm>. Acesso em: 20 jan. 2012. ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 93 [11] GAMA, Joo. rvores de deciso. , 2002. Disponvel em: <http://www.liaad.up.pt/~jgama/Bdc/arv.pdf>. Acesso em: 23 jan. 2012. [12] PAMPLONA, Edson De O. rvores de deciso. , [20--]. Disponvel em: <http://www.iepg.unifei.edu.br/edson/download/Engecon2/Cap7E E2Arvdecslides.pdf>. Acesso em: 23 jan. 2012. [13] CARVALHO, Daniel Dias de;DIAS, Maxwell Macedo. Descoberta de conhecimento em ambientes virtuais de aprendizagem: um estudo de caso no labsql. 2008. Dissertao (Graduao em Cincia da Computao) - Universidade Federal do Par. Belm [14] WITTEN, Ian H.; FRANK, Eibe. Data mining : practical machine learning tools and techniques with java implementations. San Francisco: Morgan Kaufmann, 2000. 371 p. ANAIS DO CONGRESSO DE INICIAO CIENTFICA DO INATEL - INCITEL 2012 94