Anda di halaman 1dari 35

CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/

AUDITORIA E FISCALIZAÇÃO - GERAL – CGU


PROFa. PATRÍCIA LIMA QUINTÃO

Aula 4 – Mineração de Dados


Olá queridos (as) amigos (as), meus cumprimentos!
A Mineração de dados (ou Data Mining) é o nome dado ao conjunto de
técnicas que permite a extração de conhecimentos a partir de grandes volumes
de dados.
Com relação aos pontos principais cobrados pela ESAF nessa temática,
merecem destaque: Técnicas e Tarefas de Mineração de Dados. Processo
da Mineração de Dados. Na parte de conceitos básicos, destacamos ainda a
base relacionada ao contexto de um DataWarehouse, etc.
Algumas referências bibliográficas importantes nesta área: observe que
a ESAF já tirou conceitos interessantes para o tema desta aula da 2ª. edição
do livro Data Mining Techniques, ora ilustrado. Agora temos nova versão deste
livro, aqui também destacada.

Todos prontos!!! Então vamos nessa, rumo à nossa aula, apresentada a


seguir, com uma estrutura envolvendo teoria/exercícios. Espero que
aproveitem e tenham muito sucesso nos estudos rumo à aprovação no
tão almejado concurso!
Grande abraço,
Profa Patrícia Lima Quintão
Twitter: http://www.twitter.com/pquintao
Facebook: http://www.facebook.com/patricia.quintao

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 1 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

1. O Contexto Atual
De 1990 em diante, o volume de informações armazenadas em meio eletrônico
cresceu aceleradamente. Estudos mostram que a quantidade de informação
no mundo dobra a cada 20 meses, e como consequência o tamanho e a
quantidade de banco de dados espalhados pelo mundo cresce ainda mais
aceleradamente.

Figura. O Tsunami de Dados, O que é e como nos afeta?


“Estamos nos afogando em informação mas com sede de
conhecimento” – John Naisbitt, Megatrends (1984).
E que valor tem esses dados armazenados? Por que tanta informação precisa
ser mantida de modo cumulativa e não é simplesmente descartada pouco
tempo depois do seu uso?
O fato é que nesse meio há um amontoado de dados que estão
gravados nos bancos de dados e também há muita informação não
explorada que poderia ser de grande valia para o suporte às decisões
nas grandes corporações, governos, universidades e outros.
Há nesse enxame de dados, tidos como desnecessários por alguns, padrões e
tendências que se descobertos podem ser úteis para entender e otimizar os
processos de negócio em empresas, ajudar a entender melhor os resultados de
experiências científicas, colaborar com a medicina no entendimento e
tratamento de casos de epidemias, e muitos outros.
É justamente nesse cenário que entra em cena o Data Mining (Mineração de
Dados). Pode ser entendido também como um campo de estudo que procura
encontrar informações que estão implícitas, ou seja, procura padrões e
tendências ocultas em base de dados.
Um exemplo de Data Mining muito comum são as previsões meteorológicas,
em que é utilizado como forma de prever as alterações climáticas. Para tanto,
são analisados os registros climáticas dos últimos 10 a 20 anos e procura-se
identificar os padrões de alterações climáticas nesses períodos a fim de se
conseguir prever as próximas alterações. Assim, o Data Mining exerce a função
de identificar padrões e tendências meteorológicas.
Esse novo campo de estudos que é o Data Mining já é tido como crítico para os
negócios das grandes empresas e continua a crescer, já que o uso das
informações obtidas através de mineração de dados tornou-se imprescindível
Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 2 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

para a sustentação da competitividade no ambiente comercial dos dias de


hoje. E também, alia-se a isso, o fato de que com o armazenamento de
grandes quantidades de dados num local comum e também o contínuo avanço
da capacidade de processamento dos computadores, os empresários passaram
a procurar por tecnologias para extração de informação útil em meio aos
infindáveis amontoados de dados.

2. O Processo de Descoberta de Conhecimento em Base de Dados (KDD


- Knowledge Discovery in Databases)
• “É o processo não trivial de identificação de padrões/modelos em dados
que sejam válidos, novos, potencialmente úteis e compreensíveis.”
• “É uma tarefa cujo uso de conhecimento é intensivo, consistindo de
complexas interações, prolongadas no tempo, entre uma pessoa e um
banco de dados, possivelmente suportada por um conjunto heterogêneo de
ferramentas.”
KDD é pluridisciplinar pois envolve banco de dados, técnicas de estatísticas,
redes neurais, de aprendizado de máquinas, de reconhecimento de padrões e
de visualização de dados.
Fayyad et al. (1996) destaca o processo de descoberta de conhecimento de
forma mais simplificada, baseada em três etapas: Preparação, Data Mining e
Análise de Dados. Vejamos cada uma delas:
• Preparação: É a etapa que trata de preparar os dados antes de serem
submetidos às técnicas de Data Mining. Nessa etapa os dados são
selecionados (Quais dados são importantes?), purificados (Retirar as
inconsistências e incompletude de dados) e pré-processados
(reapresentá-los de uma forma adequada para o processo de Data Mining).
Esse passo é executado sob a supervisão de um especialista, pois é
necessária a colaboração de uma pessoa apta para definir quais dados são
relevantes e também para definir o que fazer com os dados antes de
utilizá-los no Data Mining.
• Data Mining: É a etapa em que os dados preparados são processados, ou
seja, é onde se faz a mineração dos dados propriamente dita. O principal
objetivo desse passo é transformar os dados de uma maneira que permita a
identificação mais fácil de informações importantes. O que se tenta fazer
nessa etapa é identificar padrões de comportamento, por exemplo, pode ser
verificado que 75% dos clientes de um supermercado que compram um
produto X também compram um produto Y. Essa informação pode levar as
empresas a criarem novos planos de marketing em cima dos produtos X e
Y. Portanto, esses padrões e associações, vão compor o conhecimento da
empresa sobre o negócio em que atua, ajudando-a a obter maiores lucros e
aumentar a satisfação de seus clientes.
O Data Mining é uma etapa do KDD em que são aplicadas técnicas
para identificação de padrões sobre os dados disponíveis. Tais dados
estão disponíveis em meios digitais, e comumente são trabalhados os dados

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 3 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

que estão em bases de dados. Mais adiante estudaremos as principais


técnicas que podem ser aplicadas nos processos de Data Mining.
Esse processo como um todo tem o intuito de trabalhar os dados
registrados ao longo do tempo de vida de um negócio a fim de se identificar
padrões que representam alguma informação sobre o comportamento do
negócio. E em função dessas informações busca-se identificar conhecimento
que possa conduzir a melhores decisões sobre o negócio. Esse processo
de Descoberta de Conhecimento sendo repetido continuamente
resultará em sabedoria sobre o domínio de negócio para os
tomadores de decisões.

Fonte: Navega, 2002


Nota
O que é DADO?
◦ Dado é a estrutura fundamental sobre a qual um sistema de informação é
construído.
O que é INFORMAÇÃO?
◦ A transformação de dados em informação é frequentemente realizada através
da apresentação dos dados em uma forma compreensível ao usuário.
O que é CONHECIMENTO?
◦ Fornece a capacidade de resolver problemas, inovar e aprender baseado em
experiências prévias.
◦ Uma combinação de instintos, ideias, regras e procedimentos que guiam as
ações e decisões.

Importante observar...
◦ Dado NÃO é Informação.
◦ Informação não é Conhecimento.
◦ Conhecimento não é Inteligência.
◦ Inteligência não é Sabedoria.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 4 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

• Análise de Dados: Aqui o resultado do Data Mining é avaliado, com o


objetivo de determinar se algum conhecimento adicional foi descoberto,
assim como definir a importância dos fatos gerados. Nessa etapa, várias
formas de análise podem ser utilizadas, por exemplo: o resultado do Data
Mining pode ser expresso em um gráfico, em que análise dos dados passa a
ser uma análise do comportamento do gráfico.

Figura. Etapas do Processo de Descoberta de Conhecimento


A figura seguinte ilustra o processo proposto por Usama Fayyad, Gregory
Piatetsky-Shapiro e Padhraic Smyth (1996).

Figura. Processo de KDD. Adaptação da proposta realizada por Usama Fayyad,


Gregory Piatetsky-Shapiro e Padhraic Smyth (1996)
O processo de KDD é interativo (pois o usuário pode intervir e controlar o
curso das atividades) e iterativo (por ser uma sequência finita de operações
em que o resultado de cada uma é dependente dos resultados das que a
precedem).

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 5 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

A seguir, daremos uma visão geral de cada uma das fases.


**Entendimento do domínio da aplicação e identificação do objetivo do
processo de KDD.

**Seleção dos dados


A fase de seleção dos dados é a primeira no processo de descobrimento de
informação. Nesta fase é escolhido o conjunto de dados, pertencente a um
domínio, contendo todas as possíveis variáveis (também chamadas de
características ou atributos) e registros (também chamados de casos ou
observações) que farão parte da análise. Normalmente a escolha dos dados
fica a critério de um especialista do domínio.
O processo de seleção é bastante complexo, uma vez que os dados podem vir
de uma série de fontes diferentes (data warehouses, planilhas, sistemas
legados) e podem possuir os mais diversos formatos. Este passo possui
impacto significante sobre a qualidade do resultado do processo.

**Pré-processamento e limpeza dos dados


Esta é uma parte crucial no processo, pois a qualidade dos dados vai
determinar a eficiência dos algoritmos de mineração. Nesta etapa deverão ser
realizadas tarefas que eliminem dados redundantes e inconsistentes,
recuperem dados incompletos e avaliem possíveis dados discrepantes ao
conjunto (outliers). Mais uma vez o auxílio do especialista do domínio é
fundamental. Nesta fase também são utilizados métodos de redução ou
transformação para diminuir o número de variáveis envolvidas no processo,
visando com isto melhorar o desempenho do algoritmo de análise.
-Dados ausentes (missing values)
Um problema bastante comum nesta fase é a ausência de valores para
determinadas variáveis. Em outras palavras, registros com dados incompletos,
seja por falhas no processo de seleção ou de revisão. O tratamento destes
casos é necessário para que os resultados do processo de mineração sejam
confiáveis. Existem basicamente três alternativas de solução para esse
problema: usar técnicas de imputação (fazer a previsão dos dados ausentes e
completá-los individualmente); substituir o valor faltante pela média aritmética
da variável; excluir o registro inteiro.
-Dados discrepantes (outliers)
Dados que possuem valores extremos, atípicos ou com características bastante
distintas dos demais registros são chamados de discrepantes, ou outliers.
Normalmente, registros que contêm valores outliers são descartados da
amostra, porém isto só deve ocorrer quando o dado outlier representar um
erro de observação, de medida ou algum outro problema similar.
O dado deve ser cuidadosamente analisado antes da exclusão, pois embora
atípico, o valor pode representar um dado verdadeiro. Outliers podem

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 6 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

representar, por exemplo, um comportamento não usual, uma tendência ou


ainda transações fraudulentas.
-Dados derivados
Muitas das variáveis de uma população apresentam relacionamentos entre si.
Sendo assim, se houver a necessidade de dados que não estejam disponíveis,
é possível tentar obtê-los através da transformação ou combinação de outros.
Estes dados são chamados de dados derivados. Um exemplo de um dado que
pode ser calculado a partir de outro é a idade de um indivíduo, que pode ser
encontrada a partir de sua data de nascimento.

**Transformação dos dados


Após serem selecionados, limpos e pré-processados os dados necessitam ser
armazenados e formatados adequadamente para que os algoritmos de
aprendizado possam ser aplicados. Em grandes corporações é comum
encontrar computadores rodando diferentes sistemas operacionais e diferentes
Sistemas Gerenciadores de Bancos de Dados (SGDB). Estes dados que estão
dispersos devem ser agrupados em um repositório único.

**Mineração de dados (Data Mining)


Todas as etapas do processo de KDD possuem grau elevado de importância
para o sucesso do mesmo. Entretanto, é a etapa de Mineração de Dados (data
mining) que recebe o maior destaque na literatura.
Conforme BERRY e LINOFF (1997), data mining é a exploração e análise,
de forma automática ou semi-automática, de grandes bases de dados
com objetivo de descobrir padrões e regras. O objetivo principal do
processo de data mining é fornecer as corporações informações que a
possibilitem montar melhores estratégias de marketing, vendas e suporte,
melhorando assim os seus negócios.

**Interpretação e avaliação
Esta é mais uma fase que deve ser feita em conjunto com um ou mais
especialistas no assunto. O conhecimento adquirido através da técnica de data
mining deve ser interpretado e avaliado para que o objetivo final seja
alcançado.
Caso o resultado não seja satisfatório, o que não é raro, o processo pode
retornar a qualquer um dos estágios anteriores ou até mesmo ser recomeçado,
conforme pode ser observado na Figura.
Duas das ações mais comuns caso o resultado não seja satisfatório são:
modificar o conjunto de dados inicial e/ou trocar o algoritmo de data mining
(ou ao menos alterar suas configurações de entrada).

**Agir a partir do conhecimento descoberto.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 7 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

O processo de KDD segundo outros autores, como Terra (2000) pode ser visto
a seguir:

Figura. Proposta de processo de KDD (TERRA, 2000)

Figura. Metodologia CRISP-DM (CRoss Industry Standard Process for Data


Mining), obtido em www.crisp-dm.org

A seguir destacamos uma visão geral do ciclo de vida de um projeto de


mineração de dados destacado na figura anterior.
Entendimento do Foco no entendimento do negócio que visa obter
Negócio conhecimento sobre os objetivos do negócio e seus
requisitos.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 8 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Seleção dos Dados Consiste no entendimento dos dados, que visa à


familiarização com o banco de dados pelo grupo de
projeto, utilizando-se de conjuntos de dados "modelo".
Limpeza dos Fase de preparação de dados, que consiste na
Dados preparação dos dados buscando a limpeza, a
transformação, a integração e a formatação dos dados
da etapa anterior.
Modelagem dos Fase que consiste na modelagem dos dados, a qual visa
Dados a aplicação de técnicas de modelagem sobre o conjunto
de dados preparado na etapa anterior.
Técnicas são baseadas em conceitos de:
– Aprendizagem de máquina;
– Reconhecimento de padrões;
– Estatística.
Avaliação do Visa garantir que o modelo gerado atenda às
processo expectativas da organização. Os resultados do processo
de descoberta do conhecimento podem ser mostrados
de diversas formas.
Execução Esta fase consiste na definição das fases de implantação
do projeto de Mineração de Dados.
Em outra visão temos:

Figura. Fonte: Cavalcanti (2012)

Mineração de Dados (Data Mining)x DataWarehouse


Nesse momento, cabe destacar a diferença entre o Data Mining e o Data
Warehouse, cobrada pela ESAF.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 9 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

• DataWarehouse (DW) – propõe sustentar a tomada de decisão com


dados. Trata-se de uma coleção de dados orientada por assunto,
integrada, não-volátil, variante no tempo, que dá apoio às decisões da
administração.
o Orientado a assunto: refere-se ao fato do Data Warehouse (DW)
ser organizado conforme diferentes visões de negócio, ou seja,
armazena informações sobre temas específicos importantes para o
negócio da empresa.Ex: Vendas, Compras, etc.
o Integrado: a partir de fontes de dados heterogêneas.
o Não volátil: os dados são sempre inseridos, nunca excluídos. Em um
DW não existem alterações de dados, somente a carga inicial e as
consultas posteriores.
o Variável com tempo: posições históricas das atividades no tempo.
O Data Warehouse é um armazém centralizado de dados, ou seja, um
banco de dados ou um agrupamento de bases de dados que contêm dados
sobre os negócios organizados por assunto.
Por exemplo, uma indústria automotiva poderia ter um Data Warehouse
com uma base dados destinada a armazenar registros inerentes ao setor de
Vendas. Poderia haver também uma outra base dados que contivesse dados
inerentes ao departamento de Produção de Automóveis. A cada uma
dessas bases de dados dar-se o nome de Data Mart, e ao
agrupamento de todos esses Data Marts damos o nome de Data
Warehouse.
• Os processos de Data Mining são muito facilitados quando a empresa já
possui seu Data Warehouse bem estruturado. É justamente por isso, que
esses dois termos Data Warehouse e Data Mining caminham tão juntos.
Pois, as empresas comumente irão primeiramente amadurecer seus
processos de organização dos dados sobre o negócio e agrupá-los por
assunto, formando seus Data Marts e em seguida compondo seu Data
Warehouse, para após, iniciar seus processos de Data Mining a fim de
encontrar algum conhecimento de valor em meio aos dados sobre o
negócio.
A utilização de um data warehouse ajuda o KDD de duas formas
importantes:
• Preparação dos dados: como as organizações são forçadas a pensar
sobre uma visão lógica unificada da grande variedade de dados e bases de
dados que elas possuem, elas têm que lidar com as questões de
mapeamento de dados para uma convenção única de nomes, representação
uniforme e manipulação de dados faltosos, e manipulação de ruídos e erros
quando possível.
• Acesso aos dados: métodos uniformes e bem definidos devem ser criados
para acessar os dados e fornecer caminhos de acesso aos dados que eram
historicamente difíceis de obter.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 10 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Uma vez que as organizações e indivíduos resolveram o problema de como


armazenar e acessar os dados, o próximo passo natural é a questão “o que
fazer com todos estes dados?” Aqui é onde as oportunidades para o KDD
surgem naturalmente. Além disso, se o problema envolve pessoas, então
devem ser realizadas as devidas considerações em relação à privacidade.

3. Data Mining (ou Mineração de Dados)


Nos seus primeiros anos o Data Mining foi popularmente tratado como
sinônimo de Descoberta de Conhecimento em Base de Dados (da sigla em
inglês KDD - Knowledge Discovery in Databases). Mas na visão de muitos
pesquisadores Data Mining deve ser entendido como um passo da
descoberta de conhecimento, independentemente se será sobre uma
base de dados ou sobre quaisquer outros repositórios de
conhecimento.
O Data Mining (Mineração de Dados) é entendido como o processo de
identificar informações relevantes, tais como padrões, associações,
mudanças, anomalias e estruturas, em grandes conglomerados de
dados que estejam em banco de dados ou outros repositórios de
informações.
“A mineração de dados é um campo interdisciplinar que reúne
técnicas de aprendizado de máquina, reconhecimento de padrões,
estatísticas, banco de dados e visualização para abordar a questão
da extração de informações a partir de grandes bases de dados”
(Evangelos Simoudis, citado em Daniel T. Larose, Discovering
Knowledge in Data – An Introduction to Data Mining).
Fayyad (Fayyad et al. 1996) sintetiza Data Mining como “o processo não-
trivial de identificar, em dados, padrões válidos, novos,
potencialmente úteis e ultimamente compreensíveis”.
Importante
-Mineração de Dados (ou Data Mining)-
Etapa do processo de KDD. Corresponde à execução de um algoritmo
particular que, sob algumas limitações aceitáveis de eficiência computacional,
encontra padrões ou modelos nos dados.
É o processo de análise de conjuntos de dados que tem por objetivo a
descoberta de padrões interessantes e que possam representar
informações úteis.
Um conceito já cobrado pela banca foi proposto na edição antiga do livro “Data
Mining Techniques: For Marketing, Sales, and Customer Support” , listada a
seguir:

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 11 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Caiu em prova!
A mineração de dados é a exploração e análise, por meios automáticos ou
semiautomáticos, de grandes quantidades de dados a fim de descobrir
padrões e regras significativas (1997).
Na edição mais atual do livro o conceito é o seguinte:
A mineração de dados é um processo de negócio para explorar grandes
quantidades de dados para descobrir padrões e regras significativas
(2011).

Motivos que Potencializam o Uso do Data Mining


• O volume de dados disponível atualmente é enorme.
• Os dados estão sendo organizados.
• Os recursos computacionais estão cada vez mais potentes.
• A competição empresarial exige técnicas mais modernas de decisão.
• Programas comerciais de mineração de dados já podem ser adquiridos.

Quando a Mineração de Dados é mais Indicada?


Hoje praticamente não existe nenhuma área de conhecimento em que técnicas
de data mining não possam ser usadas. Entretanto existem áreas onde o uso
tem sido mais frequente, como por exemplo:
— Marketing: redução dos custos com o envio de correspondências através
de sistemas de mala direta a partir da identificação de grupos de clientes
potenciais;
— Detecção de fraude: reclamações indevidas de seguro, chamadas
clonadas de telefones celulares, compras fraudulentas com cartão de
crédito;
— Produção: empresas desenvolvem sistemas para detectar e diagnosticar
erros na fabricação de produtos. Estas falhas são normalmente agrupados
por técnicas de Análise de Agrupamentos.
As áreas em que as aplicações de mineração de dados são mais bem sucedidas
possuem estas características:
• exigem decisões baseadas em conhecimento;
• possuem um ambiente em mudança constante;
• possuem dados acessíveis, suficientes, e relevantes;
• fornece um retorno significativo para decisões corretas.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 12 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Algumas Falácias de Data Mining


• Data Mining é automático: é um processo, é iterativo, requer
supervisão.
• Investimentos são recuperados rapidamente: depende de muitos
fatores!
• Software são intuitivos e simples: é mais importante conhecer os
conceitos dos algoritmos e o negócio em si!
• Data Mining (DM) pode identificar problemas no negócio: DM pode
encontrar padrões e fenômenos, identificar causa deve ser feito por
especialistas.
Adaptado de Daniel T. Larose, Discovering Knowledge in
Data – An Introduction to Data Mining, e citado por
http://www.lac.inpe.br/~rafael.santos.

Tarefas de Mineração de Dados


A tarefa consiste na especificação do que queremos buscar nos dados. Nesse
caso temos: tipo de regularidades ou categoria de padrões que temos
interesse em encontrar; tipo de padrões que poderiam nos surpreender (por
exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos
padrões usuais de seus gastos).

As tarefas básicas da mineração de dados, e seus respectivos objetivos


principais, são:

**Análise de Clusters (Agrupamentos)


A tarefa consiste em identificar agrupamentos de objetos, agrupamentos estes
que identificam uma classe.
Por exemplo, poderíamos aplicar análise de clusters sobre o banco de dados de
um supermercado a fim de identificar grupos homogêneos de clientes.
• Clientes residentes em determinados pontos da cidade costumam vir ao
supermercado aos domingos.
• Enquanto clientes residentes em outros pontos da cidade costumam fazer
suas compras às segundas-feiras.
Por exemplo, pode-se agrupar as casas de uma área de acordo com sua
categoria, área construída e localização geográfica.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 13 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

**Detecção de Desvios (Análise de Outliers)


Um banco de dados pode conter dados que não apresentam o comportamento
geral da maioria.
• Estes dados são denominados outliers(exceções).
• Muitos métodos de mineração descartam estes outliers como sendo ruído
indesejado.
• Entretanto, em algumas aplicações, tais como detecção de fraudes, estes
eventos raros podem ser mais interessantes do que eventos que ocorrem
regularmente.

**Análise de regras de Associação


É a descoberta de relações de associação ou correlações entre um conjunto de
itens. Eles são destacados frequentemente na forma de regras que mostram as
condições atributo-valor que acontecem frequentemente juntas em um
determinado conjunto de dados.
Uma regra de associação é um padrão da forma X ->Y , onde X e Y são
conjuntos de valores.

**Análise de Padrões Sequenciais


Um padrão sequencial é uma expressão da forma < i1;.....; in >, onde cada i é
um conjunto de itens. A ordem em que estão alinhados estes conjuntos reflete
a ordem cronológica em que aconteceram os fatos representados por estes
conjuntos.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 14 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

**Classificação
Classificar um novo objeto é determinar com que grupo (ou classe) de
objetos, já classificados anteriormente, esse novo objeto apresenta
mais semelhança.
É o processo de encontrar um conjunto de modelos (funções) que descrevem e
distinguem classes ou conceitos, com o propósito de utilizar o modelo para
predizer a classe de objetos que ainda não foram classificados.
Por exemplo, a descrição de classe pode ser usada para comparar as vendas
européias e asiáticas de uma companhia, identificar os fatores importantes que
discriminam as duas classes e apresentar um resumo conciso.

A tarefa de classificação é supervisionada (supervised learning), pois os dados


de treinamento (conjunto de treinamento) são fornecidos com suas classes
reais, previamente definidas. O conjunto de treinamento corresponde à base
de dados submetida ao algoritmo de classificação, a partir da qual serão
obtidos os padrões de classificação.

A qualidade de uma descrição estrutural de classificação pode ser avaliada com


a utilização de novos dados, com classes já conhecidas: os chamados dados de
teste (ou conjunto de teste). Tem-se, então, o conjunto de treinamento para
obter os padrões de classificação e o conjunto de teste para validar os padrões
obtidos. É comum, a partir de uma base de dados a ser minerada, que seja
separado um conjunto de instâncias para o treinamento e o restante é utilizado
como conjunto de teste.
A taxa de sucesso nos dados de teste pode fornecer uma medida objetiva da
qualidade do conceito aprendido. Entretanto, em muitas situações práticas o
sucesso é medido subjetivamente.
Exemplos de aplicações para a tarefa de classificação:
• predição de atrito com cliente;
• utilização de DNA para diagnóstico;
• prever se deve haver jogo ou não, com base em dados sobre o tempo.

Utilizando por exemplo uma base de dados sobre o tempo (com a classe
“jogar?”), que utiliza apenas atributos nominais (ou categóricos), pode-se
obter as seguintes regras de classificação:

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 15 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Utilizando-se os dados sobre o tempo, com atributos numéricos, pode-se obter


as seguintes regras de classificação:

Existem ainda outras tarefas ou variações das tarefas apresentadas,


sendo essas outras menos utilizadas.
Algumas dessas tarefas vistas até aqui são melhor abordadas de
forma top-down, chamado teste de hipóteses. Em testes de
hipóteses, um comportamento armazenado no banco de dados passado
é utilizado para verificar ou refutar notações preconcebidas, ideias e
palpites referentes às relações nos dados.
Outras tarefas são melhor abordadas de forma bottom-up, chamado
de descoberta de conhecimento (Knowledge discorvery). Na descoberta
de conhecimento, sem suposições prévias, os dados são autorizados a
falar por si.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 16 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Outra Classificação para as Tarefas


As tarefas básicas de mineração de dados podem ser classificadas, também, de
uma forma geral, em:
• Tarefas de Predição (Preditivas): Essas tarefas realizam uma
inferência sobre os dados atuais para fazer previsões sobre os
mesmos. Esta é a forma de utilização do Data Mining em que após a
identificação dos padrões de comportamento dos dados realiza-se modelos
de simulação para dados futuros a fim de se prever comportamentos
futuros do negócio. Em suma, aqui se faz uso do Data Mining para se
simular o comportamento dos negócios da empresa e ajudar a prever
resultados futuros.
O objetivo destas tarefas é PREVER O VALOR DE UM DETERMINADO
ATRIBUTO BASEADO NOS VALORES DE OUTROS ATRIBUTOS. O
atributo a ser previsto é comumente conhecido como a variável
dependente ou alvo, enquanto que os atributos usados para fazer a
previsão são conhecidos como as variáveis independentes ou
explicativas.
Ela envolve a descoberta de um conjunto de atributos relevantes para o
atributo de interesse e prediz a distribuição do valor baseada no valor do
conjunto de dados semelhantes ao(s) objeto(s) selecionado(s).
Por exemplo, o salário potencial de um empregado pode ser predito
baseado na distribuição do salário de empregados semelhantes na
companhia. Usualmente, são usadas em conjunto com essa técnica algumas
ferramentas do campo de estatística como análise de regressão, modelo
linear generalizado, análise de correlação e também ferramentas do campo
de qualidade de processos como árvores de decisão.

• Tarefas de Descrição (Descritivas): Caracterizam as propriedades gerais


dos dados em um banco de dados. Tem o objetivo de descrever o conjunto
de dados de uma maneira concisa e resumida e apresenta propriedades
gerais e interessantes dos dados. Em suma, essa é forma de utilização do
Data Mining em que se deseja apenas identificar padrões de
comportamento e descrever os grupos de dados dentro desses padrões.
Aqui, o objetivo é DERIVAR PADRÕES (correlações, tendências,
grupos, trajetórias e anomalias) que resumam os relacionamentos
subjacentes nos dados. As tarefas descritivas da mineração de dados são
muitas vezes exploratórias em sua natureza e frequentemente requerem
técnicas de pós-processamento para validar e explicar os resultados.

A divisão apresentada para as tarefas básicas de mineração de dados facilita o


entendimento do principal objetivo de cada tarefa. Entretanto, nem sempre é
fácil classificar uma tarefa como preditiva ou descritiva, pois alguns
modelos preditivos podem ser descritivos, por serem compreensíveis,
e vice-versa. Como exemplo temos:
Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 17 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Finalizando, é importante ressaltar que mineração de dados não é um processo


que pode ser feito às cegas: deve haver uma fase de prospecção para verificar
a aplicabilidade e rentabilidade do empreendimento, e uma compreensão
mínima dos dados e do que se espera obter deles para que os resultados
sejam compreensíveis e aproveitáveis.
Considerações Finais
Olá pessoal,
Por hoje, ficamos por aqui. Até a próxima aula com inúmeros exercícios para
fixação da matéria! Fiquem com Deus e ótimos estudos!
Um abraço, Profa Patrícia.

Referências Bibliográficas
BERRY, M. J. A.; LONOFF, G.. Data Mining Techniques: for Marketing, Sales
and Customer Support. New York: John Wiley & Sons, Inc., 1997.
BERSON, Alex; SMITH, Stephen; THEARLING, Kurt. Building Data Mining
Applications for CRM. USA, New York: MacGrawHill, 1999.
DINIZ, Carlos Alberto; LOUZADA NETO, Francisco. Data Mining: uma
introdução. São Paulo: ABE, 2000.
ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 4. ed. Pearson.
2006.
FAYYAD, Usama; PIATETSKI-SHAPIRO, Gregory; SMYTH, Padhraic (1996) The
KDD Process for Extracting Useful Knowledge from Volumes of Data.
In: Communications of the ACM, pp.27-34, Nov.1996.
HAN, J.; KAMBER, M.. Data Mining: concepts and techniques. Morgan
Kaufmann, 2001.
HERNANDEZ, Michael J. Aprenda a projetar seu próprio banco de dados.
Tradução Patrizia Tallia Parenti. São Paulo: Makron, 2000.
HEUSER, Carlos Alberto. Projeto de banco de dados. 4. ed. Porto Alegre:Sagra,
2001.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 18 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

KORTH, Henry F.; SILBERSCHATZ, Abraham. Sistema de banco de dados. 3.


ed. São Paulo: Makron, 1998.
MACHADO, Felipe Nery Rodrigues; ABREU, Maurício Pereira de. Projeto de
banco de dados: uma visão prática. 6. ed. São Paulo: Érica, 2000.
Navega, Sérgio. Princípios Essenciais do Data Mining. São Paulo:
Cenadem, 2002.
PRASS, Fernando Sarturi . KKD: Processo de descoberta de conhecimento em
bancos de dados. Grupo de Interesse Em Engenharia de Software,
Florianópolis, v. 1, p. 10-14, 2004.
QUINTÃO, Patrícia Lima. Notas de aula, 2012.
ROB, Peter; CORONEL, Carlos. Sistemas de Banco de Dados. Projeto,
Implementação e Administração. 2011.
TAN, Pang – Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao
DATAMINING Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna
Ltda, 2009.
WITTEN I.; FRANK E.. Data Mining. Morgan Kauffmann, 2000.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 19 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Lista de Questões Comentadas Nesta Aula

1. (FGV/SEFAZ-RJ/Fiscal de Rendas/2007) DataWarehouse e


DataMining são recursos utilizados por muitas organizações para
facilitar e agilizar o processamento, a análise e a consulta de dados.
Sobre esses recursos, é correto afirmar que:
(A) um DataMining armazena dados extraídos de bancos de dados de
diferentes organizações.
(B) um DataWarehouse armazena dados por períodos não superiores a três
meses, o que dificulta previsões e análises de tendência.
(C) um DataWarehouse é repositório de dados históricos orientados a
assunto, organizados para serem acessíveis para atividades de
processamento analítico.
(D) DataMining é uma técnica de análise de dados exclusiva para aplicação
em um DataWarehouse.
(E) num DataWarehouse, os usuários finais necessitam conhecer linguagem
de programação para acessar dados.

Comentários
Bill Inmon destaca que o “Data Warehouse é uma coleção de dados
orientados por assuntos, integrados, variáveis com o tempo e não
voláteis, para dar suporte ao processo de tomada de decisão.“
O Data Warehouse é um banco de dados multidimensional grande, de escopo
organizacional (ou seja, abrange toda a empresa) e reúne dados de todos os
departamentos de forma a permitir a busca rápida de informações para auxiliar
a tomada de decisões estratégicas.
A principal ideia do Data Warehouse é construir um depósito no qual será
mantida a memória histórica dos dados, possibilitando a utilização dos
mesmos para consulta e análise estratégica para a tomada de decisão!!
• Data Mart: é um banco de dados multidimensional de escopo
departamental (ou seja, abrange apenas um determinado departamento).
“Um subconjunto lógico do Data Warehouse, geralmente visto como um
data warehouse setorial” (Kimball).
As diferenças entre o Data Mart e o Data Warehouse são apenas com
relação ao tamanho e ao escopo do problema a ser resolvido.
• Data Mining (ou Mineração de dados): define uma série de
procedimentos, técnicas e ferramentas para recuperar e analisar dados de
um Data Warehouse ou Data Mart à procura de padrões e tendências a
respeito dos dados armazenados.
Gabarito: letra C.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 20 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

2. (FCC/2010/TCE-SP) Considere uma dada população de eventos ou novos


itens que podem ser particionados (segmentados) em conjuntos de
elementos similares, tal como, por exemplo, uma população de dados sobre
uma doença que pode ser dividida em grupos baseados na similaridade dos
efeitos colaterais produzidos. Como um dos modos de descrever o
conhecimento descoberto durante a data mining este é chamado de
(A) associação
(B) otimização
(C) classificação.
(D) clustering
(E) temporização
Comentários
O enunciado da questão trata de uma das técnicas de Data Mining, por isso
vamos analisar item a item para identificar qual delas melhor se encaixa com a
descrição dada no enunciado.
A letra A cita a Associação, que é uma técnica de Data Mining que busca
encontrar padrões do tipo associativo. Um exemplo disso seria tentar verificar
numa base de dados de uma loja Virtual, se para cada cliente com mais de 40
anos, e que compram livros com frequência quais são os seus estilos literários.
A partir desse tipo de conhecimento, a loja virtual poderia customizar suas
promoções para esse nicho de clientes.
A letra B cita a Otimização. A Otimização não é uma técnica de Data Mining.
De fato, otimizar seus processos e suas vendas é um objetivo das empresas
quando iniciam seus trabalhos no campo de Data Mining. Mas otimização não é
uma técnica de Data Mining.
A letra C cita a Classificação, que é na verdade uma técnica de Data Mining
que produz um conhecimento que permite a classificação dos registros atuais e
dos futuros registros conforme regras de classificação. Por exemplo, numa
base de dados de um hospital, pode-se tentar verificar classes de doenças
como doenças respiratórias, doenças cardiovasculares entre outras classes.
A letra D cita a técnica de Clustering, que é o mesmo que agrupamento. Com o
uso dessa técnica busca-se observar e identificar se há registros com grande
similaridades entre si, e assim agrupá-los. Para mais adiante proceder-se uma
análise de grupo a grupo. Por exemplo, na base de dados da Polícia Civil de
algum estado brasileiro, pode-se observar que há agrupamentos dos tipos de
crimes ocorridos em determinadas regiões de uma cidade. E as semelhanças
entre os crimes de um mesmo grupo de crimes, permite à Polícia tratá-los
numa mesma ação investigativa.
E a letra E cita a técnica de Temporização, que é uma técnica voltada para a
observação de ocorrências de registros na base de dados em função do tempo.
Portanto, é uma técnica muito utilizada em mineração de dados onde se busca
tendências ao longo do tempo.
Gabarito: letra D.
Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 21 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

3. (UFF/UFF/2009) O conjunto de técnicas que, envolvendo métodos


matemáticos e estatísticos, algoritmos e princípios de inteligência
artificial, tem o objetivo de descobrir relacionamentos significativos
entre dados armazenados em repositórios de grandes volumes e
concluir sobre padrões de comportamento de clientes de uma
organização é conhecido como:
(A) Datawarehouse;
(B) Metadados;
(C) Data Mart;
(D) Data Mining;
(E) Sistemas Transacionais.

Comentários
O enunciado da questão dá fortes indicações de que a questão trata de Data
Mining. O texto diz: “descobrir relacionamentos significativos” e também
“concluir sobre padrões de comportamento de clientes de uma organização”,
tudo isso faz parte da descrição de Data Mining.
Contudo vamos comentar as demais opções:
A letra A cita o Data Warehouse. Uma das atividades de uma empresa que
pretende trabalhar com Data Mining é justamente coletar os registros das
bases de dados transacionais e organizá-los em bases de dados agrupadas por
assunto e destinadas a análises. Cada base de dados organizada por assunto
dá-se o nome de Data Mart, e ao conjunto de Data Marts dá-se o nome de
Data Warehouse. Essa organização dos dados é importante e muito válida,
pois tende a facilitar em muito o trabalho de mineração de dados.
A letra B cita o Metadados. Metadados são dados com a finalidade de
descrever outros dados. É como se fosse um dicionário, trata-se de um grupo
específico de registros em banco de dados cuja finalidade é permitir melhor
entendimento dos dados a que se referem.
A letra C cita o Data Mart, que é uma base de dados em que os dados já estão
organizados por assunto. Assim, numa grande empresa seria comum encontrar
um Data Mart de Vendas (tratando de registros sobre vendas), um Data Mart
de Recursos de Humanos, ou outro sobre Compras da Empresa, e por aí vai.
A letra E cita Sistemas Transacionais. Esses são os sistemas da empresa de um
modo geral. Pode ser tanto a loja virtual da empresa, como pode ser seu
sistema de gerenciamento de vendas ou de recursos humanos. Esses sistemas
são caracterizados inclusive por realizarem contínuas operações de consulta,
inserção, alteração e exclusão em banco de dados transacionais. Chamamos
de banco de dados transacionais os bancos de dados preparados para se
comportarem em transações (inserção, exclusão e alteração). Esses bancos de
dados são chamados de OLTP (On-line Transaction Processing).
Gabarito: letra D.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 22 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

4. (ESAF/STN/DESENV SISTEMAS/2008) Um depósito de dados


organizado por assunto, não-volátil, integrado e variável em função
do tempo, utilizado para apoiar decisões de gerenciamento, é
denominado
a) datawarehouse.
b) gestão do conhecimento.
c) business Intelligence.
d) mineração de dados.
e) OLAP (OnLine Analytical Processing).

Comentários
Item A. Item correto. Um Data Warehouse (Armazém ou Depósito de
Dados) é um sistema utilizado para armazenar informações consolidadas de
um banco de dados, possibilitando a análise de grandes volumes de dados,
coletados a partir de sistemas transacionais (OLTP).
Item B. Item errado. Define-se Gestão do Conhecimento como a busca da
melhoria de desempenho das instituições por meio de processos de procura,
extração, compartilhamento e criação de conhecimento, aplicando diferentes
ferramentas e tecnologias de informação e de comunicação.
Item C. Item errado. Define-se Business Intelligence (Inteligência de negócios
– BI) como o processo de coleta, estruturação, avaliação, disponibilização e
monitoramento de informações para suporte ao gerenciamento de negócios.
Item D. Item errado. Etapa do processo de Descoberta de Conhecimento em
Bases de Dados (KDD – Knowledge Discovery in Databases) que corresponde à
execução de um algoritmo particular que, sob algumas limitações aceitáveis de
eficiência computacional, encontra padrões ou modelos nos dados.
Item E. Item errado. OLAP (On-line Analytical Processing) é a processo de
manipulação e avaliação de um grande volume de dados sob múltiplas
aspectos.
Gabarito: letra A.

5. (ESAF/CVM/2010) Mineração de Dados é


(A) o processo de atualizar de maneira semi-automática grandes bancos de
dados para encontrar versões úteis.
(B) o processo de analisar de maneira semi-automática grandes bancos de
dados para encontrar padrões úteis.
(C) o processo de segmentar de maneira semi- automática bancos de dados
qualitativos e corrigir padrões de especificação.
(D) o programa que depura de maneira automática bancos de dados
corporativos para mostrar padrões de análise.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 23 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

(E) o processo de automatizar a definição de bancos de dados de médio


porte de maior utilidade para os usuários externos de rotinas de mineração.

Comentários
Conforme visto o Data Mining é um processo de procura de padrões e regras
de associações em conglomerados de dados. Esse processo pode é realizado
com o uso de softwares com algoritmos que implementam as técnicas de Data
Mining conhecidas e também com a supervisão de um especialista no domínio
de negócio em estudo. Por isso, podemos dizer que Data Mining é também
semi-automático. Portanto, somente a letra B está correta.
Gabarito: letra B.

6. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que:


(A) Refere-se à implementação de banco de dados paralelos.
(B) Consiste em armazenar o banco de dados em diversos computadores.
(C) Relaciona-se à capacidade de processar grande volume de tarefas em
um mesmo intervalo de tempo.
(D) Permite-se distinguir várias entidades de um conjunto.
(E) Refere-se à busca de informações relevantes a partir de um grande
volume de dados.

Comentários
O processo de Data Mining tem o objetivo de buscar informações relevantes
num conglomerado de dados. Essas informações relevantes são padrões,
tendências e associações que quando analisadas serão úteis para produção de
conhecimento sobre um dado domínio de negócio. Portanto, a opção correta é
a letra E.
Gabarito: letra E.

7. (FCC/TCE-SP/2010) NÃO é um objetivo da mineração de dados


(data mining), na visão dos diversos autores,
(A) garantir a não redundância nos bancos transacionais.
(B) conhecer o comportamento de certos atributos no futuro.
(C) possibilitar a análise de determinados padrões de eventos.
(D) categorizar perfis individuais ou coletivos de interesse comercial.
(E) apoiar a otimização do uso de recursos limitados e/ou maximizar
variáveis de resultado para a empresa.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 24 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Comentários
O Data Mining tem entre seus objetivos a descoberta de padrões e tendências
e associações em conglomerados de dados. A partir desse conhecimento
adquirido ao minerar as bases de dados espera-se que seja possível à gestão
das empresas otimizar o uso de recursos e aumentar os resultados do
negócio. Portanto as letras C e E estão corretas.
Ainda o Data Mining também permite, a partir de tendências e análises
temporais, a previsão do estado futuro de atributos(características) do
negócio. Portanto a letra B está correta.
Estudamos também que uma das técnicas de Data Mining é a Classificação
que permite a organização dos registros em classes. A Letra D descreve um
dos usos da técnica de Classificação.
Vamos agora à Letra A. Essa opção afirma que “garantir a não redundância
nos bancos transacionais” é responsabilidade do Data Mining. Essa opção está
incorreta. Os bancos de dados transacionais são os banco de dados que estão
por traz da operação dos sistemas comerciais, ou seja, é onde são registrados
todas as transações do dia-a-dia de uma empresa. O processo de Descoberta
de Conhecimento em Bases de Dados tem uma etapa chamada de Preparação
de Dados que antecede o Data Mining. E a etapa de Preparação de Dados tem
a função de coletar os dados originais das bases de dados e purificá-los,
removendo redundâncias (ou seja, duplicações de dados), a fim de tornar
estes dados adequados para o processo de Data Mining.
Gabarito: letra A.

8. (ESAF/MPOG/2010) Mineração de Dados


(A) é uma forma de busca sequencial de dados em arquivos.
(B) é o processo de programação de todos os relacionamentos e algoritmos
existentes nas bases de dados.
(C) por ser feita com métodos compiladores, método das redes neurais e
método dos algoritmos gerativos.
(D) engloba as tarefas de mapeamento, inicialização e clusterização.
(E) engloba as tarefas de classificação, regressão e clusterização.

Comentários
Conforme estudado, as técnicas mais conhecidas de Data Mining (que também
são chamadas de tarefas, por alguns autores) são: Descrição de Classes,
Associação, Classificação, Previsão e Agrupamento (também conhecida como
“clustering”). Alia-se a estas técnicas ainda, algumas ferramentas estatísticas
como Regressão Linear, Modelo Linear Generalizado e Análise de Correlação. A
partir disso, podemos afirmar que a opção E é a que melhor se encaixa com os
conceitos de Data Mining.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 25 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Gabarito: letra E.

9. (FMP-RS/TCE-RS/2011) Mineração de dados consiste em


(A) explorar um conjunto de dados visando a extrair ou a ajudar a
evidenciar padrões, como regras de associação ou sequências temporais,
para detectar relacionamentos entre estes.
(B) acessar um banco de dados para realizar consultas de forma genérica,
buscando recuperar informações (registros) que atendam um mesmo
critério de pesquisa.
(C) recuperar informações de um banco de dados específico, voltado a
representar e armazenar dados relacionados com companhias de exploração
petrolífera e de recursos mineralógicos.
(D) um banco de dados específico voltado à gestão de negócios usando
tecnologia de informação (TI) como, por exemplo, a área de BI (Business
Inteligence).
(E) representar informações de um banco de dados mediante vários
modelos hierárquicos como, por exemplo, o de entidade-relacionamento
(ER).

Comentários
Conforme vimos anteriormente Data Mining é um processo “de identificar
informações relevantes, tais como padrões, associações, mudanças,
anomalias e estruturas, em grandes conglomerados de dados que
estejam em banco de dados ou outros repositórios de informações”.
Portanto não se trata apenas de “acessar um banco de dados para realizar
consultas genéricas” como diz a letra B.
A letra C está incorreta, por citar que o Data Mining recupera “informações de
um banco de dados específico” quando na verdade o processo de Data Mining
pode atuar sobre diversas bases de dados.
A letra D está incorreta por afirmar que Data Mining é um banco de dados,
quando na verdade é um processo.
E por fim, a letra E descreve Data Mining como uma forma de representar
dados, quando na verdade é um processo de busca de padrões e associações,
entre outros.
Gabarito: letra A.

10. (ESAF/MPOG/Adaptada/2008) Algumas pessoas têm


considerado que os Data Warehouses são uma extensão de visões
de banco de dados. Porém, as visões fornecem apenas um
subconjunto das funções e das capacidades dos data warehouses.
Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 26 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Com relação às diferenças e similaridades entre as visões e os data


warehouses, é correto afirmar que tanto os data warehouses quanto
as visões fornecem, frequentemente, grandes quantidades de dados
integrados e temporais, geralmente mais do que é contido em um
banco de dados.
Comentários
Uma View (Visão) é uma tabela lógica, baseada em uma tabela ou em outra
visão. Ela não possui dados próprios, é somente uma interface para a
manipulação de um conjunto de dados. Ela pode ser utilizada para restringir o
acesso a dados em uma tabela, facilitar consultas complexas e também
otimizar o tempo dos desenvolvedores.
A View é uma maneira alternativa de observação de dados de uma ou mais
tabelas, que compõem uma base de dados. Pode ser considerada como uma
tabela virtual ou uma consulta armazenada. Como exemplo de utilização de
view, cita-se a restrição usuário x domínio controlando o acesso de um usuário
específico a colunas de uma tabela.
Alguns benefícios da utilização das Views: economia de tempo com retrabalho;
velocidade de acesso às informações; mascara a complexidade do banco de
dados; organiza dados a serem exportados para outros aplicativos.
Um Data warehouse (ou armazém de dados) é um sistema de computação
utilizado para armazenar informação relativa às atividades de uma organização
em banco de dados, de forma consolidada. Ele possibilita a análise de grandes
volumes de dados, coletados dos sistemas transacionais. Por definição, os
dados em um Data Warehouse não são voláteis, ou seja, eles não mudam, são
somente para leitura e não podem ser alterados.
Os Data Warehouses surgiram como conceito acadêmico na década de 80.
Com o amadurecimento dos sistemas de informação empresariais, as
necessidades de análise dos dados cresceram paralelamente. Como os
sistemas transacionais não conseguiam cumprir a tarefa de análise com a
simples geração de relatórios, os Data Warehouses são atualmente o núcleo
dos sistemas de informações gerenciais e apoio a decisão das principais
soluções de Business Intelligence do mercado, devido a sua capacidade de
sumarizar grandes volumes de dados e de possibilitar análises.
As ferramentas OLAP (Online Analytical Processing) têm como função a
navegação nos dados de um Data Warehouse, possuindo uma estrutura
adequada tanto para as pesquisas como para a apresentação das informações.
A assertiva, portanto, é falsa, tendo-se em vista que a View não tem como
objetivo fornecer frequentemente grandes quantidades de dados integrados, e
sim fornecer um subconjunto dinâmico de dados (tabela virtual) a
partir de uma ou mais tabelas.
Observem ainda que o item afirma indevidamente que a quantidade de dados
ofertada é maior do que em todo o banco de dados. Uma View não possui
quantidade de dados maior do que o próprio banco de dados em que ela está
inserida.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 27 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Gabarito: item errado.

11. (ESAF/MPOG – APO – Tecnologia da Informação Q.27/2008)


São tarefas primárias da Mineração de Dados:
a) Classificação; Regressão; Clusterização.
b) Classificação; Realimentação; Complementação.
c) Codificação; Normalização; Clusterização.
d) Composição; Migração; Clusterização.
e) Compressão; Processamento; Associação.

Comentários
Alguns exemplos de tarefas:
Classificação Predizer a classe de um item.
Clusterização Encontrar grupos nos dados.
Associação Encontrar padrões de ocorrências de dados associados.
Sumarização Descrever uma base de dados.
Análise de Encontrar alterações nos dados.
Desvio
Regressão Prever um valor numérico contínuo.

Com relação aos itens das assertivas temos:


a) Classificação; Regressão; Clusterização.
b) Classificação; Realimentação; Complementação.
c) Codificação; Normalização; Clusterização.
d) Composição; Migração; Clusterização.
e) Compressão; Processamento; Associação.
Gabarito: letra A.

12. (FUMARC/PRODEMGE/2011) Analise as afirmativas abaixo em


relação às técnicas de mineração de dados.
I. Regras de associação podem ser usadas, por exemplo, para
determinar, quando um cliente compra um produto X, ele
provavelmente também irá comprar um produto Y.
II. Classificação é uma técnica de aprendizado supervisionado, no
qual se usa um conjunto de dados de treinamento para aprender um
modelo e classificar novos dados.
Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 28 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

III. Agrupamento é uma técnica de aprendizado supervisionado que


particiona um conjunto de dados em grupos.

Assinale a alternativa VERDADEIRA:


a) Apenas as afirmativas I e II estão corretas.
b) Apenas as afirmativas I e III estão corretas.
c) Apenas as afirmativas II e III estão corretas.
d) Todas as afirmativas estão corretas.

Comentários
O item I trata da técnica de Data Mining conhecida como Associação. Conforme
visto, aplicar a técnica de associação é procurar identificar correlação entre
dados distintos. Assim por exemplo quando identificamos numa base de dados
de uma empresa de telefonia que Clientes Pré Pagos enviam em média 60%
mais mensagens que clientes Pós Pagos, estamos com isso aplicando uma
associação, na qual o tipo de Plano do cliente determina sua taxa de utilização
do serviço SMS. Assim o Item I está correto.
O item II cita a técnica de Classificação, aprendemos que a técnica de
classificação tem o propósito de organizar os dados existentes na base de
dados em classes de modo a ajudar o entendimento da distribuição de
comportamento num banco de dados. A classificação não é uma técnica de
aprendizado supervisionado e também não trabalha com dados de treinamento
(ou seja, dados apenas para teste ou simulação, que não são os dados reais).
Portanto item incorreto.
Por fim, o item III cita o Agrupamento. Esta técnica não particiona o banco em
grupos de dados, e tenta identificar se existem grupos, onde os registros
contidos nesses grupos apresentem semelhança significante entre si. Também
não se trata de uma técnica de aprendizado supervisionado. Portanto, item
incorreto.
Gabarito: letra A.

13. (FCC/INFRAERO/2011) Funcionalidade cujo objetivo é encontrar


conjuntos de dados que não obedecem ao comportamento ou modelo dos
dados. Uma vez encontrados, podem ser tratados ou descartados para
utilização em mining. Trata-se de
(A) descrição.
(B) agrupamento.
(C) visualização.
(D) análise de outliers.
(E) análise de associações.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 29 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Comentários
Esta questão merece atenção por tratar de uma atividade em Data Mining
chamada de Análise de Outliers. Na busca de padrões e associações em
banco de dados, é comum identificarmos numa amostra de dados alguns
registros que fogem aos padrões identificados, ou seja, num grupo de registros
é muito comum alguns registros apresentarem grande discrepância em relação
à maioria dos registros. E esses registros que apresentam grande discrepância
são chamados de Outliers.
É necessário em um processo de Data Mining eliminar os outliers, pois a
presença de alguns raros registros com grande discrepâncias na amostra
podem induzir a tendências, médias estatísticas e padrões distorcidos. Por isso,
a atividade de Análise de outliers consiste em procurar os outliers, e
eliminá-los antes da apuração dos padrões e associações durante o Data
Mining.
Gabarito: letra D.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 30 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Lista de Questões Apresentadas na Aula

1. (FGV/SEFAZ-RJ/Fiscal de Rendas/2007) DataWarehouse e


DataMining são recursos utilizados por muitas organizações para
facilitar e agilizar o processamento, a análise e a consulta de dados.
Sobre esses recursos, é correto afirmar que:
(A) um DataMining armazena dados extraídos de bancos de dados de
diferentes organizações.
(B) um DataWarehouse armazena dados por períodos não superiores a três
meses, o que dificulta previsões e análises de tendência.
(C) um DataWarehouse é repositório de dados históricos orientados a
assunto, organizados para serem acessíveis para atividades de
processamento analítico.
(D) DataMining é uma técnica de análise de dados exclusiva para aplicação
em um DataWarehouse.
(E) num DataWarehouse, os usuários finais necessitam conhecer linguagem
de programação para acessar dados.

2. (FCC/2010/TCE-SP) Considere uma dada população de eventos ou novos


itens que podem ser particionados (segmentados) em conjuntos de
elementos similares, tal como, por exemplo, uma população de dados sobre
uma doença que pode ser dividida em grupos baseados na similaridade dos
efeitos colaterais produzidos. Como um dos modos de descrever o
conhecimento descoberto durante a data mining este é chamado de
(F) associação
(G) otimização
(H) classificação.
(I) clustering
(J) temporização

3. (UFF/UFF/2009) O conjunto de técnicas que, envolvendo métodos


matemáticos e estatísticos, algoritmos e princípios de inteligência
artificial, tem o objetivo de descobrir relacionamentos significativos
entre dados armazenados em repositórios de grandes volumes e
concluir sobre padrões de comportamento de clientes de uma
organização é conhecido como:
a.Datawarehouse;
b.Metadados;
c.Data Mart;
d.Data Mining;
a
Prof . Patrícia Lima Quintão www.pontodosconcursos.com.br 31 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

e.Sistemas Transacionais.

4. (ESAF/STN/DESENV SISTEMAS/2008) Um depósito de dados


organizado por assunto, não-volátil, integrado e variável em função
do tempo, utilizado para apoiar decisões de gerenciamento, é
denominado
a) datawarehouse.
b) gestão do conhecimento.
c) business Intelligence.
d) mineração de dados.
e) OLAP (OnLine Analytical Processing).

5. (ESAF/CVM/2010) Mineração de Dados é


(A) o processo de atualizar de maneira semi-automática grandes bancos de
dados para encontrar versões úteis.
(B) o processo de analisar de maneira semi-automática grandes bancos de
dados para encontrar padrões úteis.
(C) o processo de segmentar de maneira semi- automática bancos de dados
qualitativos e corrigir padrões de especificação.
(D) o programa que depura de maneira automática bancos de dados
corporativos para mostrar padrões de análise.
(E) o processo de automatizar a definição de bancos de dados de médio
porte de maior utilidade para os usuários externos de rotinas de mineração.

6. (FGV/DETRAN-RN/2010) Sobre Data Mining, pode-se afirmar que:


(A) Refere-se à implementação de banco de dados paralelos.
(B) Consiste em armazenar o banco de dados em diversos computadores.
(C) Relaciona-se à capacidade de processar grande volume de tarefas em
um mesmo intervalo de tempo.
(D) Permite-se distinguir várias entidades de um conjunto.
(E) Refere-se à busca de informações relevantes a partir de um grande
volume de dados.

7. (FCC/TCE-SP/2010) NÃO é um objetivo da mineração de dados


(data mining), na visão dos diversos autores,
(A) garantir a não redundância nos bancos transacionais.
(B) conhecer o comportamento de certos atributos no futuro.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 32 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

(C) possibilitar a análise de determinados padrões de eventos.


(D) categorizar perfis individuais ou coletivos de interesse comercial.
(E) apoiar a otimização do uso de recursos limitados e/ou maximizar
variáveis de resultado para a empresa.

8. (ESAF/MPOG/2010) Mineração de Dados


(A) é uma forma de busca sequencial de dados em arquivos.
(B) é o processo de programação de todos os relacionamentos e algoritmos
existentes nas bases de dados.
(C) por ser feita com métodos compiladores, método das redes neurais e
método dos algoritmos gerativos.
(D) engloba as tarefas de mapeamento, inicialização e clusterização.
(E) engloba as tarefas de classificação, regressão e clusterização.

9. (FMP-RS/TCE-RS/2011) Mineração de dados consiste em


(A) explorar um conjunto de dados visando a extrair ou a ajudar a
evidenciar padrões, como regras de associação ou sequências temporais,
para detectar relacionamentos entre estes.
(B) acessar um banco de dados para realizar consultas de forma genérica,
buscando recuperar informações (registros) que atendam um mesmo
critério de pesquisa.
(C) recuperar informações de um banco de dados específico, voltado a
representar e armazenar dados relacionados com companhias de exploração
petrolífera e de recursos mineralógicos.
(D) um banco de dados específico voltado à gestão de negócios usando
tecnologia de informação (TI) como, por exemplo, a área de BI (Business
Inteligence).
(E) representar informações de um banco de dados mediante vários
modelos hierárquicos como, por exemplo, o de entidade-relacionamento
(ER).

10. (ESAF/MPOG/Adaptada/2008) Algumas pessoas têm


considerado que os Data Warehouses são uma extensão de visões
de banco de dados. Porém, as visões fornecem apenas um
subconjunto das funções e das capacidades dos data warehouses.
Com relação às diferenças e similaridades entre as visões e os data
warehouses, é correto afirmar que tanto os data warehouses quanto
as visões fornecem, frequentemente, grandes quantidades de dados
Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 33 de 35
CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

integrados e temporais, geralmente mais do que é contido em um


banco de dados.

11. (ESAF/MPOG – APO – Tecnologia da Informação Q.27/2008)


São tarefas primárias da Mineração de Dados:
a) Classificação; Regressão; Clusterização.
b) Classificação; Realimentação; Complementação.
c) Codificação; Normalização; Clusterização.
d) Composição; Migração; Clusterização.
e) Compressão; Processamento; Associação.

12. (FUMARC/PRODEMGE/2011) Analise as afirmativas abaixo em


relação às técnicas de mineração de dados.
I. Regras de associação podem ser usadas, por exemplo, para
determinar, quando um cliente compra um produto X, ele
provavelmente também irá comprar um produto Y.
II. Classificação é uma técnica de aprendizado supervisionado, no
qual se usa um conjunto de dados de treinamento para aprender um
modelo e classificar novos dados.
III. Agrupamento é uma técnica de aprendizado supervisionado que
particiona um conjunto de dados em grupos.
Assinale a alternativa VERDADEIRA:
a) Apenas as afirmativas I e II estão corretas.
b) Apenas as afirmativas I e III estão corretas.
c) Apenas as afirmativas II e III estão corretas.
d) Todas as afirmativas estão corretas.

13. (FCC/INFRAERO/2011) Funcionalidade cujo objetivo é encontrar


conjuntos de dados que não obedecem ao comportamento ou modelo dos
dados. Uma vez encontrados, podem ser tratados ou descartados para
utilização em mining. Trata-se de
(A) descrição.
(B) agrupamento.
(C) visualização.
(D) análise de outliers.
(E) análise de associações.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 34 de 35


CONHECIMENTOS DE BANCO DE DADOS (TEORIA E EXERCÍCIOS) P/
AUDITORIA E FISCALIZAÇÃO - GERAL – CGU
PROFa. PATRÍCIA LIMA QUINTÃO

Gabarito
1. Letra C.
2. Letra D.
3. Letra D.
4. Letra A.
5. Letra B.
6. Letra E.
7. Letra A.
8. Letra E.
9. Letra A.
10. Item errado.
11. Letra A.
12. Letra A.
13. Letra D.

Profa. Patrícia Lima Quintão www.pontodosconcursos.com.br 35 de 35

Anda mungkin juga menyukai