Volume Valor
$
Conhec.
Informação
Dados
em informação e conhecimento
◦ úteis para o suporte à decisão,
◦ gerenciamento de negócios, controle de produção
◦ análise de mercado ao projeto de engenharia e
exploração científica
KDD x Data Mining
Mineração de dados é o passo do processo
de KDD que produz um conjunto de
padrões sob um custo computacional
aceitável;
KDD utiliza algoritmos de data mining para
extrair padrões classificados como
“conhecimento”. Incorpora também tarefas
como escolha do algoritmo adequado,
processamento e amostragem de dados e
interpretação de resultados;
Posicionamento
Etapas do Processo
Seleção
Pré-processamento
Transformação
Data mining (aprendizagem)
Interpretação e Avaliação
Processo
Processo mínimo de descoberta
do conhecimento
Compreensão do domínio e dos objetivos da tarefa;
Criação do conjunto de dados envolvendo as variáveis
necessárias;
Processo
Seleção de Dados
Processo 16
Processo mínimo
Operações como identificação de ruídos,
outliers, como tratar falta de dados em alguns
campos, etc.
Processo
Pré-Processamento
Estágiode limpeza dos dados, onde
informações julgadas desnecessárias são
removidas.
Reconfiguração dos dados para assegurar
formatos consistentes (identificação)
Ex. : sexo = “F” ou “M”
sexo = “M” ou “H”
Processo 18
Processo mínimo
Redução de dimensionalidade,
combinação de atributos;
Processo
Transformação
Transformam-se os dados em formatos
utilizáveis. Esta depende da técnica data
mining usada.
Disponibilizar os dados de maneira usável e
navegável.
Processo 20
Processo mínimo
Escolha e execução do algoritmo de aprendizagem
de acordo com a tarefa a ser cumprida
Processo
Data Mining
Processo 22
Processo mínimo
Interpretação dos resultados, com
possível retorno aos passos anteriores;
Processo 24
Etapas do Processo
regularidades em dados
Padrões fortes boas predições
padrões explicitamente
◦ Pode ser usada para predição em novas situações
◦ Pode ser usada para entender e explicar como se
deriva uma predição
Os métodos se originam de inteligência
artificial, estatística e pesquisas em bases de
dados
Descrições Estruturadas
Exemplo: Regras IF-Then
If tear production rate = reduced
then recommendation = none
Otherwise, if age = young and astigmatic = no
then recommendation = soft
… … … … …
Podem as máquinas aprender
Definições: O processo de aprendizagem
pode ser definido como o modo como os
seres adquirem novos conhecimentos,
desenvolvem competências e mudam o
comportamento
O problema: Weather
Condições para jogar
Outlook Temperature Humidity Windy Play
Sunny Hot High False No
Sunny Hot High True No
Overcast Hot High False Yes
Rainy Mild Normal False Yes
… … … … …
Análise de crédito
x o o
Exemplo:
◦ árvores de decisão;
renda ◦ indução de regras
t
x: exemplo recusado
o: exemplo aceito
Métodos
Exemplo de previsão (II)
Análise de crédito
sem
x o
crédito o Hiperplano oblíquo:
o melhor separação:
x x
x Exemplos:
x o o
x o o ◦ regressão linear;
o ◦ perceptron;
débito
x o o
t renda
x: exemplo recusado
o: exemplo aceito
Métodos
Exemplo de previsão (III)
Análise de crédito
sem
crédito x o Superfície não linear:
o melhor poder de
o classificação, pior
x x
x interpretação;
x o o
x o o
o
Exemplos:
débito
x o o ◦ perceptrons
multicamadas;
◦ regressão não-linear;
t renda
x: exemplo recusado
o: exemplo aceito
Métodos
Exemplo de previsão (IV)
Análise de crédito
sem Métodos baseado
x o
crédito o em exemplos;
o Exemplos:
x x
x ◦ k-vizinhos mais
x o o
x o o próximos;
o
◦ raciocínio baseado
débito
x o o
em casos;
t renda
x: exemplo recusado
o: exemplo aceito
Métodos
Classificação x Associação
Regras de Classificação: Predizem o valor de um
atributo (a classificação do exemplo)
Função Linear
PRP = -55.9 + 0.0489 MYCT + 0.0153 MMIN + 0.0056 MMAX
+ 0.6410 CACH - 0.2700 CHMIN + 1.480 CHMAX
Áreas de Aplicação
O resultado do aprendizado
◦ Aplicações financeiras
◦ Previsão de consumo de energia
◦ Diagnostico de defeitos em maquinas
◦ Vendas e Marketing
◦ Agronomia
Empréstimos (american express)
Dados: questionário com informações
financeiras e pessoais
Pergunta: Deve o dinheiro ser prestado?
casos
Os casos no limite são decisão dos especialistas
◦ idade
◦ Anos de trabalho no ultimo emprego
◦ Anos no endereço atual
◦ Anos no banco
◦ otros,…
Regras aprendidas: 70% dos casos corretos
◦ Especialistas humanos 50%
As regras podem ser usadas para explicar as
decisões aos consumidores
Generalização com busca
Aprendizado Indutivo: encontrar um
conceito que se ajuste aos dados
Exemplo: regras como linguagem de
descrição
◦ Espaço de busca: Enorme, finito.
Solução simples:
◦ Enumerar as regras
◦ Eliminar as descrições que não se ajustam aos
exemplos
Enumerar o espaço de conceitos
Exemplo Weather
◦ 4 x 4 x 3 x 3 x 2 = 288 possíveis combinações
◦ com 14 regras 2.7x1034 conjunto possíveis
Em outros problemas práticos:
◦ Mais de uma descrição pode sobreviver
◦ Pode não sobreviver uma descrição
A linguagem escolhida pode não ser capaz de
representar o domínio ou os dados podem conter
ruído
Uma outra forma de generalização: algoritmos
heurísticos
Favorecimento (bias)
Decisões importantes em sistemas de
aprendizado:
◦ Linguagem das descrições dos conceitos
◦ Ordem na qual o espaço de busca será explorado
◦ Formas que a sobre especialização no conjunto
de treinamento é evitada
Essas formas de escolha são “bias” da busca:
◦ Linguagem
◦ Busca
◦ Sobre especialização