PLANO DE ENSINO
DISCIPLINA:
Minerao de Dados
CURSO:
Curso de Especializao em Bancos de Dados
Curso de Especializao em Business Intelligence
PROF (A):
Hugo Bastos de Paula
CARGA HORRIA TOTAL (sala de aula + trabalho orientado): 24 h-a
OBJETIVOS:
Capacitar o aluno a realizar atividades de anlise de dados com algoritmos de minerao de dados.
Definir critrios para avaliao de ferramentas de minerao de dados.
Possibilitar a anlise de um problema com as tcnicas estudadas.
MTODOS DIDTICOS:
Aulas expositivas - exposio terica dos tpicos da disciplina; trabalhos em grupo - aplicao prtica dos
conceitos; aulas prticas em laboratrio - utilizao de ferramenta de minerao para elaborao de exerccios
e anlise de problemas em bases de dados diversas.
UNIDADES DE ENSINO:
HORAS-AULA
04 h/a
04 h/a
06 h/a
Unidade 4: Clusterizao
4.1 Estruturas de dados.
4.2 Medidas de similaridade e de distncia.
4.3 Tipos de algoritmos.
4.4 Detalhamento de algoritmos.
4.5 Aplicao.
04 h/a
02 h/a
04 h/a
CRITRIOS DE AVALIAO (itens que sero considerados pelo professor na avaliao na disciplina):
DISTRIBUIO DE PONTOS:
01 Exerccios
02 Trabalho Orientado
60 pontos
40 pontos
MINERAO DE DADOS
Curso de especializao em Bancos de Dados
Curso de especializao em Business Intelligence
Prof. Hugo de Paula
TRABALHO ORIENTADO
INTRODUO
A proposta deste trabalho aplicar tcnicas de minerao de dados e extrair conhecimento das
bases do IPEADATA para identificar padres interessantes que possam ser teis para a
compreenso do cenrio brasileiro atual.
ATIVIDADES
1- Ser utilizada como fonte primria de dados as informaes fornecidas, de forma livre e
gratuita, pelo Ipeadata (http://www.ipeadata.gov.br/).
2- Cada grupo (mximo 4 componentes) dever, a partir dessa base de dados, aplicar o
processo CRISP-DM, para extrair informao relevante sobre um problema diverso.
3- Poder ser utilizada qualquer ferramenta de minerao de dados, no sendo necessrio se
limitar ao uso do RapidMiner.
4- O grupo dever:
a. Identificar e detalhar o problema que ser abordado;
i. Sugere-se que o problema possua escopo bem delimitado, centrado em
apenas um tpico e em uma unidade da federao.
ii. Entre os problemas que podem ser abordados esto: previso de eleio,
identificao padres ou tendncias de consumo, caracterizao ou previso
de desemprego e renda, produo industrial, etc.
b. Compreender os dados e como eles podem ser utilizados para resolver o problema;
c. Realizar a seleo dos dados relevantes (registros e atributos);
d. Enriquecer e melhorar os dados;
e. Preparar os dados de acordo com os algoritmos;
f. Aplicar os algoritmos de minerao de dados (no mnimo dois);
g. Explicar o motivo e uso de cada tcnica;
h. Fazer anlise dos resultados.
5- Deve ser entregue o seguinte:
a. Tabelas com os dados pr-processados;
b. Arquivos contendo os cdigos utilizados;
c. Documentao contendo:
i. Anlise dos dados;
ii. Relatrios dos algoritmos;
iii. Motivos de uso de cada tcnica;
iv. Apresentao e anlise dos resultados alcanados.
6- Data entrega: 06/06/2016
2
Minerao de Dados
Informaes da disciplina
Apresentao da metodologia para descoberta de conhecimento
em banco de dados. Explorao do espao problema. Explorao
do espao soluo. Tcnicas de minerao de dados: regras de
associao, clusterizao, classificao.
Algoritmos para
minerao de dados. Ferramentas para minerao de dados.
DISTRIBUIO DE PONTOS:
01 Exerccios
60 pontos
02 Apresentao estudo de caso (trabalho orientado) 40 pontos
Bibliografia
TAN, Pang-Ning, STEINBACH, Michael, KUMAR, Vipin. Introduo
ao Data Mining Minerao de dados. Cincia Moderna, 2012.
ISBN 978-8573937619.
HAN, J.W., KAMBER, M., Pei, J. Data Mining: Concepts and
Techniques. 3rd edition, Morgan Kaufmann, 2011. ISBN 9780123814791.
KANTARDZIC, M. Data Mining: Concepts, Models, Methods, and
Algorithms. 2nd edition, Wiley-IEEE Press, 2011. ISBN 9780470890455.
Programa
Unidade 1: Introduo ao KDD e a padres
Unidade 2: Regras de associao
Unidade 3: Classificao e predio
Unidade 4: Clusterizao
Unidade 5: Deteco de outliers
Unidade 6: Concluso
Minerao de Dados
Data mining (minerao de dados) a etapa do KDD que
consiste no processo de extrao de conhecimento de grandes
bases de dados, convencionais ou no.
Utiliza tcnicas de inteligncia artificial que procuram relaes
de similaridade ou discordncia entre dados.
Seu objetivo encontrar, automaticamente, padres,
anomalias e regras com o propsito de transformar dados,
aparentemente ocultos, em informaes teis para a tomada
de deciso e/ou avaliao de resultados.
Fernando S. Goulart Jnior & Robson do Nascimento Fidalgo (1998)
Usurio final
Tomada
De deciso
Apresentao de dados
Analista de negcios
Tcnicas de visualizao
Minerao de dados
Analista de dados
Descoberta de padres
Pr-processamento/Integrao, DW
Fonte dos dados
papel, Arquivos, documentos Web, banco de dados, experimentos cientficos
DBA
www.kdnuggets.com
www.kdnuggets.com
Etapas do KDD
Anlise de necessidades
Tratamento de dados (seleo, limpeza, enriquecimento
e codificao)
Minerao de dados
Identificao de padres
Regras de associao
Classificao e predio
Clusterizao
Deteco de outliers
Caso 2:
Uma companhia estava tendo boas vendas nos ltimos anos. Em
um ano eles observaram que as vendas comearam a cair a cada
trimestre. O diretor da empresa queria saber como melhorar as
vendas de modo a voltar tendncia de alta de receita anterior.
Soluo:
Caso 1: pode ser delimitado com casamento baseado em horscopo.
Nova definio: Identificar todos os casamentos possveis da
populao de 50.000 habitantes utilizando compatibilidade por
horscopo.
Caso 2: pode ser delimitado com alinhamento de variveis. Por
exemplo: reduo das vendas est alinhada com reduo da produo,
baixos estoques?
Nova definio: Anlise da disponibilidade de produtos nas lojas que
est causando a queda nas vendas.
Fatos:
Circunstncias que causam diretamente o problema.
Julgamentos:
Observaes a serem disputadas ou decididos.
Fatos e Julgamentos
Caso 3: anlise de risco para acidente de carro
Imprudncia
Efeito de lcool
Quais os perfis dos acompanhantes dos veculos?
Excessiva velocidade
Violaram alguma lei de trnsito?
Falha mecnica
Defeito na envoltura
Fora da validade
Fora de especificao
Etapas do KDD
Anlise de necessidades
Tratamento de dados (seleo, limpeza,
enriquecimento e codificao)
Minerao de dados
Identificao de padres
Regras de associao
Classificao e predio
Clusterizao
Deteco de outliers
Informaes limitadas
Por exemplo, no se pode
diagnosticar malria se base
de dados de pacientes no
possuir a contagem de
glbulos vermelhos.
Tipos de dados
Dados discretos podem ser:
Binomiais / binrios:
Sintoma de febre: sim/no.
Deciso: Comprou/no comprou.
Polinomiais/Nominais/Categricos no ordinais:
Regio: centro, sul, centro-sul, leste, ...
Setor: limpeza, laticnios, farinceos, cosmticos, ...
Categricos ordinais:
Faixa etria: criana, jovem, adulto, idoso.
Temperatura: baixa, mdia-baixa,
Tipos de dados
Dados contnuos podem ser:
Normalizados: [0..1]
Capacidade ociosa: 70% ociosa (0.7)
Andamento da operao: 30% concluda (0.3)
No normalizados: [min..max]
Idade: [0..120] anos
Temperatura: [10 .. 40] graus celsius
Pessoa Fsica
Estado Civil
Data Nasc.
Idade
Z da Silva
Casado
25/07/1966
55
inconsistente
Dependente
Escola/Salrio
Telefone
20%
(XX) 4368-9668
omisso
no identificvel
incompleto
inexato
25/12/15
25/dez/2015
25-12-2015
25 de dezembro de 2015
Exemplos:
Etapas do KDD
Anlise de necessidades
Tratamento de dados (seleo, limpeza, enriquecimento
e codificao)
Minerao de dados
Identificao de padres
Regras de associao
Classificao e predio
Clusterizao
Deteco de outliers
Identificao de padres:
a significncia das respostas
Um grande risco da minerao de dados que voc pode
descobrir padres que no significam nada.
Princpio de Bonferroni:
Para qualquer evento que se busca em um conjunto de dados, deve-se
esperar que esse evento ocorra, mesmo que os dados sejam
completamente aleatrios. O volume destas ocorrncias aumenta com
o volume dos dados.
Deve-se estimar o nmero esperado de ocorrncias de um evento,
assumindo que ele aleatrio.
Se esse nmero for significativamente maior que o nmero real de
ocorrncias esperado, ento muitos eventos encontrados sero falsos.
Princpio de Bonferroni
Exemplo
Professor de Stanford prova que Rastrear Terroristas Impossvel (LA
Times)
Prof. Jeffrey D. Ullman, Stanford, 2006.
A meta do TIA (Total Information Awareness) procurar por tantas
conexes to vagas, que em algum momento teremos certeza de
termos encontrado uma informao equivocada que poder violar a
privacidade de um inocente.
Suponha que ns acreditamos que malfeitores esto se encontrando
ocasionalmente em hotis para planejar um atentado. Ns desejamos
encontrar pessoas (no relacionadas) que, pelo menos duas vezes,
estiveram no mesmo hotel no mesmo dia.
TIA: clculos
Probabilidade que duas pessoas p e q estaro num mesmo hotel
no dia d:
1/100 1/100 10-5 = 10-9
Pares de dias:
(103 103 ) / 2 = 5 105
TIA: clculos
Pares de pessoas:
(109 109 ) / 2 = 5 1017
Concluso:
Suponha que haja 10 pares de malfeitores que definitivamente
estiveram no mesmo hotel duas vezes.
Analistas devero vasculhar a vida de 250.000 candidatos para
encontrar 10 casos reais.
ABCXYABCZKABDKCABCTUABEWLABCWO
Observe atentamente essa sequncia de letras e tente
encontrar alguma coisa relevante.
Localizando padres
ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 1:
Encontrar sequncias de letras que se repetem bastante. As sequncias
AB e ABC ocorrem com frequncia superior das outras sequncias.
Passo 2:
Verificamos que as sequncias ABC e AB segmentam o padro original
em unidades independentes:
Localizando padres
Passo 3:
Indues geram algumas representaes genricas dessas unidades:
Localizando padres
Suponha que uma sequncia representa um registro comercial.
Por exemplo, uma transao de supermercado:
A letra A poderia significar aquisio de po.
A letra B poderia, por exemplo, significar aquisio de leite.
A letra C indica que o leite que foi adquirido do tipo desnatado.
Localizando padres
Suponha que a letra X queira dizer manteiga sem sal, e a letra Z
signifique manteiga com sal e a letra T signifique margarina.
Pode-se tentar unificar todas essas letras atravs de um nico
conceito, uma ideia que resuma uma caracterstica essencial de
todos esses itens (generalizao).
Introduzimos a letra V, que significaria manteiga/margarina, ou
coisas que passamos no po.
Fizemos uma induo orientada a atributos, substitumos uma
srie de valores distintos (mas similares) por um nome s.
Localizando padres
Basta codificar nossa sequncia original substituindo a letra V
em todos os lugares devidos:
(original)
ABCVY ABCVK ABDKC ABCVU ABEWL ABCVO (transformada)
Associao:
Descobrimento de regras.
Correlao para causalidade.
Classificao e predio:
Classificao baseada em valores.
Estimao de valores ou classes a partir de atributos.
Clusterizao ou segmentao:
Agrupar os dados por semelhana.
Modify
Transformar variveis e completar valores omissos
Model
Ajustar modelo p. ex. regresso, classificao, redes neurais
Assess:
Comparar modelos utilizando parties, bases de teste
Etapas do KDD
Anlise de necessidades
Tratamento de dados (seleo, limpeza, enriquecimento
e codificao)
Minerao de dados
Identificao de padres
Regras de associao
Classificao e predio
Clusterizao
Deteco de outliers
Regras de associao
Objetivo:
Encontrar padres frequentes, associaes, correlaes entre conjunto
de itens ou objetos de um banco de dados transacional, banco de dados
relacional ou outro repositrio de informao.
Aplicaes:
Anlise de cestas de compras, marketing, projeto de catlogos, etc.
Quais subsequentes compras aps ter comprado um PC?
Qual tipo de DNA sensitivo a uma nova droga?
Como classificar documentos WEB?
Exemplos:
Forma regra: corpo cabea [suporte, confiana].
compra(x, fraldas) compra(x, cerveja) [0.5%, 60%]
Outra notao: = ( )
Confiana:
=
(probabilidade)
( )
Regras de associao
Suponha que um gerente de um supermercado esteja interessado
em conhecer os hbitos de compra de seus clientes, por exemplo:
Produto
Nm. do Produto
Po
Leite
Acar
Papel Higinico
Manteiga
Fralda
Cerveja
Exemplo BD transaes
Num transao
Itens comprados
T1
{1,3,5}
T2
{2,1,3,7,5}
T3
{4,9,2,1}
Refrigerante
T4
{5,2,1,3,9}
Iogurte
T5
{1,8,6,4,3,5}
Suco
10
T6
{9,2,8}
Regras de associao
Suponha que um Itemset que aparea em pelos
menos 50% das transaes seja considerado
frequente
ItemSet
Suporte
{1,3}
0,6666
{2,3}
0,3333
{1,2,7}
0,1666
{2,9}
0,5
Suporte de alguns
Itemsets
Regras de associao
Regras X & Y Z
suporte = probabilidade de uma transao conter {X U Y U Z}
confiana = probabilidade condicional de uma transao ter
{X U Y} tambm conter Z
Cliente compra
ambos
Cliente
compra
fraldas
ID Transao
2000
A, B, C
1000
A, C
4000
A, D
5000
B, E, F
A C (50%, 66.6%)
C A (50%, 100%)
Leite
1 N
2 S
3 N
4 S
5 N
6 N
7 N
8 N
9 N
10 N
Caf
S
N
S
S
N
N
N
N
N
N
Feijo
N
N
N
N
N
N
N
S
S
N
Fase II:
A partir dos conjuntos de itens frequentes, descobrir regras de
associao com fator de confiana maior ou igual ao
especificado pelo usurio.
Database D
TID
Itens
100
134
200
Sup.
{1}
{2}
235
{3}
300
1235
{4}
400
25
{5}
Scan D
L2 itemset
C3 itemset
{2 3 5}
{1 3}
{2 3}
{2 5}
{3 5}
Scan D
C2 itemset
Sup.
{1 2}
L3 itemset
{2 3 5}
Sup.
L1 Itemset
Sup.
Sup.
{1}
{2}
{3}
{5}
3
C2 itemset
{1 2}
Scan D
{1 3}
{1 5}
{1 5}
{2 3}
{2 3}
{2 5}
L3
{3 5}
{2 5}
{3 5}
{1 3}
Entretanto:
Clientes sempre compram po. (sup. 90%)
( )
()
Piatesky-Shaprio (P-S):
= sup sup sup()
Etapas do KDD
Anlise de necessidades
Tratamento de dados (seleo, limpeza, enriquecimento
e codificao)
Minerao de dados
Identificao de padres
Regras de associao
Classificao e predio
Clusterizao
Deteco de outliers
VEG_I
27,262
VEG_I
> 27,262
Tmin_V
20,34 C
BLUE_V
0,02024
Tmin_V
> 20,34 C
BLUE_V
> 0,02024
SOMB_V
27,976
SAN6
63,86%
SOMB_V
> 27,976
SAN6
> 63,86%
EVI_V
0,5573
DEM
376,377
SOMB_V
31,95
DEM
> 376,377
Tmax_I
30,02 C
SOMB_V
> 31,95
Tmax_I
> 30,02 C
IDHL_2000
69,75%
IDHL_2000
> 69,75%
EVI_V
> 0,5573
Classificao e predio
Objetivo:
Extrair modelos que descrevem importantes classes de dados e tambm
para predizer tendncias dos dados.
Construir ou prever atributos categricos a partir de um conjunto de
outros dados.
Aplicaes:
Aprovao de crdito, marketing direcionado, diagnstico mdico,
anlise de efetividade.
Exemplos:
Classificao: se FEBRE e DIFICULDADE_RESP e FALTA_DE_APETITE
ento AMIGDALITE
Previso: dados NUM_QUARTOS, REA, NUM_VAGAS, ELEVADORES,
REGIAO, IDADE ento VALOR PROVVEL DO IMVEL
Exemplo:
Nome
Daniel
Joo
Carlos
Maria
Paulo
Otvio
Idade
<= 30
31..60
31..60
31..61
<= 30
> 60
Base de treinamento
Renda
mdia
mdia-alta
mdia-alta
baixa
baixa
mdia-alta
Compra
Profisso Eletrnico
estudante
S
professor
S
engenheiro
S
vendedora
N
porteiro
N
aposentado
N
Regras do modelo
(a) SE idade = 31..60 e Renda = Mdia-Alta
ENTO Compra Eletrnico = Sim.
(b) SE Renda = Baixa
ENTO Compra Eletrnico = No.
Exemplo:
Nome
Pedro
Jos
Luiza
Carla
Wanda
Felipe
Idade
31..60
31..60
31..60
<= 30
<= 30
> 60
Base de testes
Compra
Renda
Profisso Eletrnico
mdia-alta ecologista
N
mdia-alta professor
N
mdia-alta assistente
N
baixa
vendedora
N
baixa
faxineira
N
mdia-alta aposentado
N
Regras do modelo
(a) (1), (2), (3) no so corretamente
classificadas pelo modelo.
(b) (4),(5), (6) classificadas
corretamente.
Preciso/acurcia: 50%
Exemplo:
Dada a base de dados de clientes de uma loja de
eletrnicos:
enviar marketing direcionado queles com maior propenso a
consumir eletrnicos, mas que ainda no o fizeram.
Nome
Jssica
Lucas
Renata
Bernardo
Idade
<= 30
<= 30
31..60
> 60
Renda
mdia-alta
baixa
baixa
mdia-alta
Profisso
vendedora
professor
engenheira
aposentado
Classificao e predio
Mtodos de classificao:
Mtodos de predio:
Regresso linear / polinomial
Regresso no-linear
idade
<=30
<=30
3140
>40
>40
>40
3140
<=30
<=30
>40
<=30
3140
3140
>40
renda
alta
alta
alta
mdia
baixa
baixa
baixa
mdia
baixa
mdia
mdia
mdia
alta
mdia
estuda
no
no
no
no
sim
sim
sim
no
sim
sim
sim
no
sim
no
crdito
razovel
excelente
razovel
razovel
razovel
excelente
excelente
razovel
razovel
razovel
excelente
excelente
razovel
excelente
compra
computador
no
no
sim
sim
sim
no
sim
no
sim
sim
sim
sim
sim
no
<= 30
30..40
idade
no
no
sim
sim
excelente
no
razovel
sim
estuda
sim
> 40
crdito
Parmetros de entrada:
base de dados (B).
lista de atributos candidatos (CAND).
um atributo-classe (rtulo): sempre categrico.
log 2
log 2
, =
+
+ +
+
Usando o atributo A, a base de dados B ser particionada em conjuntos
Si. A quantidade de informao final ser:
=
=1
+
( , )
+
Ganho de informao: = , ()
= 1 2
=1
Temperatura
Quente
Quente
Quente
Moderado
Frio
Frio
Frio
Moderado
Frio
Moderado
Moderado
Moderado
Quente
Moderado
Umidade
Alta
Alta
Alta
Alta
Normal
Normal
Normal
Alta
Normal
Normal
Normal
Alta
Normal
Alta
Vento
No
Sim
No
No
No
Sim
Sim
No
No
No
Sim
Sim
No
Sim
Jogar
No
No
Sim
Sim
Sim
No
Sim
No
Sim
Sim
Sim
Sim
Sim
No
5
4
5
1 +
2 +
3
14
14
14
2
5
2
5
3
5
3
5
4
4
0
4
0
4
2 = log 2 + log 2 = 0
logo
3
5
3
5
2
5
2
5
5
4
5
0.971 +
0+
0.971 = 0.693
14
14
14
4
6
4
1 +
2 +
3 = 0.911
14
14
14
7
7
1 +
2 = 0.788.
14
14
Ganho da informao:
=
9
9
log 2
14
14
5
5
log 2
14
14
= 0.940
= . . = .
= 0.940 0.911 = 0.029
= 0.940 0.788 = 0.152
= 0.940 0.892 = 0.020
P C X = P C
=1
P(sol| no) = 3/ 5
P(nublado| sim) = 4/ 9
P(nublado| no) = 0
P(chuvoso| sim) = 3/ 9
P(chuvoso| no) = 2/ 5
Temperatura
Jogar
P(quente| sim) = 2/ 9
P(quente| no) = 2/ 5
P(moderado| sim) = 4/ 9
P(moderado| no) = 2/ 5
P(frio| sim) = 3/ 9
P(frio| no) = 1/ 5
P(sim) = 9/ 14
P(no) = 5/ 14
Humidade
P(alta| sim) = 3/ 9
P(alta| no) = 4/ 5
P(normal| sim) = 6/ 9
P(normal| no) = 2/ 5
Vento
P(sim| sim) = 3/ 9
P(sim| no) = 3/ 5
P(no| sim) = 6/ 9
P(no| no) = 2/ 5
Crticas:
Treinamento demorado e sensvel a diversos parmetros
tais como topologia da rede, nmero de neurnios, taxa de
aprendizado, nmero de pocas utilizadas.
Difcil de compreender a funo aprendida (pesos).
=
=1
+ 1 = +
TxAp taxa de aprendizado (ex. 0.05)
ent entrada
1 ,
=
0, <
Horas Sono
Estado
0.9
0.25
0.66
0.15
0.83
0.55
0.86
0.63
0.16
0.2
0.1
0.65
0.33
0.8
0.53
0.87
0.6
0.46
0.23
Treinamento
Parou quando atingiu = 0.0001
Durou 30 pocas (ou 300
iteraes)
TxAp = 0.01
Limiar da funo de ativao =
0.5
Pesos finais:
W0 = 0.416882
W1= 0.507391
Robustez
habilidade do mtodo em detectar e resolver questes relativas a valores
omissos (ausentes) ou ruidosos.
Escalabilidade
capacidade de construir eficientemente modelos com grandes volumes de
dados.
Interpretabilidade
refere ao nvel de entendimento provido pelo modelo.
Acurcia
refere a capacidade do modelo representar bem os dados analisados e tambm
novos dados.
Classificao
Predio
Modelam funes contnuas.
Regresso linear: = +
Regresso no linear: = (, ), onde (, ) no linear.
Exemplos:
funo exponencial
funo polinomial
Custo da
casa
Lotes custam
em mdia
R$25.000,00
Tamanho da casa
Tamanho da casa
Etapas do KDD
Anlise de necessidades
Tratamento de dados (seleo, limpeza, enriquecimento
e codificao)
Minerao de dados
Identificao de padres
Regras de associao
Classificao e predio
Clusterizao
Deteco de outliers
Aplicaes
Escalabilidade.
Trata diferentes tipos de atributos.
Clusters com forma arbitrrias.
Mnimo conhecimento do domnio.
Resilincia: valores extremos; rudos; ordem de
processamento.
Interpretabilidade
Anlise de agrupamento:
medidas de similaridade e distncia
Algoritmos de agrupamento dependem de uma medida de
similaridade ou de distncia.
Similaridade
Medida numrica que identifica o quanto dois objetos so parecidos
O valor mais alto quanto mais semelhantes os objetos so
comum estar entre a faixa de valores [0,1] (normalizado)
Anlise de agrupamento:
medidas de similaridade e distncia
Dados so representados como um vetor de caractersticas (feature
vectors)
Tabela de empregados
ID
Gnero
Idade
Salrio
27
19.000
51
4
5
T1
T2
T3
T4
T5
T6
Doc1
64.000
Doc2
52
100.000
Doc3
33
55.000
Doc4
45
45.000
Doc5
Anlise de agrupamento:
medidas de similaridade e distncia
Condies para funo de distncia mtrica d para quaisquer
objetos i; j; k:
d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i) (simetria)
d(i,j) d(i,k) + d(k,j) (desigualdade triangular)
(1)
(2)
(3)
(4)
onde:
(1) todos os elementos da matriz de dissimilaridade so no-negativos.
(2) diagonal da matriz de dissimilaridade formada por zeros.
(3) matriz de dissimilaridade simtrica em relao diagonal. Existem
distncias assimtricas (exemplo: problema do caixeiro viajante).
(4) requisito para espaos mtricos; existem espaos no mtricos
(exemplo: julgamentos subjetivos)
Anlise de agrupamento:
estruturas de dados
Matriz de dados
x11
...
x
i1
...
x
n1
Colunas so atributos.
Linhas so objetos.
Cada linha a representao vetorial
de um registro.
N registros e P atributos: matriz N x P
...
x1f
...
...
...
...
...
xif
...
...
...
...
... xnf
...
0
d(2,1)
0
d(3,1) d ( 3,2) 0
:
:
:
d ( n,1) d ( n,2) ...
x1p
...
xip
...
xnp
... 0
Medidas de similaridade:
variveis binomiais ou binrias
Atributos de tipo binrio ou booleano s tm dois valores : 1 ou
0, sim ou no, alto ou baixo.
Tratar como valores numricos pode levar a anlises errneas.
Amostra
Objeto i
Objeto j
Valor
Medidas de similaridade:
variveis binomiais ou binrias
Valores casados: a + d
Valores distintos: b + c
Numero de atributos: a + b + c + d
Medida de distncia (atributos simtricos)
d (i, j) =
b+c
a +b+c + d
b+c
a +b+c
a
a+b+c
Medidas de similaridade:
variveis binomiais ou binrias
Exemplo:
Nome
Gnero Febre
Tosse
Teste 1
Teste 2
Teste 3
Teste 4
Joo
Maria
Jos
, =
Medidas de similaridade:
variveis binomiais ou binrias
Distncia
Frmula
Propriedade
Hamming (Manhattan)
b+c
no normalizada
Euclidiana
sqrt(b+c)
no normalizada
Chebyshev discreto
max(b; c)
no normalizada
Soergel
(b+c)/(b+c+d)
normalizada
Hamming mdia
(b+c)/(a+b+c+d)
normalizada
Euclidiana mdia
sqrt((b+c)/(a+b+c+d))
normalizada
Medidas de similaridade:
variveis binomiais ou binrias
Similaridade
Frmula
Propriedade
a/(a+b+c+d)
normalizada
Jaccard
a/(a+b+c)
normalizada
(a+d)/(a+2*(b+c)+d)
normalizada
Hamann
(a (b + c) + d)=(a + b + c + d)
normalizada
Dice
2*a/(2*a+b+c)
normalizada
Match simples
(a+d)/(a+b+c+d)
normalizada
McConnoughy
normalizada
Medidas de similaridade:
variveis nominais ou categricas
Generalizao de uma varivel binria em que ela pode ter
mais de dois valores.
Exemplo: Temperatura = {alta, mdia, baixa}.
m
d (i, j) = p
p
Medidas de similaridade:
variveis categricas ordinais
A ordem importante, exemplo: rank
Pode ser tratada como interval-scaled
Trocar xif pelo seu rank
rif {1,..., M f }
mapear a faixa (range) de cada varivel em um intervalo [0, 1]
zif
rif 1
=
M f 1
Medidas de similaridade:
variveis contnuas
Qualquer distncia mtrica pode ser utilizada.
Mais importantes so classes de distncias de Minkowski:
d (i, j) = q (| x x |q + | x x |q +...+ | x x |q )
i1
j1
i2
j2
ip
jp
Se q = 1, d a distncia de Manhattan
Se q = 2, d a distncia Euclidiana
d (i, j) = (| x x |2 + | x x |2 +...+ | x x |2 )
i1
j1
i2
j2
ip
jp
z = x
Z-score:
Normalizao Min-Max:
ID
1
2
3
4
5
min
+
max min
Gnero
F
M
M
F
M
Idade
27
51
52
33
45
Salrio
19.000
64.000
100.000
55.000
45.000
ID
1
2
3
4
5
Gnero
1
0
0
1
0
Idade
0.00
0.96
1.00
0.24
0.72
Salrio
0.00
0.56
1.00
0.44
0.32
Y = y1 , y2 ,, yn
X = x1 , x2 ,, xn
A norma do vetor X : X =
2
i
X Y
A similaridade de cosseno : sim( X , Y ) =
=
X y
(x y )
i
2
i
2
i
X =
2
i
T1
0
3
3
0
2
T2
4
1
0
1
2
T3
0
4
0
0
2
T4
0
3
0
3
3
T5
0
1
3
0
1
T6
2
2
0
0
4
T7
1
0
3
2
0
T8
3
1
0
0
2
Medidas de similaridade:
Correlao
Em casos onde pode haver uma varincia mdia alta
entre os dados (ex. avaliao de filmes), o coeficiente
de correlao de Pearson a melhor opo
Correlao de Pearson
, =
(, )
() ()
Procedimento:
cria-se uma partio inicial aleatria de k partes
num processo iterativo, os elementos das partes so realocados para
outras partes de tal modo a melhorar o particionamento.
(3) Calcula-se a mdia dos elementos de cada cluster, isto , o seu centro
de gravidade. Este ponto ser o novo representante do cluster.
(4) Em seguida, volta para o passo 2 at que nenhuma mudana ocorra,
isto , nenhum objeto realocado para outro cluster.
10
10
9
8
7
6
5
4
4
3
2
1
0
0
10
Aloca
cada
objeto
ao
cluster
mais
similar
K= 2
Escolhe-se
arbitrariamente K
elementos para
serem os clusters
iniciais
3
2
1
0
0
10
Atualiza
os
centros
dos
clusters
4
3
2
1
0
0
Realoca
10
Realoca
10
10
4
3
2
1
0
0
10
Atualiza
os
centros
dos
clusters
4
3
2
1
0
0
Segunda iterao
K1 = {2, 3, 4}; m1 = 3;
Terceira iterao
K1 = {2, 3, 4, 10}; m1 = 4.75;
Quarta iterao
K1 = {2, 3, 4, 10, 11, 12}; m1 = 7;
Quinta iterao
K2 = {20, 30, 25}; m2 = 25
K1 = {2, 3, 4, 10, 11, 12}; m1 = 7;
Sem alterao em relao quarta iterao, fim do processamento
10
4 10 9 4 0
5 9 8 5 3
9
8
5
3
0
D2 = ___
(1,2)
3
4
5
(1,2)
0
5
9
(1,2) 0 5 8
D3 = 3 5 0 4
(4,5) 8 4 0
5
8
5
3
0
Clusterizao
No h atributos especiais.
Anlise de outlier
Outliers (valores extremos)
Um outlier um fato que desvia tanto de outros fatos a
ponto de gerar suspeitas de que foi gerado por um
mecanismo diferente.
Fraude telecomunicao
Fraude cartes de crditos
Segmentao de clientes
performance de atletas profissionais (casos de dopagem,
por exemplo).
Anlise de outlier
Definio:
Um objeto O de um banco de dados D dito um DB(p,d)-outlier se pelo
menos uma frao p (0 < p < 1) dos objetos de D esto a uma distncia
maior do que d de O.
objeto marcado um DB(p,d)outlier, para p = 2/3 e d > d
(8 dos 12 objetos de D esto a
uma distncia maior do que d
deste objeto).
Anlise de outlier
Processo:
Sejam uma base D com N elementos, p um nmero entre 0 e 1 e d > 0.
Considere dist() a funo distncia considerada.
d-vizinhana(O) o conjunto de pontos cuja distncia a O no mximo
d.
p a frao mnima de objetos de D que devem ficar fora da dvizinhana de um outlier.
O nmero mximo de objetos dentro da vizinhana de um outlier, M :
M = N(1 - p).
Anlise de outlier
Se considerarmos M=2 e d=3
Nos dados abaixo, as linhas 6 e 7 so outliers
L1
L2
L3
L4
L5
L6
L7
L1
2,5
L2
L3
L4
L5
L6
2,5
L7
Aviso legal
O material presente nesta apresentao foi produzido a partir de informaes prprias e coletadas de documentos obtidos
publicamente a partir da Internet. Este material contm ilustraes adquiridas de bancos de imagens de origem privada ou pblica,
no possuindo a inteno de violar qualquer direito pertencente terceiros e sendo voltado para fins acadmicos ou meramente
ilustrativos. Portanto, os textos, fotografias, imagens, logomarcas e sons presentes nesta apresentao se encontram protegidos por
direitos autorais ou outros direitos de propriedade intelectual.
Ao usar este material, o usurio dever respeitar todos os direitos de propriedade intelectual e industrial, os decorrentes da
proteo de marcas registradas da mesma, bem como todos os direitos referentes a terceiros que por ventura estejam, ou
estiveram, de alguma forma disponveis nos slides. O simples acesso a este contedo no confere ao usurio qualquer direito de uso
dos nomes, ttulos, palavras, frases, marcas, dentre outras, que nele estejam, ou estiveram, disponveis.
vedada sua utilizao para finalidades comerciais, publicitrias ou qualquer outra que contrarie a realidade para o qual foi
concebido. Sendo que proibida sua reproduo, distribuio, transmisso, exibio, publicao ou divulgao, total ou parcial, dos
textos, figuras, grficos e demais contedos descritos anteriormente, que compem o presente material, sem prvia e expressa
autorizao de seu titular, sendo permitida somente a impresso de cpias para uso acadmico e arquivo pessoal, sem que sejam
separadas as partes, permitindo dar o fiel e real entendimento de seu contedo e objetivo. Em hiptese alguma o usurio adquirir
quaisquer direitos sobre os mesmos.
O usurio assume toda e qualquer responsabilidade, de carter civil e/ou criminal, pela utilizao indevida das informaes, textos,
grficos, marcas, enfim, todo e qualquer direito de propriedade intelectual ou industrial deste material.