Anda di halaman 1dari 30

K-Means

(Clustering)

Prof. Alexandre Monteiro


Recife

Contatos

Prof. Guilherme Alexandre Monteiro Reinaldo

Apelido: Alexandre Cordel

E-mail/gtalk: alexandrecordel@gmail.com
greinaldo@fbv.edu.br

Site: http://www.alexandrecordel.com.br/fbv

Celular: (81) 9801-1878

Agrupamento -Anlise de Clusters


a1 a

F 1 0 1 1

a2 b M 0 0 1 1

. c F 1 1 1 0
. d F 1 0 0 0
.
e M 1 1 0 1
Nome

Sexo

Doena X
a1
a2

a3

a7
a10 a a9
5

a8
a4

a11

Doena Y

a6
Doena Z

Sintomas

Nmero de Clusters = 3

Conceito = Doena

Anlise de Clusters: Objetivos

Compreenso dos dados


Existe algum conceito inerente a cada grupo.
Que conceito este ?
Utilidade em outras tarefas
Cada cluster pode ser representado por um objeto
prottipo que caracteriza o cluster

Sumarizao : Algoritmos aplicados em grandes volumes


de dados podem ser aplicados apenas aos prottipos,
reduzindo assim o tempo de execuo

Compresso : o objeto prottipo representa cada objeto


dentro do seu cluster

Otimizao do clculo dos vizinhos mais prximos:


Se dois prottipos esto distantes ento os objetos nos
respectivos clusters tambm esto distantes.
Os objetos mais prximos do objeto X devem ser
procurados no cluster correspondente ao prottipo mais
prximo de X.

Clusterizao versus
Classificao

Classificao

Aprendizado Supervisionado
Amostras de treinamento so classificadas
Nmero de Classes conhecido

Aprendizado por Exemplo

Clusterizao

Aprendizado No Supervisionado
Aprendizado por Observao

Aprendizado Supervisionado

No caso da aprendizagem supervisionada, assume-se a


presena de um professor, onde so fornecidas as
respostas corretas para cada situao. A aprendizagem
realizada a partir de exemplos (instncias ou casos de
treino) compostos por um vetor de entradas e por um vetor
de sadas desejadas.
Existem dois tipos de aprendizagem supervisionada, por
Classificao, caracterizada por sadas com valores
discretos (classes) e Regresso, caracterizada por sadas
com valores contnuos, reais. Nesse caso, observa-se uma
convergncia rpida no resultado. Esse tipo de
aprendizagem pode ser comparado nota de um aluno em
uma prova.

Apredizado No-Supervisionado

No caso da aprendizagem no-supervisionada, no


fornecida nenhuma indicao externa, a aprendizagem
realizada pela descoberta de regularidades (semelhanas)
nos dados de entrada, procurando agrupamentos
(clustering) dos exemplos de treino.
Nesse caso, observa-se uma convergncia lenta no
resultado.
Esse tipo de aprendizagem pode ser comparado ao
desenvolvimento das clulas simples do crtex visual
estriado.

Tipos de Agrupamentos

Particionais versus Hierrquicos

Particionais: clusters so disjuntos


Hierrquicos:
- Clusters possuem subclusters organizados em rvore
- Cada cluster (n interno da rvore) a unio de seus filhos

Exclusivos versus No-exclusivos versus Fuzzy

Exclusivos: cada objeto pertence a um nico cluster


No exclusivos: existem objetos que so associados a diferentes
clusters
Fuzzy : objetos so associados a um cluster com um certo grau de
pertinncia

Completos versus Parciais


Completos: cada objeto pertence a algum cluster
Parciais: existem objetos que no esto associados a nenhum
cluster (outliers, ruidos, sem interesse)

O que um cluster ?
Como definir a noo de Cluster ?

Prottipos

Bem separados
Um cluster um conjunto de objetos no qual cada
objeto est mais prximo (ou mais similar) a
objetos dentro do cluster do que qualquer objeto
fora do cluster.

Baseados em Prottipos
Um cluster um conjunto de objetos no qual cada
objeto est mais prximo ao prottipo que define o
cluster do que dos prottipos de quaisquer outros
clusters.
Em geral: Prottipo = centride

Os clusters encontrados tendem a ser globulares.

O que um cluster ?

Baseados em Grafos
Boa definio quando os clusters
so irregulares e entrelaados.

- Os dados podem ser representados por um grafo,


onde os vrtices so objetos e existe aresta de a para b
se a est mais perto de b do que de outros objetos no
conjunto.
- Estar perto significa estar diretamente conectado.
- Um cluster uma componente conexo do grafo, isto
, um conjunto de objetos que esto conectados um
no outro, mas que no esto conectados com
nenhum outro objeto de outro cluster.

Problema: quando os dados tm ruidos,


Pode haver distores nos clusters
Exemplo: dois clusters distintos podem
se transformar num nico cluster (os dois
clusters so ligados atravs de uns poucos
Outliers, como mostrado na figura).

b
a est perto de b
d(a,b) <

O que um cluster ?
Esta definio utilizada quando
os clusters so irregulares ou entrelaados
e quando ruido e outliers esto presentes.
Uma definio baseada em grafos no seria
adequada neste caso, pois os outliers
poderiam fazer uma ponte entre as regies
transformando-as em um nico cluster.
Os outliers seriam absorvidos nos clusters.
Baseados em Densidade
Um cluster uma regio densa rodeada
por uma regio de baixa densidade.
No exemplo, temos 3 clusters = 3 regies densas
A ponte de outliers ligando as duas esferas
foi dissolvida nos outros outliers.

O que um cluster ?

Clusters Conceituais

Os objetos de um cluster possuem uma


propriedade que derivada do conjunto
total de objetos. No exemplo, podemos distinguir
3 clusters: o tringulo, o retngulo e os dois anis.
Um cluster representa um conceito.
Definio utilizada em Reconhecimento de Padres.

Tipos de Tcnicas de
Clusterizao

Particionamento

K-means:
K-medides: algoritmos PAM, CLARA,
CLARANS
Particional e baseada em prottipos.
Encontra um nmero k de clusters (k fornecido pelo
usurio) que so representados por seus centrides.

Particionamento

BD com n amostras

K = nmero de clusters
desejado ( parmetro )
Kn

Tipos de Tcnicas de Clusterizao

Hierrquicas Aglomerativas

Produzem agrupamentos hierrquicos comeando com clusters


unitrios e repetidamente aglutinando clusters prximos
dois a dois at chegar no nmero k de clusters solicitado
pelo usurio.
Exemplos: BIRCH, CURE, CHAMELEON, ROCK

Hierrquicos Aglomerativos

BD com n amostras

K = nmero de clusters
desejado ( parmetro )
Kn

Tipos de Tcnicas de Clusterizao

Hierrquicas Divisrias

Produzem agrupamentos hierrquicos comeando com um


cluster nico contendo todo o conjunto de objetos e
repetidamente dividindo os clusters em duas partes de
acordo com algum critrio de similaridade at chegar no
nmero k de clusters solicitado pelo usurio.
Exemplo: algoritmo DIANA

Tipos de Tcnicas de
Clusterizao

Por densidade

Adequados para identificar clusters de formato


arbitrrio. Robustos com respeito a rudos e
outliers.
Regies densas = clusters
Regies de baixa densidade = rudos e outliers
Um ponto pertence a uma regio densa se numa
vizinhana de raio pequeno existem pelo menos M
objetos (M dado pelo usurio).
O nmero k de clusters no precisa ser dado pelo
usurio.
determinado pelo algoritmo.

Exemplos: DBSCAN, OPTICS, DENCLUE

Dados de Treinamento
Matriz de dados padronizados

Matriz de dissimilaridade

x11

x12

x13

...

x1n

...

x21

x22

x23

...

x2n

d(x1,x2)

...

x31

x32

x33

...

x3n

d(x1,x3) d(x2,x 3)

...

...

...

...

...

...

...

xp1

xp2

xp3

...

xpn

...

Distncia Euclidiana d(x,y) =

...

...

d(x1,xp) d(x2,x p)

(x1-y1)2 + (x2-y2)2 + .... + (xp yp)2

Outras distncias : Manhattan, Minkowski, Ponderada

Outras distncias

Manhattan
d(x,y) = |x1-y1|+ |x2-y2| + .... + |xp yp|
d(x,y) = m (x1-y1)m + (x2-y2)m+ .... + (xp yp)m
Minkowski
Distncia em geral
Qualquer funo d(x,y) N que satisfaz as seguintes
propriedades:

d(i,j) 0
d(i,i) = 0
d(i,j) = d(j,i)
d(i,k) d(i,j) + d(j,k) (desigualdade triangular)

Distncia poderada
d(x,y) =

p1 (x1-y1)2 + p2 (x2-y2)2+ .... +pk (xk yk)2

Outras medidas de similaridade

Para documentos

p1,p2, p3, ... : vocabulrio (palavras)


Um documento = vetor (n1,n2,...,nk)
ni = nmero de vezes que a palavra i
aparece no documento
Medida de similaridade entre documentos
d1,d2
d1
= cos(d1,d2) = d1.d2

|d1| |d2|
d2

Exercicio

Sejam X1 = (1,2) e X2 = (4,6). Calcula as distncias


euclidianas, Minkowski com m = 3 e Manhattan entre X1 e
X2.
Ilustre no plano xy os segmentos representando tais
distncias.

Algoritmo K-means
Exemplo K = 3

+
+
+

2
1 Iterao

Algoritmo K-Means
1.

Selecione k pontos como centrides iniciais

2.

Repeat

3.

Forme k clusters associando cada objeto a seu


centride mais prximo

4.

Recompute o centride de cada cluster

5.

Until Centrides no apresentam mudanas

Centride = centro de gravidade do cluster


Coordenada i = mdia aritmtica das coordenadas i de seus
objetos constituintes.

Observaes

Boa parte dos clusters j convergem nos primeiros passos do


algoritmo, ficando somente uma quantidade pequena de
clusters que ainda modificam.
Assim, a condio 5 do algoritmo substituida por : at que
somente 1% dos objetos mudam de clusters.

Objetivo

Erro (x) = d(x,ci) = distncia de x at o centride


ci de seu cluster Ci
Objetivo do mtodo K-means
Minimizar a soma dos erros (SSE = sum of square errors)
Maximizar a coeso (no caso de documentos)
K

2
SSE = i= d(x,ci)
1 x Ci

K
Coeso

i = 1 x2 Ci
= coseno(x,ci)

Observao

Nem sempre o K-means consegue minimizar o SSE

Isto depende muito da escolha dos centrides iniciais.

Tcnicas para inicializar os


centrides

Escolha aleatria diversas rodadas do k-means at


encontrar a escolha que produz o menor SSE (ou maior
coeso).
Nem sempre funciona- depende dos dados e do nmero k de
clusters que se quer encontrar.

Utilizar uma amostra, aplicar um mtodo de


clusterizao hierrquica sobre a amostra. Centrides
iniciais = centrides dos clusters das amostras.
Funciona se a amostra pequena (mtodos hierrquicos so
computacionalmente caros !) e K relativamente pequeno
com relao ao tamanho da amostra.

Exerccio
1

3
4

5
6
7

8
9

12

13

11
14
15
16

10

17

Achar 3 clusters utilizando o k-means

1,9

7,3

3,4

7,5

2.5

6,8

1,5

6,5

3,5

6,4

2,2

5,8

3,4

5,2

3,6

3,2

10

4,5

2,4

11

2,6

12

1.9

13

2,7

14

1.9

2,4

15

0,8

16

1,6

1,8

17

Bibliografia

R. Turner. Logics for Artificial Intelligence. John


Wiley, 1985.
E. Rich e K. Knight. Inteligncia Artificial. Makron
Books, 2a. Edio, 1994.
S. Haack. Filosofia das Lgicas. UNESP Editora, 1998.
P. Almeida e A. Evsukoff. Sistemas Fuzzy em Sistemas
Inteligentes. Manole, 2003
J. Jang, C. T. Sun e E. Mizutani. Neuro-Fuzzy and Soft
Computing. Prentice Hall, 1997.

30

Anda mungkin juga menyukai