CIS62283 03 Klasterisasi
CIS62283 03 Klasterisasi
Klasterisasi
dimana
xj
dan
yj
masing-‐masing
adalah
nilai
dari
atribut
ke-‐j
dari
x
dan
y
Manhattan
Distance
• Manha_an
distance
disebut
juga
sebagai
“city
block
distance”
merupakan
jumlah
jarak
dari
semua
a_ribute.
• Untuk
dua
data
CCk
x
dan
y
dalam
d-‐ruang
dimensi,
Manha_an
distance
antara
CCk
tersebut
didefinisikan
sebagai
berikut
:
Maximum
Distance
• Maximum
distance
disebut
juga
sebagai
“sup
distance”.
Didefinisikan
sebagai
nilai
maximum
dari
jarak
atribut-‐
atribut
nya
• Untuk
dua
data
CCk
x
dan
y
dalam
d-‐ruang
dimensi,
Maximum
distance
antara
CCk
tersebut
didefinisikan
sebagai
berikut
:
Minkowski
Distance
• Euclidean
distance,
Manha_an
distance,
dan
maximum
distance
merupakan
Cga
kasus
khusus
dari
Minkowski
distance
yang
didefinisikan
sebagai
berikut
:
Partitioning Hierarchical
Divisive (top-down)
Hard Clustering
Combinations
Fuzzy Clustering
Agglomerative (bottom-up)
Possibilistic Clustering
Clustering
Algorithm
• Par$$oning:
merupakan
single
clustering.
One
or
few
sequenCal
passes
on
the
data.
• Hierarchical:
merupakan
sekuen
dari
nested
clusterings.
• Hard
clustering:
seCap
CCk
data
merupakan
anggota
dari
satu
klaster
secara
eksklusif
• Fuzzy
clustering:
seCap
CCk
data
merupakan
anggota
lebih
dari
satu
klaster
secara
simultan
• Possibilis$c
clustering:
klasterisasi
yang
didasarkan
pada
possibility
suatu
CCk
data
terhadap
klaster
Hard
Clustering
Algorithm
• Hard
Clustering
• Basic
hard
clustering
algorithms
(e.g.,
k-‐means)
• k-‐medoids
algorithms
• Mixture
decomposiCon
• Branch
and
bound
• Simulated
annealing
• DeterminisCc
annealing
• Boundary
detecCon
• Mode
seeking
• GeneCc
clustering
algorithms
Fuzzy
Clustering
Algorithm
• Fuzzy
Clustering
• Fuzzy
k-‐means
• Fuzzy
k-‐modes
• Fuzzy
c-‐means
Hierarchical
Clustering
Algorithm
• AgglomeraCve
Hierarchical
(bo_om-‐up)
• Graph
method
• Single-‐link
method
• Complete-‐link
method
• Group
average
method
• Weighted
group
average
method
• Geometric
method
• Ward’s
method
• Centroid
method
• Median
method
• Divisive
Hierarchical
(top-‐down)
à
kebalikan
dari
agglomeraCve
Dendogram
20
Cutt-off 2 cluster
15
10 Cutt-off 3 cluster
3 4 2 1 5
Any
Questions?
K-‐Means
Clustering
• K-‐mean
merupakan
teknik
klastering
yang
paling
umum
dan
sederhana.
• Tujuan
klastering
ini
adalah
mengelompokkan
obyek
ke
dalam
k
klaster/kelompok.
• Nilai
k
harus
ditentukan
terlebih
dahulu
(berbeda
dengan
hierarchical
clustering).
• Ukuran
kemiripan/keCdakmiripan
masih
tetap
digunakan
untuk
mengelompokkan
obyek
yang
ada.
Algoritme
K-‐means
• Secara
ringkas
algoritme
K-‐means
adalah
sebagai
berikut:
1. Pilih
jumlah
klaster
k
2. Inisialisasi
k
pusat
klaster
3. Tempatkan
seCap
data/obyek
ke
klaster
terdekat
4. Perhitungan
kembali
pusat
klaster
5. Ulangi
langkah
3
dengan
memakai
pusat
klaster
yang
baru.
Jika
pusat
klaster
Cdak
berubah
lagi
maka
proses
pengklasteran
dihenCkan.
Penentuan
Jumlah
dan
Pusat
Klaster
• Inisialisasi
atau
penentuan
nilai
awal
pusat
klaster
dapat
dilakukan
dengan
berbagai
macam
cara,
antara
lain:
• Pemberian
nilai
secara
random
• Pengambilan
sampel
awal
dari
data
• Penentuan
nilai
awal
hasil
dari
klaster
hirarki
dengan
jumlah
klaster
yang
sesuai
dengan
penentuan
awal.
• Dalam
hal
ini
biasanya
user
memiliki
perCmbangan
intuiCf
karena
dia
memiliki
informasi
awal
tentang
obyek
yang
sedang
dipelajari,
termasuk
jumlah
klaster
yang
paling
tepat.
Penempatan
Obyek
ke
Dalam
Klaster
• Penempatan
obyek
ke
dalam
klaster
didasarkan
pada
kedekatannya
dengan
pusat
klaster
• Dalam
tahap
ini
perlu
dihitung
jarak
Cap
data
ke
Cap
pusat
klaster
yang
telah
ditentukan.
• Jarak
paling
dekat
antara
suatu
data
dengan
pusat
klaster
tertentu
merupakan
hal
penentu
data
tersebut
akan
masuk
klaster
yang
mana.
Perhitungan
Kembali
Pusat
Klaster
• Pusat
klaster
ditentukan
kembali
dengan
cara
dihitung
nilai
rata-‐rata
data/obyek
dalam
klaster
tertentu.
• Jika
dikehendaki
dapat
pula
digunakan
perhitungan
median
dari
anggota
klaster
yang
dimaksud
• Mean
bukan
satu-‐satunya
ukurang
yang
bisa
dipakai
• Pada
kasus
tertentu
pemakaian
median
memberikan
hasil
yang
lebih
baik.
Karena
median
Cdak
sensiCf
terhadap
data
outlier
(data
yang
terletak
jauh
dari
yang
lain,
meskipun
dalam
satu
klaster
-‐
pencilan)
• Contoh:
• Mean
dari
1,
3,
5,
7,
9
adalah
5
• Mean
dari
1,
3,
5,
7,
1009
adalah
205
• Median
dari
1,
3,
5,
7,
1009
adalah
5
Keterbatasan
K-‐means
• K-‐means
sangat
bergantung
pada
penentuan
nilai
pusat
klaster
awal
• Penentuan
nilai
awal
yang
berbeda
dapat
memberikan
hasil
akhir
yang
berbeda.
Contoh
Implementasi
K-‐Means
• Contoh
Contoh
Penerapan
Algoritme
Klasterisasi
dengan
Pemrosesan
Data
• h_p://afif.lecture.ub.ac.id/files/2014/05/Slide-‐11-‐Klasterisasi-‐
KMeans.pdf
• h_p://afif.lecture.ub.ac.id/files/2014/05/Slide-‐12-‐Klasterisasi-‐
Hierarchical-‐Clustering.pdf
Diskusi
Kelas
• Pembahasan
Tugas
1
• Buatlah
grup
dari
teman
sekitar
kemudian
diskusikan
tentang
Tugas
1
minggu
lalu
dan
tentukan:
• Produk
dari
penerapan
Data
Mining
• Data
mining
Task
yang
digunakan
• Perangkat
lunak
yang
merupakan
tools
pemrosesan
data
mining
• Data
mining
task
yang
terdapat
dalam
tools
tersebut
Any
Questions?