Anda di halaman 1dari 30

Fungsi Clustering

Data Mining
Pertemuan 11
R. Kristoforus JB, M.Cs.

Jadwal Kuliah (Tentative)


Pert

Pln

Act

01/09

01/09

Pengantar

08/09

08/09

Fungsi Deskripsi

15/09

15/09

Fungsi Estimasi

22/09

26/09

Fungsi Prediksi

29/09

29/09

KUIS

06/10

Fungsi Klasifikasi: Naive Bayes

13/10

Fungsi Klasifikasi: ID3

KristoJB

Materi

DataMining

Jadwal Kuliah (Tentative)


Pert

Pln

20/10

Fungsi Klasifikasi: CART

27/10

UTS

10

03/11

Fungsi Pengelompokan: Aglomerative

11

10/11

Fungsi Pengelompokan: K-means

12

17/11

Aturan Asosiasi: MBA

13

24/11

Aturan Asosiasi

14

01/12

Tambahan??

KristoJB

Act

Materi

DataMining

Algoritma Klastering

KristoJB

DataMining

Pengukuran Jarak & Kesamaan


Jarak (distance):
ukuran tentang jarak pisah antar objek
Digunakan untuk data yang bersifat matriks

Kesamaan (similarity):
ukuran kedekatan
Digunakan untuk data yang bersifat kualitatif

Teknik Pengukuran Jarak


Euclidean Distance:

Squared Euclidean Distance:

Block:

Contoh
Misalkan data berikut:
X
Y
Z

2
5
3

Misalkan data berikut:


X
Y
Z

2
5
3

1
2
4

Misalkan data berikut:


X
Y
Z

KristoJB

2
5
3

1
2
4

4
1
3

DataMining

Algoritma K-means

Klastering
Divisive:
1 klaster di kelompokkan dalam beberapa k klaster
Dari atas ke bawah: membagi
Contoh: k-means

Agglomerative
N klaster menjadi k klaster
Dari atas ke bawah menggabungkan
Contoh: single, complete, average, centroid linkage

KristoJB

DataMining

Algoritma K-means
1. Tentukan jumlah k kluster yang akan dibentuk
2. Secara acak tentukan k buah record/data sebagai titik
pusat awal kluster
3. Untuk setiap record, tentukan jarak terdekat ke pusat
kelompok, dan tetapkan record tersebut sebagai
anggota kelompok dari pusat kelompok tersebut
4. Hitung rasio antara BCV (Between Cluster Variation)
dan WVC (Within Cluster Variaton). Jika nilainya
membesar, lanjutkan ke langkah 5, jika tidak,
algortima dihentikan
5. Perbaharui pusat-pusat kelompok, kemudian kembali
ke langkah 3
KristoJB

DataMining

10

Between Cluster Variation


Merupakan jumlah jarak antar pusat kelompok
Misal: k1 = 2, k2 = 5, k3 = 1
Maka (perhitungan jarak dengan Block):
BCV = d(k1,k2) + d(k1,k3) + d(k2,k3)
BCV = 3 + 1 + 4 = 8

Misal: k1(1,3), k2(3,3), k3(4,6), k4(2,5)


BCV = d(k1,k2) + d(k1,k3) + d(k1,k4) + d(k2,k3) + d(k2,k4)
+ d(k3,k4)
BCV = 2 + 6 + 3 + 4 + 3 + 3 = 21

KristoJB

DataMining

11

Within Cluster Variation


Dihitung dengan menggunakan persamaan sum of
squared errors:

Jumlah kuadrat jarak terdekat setiap data ke pusat


kelompok

KristoJB

DataMining

12

Memperbaharui pusat kelompok


Dicari dengan cara menghitung rata-rata data
sebuah kelompok.

Misal: kelompok data: A(3), B(5), C(4)


Maka pusat kelompok = (3+5+4)/3 = 4

Misal: kelompok data: A(3,2), B(2,4), C(3,5)


Maka pusat kelompok = [(3+2+3)/3],[(2+4+5)/3] = (8/3,
11/3)

KristoJB

DataMining

13

Contoh: Data Nasabah


Data:

KristoJB

DataMining

14

Langkah 1 & 2
Langkah 1: Tentukan jumlah kluster yang akan
dibentuk.
Ditentukan jumlah kluster, k = 3

Langkah 2: Pilih k data sebagi pusat kluster.


Misal data yang terpilih:
rekord B sebagai pusat kelompok-1 (C1): m1 = (3,3)
rekord E sebagai pusat kelompok-2 (C2): m2 = (1,2),
rekord F sebagai pusat kelompok-3 (C3): m3 = (4,2)

KristoJB

DataMining

15

Langkah 3 (Iterasi 1)
Menghitung jarak tiap data ke tiap pusat data.
Misal A(1,3), C1(3,3), C2(1,2), C3(4,2)

Jarak A ke C1 = |1-3|+|3-3|= 2
Jarak A ke C2 = |1-1|+|3-2|= 1
Jarak A ke C3 = |1-4|+|3-2|= 4
Jadi jarak terdekat adalah A ke C2 dengan
demikian A masuk dalam kluster C2

KristoJB

DataMining

16

Langkah 3 (Iterasi 1)
record

C1

C2

C3

KLUSTER

A
B
C
D
E
F
G
H

2
0
1
2
3
2
4
3

1
3
4
5
0
3
1
2

4
2
1
2
3
0
4
3

C2
C1
C3
C3
C2
C3
C2
C2

KristoJB

DataMining

17

Langkah 3 (Iterasi 1)
Kelompok C1 = B
Kelompok C2 = A, E, G, H
Kelompok C3 = C, D, F

KristoJB

DataMining

18

Langkah 4 (Iterasi 1)
C1 (3,3), C2(1,2), C3(4,2)
BCV = d(C1,C2) + d(C1,C3) + d(C2,C3)
BCV = (|3-1|+|3-2|) + (|3-4|+|3-2|) + (|14|+|2-2|)
BCV = 3 + 2 + 3 = 8

WCV lihat hasil langkah 3


WCV = 12 + 02 + 12 + 22 + 02 + 02 + 12 + 22 = 11
Rasio BCV/WCV = 8/11 = 0,727
Karena belum bisa dibandingkan dengan rasio
sebelumnya maka dilanjutkan ke langkah 5

KristoJB

DataMining

19

Langkah 5 (Iterasi 1)
Kelompok C1 = B (3,3)
C1baru = (3,3)

Kelompok C2 = A, E, G, H
C2baru = ([1+1+1+2]/4, [3+2+1+1]/4)
C2baru = (1.25, 1.75)
Kelompok C3 = C, D, F
C3baru = ([4+5+4]/3, [3+3+2]/3)
C3baru = (4.33, 2.67)
KristoJB

DataMining

20

Langkah 3 (Iterasi 2)
Menghitung jarak tiap data ke tiap pusat data.
Misal:
A(1,3), C1(3, 3), C2(1.25, 1.75), C3(4.33, 2.67)
Jarak A ke C1 = |1-3|+|3-3|= 2
Jarak A ke C2 = |1-1.25|+|3-1.75|= 1.5
Jarak A ke C3 = |1-4.33|+|3-2.67|= 3,66
Jadi jarak terdekat adalah A ke C2 dengan
demikian A masuk dalam kluster C2
KristoJB

DataMining

21

Langkah 3 (Iterasi 2)
record

C1

C2

C3

KLUSTER

1,5

3,66

C2

1,66

C1

0,66

C3

C3

0,5

C2

C3

C2

1,5

C2

KristoJB

DataMining

22

Langkah 3 (Iterasi 2)
Kelompok C1 = B
Kelompok C2 = A, E, G, H
Kelompok C3 = C, D, F

KristoJB

DataMining

23

Langkah 4 (Iterasi 2)
C1 (3,3), C2(1.25, 1.75), C3(4.33, 2.67)
BCV = d(C1,C2) + d(C1,C3) + d(C2,C3)
BCV = (|3-1.25|+|3-1.75|) + (|3-4.33|+|3-2.67|)
+ (|1.25-4.33|+|1.75-2.67|)
BCV = 3 + 1,66 + 4 = 8,66
WCV lihat hasil langkah 3
WCV = 1.52 + 02 + 0.662 + 12 + 0.52 + 12 + 12 + 1.52 =
8,18
Rasio BCV/WCV = 8,66/8,18 = 1,05
Karena rasio membesar, dilanjutkan ke langkah 5
KristoJB

DataMining

24

Langkah 5 (Iterasi 2)
Kelompok C1 = B (3,3)
C1baru = (3,3)

Kelompok C2 = A, E, G, H
C2baru = ([1+1+1+2]/4, [3+2+1+1]/4)
C2baru = (1.25, 1.75)
Kelompok C3 = C, D, F
C3baru = ([4+5+4]/3, [3+3+2]/3)
C3baru = (4.33, 2.67)
KristoJB

DataMining

25

Langkah 3 (Iterasi 3)
Menghitung jarak tiap data ke tiap pusat data.
Misal:
A(1,3), C1(3, 3), C2(1.25, 1.75), C3(4.33, 2.67)
Jarak A ke C1 = |1-3|+|3-3|= 2
Jarak A ke C2 = |1-1.25|+|3-1.75|= 1.5
Jarak A ke C3 = |1-4.33|+|3-2.67|= 3,66
Jadi jarak terdekat adalah A ke C2 dengan
demikian A masuk dalam kluster C2
KristoJB

DataMining

26

Langkah 3 (Iterasi 3)
record

C1

C2

C3

KLUSTER

1,5

3,66

C2

1,66

C1

0,66

C3

C3

0,5

C2

C3

C2

1,5

C2

KristoJB

DataMining

27

Langkah 3 (Iterasi 3)
Kelompok C1 = B
Kelompok C2 = A, E, G, H
Kelompok C3 = C, D, F

KristoJB

DataMining

28

Langkah 4 (Iterasi 3)
C1 (3,3), C2(1.25, 1.75), C3(4.33, 2.67)
BCV = d(C1,C2) + d(C1,C3) + d(C2,C3)
BCV = (|3-1.25|+|3-1.75|) + (|3-4.33|+|3-2.67|) +
(|1.25-4.33|+|1.75-2.67|)
BCV = 3 + 1,66 + 4 = 8,66

WCV lihat hasil langkah 3


WCV = 1.52 + 02 + 0.662 + 12 + 0.52 + 12 + 12 + 1.52 = 8,18
Rasio BCV/WCV = 8,66/8,18 = 1,05
Karena rasio TIDAK membesar, algoritma dihentikan

KristoJB

DataMining

29

Latihan
1. Kelompokkan data berikut menjadi 3 kelompok:
(2,0), (1,2), (2,2), (3,2), (2,3), (3,3), (2,4), (3,4),
(4,4), (3,5)
2. Kelompokkan data berikut menjadi 2 kelompok
0, 0, 1, 3, 3, 6, 7, 9, 10, 10

KristoJB

DataMining

30

Anda mungkin juga menyukai