DATA MINING
OLEH :
Penyelesaian:
Berikut Langkah-langkah penerapan K-mean clustering dalam mengelompokkan data:
Langkah 1: Memilih tiga mean secara acak :
x 1= 2 untuk mean pada kelompok pertama (C1).
x 2= 8 untuk mean pada kelompok pertama (C2).
x 3 = 15 untuk mean pada kelompok pertama (C3).
Langkah 2:Menghitung nilai Euclidean Distance (ED) Berdasarkan mean yang telah
dipilih pada langkah 1, maka persamaan (1) dapat digunakan untuk mencari
kedekatan (‘similariti’) dari setiap data terhadap mean tersebut. Berikut nilai
Euclidean Distance (ED) dari beberapa data:
ED{ x 1,1} = √ (1−2)2 = 1 adalah jarak antara x 1 = 2 dengan data 1.
Jika nilai ED{p, x 1} dari nilai ED {p, x 2} dan {p, x 3} maka diberi label
data tersebut dengan C1.
Jika nilai ED{p, x 2} dari nilai ED {p, x 1} dan {p, x 3} maka diberi label
data tersebut dengan C2.
Jika nilai ED{p, x 3} dari nilai ED {p, x 1} dan {p, x 2} maka diberi label
data tersebut dengan C3.
Berikut Tabel Hasil tabulasi setiap data :
1 2 6 7 8 10 15 17 20
ED{p, x 1} 1 0 4 5 6 8 13 15 18
ED{p, x 2} 7 6 2 1 0 2 8 9 12
ED{p, x 3} 14 13 9 8 7 5 0 2 5
Kelompok C1 C1 C2 C2 C2 C2 C3 C3 C3
Langkah 4: Diperoleh dua buah kelompok data dengan masing-masing anggotanya
yaitu:
C1 = {1, 2}
C2 = {6, 7, 8, 10}
C3 = {15, 17, 20}.
Langkah 5: Menghitung mean setiap kelompok, untuk data yang diperoleh dari langkah
4:
1+ 2
x1 = = 1.5
2
6+7+ 8+10
x2 = = 7.75
4
15+17+20
x3 = = 17.33333
3
Diperoleh bahwa mean yang baru memiliki nilai yang berbeda dengan
mean yang dipilih. Sehingga perlu dilakukan kembali langkah 2 – 4.
Menghitung Nilai Euclidean Distance (ED) :
ED{ x 1,1} = √(1−1.5) 2 = 0.5 adalah jarak antara x 1 = 1.5 dengan
data 1.
ED{ x 2, 1} = √(1−7.75)2 = 6.75 adalah jarak antara x 2 = 7.75
dengan data 1.
ED{ x 3, 1} = √ (1−17.33333)2 = 16.33333 adalah jarak antara x 3 =
17.33333 dengan data 1.
Dan seterusnya…
Mentabulasi semua nilai yang diperoleh ke dalam tabel, kemudian
memberi label data mana yang masuk kelas C1, C2, dan C3. Caranya
dengan membandingkan nilai ED{p, x 1}, {p, x 2} dan {p, x 3} :
Jika nilai ED{p, x 1} dari nilai ED {p, x 2} dan {p, x 3} maka diberi label
data tersebut dengan C1.
Jika nilai ED{p, x 2} dari nilai ED {p, x 1} dan {p, x 3} maka diberi label
data tersebut dengan C2.
Jika nilai ED{p, x 3} dari nilai ED {p, x 1} dan {p, x 2} maka diberi label
data tersebut dengan C3.
Berikut Tabel Hasil tabulasi setiap data :
1 2 6 7 8 10 15 17 20
ED{p, x 1} 0.5 0.5 4.5 5.5 6.5 8.5 13.5 15.5 18.5
ED{p, x 2} 6.7 5.75 1.75 0.75 0.25 2.25 7.25 9.25 12.2
5 5
ED{p, x 3} 16. 15.33 11.33 10.33 9.333 7.333 2.333 0.333 2.66
333 333 333 333 333 333 333 333 6667
33
Kelompok C1 C1 C2 C2 C2 C2 C3 C3 C3