1. Clustering.
Diketahui data sebagai berikut :
A(1,2), B(2,5), C(3,3), D(6,4), E(4,5), F(5,7), G(1,1), H(3,6), I(7,8),
J(5,4). Tentukan cluster untuk masing – masing data
menggunakan clustering K – Means dengan k = 3.
Jawab :
2. Clustering.
Menggunakan data nomor 1, tetapi menggunakan cara K –
Medoids dengan K = 3.
Jawab :
Pilih 3 medoids (sesuai k)
M1 M2 M3
(1,2) (2,5) (6,4)
A (C1) 0 3.162 5.385
B (C2) 3.162 0 4.123
C (C1) 2.236 2.236 3.162
D (C3) 5.385 4.123 0
E (C2) 4.243 2 2.236
F (C3) 6.403 3.606 3.162
G (C1) 1 4.123 5.831
H (C2) 4.472 1.414 3.606
I (C3) 8.485 5.831 4.123
J (C3) 4.472 3.162 1
Jawab :
Langkah 1 : hitung jarak antar cluster
Cluster_5 0
Cluster_2 3.592 0
Cluster_3 3.076 0.707 0
Cluster_4 5.874 2.470 2.970 0
Cluster_5 Cluster_2 Cluster_3 Cluster_4
Cluster_5 0
Cluster_6 3.076 0
Cluster_4 5.874 2.470 0
Cluster_5 Cluster_6 Cluster_4
Cluster_5 0
Cluster_7 3.076 0
Cluster_5 Cluster_7
Langkah 9 : kita ingin dibagi menjadi 3 cluster, maka kita potong, hingga
hanya ada cluster 6, cluster 5, cluster 4
Cluster Member
Cluster-1 {Id_36, Id_46}
Cluster-2 {Id_86, Id_96}
Cluster-3 {Id_136}
4. Clustering.
Menggunakan data nomor 3 (abaikan kolom cluster), tetapi
menggunakan cara DIANA (Divisive Analysis) dengan kriteria
Single linkage. Maximum – depth = 3
Jawab :
Langkah 1 : Hitung jarak yang terdekat antar cluster. Maka itu
dijadikan satu cluster. Dan sisanya adalah cluster lain
(menggunakan konsep K – Means, misalkan dalam kasus ini K = 2).
Cluster Member
Cluster_1 id_36, id_46
Cluster_2 id_86, id_96, id_136
Hasil akhir :
Cluster Member
Cluster_3 id_36
Cluster_4 id_46
5. Classification.
Diketahui data sebagai berikut. Buatkanlah decision treenya.
Metode pemilihan attribut adalah information gain.
Jawab :
a. Tentukan Info (D). Dihitung dengan jumlah (sesuai banyaknya
kategori) dari -(banyak cat1 / total data)*2 log (banyak cat1 /
total data). Dalam kasus ini ada 2 kategori class yaitu tepat
waktu dan terlambat, sehingga Info (D) adalah :
b. Untuk setiap attribut, tentukan nilai Info attr (D) nya. Caranya
mirip dengan mencari Info(D), akan tetapi kali ini kita melihat
sesuai attributnya. Rumus : (banyak data cat1 / total data)*(-
(banyak data cat1 cl1/total data cat1)log(banyak data cat1
cl1/total data cat1)) Jumlahkan untuk semua kategori dan class.
d. Yang gain terbesar akan jadi root untuk decision tree kita.
Decision treenya seperti ini :
6. Classification.
Dengan training data dari tabel nomor 4, buatlah hasil prediksi
apakah mereka akan tiba tepat waktu atau terlambat jika
kondisinya seperti ini :
Kondisi jalan = Macet
Kondisi mobil = Kurang baik
Kondisi supir = Tidak fit
Jawab :
a. Hitung kemungkinan.
P(Macet, Tepat Waktu) = 0/4 = 0
P(Macet, Terlambat) = 4/4 = 1
P(Kurang baik, Tepat Waktu) = 2/3
Jawab :
a. Accuracy = (TP + TN)/All
Accuracy = (6954 + 2588)/10000 = 0.9542
b. Error rate = (FP + FN)/All
Error rate = (412 + 46)/10000 = 0.0458
c. Sensitivity = TP/P
Sensitivity = 6954 / 7000 = 0.9934
d. Specificity = TN/N
Specificity = 2588/3000 = 0.8627
e. Precision = TP / (TP + FP)
Precision = 6954 / (6954 + 412) = 0.944
f. Recall = TP / (TP + FN)
Recall = 6954 / (6954 + 46) = 0.993
g. F – Measure = (2 * precision * recall) / (precision + recall)
F – Measure = (2 * 0.944 * 0.993) / (0.944 + 0.993) = 0.968
h. Fβ = ((1 + β2) * precision * recall) / (β2 * precision + recall)
27. Yang menjadi perhatian pada sosial di data mining adalah privasi
data dan keamanan data. Privacy preserving data mining
berkaitan dengan hasil valid data mining dengan value yang
sensitif. Tujuannya meyakinkan proteksi privasi dan keamanan
ketika menyajikan keseluruhan hasil data mining.