Ringkasan UAS Data Mining

Ringkasan Kisi – Kisi UAS Data Mining
1. Clustering.
Diketahui data sebagai berikut :
A(1,2), B(2,5), C(3,3), D(6,4), E(4,5), F(5,7), G(1,1), H(3,6), I(7,8),
J(5,4). Tentukan cluster untuk masing – masing data
menggunakan clustering K – Means dengan k = 3.
Jawab :
a. Bagi menjadi k cluster. Dalam kasus ini 3.
Timothy Orvin Edwardo – LE01 – 1901456205

b. Tentukan means untuk setiap cluster.
Means C1 = {(7/4),(11/4)} = (1.75, 2.75)
Means C2 = {(18/4),(19/4)} = (4.5, 4.75)
Means C3 = {(12/2),(15/2)} = (6, 7.5)
c. Hitung untuk setiap data, lebih dekat ke means cluster yang

mana, lalu update centroidnya. Untuk perhitungan jarak, kita

gunakan metode Euclidian. Ulang hingga tidak ada perubahan
cluster / centroid.
Means Cluster 1 Means Cluster 2 Means Cluster 3
A(1,2) C1 1.061 4.451 7.433
B(2,5) C1 2.264 2.512 4.717
C(3,3) C1 1.275 1.82 5.048
D(6,4) C2 4.43 1.677 3.5
E(4,5) C2 3.182 0.559 3.202
F(5,7) C3 5.35 2.305 1.118
G(1,1) C1 1.904 5.13 8.2
H(3,6) C2 3.482 1.953 3.041
I(7,8) C3 7.425 4.1 1.118
J(5,4) C2 3.482 0.901 3.64
d. Dalam kasus ini, cluster sama seperti inisialisasi awal sehingga

nilai centroid tetap. Jadi hasilnya adalah :
A = Cluster 1
B = Cluster 1
C = Cluster 1
D = Cluster 2
E = Cluster 2
F = Cluster 3
G = Cluster 1
H = Cluster 2
I = Cluster 3
J = Cluster 2
2. Clustering.
Menggunakan data nomor 1, tetapi menggunakan cara K –
Medoids dengan K = 3.
Jawab :
 Pilih 3 medoids (sesuai k)

Hitung jarak sehingga kita menemukan cluster – clusternya
M1 M2 M3
(1,2) (2,5) (5,7)
A (C1) 0 3.162 6.403
B (C2) 3.162 0 3.606
C (C1) 2.236 2.236 4.472
D (C3) 5.385 4.123 3.162
E (C2) 4.243 2 2.236
F (C3) 6.403 3.606 0
G (C1) 1 4.123 7.211
H (C2) 4.472 1.414 2.236
I (C3) 8.485 5.831 2.236
J (C3) 4.472 3.162 3

 Pilih objek non medoid lain (random), lalu hitung cost
function nya. Ketika < dari yang lama maka tukar medoid.
a. TC1 lama = 2.236 + 1 = 3.236

b. TC1 baru = 2.828 + 2.236 = 5.064 (TIDAK TUKAR)
c. TC2 lama = 2 + 1.414 = 3.414
d. TC2 baru = 2.236 + 2 = 4.236 (TIDAK TUKAR)

e. TC3 lama = 3.162 + 2.236 + 3 = 8.398
f. TC3 baru = 1 + 3.162 + 4.123 = 8.285 (TUKAR)
M1 M2 M3
(1,2) (2,5) (6,4)
A (C1) 0 3.162 5.385
B (C2) 3.162 0 4.123
C (C1) 2.236 2.236 3.162
D (C3) 5.385 4.123 0
E (C2) 4.243 2 2.236
F (C3) 6.403 3.606 3.162
G (C1) 1 4.123 5.831
H (C2) 4.472 1.414 3.606
I (C3) 8.485 5.831 4.123
J (C3) 4.472 3.162 1
Tentukan medoid lain

a. TC1 lama = 3.236
b. TC1 baru = 1 + 2.828 = 3.828 (TIDAK TUKAR)
c. TC2 lama = 3.414
d. TC2 baru = 1.414 + 1.414 = 2.828 (TUKAR)
e. TC3 lama = 8.398
f. TC3 baru = 4.472 + 2.236 + 4.123 = 10.831 (TIDAK
TUKAR)
M1 M2 M3
(1,2) (3,6) (6,4)
A (C1) 0 4.472 5.385
B (C2) 3.162 1.414 4.123
C (C1) 2.236 3 3.162
D (C3) 5.385 3.606 0
E (C2) 4.243 1.414 2.236
F (C2) 6.403 2.236 3.162
G (C1) 1 5.385 5.831
H (C2) 4.472 0 3.606
I (C3) 8.485 4.472 4.123
J (C3) 4.472 2.828 1

Tentukan medoid lain di c3 :
a. TC3 lama = 8.398

b. TC3 Baru = 1 + 3.162 + 4.472 = 8.634 (TIDAK TUKAR)
 Berhenti ketika cost function sudah minimum / medoid tidak

ada perubahan.
 Clusternya adalah medoid terdekat. Sehingga hasil akhir
cluster :

3. Clustering.
Menggunakan cara AGNES (Agglomerative Nesting)
Ada beberapa cara dalam menentukan jarak :
 Single linkage  berdasar jarak terdekat.
 Complete linkage  berdasar jarak terjauh.
 Average linkage  berdasarkan jarak rerata.
 Centroid  berdasarkan jarak centroid 2 cluster.
 Medoid  berdasarkan jarak medoid 2 cluster.
Contoh soal : Bagilah ke 3 cluster.
ID attr1 attr2 attr3 attr4 Cluster
id_36 5.0 3.2 1.2 0.2 Cluster_0
id_46 4.8 3.0 1.4 0.3 Cluster_1
id_86 6.0 3.4 4.5 1.6 Cluster_2
id_96 5.7 3.0 4.2 1.2 Cluster_3
id_136 7.7 3.0 6.1 2.3 Cluster_4
Jawab :
Langkah 1 : hitung jarak antar cluster

Cluster_0 0
Cluster_1 0.361 0
Cluster_2 3.727 3.592 0
Cluster_3 3.245 3.076 0.707 0
Cluster_4 5.979 5.874 2.470 2.970 0
Cluster_0 Cluster_1 Cluster_2 Cluster_3 Cluster_4
Langkah 2 : Lihat jarak terkecil (karena single linkage) lalu merge.

Disini kita melihat jarak terdekat adalah cluster 0 dan cluster 1. Maka
merge
Langkah 3 : Ulangi langkah 1, tetapi sekarang cluster 0 dan cluster 1

sudah diganti cluster 5. Untuk jarak cluster 5 dengan cluster lain, cari
dengan jarak terdekat antara cluster 5 dan cluster lain.

id_36 5.0 3.2 1.2 0.2 Cluster_5
id_46 4.8 3.0 1.4 0.3 Cluster_5
id_86 6.0 3.4 4.5 1.6 Cluster_2
id_96 5.7 3.0 4.2 1.2 Cluster_3
id_136 7.7 3.0 6.1 2.3 Cluster_4
Cluster_5 0
Cluster_2 3.592 0
Cluster_3 3.076 0.707 0
Cluster_4 5.874 2.470 2.970 0
Cluster_5 Cluster_2 Cluster_3 Cluster_4

Langkah 4 : merge yang jarak terdekat
Langkah 5 : sama dengan langkah 3

id_36 5.0 3.2 1.2 0.2 Cluster_5
id_46 4.8 3.0 1.4 0.3 Cluster_5
id_86 6.0 3.4 4.5 1.6 Cluster_6
id_96 5.7 3.0 4.2 1.2 Cluster_6
id_136 7.7 3.0 6.1 2.3 Cluster_4
Cluster_5 0
Cluster_6 3.076 0
Cluster_4 5.874 2.470 0
Cluster_5 Cluster_6 Cluster_4

id_36 5.0 3.2 1.2 0.2 Cluster_5
id_46 4.8 3.0 1.4 0.3 Cluster_5
id_86 6.0 3.4 4.5 1.6 Cluster_7
id_96 5.7 3.0 4.2 1.2 Cluster_7
id_136 7.7 3.0 6.1 2.3 Cluster_7
Cluster_5 0
Cluster_7 3.076 0
Cluster_5 Cluster_7
Langkah 9 : kita ingin dibagi menjadi 3 cluster, maka kita potong, hingga
hanya ada cluster 6, cluster 5, cluster 4

Hasil akhir :
Cluster Member
Cluster-1 {Id_36, Id_46}
Cluster-2 {Id_86, Id_96}
Cluster-3 {Id_136}
4. Clustering.
Menggunakan data nomor 3 (abaikan kolom cluster), tetapi
menggunakan cara DIANA (Divisive Analysis) dengan kriteria
Single linkage. Maximum – depth = 3
Jawab :
Langkah 1 : Hitung jarak yang terdekat antar cluster. Maka itu
dijadikan satu cluster. Dan sisanya adalah cluster lain
(menggunakan konsep K – Means, misalkan dalam kasus ini K = 2).
Cluster Member
Cluster_1 id_36, id_46
Cluster_2 id_86, id_96, id_136
Langkah 2 : lakukan hal yang sama sampai depth nya mencapai

yang kita inginkan. Pada langkah kedua ini, cluster 1 dan cluster 2
dipecah lagi.
Cluster 1  menjadi 3 dan 4
Cluster Member
Cluster_3 id_36
Cluster_4 id_46

Cluster 2  menjadi 5 dan 6
Cluster Member
Cluster_5 id_86, id_96
Cluster_6 id_136
Langkah 3 : Cluster 3, cluster 4, dan cluster 6 hanya memiliki 1

elemen. Maka dari itu yang bisa dipecah hanya cluster 6 (menjadi
cluster 7 dan 8)
Cluster Member
Cluster_7 id_86
Cluster_8 id_96
Hasil akhir :
Cluster Member
Cluster_3 id_36
Cluster_4 id_46

Cluster_7 id_86
Cluster_8 id_96
Cluster_9 id_136
5. Classification.
Diketahui data sebagai berikut. Buatkanlah decision treenya.
Metode pemilihan attribut adalah information gain.
Jawab :
a. Tentukan Info (D). Dihitung dengan jumlah (sesuai banyaknya
kategori) dari -(banyak cat1 / total data)*2 log (banyak cat1 /
total data). Dalam kasus ini ada 2 kategori class yaitu tepat
waktu dan terlambat, sehingga Info (D) adalah :
Info (D) = -(4/10)log(4/10) – (6/10)log(6/10) = 0.529 + 0.442 =

0.971
b. Untuk setiap attribut, tentukan nilai Info attr (D) nya. Caranya
mirip dengan mencari Info(D), akan tetapi kali ini kita melihat
sesuai attributnya. Rumus : (banyak data cat1 / total data)*(-
(banyak data cat1 cl1/total data cat1)log(banyak data cat1
cl1/total data cat1)) Jumlahkan untuk semua kategori dan class.

Dan lakukan langkah ini untuk setiap atribut. Lalu hitung Gain
(attr) dengan rumus Info(D) – Info attr (D). Dalam kasus ini :
Info kondisi jalan (D) = (6/10)*(-(4/6)log(4/6) – (2/6)log(2/6)) +

(4/10)*(-(4/4)log(4/4)) = 0.551
Gain(kondisi jalan) = 0.971 – 0.551 = 0.42 ...(1)
Info kondisi mobil (D) = (4/10)*(-(2/4)log(2/4) – (2/4)log(2/4)) +

(3/10)*(-(2/3)log(2/3) – (1/3)log(1/3)) + (3/10)*(-(3/3)log(3/3))
= 0.4 + 0.274 = 0.674
Gain(kondisi mobil) = 0.971 – 0.674 = 0.297 ...(2)
Info kondisi supir (D) = (5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) +

(5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) = 0.971
Gain(kondisi supir) = 0.971 – 0.9709 = 0.0001 ...(3)
c. Urutkan dari gain terbesar ke terkecil.

Gain(kondisi jalan) = 0.42
Gain(kondisi mobil) = 0.297
Gain(kondisi supir) = 0.0001
d. Yang gain terbesar akan jadi root untuk decision tree kita.
Decision treenya seperti ini :

Hasil akhir :
6. Classification.
Dengan training data dari tabel nomor 4, buatlah hasil prediksi
apakah mereka akan tiba tepat waktu atau terlambat jika
kondisinya seperti ini :
Kondisi jalan = Macet
Kondisi mobil = Kurang baik
Kondisi supir = Tidak fit
Jawab :
a. Hitung kemungkinan.
P(Macet, Tepat Waktu) = 0/4 = 0
P(Macet, Terlambat) = 4/4 = 1
P(Kurang baik, Tepat Waktu) = 2/3

P(Kurang baik, Terlambat) = 1/3
P(Tidak fit, Tepat Waktu) = 2/5
P(Tidak fit, Terlambat) = 3/5
b. Kalikan semua untuk setiap prediksi (Tepat Waktu / Terlambat).

P(Macet, Kurang baik, Tidak fit, Tepat Waktu) = 0 * 2/3 * 2/5 =
0.
P(Macet, Kurang baik, Tidak fit, Terlambat) = 1 * 1/3 * 3/5 =

3/15.
c. Lihat nilai yang lebih besar. Maka itulah kesimpulannya. Dalam

kasus ini nilai yang lebih besar adalah untuk P(Macet, Kurang
baik, Tidak fit, Tepat Waktu) lebih besar dibanding P(Macet,
Kurang baik, Tidak fit, Terlambat). Maka kesimpulan apabila
kondisi jalan macet, kondisi mobil kurang baik, kondisi supir
tidak fit adalah Terlambat.
7. Performance measurement classification menggunakan Confusion

Matrix.
Format confusion matrix adalah sebagai berikut : (perhatikan
posisi TP, TN, FN, FP dan Actual / predicted class)
Actual Class \ Predicted Class buy_computer = yes buy_computer = no
buy_computer = yes True Positive (TP) False Negative (FN)
buy_computer = no False Positive (FP) True Negative (TN)
Predicted Class \ Actual Class buy_computer = yes buy_computer = no

buy_computer = yes True Positive (TP) False Positive (FP)
buy_computer = no False Negative (FN) Trus Negative (TN)

Contoh soal :
Actual Class \ Predicted Class buy_computer = yes buy_computer = no Total
buy_computer = yes 6954 46 7000
buy_computer = no 412 2588 3000
Total 7366 2634 10000
Hitunglah :
a. Accuracy
b. Error Rate
c. Sensitivity
d. Specificity
e. Precision
f. Recall
g. F – Measure
h. Fβ jika β = 2
Jawab :
a. Accuracy = (TP + TN)/All
Accuracy = (6954 + 2588)/10000 = 0.9542
b. Error rate = (FP + FN)/All
Error rate = (412 + 46)/10000 = 0.0458
c. Sensitivity = TP/P
Sensitivity = 6954 / 7000 = 0.9934
d. Specificity = TN/N
Specificity = 2588/3000 = 0.8627
e. Precision = TP / (TP + FP)
Precision = 6954 / (6954 + 412) = 0.944
f. Recall = TP / (TP + FN)
Recall = 6954 / (6954 + 46) = 0.993
g. F – Measure = (2 * precision * recall) / (precision + recall)
F – Measure = (2 * 0.944 * 0.993) / (0.944 + 0.993) = 0.968
h. Fβ = ((1 + β2) * precision * recall) / (β2 * precision + recall)

F2 = ((1+4) * 0.944 * 0.993) / (4 * 0.944 + 0.993) = 0.983
8. Outlier analysis  data object yang berbeda berdasarkan ukuran

tertentu dan jaraknya jauh dari data yang dianggap normal.
Outlier ini merupakan hal yang ingin kita deteksi.
9. Noise  muncul karena adanya kesalahan pengukuran (ketelitian

alat ukur atau human error). Noise bukanlah hal yang ingin dicari.
10. Outlier yang menarik adalah yang melanggar mekanisme

yang generate data normal.
11. Novelty detection  mendeteksi tren, misal tren berita. Kita

bisa mendeteksi perubahan tren.
12. Contoh aplikasi outlier analysis :

 Credit card fraud detection.
 Medical analysis.
 Customer segmentation.
13. Jenis outlier :

 Global ketika berbeda signifikan secara global.
 Contoh : deteksi intrusion di jaringan komputer.
 Isu : temukan pengukuran deviasi yang tepat.
 Contextual  ketika pada konteks tertentu menjadi outlier.
Atribut dibagi menjadi 2 kelompok :
 Contextual attribute  menentukan konteksnya.
Contoh : waktu dan lokasi.
 Behavioral attribute  karakteristik dari objek yang
digunakan untuk evaluasi, contoh : temperatur.

 Selain itu bisa dilihat sebagai generalisasi local outlier
yang density (kerapatannya) secara signifikan berbeda
dari area lokalnya.
 Collective  menjadi outlier jika diukur secara berkelompok
atau collective, tetapi tidak menjadi outlier ketika dianalisa
secara per individual.
 Contoh : deteksi intrusion ketika komputer mengirim
denial – of – services package satu sama lain.
 Deteksi collective outlier :
o Mempertimbangkan behavior kelompok objek.
o Butuh latar belakang pengetahuan tentang
hubungan data objek seperti jarak dan ukuran
kesamaan dalam objek.
o Sebuah data set mungkin punya banyak tipe
outlier.
o Satu objek bisa merupakan dari 1 tipe outlier.
14. Tantangan melakukan outlier detection :

 Modelling objek normal dan outlier secara sesuai 
kesulitan menentukan behavior normal dan batas antara
objek normal dan outlier terkadang tidak jelas.
 Application specific outlier detection  menentukan
pengukuran jarak antar objek dan model hubungan
antarobjek seringkali tergantung aplikasi. Contoh pada data
klinik, deviasi kecil bisa dianggap outlier. Padahal di aplikasi
marketing tidak.
 Handling noise di outlier detection  noise bisa
mengganggu objek normal dan membuat kabur perbedaan
normal dan outlier. Ini menyebabkan kurangnya efektifitas
dalam deteksi outlier.

 Understandability  agar knowledge yang kita temukan
berguna. Tentukan degree outlier, objek yang berbeda dari
mekanisme normal.
15. Metode outlier detection :

 Berdasarkan ketersediaan user label example
 Supervised
 Semi – supervised
 Unsupervised
 Berdasarkan asumsi yang digunakan metode tentang normal
dan outlier
 Statistic
 Proximity – based
 Clustering – based
16. Supervised method :

 Memodelkan outlier detection sebagai masalah klasifikasi 
sample diuji oleh expert untuk training dan testing.
 Metode learning sebagai classifier untuk outlier detection
secara efektif  memodelkan objek normal dan melaporkan
yang tidak match sebagai outlier atau sebaliknya.
 Tantangan :
 Class yang tidak balance  outlier biasanya jarang.
 Mendeteksi outlier sebanyak mungkin. Recall lebih
penting dari akurasi.
17. Unsupervised method :

 Asumsikan objek normal di cluster ke kelompok – kelompok
yang memiliki distinct feature.
 Outlier seharusnya jauh dari kelompok normal object.

 Kelemahan : tidak bisa deteksi outlier collective secara
efektif, karena objek normal bisa saja tidak share pattern
kuat.
 Contoh pada intrusion atau deteksi virus :
 Memiliki false positive rate yang tinggi, tapi masih
kekurangan outlier asli.
 Supervised method bisa lebih efektif misalnya untuk
identifikasi attacking key resources.
 Contoh clustering method :
 Menemukan cluster, lalu outlier tidak tergabung dalam
cluster apapun.
 Masalah 1 : sulit membedakan noise dari outlier.
 Masalah 2 : lebih costly sejak clustering pertama, tapi
less outlier dari objeck normal.
 Metode lebih baru : tackle outlier secara langsung.
18. Semi – supervised method :

 Label tersedia tapi terbatas.
 Jika sebagian label objek normal tersedia  menggunakan
label dan memperkirakan unlabeled object untuk train
model objek baru. Yang tidak cocok dengan model normal
dideteksi sebagai outlier.
 Jika sebagian label outlier tersedia  sedikitnya outlier label
tidak mengcover outlier yang mungkin terjadi. Untuk
meningkatkan kualitas deteksi outlier, bisa menggunakan
bantuan objek normal yang dipelajari dari unsupervised
method.
19. Deteksi outlier dengan statistik :

 Asumsi objek di data set digenerate oleh sthocastic process
(generative model).
 Dibagi menjadi 2 metode : parametrik dan non parametrik.
 Parametrik :
 Asumsi data normal digenerate oleh distribusi
parametrik.
 Peluang density function memberikan peluang objek x
digenerate oleh distribusi.
 Semakin kecil value, semakin besar peluang x adalah
outlier.
 Contoh : Grubb’s test, detection multivariative outlier,
mixture parametric distribution
 Non – parametrik :
 Tidak mengasumsikan apriori statistical model dan
menentukan model dari input data.
 Tidak sepenuhnya tanpa parameter, namun
mempertimbangkan banyaknya parameter secara
felksibel.
 Contoh : histogram dan kernel density estimation.
20. Proximity based approach (Distance based vs density

based) :
 Distance based  objek o adalah outlier jika neighborhood
tidak punya cukup point lain.
 Density based  objek o adalah outlier jika kerapatannya
lebih kecil dibanding neighbornya.
21. Clustering based method outlier detection :

 Sebuah objek disebut outlier jika :
 Bukan milik sebuah cluster.

 Adanya jarak besar antara objek dan cluster terdekat.
 Milik cluster kecil atau sparse cluster.
 Jika bukan milik cluster  menggunakan density based
method.
 Jika jauh dari cluster terdekat  menggunakan k – means.
 Kelebihan :
 Deteksi outlier tanpa membutuhkan labeled data.
 Bekerja untuk berbagai tipe data.
 Cluster bisa jadi ringkasan data.
 Ketika cluster ditentukan, hnya butuh compare objek
lain dengan cluster untuk menentukan outlier
 Kelemahan :
 Efektifitas tergantung metode clustering.
 High computational cost.
 Metode mengurangi cost  fixed width clustering.
22. Classification based method outlier detection :

 One – class model
 Train model klasifikasi yang membedakan data normal
dan outlier.
 Bruteforce approach  mempertimbangkan training
set yang mengandung label normal dan outlier.
 One class model dirancang untuk mendeksripsikan
class normal. Yang bukan milik normal class dianggap
outlier.
 Semi – supervised learning
 Mengombinasikan classification based dan clustering
based.
 Pada classification based kelebihannya adalah outlier
detection berlangsung cepat.

 Kelemahan classification based adalah kualitas sangat
tergantung pada ketersediaan dan kualitas training set,
terkadang sulit menentukan representative dan high –
quality training data.
23. Tantangan deteksi outlier pada high – dimensional data :

 Interpretasi outlier  mendeteksi outlier tanpa mengatakan
mengapa outlier tidak terlalu berguna di high dimension,
karena banyak dimensi yang terlibat.
 Data sparsity  data di high dimension biasanya menyebar
(sparse). Jarak antar objek didominasi oleh noise.
 Data subspace  adaptif pada subspace yang menandakan
outlier dan capture local behavior data.
 Scalable dengan respect ke dimensionality  banyaknya
subspace meningkan secara exponensial.
24. Complex data types untuk mining, contoh datanya :

 Mining sequence data
 Time series  intervalnya fix (misal suhu harian).
 Symbolic sequences  interval tidak terlalu jelas (bisa
beda).
 Biological sequences  contoh : urutan DNA.
 Mining graphs dan network  data berbentuk graph
(contoh : peta).
 Mining jenis data lain  contoh : multimedia data, wrapper
text, audio, video, hasil sensor.
25. Contoh aplikasi dan tren data mining :

 Multimedia indexing dan retrieval.
 Sentiment analysis

 Jenis musik yang sesuai dengan behavior seseorang.
 Content based retrieval
 CRM (Customer Relationship Management)
 Fraud detection
 Intrusion detection
 Segmentasi pelanggan
 Analisis riset
 Bioinformatika
26. Metode lain dalam data mining :

 Statistical data mining  menggunakan teknik regresi, linear
models, analisis varians, analisis faktor, quality control.
 Pandangan mengenai dasar data mining :
 Data reduction  berkaitan dengan akurasi untuk
kecepatan respon.
 Data compression  compress data dengan encoding
ke bits, association rule, decision tree.
 Probability dan statistical theory  menemukan
distribusi peluang.
 Microeconomic view  menemukan pattern menarik
untuk pengambilan keputusan suatu perusahaan.
 Pattern discovery dan inductive database 
menemukan pattern pada data untuk melihat
hubungannya. Teori yang mendasari adalah machine
learning, neural network, association mining,
sequential pattern mining, clustering.
o Inductive database adalah ketika user
berinteraksi dengan sistem dengan query data
dan teori (pattern) dalam knowledge base.

Knowledge base inilah yang disebut inductive
database.
27. Yang menjadi perhatian pada sosial di data mining adalah privasi
data dan keamanan data. Privacy preserving data mining
berkaitan dengan hasil valid data mining dengan value yang
sensitif. Tujuannya meyakinkan proteksi privasi dan keamanan
ketika menyajikan keseluruhan hasil data mining.

Ringkasan UAS Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Ringkasan UAS Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Ringkasan Kisi – Kisi UAS Data Mining

a. Bagi menjadi k cluster. Dalam kasus ini 3.

Timothy Orvin Edwardo – LE01 – 1901456205

c. Hitung untuk setiap data, lebih dekat ke means cluster yang

Timothy Orvin Edwardo – LE01 – 1901456205

d. Dalam kasus ini, cluster sama seperti inisialisasi awal sehingga

Timothy Orvin Edwardo – LE01 – 1901456205

Timothy Orvin Edwardo – LE01 – 1901456205

a. TC1 lama = 2.236 + 1 = 3.236

Timothy Orvin Edwardo – LE01 – 1901456205

Tentukan medoid lain

Timothy Orvin Edwardo – LE01 – 1901456205

Timothy Orvin Edwardo – LE01 – 1901456205

a. TC3 lama = 8.398

 Berhenti ketika cost function sudah minimum / medoid tidak

Timothy Orvin Edwardo – LE01 – 1901456205

Timothy Orvin Edwardo – LE01 – 1901456205

Langkah 2 : Lihat jarak terkecil (karena single linkage) lalu merge.

Langkah 3 : Ulangi langkah 1, tetapi sekarang cluster 0 dan cluster 1

ID attr1 attr2 attr3 attr4 Cluster

Timothy Orvin Edwardo – LE01 – 1901456205

Langkah 5 : sama dengan langkah 3

Langkah 6 : sama dengan langkah 4

Langkah 7 : sama dengan langkah 3

Timothy Orvin Edwardo – LE01 – 1901456205

Langkah 8 : sama dengan langkah 4

Timothy Orvin Edwardo – LE01 – 1901456205

Langkah 2 : lakukan hal yang sama sampai depth nya mencapai

Timothy Orvin Edwardo – LE01 – 1901456205

Langkah 3 : Cluster 3, cluster 4, dan cluster 6 hanya memiliki 1

Timothy Orvin Edwardo – LE01 – 1901456205

Info (D) = -(4/10)log(4/10) – (6/10)log(6/10) = 0.529 + 0.442 =

Timothy Orvin Edwardo – LE01 – 1901456205

Info kondisi jalan (D) = (6/10)*(-(4/6)log(4/6) – (2/6)log(2/6)) +

Gain(kondisi jalan) = 0.971 – 0.551 = 0.42 ...(1)

Info kondisi mobil (D) = (4/10)*(-(2/4)log(2/4) – (2/4)log(2/4)) +

Gain(kondisi mobil) = 0.971 – 0.674 = 0.297 ...(2)

Info kondisi supir (D) = (5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) +

Gain(kondisi supir) = 0.971 – 0.9709 = 0.0001 ...(3)

c. Urutkan dari gain terbesar ke terkecil.

Timothy Orvin Edwardo – LE01 – 1901456205

Timothy Orvin Edwardo – LE01 – 1901456205

b. Kalikan semua untuk setiap prediksi (Tepat Waktu / Terlambat).

P(Macet, Kurang baik, Tidak fit, Terlambat) = 1 * 1/3 * 3/5 =

c. Lihat nilai yang lebih besar. Maka itulah kesimpulannya. Dalam

7. Performance measurement classification menggunakan Confusion

Predicted Class \ Actual Class buy_computer = yes buy_computer = no

Timothy Orvin Edwardo – LE01 – 1901456205

Timothy Orvin Edwardo – LE01 – 1901456205

8. Outlier analysis  data object yang berbeda berdasarkan ukuran

9. Noise  muncul karena adanya kesalahan pengukuran (ketelitian

10. Outlier yang menarik adalah yang melanggar mekanisme

11. Novelty detection  mendeteksi tren, misal tren berita. Kita

12. Contoh aplikasi outlier analysis :

13. Jenis outlier :

Timothy Orvin Edwardo – LE01 – 1901456205

14. Tantangan melakukan outlier detection :

Timothy Orvin Edwardo – LE01 – 1901456205

15. Metode outlier detection :

16. Supervised method :

17. Unsupervised method :

Timothy Orvin Edwardo – LE01 – 1901456205

18. Semi – supervised method :