Anda di halaman 1dari 28

Ringkasan Kisi – Kisi UAS Data Mining

1. Clustering.
Diketahui data sebagai berikut :
A(1,2), B(2,5), C(3,3), D(6,4), E(4,5), F(5,7), G(1,1), H(3,6), I(7,8),
J(5,4). Tentukan cluster untuk masing – masing data
menggunakan clustering K – Means dengan k = 3.
Jawab :

a. Bagi menjadi k cluster. Dalam kasus ini 3.

Timothy Orvin Edwardo – LE01 – 1901456205


b. Tentukan means untuk setiap cluster.
Means C1 = {(7/4),(11/4)} = (1.75, 2.75)
Means C2 = {(18/4),(19/4)} = (4.5, 4.75)
Means C3 = {(12/2),(15/2)} = (6, 7.5)

c. Hitung untuk setiap data, lebih dekat ke means cluster yang


mana, lalu update centroidnya. Untuk perhitungan jarak, kita

Timothy Orvin Edwardo – LE01 – 1901456205


gunakan metode Euclidian. Ulang hingga tidak ada perubahan
cluster / centroid.
  Means Cluster 1 Means Cluster 2 Means Cluster 3
A(1,2) C1 1.061 4.451 7.433
B(2,5) C1 2.264 2.512 4.717
C(3,3) C1 1.275 1.82 5.048
D(6,4) C2 4.43 1.677 3.5
E(4,5) C2 3.182 0.559 3.202
F(5,7) C3 5.35 2.305 1.118
G(1,1) C1 1.904 5.13 8.2
H(3,6) C2 3.482 1.953 3.041
I(7,8) C3 7.425 4.1 1.118
J(5,4) C2 3.482 0.901 3.64

d. Dalam kasus ini, cluster sama seperti inisialisasi awal sehingga


nilai centroid tetap. Jadi hasilnya adalah :
A = Cluster 1
B = Cluster 1
C = Cluster 1
D = Cluster 2
E = Cluster 2
F = Cluster 3
G = Cluster 1
H = Cluster 2
I = Cluster 3
J = Cluster 2

2. Clustering.
Menggunakan data nomor 1, tetapi menggunakan cara K –
Medoids dengan K = 3.
Jawab :
 Pilih 3 medoids (sesuai k)

Timothy Orvin Edwardo – LE01 – 1901456205


Hitung jarak sehingga kita menemukan cluster – clusternya
M1 M2 M3
  (1,2) (2,5) (5,7)
A (C1) 0 3.162 6.403
B (C2) 3.162 0 3.606
C (C1) 2.236 2.236 4.472
D (C3) 5.385 4.123 3.162
E (C2) 4.243 2 2.236
F (C3) 6.403 3.606 0
G (C1) 1 4.123 7.211
H (C2) 4.472 1.414 2.236
I (C3) 8.485 5.831 2.236
J (C3) 4.472 3.162 3

Timothy Orvin Edwardo – LE01 – 1901456205


 Pilih objek non medoid lain (random), lalu hitung cost
function nya. Ketika < dari yang lama maka tukar medoid.

a. TC1 lama = 2.236 + 1 = 3.236


b. TC1 baru = 2.828 + 2.236 = 5.064 (TIDAK TUKAR)
c. TC2 lama = 2 + 1.414 = 3.414
d. TC2 baru = 2.236 + 2 = 4.236 (TIDAK TUKAR)

Timothy Orvin Edwardo – LE01 – 1901456205


e. TC3 lama = 3.162 + 2.236 + 3 = 8.398
f. TC3 baru = 1 + 3.162 + 4.123 = 8.285 (TUKAR)

M1 M2 M3
  (1,2) (2,5) (6,4)
A (C1) 0 3.162 5.385
B (C2) 3.162 0 4.123
C (C1) 2.236 2.236 3.162
D (C3) 5.385 4.123 0
E (C2) 4.243 2 2.236
F (C3) 6.403 3.606 3.162
G (C1) 1 4.123 5.831
H (C2) 4.472 1.414 3.606
I (C3) 8.485 5.831 4.123
J (C3) 4.472 3.162 1

Tentukan medoid lain

Timothy Orvin Edwardo – LE01 – 1901456205


a. TC1 lama = 3.236
b. TC1 baru = 1 + 2.828 = 3.828 (TIDAK TUKAR)
c. TC2 lama = 3.414
d. TC2 baru = 1.414 + 1.414 = 2.828 (TUKAR)
e. TC3 lama = 8.398
f. TC3 baru = 4.472 + 2.236 + 4.123 = 10.831 (TIDAK
TUKAR)
M1 M2 M3
  (1,2) (3,6) (6,4)
A (C1) 0 4.472 5.385
B (C2) 3.162 1.414 4.123
C (C1) 2.236 3 3.162
D (C3) 5.385 3.606 0
E (C2) 4.243 1.414 2.236
F (C2) 6.403 2.236 3.162
G (C1) 1 5.385 5.831
H (C2) 4.472 0 3.606
I (C3) 8.485 4.472 4.123
J (C3) 4.472 2.828 1

Timothy Orvin Edwardo – LE01 – 1901456205


Tentukan medoid lain di c3 :

a. TC3 lama = 8.398


b. TC3 Baru = 1 + 3.162 + 4.472 = 8.634 (TIDAK TUKAR)

 Berhenti ketika cost function sudah minimum / medoid tidak


ada perubahan.
 Clusternya adalah medoid terdekat. Sehingga hasil akhir
cluster :

Timothy Orvin Edwardo – LE01 – 1901456205


3. Clustering.
Menggunakan cara AGNES (Agglomerative Nesting)
Ada beberapa cara dalam menentukan jarak :
 Single linkage  berdasar jarak terdekat.
 Complete linkage  berdasar jarak terjauh.
 Average linkage  berdasarkan jarak rerata.
 Centroid  berdasarkan jarak centroid 2 cluster.
 Medoid  berdasarkan jarak medoid 2 cluster.
Contoh soal : Bagilah ke 3 cluster.
ID attr1 attr2 attr3 attr4 Cluster
id_36 5.0 3.2 1.2 0.2 Cluster_0
id_46 4.8 3.0 1.4 0.3 Cluster_1
id_86 6.0 3.4 4.5 1.6 Cluster_2
id_96 5.7 3.0 4.2 1.2 Cluster_3
id_136 7.7 3.0 6.1 2.3 Cluster_4

Jawab :
Langkah 1 : hitung jarak antar cluster

Timothy Orvin Edwardo – LE01 – 1901456205


Cluster_0 0
Cluster_1 0.361 0
Cluster_2 3.727 3.592 0
Cluster_3 3.245 3.076 0.707 0
Cluster_4 5.979 5.874 2.470 2.970 0
Cluster_0 Cluster_1 Cluster_2 Cluster_3 Cluster_4

Langkah 2 : Lihat jarak terkecil (karena single linkage) lalu merge.


Disini kita melihat jarak terdekat adalah cluster 0 dan cluster 1. Maka
merge

Langkah 3 : Ulangi langkah 1, tetapi sekarang cluster 0 dan cluster 1


sudah diganti cluster 5. Untuk jarak cluster 5 dengan cluster lain, cari
dengan jarak terdekat antara cluster 5 dan cluster lain.

ID attr1 attr2 attr3 attr4 Cluster


id_36 5.0 3.2 1.2 0.2 Cluster_5
id_46 4.8 3.0 1.4 0.3 Cluster_5
id_86 6.0 3.4 4.5 1.6 Cluster_2
id_96 5.7 3.0 4.2 1.2 Cluster_3
id_136 7.7 3.0 6.1 2.3 Cluster_4

Cluster_5 0
Cluster_2 3.592 0
Cluster_3 3.076 0.707 0
Cluster_4 5.874 2.470 2.970 0
Cluster_5 Cluster_2 Cluster_3 Cluster_4

Timothy Orvin Edwardo – LE01 – 1901456205


Langkah 4 : merge yang jarak terdekat

Langkah 5 : sama dengan langkah 3


ID attr1 attr2 attr3 attr4 Cluster
id_36 5.0 3.2 1.2 0.2 Cluster_5
id_46 4.8 3.0 1.4 0.3 Cluster_5
id_86 6.0 3.4 4.5 1.6 Cluster_6
id_96 5.7 3.0 4.2 1.2 Cluster_6
id_136 7.7 3.0 6.1 2.3 Cluster_4

Cluster_5 0
Cluster_6 3.076 0
Cluster_4 5.874 2.470 0
Cluster_5 Cluster_6 Cluster_4

Langkah 6 : sama dengan langkah 4

Langkah 7 : sama dengan langkah 3

Timothy Orvin Edwardo – LE01 – 1901456205


ID attr1 attr2 attr3 attr4 Cluster
id_36 5.0 3.2 1.2 0.2 Cluster_5
id_46 4.8 3.0 1.4 0.3 Cluster_5
id_86 6.0 3.4 4.5 1.6 Cluster_7
id_96 5.7 3.0 4.2 1.2 Cluster_7
id_136 7.7 3.0 6.1 2.3 Cluster_7

Cluster_5 0
Cluster_7 3.076 0
Cluster_5 Cluster_7

Langkah 8 : sama dengan langkah 4

Langkah 9 : kita ingin dibagi menjadi 3 cluster, maka kita potong, hingga
hanya ada cluster 6, cluster 5, cluster 4

Timothy Orvin Edwardo – LE01 – 1901456205


Hasil akhir :

Cluster Member
Cluster-1 {Id_36, Id_46}
Cluster-2 {Id_86, Id_96}
Cluster-3 {Id_136}

4. Clustering.
Menggunakan data nomor 3 (abaikan kolom cluster), tetapi
menggunakan cara DIANA (Divisive Analysis) dengan kriteria
Single linkage. Maximum – depth = 3
Jawab :
Langkah 1 : Hitung jarak yang terdekat antar cluster. Maka itu
dijadikan satu cluster. Dan sisanya adalah cluster lain
(menggunakan konsep K – Means, misalkan dalam kasus ini K = 2).
Cluster Member
Cluster_1 id_36, id_46
Cluster_2 id_86, id_96, id_136

Langkah 2 : lakukan hal yang sama sampai depth nya mencapai


yang kita inginkan. Pada langkah kedua ini, cluster 1 dan cluster 2
dipecah lagi.
Cluster 1  menjadi 3 dan 4
Cluster Member
Cluster_3 id_36
Cluster_4 id_46

Timothy Orvin Edwardo – LE01 – 1901456205


Cluster 2  menjadi 5 dan 6
Cluster Member
Cluster_5 id_86, id_96
Cluster_6 id_136

Langkah 3 : Cluster 3, cluster 4, dan cluster 6 hanya memiliki 1


elemen. Maka dari itu yang bisa dipecah hanya cluster 6 (menjadi
cluster 7 dan 8)
Cluster Member
Cluster_7 id_86
Cluster_8 id_96

Hasil akhir :
Cluster Member
Cluster_3 id_36
Cluster_4 id_46

Timothy Orvin Edwardo – LE01 – 1901456205


Cluster_7 id_86
Cluster_8 id_96
Cluster_9 id_136

5. Classification.
Diketahui data sebagai berikut. Buatkanlah decision treenya.
Metode pemilihan attribut adalah information gain.

Jawab :
a. Tentukan Info (D). Dihitung dengan jumlah (sesuai banyaknya
kategori) dari -(banyak cat1 / total data)*2 log (banyak cat1 /
total data). Dalam kasus ini ada 2 kategori class yaitu tepat
waktu dan terlambat, sehingga Info (D) adalah :

Info (D) = -(4/10)log(4/10) – (6/10)log(6/10) = 0.529 + 0.442 =


0.971

b. Untuk setiap attribut, tentukan nilai Info attr (D) nya. Caranya
mirip dengan mencari Info(D), akan tetapi kali ini kita melihat
sesuai attributnya. Rumus : (banyak data cat1 / total data)*(-
(banyak data cat1 cl1/total data cat1)log(banyak data cat1
cl1/total data cat1)) Jumlahkan untuk semua kategori dan class.

Timothy Orvin Edwardo – LE01 – 1901456205


Dan lakukan langkah ini untuk setiap atribut. Lalu hitung Gain
(attr) dengan rumus Info(D) – Info attr (D). Dalam kasus ini :

Info kondisi jalan (D) = (6/10)*(-(4/6)log(4/6) – (2/6)log(2/6)) +


(4/10)*(-(4/4)log(4/4)) = 0.551

Gain(kondisi jalan) = 0.971 – 0.551 = 0.42 ...(1)

Info kondisi mobil (D) = (4/10)*(-(2/4)log(2/4) – (2/4)log(2/4)) +


(3/10)*(-(2/3)log(2/3) – (1/3)log(1/3)) + (3/10)*(-(3/3)log(3/3))
= 0.4 + 0.274 = 0.674

Gain(kondisi mobil) = 0.971 – 0.674 = 0.297 ...(2)

Info kondisi supir (D) = (5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) +


(5/10)*(-(2/5)log(2/5) – (3/5)log(3/5)) = 0.971

Gain(kondisi supir) = 0.971 – 0.9709 = 0.0001 ...(3)

c. Urutkan dari gain terbesar ke terkecil.


Gain(kondisi jalan) = 0.42
Gain(kondisi mobil) = 0.297
Gain(kondisi supir) = 0.0001

d. Yang gain terbesar akan jadi root untuk decision tree kita.
Decision treenya seperti ini :

Timothy Orvin Edwardo – LE01 – 1901456205


Hasil akhir :

6. Classification.
Dengan training data dari tabel nomor 4, buatlah hasil prediksi
apakah mereka akan tiba tepat waktu atau terlambat jika
kondisinya seperti ini :
Kondisi jalan = Macet
Kondisi mobil = Kurang baik
Kondisi supir = Tidak fit
Jawab :
a. Hitung kemungkinan.
P(Macet, Tepat Waktu) = 0/4 = 0
P(Macet, Terlambat) = 4/4 = 1
P(Kurang baik, Tepat Waktu) = 2/3

Timothy Orvin Edwardo – LE01 – 1901456205


P(Kurang baik, Terlambat) = 1/3
P(Tidak fit, Tepat Waktu) = 2/5
P(Tidak fit, Terlambat) = 3/5

b. Kalikan semua untuk setiap prediksi (Tepat Waktu / Terlambat).


P(Macet, Kurang baik, Tidak fit, Tepat Waktu) = 0 * 2/3 * 2/5 =
0.

P(Macet, Kurang baik, Tidak fit, Terlambat) = 1 * 1/3 * 3/5 =


3/15.

c. Lihat nilai yang lebih besar. Maka itulah kesimpulannya. Dalam


kasus ini nilai yang lebih besar adalah untuk P(Macet, Kurang
baik, Tidak fit, Tepat Waktu) lebih besar dibanding P(Macet,
Kurang baik, Tidak fit, Terlambat). Maka kesimpulan apabila
kondisi jalan macet, kondisi mobil kurang baik, kondisi supir
tidak fit adalah Terlambat.

7. Performance measurement classification menggunakan Confusion


Matrix.
Format confusion matrix adalah sebagai berikut : (perhatikan
posisi TP, TN, FN, FP dan Actual / predicted class)
Actual Class \ Predicted Class buy_computer = yes buy_computer = no
buy_computer = yes True Positive (TP) False Negative (FN)
buy_computer = no False Positive (FP) True Negative (TN)

Predicted Class \ Actual Class buy_computer = yes buy_computer = no


buy_computer = yes True Positive (TP) False Positive (FP)
buy_computer = no False Negative (FN) Trus Negative (TN)

Timothy Orvin Edwardo – LE01 – 1901456205


Contoh soal :
Actual Class \ Predicted Class buy_computer = yes buy_computer = no Total
buy_computer = yes 6954 46 7000
buy_computer = no 412 2588 3000
Total 7366 2634 10000
Hitunglah :
a. Accuracy
b. Error Rate
c. Sensitivity
d. Specificity
e. Precision
f. Recall
g. F – Measure
h. Fβ jika β = 2

Jawab :
a. Accuracy = (TP + TN)/All
Accuracy = (6954 + 2588)/10000 = 0.9542
b. Error rate = (FP + FN)/All
Error rate = (412 + 46)/10000 = 0.0458
c. Sensitivity = TP/P
Sensitivity = 6954 / 7000 = 0.9934
d. Specificity = TN/N
Specificity = 2588/3000 = 0.8627
e. Precision = TP / (TP + FP)
Precision = 6954 / (6954 + 412) = 0.944
f. Recall = TP / (TP + FN)
Recall = 6954 / (6954 + 46) = 0.993
g. F – Measure = (2 * precision * recall) / (precision + recall)
F – Measure = (2 * 0.944 * 0.993) / (0.944 + 0.993) = 0.968
h. Fβ = ((1 + β2) * precision * recall) / (β2 * precision + recall)

Timothy Orvin Edwardo – LE01 – 1901456205


F2 = ((1+4) * 0.944 * 0.993) / (4 * 0.944 + 0.993) = 0.983

8. Outlier analysis  data object yang berbeda berdasarkan ukuran


tertentu dan jaraknya jauh dari data yang dianggap normal.
Outlier ini merupakan hal yang ingin kita deteksi.

9. Noise  muncul karena adanya kesalahan pengukuran (ketelitian


alat ukur atau human error). Noise bukanlah hal yang ingin dicari.

10. Outlier yang menarik adalah yang melanggar mekanisme


yang generate data normal.

11. Novelty detection  mendeteksi tren, misal tren berita. Kita


bisa mendeteksi perubahan tren.

12. Contoh aplikasi outlier analysis :


 Credit card fraud detection.
 Medical analysis.
 Customer segmentation.

13. Jenis outlier :


 Global ketika berbeda signifikan secara global.
 Contoh : deteksi intrusion di jaringan komputer.
 Isu : temukan pengukuran deviasi yang tepat.
 Contextual  ketika pada konteks tertentu menjadi outlier.
Atribut dibagi menjadi 2 kelompok :
 Contextual attribute  menentukan konteksnya.
Contoh : waktu dan lokasi.
 Behavioral attribute  karakteristik dari objek yang
digunakan untuk evaluasi, contoh : temperatur.

Timothy Orvin Edwardo – LE01 – 1901456205


 Selain itu bisa dilihat sebagai generalisasi local outlier
yang density (kerapatannya) secara signifikan berbeda
dari area lokalnya.
 Collective  menjadi outlier jika diukur secara berkelompok
atau collective, tetapi tidak menjadi outlier ketika dianalisa
secara per individual.
 Contoh : deteksi intrusion ketika komputer mengirim
denial – of – services package satu sama lain.
 Deteksi collective outlier :
o Mempertimbangkan behavior kelompok objek.
o Butuh latar belakang pengetahuan tentang
hubungan data objek seperti jarak dan ukuran
kesamaan dalam objek.
o Sebuah data set mungkin punya banyak tipe
outlier.
o Satu objek bisa merupakan dari 1 tipe outlier.

14. Tantangan melakukan outlier detection :


 Modelling objek normal dan outlier secara sesuai 
kesulitan menentukan behavior normal dan batas antara
objek normal dan outlier terkadang tidak jelas.
 Application specific outlier detection  menentukan
pengukuran jarak antar objek dan model hubungan
antarobjek seringkali tergantung aplikasi. Contoh pada data
klinik, deviasi kecil bisa dianggap outlier. Padahal di aplikasi
marketing tidak.
 Handling noise di outlier detection  noise bisa
mengganggu objek normal dan membuat kabur perbedaan
normal dan outlier. Ini menyebabkan kurangnya efektifitas
dalam deteksi outlier.

Timothy Orvin Edwardo – LE01 – 1901456205


 Understandability  agar knowledge yang kita temukan
berguna. Tentukan degree outlier, objek yang berbeda dari
mekanisme normal.

15. Metode outlier detection :


 Berdasarkan ketersediaan user label example
 Supervised
 Semi – supervised
 Unsupervised
 Berdasarkan asumsi yang digunakan metode tentang normal
dan outlier
 Statistic
 Proximity – based
 Clustering – based

16. Supervised method :


 Memodelkan outlier detection sebagai masalah klasifikasi 
sample diuji oleh expert untuk training dan testing.
 Metode learning sebagai classifier untuk outlier detection
secara efektif  memodelkan objek normal dan melaporkan
yang tidak match sebagai outlier atau sebaliknya.
 Tantangan :
 Class yang tidak balance  outlier biasanya jarang.
 Mendeteksi outlier sebanyak mungkin. Recall lebih
penting dari akurasi.

17. Unsupervised method :


 Asumsikan objek normal di cluster ke kelompok – kelompok
yang memiliki distinct feature.
 Outlier seharusnya jauh dari kelompok normal object.

Timothy Orvin Edwardo – LE01 – 1901456205


 Kelemahan : tidak bisa deteksi outlier collective secara
efektif, karena objek normal bisa saja tidak share pattern
kuat.
 Contoh pada intrusion atau deteksi virus :
 Memiliki false positive rate yang tinggi, tapi masih
kekurangan outlier asli.
 Supervised method bisa lebih efektif misalnya untuk
identifikasi attacking key resources.
 Contoh clustering method :
 Menemukan cluster, lalu outlier tidak tergabung dalam
cluster apapun.
 Masalah 1 : sulit membedakan noise dari outlier.
 Masalah 2 : lebih costly sejak clustering pertama, tapi
less outlier dari objeck normal.
 Metode lebih baru : tackle outlier secara langsung.

18. Semi – supervised method :


 Label tersedia tapi terbatas.
 Jika sebagian label objek normal tersedia  menggunakan
label dan memperkirakan unlabeled object untuk train
model objek baru. Yang tidak cocok dengan model normal
dideteksi sebagai outlier.
 Jika sebagian label outlier tersedia  sedikitnya outlier label
tidak mengcover outlier yang mungkin terjadi. Untuk
meningkatkan kualitas deteksi outlier, bisa menggunakan
bantuan objek normal yang dipelajari dari unsupervised
method.

19. Deteksi outlier dengan statistik :

Timothy Orvin Edwardo – LE01 – 1901456205


 Asumsi objek di data set digenerate oleh sthocastic process
(generative model).
 Dibagi menjadi 2 metode : parametrik dan non parametrik.
 Parametrik :
 Asumsi data normal digenerate oleh distribusi
parametrik.
 Peluang density function memberikan peluang objek x
digenerate oleh distribusi.
 Semakin kecil value, semakin besar peluang x adalah
outlier.
 Contoh : Grubb’s test, detection multivariative outlier,
mixture parametric distribution
 Non – parametrik :
 Tidak mengasumsikan apriori statistical model dan
menentukan model dari input data.
 Tidak sepenuhnya tanpa parameter, namun
mempertimbangkan banyaknya parameter secara
felksibel.
 Contoh : histogram dan kernel density estimation.

20. Proximity based approach (Distance based vs density


based) :
 Distance based  objek o adalah outlier jika neighborhood
tidak punya cukup point lain.
 Density based  objek o adalah outlier jika kerapatannya
lebih kecil dibanding neighbornya.

21. Clustering based method outlier detection :


 Sebuah objek disebut outlier jika :
 Bukan milik sebuah cluster.

Timothy Orvin Edwardo – LE01 – 1901456205


 Adanya jarak besar antara objek dan cluster terdekat.
 Milik cluster kecil atau sparse cluster.
 Jika bukan milik cluster  menggunakan density based
method.
 Jika jauh dari cluster terdekat  menggunakan k – means.
 Kelebihan :
 Deteksi outlier tanpa membutuhkan labeled data.
 Bekerja untuk berbagai tipe data.
 Cluster bisa jadi ringkasan data.
 Ketika cluster ditentukan, hnya butuh compare objek
lain dengan cluster untuk menentukan outlier
 Kelemahan :
 Efektifitas tergantung metode clustering.
 High computational cost.
 Metode mengurangi cost  fixed width clustering.

22. Classification based method outlier detection :


 One – class model
 Train model klasifikasi yang membedakan data normal
dan outlier.
 Bruteforce approach  mempertimbangkan training
set yang mengandung label normal dan outlier.
 One class model dirancang untuk mendeksripsikan
class normal. Yang bukan milik normal class dianggap
outlier.
 Semi – supervised learning
 Mengombinasikan classification based dan clustering
based.
 Pada classification based kelebihannya adalah outlier
detection berlangsung cepat.

Timothy Orvin Edwardo – LE01 – 1901456205


 Kelemahan classification based adalah kualitas sangat
tergantung pada ketersediaan dan kualitas training set,
terkadang sulit menentukan representative dan high –
quality training data.

23. Tantangan deteksi outlier pada high – dimensional data :


 Interpretasi outlier  mendeteksi outlier tanpa mengatakan
mengapa outlier tidak terlalu berguna di high dimension,
karena banyak dimensi yang terlibat.
 Data sparsity  data di high dimension biasanya menyebar
(sparse). Jarak antar objek didominasi oleh noise.
 Data subspace  adaptif pada subspace yang menandakan
outlier dan capture local behavior data.
 Scalable dengan respect ke dimensionality  banyaknya
subspace meningkan secara exponensial.

24. Complex data types untuk mining, contoh datanya :


 Mining sequence data
 Time series  intervalnya fix (misal suhu harian).
 Symbolic sequences  interval tidak terlalu jelas (bisa
beda).
 Biological sequences  contoh : urutan DNA.
 Mining graphs dan network  data berbentuk graph
(contoh : peta).
 Mining jenis data lain  contoh : multimedia data, wrapper
text, audio, video, hasil sensor.

25. Contoh aplikasi dan tren data mining :


 Multimedia indexing dan retrieval.
 Sentiment analysis

Timothy Orvin Edwardo – LE01 – 1901456205


 Jenis musik yang sesuai dengan behavior seseorang.
 Content based retrieval
 CRM (Customer Relationship Management)
 Fraud detection
 Intrusion detection
 Segmentasi pelanggan
 Analisis riset
 Bioinformatika

26. Metode lain dalam data mining :


 Statistical data mining  menggunakan teknik regresi, linear
models, analisis varians, analisis faktor, quality control.
 Pandangan mengenai dasar data mining :
 Data reduction  berkaitan dengan akurasi untuk
kecepatan respon.
 Data compression  compress data dengan encoding
ke bits, association rule, decision tree.
 Probability dan statistical theory  menemukan
distribusi peluang.
 Microeconomic view  menemukan pattern menarik
untuk pengambilan keputusan suatu perusahaan.
 Pattern discovery dan inductive database 
menemukan pattern pada data untuk melihat
hubungannya. Teori yang mendasari adalah machine
learning, neural network, association mining,
sequential pattern mining, clustering.
o Inductive database adalah ketika user
berinteraksi dengan sistem dengan query data
dan teori (pattern) dalam knowledge base.

Timothy Orvin Edwardo – LE01 – 1901456205


Knowledge base inilah yang disebut inductive
database.

27. Yang menjadi perhatian pada sosial di data mining adalah privasi
data dan keamanan data. Privacy preserving data mining
berkaitan dengan hasil valid data mining dengan value yang
sensitif. Tujuannya meyakinkan proteksi privasi dan keamanan
ketika menyajikan keseluruhan hasil data mining.

Timothy Orvin Edwardo – LE01 – 1901456205

Anda mungkin juga menyukai