Classification adalah metode yang paling umum pada data mining. Persoalan
bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification
Decision tree merupakan metode klasifikasi dan prediksi yang sangat kuat
dan banyak di minati. Dalam decision tree ini data yang berupa fakta dirubah
menjadi sebuah pohon keputusan yang berisi aturan dan tentunya dapat lebih
mudah dipahami dengan bahasa alami. Model pohon keputusan banyak digunakan
pada kasus data dengan output yang bernilai diskrit . Walaupun tidak menutup
kemungkinan dapat juga digunakan untuk kasus data dengan atribut numeric.
Decision tree memiliki beberapa keunggulan, yaitu:
Pemilihan atribut sebagai akar didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. perhitungan gain dapat dilihat dibawah ini :
Ket:
S = himpunan kasus
A = atribut
N = jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-i
|S| = jumlah kasus dalam S
Perhitungan nilai entropi :
Keterangan:
S = himpunan kasus
N = jumlah partisi atribut A
Pi = proporsi dari Si terhadap S
2. Naive Bayes
1. Menentukan pembobot
2. Selama kondisi konvergen belum dicapai, maka melakukan langkah 2– 9
3. Setiap pasang pada data training, melakukan langkah 3-8.
Tahap feedforward:
4. Masing-masing unit pada input (Xi , i:1,2,...,n) diterima oleh input layer Xi dan
diteruskan pada hidden layer (Zj , j:1,2,...,p).
5. Masing-masing hidden layer menjumlahkan hasil pembobot pada input layer
dan ditambahkan dengan bias.
6. Untuk setiap output layer (YK , k:1,2,...,m) dikalikan dengan bobot dan
dijumlahkan serta ditambahkan dengan biasnya.
7. Setiap output layer (YK , k:1,2,...,m) menerima pola target yang sesuai dengan
pola input pada training dan menghitung error ( k) yang digunakan untuk
mendapatkan bobot terkoreksi dan bias.
8. Setiap hidden layer (Zj , j:1,2,...,p) menghitung ( j) kemudian digunakan
untuk menghitung bobot terkoreksi dan bias antara input dan hidden layer.
Update pembobot dan bias.
Ket:
w0 : intercept pada output
f ( z ) : fungsi aktivasi
Karakteristik SVM :
– SVM selalu memberikan model yang sama dan solusi yang sama dengan
margin maksimal.
– SVM tidak dipengaruhi oleh dimensi data yang tinggi, sehingga tidak ada
proses reduksi dimensi didalamnya.
CLUSTERING
Clustering juga disebut sebagai segmentation. Metode ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada
satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh
atribut input diperlakukan sama. Kebanyakan Algoritma Clustering membangun
sebuah model melalui serangkaian pengulangan dan berhenti ketika model
tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
Metode-metode yang digunakan dalam clustering adalah:
1. K-Means
Terdapat dua jenis data clustering yang sering dipergunakan dalam proses
pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan K-Means
merupakan salah satu metode data clustering non-hierarchical atau Partitional
Clustering.
Metode K-Means Clustering berusaha mengelompokkan data yang ada ke
dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang
berbeda dengan data yang ada di dalam kelompok yang lain.
Hierarchical Clustering
2. K-modes
Dengan
y = jumlah within cluster difference
k = jumlah kluster
m = jumlah anggota pada tiap kluster
c = sentroid dari kluster
d = simple dissimilarity measure sesuai rumus (1)
x = titik data
3. Fuzzy C-Means
K-Means Clustering adalah salah satu algoritma klasifikasi data yang cukup
banyak dipakai untuk memecahkan masalah. Hanya saja metode tersebut tidak
memiliki nilai pengembalian berupa sebuah nilai pembanding untuk masing-
masing cluster, sehingga digunakan algoritma Fuzzy untuk menghitung skor dari
sebuah data. Dalam kasus ini Fuzzy juga digunakan untuk membatasi nilai sebuah
titik warna pada masing-masing cluster agar selalu memiliki nilai total satu.
Masing-masing cluster memiliki warna perwakilan yang diambil dari nilai centroid,
dan semua titik yang masuk dalam sebuah cluster akan berubah warna menjadi
warna centroid pada cluster tersebut.
Algoritma fuzzy clustering c means membagi data yang tersedia dari setiap
elemen data berhingga lalu memasukkannya kedalam bagian dari koleksi cluster
yang dipengaruhi oleh beberapa kriteria yang diberikan. Berikan satu kumpulan
data berhingga. X= {x1,…, xn } dan pusat data.
Dimana μ ij adalah derajat keanggotaan dari Xj dan pusat cluster adalah sebuah
bagian dari keanggotaan matriks [μ ij]. d2 adalah akar dari Euclidean distance dan m
adalah parameter fuzzy yang rata-rata derajat kekaburan dari setiap data derajat
keanggotaan tidak lebih besar dari 1,0 Ravichandran (2009).
4. Hitung pusat Cluster ke-k: Vkj ,dengan k=1,2,…c dan j=1,2,…m. dimana
Xijadalah variabel fuzzy yang digunakan dan w adalah bobot.
6. Perhitungan fungsi objektif Pt dimana nilai variabel fuzzy Xij di kurang dengan
dengan pusat cluster Vkjkemudian hasil pengurangannya di kuadradkan lalu
masing-masing hasil kuadrad di jumlahkan untuk dikali dengan kuadrad dari
derajat keanggotaan μik untuk tiap cluster. Setelah itu jumlahkan semua nilai di
semua cluster untuk mendapatkan fungsi objektif Pt.
7. Hitung perubahan matriks partisi:
dengan: i=1,2,…n dan k=1,2,..c.
8. Cek kondisi berhenti:a) jika:( |Pt – Pt-1 |< ξ) atau (t>maxIter) maka
berhenti.b) jika tidak, t=t+1, ulangi langkah ke-4.
4. K-Medoids
Dimana:
d(x,y) = jarak antara data ke-i dan data ke-j
xi1 = nilai atribut ke satu dari data ke-i
yj1 = nilai atribut ke satu dari data ke-j
n = jumlah atribut yang digunakan
3. Secara acak, pilih poin yang bukan medoids.
4. Hitung total jarak antar medoid.
5. Jika TD baru < TD awal, tukar posisi medoids dengan medoids baru, jadilah
medoids yang baru.
6. Ulangi langkah 2-5 sampai medoids tidak berubah.