Rangkuman Data Mining

CLASSIFICATION
Classification adalah metode yang paling umum pada data mining. Persoalan
bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode
Classification
Classification adalah tindakan untuk memberikan kelompok pada setiap

keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class
attribute.
Classification terdiri dari beberapa metode yaitu:

1. Decision Tree
Decision tree merupakan metode klasifikasi dan prediksi yang sangat kuat
dan banyak di minati. Dalam decision tree ini data yang berupa fakta dirubah
menjadi sebuah pohon keputusan yang berisi aturan dan tentunya dapat lebih
mudah dipahami dengan bahasa alami. Model pohon keputusan banyak digunakan
pada kasus data dengan output yang bernilai diskrit . Walaupun tidak menutup
kemungkinan dapat juga digunakan untuk kasus data dengan atribut numeric.
Decision tree memiliki beberapa keunggulan, yaitu:
 Mudah dimengerti dan dipahami. Orang-orang bisa memahami model

decision tree dengan penjelasan singkat.
 Memiliki nilai walaupun dengan sedikit data yang rumit. Wawasan penting
dapat dihasilkan berdasarkan para ahli yang menggambarkan situasi dan
preferensi mereka untuk hasil.
 Membantu menentukan nilai terburuk, terbaik, dan nilai yang diharapkan
untuk berbagai skenario.
 Menggunakan model kotak putih jika hasil diberikan oleh model.
 Dapat dikombinasikan dengan teknik pengambilan keputusan lainnya.
Secara umum algoritma untuk membangun pohon keputusan adalah sebagai

berikut:
1.Pilih atribut sebagai akar.
2.Buat cabang untuk masing-masing nilai
3.Bagi kasus dalam cabang.
4.Ulangi proses untuk masing-masing cabang sampai semua kasus pada
cabang memiliki kelas yang sama.
Pemilihan atribut sebagai akar didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. perhitungan gain dapat dilihat dibawah ini :
Ket:
S = himpunan kasus
A = atribut
N = jumlah partisi atribut A
|Si| = jumlah kasus pada partisi ke-i
|S| = jumlah kasus dalam S
Perhitungan nilai entropi :
Keterangan:
S = himpunan kasus
N = jumlah partisi atribut A
Pi = proporsi dari Si terhadap S
2. Naive Bayes
Algoritma Naive Bayes merupakan sebuah metoda klasifikasi menggunakan

metode probabilitas dan statistik yg dikemukakan oleh ilmuwan Inggris Thomas
Bayes. Algoritma Naive Bayes memprediksi peluang di masa depan berdasarkan
pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri
utama dari Naïve Bayes Classifier ini adalah asumsi yg sangat kuat akan
independensi dari masing-masing kondisi / kejadian.
Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan

jumlah data pelatihan (training data) yang kecil untuk menentukan estimasi
parameter yg diperlukan dalam proses pengklasifikasian. Karena yg diasumsikan
sebagai variabel independent, maka hanya varians dari suatu variabel dalam sebuah
kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari
matriks kovarians.
Tahapan dari proses algoritma Naive Bayes adalah:
a. Menghitung jumlah kelas / label.

b. Menghitung Jumlah Kasus Per Kelas
c. Kalikan Semua Variable Kelas
d. Bandingkan Hasil Per Kelas
3. Artificial Neural Network Artificial (ANN)
Artificial Neural Network Artificial (ANN) atau Jaringan Syaraf Tiruan

merupakan sebuah teknik atau pendekatan pengolahan informasi yang terinspirasi
oleh cara kerja sistem saraf biologis, khususnya pada sel otak manusia dalam
memproses informasi. Elemen kunci dari teknik ini adalah struktur sistem
pengolahan informasi yang bersifat unik dan beragam untuk tiap aplikasi. Neural
Network terdiri dari sejumlah besar elemen pemrosesan informasi (neuron) yang
saling terhubung dan bekerja bersama-sama untuk menyelesaikan sebuah masalah
tertentu, yang pada umumnya dalah masalah klasifikasi ataupun prediksi.
Sebuah Neural Network dikonfigurasi untuk aplikasi tertentu, seperti

pengenalan pola atau klasifikasi data, dan kemudian disempurnakan melalui proses
pembelajaran. Proses belajar yang terjadi dalam sistem biologis melibatkan
penyesuaian koneksi sinaptik yang ada antara neuron, dalam halnya pada Neural
Network penyesuaian koneksi sinaptik antar neuron dilakukan dengan
menyesuaikan nilai bobot yang ada pada tiap konektivitas baik dari input, neuron
maupun output.
Neural Network memproses informasi berdasarkan cara kerja otak manusia.

Dalam hal ini Neural Network terdiri dari sejumlah besar elemen pemrosesan yang
saling terhubung dan bekerja secara paralel untuk memecahkan suatu masalah
tertentu. Di sisi lain, komputer konvensional menggunakan pendekatan kognitif
untuk memecahkan masalah; dimana cara pemecahan masalah haruslah sudah
diketahui sebelumnya untuk kemudian dibuat menjadi beberapa instruksi kecil yang
terstruktur. Instruksi ini kemudian dikonversi menjadi program komputer dan
kemudian ke dalam kode mesin yang dapat dijalankan oleh komputer.
Keuntungan dari penggunaan Neural Network iyalah:
 Pembelajaran adaptif: Kemampuan untuk belajar dalam melakukan tugas-

tugas berdasarkan data yang diberikan
 Self-Organization: Sebuah Neural Network dapat membangun representasi
dari informasi yang diterimanya selama proses pembelajaran secara mandiri
 Operasi Real-Time: Penghitungan Neural Network dapat dilakukan secara
paralel, sehingga proses komputasi menjadi lebih cepat.
Algoritma dari metode ANN adalah sebagai berikut.
1. Menentukan pembobot
2. Selama kondisi konvergen belum dicapai, maka melakukan langkah 2– 9
3. Setiap pasang pada data training, melakukan langkah 3-8.
Tahap feedforward:
4. Masing-masing unit pada input (Xi , i:1,2,...,n) diterima oleh input layer Xi dan
diteruskan pada hidden layer (Zj , j:1,2,...,p).
5. Masing-masing hidden layer menjumlahkan hasil pembobot pada input layer
dan ditambahkan dengan bias.
6. Untuk setiap output layer (YK , k:1,2,...,m) dikalikan dengan bobot dan
dijumlahkan serta ditambahkan dengan biasnya.
Backpropagation dari error.
7. Setiap output layer (YK , k:1,2,...,m) menerima pola target yang sesuai dengan
pola input pada training dan menghitung error (  k) yang digunakan untuk
mendapatkan bobot terkoreksi dan bias.
8. Setiap hidden layer (Zj , j:1,2,...,p) menghitung (  j) kemudian digunakan
untuk menghitung bobot terkoreksi dan bias antara input dan hidden layer.
Update pembobot dan bias.
9. Masing-masing output layer (YK , k:1,2,...,m) meng-update nilai pembobot dan

bias (j:1,2,...,p) dan setiap hidden layer (Zj , j:1,2,...,p). meng-update pembobot
dan bias (i:1,2,...,n) sehingga mendapatkan pembobot dan bias yang baru.
10. Uji kondisi berhenti (sudah konvergen), maka iterasi berakhir
Ket:
w0 : intercept pada output
w j : pembobot dari masing-masing hidden layer ke output
w0 j : intercept pada hidden layer
wij : pembobot dari masing-masing input ke hidden layer
f ( z ) : fungsi aktivasi
j : menyatakan banyaknya jumlah hidden layer

i : menyatakan banyaknya input yang digunakan
4. Support Vector Machine
Konsep Klasifikasi dengan Support Vector Machine (SVM) adalah mencari

hyperplane terbaik yang berfungsi sebagai pemisah dua kelas data. Ide sederhana
dari SVM adalah memaksimalkan margin, yang merupakan jarak pemisah antara
kelas data. SVM mampu bekerja pada dataset yang berdimensi tinggi dengan
menggunakan kernel trik. SVM hanya menggunakan beberapa titik data terpilih
yang berkontribusi (Support Vector) untuk membentuk model yang akan digunakan
dalam proses klasifikasi.
Kelebihan SVM adalah sebagai berikut:
1. mampu mengklasifikasikan pattern-pattern yang tidak masuk dalam kelas atau

kategori metode yang menjadi pembelajaran.
2. Masalah dalam menghadapi suatu pattern disebut sebagai Curse of
dimensionality. Masalah ini bisa terjadi dikarenakan jumlah data yang ada
lebih sedikit dibandingkan dengan dimesional ruang vector data tersebut.
Karena prinsipnya adalah semakin tinggi dimesional makan diperlukan pula
data yang lebih dalam proses pembelajaran.
3. SVM memiliki Landasan teori yang jelas.
4. Dengan kelebihannya, SVM juga mampu diimplementasikan dengan mudah.
Karakteristik SVM :
– SVM memerlukan proses pelatihan dengan menyimpan hasil support vektor

yang didapatkan untuk digunakan kembali pada saat proses prediksi/testing.
– SVM selalu memberikan model yang sama dan solusi yang sama dengan
margin maksimal.
– SVM dapat memisahkan data yang distribusi kelasnya bersifat linier

maupun non linier.
– SVM tidak dipengaruhi oleh dimensi data yang tinggi, sehingga tidak ada
proses reduksi dimensi didalamnya.
– Memori yang digunakan dalam SVM dipengaruhi oleh banyaknya data,

bukan besarnya dimensi data.
CLUSTERING
Clustering juga disebut sebagai segmentation. Metode ini digunakan untuk
mengidentifikasi kelompok alami dari sebuah kasus yang di dasarkan pada sebuah
kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut.
Clustering adalah metode data mining yang Unsupervised, karena tidak ada
satu atributpun yang digunakan untuk memandu proses pembelajaran, jadi seluruh
atribut input diperlakukan sama. Kebanyakan Algoritma Clustering membangun
sebuah model melalui serangkaian pengulangan dan berhenti ketika model
tersebut telah memusat atau berkumpul (batasan dari segmentasi ini telah stabil).
Metode-metode yang digunakan dalam clustering adalah:
1. K-Means
K-Means Clustering adalah suatu metode penganalisaan data atau metode

Data Mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan
merupakan salah satu metode yang melakukan pengelompokan data dengan sistem
partisi.
Terdapat dua jenis data clustering yang sering dipergunakan dalam proses
pengelompokan data yaitu Hierarchical dan Non-Hierarchical, dan K-Means
merupakan salah satu metode data clustering non-hierarchical atau Partitional
Clustering.
Metode K-Means Clustering berusaha mengelompokkan data yang ada ke
dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang
berbeda dengan data yang ada di dalam kelompok yang lain.
Hierarchical Clustering
Dengan kata lain, metode K-Means Clustering bertujuan untuk

meminimalisasikan objective function yang diset dalam proses clustering dengan
cara meminimalkan variasi antar data yang ada di dalam suatu cluster dan
memaksimalkan variasi dengan data yang ada di cluster lainnya.
Data clustering menggunakan metode K-Means Clustering ini secara umum

dilakukan dengan algoritma dasar sebagai berikut:
1. Tentukan jumlah cluster

2. Alokasikan data ke dalam cluster secara random
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke centroid/rata-rata terdekat
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau
apabila perubahan nilai centroid, ada yang di atas nilai threshold yang
ditentukan atau apabila perubahan nilai pada objective function yang
digunakan di atas nilai threshold yang ditentukan
6. ditentukan
Ilustrasi Proses K-Means Clustering
2. K-modes
K-modes clustering pertama kali diperkenalkan oleh Huang (1998) sebagai

suatu metode clustering yang dikembangkan dari metode k-means. Oleh karena itu
k-modes efisien seperti k-means namun digunakan pada data yang bersifat
kategorikal.
langkah-langkah k-modes clustering berdasar (Huang, 2008):
1. Pilih modus awal sejumlah k

2. Alokasikan objek data pada cluster terdekat berdasar simple dissimilarity
measure. Update tiap modus cluster setelah tiap alokasi.
3. Setelah semua objek data telah dialokasikan ke suatu cluster, periksa kembali
nilai dissimilarity tiap objek terhadap modus. Jika suatu objek data ternyata
modus terdekat berada pada cluster lain, pindahkan objek ke cluster yang
sesuai dan update modus kedua cluster.
4. Ulangi langkah 3 sampai tidak ada objek data yang berubah cluster.
Untuk menentukan jumlah kluster optimal digunakan Elbow method Goutte,
dkk (1999) namun dimodifikasi menggunakan within cluster difference. Dari hasil
plotting within cluster difference pada berbagai nilai, prinsip Elbow method
mengambil nilai k pada titik ketika nilainya tidak mengalami penurunan signifikan
dengan pertambahan nilai k.
Dengan
y = jumlah within cluster difference
k = jumlah kluster
m = jumlah anggota pada tiap kluster
c = sentroid dari kluster
d = simple dissimilarity measure sesuai rumus (1)
x = titik data
3. Fuzzy C-Means
K-Means Clustering adalah salah satu algoritma klasifikasi data yang cukup
banyak dipakai untuk memecahkan masalah. Hanya saja metode tersebut tidak
memiliki nilai pengembalian berupa sebuah nilai pembanding untuk masing-
masing cluster, sehingga digunakan algoritma Fuzzy untuk menghitung skor dari
sebuah data. Dalam kasus ini Fuzzy juga digunakan untuk membatasi nilai sebuah
titik warna pada masing-masing cluster agar selalu memiliki nilai total satu.
Masing-masing cluster memiliki warna perwakilan yang diambil dari nilai centroid,
dan semua titik yang masuk dalam sebuah cluster akan berubah warna menjadi
warna centroid pada cluster tersebut.
Konsep dasar dari subtractive clustering adalah menentukan daerah-daerah

dalam suatu variabel yang memiliki densitas tertinggi terhadap titik-titik di
sekitarnya. Titik dengan jumlah tetangga terbanyak akan dipilih sebagai pusat
cluster. Titik yang sudah terpilih sebagai pusat cluster ini kemudian akan dikurangi
densitasnya. Kemudian algoritma akan memilih titik lain yang memiliki tetangga
terbanyak untuk dijadikan pusat cluster yang lain. Hal ini akan dilakukan berulang-
ulang hingga semua titik diuji.
Algoritma fuzzy clustering c means membagi data yang tersedia dari setiap
elemen data berhingga lalu memasukkannya kedalam bagian dari koleksi cluster
yang dipengaruhi oleh beberapa kriteria yang diberikan. Berikan satu kumpulan
data berhingga. X= {x1,…, xn } dan pusat data.
Dimana μ ij adalah derajat keanggotaan dari Xj dan pusat cluster adalah sebuah
bagian dari keanggotaan matriks [μ ij]. d2 adalah akar dari Euclidean distance dan m
adalah parameter fuzzy yang rata-rata derajat kekaburan dari setiap data derajat
keanggotaan tidak lebih besar dari 1,0 Ravichandran (2009).
Algoritma Fuzzy C-Means adalah sebagai berikut:
1. Input data yang akan dicluster X, berupa matriks berukuran n x m (n=jumlah

sample data, m=atribut setiap data). Xij=data sample ke-i (i=1,2,…,n), atribut
ke-j (j=1,2,…,m).
2. Tentukan :
a. Jumlah cluster =c
b. Pangkat =w
c. Maksimum iterasi = MaxIter
d. Error terkecil yang diharapkan =ξ
e. Fungsi obyektif awal = Po =0
f. Iterasi awal =t =
3. Bangkitkan nilai acak μik, i=1,2,…,n; k=1,2,…,c sebagai elemen-elemen
matriks partisi awal U. Matriks partisi (U) pada pengelompokan fuzzy
memenuhi kondisi sebagai berikut:
µik adalah derajat keanggotaan yang merujuk pada seberapa besar
kemungkinan suatu data bisa menjadi anggota ke dalam suatu cluster.
Hitung jumlah setiap kolom (atribut):
4. Hitung pusat Cluster ke-k: Vkj ,dengan k=1,2,…c dan j=1,2,…m. dimana
Xijadalah variabel fuzzy yang digunakan dan w adalah bobot.
5. Hitung fungsi obyektif pada iterasi ke-t, Pt:

Fungsi objektif digunakan sebagai syarat perulangan untuk mendapatkan pusat
cluster yang tepat. Sehingga diperoleh kecendrungan data untuk masuk ke
cluster mana pada step akhir.
Hitung fungsi obyektif pada iterasi ke-t, Pt
6. Perhitungan fungsi objektif Pt dimana nilai variabel fuzzy Xij di kurang dengan
dengan pusat cluster Vkjkemudian hasil pengurangannya di kuadradkan lalu
masing-masing hasil kuadrad di jumlahkan untuk dikali dengan kuadrad dari
derajat keanggotaan μik untuk tiap cluster. Setelah itu jumlahkan semua nilai di
semua cluster untuk mendapatkan fungsi objektif Pt.
7. Hitung perubahan matriks partisi:
dengan: i=1,2,…n dan k=1,2,..c.
8. Cek kondisi berhenti:a) jika:( |Pt – Pt-1 |< ξ) atau (t>maxIter) maka
berhenti.b) jika tidak, t=t+1, ulangi langkah ke-4.
4. K-Medoids
K-Medoid merupakan kelompok metode partitional Clustering yang

meminimalkan jarak antara titik berlabel berada dalam cluster dan titik yang
ditunjuk sebagai pusat klaster itu. Berdeda dengan algoritma K-Means, K-Medoid
memilih data points sebagai pusat (medoids).
Algoritma K-Medoids memiliki kelebihan untuk mengatasi kelemahan pada

pada algoritma K-Means yang sensitif terhadap noise dan outlier, dimana objek
dengan nilai yang besar yang memungkinkan menyimpang pada dari distribusi
data. Kelebihan lainnya yaitu hasil proses Clustering tidak bergantung pada urutan
masuk dataset
Langkah-langkah K-Medoids adalah:
1. Pilih poin k sebagai inisial centroid / nilai tengah (medoids) sebanyak k

cluster.
2. Cari semua poin yang paling dekat dengan medoids, dengan cara
menghitung jarak vektor antar dokumen dengan menggunakan Euclidian
Distance.
Rumusnya adalah sebagai berikut:
Dimana:
d(x,y) = jarak antara data ke-i dan data ke-j
xi1 = nilai atribut ke satu dari data ke-i
yj1 = nilai atribut ke satu dari data ke-j
n = jumlah atribut yang digunakan
3. Secara acak, pilih poin yang bukan medoids.
4. Hitung total jarak antar medoid.
5. Jika TD baru < TD awal, tukar posisi medoids dengan medoids baru, jadilah
medoids yang baru.
6. Ulangi langkah 2-5 sampai medoids tidak berubah.

Rangkuman Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Rangkuman Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

CLASSIFICATION

Classification adalah tindakan untuk memberikan kelompok pada setiap

Classification terdiri dari beberapa metode yaitu:

 Mudah dimengerti dan dipahami. Orang-orang bisa memahami model

Secara umum algoritma untuk membangun pohon keputusan adalah sebagai

Algoritma Naive Bayes merupakan sebuah metoda klasifikasi menggunakan

Keuntungan penggunan adalah bahwa metoda ini hanya membutuhkan

Tahapan dari proses algoritma Naive Bayes adalah:

a. Menghitung jumlah kelas / label.

Artificial Neural Network Artificial (ANN) atau Jaringan Syaraf Tiruan

Sebuah Neural Network dikonfigurasi untuk aplikasi tertentu, seperti

Neural Network memproses informasi berdasarkan cara kerja otak manusia.

Keuntungan dari penggunaan Neural Network iyalah:

 Pembelajaran adaptif: Kemampuan untuk belajar dalam melakukan tugas-

Algoritma dari metode ANN adalah sebagai berikut.

Backpropagation dari error.

9. Masing-masing output layer (YK , k:1,2,...,m) meng-update nilai pembobot dan

w j : pembobot dari masing-masing hidden layer ke output

w0 j : intercept pada hidden layer

wij : pembobot dari masing-masing input ke hidden layer

j : menyatakan banyaknya jumlah hidden layer

4. Support Vector Machine

Konsep Klasifikasi dengan Support Vector Machine (SVM) adalah mencari

1. mampu mengklasifikasikan pattern-pattern yang tidak masuk dalam kelas atau

– SVM memerlukan proses pelatihan dengan menyimpan hasil support vektor

– SVM dapat memisahkan data yang distribusi kelasnya bersifat linier

– Memori yang digunakan dalam SVM dipengaruhi oleh banyaknya data,

K-Means Clustering adalah suatu metode penganalisaan data atau metode

Dengan kata lain, metode K-Means Clustering bertujuan untuk

Data clustering menggunakan metode K-Means Clustering ini secara umum

1. Tentukan jumlah cluster

Ilustrasi Proses K-Means Clustering

K-modes clustering pertama kali diperkenalkan oleh Huang (1998) sebagai

langkah-langkah k-modes clustering berdasar (Huang, 2008):

1. Pilih modus awal sejumlah k

Konsep dasar dari subtractive clustering adalah menentukan daerah-daerah

Algoritma Fuzzy C-Means adalah sebagai berikut:

1. Input data yang akan dicluster X, berupa matriks berukuran n x m (n=jumlah

Hitung jumlah setiap kolom (atribut):

5. Hitung fungsi obyektif pada iterasi ke-t, Pt:

K-Medoid merupakan kelompok metode partitional Clustering yang

Algoritma K-Medoids memiliki kelebihan untuk mengatasi kelemahan pada

Langkah-langkah K-Medoids adalah:

1. Pilih poin k sebagai inisial centroid / nilai tengah (medoids) sebanyak k

Anda mungkin juga menyukai