Metode Klasifikasi Dan Clustering Dalam Data Mining

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/314266899
Integrasi Metode Klasiﬁkasi Dan Clustering dalam Data Mining
Conference Paper · January 2015
CITATIONS READS
8 32,821
2 authors:
Sofi Defiyanti Mohamad Jajuli

Universitas Singaperbangsa Karawang Universitas Singaperbangsa Karawang
12 PUBLICATIONS 59 CITATIONS 6 PUBLICATIONS 38 CITATIONS
SEE PROFILE SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Web Mining for Curricula Recomendation View project
Integration of Clustering and Classification Method View project
All content following this page was uploaded by Sofi Defiyanti on 07 March 2017.
The user has requested enhancement of the downloaded file.

Konferensi Nasional Informatika (KNIF) 2015
Integrasi Metode Klasifikasi Dan Clustering

dalam Data Mining
Sofi Defiyanti Mohamad Jajuli
Teknik Informatika Fakultas Ilmu Komputer Teknik Informatika Fakultas Ilmu Komputer
Universitas Singaperbangsa Karawang Universitas Singaperbangsa Karawang
Jl. HS. Ronggowaluyo Teluk Jambe Timur Jl. HS. Ronggowaluyo Teluk Jambe Timur
Karawang Karawang
Sofi.defiyanti@unsika.ac.id Mohamad.jajuli@staff.unsika.ac.id
Abstrak - Data mining atau knowledge discovery in Klasifikasi adalah pemprosesan untuk
database merupakan salah satu teknik yang menemukan sebuah model atau fungsi yang
digunakan untuk mendapatkan pengetahuan baru menjelaskan dan mencirikan konsep atau kelas
dengan memanfaatkan jumlah data yang sangat data, untuk kepentingan tertentu.
besar. Beberapa teknik di dalam data mining Clustering digunakan untuk pengelompokkan
adalah klasifikasi, clustering, asosiasi dan prediksi. data berdasarkan kemiripan pada objek data dan
Teknik klasifikasi digunakan untuk menemukan sebaliknya meminimalkan kemiripan terhadap
model untuk kepentingan tertentu. Sedangkan kluster yang lain.
clustering merupakan teknik data mining untuk Mengintegrasikan metode clustering dengan
mengelompokkan data berdasarkan kemiripan. klasifikasi didapat hasil model yang didapat
Tingkat akurasi pada masing masing teknik memiliki akurasi dan robustbess yang lebih baik
memiliki perbedaan dari setiap model yang jika hanya dilakukan dengan metode klasifikasi
dihasilkan. Tingkat akurasi yang baik terjadi jika saja (1).
mendekati angka 100% dengan arti bahwa model Algoritma ID3 dianggap metode yang lebih
yang dihasilkan menunjukkan hasil yang tepat baik jika dibandingkan oleh algoritma C4.5 untuk
dalam pembangunan modelnya. Integrasi metode kasus spam mail dataset (2).
klasifikasi dan klustering dalam data mining Algoritma decision tree, naive bayes dan
diharapkan dapat meningkatkan akurasi yang artificial neural network digunakan untuk
didapat. memprediksi prestasi belajar mahasiswa
Integrasi metode klasifikasi dan clustering dalam berdasarkan data akademik pada perguruan tinggi
data mining dengan memanfaatkan data yang didapat bahwa algoritma naive bayes merupakan
bervolume besar yaitu dengan 1.025.010 record teknik yang memiliki akurasi yang lebih tinggi dan
dan memiliki 10 atribut input dilakukan dengan lebih cepat jika dibandingkan kedua algoritma yang
memanfaatkan 10 fold cross validation untuk lain (3).
pengujicobaan evaluasi model yang telah Tingkat akurasi dari masing-masing model
dilakukan. Terdapat perbedaan hasil antara memiliki perbedaan dari setiap model yang telah di
integrasi metode klasifikasi dan clustering dalam lakukan pembelajaran. Tingkat akurasi yang baik
data mining terhadap keakurasian, waktu terjadi jika tingkat akurasi mendekati 100% artinya
pembentukan model, kehandalan model dan kinerja model yang dihasilkan menunjukkan hasil yang
model yang telah dihasilkan. tepat. Model yang memiliki tingkat akurasi paling
tinggi yang akan dijadikan perbaikan model
Kata Kunci : Data Mining, Klasifikasi, Clustering, terhadap model yang sudah ada
integrasi Berdasarkan latar belakang tersebut, maka
I. Pendahuluan akan dilakukan penelitian untuk mengintegrasikan
Data mining atau lebih di kenal juga dengan metode clustering dengan metode klasifikasi
sebutan knowledge discovery in databases (KDD). dengan memanfaatkan data yang bervolume besar.
Data mining merupakan salah satu cara yang Dengan meilihat pada survey yang telah dilakukan
digunakan untuk mendapatkan pengetahuan baru oleh Wu, algoritma clustering yang akan dipakai
dengan memanfaatkan jumlah data yang sangat adalah K-means sedangkan algoritma klasifikasi
besar. Beberapa teknik telah dikembangkan dan yang akan dipakai adalah algoritma ID3 dan naive
diimplementasikan untuk mengekstrak bayes. Dari penelitian yang akan dilakukan diduga
pengetahuan dan informasi untuk menemukan pola bahwa terdapat perbedaan hasil yang didapat dari
pengetahuan yang mungkin berguna untuk perlakuan kalasifikasi dengan integrasi metode
pengambilan keputusan. Teknik-teknik yang clustering dan klasifikasi. Sesuai dengan penelitian
digunakan untuk pengekstrakan pengetahuan dalam yang sudah dilakukan oleh Varun Kumar bahwa
data mining adalah pengenalan pola, clustering, integrasi metode clustering dan klasifikasi
asosiasi, prediksi dan klasifikasi.
2354-645X/15 ©2015 39
memberikan tingkat akurasi yang maksimal dan Bayes hanya memerlukan sejumlah kecil data
memiliki robustness terhadap missing data. pelatihan untuk mengestimasi parameter yang
dibutuhkan untuk klasifikasi, Naïve Bayes dapat
II. Tinjauan Pustaka menangani nilai yang hilang dengan mengabaikan
Iterative Dichotomiser 3 (ID3) instansi selama perhitungan estimasi peluang,
Algoritma ID3 merupakan algoritma yang Naïve Bayes cepat dan efisiensi ruang
digunakan untuk membuat pohon keputusan.
Algoritma ini menggunakan konsep entropi infoasi. K-means
Dengan langkah kerja sebagai berikut : Algoritma K-means merupakan metode
1. Perhitungan information gain dari setiap atribut clustering yang paling sederhana dan umum. Ha ini
dengan menggunakan dikarenakan k-means mempunyai kemampuan
mengelompokkan data dalam jumlah cukup besar
dengan waktu komputasi yang cepat dan efisien. K-
means merupakan salah satu algoritma clustering
Dimana dengan metode partisia yang berbasis titik pusat.
Algoritma K-means memiliki alur sebagai
berikut (5) :
2. Pemilihan atribut yang memiliki nilai Langkah 1: Tentukan berapa banyak cluster k dari
information gain terbesar dataset yang akan dibagi.
3. Pembentukan simpul yang berisi atribut Langkah 2: teteapkan secara acak data k menjadi
tersebut pusat awal lokasi klaster.
4. Ulangi proses perhitungan information gain Langkah 3: untuk masing-masing data, temukan
akan terus dilakukan sampai semua data telah pusat cluster terdekat. Sehingga masing-masing
dimasukkan dalam kelas yang sama. Atribut pusat cluster memiliki sebuah subset dari dataset.
yang telah dipilih tidak diikutkan lagi dalam Yang mewakili bagian dari subset.
perhitungan information gain. Langkah 4: untuk masing-masing cluster k,
temukan pusat luasan cluster, dan perbaharui lokasi
Naïve Bayes dari masing-masing pusat cluster ke nilai baru dari
Model Naïve Bayes adalah klasifikasi pusat luasan.
statisttik yang dapat digunakan untuk memprediksi Langkah 5: ulangi langkah ke-3 dan ke-5 hingga
suatu kelas. Model Naïve Bayes dapat diasumsikan data-data pada tiap cluster menjadi terpusat atau
bahwa efek dari suatu nilai atribut sebuah kelas sesuai.
yang diberikan adalah bebas dari atribut-atribut Teknik Pengujian
lain. Confusion Matrix
Naive Bayes memiliki alur seperti pada Confusion matrix merupakan metode yang
gambar 1. menggunakan tabel matriks seperti pada Tabel 2.2,
jika data set hanya terdiri dari dua kelas, kelas yang
satu dianggap sebagai positif dan yang lainnya
negatif (Olson & Yong, 2008)
Tabel 1. Model Confusion Matrix (6)
True Class
Positive Negative
true false
Predicted Class
Positive positives negatives

count (TP) count (FP)
false true
Negative positives negatives
count (FN) count (TN)
True positives adalah jumlah record positif

yang diklasifikasikan sebagai positif, false
positives adalah jumlah record negatif yang
diklasifikasikan sebagai positif, false negatives
adalah jumlah record positif yang diklasifikasikan
sebagai negatif, true negatives adalah jumlah
Gambar 1. Alur Naive Bayes (4) record negatif yang diklasifikasikan sebagai
Kelebihan yang dimiliki oleh Naïve Bayes negative, kemudian masukkan data uji. Setelah data
adalah dapat menangani data kuantitatif dan data uji dimasukkan ke dalam confusion matrix. Setelah
diskrit, Naïve Bayes kokoh terhadap noise, Naïve data-data telah masuk ke dalam confusion matrix
40
maka dapat dihitung nilai-nilai sensitivity (recall),

specificity, precision dan accuracy. Untuk
menghitung digunakan persamaan di bawah ini
(Olson & Yong, 2008):
Ketika klasifikasi tidak menghasilkan

binary class, maka Confusion Matrix akan berubah
menjadi lebih konpleks. Contoh untuk klasifikasi
non binary diperlihatkan pada Table 2.3 untuk tiga
class dibawah ini :
Tabel 2. Confusion Matrix untuk Tiga Class: (a)
Actual dan (b) Expected (7)
Gambar 1 Model Crips-DM (10)

ROC Curve
ROC (Receiver Operating Characteristics) a. Bussiness Understanding
curve adalah pengujian berdasarkan performanya. Pada fase ini berfokus pada pemahaman dan
ROC mengekspresikan confusion matrix. Nilai dari perspektif bisnis proses dari suatu sistem. Yaitu
ROC curve hanya terdiri dari 0 sampai 1. Semakin penentuan tujuan proyek, menerjemahkan tujuan,
nilai ROC curve mendekati 1 maka akan semakin dan menyiapkan strategi untuk penyampaian
baik seperti diperlihatkan pada Tabel 2.4 tujuan.
b. Data Understanding
Tabel 3. Classfying the accuracy of diagnostic tes Pada fase ini berfokus pada pembelajaran data yang
(8) sudah ada, pengumpulan dan penyeleksian data.
0,90-1,00 Excellent Classification c. Data Preparation
Fase persiapan data adalah fase yang terdiri dari
0,80-0,90 Good Classification pemilihan data, pembersihan data,
mengintegrasikan data, dan transformasi data agar
0,70-0,08 Fair Classsification dapat dilanjutkan kedalam tahap pemodelan.
d. Modeling
0,60-0,70 Poor Classification Pada fase ini proses yang terjadi adalah pemilihan
model yang sesuai. Pemodelan disini dapat
0,50-0,60 Failure dikalibrasi agar mengoptimalkan hasil. Model
dengan klasifikasi dan integrasi clustering dengan
klasifikasi seperti terlihat pada gambar 3.2 dibawah
Ukuran Kehandalan Model ini.
Uji coba adalah salah satu cara untuk
mengevaluasi keandalan model. Uji coba dapat
dilakukan dengan membandingkan nilai prediksi
model dengan nilai sebenarnya. Model yang baik
adalah model yang mampu memberikan nilai
estimasi yang akurat, yaitu nilai y dugaan
mendekati nilai y observasi sehingga error
mendekati nol. Nilai RMSE (Root Mean Square
Error) yang semakin kecil menunjukkan model
semakin andal dalam memberikan prediksi (9).
Gambar 2 Framework metodelogi penelitian (1)
III. Metodologi Penelitian Model klasifikasi dimulai dari dataset akan

Metode CRISP-DM terdapat enam proses dilakukan pemodelan dengan algoritma klasifikasi
data mining seperti tergambarkan dalam Gambar 1 maka dihasilkan model klasifikasi dari model
berikut ini : klasifikasi ini akan muncul parameter evauasi
41
beserta akurasi dari model algoritma yang diamond, dan club. Sedangkan urutan kartu dimulai
diterapkan. dari as, 2, 3, dan seterusnya sampai king. Class
Model integrasi clustering dengan klasifikasi yang dihasilkan dari dataset ini adalah sebanyak 10
dimulai dari dataset akan dilakukan pemodelan class.
dengan algoritma clustering lalu menentukan
banyaknya jumlah cluster setelah didapat model Data Preparation
clustering maka dilanjutkan dengan algoritma Poker Hand Data Set memiliki sepuluh
klasifikasi setelah modelnya keluar maka akan atribut dan satu class output. Lima atribut dengan
muncul parameter evauasi beserta akurasinya. tipe data numerik dan lima atribut dengantipe data
e. Evaluasi ordinal. Semua atribut yang ada didalam Poker
pada phase ini akan dilakukan proses evaluasi dari Hand Data Set akan dipergunakan keseluruhannya
phase sebelumnya. Phase evaluasi ini akan yaitu sepuluh atribut dan satu atribut output.
dilakukan perbandingan quantitatif dengan Tahapan data preparation akan dilakukan
mempertimbangkan nilai akurasi, root mean square konversi tipe data agar data set dapat masuk ke
error (RMSE), ROC Curve dan waktu tahap selanjutnya yaitu tahap modelling. Yaitu
pembangunan model merubah atribut dengan tipe data numerik menjadi
f. Deployment ordinal.
Pada phase ini proses yang terjadi adalah
penyusunan laporan atau presentasi dari Modelling
pengetahuan yang didapat dari evaluasi pada proses Fase modelling akan dilakukan sesuai
data mining (11). dengan gambar 3.2 yaitu dibagi kedalam kempat
buah skenario yaitu skeario pertama pemodelan
IV. Hasil yang Dicapai dengan menggunakan klasifikasi yaitu dengan
Bussiness Understanding memanfaatkan algoritma decision tree (ID3),
Pada tahap ini dilakukan pada pemahaman skenario kedua menggunakan klasifikasi dengan
bisnis proses dari suatu sistem, yaitu penentuan memanfaatkan algoritma naive bayes, skenario
tujuan proyek, menterjemahkan tujuan dan keempat menggunakan integrasi clustering dengan
menyiapkan strategi untuk penyampaian tujuan. memanfaatkan algoritma k-mean dan klasifikasi
Akurasi merupakan kedekatan antara nilai dengan memanfaatkan algoritma decision tree
yang diamati serta nilai referensi atau standar yang (ID3) dan yang terakhir adalah skenario keempat
diterima. Nilai akurasi yang kurang mencerminkan yaitu integrasi clustering dengan menggunakan
adanya bias sistematis dalam sistem pengukuran algortima K-means dan klasifikasi dengan
diantaranya adalah penggunaan yang tidak memaanfaatkan algotima naive bayes. Skenario
sepantasnya. Akurasi diukur dengan jumlah tersebut dilakukan agar dapat mengetahui hasil
kesalahan dalam pengukuran dibandingkan dengan keakurasian.
proporsi pengukuran total (12).
Integrasi metode clastering dan klasifikasi Evaluation
dalam metode data mining dengan menggunakan Setetelah tahapan pemodelan dilakukan
volume data yang berbeda-beda bertujuan maka selanjutnya adalah tahapan evaluasi dengan
mendapatkan hasil akurasi dan presisi yang sama- melihat hasil dari tahapan pemodelan yang telah
sama besar sehingga dapat memenuhi standar yang dilakukan. Evaluasi yang dilakukan menggunakan
diterima ataupun yang diingnkan yaitu memiliki hasil akurasi, root mean square error (RMSE),
nilai akurasi dan presisi yang lebih besar ROC curve dan waktu pembangunan model.
dibandingkan dengan metode klasifikasi saja. Tabel 4. Hasil Evaluasi
Waktu
Akurasi Roc
Data Understanding dalam RMSE
dalam % Curve
Data diperoleh dari UCI Mechine Detik
Learning Repository (13). Data yang dipergunakan
Klasifikasi
ID3 97,80% 19,69 0,042 0,81

adalah data set yang memiliki jumlah volume yang
besar lebih dari 1000 instance yaitu Poker Hand
Naive
Data Set. Poker Hand Data Set disumbangkan oleh 98,62% 0,67 0,0471 0,986
Bayes
Robert Cattral pada Universitas Carleton Kanada
Integrasi Clustering
(14) dengan jumlah instance adalah 1.025.010,

& Klasifikasi
Jumlah Atribut 11, tidak memiliki missing value ID3 76,69% 43,72 0,1555 0,88
didonasikan tanggal 1 Januri 2007 dengan tipe
atribut adalah kategori dan integer. Setiap instance
didapat dari kartu yang didapat setiap dari lima Naive
90,41% 0,73 0,1371 0,996
orang pemain. Jumlah kartu terdiri dari 52 jenis Bayes
yang terdiri dari jenis dan urutan. Berdasar jenis
kartu terdiri dari 4 jenis yaitu spade, heart,
42
Deployment Evaluasi model yang telah dihasilkan didapat

Tahap terakhir dari metodologi CRIPS- bahwa yang memiliki akurasi tertinggi adalah
DM adalah tahap Deployment. Pada tahap ini akan skenario kedua yaitu metode klasifikasi dengan
dilakukan pembuatan laporan hasil kegiatan yang algoritma naive bayes dengan 98,62%, untuk waktu
sudah dilakukan. Laporan akhir mengenai pembentukan model yang paling cepat adalah
pengetahuan yang didapat. skenario keempat yaitu metode integrasi clustering
Dari hasil analisis yang telah dilakukan dengan algoritma K-means dan metode klasifikasi
dan telah dievaluasi maka didapatkan hasil bahwa dengan algoritma naive bayes dengan kecepatan
teknik klasifikasi dengan menggunakan algoritma 0,52 detik, untuk kehandalan model dengan
naive bayes memiliki akurasi yang lebih tinggi, memanfaatkan perhitungan RMSE didapat model
waktu pembangunan model lebih cepat, kehandalan yang paling handal adalah skenario pertama yaitu
yang baik dan memiliki kinerja yang baik jika klasifikasi dengan metode ID3 dengan nilai RMSE
dibandingkan dengan algoritma ID3. Hal ini adalah 0,042, dan yang terakhir evaluasi untuk
dikarenakan algoritma naive bayes merupakan mengetahui kinerja model yang telah dihasilkan
algoritma yang memiliki kelebihan kesederhanaan didapat bahwa skenario keempat yaitu integrasi
dan memiliki akurasi yang tinggi (15), selain itu metode clustering dengan algoritma k-means
naive bayes juga memiliki kecepatan dalam dengan metode klasifikasi dengan algoritma naive
pembuatan model (16), naive bayes juga adalah bayes merupakan model yang memiliki kinerja
salah satu algoritma klasifikasi yang mudah terbaik diantaraskenario yang lain dihitng dari nilai
digunakan (17). ROC curve yaitu dengan nilai 0,995 yang berada di
Sedangkan integrasi teknik clustering dan kelompok Excellent Classification.
klasifikasi yang telah dilakukan dengan algoritma Terdapat perbedaan hasil antara integrasi
K-means untuk clustering dan algoritma ID3 dan metode clustering dengan klasifikasi terhadap
Naive bayes didapatkan hasil yang tidak terlalu keakurasian, waktu pembentukan model,
bagus jika dibandingkan dengan teknik klasifikasi kehandalan model dan kinerja model yang telah
saja. Terlihat didalam hasil evaluasi akurasi yang dihasilkan
dihasilkan lebih menurun, waktu yang dibutuhkan
dalam pembangunan model juga memiliki waktu Daftar Pustaka
yang lebih lama, kehandalan model yang dihitung
dengan menggunakan RMSE juga memiliki nilai 1. Knowledge Discovery from Database Using an
yang lebih tinggi, dan untuk kinerja klasifikasi Integration of Clustering and Classification.
yang dihitung dengan ROC Curve hanya di Varun, Kumar and Nisha, Rathee. 2011,
algoritma naive bayes saja yang mengalami International Journal of Advanced Computer
peningkatan, tetapi untuk algoritma ID3 justru Science and Applications (IJACSA), Vol. 2 No.
mengalamai penurunan. Ini disebabkan karena 3, p. 29.
algoritma ID3 ketidakstabilannya dalam melakukan 2. Defiyanti, Sofi and Pardede, D. L. Crispina.
klasifikasi data apabila terjadi sedikit perubahan Perbandingan Kinerja Algoritma ID3 dan C4.5
pada data training (18). Selain itu penggunaan Dalam Klasifikasi Spam-Mail. Depok :
teknik clustering menggunakan algoritma k-means Universitas Gunadarma, 2010.
tidak terlalu cocok dengan jenis data yang di 3. Defiyanti, Sofi. Analisis dan Prediksi Prestasi
gunakan dalam penelitian ini dikarenakan Belajar Mahasiswa Menggunakan Teknik Data
penelitian ini menggunakan data kategorikal Mining Study Kasus Fasilkom UNSIKA.
sedangkan k-means lebih unggul digunakan untuk Karawang : Universitas Singaperbangsa
data yang numerik, ini merupakan kelemahan dari Karawang, 2013.
algoritma k-means yaitu bekerja baik pada atribut 4. Penerapan Algoritma Naive Bayes untuk
numerik (19). Mengklasifikasikan Data Nasabah Asuransi.
V. Kesimpulan Bustami. Aceh : TECHSE Jurnal Penelitian
Integrasi metode klasifikasi dan clustering dalam Teknik Informatika.
data mining dengan memanfaatkan algoritma ID3 5. Irwansyah, Edy. Advance Clustering : Teori
dan naive bayes untuk teknik klasifikasi dan dan Aplikasi. jakarta : Bina Nusantara
algoritma K-means untuk teknik clustering University, 2015. 978-602-280-500-7.
menggunakan poker hand dataset dengan 11 atribut 6. Olson, David and Yong, Shi. Pengantar Ilmu
yang diantaranya adalah 10 sebagai atribut input Penggalian Data Bisnis (Chriswan Sungkono,
dan 1 atribut sebagai atribut output atau class. Penerjemah). Jakarta : Selemba Empat, 2008.
Dengan jumlah data sebesar 1.025.010 dan tidak 7. Witten, Ian H. Eibe, Frank and Hall, Mark A.
ada nilai missing value. Dilakukan dengan baik Data Mining Practical Machine Learning Tools
dengan memanfaatkan metodologi CRIPS-DM. and Techniques Third Edition. s.l. : The morgan
Pengujicobaan terhadap penelitian integrasion Kaufman Series in data Management Systems,
metode clustering dengan klasfikasi menggunakan 2011.
10 fold cross validation.
43
8. Gorunescu, Florin. Data Mining Concepts, 23. Perancangan Sistem Pendukung Keputusan
Model and Techniques. s.l. : Springer, 2011. (SPK) untuk Menentukan Kelaiklautan Kapal.
9. Nawari. Analisis Regresi. Jakarta : PT Elex Bambang Setiawan, Raden Sjarief Widjaja,
Media Komputindo, 2010. Setyo Nugroho. Surabaya : Prosiding Seminar
10. Nisbet, Robet, Elder IV, John and Liner, Nasional Manajemen Teknologi X, 2009. 978-
Gary. Handbook of Statictical Analysis and 979-99735-8-0.
Data Mining Applications. s.l. : Elsevier Inc,
2009.
11. Budiman, Irwan. Data Clustering
Menggunakan Metodologi CRIPS-DM untuk
pengenalan Pola Proporsi Pelaksanaan
Thidharma. Semarang : Program Pasca Sarjana
Universitas Diponegoro , 2012.
12. Evans, James R and Lindsay, William M. An
Introduction to Six Sigma & Process
Improvment. Singapore : Thomson, 2007.
13. Aha, David, Asuncion, Arthur and Newman,
David. UCI Machine Learning Repository. UCI
Machine Learning Repository. [Online] April
Rabu, 2015.
http://archive.ics.uci.edu/ml/index.html.
14. Cattral, Robert. Poker Hand Data Set. UCI
Machine Learning Repository. [Online] April
Rabu, 2015.
https://archive.ics.uci.edu/ml/datasets/Poker+Ha
nd.
15. Rish, Irna. IBM Research Report "An
Empirical Study of the Naive Bayes Classifier".
s.l. : IBM Research DIvision, 2001.
16. Klasifikasi Teks dengan Naive Bayes Classifier
(NBC) untuk Pengelompokan Teks Berita dan
Abstract Akademis. Hamzah, Amir.
Yogyakarta : akprind Yogyakarta, 2012.
Prosiding Seminar Nasional Aplikasi Sains &
Teknologi (SNAST) Periode III. pp. B-269.
17. Dunham, Margret. Data Mining :
Introductory and Advance Topic. s.l. : Pearson
Education, 2006.
18. Perancangan Sistem Pendukung Keputusan
(SPK) untuk Menentukan Kelaiklautan Kapal.
Setiawan, Bambang, Widjaja, Raden Sjarief
and Nugroho, Setyo. Surabaya : Program Studi
MMT-ITS, 2009. Prosiding Seminar Nasional
Manajemen Teknologi X. pp. C-14-1.
19. Berkhin, Pavel. A Survey of Clustering Data
Mining Techniques. Grouping
Multidimensional Data. s.l. : Springer, 2006,
pp. 25-71.
20. Turban, E, Aronson, J.E and Liang, T.
Decision Support System and Intelligent
System. Upper Saddle River : Pearson
Education Inc, 2005.
21. Matteucci, Mateo. Clustering An Introduction.
Milan : Politecnico, Milano, 2002.
22. Root Mean Square Error (RMSE) or Mean
Absolute Error (MAE)? Argument Against
Avoiding RMSE in The Literature. Chai, T and
Draxler, R. 2014, Geoscientific Model
Development, p. 1247.
44
View publication stats

Metode Klasifikasi Dan Clustering Dalam Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Metode Klasifikasi Dan Clustering Dalam Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Integrasi Metode Klasiﬁkasi Dan Clustering dalam Data Mining

Conference Paper · January 2015

Sofi Defiyanti Mohamad Jajuli

SEE PROFILE SEE PROFILE

Web Mining for Curricula Recomendation View project

Integration of Clustering and Classification Method View project

The user has requested enhancement of the downloaded file.

Integrasi Metode Klasifikasi Dan Clustering

Positive positives negatives

True positives adalah jumlah record positif

maka dapat dihitung nilai-nilai sensitivity (recall),

Ketika klasifikasi tidak menghasilkan

Gambar 1 Model Crips-DM (10)

Gambar 2 Framework metodelogi penelitian (1)

III. Metodologi Penelitian Model klasifikasi dimulai dari dataset akan

ID3 97,80% 19,69 0,042 0,81

(14) dengan jumlah instance adalah 1.025.010,

Deployment Evaluasi model yang telah dihasilkan didapat

View publication stats

Anda mungkin juga menyukai