Anda di halaman 1dari 7

PERBANDINGAN KLASIFIKASI KNN DAN NAIVE BAYESIAN SERTA

PERBANDINGAN CLUSTERING SIMPLE K-MEANS YANG MENGGUNAKAN


DISTANCE FUNCTION MANHATTAN DISTANCE DAN EUCLIDIAN DISTANCE
PADA DATASET Dresses_Attribute_Sales

Mirza Triyuna Putra


Mahasiswa Jurusan Informatika
Fakultas Matematika dan Ilmu Pengetahuan Alam
Universitas Syiah Kuala
KOPELMA Darussalam Banda Aceh 23111
Telp (+62)85213783445
Email : mirzatriyuna@s1.informatika.unsyiah.ac.id
Tugas Ujian Tengah Semester (UTS)
Data Mining Lanjut

ABSTRAK
Klasifikasi merupakan metode analisis data yang digunakan untuk membentuk model yang
mendeskripsikan kelas data yang penting, atau model yang memprediksikan trend data. Pada
klasifikasi ini data yang digunakan yaitu dresses_atribut_sales yang terdiri dari 14 class diantaranya
style, price, rating, size, dan lain-lain yang terkait dengan atribut model pakaian. Klasifikasi yang
akan digunakan sebagai perbandingan hasil yaitu K-Nearest Neighbor (KNN) Classifier dan Naive
Bayesian Classifier. Hasil summary dari kedua klasifikasi akan menentukan jenis klasifikasi mana
yang lebih cocok diterapkan pada dataset tersebut. Selain itu, akan dilakukan juga perbandingan
hasil clustering metode Simple K-Means yang menggunakan algortima distance function Manhattan
Distance dan Euclidian Distance. Perbandingan clustering dilakukan untuk melihat perbedaan
pembagian kelas pada kedua function tersebut. Software pendukung yang digunakan adalah Weka.
Kata Kunci : knn classifier, naive bayesian klassifier, simple k-means, manhattan distance, euclidian
distance, dresses_atribut_sales..

Klasifikasi adalah proses pembelajaran

1. PENDAHULUAN
1.1. Latar Belakang
Perkembangan data mining (DM) yang

secara terbimbing (supervised learning) [1].


Klasifikasi Naive Bayesian Adalah metode

pesat tidak terlepas dari perkembangan

classifier yang berdasarkan probabilitas dan

teknologi informasi yang memungkinkan data

Teorema Bayesian dengan asumsi bahwa

dalam jumlah besar terakumulasi. Seiring

setiap

dengan semakin dibutuhkannya data mining,

(independence)

muncul beberapa algoritma untuk memproses

merupakan

Data dalam jumlah besar, diantaranya yaitu

jumlah

besar

juga

kedekatan-kedekatan

bebas

Klasifikasi

KNN

klasifikasi

yang

[2].

metode

neighbor dalam traing set [3].

dapat

Clustering

dikelompokkan ke dalam beberapa bagian


berdasarkan

bersifat

baru berdasarkan class yang mayoritas dari k-

Naive Bayesian classifier. Selain klasifikasi,


dalam

menentukan label (class) dari suatu objek

K-Nearest Neightbor (KNN) Classifier dan

data

variabel

pengelompokan

yang

adalah

suatu

berdasarkan

metode
ukuran

kedekatan (kemiripan) [4]. Salah satu jenis

dimiliki. Agar data- data tersebut dapat

algoritma yang dapat digunakan pada metode

dikelompokkan dengan mudah, salah satu

ini yaitu Simple K-Means. Pada algortima

algortima yang dapat digunakan yaitu simple

simple k-means sendiri terdapat teknik

K-Means.

pengelompokan dengan

empat fungsi core, yaitu chebyshevDistance,

paling dekat dengan objek tersebut. Data

ManhattanDistance, dan EuclidianDistance.

pembelajaran

ManhattanDistance dan EuclidianDistance

berdimensi banyak, dimana masing-masing

merupakan fungsi core yang paling sering

dimensi merepresentasikan fitur dari data.

digunakan dan memberikan hasil lebih baik

Ruang ini dibagi menjadi bagian-bagian

dibandingkan dua fungsi core lainnya.

berdasarkan klasifikasi data pembelajaran.

Perbandingan

ke

ruang

klasifikasi

Nilai k yang terbaik untuk algoritma

dilakukan untuk menentukan jenis klasifikasi

ini tergantung pada data; secara umumnya,

yang paling cocok digunakan dengan data

nilai k yang tinggi akan mengurangi efek

yang memiliki class atribut dan kategori

noise pada klasifikasi, tetapi membuat

atribut seperti dataset dresses_atribut_sales.

batasan antarasetiap klasifikasi menjadi lebih

Sedangkan perbandingan metode clustering

kabur. Nilai k

dilakukan

perbedaan

dengan optimasi parameter, misalnya dengan

pengelompokan terhadap data yang sama

menggunakan cross-validation. Kasus khusus

dengan metode k-means dan hanya dibedekan

di mana klasifikasidiprediksikan berdasarkan

fungsi core yang digunakan.

data pembelajaran yang paling dekat (dengan

untuk

metode

diproyeksikan

melihat

yang bagus dapat dipilih

kata lain, k = 1) disebut algoritma nearest


neighbor. [5]

1.2. Rumusan Permasalahan


Perumusan masalah pada penulisan
paper

ini

didasarkan

pada

bagaimana

2.2. Naive Bayesian Classifier

perbandingan dua metode klasifikasi dan dua

Nave Bayes adalah metode Bayesian

fungsi core clustering terhadapa dataset

Learning yang paling cepat dan sederhana.

dresses_atribut_sales.

demikian,

Hal ini berasal dari teorema Bayes dan

perumusan masalah yang akan dibahas dalam

hipotesis kebebasan, menghasilkan klasifier

paper ini adalah sebagai berikut :

statistik berdasarkan peluang. Ini adalah

1. Bagaimana perbandingan hasil klasifikasi

teknik sederhana, dan harus digunakan

Dengan

KNN dan Naive Bayesian terhadap dataset

sebelum

dresses_atribut_sales?

kompleks.

2. Bagaimana perbandingan hasil clustering

mencoba

metode

yang

lebih

Nave Bayes dapat dirumuskan sebagai

Simple K-Means dengan fungsi core

berikut : [6]

ManhattanDistance dan EuclidianDistance?

P(A|B) =

1.3. Batasan Permasalahan

(|)()
.........................(1)
()

Batasan masalah dalam papaer ini

2.3. K-Means Clustering


Clustering adalah proses membuat

adalah metode klasifikasi yang digunakan

pengelompokan, sehingga semua anggota

hanya dua saja, yaitu KNN classifier dan

dari tiap partisi mempunyai persamaan

Naive Bayesian classifier.

berdasarkan matrik tertentu. Sebuah klaster


adalah sekumpulan objek yang digabung

2. LANDASAN TEORI
2.1. K-Nearest Neigtbor Classifier
(k-NN atau KNN) adalah sebuah

bersama

metode untuk melakukanklasifikasi terhadap

karena

persamaan

kedekatannya.

Clustering

persamaannya

adalah

atau

berdasarkan
teknik

yang

mentranslasi ukuran yang intuitif menjadi

objek berdasarkan data pembelajaran yang

ukuran yang kuantitatif [7].

jaraknya

3. PEMBAHASAN
3.1. Klasifikasi Metode Naive Bayesian
Metode klasifikasi Naive Bayesian
menggunakan dua data, yaitu training set
untuk menghasilkan model dan testing set
untuk menguji keakuratan hasil klasifikasi.
Data training set diambil 80% dari total data
secara keseluruhan, sedangkan data testing set
diambil 20% sisa dari data secara
keseluruhan.
Berikut tampilan data training set
beserta hasil setelah diklasifikasi dengan
metode Naive Bayes :

Waiseline

56.6416 %

43.3584 %

Material

42.3559 %

57.6441 %

FabricType

54.8872 %

45.1128 %

Decoration

44.8622 %

55.1378 %

PatternType

47.8697 %

52.1303 %

Tabel 3.1. Summary Correctly dan


Incorrectly Classified Instance Training set

Dari hasil di atas terlihat bahwasanya


hampir semua class, tingkat kebenaran
klasifikasinya berkisar diantara 36-56%.
Precission

Recall

Style

0.405

0.498

FMeasure
0.416

Price

0.493

0.55

0.507

Size

0.403

0.473

0.424

Season

0.318

0.364

0.323

Neckline

0.429

0.544

0.472

Nama Class

Gambar 3.1. Tampilan klasifikasi training set

Sleeve
Length
Waiseline

0.38

0.453

0.405

0.494

0.566

0.515

Material

0.347

0.424

0.378

FabricType

0.459

0.549

0.49

Decoration

0.333

0.449

0.371

PatternType

0.426

0.479

0.416

Tabel 3.2. Precission, Recall dan F-Measure


Training set

Tabel di atas menampilkan average


(nilai rata-rata) dari hasil Precission, Recall
dan F-Measure tiap-tiap class. Nilai Precission
berkisar pada rentang 31-49%, nilai Recall
berada pada rentang 36-56%, dan nilai FMeasure pada rentang 37-51%.

Gambar 3.2. Hasil klasifikasi Naive Bayesian


terhadap class atribut style training set

Berikut tampilan data testing set


beserta hasil setelah diklasifikasi dengan
metode Naive Bayes :

Dataset
Dresses_Atribut_sales
memiliki 11 class fitur bertype nominal,
berikut tabel summary dari kesebelas class
bertype nominal yang terdapat pada dataset
dresses :

Style

Correctly
Classified
Instances
49.75 %

Incorrectly
Classified
Instances
50.25 %

Price

55.0251 %

44.9749 %

Size

47.25 %

52.75 %

Season

36.4322 %

63.5678 %

Neckline

54.386 %

45.614 %

SleeveLength

45.25 %

54.75 %

Nama Class

Gambar 3.3. Tampilan klasifikasi testing set

Berikut tampilan summary


kesebelas class pada testing set :

dari

Tabel di atas menampilkan average


(nilai rata-rata) dari hasil Precission, Recall
dan F-Measure tiap-tiap class. Nilai
Precission berkisar pada rentang 25%-61%,
nilai Recall berada pada rentang 30-67%, dan
nilai F-Measure pada rentang 27-62%.
3.2. Klasifikasi Metode KNN
Sama halnya seperti klasifikasi naive
bayesian, metode klasifikasi KNN juga
menggunakan dua data, yaitu training set dan
testing set. Data testing digunakan untuk
menguji keakuratan hasil. Data training set
diambil 80% dari total data secara
keseluruhan, sedangkan data testing set
diambil 20% sisa dari data secara
keseluruhan.
Berikut tampilan hasil klasifikasi
KNN terhadap data training set.

Gambar 3.4. Hasil klasifikasi Naive Bayesian


Terhadap class atribut style testing set

Style

Correctly
Classified
Instances
42 %

Incorrectly
Classified
Instances
58 %

Price

44 %

56 %

Size

35 %

65 %

Season

30 %

70 %

Neckline

44 %

56 %

SleeveLength

44 %

56 %

Waiseline

62 %

38 %

Material

39 %

61 %

FabricType

67 %

33 %

Decoration

45 %

55 %

PatternType

35 %

64 %

Nama Class

Gambar 3.5. Hasil klasifikasi KNN


Terhadap class atribut style training set

Tabel 3.3. Summary Correctly dan


Incorrectly Classified Instance Testing set

Berikut
tabel
Correctly
Incorrectly classified instance
dihasilkan dari tiap-tiap class :

Dari hasil di atas terlihat bahwasanya


hampir semua class, tingkat kebenaran
klasifikasinya berkisar diantara 30-67%.

Style

Correctly
Classified
Instances
36 %

Incorrectly
Classified
Instances
63 %

0.39

Price

48 %

51 %

0.35

0.305

Size

40 %

60 %

0.256

0.3

0.273

Season

24 %

75 %

0.376

0.44

0.406

Neckline

40 %

60 %

Sleeve
Length
Waiseline

0.374

0.44

0.404

53 %

46 %

0.565

0.62

0.577

Sleeve
Length
Waiseline

28 %

71 %

Material

0.326

0.39

0.349

Material

45 %

54 %

FabricType

0.617

0.67

0.627

FabricType

34 %

65 %

Decoration

0.32

0.45

0.368

Decoration

34 %

65 %

PatternType

0.358

0.42

0.386

PatterbType

36 %

63 %

Precission

Recall

Style

0.325

0.42

FMeasure
0.359

Price

0.355

0.44

Size

0.283

Season
Neckline

Nama Class

Nama

dan
yang

Class

Tabel 3.4. Precission, Recall dan F-Measure


Testing set

Tabel 3.5. Summary Correctly dan Incorrectly


Classified Instance KNN Training set

Dari hasil di atas terlihat bahwasanya hampir


semua class, tingkat kebenaran klasifikasinya
berkisar diantara 28-53%.
Precission

Recall

Style

0.373

0.363

FMeasure
0.367

Price

0.488

0.482

0.484

Size

0.396

0.4

0.397

Season

0.249

0.249

0.248

Neckline

0.43

0.436

0.432

Sleeve
Length
Waiseline

0.402

0.398

0.399

0.523

0.531

0.524

Material

0.276

0.283

0.279

FabricType

0.453

0.456

0.451

Decoration

0.369

0.348

0.358

PatternType

0.355

0.341

0.347

Nama Class

Season

28 %

72 %

Neckline

38 %

62 %

Sleeve
Length
Waiseline

42 %

58 %

49 %

51 %

Material

44 %

56 %

FabricType

56 %

44 %

Decoration

29 %

71 %

PatternType

40 %

60 %

Tabel 3.7. Summary Correctly dan


Incorrectly Classified Instance Testing set

Dari hasil di atas terlihat bahwasanya


hampir semua class, tingkat kebenaran
klasifikasinya berkisar diantara 28-56%.
Precission

Recall

Style

0.365

0.38

FMeasure
0.371

Price

0.338

0.35

0.344

Size

0.324

0.29

0.305

Season

0.284

0.28

0.278

Neckline

0.404

0.38

0.391

Sleeve
Length
Waiseline

0.421

0.42

0.42

0.448

0.49

0.467

Material

0.415

0.44

0.426

FabricType

0.535

0.56

0.542

Decoration

0.296

0.29

0.293

PatternType

0.402

0.4

0.398

Nama Class

Tabel 3.6. Precission, Recall dan F-Measure


Klasifikasi KNN Training set

Tabel di atas menampilkan average


(nilai rata-rata) dari hasil Precission, Recall
dan F-Measure tiap-tiap class. Nilai
Precission berkisar pada rentang 24%-52%,
nilai Recall berada pada rentang 24-53%, dan
nilai F-Measure pada rentang 24-52%.
Berikut tampilan data testing set
beserta hasil setelah diklasifikasi dengan
metode KNN :

Tabel 3.8. Precission, Recall dan F-Measure


Klasifikasi KNN Testing set

Tabel di atas menampilkan average


(nilai rata-rata) dari hasil Precission,
Recall dan F-Measure tiap-tiap class.
Nilai Precission berkisar pada rentang
28%-53%, nilai Recall berada pada
rentang 28-56%, dan nilai F-Measure
pada rentang 27-54%.
Gambar 3.5. Hasil klasifikasi KNN
Terhadap class atribut style testing set

3.3. Clustering K-Means


ManhattanDistance

Berikut tabel Correctly dan


Incorrectly classified instance yang
dihasilkan dari tiap-tiap class :
Nama

Style

Correctly
Classified
Instances
38 %

Incorrectly
Classified
Instances
62 %

Price

35 %

65 %

SIze

29 %

71 %

Class

Pada proses clustering, data yang


digunakan yaitu data secara keseluruhan /
100% dari dataset Dresses_atribut_sales.
Nilai yang dibedakan untuk menguji hasil
cluster yaitu numCluster dari tiap-tiap tes.
Berikut akan ditampilkan hasil cluster
berdasarkan numCluster.

grp
1
2
3
4
5
6

nc
2
39

nc
3
29

nc
4
16

nc
5
13

nc
6
13

61

46

41

28

29

25

17

19

19

26

24

18

15

12

Precission, Recall, dan F-Measure Testing


set :
61%, 67%, 62% (Naive Bayesian)
53%, 56%, 54% (KNN)
2. Berdasarkan hasil di atas, sebenarnya
tingkat keakuratan hasil dari kedua
metode jauh dari baik. Hal ini karena
hasil correct data jauh dari 100%.
Akan tetapi, model yang dihasilkan
dapat dikatakan baik, karena hasil
pengujian dari training set dan testing
set meghasilkan persentase yang relatif
pada rentang yang sama.
3. Jika ditinjau dari nilai precission,
Recall, dan F-Measure hasilnya juga
tidak bisa dikatakan baik. Hal ini juga
karena nilai yang dihasilkan jauh dari
100%.
4. Hasil Clustering :
Jika ditinjau dari hasil clustering
yang dilakukan, terlihat bahwasanya
pembagian kelas-kelas oleh metode
K-Means
dengan
algoritma
ManhattanDistance
dan
EuclidianDistance
memiliki
kemiripan.
Kemiripan
yang
dimaksud
yaitu
pada
setiap
numCluster memiliki urutan nilai
terbesar ke terkecil pada kelas yang
sama. Hanya saja, nilai yang
dihasilkan menunjukkan sedikit
perbedaan.

Tabel 3.9. Pembagian grup hasil cluster


ManhattanDistance

Tabel di atas menampilkan hasil


clustering dengan nilai numCluster yang dari
2 s.d. 6. Hasil yang ditampilkan dalam bentuk
persentase secara keseluruhan.

Clustering K-Means
EuclidianDistance
Selain

menggunakan

algoritma

manhattanDistance percobaan juga dilakukan


pada algortima EuclidianDistance untuk
membandingkan hasil dari kedua algortima.
Berikut akan ditampilkan hasil dari clustering
EuclidianDistance.
grp
1
2
3
4
5
6

nc
2
41

nc
3
31

nc
4
22

nc
5
11

nc
6
9

59

47

37

35

26

22

15

17

22

26

24

20

13

14

5. KESIMPULAN DAN SARAN


5.1. Kesimpulan

Tabel 3.10. Pembagian grup hasil cluster


EuclidianDistance

Berdasarkan hasil pembahasan dan


analisa pada bab sebelumnya, dapat
ditarik beberapa kesimpulan sebagai
berikut :
1. Pemilihan metode terbaik adalah yang
mempunyai tingkat akurasi yang tinggi
dan juga dipastikan simpangan
bakunya yang cenderung lebih kecil.
Dari data yang terangkum di atas,
metode yang lebih baik untuk dataset
Dresses_atribute_sales yaitu Naive
Bayesian. Meskipun perbedaan yang
dihasilkan tidak terlalu jauh berbeda,
baik dari correctly dan incorrectly
classified instance maupun nilai
precission, recall, dan F-Measure.
2. Karena dataset dresses memiliki 3
class yang bernilai numerik, jika ingin

4. PEMBAHASAN DAN ANALISA


Berdasarkan hasil pengujian pada bab
sebelumnya, dapat dibahas dan dianalisa
beberapa hal sebagai berikut.
1. Hasil klasifikasi Training set :
36-56 % (Naive Bayesian)
28-53 % (KNN)
Hasil klasifikasi Testing set :
37-67 % (Naive Bayesian)
28-56 % (KNN)
Precission, Recall, dan F-Measure
Training set :
49%, 56%, 51% (Naive Bayesian)
52%, 53%, 52% (KNN)

Melihat hasil klasifikasi yang bernilai


numerik, maka harus digunakan metode
KNN.
3. Metode K-Means cluster yang diterapkan
pada percobaan ini, menghasilkan
pembagian kelas yang relatif sama antara
algoritma
manhattanDistance
dan
EuclidianDistance.

6.DAFTAR PUSTAKA
[1] Abidin, Taufik Fuadi, Naive Bayesian
Classifier, Jurusan Informatika Unsyiah,
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah
[2]

5.2. Saran
Saran-saran yang bisa disampaikan
dari hasil perobaan ini adalah sebagai berikut
:
1. Untuk melihat dataset yang memiliki
nilai class bertipe numerik, digunakan
metode yang support terhadap data
numerik. Dalam kasus ini yaitu KNN.
2. Jika ingin melihat data bertype nominal
(nom), menurut hasil percobaan ini
metode Naive Bayesian menghasilkan
summary yang sedikit leih baik.
3. Metode clustering K-Means dengan
algoritma ManhattanDistance dan
EuclidianDistance menghasilkan kelas
yang realtif sama, akan tetapi untuk
hasil yang akurat perlu dilakukan
penelitian yang lebih mendalam.
4. Perlu penelitian yang lebih mendalam
untuk menarik kesimpulan secara akurat
tehadap kedua masalah yang diangkat.

Abidin, Taufik Fuadi, Accuracy


Measure; Preciisiion, Recallll & FMeasure, Jurusan Informatika Unsyiah
bahan kuliah Data Mining program study
Informatika FMIPA-Unsyiah

[3] DMIR, K-Nearest Neighbor Classifier,


Data Mining adn Information Retrievl
Research Grup, Jurusan Matematika
FMIPA-Unsyiah
[4] Striyanto, Edi, Clustering, Electronic
Engineering Polytechnic Institute of
Surabaya (EEPIS)
[5]

Peace, Alifah, Metode KNN,


http://www.academia.edu/3660286/
Tgs_proposal

[6] A.W, Ebranda, Mardiani, Tinaliah,


Penerapan Metode Naive Bayes untuk
Sistem Klasifikasi SMS pada Smartphone
Android, Teknik Informatika STMIK
MDP
[7] Yunita, Analisis dan Implementasi
Clustering Data Kategori Menggunakan
Metode scaLable InforMation Bottleneck (
LIMBO ), Tugas Akhir.

Anda mungkin juga menyukai