Anda di halaman 1dari 14

LAPORAN TUGAS 3

DATA MINING

NAMA : FERIAL WILLY S


NIM

: 1008107020050

JURUSAN INFORMATIKA
FAKULTAS MIPA
UNIVERSITAS SYIAH KUALA

PENDAHULUAN
Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala karuniaNya saya
dapat menyelesaikan tugas 3 ini sebagai salah satu syarat mata kuliah Data Mining. Tugas 3 ini
tentang keakurasian dataset WDBC dan Abalone.
Klasifikasi adalah suatu proses pembelajaran secara terbimbing (supervised learning). Untuk
setiap melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran. Setiap sampel dari
training set memiliki atribut dan klas label. Oleh karena itu Pada tugas 3 ini, ditugaskan untuk
melakukan perhitungan akurasi dengan menggunakan perangkat lunak WEKA untuk kasus klasifikasi
dataset WDBC dan Abalone. Dataset WSDL memiliki total 569 sampel dan dataset abalone memiliki
4177 sampel. Pada kedua dataset ini dipecah file arff hasil dari tugas 2 menjadi 2 file ( WDBCtraining.arff dan WDBC-testing.arff serta abalone-training.arff dan abalone-testing.arff). Jumlah
sampel yang harus ada dalam file WDBC dan Abalone training.arff adalah sebanyak 75% sd 80% dari
total sampel yang dipilih secara acak sedangkan jumlah sampel yang harus ada dalam file WDBC dan
Abalone testing.arff adalah sebanyak kurang lebih 20% sd 25%.
Dalam melakukan proses klasifiksi, Set parameter yang saya gunakan adalah set parameter k=3,
k=5, k=7, k=9, dan k=11 dengan nilai parameter distanceWeighting = no distance weighting dan nilai
parameter distanceWeighting = Weight by 1/distance.

PEMISAHAN DATASET WDBC


(WDBC-TRAINING dan WDBC-TESTING)
Dalam melakukan pemisahan dataset WDBC, saya menggunakan dua alat bantu yaitu TEXT
MECHANIC TOOL MENU dan perangkat lunak Gsplit. Adapun cara kerjanya sebagai berikut :

Pertama tama hasil dari tugas 2 yang berbentuk file arff data dari WDBC di copy dan
dipastekan di TEXT MECHANIC TOOL MENU yang bisa didapatkan melalui link
http://textmechanic.com/Sort-Text-Lines.html.

Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah
didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.

Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.

Kemudian saya buka original file masukkan data WDBC yang telah dirandom di text
mechanic

Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff
WDBC

Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified
pattern dan pilih split after the occurrence number. Karena 75% training set pada WDBC dan
WDBC memiliki total sampel 569 maka saya bulatkan menjadi 427 data sampel split after the
occurrence numbernya. (75/100.569)

Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan
{ore}

Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu
terakhir klik split. Maka didapatlah pemisahan file arff WDBC yang telah di random. File
dengan ukuran yang besar dinamakan WDBC-training dan file dengan ukuran yang lebih
kecil dinamakan WDBC-testing.

Hasil Untuk Setiap Parameter K dan distanceWeighting


Setelah didapatkan dua pemisahan file arff WDBC buka perangkat lunak WEKA open file pada
WDBC-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk
(Lazy/KNN) pilih Supplied test set pada set masukkan file WDBC-testing yang fungsinya untuk
menguji keakuratan hasil klasifikasi pada WDBC kemudian klik tombol start. Berikut adalah hasil
untuk setiap parameter K dan distanceWeighting.

No distance weighting
K=3

43 diklasifikasikan sebagai M ,97 diklasifikasikan sebagai B, 0 data diduga sebagai M ternyata


adalah B serta 2 data diduga sebagai B ternyata adalah M. precision 0.987, recall 0.986 dan F-measure
0,986.
K=5

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diduga sebagai M ternyata adalah


B serta 1 data diduga sebagai B ternyata adalah M. Precision 0.986, recall 0.986, dan F-measure
0.986.

K=7

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M


ternyata adalah B dan 2 data yang diklasifikasikan B ternyata adalah M. precision 0.987, recall 0.986
dan F-measure 0.986.
K=9

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diklasifikasikan sebagai M


ternyata adalah B dan 1 data yang diklasifikasikan B ternyata adalah M. precision 0.986, recall 0.986
dan F-measure 0.986.
K=11

43 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M


ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.993,
recall 0.993 dan F-measure 0.993.
Weight By 1 Distance
K=3

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M


ternyata adalah B, dan 2 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.987,
recall 0.986 dan F-measure 0.986.
K=5

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data yang diklasifikasikan sebagai M


ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.986,
recall 0.986 dan F-measure 0.986.
K=7

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M


ternyata adalah B, dan 2 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.987,
recall 0.986 dan F-measure 0.986.
K=9

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data yang diklasifikasikan sebagai M


ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.986,
recall 0.986 dan F-measure 0.986.
K=11

43 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M


ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.993,
recall 0.993 dan F-measure 0.993.

Jadi kesimpulan yang dapat saya ambil dari dataset WDBC dilihat dari F-Measure nya adalah nilai
parameter No distance weighting merupakan nilai akurasi yang paling baik karena lebih mendekati ke
satu.

PEMISAHAN DATASET ABALONE


(ABALONE-TRAINING dan ABALONE-TESTING)
Dalam melakukan pemisahan dataset Abalone, saya menggunakan dua alat bantu yaitu TEXT
MECHANIC TOOL MENU dan perangkat lunak Gsplit. Pada dataset Abalone ini untuk atribut jenis
kelamin tidak saya ikut sertakan sedangkan nilai Ring umur Abalone diganti dengan A, B , dan C agar
untuk mendapatkan metode klasifikasi KNN (distance-based), jadi atribut dari data harus bersifat
continuous. Adapun cara kerjanya sebagai berikut :

Pertama-tama umur abalone (1-8) diganti dengan kelas A, (9-10) diganti dengan kelas B, dan
(11-29) diganti dengan kelas C

Setelah berbentuk file arff data dari Abalone di copy dan dipastekan di TEXT MECHANIC
TOOL MENU yang bisa didapatkan melalui link http://textmechanic.com/Sort-TextLines.html.

Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah
didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.

Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.

Kemudian saya buka original file masukkan data Abalone yang telah dirandom di text
mechanic

Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff
Abalone

Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified
pattern dan pilih split after the occurrence number. Karena 75% training set pada Abalone dan
Abalone memiliki total sampel 4177 maka saya bulatkan menjadi 3133 data sampel split
after the occurrence numbernya. (75/100.4177)

Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan
{ore}

Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu
terakhir klik split. Maka didapatlah pemisahan file arff Abalone yang telah di random. File
dengan ukuran yang besar dinamakan Abalone-training dan file dengan ukuran yang lebih
kecil dinamakan Abalone-testing.

Hasil Untuk Setiap Parameter K dan distanceWeighting


Setelah didapatkan dua pemisahan file arff Abalone buka perangkat lunak WEKA open file
pada Abalone-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk
(Lazy/KNN) pilih Supplied test set pada set masukkan file Abalone-testing yang fungsinya untuk

menguji keakuratan hasil klasifikasi pada Abalone kemudian klik tombol start. Berikut adalah hasil
untuk setiap parameter K dan distanceWeighting.
No Distance Weighting
K=3

256 diklasifikasikan sebagai A, 140 diklasifikasikan sebagai B, dan 192 diklasifikasikan sebagai C.
Precision 0.557, recall 0.563 dan F-measure 0.558.
K=5

268 diklasifikasikan sebagai A, 153 diklasifikasikan sebagai B, dan 185 diklasifikasikan sebagai C.
Precision 0.577, recall 0.58 dan F-measure 0.576.
K=7

262 diklasifikasikan sebagai A, 152 diklasifikasikan sebagai B, dan 194 diklasifikasikan sebagai C.
Precision 0.579, recall 0.582 dan F-measure 0.58.
K=9

263 diklasifikasikan sebagai A, 154 diklasifikasikan sebagai B, dan 200 diklasifikasikan sebagai C.
Precision 0.587, recall 0.591 dan F-measure 0.588.

K=11

269 diklasifikasikan sebagai A, 168 diklasifikasikan sebagai B, dan 206 diklasifikasikan sebagai C.
Precision 0.614, recall 0.616 dan F-measure 0.614.

Weight By 1 Distance
K=3

241 diklasifikasikan sebagai A, 150 diklasifikasikan sebagai B, dan 202 diklasifikasikan sebagai C.
Precision 0.567, recall 0.568 dan F-measure 0.567.

K=5

255 diklasifikasikan sebagai A, 144 diklasifikasikan sebagai B, dan 198 diklasifikasikan sebagai C.
Precision 0.569, recall 0.572 dan F-measure 0.57.
K=7

254 diklasifikasikan sebagai A, 151 diklasifikasikan sebagai B, dan 203 diklasifikasikan sebagai C.
Precision 0.581, recall 0.582 dan F-measure 0.582.

K=9

258 diklasifikasikan sebagai A, 152 diklasifikasikan sebagai B, dan 208 diklasifikasikan sebagai C.
Precision 0.589, recall 0.592 dan F-measure 0.59.
K=11

261 diklasifikasikan sebagai A, 156 diklasifikasikan sebagai B, dan 216 diklasifikasikan sebagai C.
Precision 0.603, recall 0.606 dan F-measure 0.604.
Jadi kesimpulan yang dapat saya ambil dari dataset Abalone dilihat dari F-Measure nya adalah nilai
parameter No distance weighting merupakan nilai akurasi yang paling baik.

Anda mungkin juga menyukai