Laporan Tugas 3 PDF

LAPORAN TUGAS 3
DATA MINING
NAMA : FERIAL WILLY S

NIM
: 1008107020050
JURUSAN INFORMATIKA
FAKULTAS MIPA
UNIVERSITAS SYIAH KUALA
PENDAHULUAN
Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala karuniaNya saya
dapat menyelesaikan tugas 3 ini sebagai salah satu syarat mata kuliah Data Mining. Tugas 3 ini
tentang keakurasian dataset WDBC dan Abalone.
Klasifikasi adalah suatu proses pembelajaran secara terbimbing (supervised learning). Untuk
setiap melakukan klasifikasi, dibutuhkan training set sebagai data pembelajaran. Setiap sampel dari
training set memiliki atribut dan klas label. Oleh karena itu Pada tugas 3 ini, ditugaskan untuk
melakukan perhitungan akurasi dengan menggunakan perangkat lunak WEKA untuk kasus klasifikasi
dataset WDBC dan Abalone. Dataset WSDL memiliki total 569 sampel dan dataset abalone memiliki
4177 sampel. Pada kedua dataset ini dipecah file arff hasil dari tugas 2 menjadi 2 file ( WDBCtraining.arff dan WDBC-testing.arff serta abalone-training.arff dan abalone-testing.arff). Jumlah
sampel yang harus ada dalam file WDBC dan Abalone training.arff adalah sebanyak 75% sd 80% dari
total sampel yang dipilih secara acak sedangkan jumlah sampel yang harus ada dalam file WDBC dan
Abalone testing.arff adalah sebanyak kurang lebih 20% sd 25%.
Dalam melakukan proses klasifiksi, Set parameter yang saya gunakan adalah set parameter k=3,
k=5, k=7, k=9, dan k=11 dengan nilai parameter distanceWeighting = no distance weighting dan nilai
parameter distanceWeighting = Weight by 1/distance.
PEMISAHAN DATASET WDBC

(WDBC-TRAINING dan WDBC-TESTING)
Dalam melakukan pemisahan dataset WDBC, saya menggunakan dua alat bantu yaitu TEXT
MECHANIC TOOL MENU dan perangkat lunak Gsplit. Adapun cara kerjanya sebagai berikut :
Pertama tama hasil dari tugas 2 yang berbentuk file arff data dari WDBC di copy dan
dipastekan di TEXT MECHANIC TOOL MENU yang bisa didapatkan melalui link
http://textmechanic.com/Sort-Text-Lines.html.
Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah
didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.
Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.
Kemudian saya buka original file masukkan data WDBC yang telah dirandom di text
mechanic
Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff
WDBC
Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified
pattern dan pilih split after the occurrence number. Karena 75% training set pada WDBC dan
WDBC memiliki total sampel 569 maka saya bulatkan menjadi 427 data sampel split after the
occurrence numbernya. (75/100.569)
Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan
{ore}
Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu
terakhir klik split. Maka didapatlah pemisahan file arff WDBC yang telah di random. File
dengan ukuran yang besar dinamakan WDBC-training dan file dengan ukuran yang lebih
kecil dinamakan WDBC-testing.
Hasil Untuk Setiap Parameter K dan distanceWeighting

Setelah didapatkan dua pemisahan file arff WDBC buka perangkat lunak WEKA open file pada
WDBC-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk
(Lazy/KNN) pilih Supplied test set pada set masukkan file WDBC-testing yang fungsinya untuk
menguji keakuratan hasil klasifikasi pada WDBC kemudian klik tombol start. Berikut adalah hasil
untuk setiap parameter K dan distanceWeighting.
No distance weighting
K=3
43 diklasifikasikan sebagai M ,97 diklasifikasikan sebagai B, 0 data diduga sebagai M ternyata

adalah B serta 2 data diduga sebagai B ternyata adalah M. precision 0.987, recall 0.986 dan F-measure
0,986.
K=5
42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diduga sebagai M ternyata adalah

B serta 1 data diduga sebagai B ternyata adalah M. Precision 0.986, recall 0.986, dan F-measure
0.986.
K=7
43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

ternyata adalah B dan 2 data yang diklasifikasikan B ternyata adalah M. precision 0.987, recall 0.986
dan F-measure 0.986.
K=9
42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diklasifikasikan sebagai M

ternyata adalah B dan 1 data yang diklasifikasikan B ternyata adalah M. precision 0.986, recall 0.986
dan F-measure 0.986.
K=11

ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.993,
recall 0.993 dan F-measure 0.993.
Weight By 1 Distance
K=3

ternyata adalah B, dan 2 data yang diklasifikasikan sebagai B ternyata adalah M. precision 0.987,
K=5

ternyata adalah B, dan 1 data yang diklasifikasikan sebagai B ternyata adalah M. Precision 0.986,
K=7

K=9

K=11

Jadi kesimpulan yang dapat saya ambil dari dataset WDBC dilihat dari F-Measure nya adalah nilai
parameter No distance weighting merupakan nilai akurasi yang paling baik karena lebih mendekati ke
satu.
PEMISAHAN DATASET ABALONE

(ABALONE-TRAINING dan ABALONE-TESTING)
Dalam melakukan pemisahan dataset Abalone, saya menggunakan dua alat bantu yaitu TEXT
MECHANIC TOOL MENU dan perangkat lunak Gsplit. Pada dataset Abalone ini untuk atribut jenis
kelamin tidak saya ikut sertakan sedangkan nilai Ring umur Abalone diganti dengan A, B , dan C agar
untuk mendapatkan metode klasifikasi KNN (distance-based), jadi atribut dari data harus bersifat
continuous. Adapun cara kerjanya sebagai berikut :
Pertama-tama umur abalone (1-8) diganti dengan kelas A, (9-10) diganti dengan kelas B, dan
(11-29) diganti dengan kelas C
Setelah berbentuk file arff data dari Abalone di copy dan dipastekan di TEXT MECHANIC
TOOL MENU yang bisa didapatkan melalui link http://textmechanic.com/Sort-TextLines.html.
Setelah itu random sesuka hati pada tugas ini saya mengrandom nya sebanyak 3 kali setelah
didapatkan hasil random saya copy dan pastekan ke notepad serta simpan dalam format arff.
Buka perangkat lunak Gsplit yang fungsinya untuk memisahkan data training dan data testing.
Kemudian saya buka original file masukkan data Abalone yang telah dirandom di text
mechanic
Setelah itu Destination folder klik browse pilih tempat penyimpanan untuk pemisahan file arff
Abalone
Kemudian saya pilih Type and Size pilih I want to split after the nth occurrence of a specified
pattern dan pilih split after the occurrence number. Karena 75% training set pada Abalone dan
Abalone memiliki total sampel 4177 maka saya bulatkan menjadi 3133 data sampel split
after the occurrence numbernya. (75/100.4177)
Setelah itu saya klik filenames kemudian pada Piece Name Mask isikan {num}, {orf}, dan
{ore}
Kemudian klik other properties contreng Do not add Gsplit tags to piece files setelah itu
terakhir klik split. Maka didapatlah pemisahan file arff Abalone yang telah di random. File
dengan ukuran yang besar dinamakan Abalone-training dan file dengan ukuran yang lebih
kecil dinamakan Abalone-testing.
Hasil Untuk Setiap Parameter K dan distanceWeighting

Setelah didapatkan dua pemisahan file arff Abalone buka perangkat lunak WEKA open file
pada Abalone-training klik menu classify pada weka, choose klasifikasi menggunakan Classifier IBk
(Lazy/KNN) pilih Supplied test set pada set masukkan file Abalone-testing yang fungsinya untuk
menguji keakuratan hasil klasifikasi pada Abalone kemudian klik tombol start. Berikut adalah hasil
untuk setiap parameter K dan distanceWeighting.
No Distance Weighting
K=3
256 diklasifikasikan sebagai A, 140 diklasifikasikan sebagai B, dan 192 diklasifikasikan sebagai C.
Precision 0.557, recall 0.563 dan F-measure 0.558.
K=5
K=7
K=9
K=11
Weight By 1 Distance
K=3
K=5
K=7
K=9
K=11
Jadi kesimpulan yang dapat saya ambil dari dataset Abalone dilihat dari F-Measure nya adalah nilai
parameter No distance weighting merupakan nilai akurasi yang paling baik.

Laporan Tugas 3 PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Laporan Tugas 3 PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

LAPORAN TUGAS 3

NAMA : FERIAL WILLY S

PEMISAHAN DATASET WDBC

Hasil Untuk Setiap Parameter K dan distanceWeighting

43 diklasifikasikan sebagai M ,97 diklasifikasikan sebagai B, 0 data diduga sebagai M ternyata

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diduga sebagai M ternyata adalah

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data diklasifikasikan sebagai M

43 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data yang diklasifikasikan sebagai M

43 diklasifikasikan sebagai M, 97 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

42 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 1 data yang diklasifikasikan sebagai M

43 diklasifikasikan sebagai M, 98 diklasifikasikan sebagai B, 0 data yang diklasifikasikan sebagai M

PEMISAHAN DATASET ABALONE

Hasil Untuk Setiap Parameter K dan distanceWeighting

Anda mungkin juga menyukai