a. Data Preprocessing adalah proses manipulasi dataset sebelum diinput kedalam model.
Tujuan Preprocessing adalah
1. Compatibility, Preprocess data agar kompatibel dengan library yang digunakan. Contoh
TensorFlow memerlukan inputan bukan file excels.
2. Categorical Data, Preprocess data non numerical seperti jenis kelamin, status pernikahan,
setuju atau tidak setuju. Contoh : Kita memiliku produk fashion dengan kategori kaos, celana
dan topi.
Ada 2 pendekatan yaitu Binary Encoding dan One Hot Encoding
Binary Encoding
Yaitu mengubah nilai ordinal menjadi 2 variabel dengan binary coding yaitu
Pada baris Biner 1 = 0 1, Baris 2 = 1 0, Baris 3 = 11.
One Hot Encoding akan membuat variable sebanyak jumlah kategori. Masih
dengan contoh fashion diatas maka akan dibuat variable misalnya dengan nama
kaos, celana dan topi.
Setelah Dataset didownload dari link yang tertera, maka saya mencoba memasukkan dataset
tersebut kedalam Aplikasi Weka. Namun karena extension dataset yang didapat tidak komatibel
dengan dengan WEKA, maka saya merubah iris.data menjadi iris.arff. Setelah dirubah barulah
saya masukkan ke dalam aplikasi WEKA.
Gambar. Tampilan Preprocess
Pada Atribut Class Iris Setosa terdapat 3 label yaitu Iris Setosa , Iris Versicolor dan Iris Virginica.
Pada label tersebut ditandai dengan warna yaitu Iris Setosa = Biru, Iris Versicolor = Merah , dan
Iris Virginica = Abu-abu.
Warna tersebut akan menjadi tanda bahwa Class Iris-Setosa ada di 4 Atribut Lain. Maka ketika di
visulisasikan semuanya akan tampil seperti berikut ini :
Gambar. Tampilan Visualize All
Kemudian saya melakukan klasifikasi dengan beberapa model seperti Naïve Bayes, OneR dan
TreeJ48. Dibawah ini adalah hasil klasifikasi dari model Naïve Bayes.
Pada hasil klasifikasi diatas menunjukan bahwa tingkat keakuratan pengklasifikasian dengan
model Naïve Bayes yaitu sebesar 94.6 % (141 instances dari 149 instance yang ada).
Saya juga mencoba melakukan pengklasifikasian dengan menggunakan model OneR. Dibawah
ini adalah hasil klasifikasi dari model OneR.
Gambar. Tampilan Hasil Klasifikasi dengan Model OneR
Pada hasil klasifikasi diatas menunjukan bahwa tingkat keakuratan pengklasifikasian dengan
model OneR yaitu sebesar 91.9 % (137 instances dari 149 instance yang ada).
Yang terakhir saya mencoba melakukan pengklasifikasian dengan menggunakan model Tree J48.
Dibawah ini adalah hasil klasifikasi dari model Tree J48 .
Pada hasil klasifikasi diatas menunjukan bahwa tingkat keakuratan pengklasifikasian dengan
model Tree J48 yaitu sebesar 95.3 % (142 instances dari 149 instance yang ada).
Dibawah ini adalah hasil visualisasi pengklasifikasian dengan model Tree J48.
1. Bunga yang mempunyai 0,2 (Lebar Mahkota Bunga) kurang dari sama dengan 0,6 yaitu
Bunga Iris Setosa (sebanyak 49 instances),
2. Bunga yang mempunyai 0,2 (Lebar Mahkota Bunga) lebih dari sama dengan 0,6 akan
diklasifikasikan apakah memiliki Panjang Mahkota Bunga lebih dari atau kurang dari sama
dengan 1.7 ?
3. Pada Visualisasi Tree diatas menunjukkan bahwa yang memiliki Panjang Mahkota Bunga
lebih dari sama dengan 1.7 yaitu Bunga Iris Virginica (sebanyak 46 instances).
4. Yang memiliki Panjang Mahkota Bunga kurang dari sama dengan 1.7 akan diklasifikasikan
apakah mempunyai Lebar Kelopak Bunga lebih dari atau kurang dari sama dengan 4.9 ?
5. Pada Visualisasi Tree diatas menunjukkan bahwa yang memiliki Lebar Kelopak Bunga
kurang dari sama dengan 4.9 yaitu Bunga Iris Versicolor (sebanyak 48 instances).
6. Selanjutnya yang memiliki Lebar Kelopak Bunga lebih dari 4.9 akan diklasifikasikan apakah
mempunyai Panjang Mahkota Bunga kurang dari sama dengan atau lebih dari 1.5 ?
7. Pada Visualisasi Tree diatas menunjukkan bahwa yang memiliki Panjang Mahkota Bunga
kurang dari sama dengan 1.5 yaitu Bunga Iris Virginica (sebanyak 3 instances). Dan yang
memiliki Panjang Mahkota Bunga lebih dari 1.5 yaitu Bunga Iris Versicolor (sebanyak 3
instances).
Pada hasil uji coba pengklasifikasian dataset Iris Setosa diatas maka urutan model berdasarkan
tingkat keakuratannya adalah :
1. Tree J48 yaitu sebesar 95.3 % (142 instances dari 149 instance yang ada).
2. Naïve Bayes yaitu sebesar 94.6 % (141 instances dari 149 instance yang ada).
3. One R yaitu sebesar 91.9 % (137 instances dari 149 instance yang ada).