Oleh :
Fandi Pratama (14.01.53.0116)
Alfun Adam (14.01.53.0109)
Riva Ayu G (14.01.53.0104)
1) Kelas (class) atau label kelas yaitu variabel dependen dari model
yang merupakan variabel kategori yang menjelaskan sebuah 'label'
pada objek setelah proses klasifikasi. Contoh : loyalitas pelanggan
(label : loyal / tidak loyal), kelas bintang (galaksi), dll.
2) Prediktor (predictor) atau atribut (attribute) yaitu variabel
independen dari model yang diwakili oleh karakteristik (atribut) dari
data yang akan diklasifikasikan dan berdasarkan klasifikasi yang
dibuat. Contoh prediktor tersebut adalah: merokok, konsumsi
alkohol, tekanan darah, frekuensi pembelian, status perkawinan, dan
kecepatan angin, musim, dll.
3) Training set atau dataset latihan (training dataset) yaitu merupakan
kumpulan data yang berisi nilai-nilai atau record untuk dua
komponen sebelumnya (kelas dan prediktor / atribut) dapat berupa
variabel kontinyu maupun kategoris, dan digunakan untuk 'pelatihan'
atau pembangunan model untuk menyesuaikan dengan kelasnya
berdasarkan prediktor yang tersedia. Contoh set tersebut adalah:
kelompok pasien diidentifikasi pada kasus serangan jantung
berdasarkan faktor-faktor yang mempengaruhinya, kelompok
pelanggan dari supermarket, dll.
4) Dataset pengujian (testinging dataset) yaitu berisi data baru yang
akan diklasifikasikan oleh model klasifikasi (classifier) dan untuk
mengukur tingkat akurasi klasifikasi (kinerja model) sehingga
performansi model klasifikasi dapat dievaluasi.
Model dalam klasifikasi antara lain yaitu (Bertalya, 2009) :
1) Pemodelan Deskriptif
Sebagai alat penggambaran yang bersifat menjelaskan untuk
membedakan objek-objek dari kelas yang berbeda.
2) Pemodelan Prediktif
Pemodelan prediktif digunakan untuk memprediksi label kelas untuk
record yang belum diketahui.
1.1.2 Algoritma Klasifikasi
Pada teknik klasifikasi terdapat beberapa algoritma klasifikasi yang dapat
digunakan, antara lain: pohon keputusan (decision tree), rule based,
neural network, support vector machine, naive bayes, rough set, dan
nearest neighbour.
c ) Entropy
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat
mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample
S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam
mengekstraksi suatu kelas.
Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu data.
Panjang kode untuk menyatakan informasi secara optimal adalah p2log− bits
untuk messages yang mempunyai probabilitas p.
Untuk menghitung information gain, terlebih dahulu kita harus memahami
suatu ukuran lain yang disebut Entropy. Entropy biasa digunakan sebagai
sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu
kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka
semakin besar nilai entropy. Secara matematis, nilai entropy masing-masing
instance dirumuskan sebagai berikut :
Keterangan :
S = ruang (data) sample yang digunakan untuk training.
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk
kriteria tertentu.
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample
untuk kriteria tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:
d) Information Gain
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka
dapat diukuer efektifitas suatu atribut dalam mengklasifikasikan data. Ukuran
efektifitas ini disebut Information Gain. Secara matematis, information gain
dari suatu atribut, dituliskan sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam
entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma
menghitung information gain pada setiap atribut. Atribut dengan nilai gain
terbesar dipilih sebagai tes atribut (simpul akar). Simpul A dibuat dan
dilabelkan dengan atribut, cabang dibuat untuk setiap nilai atribut.
Untuk menyelesaikannya kita misal atribut IPK kita ubah menjadi 3 nilai
diskrit dengan membentuk interval “bagus“=[3,00-4,00], “cukup“=[2,75-
3,00] lalu kembali dengan melanjutkan langkah-langkah selanjutnya.
4.1 IMPLEMENTASI
Install package – package yang dibutuhkan sesuai yang ada program
install.packages("party")
Jalankan juga library nya
library(party)
Gambar 1 (R Console)
Gambar 2 (R Console)
Script Program untuk menampilkan Grafik Emotion Categories (Gambar 6)
# Plot the tree.
plot(output.tree)
Gambar 3 (R Graphics)
BAB V
KESIMPULAN DAN REKOMENDASI
5.1 KESIMPULAN
Penelitian menggunakan metode klasifikasi decision tree ini cukup efektif untuk
mengklasifikasi data sesuai kebutuhan.
Dari pohon keputusan yang ditunjukkan di atas dapat kita simpulkan bahwa
siapa saja yang nilai readingSkills kurang dari 38,3 dan usia lebih dari 6
bukanlah Pembicara asli / penutur asli ( bahasa itu ).
5.2 REKOMENDASI
Untuk perusahaan / instansi / komunitas yang ingin atau sedang mengklasifikasi
kan data bisa menggunakan metode decision tree ini, karena untuk hasil cukup
mudah dalam pengelompokkan data nya.
DAFTAR PUSTAKA
https://www.researchgate.net/publication/315904431_DECISION_TREE_LEARNIN
G_UNTUK_PENENTUAN_JALUR_KELULUSAN_MAHASISWA