DECISION TREE
Oleh :
Nama : Rahmat.s
Nim: 219350025
2022
BAB I
PENDAHULUAN
1) Kelas (class) atau label kelas yaitu variabel dependen dari model
yang merupakan variabel kategori yang menjelaskan sebuah 'label'
pada objek setelah proses klasifikasi. Contoh : loyalitas pelanggan
(label : loyal / tidak loyal), kelas bintang (galaksi),dll.
2) Prediktor (predictor) atau atribut (attribute) yaitu variabel
independen dari modelyang diwakili oleh karakteristik (atribut) dari
data yang akan diklasifikasikan dan berdasarkan klasifikasi yang
dibuat. Contoh prediktor tersebut adalah: merokok, konsumsi
alkohol, tekanan darah, frekuensi pembelian, status perkawinan, dan
kecepatan angin, musim,dll.
3) Training set atau dataset latihan (training dataset) yaitu merupakan
kumpulan datayang berisi nilai-nilai atau record untuk dua
komponen sebelumnya (kelas dan prediktor / atribut) dapat berupa
variabel kontinyu maupun kategoris, dan digunakan untuk
'pelatihan' atau pembangunan model untuk menyesuaikan dengan
kelasnya berdasarkan prediktor yang tersedia. Contoh set tersebut
adalah: kelompok pasien diidentifikasi pada kasus serangan jantung
berdasarkan faktor-faktor yang mempengaruhinya, kelompok
pelanggan dari supermarket, dll.
4) Dataset pengujian (testinging dataset) yaitu berisi data baru yang
akan diklasifikasikan oleh model klasifikasi (classifier) dan untuk
mengukur tingkat akurasi klasifikasi (kinerja model) sehingga
performansi model klasifikasi dapatdievaluasi.
Model dalam klasifikasi antara lain yaitu (Bertalya, 2009) :
1) PemodelanDeskriptif
Sebagai alat penggambaran yang bersifat menjelaskan untuk
membedakan objek-objek dari kelas yang berbeda.
2) PemodelanPrediktif
Pemodelan prediktif digunakan untuk memprediksi label kelas untuk
record yang belum diketahui.
1.1.2 AlgoritmaKlasifikasi
Pada teknik klasifikasi terdapat beberapa algoritma klasifikasi yang
dapat digunakan, antara lain: pohon keputusan (decision tree), rule
based, neural network, support vector machine, naive bayes, rough set,
dan nearest neighbour.
c ) Entropy
Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat
mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang
sample S.
Entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Semakin kecil nilai Entropy maka semakin baik untuk digunakan dalam
mengekstraksi suatu kelas.
Entropi adalah suatu parameter untuk mengukur heterogenitas dari suatu
data. Panjang kode untuk menyatakan informasi secara optimal adalah
p2log− bits untuk messages yang mempunyai probabilitas p.
Untuk menghitung information gain, terlebih dahulu kita harus memahami
suatu ukuran lain yang disebut Entropy. Entropy biasa digunakan sebagai
sautu parameter untuk mengukur heterogenitas (keberagaman) dari suatu
kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka
semakin besar nilai entropy. Secara matematis, nilai entropy masing-masing
instance dirumuskan sebagaiberikut :
Keterangan :
S = ruang (data) sample yang digunakan untuktraining.
P(+) = jumlah yang bersolusi positif (mendukung) pada data sample untuk
kriteria tertentu.
P(-) = jumlah yang bersolusi negatif (tidak mendukung) pada data sample
untuk kriteria tertentu.
Sedangkan untuk nilai entropy masing-masing atribut dirumuskan dengan:
d) InformationGain
Setelah mendapatkan nilai entropy untuk suatu kumpulan sampel data, maka
dapat diukuer efektifitas suatu atribut dalam mengklasifikasikan data.
Ukuran efektifitas ini disebut Information Gain. Secara matematis,
information gain dari suatu atribut, dituliskan sebagai berikut:
Dengan kata lain, Gain (A) adalah reduksi yang diharapkan dalam
entropy yang disebabkan oleh pengetahuan nilai pada atribut A. Algoritma
menghitung information gain pada setiap atribut. Atribut dengan nilai gain
terbesar dipilih sebagai tes atribut (simpul akar). Simpul A dibuat dan
dilabelkan dengan atribut, cabang dibuat untuk setiap nilaiatribut.
3.2.1 PreprocessingData
Tahap awal yang dilakukan sebelum proses klasifikasi adalah
melakukan preprocessing data, terdapat beberapa langkah
preprocessing data, yaitu :
a. Data Integrasi
Data Integrasi merupakan penggabungan data dari beberapa
sumber. Dalam metode klasifikasi data integrase dilakukan
dengan mengumpulkan beberapa data yang berasal dari beberapa
departemen di sebuah perusahaan untuk mendapatkan satu
database yang akan digunakan untuk pengolahan pada
metodeklasifikasi.
b. Data Cleaning
Data cleaning merupakan suatu pemrosesan terhadap data untuk
menghilangkan noise dan penanganan terhadap missing value pada
suatu record.
c. Data Diskretisasi
Data diskretisasi merupakan proses membuat kelas – kelas data
(range) untuk parameter dalam melakukan transformasi untuk
tahapan berikutnya.
d. TransformasiData
Pada data dapat dilakukan generalisasi menjadi data dengan level
yang lebih tinggi. Misalnya dengan
melakukandiskretisasiterhadapatributdengannilaikontinyu.Pembela
jaranterhadapdatahasilgeneralisasidapatmengurangikompleksitas
pembelajaran yang harus dilakukan karena ukuran data yang harus
diproses lebihkecil.
e. DataReduksi
Data reduksi merupakan proses mengurangi data atau variable yang
tidak memiliki hubungan atau korelasi dengan tujuan
penelitian.Dalam menggunakan metode klasifikasi, data reduksi
dilakukan dengan melakukan uji independensi chi square untuk
mengetahui ada tidaknya hubungan atribut dengan label kelas.
4.1 IMPLEMENTASI
Install package – package yang dibutuhkan sesuai yang ada program
install.packages("party")
Jalankan juga library nya
library(party)
Gambar 1 (R Console)
Gambar 2 (R Console)
Script Program untuk menampilkan Grafik Emotion Categories(Gambar 6)
# Plot the tree.
plot(output.tree)
Gambar 3 (R Graphics)
BAB V
KESIMPULAN DAN REKOMENDASI
5.1 KESIMPULAN
Penelitian menggunakan metode klasifikasi decision tree ini cukup efektif
untuk mengklasifikasi data sesuai kebutuhan.
Dari pohon keputusan yang ditunjukkan di atas dapat kita simpulkan bahwa
siapa saja yang nilai readingSkills kurang dari 38,3 dan usia lebih dari 6
bukanlah Pembicara asli / penutur asli ( bahasa itu ).
5.2 REKOMENDASI
Untuk perusahaan / instansi / komunitas yang ingin atau sedang
mengklasifikasi kan data bisa menggunakan metode decision treeini, karena
untuk hasil cukup mudah dalam pengelompokkan data nya.
DAFTAR PUSTAKA