Disusun oleh :
Klasifikasi/Supervised Learning
Tujuan Klasifikasi adalah untuk memprediksi secara akurat kelas target untuk setiap
kasus dalam data. Misalnya, model klasifikasi dapat digunakan untuk
mengidentifikasi pemohon pinjaman sebagai risiko kredit rendah, sedang atau tinggi.
Pembelajaran dengan guru, data set memiliki target/tabel/class
Fitur merupakan properties yang ada pada sebuah record (sample), misal pemohon
pinjaman mempunyai fitur seperti: usia, status marital, pendidikan terakhir, dsb.
Algoritma melahkukan proses belajar bedasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variabel prediktor.
Data training dilengkapi dengan label yang menunjukan class dari data yang sedang
diobservasi.
Data baru, nantinya akan diklasifikasikan mengacu pada model yang dihasilkan dari
data training.
Klasifikasi data dibagi menjadi dua
- Binary Classification: Dua kelas saja, contoh : sehat-sakit, lulus-tinggal
kelas.
- Multi Classification : Lebih dari tiga kelas contoh : Resiko rendah-sedang
tinggi.
Saat pembuatan model, perhatikan jumlah tiap class jika:
- Perbandingan 50:50, 60:40, 70:30, = Maka class normal.
- Perbandingan 80:20, 90:10, = Class Imbalance (Perlu dilahkukan operasi
lebih lanjut).
Decision Tree adalah salah satu metode klasifikasi yang paling populer karena mudah
diinterprestasi oleh manusia. Decision Tree adalah model prediksi menggunakan struktur
pohon atau struktur berhirarki.
Kelebihan :
Kekurangan :
Kelebihan :
Kekurangan :
Kelebihan :
Kekurangan :
1. Tidak stabil, karena modifikasi kecil seperti menghapus beberapa records akan
meningkatkan atau mengurangi kompleksitas tree
2. Membuat split node meski hanya 1 variabel
Decision Tree
Salah satu cara untuk membuat decision tree adalah dengan menggunakan algoritma
ID3 (Interative dichotomiser 3)
Entropy : keragaman
Dimana :
c = jumlah kelas
S = keputusan
Pi = rasio antara jumlah sampel dikelas i dengan semua sampel pada himpunan data.