Anda di halaman 1dari 5

TUGAS 9 : Kecerdasan Bisnis (E-Learning)

Dosen Pengampu : Anita Ratnasari, S.KOM, M.KOM

Disusun oleh :

Ahmad Nanjar Argianto – 41818010096

PROGRAM STUDI SISTEM INFORMASI


FAKULTAS ILMU KOMPUTER
UNIVERSITAS MERCUBUANA
JAKARTA
2021
DATA MINING (DECISION TREE)

Klasifikasi/Supervised Learning

 Tujuan Klasifikasi adalah untuk memprediksi secara akurat kelas target untuk setiap
kasus dalam data. Misalnya, model klasifikasi dapat digunakan untuk
mengidentifikasi pemohon pinjaman sebagai risiko kredit rendah, sedang atau tinggi.
 Pembelajaran dengan guru, data set memiliki target/tabel/class

 Fitur merupakan properties yang ada pada sebuah record (sample), misal pemohon
pinjaman mempunyai fitur seperti: usia, status marital, pendidikan terakhir, dsb.
 Algoritma melahkukan proses belajar bedasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variabel prediktor.
 Data training dilengkapi dengan label yang menunjukan class dari data yang sedang
diobservasi.
 Data baru, nantinya akan diklasifikasikan mengacu pada model yang dihasilkan dari
data training.
 Klasifikasi data dibagi menjadi dua
- Binary Classification: Dua kelas saja, contoh : sehat-sakit, lulus-tinggal
kelas.
- Multi Classification : Lebih dari tiga kelas contoh : Resiko rendah-sedang
tinggi.
 Saat pembuatan model, perhatikan jumlah tiap class jika:
- Perbandingan 50:50, 60:40, 70:30, = Maka class normal.
- Perbandingan 80:20, 90:10, = Class Imbalance (Perlu dilahkukan operasi
lebih lanjut).

Pengenalan Decision Tree

Decision Tree adalah salah satu metode klasifikasi yang paling populer karena mudah
diinterprestasi oleh manusia. Decision Tree adalah model prediksi menggunakan struktur
pohon atau struktur berhirarki.

Terdapat tiga jenis decision tree yang umum digunakan :

 ID3 menggunakan information gain terbesar

 C 4.5 menggunakan gain ratio

 CART menggunakan gini index


Kelebihan Decision Tree

1. Dibandingkan dengan algoritma lain, pohon keputusan memerlukan lebih sedikit


upaya untuk persiapan data selama pra-pemrosesan (preprocesing).
2. Pohon keputusan tidak memerlukan normalisasi data
3. Pohon keputusan juga tidak memerlukan penskalaan data (scaling data).
4. Nilai yang hilang dalam data juga TIDAK mempengaruhi proses membangun pohon
keputusan sampai batas tertentu.
5. Model pohon keputusan sangat inituitif dan mudah dijelaskan kepada tim teknis serta
pemangku kepentingan.

Kekurangan Decision Tree

1. Perhitungan matematis dari pohon keputusan sebagian besar membutuhkan lebih


banyak memori dan waktu.
2. Reproduksibilitas model pohon keputusan sangat sensitif karena perubahan kecil
pada data dapat menghasilkan perubahan besar dalam struktur pohon.
3. Kompleksitas ruang dan waktu dari model pohon keputusan relatif lebih tinggi.
4. Waktu pelatihan model pohon keputusan relatif lebih banyak karena kompleksitasnya
tinggi.
5. Pohon keputusan tunggal seringkali merupakan pembelajar yang lemah sehingga
kami membutuhkan sekelompok pohon keputusan untuk disebut RANDOM FOREST
untuk prediksi yang lebih baik
6. Algoritma Decision Tree tidak memadai untuk menerapkan regresi dan memprediksi
nilai kontinu.

Decision Tree : ID3 Information Gain

Kelebihan :

1. Aturan prediksi yang bisa dipahami dibuat dari data pelatihan.


2. Dapat membuat tree dengan cepat
3. Tree cukup pendek
4. Hanya butuh mengetest atribut hingga data terklasifikasi
5. Menemukan node daun membuat test data dapat dengan mudah di pruned (potong),
sehingga mengurangi jumlah test

Kekurangan :

1. Jika sample test kecil, maka kemungkinan akan overfriting.


2. Hanya satu atribut pada suatu waktu yang diuji untuk membuat keputusan
3. Klasifikasi dengan nilai continuous bisa sangat mahal karena tree akan dibuat begitu
banyak untuk melihat dimanakah harus berhenti

Decision Tree : C4.5 Gain Ratio

Kelebihan :

1. Digunakan untuk data tipe diskrit dan kontinu


2. Dapat menghandle data yang fiturnya hilang
3. Setelah tree selesai, C4.5 akan kembali keatas dan menghapus node yang tidak
dipakai

Kekurangan :

1. Sering membuat cabang yang kosong


2. Karena terlalu fokus pada data training, maka C4.5 rawan overfitting jika ada data
noise.

Decision Tree : CART Gini Index

Kelebihan :

1. Digunakan untuk data tipe kategorikal dan numerical


2. Tidak masalah mengenai distribusi data
3. Outlier/Noise tidak begitu berimbas pada model pembelajaran
4. Variabel (fitur) yang penting akan dipertahankan, dan yang tidak penting akan
dihapus.

Kekurangan :

1. Tidak stabil, karena modifikasi kecil seperti menghapus beberapa records akan
meningkatkan atau mengurangi kompleksitas tree
2. Membuat split node meski hanya 1 variabel

Decision Tree

Salah satu cara untuk membuat decision tree adalah dengan menggunakan algoritma
ID3 (Interative dichotomiser 3)

 Entropy : keragaman

 Gain : ukuran efektifitas suatu atribut dalam mengklasifikasikan data


 Pilih atribut dengan gain paling tinggi

Dimana :
c = jumlah kelas
S = keputusan
Pi = rasio antara jumlah sampel dikelas i dengan semua sampel pada himpunan data.

Anda mungkin juga menyukai