TGS9 KB Ahmad Nanjar Argianto 4181801096

TUGAS 9 : Kecerdasan Bisnis (E-Learning)
Dosen Pengampu : Anita Ratnasari, S.KOM, M.KOM
Disusun oleh :
Ahmad Nanjar Argianto – 41818010096
PROGRAM STUDI SISTEM INFORMASI

FAKULTAS ILMU KOMPUTER
UNIVERSITAS MERCUBUANA
JAKARTA
2021
DATA MINING (DECISION TREE)
Klasifikasi/Supervised Learning
 Tujuan Klasifikasi adalah untuk memprediksi secara akurat kelas target untuk setiap
kasus dalam data. Misalnya, model klasifikasi dapat digunakan untuk
mengidentifikasi pemohon pinjaman sebagai risiko kredit rendah, sedang atau tinggi.
 Pembelajaran dengan guru, data set memiliki target/tabel/class
 Fitur merupakan properties yang ada pada sebuah record (sample), misal pemohon
pinjaman mempunyai fitur seperti: usia, status marital, pendidikan terakhir, dsb.
 Algoritma melahkukan proses belajar bedasarkan nilai dari variabel target yang
terasosiasi dengan nilai dari variabel prediktor.
 Data training dilengkapi dengan label yang menunjukan class dari data yang sedang
diobservasi.
 Data baru, nantinya akan diklasifikasikan mengacu pada model yang dihasilkan dari
data training.
 Klasifikasi data dibagi menjadi dua
- Binary Classification: Dua kelas saja, contoh : sehat-sakit, lulus-tinggal
kelas.
- Multi Classification : Lebih dari tiga kelas contoh : Resiko rendah-sedang
tinggi.
 Saat pembuatan model, perhatikan jumlah tiap class jika:
- Perbandingan 50:50, 60:40, 70:30, = Maka class normal.
- Perbandingan 80:20, 90:10, = Class Imbalance (Perlu dilahkukan operasi
lebih lanjut).
Pengenalan Decision Tree
Decision Tree adalah salah satu metode klasifikasi yang paling populer karena mudah
diinterprestasi oleh manusia. Decision Tree adalah model prediksi menggunakan struktur
pohon atau struktur berhirarki.
Terdapat tiga jenis decision tree yang umum digunakan :
 ID3 menggunakan information gain terbesar
 C 4.5 menggunakan gain ratio
 CART menggunakan gini index

Kelebihan Decision Tree
1. Dibandingkan dengan algoritma lain, pohon keputusan memerlukan lebih sedikit

upaya untuk persiapan data selama pra-pemrosesan (preprocesing).
2. Pohon keputusan tidak memerlukan normalisasi data
3. Pohon keputusan juga tidak memerlukan penskalaan data (scaling data).
4. Nilai yang hilang dalam data juga TIDAK mempengaruhi proses membangun pohon
keputusan sampai batas tertentu.
5. Model pohon keputusan sangat inituitif dan mudah dijelaskan kepada tim teknis serta
pemangku kepentingan.
Kekurangan Decision Tree
1. Perhitungan matematis dari pohon keputusan sebagian besar membutuhkan lebih

banyak memori dan waktu.
2. Reproduksibilitas model pohon keputusan sangat sensitif karena perubahan kecil
pada data dapat menghasilkan perubahan besar dalam struktur pohon.
3. Kompleksitas ruang dan waktu dari model pohon keputusan relatif lebih tinggi.
4. Waktu pelatihan model pohon keputusan relatif lebih banyak karena kompleksitasnya
tinggi.
5. Pohon keputusan tunggal seringkali merupakan pembelajar yang lemah sehingga
kami membutuhkan sekelompok pohon keputusan untuk disebut RANDOM FOREST
untuk prediksi yang lebih baik
6. Algoritma Decision Tree tidak memadai untuk menerapkan regresi dan memprediksi
nilai kontinu.
Decision Tree : ID3 Information Gain
Kelebihan :
1. Aturan prediksi yang bisa dipahami dibuat dari data pelatihan.

2. Dapat membuat tree dengan cepat
3. Tree cukup pendek
4. Hanya butuh mengetest atribut hingga data terklasifikasi
5. Menemukan node daun membuat test data dapat dengan mudah di pruned (potong),
sehingga mengurangi jumlah test
Kekurangan :
1. Jika sample test kecil, maka kemungkinan akan overfriting.

2. Hanya satu atribut pada suatu waktu yang diuji untuk membuat keputusan
3. Klasifikasi dengan nilai continuous bisa sangat mahal karena tree akan dibuat begitu
banyak untuk melihat dimanakah harus berhenti
Decision Tree : C4.5 Gain Ratio
Kelebihan :
1. Digunakan untuk data tipe diskrit dan kontinu

2. Dapat menghandle data yang fiturnya hilang
3. Setelah tree selesai, C4.5 akan kembali keatas dan menghapus node yang tidak
dipakai
Kekurangan :
1. Sering membuat cabang yang kosong

2. Karena terlalu fokus pada data training, maka C4.5 rawan overfitting jika ada data
noise.
Decision Tree : CART Gini Index
Kelebihan :
1. Digunakan untuk data tipe kategorikal dan numerical

2. Tidak masalah mengenai distribusi data
3. Outlier/Noise tidak begitu berimbas pada model pembelajaran
4. Variabel (fitur) yang penting akan dipertahankan, dan yang tidak penting akan
dihapus.
Kekurangan :
1. Tidak stabil, karena modifikasi kecil seperti menghapus beberapa records akan
meningkatkan atau mengurangi kompleksitas tree
2. Membuat split node meski hanya 1 variabel
Decision Tree
Salah satu cara untuk membuat decision tree adalah dengan menggunakan algoritma
ID3 (Interative dichotomiser 3)
 Entropy : keragaman
 Gain : ukuran efektifitas suatu atribut dalam mengklasifikasikan data

 Pilih atribut dengan gain paling tinggi
Dimana :
c = jumlah kelas
S = keputusan
Pi = rasio antara jumlah sampel dikelas i dengan semua sampel pada himpunan data.

TGS9 KB Ahmad Nanjar Argianto 4181801096

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

TGS9 KB Ahmad Nanjar Argianto 4181801096

Diunggah oleh

Hak Cipta:

Format Tersedia

TUGAS 9 : Kecerdasan Bisnis (E-Learning)

Dosen Pengampu : Anita Ratnasari, S.KOM, M.KOM

Ahmad Nanjar Argianto – 41818010096

PROGRAM STUDI SISTEM INFORMASI

Pengenalan Decision Tree

Terdapat tiga jenis decision tree yang umum digunakan :

 ID3 menggunakan information gain terbesar

 C 4.5 menggunakan gain ratio

 CART menggunakan gini index

1. Dibandingkan dengan algoritma lain, pohon keputusan memerlukan lebih sedikit

Kekurangan Decision Tree

1. Perhitungan matematis dari pohon keputusan sebagian besar membutuhkan lebih

Decision Tree : ID3 Information Gain

1. Aturan prediksi yang bisa dipahami dibuat dari data pelatihan.

1. Jika sample test kecil, maka kemungkinan akan overfriting.

Decision Tree : C4.5 Gain Ratio

1. Digunakan untuk data tipe diskrit dan kontinu

1. Sering membuat cabang yang kosong

Decision Tree : CART Gini Index

1. Digunakan untuk data tipe kategorikal dan numerical

 Gain : ukuran efektifitas suatu atribut dalam mengklasifikasikan data

Anda mungkin juga menyukai