Anda di halaman 1dari 17

KELOMPOK 5

DECISION TREE & RANDOM FOREST


Oleh
1. Putri Wahyu Utami (B2A018014)

2. Rizma Novinda Puteri (B2A018023)

3. Wiwik Setiyani (B2A018030)


Machine Learning

Supervised Unsupervised
Learning Learning

Regression Classification

Decision Tree
Random Forest
01
Decision Tree
DEFINISI
Decision Tree yaitu suatu struktur yang dapat digunakan sebagai
pemecah data yang besar menjadi record yang lebih kecil dengan
mengimplementasikan alur proses keputusan. Alur pada decision tree berawal
dari simpul akar ke simpul daun yang dapat memprediksi kelas, sehingga
decision tree dengan mudah melakukan proses konversi klasifikasi (Berry &
Linoff , 2004).
Proses Decision Tree yaitu merubah data dalam bentuk tabel menjadi
bentuk tree, lalu merubah tree menjadi rule dan melakukan penyederhanaan
rule (classification rule) (Basuki & Syarif, 2003).
Struktur Decision Tree
Root node/Top Internal node :
Branch Variabel 1 yang dipertimbangkan

Node Internal node :


Keputusan dari variabel sebelumnya

Leaf node/label kelas :


Berada di ujung dari cabang terakhir
pada pohon.
 Kegunaan
Decision Tree digunakan untuk mempelajari klasifikasi dan prediksi pola dari data
dan menggambarkan relasi dari variabel attribut x dan variabel target y dalam bentuk pohon
(Ye, 2014). Secara umum, decision tree digunakan untuk :
1. Eksplorasi data dengan melihat perkiraan-perkiraan yang dihasilkan dan nilai-nilai
yang terdapat dalam setiap percabangan pohon.
2. Melakukan prediksi.
 Algoritma Decision Tree : C4.5, ID3, dan CART
KELEBIHAN DAN KEKURANGAN

 Menurut Berry dan Linoff (1997, pp282-284), kelebihan dari teknik decision tree adalah sebagai berikut :
1. Decision tree mampu menghasilkan aturan-aturan yang mudah dimengerti
2. Decision tree mampu melakukan klasifikasi tanpa membutuhkan banyak komputasi.
3. Mampu untuk menangani data dalam bentuk kontinyu atau kategorik dengan baik.
4. Mampu untuk melihat field dengan kemampuan memisahkan data yang paling baik dan meletakkannya
di node akar dari pohon tersebut
 Menurut Berry dan Linoff (1997, pp284-285), kekurangan dari teknik decision tree adalah sebagai
berikut :
1. Kemungkinan kesalahan semakin besar seiring dengan banyaknya kelas karena beberapa
algoritma decision tree hanya dapat menangani kelas-kelas dengan nilai biner (ya/tidak,
terima/tolak). Beberapa algoritma lainnya dapat membagi record-record menjadi beberapa
kelas, tetapi pada algoritma ini kemungkinan kesalahan membesar saat jumlah contoh pada
setiap kelas menjadi semakin kecil.
2. Adanya masalah dengan daerah-daerah yang berbentuk segi empat, karena kebanyakan
algoritma decision tree hanya memeriksa satu field pada satu waktu. Hal ini mengakibatkan
terciptanya kotak-kotak klasifikasi yang berbentuk segi empat, yang mungkin tidak secara baik
merepresentasikan distribusi record yang sesungguhnya dalam ruang keputusan.
Langkah – Langkah Komputasi Decision Tree

1. Mengimpot data set


2. Clean data set (jika data tidak ada yang missing, maka tidak perlu melakukan tahap clean)
3. Membagi data set menjadi data training dan data testing
4. Membangun model menggunakan data training
5. Membangun prediksi menggunakan data testing
6. Mengukur kinerja dan tingkat akurasi
02
Random Forest
DEFINISI
Random Forest adalah pengklasifikasi yang terdiri dari kumpulan
pengklasifikasi pohon terstruktur, dimana masing-masing pohon melemparkan
unit ssuara untuk kelas paling populer di input x (Breiman, 2001). Dengan
kata lain Random Forest terdiri dari sekumpulan decision tree. Semakin
banyak tree, maka semakin besar pula akurasi yang didapatkan (Polamuri,
2017).
Random Forest bertujuan untuk menyelesaikan permasalahan
overfitting pada penggunaan algoritma decision tree (Wambui, George, &
Kimani, 2018).
Struktur Random Forest
Proses klasifikasi pada random forest berawal dari
memecah data sampel yang ada kedalam decision
tree secara acak. Setelah pohon terbentuk,maka
akan dilakukan voting pada setiap kelas dari data
sampel. Kemudian, mengkombinasikan vote dari
setiap kelas kemudian diambil vote yang paling
banyak.Dengan menggunakan random forest pada
klasifikasi data maka, akan menghasilkan vote yang
paling baik.
 Kegunaan
1. Untuk menghasilkan banyak model pada data training dan kemudian
mengkombinasikannya untuk mendapatkan strong model, dimana memiliki performa
baik dan tidak overfitting..
2. Mengklasifiksikan data yang memiliki atribut tidak lengkap dan data sampel yang
banyak.

 Metode Random Forest :


1. General Random Forest.
2. Conditional Random Forest.
3. Improve Results of Logistic Using Random Forest.
KELEBIHAN DAN KEKURANGAN
 Kelebihan dari teknik random forest adalah sebagai berikut :
1. Mampu mengatasi noise dan missing value .
2. Mampu mengatasi data dalam jumlah besar dan mengklasifiksikan data yang memiliki atribut tidak
lengkap.
3. Untuk pengklasifikasian data serta dapat digunakan untuk menangani data sampel yang banyak.
4. Merupakan salah satu algoritma dengan tingkat akurasi tinggi
5. Memberikan estimasi variabel mana yang paling berpengaruh (Root)
6. Antara pohon satu dengan lainnya tidak akan mempengaurhi hasil cabang lainnya
 Kekurangan dari teknik random forest adalah sebagai berikut :
1. Tidak baik dalam menggeneralisasi kasus dengan data yang benar-benar baru.
2. Bias terhadap variabel kategorik yang memiliki beberapa tingkatan.
3. Dalam hal kestabilan akurasi yang dihasilkan. Dengan parameter input dan data yang sama, untuk
eksekusi lebih dari satu kali yang dilakukan berurutan akan menghasilkan akurasi yang berbeda-
beda.
4. Random Forest akan bekerja maksimal jika prediksi (tiap pohon) dan juga eror memiliki korelasi
yang rendah
Langkah – Langkah Komputasi Random Forest

1. Mengimpot data set


2. Clean data set (jika data tidak ada yang missing, maka tidak perlu melakukan tahap clean)
3. Membagi data set menjadi data training dan data testing
4. Membangun model menggunakan data training
5. Membangun prediksi menggunakan data testing
6. Mengukur kinerja dan tingkat akurasi
Terima
Kasih

Anda mungkin juga menyukai