Anda di halaman 1dari 11

Jurnal Penelitian Decision Tree dan Random Forest Dalam

Menentukan Cuaca Dengan Kurun Waktu Satu Bulan di


Jakarta

Kelompok 6 Data Mining:

- Bagoes Abbiyu A.
- Marcel Barliano.
- Muhamad Irfan A.
- Wahyu Yahya N.

Universitas Esa Unggul Jl. Citra Raya Boulevard No.01, Panongan, Kec. Panongan,
Kabupaten Tangerang, Banten 15711
Pengertian Algoritma dari Decision Tree.
Decision tree adalah jenis algoritma klasifikasi yang strukturnya mirip seperti sebuah
pohon yang memiliki akar, ranting, dan daun. Simpul akar (internal node) mewakili fitur pada
dataset, simpul ranting (branch node) mewakili aturan keputusan (decision rule), dan tiap-tiap
simpul daun (leaf node) mewakili hasil keluaran. Itulah kenapa algoritma ini disebut Decision
tree atau pohon keputusan.
Tujuan penggunaan Decision tree adalah untuk membuat training model yang dapat
digunakan untuk memprediksi kelas atau nilai variabel target dengan mempelajari aturan
keputusan sederhana yang disimpulkan dari data sebelumnya (data training).

Dalam algoritma Decision tree, terdapat 2 node, yakni Decision Node dan Leaf Node.

Decision node digunakan untuk membuat keputusan berdasarkan fitur dari dataset yang
diberikan. Node ini memiliki simpul cabang, bisa berupa decision node atau leaf node.
Leaf node digunakan untuk mewakili keluaran hasil keputusan dari simpul induknya
(decision node). Node ini tidak memiliki simpul cabang.
Diagram di bawah ini menggambarkan struktur umum dari algoritma Decision tree:

Jenis-jenis Decision Tree.


Jenis-jenis Decision tree didasarkan pada jenis variabel target yang kita miliki. Adapun
jenis-jenis decision tree, yaitu:
 Categorical variable decision tree: Decision tree yang memiliki variabel target
kategori. Misalnya, kategorinya bisa ya atau tidak. Kategori berarti bahwa setiap
tahap proses keputusan masuk tepat ke dalam satu kelompok, dan tidak ada di
antaranya.

 Continuous variable decision tree: Decision tree yang variabel targetnya


kontinu. Misalnya, pendapatan individu yang pendapatannya tidak diketahui dapat
diprediksi berdasarkan informasi yang tersedia seperti pekerjaan, usia, dan
variabel kontinu lainnya.
Cara Kerja Algoritma Decision Tree
Untuk memprediksi kelas dari dataset yang diberikan, algoritma Decision tree dimulai dari
simpul akar pohon. Algoritma ini membandingkan nilai atribut root dengan atribut record.
Berdasarkan perbandingan tersebut, algoritma menelusuri cabang dan menuju ke simpul
berikutnya.
Untuk simpul berikutnya, algoritma kembali membandingkan nilai atribut dengan sub-simpul
lainnya dan bergerak menuju simpul yang lebih dalam. Tujuannya untuk melanjutkan proses
sampai mencapai simpul daun (node leaf).

Langkah-langkah dari algoritma Decision tree adalah sebagai berikut:


Perincian Algoritma (Langkah 1)
 Menghitung Jumlah kasus seluruhnya, jumlah keputusan “Partly Cloudy” maupun
“Sunny”,
 Menghitung Entropy dari semua kasus yang terbagi berdasarkan atribut “Min Temp”,
“Max Temp”, “Pressure” dan “Average Temp”,
 Lakukan penghitungan Gain untuk setiap Atribut nya.

Berikut adalah Rumus untuk menghitung Entropy dan Gainnya:

Sebagai Kasus terdapat beberapa atribut data seperti Minimal Suhu (Min.Temp), Maksimal
Suhu (Max.Temp), Rata-Rata Suhu (Avg.Temp) dan Tekanan Udara (Pressure). Atribut-atribut
ini akan Menentukan Pandangan (Outlook). Dalam hal ini outputnya adalah Partly Cloudy dan
Sunny.
Gambar.1
Berikut adalah Step by Stepnya :
Dari data pada gambar .1 telah di dapat Nilai Gain tertinggi pada atribut Pressure, maka
Pressure menjadi Root. Dan Pressure pada 1009 dan 1012 telah didapat Leafnya, untuk 1010 dan
1011 belum didapat, maka ;

Dibawah ini Data untuk mencari 1010;


Dari data diatas Nilai Gain tertinggi ada pada Atribut Max Temp;
Untuk Pressure 1010 sudah didapat dan berakhir di Node Avg.Temp. dan untuk mencari Pressure
1011 nya sebagai berikut;
Dan pada data diatas, didapat nilai Gain tertinggi ada pada atribut Min.Temp dan berakhir
karena pada Min Temp sudah didapatkan kalau semua Nilai ada pada Partly Cloudy.

Berikut adalah representasi Decision tree untuk melakukan proses klasifikasi


Kelebihan Decision Tree
 Mudah dipahami karena mengikuti proses yang sama seperti cara manusia saat membuat
keputusan dalam kehidupan nyata.
 Sangat berguna untuk memecahkan masalah terkait keputusan.
 Membantu untuk memikirkan semua kemungkinan hasil untuk suatu masalah.
 Data cleaning cenderung lebih sedikit dibandingkan dengan algoritma lain.
Kekurangan Decision Tree
 Mengandung banyak layer yang membuat algoritma ini cukup rumit.
 Dapat terjadi masalah overfitting, namun dapat diselesaikan dengan menggunakan
algoritma Random Forest.
 Untuk label kelas yang cenderung banyak, kompleksitas komputasi dari Decision tree
dapat meningkat.

Pengertian Algoritma Random Forest


Random Forest adalah algorita machine learning yang menggabungkan keluaran dari
beberapa decision tree untuk mencapai satu hasil. Sesuai namanya, Forest atau 'hutan' dibentuk
dari banyak tree (pohon) yang diperoleh melalui proses bagging atau bootstrap aggregating.
Setiap tree pada Random Forest akan mengeluarkan prediksi kelas. Prediksi kelas dengan
vote terbanyak menjadi kandidat prediksi pada model. Semakin banyak jumlah tree maka akan
menghasilkan akurasi yang lebih tinggi dan mencegah masalah overfitting.
Algoritma Random Forest diperkenalkan oleh Leo Breiman dan Adele Cutler. Algoritma
ini didasarkan pada konsep ensemble learning, yakni proses menggabungkan beberapa
pengklasifikasi untuk memecahkan masalah yang kompleks dan untuk meningkatkan kinerja
model.

Cara Kerja Algoritma Random Forest


Random Forest bekerja dalam dua fase. Fase pertama yaitu menggabungkan sejumlah N
decision tree untuk membuat Random Forest. Kemudian fase kedua adalah membuat prediksi
untuk setiap tree yang dibuat pada fase pertama.
Cara kerja algoritma Random Forest dapat dijabarkan dalam langkah-langkah berikut:
1. Algoritma memilih sampel acak dari dataset yang disediakan.
2. Membuat decision tree untuk setiap sampel yang dipilih. Kemudian akan didapatkan hasil
prediksi dari setiap decision tree yang telah dibuat.
3. Dilakukan proses voting untuk setiap hasil prediksi. Untuk masalah klasifikasi
menggunakan modus (nilai yang paling sering muncul), sedangkan untuk masalah regresi
akan menggunakan mean (nilai rata-rata).
4. Algoritma akan memilih hasil prediksi yang paling banyak dipilih (vote terbanyak)
sebagai prediksi akhir.

Kelebihan Random Forest


 Kinerja Tinggi Random Forest sering memberikan kinerja yang sangat baik dalam hal
akurasi prediksi pada berbagai jenis tugas, termasuk klasifikasi dan regresi.
 Mengatasi Overfitting Dengan menggabungkan banyak pohon keputusan yang
berbeda dan membatasi pemilihan fitur pada setiap pohon, Random Forest cenderung
mengatasi overfitting dengan baik.
 Tidak Sensitif terhadap Outliers Karena hasil prediksi adalah hasil agregat dari
banyak pohon, beberapa outlier tidak memiliki dampak besar pada hasil akhir.
 Mampu Menangani Data yang Besar Random Forest cocok untuk data dengan banyak
fitur dan banyak sampel.
 Mudah Digunakan Algoritma ini tidak memerlukan parameter tuning yang rumit dan
umumnya mudah digunakan oleh praktisi machine learning.
 Mengukur Pentingnya Fitur (Feature Importance) Random Forest dapat memberikan
informasi tentang sejauh mana setiap fitur berkontribusi pada prediksi, yang dapat
membantu dalam pemahaman masalah.
Kekurangan Random Forest
 Kurangnya Interpretasi Random Forest adalah algoritma ensemble, yang berarti
model yang dihasilkan adalah gabungan dari banyak pohon. Ini membuat interpretasi
model menjadi lebih sulit dibandingkan dengan model pohon keputusan tunggal.
 Komputasi yang Mahal Membangun banyak pohon keputusan dapat memakan waktu
dan sumber daya komputasi yang signifikan, terutama pada dataset besar.
 Kecenderungan Overfitting pada Data yang Sangat Kecil Ketika dataset sangat kecil,
Random Forest dapat cenderung mengalami overfitting.
 Data Tidak Seimbang Jika dataset memiliki ketidakseimbangan kelas (class
imbalance), maka hasil Random Forest dapat cenderung mendukung kelas mayoritas.
 Kurang Efisien untuk Regresi Random Forest biasanya lebih efektif dalam tugas
klasifikasi daripada dalam regresi.
 Kurang Dapat Disesuaikan Meskipun mudah digunakan, Random Forest kurang dapat
disesuaikan dibandingkan dengan beberapa model machine learning lainnya.

Anda mungkin juga menyukai