Anda di halaman 1dari 7

LAPORAN DESAIN MODEL MACHINE LEARNING

“Random Forest”

Disusun Oleh :

1. Ikhsan Nuttakwa Takbirata Ihram Nabawi ( 2011102441072 )


2. Muhammad Zinur Roziqin ( 21533458 )
3. Akmal Mugni Fawwazrin ( 2011102441166 )
4. Dian Anisa Agustina ( 21533473 )
5. Sincan Maulana ( 21533410 )

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS MUHAMMADIYAH KALIMANTAN

2021/2022
DAFTAR ISI

DAFTAR ISI.......................................................................................................................................... 2
BAB I ...................................................................................................................................................... 3
1.1 Latar Belakang .............................................................................................................................. 3
1.2 Tujuan .......................................................................................................................................... 3
1.3 Alur ................................................................................................................................................ 4
BAB II .................................................................................................................................................... 5
2.1 Sumber Dataset............................................................................................................................ 5
2.2 Atribut dan Kelas .......................................................................................................................... 5
2.3 Struktur Dataset ........................................................................................................................... 6
2.4 Dataset Test ................................................................................................................................. 6
2.5 kelebihan Random Forest ............................................................................................................. 6
2.6 kelemahan Random Forest ........................................................................................................... 6
BAB III................................................................................................................................................... 7
3.1 Pengertian Random Forest .......................................................................................................... 7
3.2 Parameter .................................................................................................................................... 7
BAB I
LATAR BELAKANG DAN TUJUAN

1.1 Latar Belakang


Teknologi informasi dan komunikasi dapat digunakan oleh para pakar ataupun dokter
untuk menafsirkan tentang penyakit dalam waktu yang cepat dan akurat. Salah satu
penerapan teknologi informasi di dunia Kesehatan dapat digunakan untuk memprediksi
penyakit diabetes. Penelitian ini akan memprediksi pima indians diabetes database dengan
ensemble adaboost dan bagging untuk menghasilkan akurasi yang lebih tinggi dalam
mendeteksi penyakit diabetes.

Data mining adalah suatu teknologi yang dapat digunakan untuk membantu perusahaan
dalam mencari informasi yang dapat digunakan dari data yang dimiliki. Penggunaan data
mining di implementasikan untuk mempredisi apa yang terjadi di masa yang akan datang.

Dataset ini berasal dari National Institute of Diabetes and Digestive and Kidney Diseases.
Tujuan dari kumpulan data adalah untuk memprediksi secara diagnostik apakah pasien
menderita diabetes atau tidak, berdasarkan pengukuran diagnostik tertentu yang termasuk
dalam kumpulan data. Beberapa kendala ditempatkan pada pemilihan contoh ini dari
database yang lebih besar. Secara khusus, semua pasien di sini adalah perempuan berusia
minimal 21 tahun dari keturunan Pima India.

Dataset terdiri dari beberapa variabel prediktor medis dan satu variabel target, Hasil.
Variabel prediktor meliputi jumlah kehamilan yang dialami pasien, BMI, kadar insulin,
usia, dan sebagainya

1.2 Tujuan
1. Mendiagnosis apakah pasien menderita diabetes atau tidak, berdasarkan tindakan
diagnostik tertentu dalam kumpulan data
2. Untuk menghasilkan nilai akurasi dan presisi terbaik dari dataset Pima Indians
Diabetes Database
3. Untuk mencegah penyakit diabetes sedini mungkin.
1.3 Alur Diagram
BAB II
DATASET

2.1 Sumber Dataset


https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database
Peneliti :Smith, J.W., Everhart, J.E., Dickson, W.C., Knowler, W.C., & Johannes, R.S.
(1988). Menggunakan algoritma pembelajaran ADAP untuk meramalkan timbulnya
diabetes mellitus. Dalam Prosiding Simposium Aplikasi Komputer dan Perawatan
Medis (hlm. 261--265). Pers Masyarakat Komputer IEEE.
Collaborators: UCI Machine Learning (Owner).
Penelitian ini memprediksi Prima Indians Diabetes Database dengan untuk
menghasilkan akurasi yang lebih tinggi dalam mendeteksi penyakit diabetes.

2.2 Atribut dan Kelas


NO ATRIBUT DESCRIPTION
1 Pregnancies Number of times pregnant
2 Glucose Konsentrasi glukosa plasma 2 jam dalam tes toleransi
glukosa oral
3 BloodPressure Tekanan darah diastolik (mm Hg)
4 SkinThickness Ketebalan lipatan kulit trisep (mm)
5 Insulin Insulin serum 2 jam (mu U/ml)
6 BMI Indeks massa tubuh (berat dalam kg/(tinggi dalam m)^2)
7 DiabetesPedigreeFunc 7 Fungsi silsilah diabetes
tion
8 Age Umur (tahun)
9 Outcome Variabel kelas (0 or 1)
0=tidak terkena diabetes
1=ya terkena diabetes
2.3 Struktur Dataset

2.4 Dataset Test

2.5 kelebihan Random Forest


1. dapat mengatasi noise dan missing value serta dapat mengatasi data dalam jumlah
yang besar.

2.6 kelemahan Random Forest


1. interpretasi yang sulit dan membutuhkan tuning model yang tepat untuk data.
BAB III
ALGORITMA MACHINE LEARNING

3.1 Pengertian Random Forest


Random Forest adalah salah satu algoritma supervised learning berbasis tree
yang paling popular. Ini juga yang paling fleksibel dan mudah digunakan. Algoritma
ini dapat digunakan untuk menyelesaikan masalah klasifikasi dan regresi.

Random Forest cenderung menggabungkan ratusan decision tree dan kemudian


melatih setiap decision tree pada sampel pengamatan yang berbeda. Prediksi akhir dari
Random Forest dibuat dengan merata-ratakan prediksi dari masing-masing tree.

3.2 Parameter
No Parameter Deskripsi
1 n_estimators Jumlah tree dalam Random Forest.

2 criterion Untuk mengukur kualitas sebuah split.


3 max_depth Kedalaman maksimum tree.
4 min_samples_split Jumlah minimum sampel yang diperlukan
untuk membagi simpul internal.
5 min_samples_leaf Jumlah minimum sampel yang diperlukan
untuk berada di simpul daun.
6 min_weight_fraction_leaf Weighten fraction minimum dari jumlah
total bobot yang diperlukan untuk berada
di simpul daun.
7 max_features Jumlah fitur yang perlu dipertimbangkan
saat mencari split terbaik

Anda mungkin juga menyukai