RABIATUL ADAWIYAH
NIM. 190601022
RABIATUL ADAWIYAH
NIM. 190601022
Adapun bagian-bagian tertentu dalam penulisan skripsi yang saya kutip dari
hasil karya orang lain telah dituliskan sumbernya secara jelas sesuai dengan
norma, kaidah, dan etika penulisan.
Apabila di kemudian hari ditemukan seluruh atau sebagian skripsi ini bukan
hasil karya sendiri atau adanya plagiat dalam bagian-bagian tertentu, saya bersedia
menerima sanksi pencabutan gelar akademik yang saya sandang dan sanksi-sanksi
lainnya sesuai dengan peraturan perundangan yang berlaku.
Rabiatul Adawiyah
NIM.190601022
HALAMAN PERSETUJUAN
RABIATUL ADAWIYAH
NIM. 190601022
Pembimbing 1 Pembimbing 2
Mengetahui,
NIM. 180201002
DEWAN PENGUJI
Ketua Penguji
…………………………..
NIDN. ................................. .............................
.
Anggota
………………………….
NIDN. ................................. .............................
.
Pendamping
…………………………..
NIDN. ................................. .............................
.
Orang tua tercinta terutama untuk Ibu yang sudah memberi semangat yang
tiada henti meskipun pada akhirnya tidak bisa menemani perjuangan saya
sampai akhir dan tidak bisa melihat saya yang sudah ada di titik ini.
Adik Saya tersayang Amelia Rizka Afika
Keluarga besar Saya yang telah memberikan Saya dukungan moril dan
materil agar Saya bisa mengerjakan skripsi dengan lancar.
Semua dosen Fakultas Teknik Universitas Hamzanwadi yang selalu
memberikan arahan dan bimbingan sehingga skripsi ini terselesaikan.
Teman-teman seperjuangan jurusan Sistem Informasi yang tak mungkin
penulis sebutkan satu persatu.
MOTTO
“Barang siapa yang menginginkan dunia maka hendaklah dengan ilmu, barang
siapa yang menginginkan akhirat maka hendaklah dengan ilmu, barang siapa
menginginkan keduanya maka hendaklah dengan ilmu”
ii
KATA PENGANTAR
Puji syukur kepada Tuhan yang Maha Esa atas segala rahmat yang
telah diberikan-Nya sehingga penulis dapat menyelesaikan.skripsi dengan
judul “Prediksi Tingkat Kesehatan Masyarakat Kecamatan Suralaga
Berdasarkan Penggunaan Alat Kontrasepsi Menggunakan Algoritma
Random Forest”.
Dalam penulisan skripsi ini penulis menyadari bahwa tanpa
bimbingan dan bantuan dari berbagai pihak skripsi ini tidak akan selesai.
Karena itu penulis ingin mengucapkan terima kasih kepada :
1. Ibu Dr. Ir. Hj. Sitti Rohmi Djalilah, M.Pd., selaku Rektor Universitas
Hamzanwadi
2. Bapak H. Muhammad Djamaluddin, BE. M.Kom., selaku Dekan Fakultas
Teknik Universitas Hamzanwadi.
3. Bapak Muhammad Saiful, M.Kom., selaku Koordinator Program Studi
Sistem Informasi Fakultas Teknik Universitas Hamzanwadi.
4. Bapak Yahya, ST. M.Kom., dan Muhammad Saiful, M.Kom., selaku
dosen pembimbing skripsi yang telah memberikan bimbingan dan
masukan kepada penulis.
Rabiatul Adawiyah
NIM. 190601022
iii
DAFTAR ISI
SKRIPSI..................................................................................................................i
HALAMAN PERSETUJUAN................................................................................ii
ABSTRAK..............................................................................................................iii
KATA PENGANTAR............................................................................................iv
DAFTAR ISI............................................................................................................v
DAFTAR GAMBAR.............................................................................................vii
DAFTAR TABEL................................................................................................viii
BAB l PENDAHULUAN........................................................................................1
l.4.1. Tujuan................................................................................................3
l.4.2. Manfaat..............................................................................................3
iv
ll.6. RapidMiner..............................................................................................19
v
DAFTAR GAMBAR
vi
DAFTAR TABEL
vii
BAB l
PENDAHULUAN
Salah satu upaya yang dapat dilakukan untuk menekan angka kelahiran
adalah dengan mengikuti program KB menggunakan alat kontrasepsi. Alat
kontrasepsi merupakan alat mencegah kehamilan. adapun macam-macam alat
kontrasepsi yaitu kondom, suntik kb, kb iud dan pil kb.
28
Oleh karena itu, peneliti akan melakukan prediksi tingkat kesehatan
masyarakat berdasarkan penggunaan alat kontrasepsi menggunakan algoritma
random forest.
29
l.3. Batasan Masalah
Untuk menghindari hal-hal yang menyimpang dari judul dan tujuan utama
penelitian maka peneliti membatasi pembahasan Prediksi Tingkat Kesehatan
Masyarakat Kecamatan Suralaga Berdasarkan Penggunaan Alat Kontrasepsi
Menggunakan Algoritma Random Forest sebagai berikut:
l.4.1. Tujuan
l.4.2. Manfaat
1. Observasi
30
Dilakukan dengan mengumpulkan data dari mengamati secara langsung di
lokasi penelitian yaitu Pengadilan Agama Selong Lombok Timur
berdasarkan fakta yang ada.
2. Wawancara
Melakukan tanya jawab dengan beberapa staff pengadilan agama
mengenai perkara perceraian yang sering terjadi.
3. Studi Pustaka
Untuk menunjang metode observasi dan wawancara maka peneliti
melakukan pengumpulan informasi dengan mencari referensi-referensi
yang berkaitan dengan kasus serupa yang bisa didapatkan melalui buku
dan internet.
BAB I : PENDAHULUAN
Bab ini berisi informasi tentang : latar belakang, rumusan masalah,
batasan masalah, tujuan dan manfaat peneltian, metode penelitian dan
sistematika penulisan.
BAB II : TINJAUAN PUSTAKA
Bab ini berisi kerangka dan landasan teori, yang dijadikan sebagai
unsur penguat laporan dalam penelitian, terdapat beberapa penelitian
terkait, pemahaman tentang data mining, metode data mining dan
algoritma yang digunakan dala penelitian.
BAB III : ANALISIS PENGOLAHAN DATA
Bab ini berisi tentang profile, visi dan misi dari Pengadilan Agama
Selong serta berisi tentang analisa pengolahan data diantaranya
melakukan analisa kebutuhan penelitian dan pengolahan data sesuai
dengan metode yang digunakan.
BAB IV : IMPLEMENTASI DAN PEMBAHASAN
31
Bab ini berisi tentang implementasi dan pembahasan dimana
implementasi yang dimaksud adalah penerapan dari analisis dan
pengolahan data. Sedangkan pembahasan disini adalah pengaplikasian
algoritma secara penuh sehingga menjadi output yang sesuai dengan
yang diinginkan.
BAB V : PENUTUP
Bab ini berisi tentang kesimpulan yang didapatkan dari hasil analisa
dan pengujian yang sudah dilakukan pada bab sebelumnya. Penulis
juga menyertakan saran-saran yang diharapkan kedepannya dapat
bermanfaat bagi pihak Pengadilan Agama Selong Lombok Timur
dalam mengambil keputusan guna meminimalisir angka perceraian
yang terjadi di kabupaten Lombok Timur.
32
BAB ll
TINJAUAN PUSTAKA
- Penelitian yang dilakukan oleh Yuri Yuliani dalam jurnal yang berjudul
“Algoritma Random Forest Untuk Prediksi Kelangsungan Hidup Pasien
Gagal Jantung Menggunakan Seleksi Fitur Bestfirst” dapat disimpulkan
bahwa dari hasil penelitian yang menggunakan aplikasi weka dengan
melakukan seleksi fitur dengan metode bestfirst serta metode class
balancer untuk menangani class yang tidak balance dan perbandingan
terhadap 3 algoritma yang menunjukkan performa terbaik yaitu algoritma
random forest dengan metode percentage split 80% yang menghasilkan
accurasi 91,45%, mean absolute error 0.1874, incorrectly classified
instances 8.55%, precision 0.915, recall 0.914, AUC 0.953[1].
- Penelitian yang dilakukan oleh Yahya dan Hariman Bahtiar dalam jurnal
yang berjudul “Pengaruh Pertumbuhan Ekonomi Terhadap Tingkat
Kesejahteraan Masyarakat Kecamatan Selong Kabupaten Lombok Timur -
Nusa Tenggara Barat Menggunakan Algoritma Naïve Bayes” berdasarkan
hasil penelitian yang dilakukan menggunakan data ekonomi masyarakat
Kecamatan Selong menggunakan Algoritma Naive Bayes, dapat
disimpulkan bahwa masyarakat Kecamatan Selong merupakan masyarakat
yang tergolong masyarakat yang sudah sejahtera apabila dilihat dari faktor
ekonomi, dengan tingkat akurasi kedekatan dengan keadaan yang
sebenarnya sebesar 93,45%. Dari data yang diperoleh 93,45% atau 0,9345
x jumlah data (kk) = 0,9345 x 1130 kk = 1056 kk yang menunjukkan
masyarakatnya sejahtera dan 6,55% x 1130 = 74 kk yang menyatakan
masyarakat yang tidak sejahtera dan dapat dijadikan sebagai acuan dalam
33
pengentasan kemiskinan melalui program yang sudah dicanangkan oleh
pemerintah[2].
- Penelitian yang dilakukan oleh Mahpuz Yahya dan Muhammad Wasil
dalam jurnal yang berjudul “Implementasi Algoritma Decision Tree Untuk
Mengetahui Faktor Kredit Macet Dan Lancar di Koperasi Serba Usaha
Daruzzakah Rensing Lombok Timur” dapat disimpulkan berdasarkan hasil
pengujian yang telah dilakukan sebanyak 9 kali yaitu dari validation 2
sampai dengan 10 makadidapatkan dua hasil akurasi terbaik dari K-Fold
Validation 9 dan K-Fold Validation 10 yang masing-masing memiliki nilai
accuracy sebesar 96,43% pada K-Fold Validation 9 dan 96,45% dari K-
Fold Validation 10. Dan selisih akurasi keduanya adalah 0.02% yang
menunjukan bahwa terjadi peningkatan 0.02% pada rentang k-fold
validation 9 dan 10. Peningkatan pada setiap uji coba tidaklah selalu sama
ini dipengaruhi oleh seberapa banyak pembagian data yang
dilakukanMaka didapatkan nilai accuracy terbaik pada KFold Validation
10 dengan akurasi sebesar 96,45% dimana data dibagi menjadi 10 bagian
untuk ditraining dan ditesting. serta didapatkan juga nilai AUC (Area
Under Curve) sebesar 0.942 yang dimana AUC merupakan parameter
yang digunakan dalam analisis klasifikasi dalam menentukan model
terbaik untuk prediksi suatu kelas atau atribut, AUC sendiri mempunyai
rentang nilai dari 0 sampai 1, yang artinya semakin nilai AUC mendekati
angka 1 maka prediksi atau diagnosa atributnya semakin bagus. Ini
menjunjukan nilai AUC sebesar 0.942 yang didapatkan setelah melakukan
pengujian dengan K-Fold Validation 10 sangat baik karena hampir
mendekati angka 1[3].
- Penelitian yang dilakukan oleh Muhammad Saiful, Syamsuddin dan Moh.
Farid Wajdi dalam jurnal yang berjudul “Implementasi Algoritma Naive
Bayes Untuk Memprediksi Predikat Ketuntasan Belajar Siswa Pasca
Pandemi Covid 19” berdasarkan implementasi dan pembahasan dalam
penelitian dilakukan untuk memprediksi ketuntsan belajar Siswa SMA
Negeri 3 Selong, selama pandemic pasca covid 19, maka dapat
34
disimpulkan bahwa dalam menentukan data tuntas dan tidak tuntas dapat
diprediksi dan dievaluasi dengan memanfaatkan teknik data mining
menggunakan algoritma Naïve Bayes. Algoritma ini mampu menganalisa
pola data tuntas dan tidak tuntas, dalam mengambil kebijakan untuk
melengkapi data siswa yang di katagorikan tuntas dan tidak tuntas dengan
memanfaatkan teknik data mining,dimana dilakukan dengan cara
melakukan menampilkan output berupa nilai akurasi terbaik dan akurat.
Setelah dilakukannya pengujian sebanyak 9 kali yaitu dari validation 2
sampai dengan 10 maka didapatkan dua hasil akurasi terbaik dari K-Fold
Validation 4 dan K-Fold Validation 5 yang masing-masing memiliki nilai
accuracy sebesar 83.89% pada K-Fold Validation 4 dan 82.74% dari K-
Fold Validation 5. Dan selisih akurasi keduanya adalah 0.01% yang
menunjukan bahwa terjadi peningkatan 0.80 % pada rentang k-fold
validation 4 dan 8 . Peningkatan pada setiap uji coba tidak selalu sama ini
dipengaruhi oleh seberapa banyak pembagian data yang dilakukan[4].
- Penelitian selanjutnya dilakukan oleh Mahfuz, Amri Muliawan Nur dan L
M Samsu dalam jurnal yang berjudul “Penerapan Algoritma C4.5 Dalam
Mengklasifikasi Status Gizi Balita Pada Posyandu Desa Dames Damai
Kabupaten Lombok Timur” dapat disimpulkan berdasarkan analisis data
menggunakan metode C4.5 decision tree untuk mengaanalisis status gizi
balita pada posyandu Desa Dames Damai diperoleh hasil sebagai berikut:
Metode decision tree memiliki kecepatan yang tinggi dalam
mengkelasifikasikan status gizi balita pada posyandu Desa Dames Damai.
Hal ini dibuktikan dengan 4 atribut yang dipakai dalam pengklasifikasian
yaitu jenis kelamin, umur, berat badan dan tinggi badan. Memperoleh hasil
akurasi yang diperoleh sangat baik atau cukup sempurna yaitu 97.02%
sedangkan nilai AUC yang diproleh dari decision tree 0.928[5].
- Penelitian yang dilakukan oleh Yahya dan Reni Zuliana dalam jurnal yang
berjudul “Prediksi Jumlah Penggunaan BBM Perbulan Menggunakan
Algoritma Decition Tree (C4.5) Pada Kantor Dinas Lingkungan Hidup dan
Kebersihan Kecamatan Selong Kabupaten Lombok Timur” dari hasil
35
penelitian yang telah dilakukan, maka dapat disimpulkan bahwa
penggunaan BBM dapat diprediksi dan dievaluasi dengan memanfaatkan
teknik Data Mining menggunakan algoritma Decition Tree (C4.5), dari
data penggunaan BBM dengan data training yang telah diperoleh. Metode
algoritma Decition Tree (C4.5) yang digunakan pada prediksi ini cukup
baik karena menghasilkan nilai akurasi 67.33%. Dari tiga kali percobaan
yang telah dilakukan dapat diketahui hasil nilai K-Fold Validaton yaitu,
semakin besar nilai K-Fold Validation yang digunakan maka semakin
tinggi nilai akurasi yang akan diperoleh. Metode algoritma Decition Tree
(C4.5) yang digunakan dapat diketahui pula tingkat penggunaan yang
tinggi dan yang baik, sehingga dalam menganalisa data metode ini cukup
akurat untuk tetap mengoptimalkan pemakaian BBM[6].
- Penelitian yang dilakukan oleh Fandi Yulian Pamuji dan Viry Puspaning
Ramadhan yang berjudul “Komparasi Algoritma Random Forest Dan
Decision Tree Untuk Memprediksi Keberhasilan Immunotheraphy”
berdasarkan hasil pengujian metode random forest dan decision tree
dengan menggunakan bahasa python. Maka dapat disimpulkan bahwa
hasil pengujian menggunakan metode decision tree masih terdapat prediksi
yang tidak tepat dengan tingkat akurasi 84,4% kemudian metode random
forest prediksinya tepat dengan tingkat akurasi 85,5%. Hasil pengujian
tersebut menunjukkan bahwa metode random forest merupakan metode
yang lebih unggul dibandingkan dengan metode decision tree[7].
- Penelitian yang dilakukan oleh nariswa karina dewi, utami dyah syafitri
dan soni yadi mulyadi dalam jurnal yang berjudul “Penerapan Metode
Random Forest Dalam Driver Analysis” dapat disimpulkan berdasarkan
hasil pengujian menggunakan metode random forest, penyusunan driver
analysis berdasarkan MDG menghasilkan driver analysis yang stabil jika
ukuran random forest lebih dari 500. Untuk penyusunan driver analysis
berdasarkan rataan MDG dari 1000 random forest,driver analysis random
forest cukup kecil. Hasil driver analysis pun stabil pada berbagai ukuran
contoh peubah penjelas[8].
36
- Penelitian yang dilakukan oleh debby alita dan auliya rahman dalam jurnal
yang berjudul “Pendeteksian Sarkasme Pada Proses Analisis Sentimen
Menggunakan Random Forest Classifier” berdasarkan hasil proses analisis
sentiment dengan pendeteksian sarkasme berhasil dikombinasikan pada
data twitter tentang jaringan telekomunikasi seluler, layanan perusahaan
dan politik. Dengan menggunakan pendeteksian sarkasme pada analisis
sentiment dapat meningkatkan nilai rata-rata dari akurasi, presisi, recall
dan f1score walaupun ada satu nilai yang terjadi penurunan tetapi tidak
mempengaruhi nilai rata-rata. Kenaikan nilai rata-rata akurasi sbesar
16,61%, kenaikan nilai presisi sebesar 5,45%, kenaikan nilai recall sebesar
9,64% dan kenaikan nilai F1score sebesar 11,27%[9].
- Penelitian yang dilakukan oleh safitri linawati, siti nurdiani, kartika
handayani dan latifah dalam jurnal yang berjudul “Prediksi Prestasi
Akademik Mahasiswa Menggunakan Algoritma Random Forest Dan
C4.5” berdasarkan hasil dan analisis pengujian yang telah dilakukan, maka
dapat disimpulkan bahwa klasifikasi prediksi prestasi akademik
mahasiswa menggunakan algoritma random fan C4.5 menghasilkan
akurasi 87.1%, nilai presisi sebesar 85.4% dan nilai recall sebesar 87.1%,
sedangkan metode random forest menghasilkan akurasi sebesar 92.4%,
nilai presisi sebesar 91.4% dan nilai recal sebesar 92.4%. dengan kata lain
metode random forest memiliki akurasi, presisi, recall yang lebih baik
dibandingkan dengan metode decision tree C4.5. metode random forest
dapat digunakan untuk memprediksi hasil akademik mahasiswa[10].
- Penelitian yang dilakukan oleh Rusda Wajhillah dan Ita Yulianti dalam
jurnal yang berjudul “Penerapan Algoritma C4.5 Untuk Prediksi
Penggunaan Jenis Kontrasepsi Berbasis WEB” berdasarkan permasalahan
yang telah dibahas dan diselesaikan melalui laporan ini, dapat diambil
kesimpulan dari pembuatan aplikasi penerapan algoritma C4.5 untuk
prediksi penggunaan jenis kontrasepsi berbasis web. Dalam upaya untuk
membantu para akseptor KB dalam memilih jenis kontrasepsi yang tepat
37
berdasarkan kondisi tubuhnya, aplikasi system pakar ini dapat menjadi
alternative pemecah masalah[11].
- Penelitian yang dilakukan oleh Nur Heri Cahyana dan Agus Sasmito
Aribowo dalam jurnal yang berjudul “Metode Data Mining K-Means
Untuk Klasterisasi Data Penanganan Dan Pelayanan Kesehatan
Masyarakat” berdasarkan hasil proses klasterisasi dapat disimpulkan
bahwa secara umum semua kecamatan di Kabupaten Blora pada tahun
2015 terjadi peningkatan pelayanan balita, penanganan penyakit diare dan
penyakit pneumonia setelah sempat turun ditahun 2014. ada beberapa
kecamatan tertentu yang melakukan pelayanan balita, penanganan diare
dan pneumonia lebih banyak diatas kecamatan japah adalah kecamatan
dengan prestasi penanganan diare yang tertinggi[12].
Adapun roadmap atau peta jalan yang dibuat oleh peneliti dalam bentuk
flowchart :
mencari
hasil
topik
Evaluasi
penelitian
membuat menentukan
kesimpulan jenis data
menganalisis mencari
data sumber data
mengolah megevaluasi
data data
mengekstrak
data
38
ll.3. Prediksi
Teknik statistik yang digunakan untuk prediksi termasuk analisis regresi dan
berbagai sub-kategorinya seperti regresi linier, model linier umum ( regresi
logistik , regresi Poisson , regresi Probit ), dll. Dalam hal peramalan, model rata-
rata bergerak autoregresif dan model regresi vektor dapat dimanfaatkan. Saat ini
dan/atau terkait, kumpulan regresi atau metode pembelajaran mesin yang
diterapkan dalam penggunaan komersial, bidang ini dikenal sebagai analitik
prediktif[13].
39
ll.4. Data Mining
Data mining yang juga dikenal sebagai knowledge, merupakan salah satu
bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari
database skala besar yang terakumulasi sejalan dengan pertumbuhan teknologi
informasi. Data Mining adalah proses penambangan data atau penggalian data
yang tersimpan dan terakumulasi untuk mendapatkan knowledge atau informasi.
40
Kemajuan luar biasa yang terus berlanjut dalam bidang data mining
didorong oleh beberapa factor, anatara lain (Larose, 2005):
41
Menurut Iko Pramudiono data mining adalah suatu rangkaian proses, data
mining dapat dibagi menjadi beberapa tahap :
Tujuan dari Data Mining (Hoffer, Prescott, dan McFadden, 2007) adalah :
42
b. Confirmatory untuk mempertegas hipotesis, seperti halnya dua kali
pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga
dibandingkan dengan satu kali pendapatan keluarga.
c. Exploratory untuk menganalisa data yang memiliki hubungan yang baru.
Misalnya, pola apa yang cocok untuk kasus penggelapan kartu kredit.
1. Deskripsi
Proses deskripsi bertujuan untuk menemukan pola yang sering muncul dan
mengubah pola tersebut menjadi aturan yang dapat dipergunakan untuk
mempermudah suatu aktivitas. contoh pada sebuah supermarket,
pelanggan sering membeli produk A dan produk B secara bersamaan dan
berulang, maka manajemen supermarket tersebut mengubah katalog
barang dengan meletakkan produk A dan B di tempat yang sama atau
berdekatan, sehingga pelanggan tidak kesulitan ketika membeli kembali
produk tersebut. salah satu algoritma yang termasuk dalam deskripsi
adalah algoritma apriori.
2. Estimasi
Defini estimasi adalah perkiraan/prediksi, sehingga estimasi hampir sama
dengan klasifikasi, perbedaan terletak pada bentuk pengelompokan, di
mana estimasi pengelompokan ke arah numerik dan bukan kearah
kategori. Contohnya perkiraan pendapatan seorang sales produk tertentu
berdasarkan lama kerja, perkiraan pendapatan hotel pada bulan tertentu
dan sebagainya. Algoritma yang termasuk dalam estimasi adalah regresi
linear sederhana, regresi linear berganda dan lain-lain.
3. Prediksi
43
Secara umum prediksi hampir sama dengan klasifikasi. salah satu fungsi
data mining yang sering digunakan adalah untuk memprediksi. Nilai dari
hasil prediksi akan digunakan dimasa yang akan datang berdasarkan data-
data sebelumnya. contoh harga sawit dalam 4(empat) bulan dimasa yang
akan datang, prediksi kunjungan tempat wisata pada tahun mendatang dan
lain sebagaianya, algoritma yang termasuk dalam prediksi adalah RF,
Rough Set, Cartr, ID3, C4.5, J48 dan C5.0.
4. Asosiasi
Asosiasi adalah kumpulan, himpunan, persatuan, atau persekutuan. Dalam
data mining proses asosiasi merupakan pencarian attribute yang
muncul/selalu dalam waktu bersamaan, seperti ketika dibeli produk A
maka dibeli produk B, ketika dibeli produk B maka dibeli produk A,
ketika dibeli produk A, B, maka dibeli produk C, dan seterusnya. Besar
peluang muncul attribute secara bersamaan diukur dengan menggunakan
nilai confidence, Algoritma yang termasuk dalam asosiasi adalah
association rule.
5. Pengklasteran
Pengklasteran merupakan pengelompokan data yang memiliki kemiripan
nilai (homogen). Bentuk data yang dapat dikelompokkan dalam
pengklasteran adalah hasil pengamatan, record data, atau kelas-kelas dan
objek-objek yang memiliki kemiripan. Dalam pengklasteran berbeda
dengan klasifikasi karena tidak menggunakan variable keputusan/target.
Contohnya pengelompokan keluarga yang layak dan tidak layak diberikan
Program Keluarga Harapan (PKH) berdasarkan jumlah pendapatan,
jumlah tanggungan, aset, pekerjaan, kepemilikan dan kondisi rumah.
Algoritma yang termasuk dalam pengklasteran adalah K-Means, K-
Medoids, K-Nearest Neighbor, dan lain-lain.
6. Klasifikasi (classification)
Pengelompokan berdasarkan hubungan antara variabel kriteria dengan
variabel target. Contoh pengelompokan dampak gempa bumi yaitu rusak
berat, sunami, dan tidak berdampak. Dampak gempa bumi tersebut
44
dipengaruhi oleh beberapa faktor seperti skala, durasi, pusat gempa, jarak
dari pantai dan kedalaman gempa bumi. Algoritma yang termasuk dalam
klasifikasi adalah Cart, ID3, C4.5, J48, C5.0, K-Nearest neighbor, Naïve
Bayes, dan lain-lain.
45
numerik. Dapat disimpulkan bahwa algoritma K-Means akan
membuat data-data yang ingin dilakukan cluster nantinya akan
menuju beberapa pusat/titik dimana titik tersebutlah yang digunakan
sebagai acuan dalam pengelompokan dan data-data yang dilakukan
klasterisasi harus numerik. Pada dasarnya Algoritma K-Means hanya
mengambil sebagian dari banyaknya dari komponen yang
didapatkan untuk kemudian dijadikan pusat cluster awal, pada
penentuan pusat cluster ini dipilih secara acak dari populasi data.
d) Algoritma K-NN
K-Nearest Neighbor termasuk kelompok instance-based learning.
Algoritma ini juga merupakan salah satu teknik lazy learning. K-NN
dilakukan dengan mencari kelompok objek dalam data training yang
paling dekat (mirip) dengan objek pada data baru atau data testing.
Algoritma K-Nearest Neighbor adalah sebuah metode untuk
melakukan klasifikasi terhadap objek berdasarkan data pembelajaran
yang jaraknya paling dekat dengan objek tersebut.
Random Forest adalah algoritma klasifikasi dan regresi yang menjadi bagian
dari kelompok ensemble learning. Metode random forest merupakan
pengembangan dari decision tree dimana setiap decision tree telah dilakukan
proses pelatihan dengan menggunakan sampel individu. Random forest yang
dihasilkan memiliki banyak tree dan setiap tree ditanam dengan cara yang sama.
Seiring dengan bertambahnya dataset, maka tree juga ikut berkembang[14].
Dalam random forest, pemilihan atribut pada setiap kali sebuah node akan
dipecah akan diambil secara acak. Setiap tree diberi sampel data pelatihan dengan
menggunakan metode bagging dan tiap tree dibangun menggunakan metode yang
sama untuk membangun CART (classification and regression tree).
Random forest yang dihasilkan memiliki banyak tree dan setiap tree akan
tumbuh dengan cara yang sama. Tree dengan variabel x akan ditempatkan pada
46
jarak yang jauh dengan tree dengan variabel y. Sejalan dengan bertambahnya
dataset maka tree pun ikut berkembang. Penempatan tree yang saling berjauhan
akan memudahkan dalam deteksi jenis tree. Tree yang berada disekitar tree x
maka tree tersebut merupakan perkembangan dari tree x sedangkan tree yang
berada disekitar tree y maka tree tersebut merupakan perkembangan dari tree y.
Pembangunan tree akan berhenti ketika data sudah homogen atau jika batas
jumlah data minimum sudah terlewati.
Random forest yang dihasilkan memiliki banyak tree dan setiap tree akan
tumbuh dengan cara yang sama. Tree dengan variabel x akan ditempatkan pada
jarak yang jauh dengan tree dengan variabel y. Sejalan dengan bertambahnya
dataset maka tree pun ikut berkembang. Penempatan tree yang saling berjauhan
akan memudahkan dalam deteksi jenis tree. Tree yang berada disekitar tree x
maka tree tersebut merupakan perkembangan dari tree x sedangkan tree yang
berada disekitar tree y makatree tersebut merupakan perkembangan dari tree y.
Pembangunan tree akan berhenti ketika data sudah homogen atau jika batas
jumlah data minimum sudah terlewati.Proses prediksi random forest seperti
ditunjukkan pada gambar 2.4 berikut
47
ll.6. RapidMiner
RapidMiner adalah salah satu software yang digunakan dalam proses data
mining. keunggulan rapidminer ini adalah mampu menerapkan dengan berbagai
algoritma dan penyatuan fitur-fitur visualisasi data. rapidminer sangat mudah dan
efisien untuk proses komputasi dengan waktu yang relatif cepat dibanding dengan
software lainnya.
Proses data mining yang dilakukan oleh rapidminer adalah ETL (extraction,
transformation, loading), data preprocessing, visualization, modelling, dan
evaluation. Proses ini digambarkan dengan XML, dibuat dengan GUI (Graphic
user interface), dan menggunakan bahasa pemrograman java.
48
- New Proses
Membuka perspektif desain dan menciptakan proses analisis baru.
- Open
Untuk membuka proses yang baru saja ditutup, maka pengguna
dapat memilih aksi ini dengan mengklik dua kali salah satu daftar
yang ada pada Recent Proses kemudian akan otomatis berpindah
ke design perspective.
- Open Proses
Aksi ini untuk membuka repository browser yang berisi daftar
proses.
- Open Template
Menunjukkan pilihan lain yang sudah ditentukan oleh proses
analisis.
- Online Tutorial
Aksi ini direkomendasikan untuk pengguna yang sudah
mengetahui konsep dasar data mining dan sudah akrab dengan
operasi dasar rapidminer.
b. Design Perspective
Lingkungan kerja dalam Rapidminer disebut sebagai design
perspective yang dimana digunakan sebagai area kerja untuk
membuat dan mengolah data serta mengelola proses analisis.
Perspective ini memiliki beberapa view yang masing-masing
memiliki fungsi dan dapat mendukung dalam melakukan proses
analisis data mining. Seperti yang ditunjukkan pada gambar di
bawah ini :
49
Gambar 2. 6 : Design Perspective
- Operator View
Operator View merupakan view yang paling penting pada
perspektif ini. Semua operator atau langkah kerja dari rapidminer
disajikan dalam bentuk kelompok hirarki di Operator View ini
sehingga operator-operator tersebut dapat digunakan pada proses
analisis, Seperti yang ditunjukkan pada gambar 2.5. Hal ini akan
memudahkan anda dalam mencari dan menggunakan operator yang
sesuai dengan kebutuhan anda. Pada operator view ini terdapat
beberapa kelompok operator sebagai berikut :
Proses Control : Operator ini terdiri dari operator perulangan
dan percabangan yang dapat mengatur aliran proses.
Utility : Operator bantuan, seperti operator macros, loggin,
subproses, dan lain-lain.
Repository Access : Kelompok ini terdiri dari operator-
operator yang dapat digunakan untuk membaca atau menulis
akses pada repository.
Import : Kelompok ini terdiri dari banyak operator yang
dapat digunakan untuk membaca data dan objek dari format
tertentu seperti file, database, excel, dan lain-lain.
50
Export : Kelompok ini terdiri dari banyak operator yang
dapat digunakan untuk menulis data dan objek menjadi
format tertentu.
Data Transformation : Kelompok ini terdiri dari semua
operator yang berguna untuk transformasi data dan meta
data.
Modelling : Kelompok ini berisi proses data mining untuk
menerapkan model yang dihasilkan menjadi set data yang
baru.
Evaluation : Kelompok ini berisi operator yang dapat
digunakan untuk menghiting kualitas pemodelan dan untuk
data baru
51
Proses View menunjukkan langkah-langkah tertentu dalam proses
analisis dan sebagai penghubung langkah-langkah tersebut. anda
dapat menambah langkah baru dengan beberapa cara. hubungan
diantara langkah-langkah ini dapat dibuat dan dilepas kembali.
- Parameter View
Beberapa operator dalam rapidminer membutuhkan satu atau lebih
parameter agar dapat di indikasikan sebagai fungsionalitas yang
tepat. Terkadang ada kalanya parameter tidak mutlak dibutuhkan ,
meski eksekusi operator dapat dikendalikan dengan menunjukkan
nilai parameter.
- Pada saat memilih operator pada operator view atau proses view
maka jendela bantuan dalam help view akan menunjukkan
penjelasa. Penjelasan yang ditampilkan sebagai berikut :
Sebuah penjelasan singkat mengenai fungsi operator dalam
satu atau beberapa kalimat.
Sebuah penjelasan rinci mengenai fungsi operator.
Daftar semua parameter termasuk deskripsi singkat dari
parameter, nilai default (jika tersedia), petunjuk apakah
parameter ini adalah ahli serta indikasi parameter
dependensi.
- Problem & Log View
Problem adalah bagian yang penting serta sumber bantuan dalam
merancang proses analisis. setiap peringatan dan pesan kesalahan
jelas ditunjukkan dalam problem view.
52
BAB lll
METODE PENELITIAN
1. Data Set
Data set merupakan dataset public yang didapat melalui website publikasi
pemerintah yang disebut dengan SDGs
2. Preprocessing
Preprocessing dilakukan untuk memperbaiki dan menyesuaikan data agar
siap untuk dianalisis.
3. Seleksi Fitur
Seleksi fitur dilakukan untuk memilih variable penting yang sangat
berpengaruh, agar mendapatkan hasil prediksi yang maksimal.
4. Penerapan Algoritma
Algoritma yang digunakan yaitu random forest untuk memprediksikan
data agar mendapatkan hasil akurasi yang baik.
5. Hasil Evaluasi
Setelah semua proses pengolahan data sudah dilakukan maka akan
diperoleh hasil akhir, diharapkan dapat membantu sebagai sumber
informasi dalam meningkatkan kesehatan masyarakat berdasarkan
penggunaan alat kontrasepsi.
53
lll.3. Metode Pengumpulan Data
Metode pengumpulan data dibagi menjadi dua sumber data yaitu data
primer dan data sekunder. Data primer yaitu data yang dikumpulkan pertama kali,
dan untuk melihat apa yang sesungguhnya terjadi melalui observasi, interview,
quisioner, dll. Dalam penelitian ini metode pengumpulan data untuk mendapatkan
sumber data yang digunakan adalah metode pengumpulan data sekunder. Data
utama diperoleh dari website pemerintah sedangkan data pendukung lainnya
didapat dari buku, jurnal dan publikasi lainnya.
lll.5.
54
DAFTAR PUSTAKA
[3] S. T. Informatika et al., “e-ISSN 2614-8773 92,” vol. 3, no. 2, pp. 92–103,
2020.
55
Random Forest Dalam Driver Analysis,” Forum Stat. Dan Komputasi, vol.
16, no. 1, pp. 35–43, 2012, [Online]. Available:
http://journal.ipb.ac.id/index.php/statistika/article/view/5443
56