Anda di halaman 1dari 117

PENERAPAN METODE K-MEANS DAN C4.

5 UNTUK
PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN

SKRIPSI

Oleh:

SAKINATUL KUBRA
1810520048

PROGRAM STUDI ILMU KOMPUTER


FAKULTAS TEKNIK
UNIVERSITAS BUMIGORA
MATARAM
2022
PENERAPAN METODE K-MEANS DAN C4.5 UNTUK
PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN

SKRIPSI

Diajukan Sebagai Salah Satu Syarat untuk Memenuhi Kebulatan Studi


Jenjang Strata Satu (S1) Program Studi Ilmu Komputer
pada Universitas Bumigora

Oleh :

SAKINATUL KUBRA
1810520048

PROGRAM STUDI ILMU KOMPUTER


FAKULTAS TEKNIK
UNIVERSITAS BUMIGORA
MATARAM
2022
PENERAPAN METODE K-MEANS DAN C4.5 UNTUK
PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN

SKRIPSI

Diajukan Sebagai Salah Satu Syarat untuk Memenuhi Kebulatan Studi


Jenjang Strata Satu (S1) Program Studi Ilmu Komputer
pada Universitas Bumigora

Oleh :

SAKINATUL KUBRA
1810520048

Dekan Fakultas Teknik,

Ahmat Adil, M.Sc.


NIK.96.6.63
SKRIPSI

JUDUL : Penerapan Metode K-Means Dan C4.5 Untuk


Pengelompokkan Dan Klasifikasi Curah Hujan

NAMA : Sakinatul Kubra


NIM : 1810520048
NPM : 18.8.349.74.75.0.5.0048
PROGRAM STUDI : Ilmu Komputer
JENJANG : Strata Satu (S1)
DIUJIKAN : Kamis, 29 September 2022

Menyetujui,
Mayadi, M.Kom
Pembimbing

____________________________
Tanggal Menyetujui :

Telah diterima dan disetujui sebagai salah satu syarat untuk memperoleh
Gelar Akademik Sarjana Komputer (S.Kom)

Mengetahui:
Lilik Widyawati, M.Kom
Ketua Program Studi S1 Ilmu Komputer

____________________________
Tanggal Mengetahui :
PENERAPAN METODE K-MEANS DAN C4.5 UNTUK
PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN

LEMBAR PENGESAHAN PENGUJI

Diajukan Sebagai Salah Satu Syarat untuk Memenuhi Kebulatan Studi


Jenjang Strata Satu (S1) Program Studi Ilmu Komputer
Pada Universitas Bumigora

Oleh :

SAKINATUL KUBRA
1810520048

Disetujui oleh Penguji :

1. Dr. Dadang Priyanto, S.Kom., M.Kom


NIK. 99.7.108

2. Hairani, S.Kom., M.Eng.


NIK. 18.6.298
KATA PENGANTAR

Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas
berkat dan rahmat-Nya penulis dapat menyelesaikan skripsi yang berjudul
“Penerapan Metode K-Means Dan C4.5 Untuk Pengelompokkan Dan
Klasifikasi Curah Hujan”.
Dengan selesainya skripsi ini, penulis ingin mengucapkan terima kasih
kepada pihak – pihak yang telah banyak membantu dalam penyelesaian skripsi ini.
Dalam kesempatan ini penulis menyampaikan ucapan terimakasih kepada:
1. Bapak Dr. Ir. Anthony Anggrawan, MT., Ph.D. selaku Rektor Universitas
Bumigora dan dosen pembimbing dalam pengerjaan skripsi ini.
2. Ibu Dr. Helna Wardhana, M.Kom, selaku Wakil Rektor I Universitas
Bumigora.
3. Bapak Ahmat Adil, M.Sc, selaku Dekan Fakultas Teknik.
4. Ibu Lilik Widyawati, M.Kom. Selaku Ketua Program Studi S1 Ilmu Komputer.
5. Bapak Mayadi, M.Kom. selaku dosen pembimbing dalam mengerjakan skripsi
ini.
6. Seluruh keluarga tercinta, khususnya Ayah dan Ibu yang telah memberikan
dukungan materi dan moril.
7. Terimakasih kepada Mauiza Afriliani, Nina Hikma Yuni, Dan Vira Agriani
yang telah memberikan support dan menemani dalam pengerjaan skripsi ini.
8. Semua pihak yang membantu untuk terwujudnya skripsi ini yang tidak dapat
disebutkan satu persatu.
Penulis menyadari dengan sepenuhnya bahwa dalam penulisan skripsi ini
masih jauh dari kesempurnaan, maka penulis senantiasa mengharapkan kritik dan
saran yang sifatnya membangun untuk dapat lebih sempurnanya pembuatan skripsi
atau sejenisnya pada masa-masa yang akan datang. Akhirnya penulis berharap
semoga tulisan ini bermanfaat bagi semua pihak.

Mataram, 23 November 2022

Penulis

i
LEMBAR PERNYATAAN KEASLIAN

Saya yang bertandatangan di bawah ini:


Nama : Sakinatul Kubra
NIM : 1810520048
Program studi : Ilmu Komputer
Kompetensi : Rekayasa Perangkat Lunak
Menyatakan bahwa Skripsi yang berjudul:

PENERAPAN METODE K-MEANS DAN C4.5 UNTUK


PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN

Benar-benar merupakan hasil karya pribadi dan seluruh sumber yang dikutip
maupun dirujuk telah saya nyatakan dengan benar dan apabila di kemudian hari
terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka saya
bersedia menerima sanksi akademik sesuai dengan aturan yang berlaku.

Mataram, 23 November 2022

Sakinatul Kubra
NIM. 1810520048

ii
IZIN PENGGUNAAN

Skripsi ini merupakan syarat kelulusan pada Program Studi S1 Ilmu Komputer
Universitas Bumigora, dengan ini penulis setuju jika skripsi ini digandakan
(diduplikasi) baik sebagian maupun seluruhnya, ataupun dikembangkan untuk
kepentingan akademis yang disetujui oleh pembimbing penulis, Ketua Program
Studi, Dekan Fakultas Teknik dan Desain.
Untuk dimaklumi, bahwa menduplikasi, mempublikasikan atau menggunakan
skripsi ini, maupun bagian-bagiannya dengan tujuan komersial / keuntungan
finansial, tidak diizinkan tanpa adanya izin tertulis dari Universitas Bumigora. Jika
hal ini dilanggar maka Universitas Bumigora akan memberikan sanksi sesuai
dengan hukum yang berlaku.
Penghargaan akademis terkait isi dari skripsi ini adalah pada penulis dan
Universitas Bumigora.
Permintaan izin untuk menduplikasi atau menggunakan materi dari skripsi ini baik
sebagian maupun seluruhnya harus ditujukan pada :

Dekan Fakultas Teknik dan Desain


Ketua Program Studi S1 Ilmu Komputer
Universitas Bumigora

iii
ABSTRAK
Indonesia sebagai negara beriklim tropis memiliki 2 musim yakni musim
hujan serta musim kemarau. Karakteristik negara beriklim tropis juga memiliki
curah hujan yang tinggi. Namun dengan adanya pemanasan global, curah hujan di
berbagai wilayah Indonesia berfluktuasi setiap tahunnya. Tidak menutup
kemungkinan akan terjadinya anomali cuaca, sehingga terjadi pergeseran waktu
terjadinya musim hujan baik terjadi hujan lebih awal dari perkiraan maupun
terlambat dari perkiraan. Selain pergeseran musim hujan, anomali cuaca dapat
menyebabkan curah hujan menjadi tidak teratur dan terjadinya curah hujan yang
jauh lebih tinggi rata-rata ataupun curah hujan yang jauh lebih rendah dari rata-rata.
Adapun tujuan penelitian ini untuk melakukan pengelompokkan dan klasifikasi
curah hujan. Mengeksploitasi data untuk pengelompokkan dan klasifikasi akan
mampu menghasilkan informasi curah hujan untuk berbagai kepentingan.
Metodologi penelitian yang digunakan adalah metode CRISP-DM(Cross-
Industry Standard Process for Data Mining) sebagai strategi pemecahan masalah.
Penelitian ini menerapkan metode K-Means dan C4.5, metode K-Means untuk
mengelompokkan curah hujan ke dalam 3 jumlah cluster yaitu cluster 1 Ringan,
cluster 2 Sedang, cluster 3 Lebat. Berdasarkan hasil pengelompokkan curah hujan
dengan metode K-Means didapatkan hasil keanggotaan masing-masing cluster.
Hasil pengelompokkan tersebut akan dilakukan klasifikasi dengan metode C4.5
yang menjadikan hasil cluster setiap data sebagai class target. Jumlah record data
yang digunakan dalam perhitungan metode K-Means dan C4.5 berjumlah 273 data.
Berdasarkan penerapan dari metode K-Means, output dari penelitian ini
adalah didapatkan 112 data dengan intensitas curah hujan Ringan (cluster 1), 78
data dengan intensitas curah hujan sedang (cluster 2), dan 83 data dengan intensitas
curah hujan lebat (cluster 3). Pengujian yang digunakan dalam mengukur
performance K-Means adalah Davies Bouldin Index(DBI). Nilai Davies Bouldin
Index dari hasil pengujian tersebut adalah 0.188 yang berarti klaster yang dihasilkan
sudah baik. Semakin kecil nilai DBI, maka semakin baik cluster yang diperoleh
dari pengelompokkan K-Means clustering yang digunakan.
Kesimpulan dari pengelompokkan metode K-Means dilakukan prediksi
intensitas curah hujan dengan menerapkan metode C4.5 pada tools Jupyter
Notebook. Pada penelitian ini, hasil pengelompokkan menggunakan metode K-
Means memberikan pengaruh yang baik untuk prediksi pada metode C4.5,
berdasarkan evaluasi pengujian, metode C4.5 memperoleh accuracy 87% dari hasil
pengujian confusion matrix dan accuracy 85,29% dari hasil pengujian 10-fold cross
validation.

Kata kunci : Curah Hujan, Algoritma K-Means, Algoritma C4.5, Confusion


Matrix.

iv
DAFTAR ISI
KATA PENGANTAR ............................................................................................ I
LEMBAR PERNYATAAN KEASLIAN ........................................................... II
IZIN PENGGUNAAN ........................................................................................ III
ABSTRAK ........................................................................................................... IV
DAFTAR ISI ..........................................................................................................V
DAFTAR GAMBAR ......................................................................................... VII
DAFTAR TABEL ............................................................................................... IX
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ........................................................................................ 1
1.2 Rumusan Masalah ................................................................................... 4
1.3 Batasan Masalah...................................................................................... 4
1.4 Tujuan Dan Manfaat ............................................................................... 5
1.5 Metodologi Penelitian ............................................................................. 6
1.5.1 Tahap Pengumpulan Data ............................................................... 6
1.5.2 Tahap pengembangan system ......................................................... 6
1.6 Sistematika Penulisan ............................................................................. 8
BAB II LANDASAN TEORI ............................................................................. 10
2.1 Profil Sejarah Badan Meteorologi, Klimatologi Dan Geofisika ........... 10
2.1.1 Sejarah ........................................................................................... 10
2.1.2 Visi Misi ........................................................................................ 12
2.1.3 Tugas Dan Fungsi ......................................................................... 14
2.1.4 Struktur Organisasi ....................................................................... 16
2.1.5 Pelayanan Data .............................................................................. 17
2.2 Curah Hujan .......................................................................................... 18
2.3 Data Mining .......................................................................................... 18
2.3.1 Pengertian Data Mining ................................................................ 18
2.3.2 Pengelompokkan Data Mining...................................................... 18
2.4 Clustering .............................................................................................. 20
2.5 Klasifikasi ............................................................................................. 20
2.6 Algoritma K-Means ............................................................................... 20
2.7 Algoritma C4.5 ...................................................................................... 21
2.8 Flowchart .............................................................................................. 21
2.9 PHP ....................................................................................................... 22
2.10 MYSQL ................................................................................................. 23
2.11 XAMPP ................................................................................................. 23
2.12 Confusion Matrix .................................................................................. 24
2.13 Jupyter Notebook .................................................................................. 24
BAB III METODOLOGI ................................................................................... 25
3.1 Pemahaman Bisnis (Bussiness Understanding) .................................... 25
3.2 Pemahaman Data (Data Understanding) .............................................. 26
3.2.1 Pengumpulan data awal (Collect Initial Data) ............................. 26
3.2.2 Mendeskripsikan Data (Describe Data)........................................ 28
3.2.3 Verikasi Kualitas Data (Verify Data Quality) ............................... 28
3.3 Persiapan Data (Data Preparation) ...................................................... 30

v
3.3.1 Pemilihan Data (Select Data) ........................................................ 30
3.3.2 Pembersihan data (Data Cleaning) ............................................... 31
3.3.3 Pembuatan Dataset dan Normalisasi Data (Data Normalization) 33
3.4 Pemodelan (Modelling) ......................................................................... 36
3.4.1 Pemilihan Algoritma ..................................................................... 36
3.4.2 Perhitungan Manual Algoritma ..................................................... 36
3.5 Evaluasi (Evaluation) ............................................................................ 61
3.1.1 Evaluasi Davies Bouldin Index (DBI) ........................................... 61
3.1.2 Evaluasi 10-Fold Cross Validation ............................................... 62
3.6 Penyebaran (Deployment) ..................................................................... 63
3.7 Analisa Kebutuhan Sistem .................................................................... 63
3.8 Perancangan Flowchart Sistem ............................................................. 64
3.8.1 Flowchart K-Means ....................................................................... 64
3.8.2 Flowchart C4.5 .............................................................................. 65
3.9 Struktur Tabel........................................................................................ 66
3.10 Desain Antar Muka (Interface) ............................................................. 68
BAB IV HASIL DAN PEMBAHASAN ............................................................ 72
4.1 Fitur Interface Aplikasi K-Means Clustering ....................................... 72
4.1.1 Halaman Login .............................................................................. 72
4.1.2 Tampilan Menu Dataset K-Means Clustering............................... 73
4.1.3 Tampilan Menu Menentukan Pusat Cluster.................................. 74
4.1.4 Tampilan Menu Perhitungan K-Means ......................................... 74
4.1.5 Tampilan Menu Hasil K-Means Clustering .................................. 76
4.2 Prediksi C4.5 Pada Jupyter Notebook ................................................... 89
4.2.1 Memasukkan Library .................................................................... 89
4.2.2 Import Dataset .............................................................................. 89
4.2.3 Menampilkan Dataset ................................................................... 90
4.2.4 Melihat Informasi Atribut Pada Dataset ....................................... 90
4.2.5 Mengecek Missing Value .............................................................. 91
4.2.6 Menentukan Atribut Yang Akan Di Prediksi ................................ 92
4.2.7 Deklarasi Pemisahan Data Fitur Dan Data Label ......................... 92
4.2.8 Split Dataset .................................................................................. 92
4.2.9 Visualisasi Model Tree ................................................................. 93
4.2.10 Visualisasi Decision Tree .............................................................. 93
4.2.11 Menampilkan Data Testing ........................................................... 94
4.2.12 Menampilkan data Prediksi ........................................................... 94
4.2.13 Menyimpan dan menampilkan hasil prediksi ............................... 95
4.2.14 Pengujian Performa Model Decision Tree .................................... 95
4.2.15 Performance Model ....................................................................... 97
BAB V PENUTUP ............................................................................................. 100
5.1 Kesimpulan ......................................................................................... 100
5.2 Saran .................................................................................................... 100
DAFTAR PUSTAKA ........................................................................................ 102

vi
DAFTAR GAMBAR

Gambar 1.1 Model CRIPS-DM ....................................................................... 7


Gambar 2.1 Struktur Organisasi BMKG BIZAM-Lombok ............................. 16
Gambar 2.2 Alur Pelayanan Data..................................................................... 17
Gambar 3.1 CRIPS-DM ................................................................................... 25
Gambar 3.2 Decision Tree Root ....................................................................... 58
Gambar 3.3 Decision Tree ............................................................................... 60
Gambar 3.4 Evaluasi K-Means ........................................................................ 61
Gambar 3.5 Susunan Cross Validation ............................................................ 62
Gambar 3.6 Desain Operator Cross Validation............................................... 62
Gambar 3.7 Hasil Performance Model C4.5 ................................................... 62
Gambar 3.8 Flowchart K-Means ...................................................................... 64
Gambar 3.9 Flowchart Algoritma C4.5 ........................................................... 65
Gambar 3.10 Diagram Use Case...................................................................... 66
Gambar 3.11 Tampilan Login .......................................................................... 68
Gambar 3.12 Tampilan Halaman Dataset ........................................................ 69
Gambar 3.13 Tampilan Penentuan Cluster ...................................................... 70
Gambar 3.14 Tampilan Perhitungan K-Means................................................. 70
Gambar 3.15 Tampilan Hasil K-Means ........................................................... 71
Gambar 4.1 Form Halaman Login ................................................................... 72
Gambar 4.2 Form Halaman Dataset ................................................................ 73
Gambar 4.3 Form Halaman Penentuan Cluster ............................................... 74
Gambar 4.4 Form Halaman Perhitungan K-Means .......................................... 75
Gambar 4.5 Hasil Akhir Perhitungan K-Means ............................................... 88
Gambar 4.6 Import Library .............................................................................. 89
Gambar 4.7 Import Dataset.............................................................................. 89
Gambar 4.8 Syntax Menampilkan Dataset....................................................... 90
Gambar 4.9 Output DataFrame ....................................................................... 90
Gambar 4.10 Syntax Info Atribut .................................................................... 90
Gambar 4.11 Menampilkan Informasi Dataset ................................................ 91
Gambar 4.12 Syntax Cek Missing Value ......................................................... 91
Gambar 4.13 Tidak Ada Missing Value ........................................................... 91
Gambar 4.14 Menampilkan Atribut Target ..................................................... 92
Gambar 4.15 Deklarasi Data Training Dan Data Testing ................................ 92
Gambar 4.16 Split Data.................................................................................... 92
Gambar 4.17 Deklarasi Decision Tree ............................................................. 93
Gambar 4.18 Visualisasi Model Tree............................................................... 93
Gambar 4.19 Decision Tree ............................................................................. 93
Gambar 4.20 Tampilan 10 Record Data Testing Teratas ................................. 94
Gambar 4.21 Syntax Proses Prediksi ............................................................... 94
Gambar 4.22 Menampilkan Hasil Prediksi ...................................................... 94
Gambar 4.23 Syntax proses perbandingan ....................................................... 95
Gambar 4.24 Perbandingan data testing dan prediksi ...................................... 95
Gambar 4.25 Import Library Sklearn .............................................................. 95

vii
Gambar 4.26 Syntax Menampilkan Confusion Matrix .................................... 96
Gambar 4.27 Tampilan Confusion Matrix ....................................................... 96
Gambar 4.28 Syntax Classification Report...................................................... 97
Gambar 4.29 Tampilan Output Classification Report ..................................... 97
Gambar 4.30 Hasil Accuracy ........................................................................... 99

viii
DAFTAR TABEL

Tabel 2.1 Simbol-Simbol Flowchart ................................................................ 22


Tabel 2.2 Tabel Confusion Matrix ................................................................... 24
Tabel 3.1 Data BMKG ..................................................................................... 27
Tabel 3.2 Deklarasi Atribut .............................................................................. 28
Tabel 3.3 Dataset .............................................................................................. 29
Tabel 3.4 Atribut Pada Dataset ........................................................................ 30
Tabel 3.5 Data Setelah Dilakukan Penghapusan Missing Value...................... 32
Tabel 3.6 Dataset .............................................................................................. 34
Tabel 3.7 Dataset Hasil Normalisasi ................................................................ 35
Tabel 3.8 Kategori Cluster ............................................................................... 36
Tabel 3.9 Inisialisasi Pusat Cluster .................................................................. 37
Tabel 3.10 Perhitungan Euclidean Distance .................................................... 46
Tabel 3.11 Pengelompokkan Data Berdasarkan Masing-Masing Cluster ....... 47
Tabel 3.12 Hasil Akhir Perhitungan K-Means ................................................. 48
Tabel 3.13 Deskripsi Hasil Setiap CLuster ...................................................... 48
Tabel 3.14 Data Training ................................................................................. 50
Tabel 3.15 Data Testing ................................................................................... 50
Tabel 3.16 Deklarasi Total Kasus .................................................................... 51
Tabel 3.17 Hasil Perhitungan Entropy ............................................................. 55
Tabel 3.18 Hasil Perhitungan Nilai Gain ......................................................... 57
Tabel 3.19 Perhitungan Entropy Dan Gain ...................................................... 59
Tabel 3.20 Hasil Klasifikasi C4.5 ................................................................... 60
Tabel 3.21 Database User ................................................................................ 66
Tabel 3.22 Database Curah Hujan ................................................................... 67
Tabel 4.1 Hasil Confusion Matrix .................................................................... 97
Tabel 4.2 Matrix Curah Hujan Lebat ............................................................... 98
Tabel 4.3 Matrix Curah Hujan Ringan ............................................................. 98
Tabel 4.4 Matrix Curah Hujan Sedang ............................................................ 99

ix
BAB I
PENDAHULUAN
1.1 Latar Belakang
Indonesia sebagai negara beriklim tropis memiliki 2 musim yakni
musim hujan serta musim kemarau (Rahayu et al., 2018). Karakteristik
negara beriklim tropis juga memiliki curah hujan yang tinggi. Namun
dengan adanya pemanasan global, curah hujan di berbagai wilayah
Indonesia berfluktuasi setiap tahunnya. Tidak menutup kemungkinan akan
terjadinya anomali cuaca, sehingga terjadi pergeseran waktu terjadinya
musim hujan baik terjadi hujan lebih awal dari perkiraan maupun terlambat
dari perkiraan. Selain pergeseran musim hujan, anomali cuaca dapat
menyebabkan curah hujan menjadi tidak teratur dan terjadinya curah hujan
yang jauh lebih tinggi rata-rata ataupun curah hujan yang jauh lebih rendah
dari rata-rata.
Berdasarkan kesepakatan internasional di seluruh dunia menyatakan
bahwa curah hujan mempunyai peran yang sangat penting baik dalam dunia
penerbangan, meteorologi dan yang lainnya (Ruswanti, 2020). Dalam
proses pembuatan informasi data curah hujan yang sulit karena harus
melibatkan banyak sumber data, antara lain data pengamatan, data suatu
model aplikasi cuaca, data gambar tentang kondisi awan pada satelit, data
kondisi awan pada radar. Berdasarkan permasalahan diatas, perlu dilakukan
pengolahan data yang efektif dan efisien dalam pengambilan keputusan
untuk memberikan layanan informasi secara cepat dan meningkatkan
kualitas informasi yang disampaikan. Adapun tujuan penelitian ini untuk
melakukan pengelompokkan dan klasifikasi curah hujan curah hujan.
Mengeksploitasi data untuk pengelompokkan dan klasifikasi akan mampu
menghasilkan informasi curah hujan untuk berbagai kepentingan.
Dalam melakukan pengelompokkan dan klasifikasi curah hujan,
alternative yang dapat digunakan adalah menerapkan ilmu data mining.
Data mining merupakan suatu proses untuk menggali dan mengetahui suatu
nilai tambah berupa informasi yang selama ini tidak bisa diketahui secara

1
2

manual pada basis data. Informasi tersebut dihasilkan dengan cara


mengekstraksi dan mengenali pola yang penting atau menarik dari data yang
terdapat pada basis data (Putri, 2021).
Teknik data mining yang diterapkan dalam penelitian ini
menggunakan metode K-Means untuk melakukan clustering dan
menerapkan metode C4.5 untuk klasifikasi. Algoritma K-Means terbukti
sangat baik dalam penerapannya dan banyak diterapkan oleh komunitas
riset data mining dan berbagai macam aplikasi kecil hingga menengah
karena kemudahan implementasinya (Alfonita, 2018). Metode C4.5 dipilih
karena proses learning dan klasifikasi pada algoritma C4.5 sederhana dan
cepat. Kelebihan dari algoritma ini yaitu mudah dimengerti, fleksibel, dan
sangat menarik karena hasil klasifikasi dapat divisualisasikan dalam bentuk
gambar (pohon keputusan) sehingga mudah diinterpretasikan untuk
pemecahan masalah. Model algoritma C4.5 menghasilkan pohon keputusan
yang memiliki tingkat akurasi yang tinggi dan performa yang cepat (Asmaul
Husnah Nasrullah, 2018).
Kombinasi dari algoritma clustering dan klasifikasi memiliki peran
masing-masing. Algoritma clustering yaitu K-Means berperan melakukan
pemetaan berupa cluster dan hasilnya kemudian diproses menggunakan
algoritma klasifikasi yaitu C4.5 untuk melihat nilai aturan dari klasifikasi
berupa pohon keputusan. Hasil dari kombinasi algoritma tersebut dapat
digunakan untuk kebutuhan tertentu dan memberikan pengetahuan baru
yaitu informasi mengenai klasterisasi dan visualisasi pohon keputusan.
Berdasarkan hal tersebut yang menjadi dasar penulis tertarik untuk
mengkombinasikan metode K-Means dan C4.5 pada kasus
pengelompokkan dan klasifikasi curah hujan.
Berdasarkan penelitian yang dilakukan oleh Elly Muningsih 2018
yang berjudul Komparasi Metode Clustering K-Means Dan K-Medoids
Dengan Model Fuzzy RFM Untuk Pengelompokan Pelanggan yang dimana
metode K-Means dan K-Medoids dengan model Fuzzy RFM terbukti bahwa
metode K-Means lebih baik dari metode K-Medoids. Pada penelitian ini
3

Metode K-Means menghasilkan akurasi 90,47% (- AMIK BSI Yogyakarta,


2018).
Clustering curah hujan dibagi menjadi 3 cluster yaitu Ringan,
Sedang, dan Lebat. Clustering dilakukan sebagai sumber informasi BMKG
dalam mengetahui curah hujan. Klasifikasi curah hujan merupakan salah
satu tantangan besar dalam bidang meteorologi yang telah banyak dijadikan
subjek penelitian (Pratama et al., 2022). Pengalompokkan curah hujan
sebagai unsur cuaca penting untuk dilakukan untuk menghasilkan informasi
yang tepat dan akurat.
Perancangan model metode data mining dilakukan dengan tujuan
untuk kebutuhan informasi dan untuk menguji seberapa baik performa
pemodelan metode K-Means dan Metode C4.5 dalam melakukan
pengelompokkan dan klasifikasi curah hujan. Data yang digunakan adalah
data yang diambil dari Stasiun Meteorologi Kelas II Zainuddin Abdul
Madjid pada tahun 2020 hingga 2022. Pengelompokkan dan klasifikasi
didasarkan dari data meteorologi yang diperoleh dari Stasiun
Meteorologi Kelas II Zainuddin Abdul Madjid dengan koordinat
pengambilan data adalah 08°45'54" LS dan 116°17'05" BT. Dengan
menerapkan metode K-Means dan C4.5 diharapkan hasilnya dapat
berguna sebagai layanan informasi di Bandara Internasional Zainuddin
Abdul Madjid (BIZAM) Lombok.
Terdapat penelitian sebelumnya yang berkaitan dengan curah hujan
yaitu dilakukan oleh Rofiq 2020 dengan judul Penerapan Data Mining
Untuk Menentukan Potensi Hujan Harian Dengan Menggunakan Algoritma
K-Nearest Neighbor (KNN). Penelitian tersebut mengklasifikasikan secara
otomatis dikembangkan dengan menerapkan metode (KNN) berdasarkan
hasil Analisis data cuaca dalam menentukan apakah cuaca tidak hujan,
cuaca hujan atau hujan lebat (Rofiq et al., 2020).
Penelitian lain dilakukan oleh Alfonita 2018 dengan judul
Penerapan Algoritma K-Means Dalam Pengelompokan Curah Hujan Di
Daerah Jabodetabek, penelitian ini pengelompokan data curah hujan di
4

JABODETABEK menggunakan algoritma K-Means. Data curah hujan


dapat dikelompokkan menggunakan algoritma K- Means dan perhitungan
jarak Euclidean Distance menjadi 2 kelompok yaitu, curah hujan tinggi dan
rendah (Alfonita, 2018).
Sedangkan penelitian yang akan diteliti oleh penulis menggunakan
algoritma K-Means untuk melakukan pengelompokkan tingkat curah hujan
ringan, sedang, dan lebat yang implementasinya menggunakan aplikasi
berbasis web. Kemudian dari hasil pengelompokkan K-Means dilakukan
penerapan algoritma C4.5 untuk klasifikasi curah hujan dengan
menggunakan tools Jupyter Notebook dengan parameter antara lain tahun,
bulan, tanggal, T rata-rata, T max, T min, ch (mm), Penyinaran matahari,
peristiwa cuaca khusus, tekanan udara, RH rata-rata, kecepatan angin rata-
rata (Kts).
Berdasarkan uraian diatas, penulis tertarik untuk melakukan
penelitian yang berjudul “PENERAPAN METODE K-MEANS DAN
C4.5 UNTUK PENGELOMPOKKAN DAN KLASIFIKASI CURAH
HUJAN DALAM NAVIGASI PENERBANGAN”.
1.2 Rumusan Masalah
Berdasarkan latar belakang yang diuraikan diatas dapat dirumuskan
permasalahannya yaitu bagaimana membangun sistem untuk
pengelompokkan menggunakan metode K-Means dan penerapan metode
C4.5 untuk klasifikasi curah hujan menggunakan tools Jupyter Notebook?
1.3 Batasan Masalah
1. Daerah yang digunakan untuk penelitian adalah pada Bandara
Internasional Zainuddin Abdul Madjid (BIZAM).
2. Data yang digunakan merupakan data cuaca pada Badan Meteorologi
Klimatologi, dan Geofisika (BMKG) BIZAM dengan rentang waktu
dari tanggal 01 Januari 2020 hingga 31 Agustus 2022.
3. Penelitian ini menggunakan 2 algoritma yaitu algoritma K-Means dan
algoritma C4.5.
5

4. Atribut yang digunakan dalam penelitian ini antara lain Tanggal, T Rata-
Rata, T Max, T Min, CH, Penyinaran Matahari, Tekanan Udara, RH
Rata-Rata, dan Kecepatan Angin Rata-Rata.
5. Terdapat 3 cluster dalam pengelompokkan curah hujan yaitu : Ringan,
Sedang dan Lebat.
6. Pengelompokkan curah hujan dengan motode K-Means menggunakan
aplikasi berbasis web dan klasifikasi curah hujan metode C4.5
menggunakan Tools Jupter Notebook.
1.4 Tujuan Dan Manfaat
Adapun tujuan dan manfaat yang diharapkan dengan dilakukannya
penelitian sebagai berikut :
i. Tujuan
Tujuan penelitian ini adalah untuk penerapan metode K-
Means pada aplikasi berbasis web dan penerapan metode C4.5
menggunakan tools Jupyter Notebook untuk melakukan klasifikasi
curah hujan.
ii. Manfaat
Adapun manfaat dari penelitian ini adalah sebagai berikut :
1. Bagi Penulis
Meningkatkan kemampuan mahasiswa untuk
menganalisa suatu masalah ke dalam sebuah sistem sehingga
mampu membuat sistem aplikasi yang sesuai dan dapat
memaksimalkan kemampuan penulis dalam menggali potensi-
potensi yang dimiliki.
2. Bagi Pembaca
Memberikan wawasan bagi pembaca tentang
pengelompokkan dan klasifikasi curah hujan dan sebagai
perbandingan bagi pembaca untuk dijadikan referensi dalam
menyusun skripsi dikemudian hari.
6

3. Bagi instansi
Memberikan solusi alternatif untuk memudahkan
BMKG dalam mengetahui informasi terhadap pengelompokkan
dan klasifikasi terjadinya intensitas curah hujan.
1.5 Metodologi Penelitian
1.5.1 Tahap Pengumpulan Data
1. Studi literatur
Teknik pengumpulan data yang dilakukan oleh penulis
berdasarkan beberapa referensi dari penelitian sebelumnya yang dikutip
melalui jurnal, artikel dan buku.
2. Internet Searching
Teknik pengumpulan data yang dilakukan oleh penulis melalui
internet untuk mendapatkan referensi yang dibutuhkan dalam penelitian.
1.5.2 Tahap pengembangan system
CRISP-DM (Cross-Industry Standard Process for Data Mining)
merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa
tahun 1996 kemudian sudah ditetapkan sebagai suatu proses standar dalam
data mining untuk dapat diaplikasikan pada berbagai sektor industri.
Metode CRISP-DM menjadi standar proses pada data mining untuk strategi
pemecahan masalah secara umum pada bisnis atau unit dalam penelitian.
CRISP-DM adalah suatu metode yang menggunakan model proses
pengembangan pada data yang telah banyak diterapkan oleh para ahli riset
untuk memecahkan masalah dalam penelitian. Proses penelitian ini
mengacu pada enam tahap CRISP-DM yaitu pemahaman bisnis,
pemahaman data, persiapan data, pemodelan, evaluasi dan penyebaran.
7

Gambar 1.1 Model CRIPS-DM

Menurut (Suhada et al., 2021), penjelasan mengenai fase dalam


model CRIPS-DM sebagai berikut :
1. Business Understanding
Fase Busines Understanding adalah awal dari proses CRISP-
DM yang merupakan pemahaman terhadap tujuan bisnis, penelitian
situasi dan menerjemahkan tujuan bisnis kedalam tujuan data mining.
2. Data Understanding
Fase Data Understanding ini dilakukan proses pengumpulan
data dan melakukan analisis data dan evaluasi kualitas data untuk
mengenali data lebih lanjut dan mencari pengetahuan awal.
3. Data Preparation
Fase Data Preparation ini dilakukan proses penyusunan dataset
final atau dataset yang nantinya akan dijadikan inputan kedalam
modeling data mining. Tahapan dalam data preparation yaitu pemilihan
data, transformasi data, dan pembersihan data.
4. Modeling
Fase Modeling ini dilakukan sesuai teknik pemodelan yang
dipilih yang nantinya akan diterapkan pada dataset yang sudah
disiapkan untuk mengatasi kebutuhan bisnis yang sesuai.
8

5. Evaluation
Fase Evaluasi ini menguji model yang sudah dibuat dan
dilakukan evaluasi keakuratan dan generalitasnya. Tahapan ini
dilakukan untuk mengukur sejauh mana model yang telah dipilih
memenuhi sasaran bisnis dan bila demikian, apakah perlu lebih banyak
model untuk dibuat lagi.
6. Deployment
Fase Deployment merupakan penyusunan laporan atau
presentasi dari modelling serta evaluation pada proses data mining.

1.6 Sistematika Penulisan


Sistematika penulisan skripsi ini dibagi menjadi 5 (lima) bab yang
masing-masing bab telah dirancang dan disusun sesuai fungsinya masing-
masing dalam mencapai suatu tujuan tertentu. berikut ini adalah penjelasan
dari masing-masing bab :
BAB I : PENDAHULUAN
Bab ini menjelaskan latar belakang, masalah, rumusan
masalah, batasan, tujuan dan manfaat penelitian, metodologi
penelitian dan sistematika penulisan.
BAB II : LANDASAN TEORI
Pada Bab ini berisi tentang landasan teori dari berbagai
sumber referensi yang digunakan dalam proses perancangan
pada penelitian, pembuatan sistem informasi dan teori-teori
yang berhubungan dengan sistem informasi lainnya.
BAB III : METODOLOGI DAN PERANCANGAN SISTEM
Pada bab ini menjelaskan tentang analisis, perancangan, dan
hal-hal yang berhubungan dengan pengembangan uji coba
sistem informasi.
BAB IV : HASIL DAN PEMBAHASAN
Pada bab ini berisi hasil yang sudah dicapai serta
pembahasan, hasil pengujian dan tampilan sistem informasi.
9

BAB V : PENUTUP
Pada bab ini terdapat kesimpulan dan saran yang berisikan
hal-hal terpenting yang dibahas dan kemudian dijadikan
kesimpulan. Bab ini juga berisi saran-saran yang digunakan
untuk pengembangan aplikasi.
BAB II
LANDASAN TEORI

2.1 Profil Sejarah Badan Meteorologi, Klimatologi Dan Geofisika


2.1.1 Sejarah
Sejarah pengamatan meteorologi dan geofisika di Indonesia dimulai
pada tahun 1841 diawali dengan pengamatan yang dilakukan secara
perorangan oleh Dr. Onnen, Kepala Rumah Sakit di Bogor. Tahun demi
tahun kegiatannya berkembang sesuai dengan semakin diperlukannya data
hasil pengamatan cuaca dan geofisika (Www.bmkg.go.id, 2022).
Pada tahun 1866, kegiatan pengamatan perorangan tersebut oleh
Pemerintah Hindia Belanda diresmikan menjadi instansi pemerintah dengan
nama Magnetisch en Meteorologisch Observatorium atau Observatorium
Magnetik dan Meteorologi dipimpin oleh Dr. Bergsma.
Pada tahun 1879 dibangun jaringan penakar hujan sebanyak 74
stasiun pengamatan di Jawa. Pada tahun 1902 pengamatan medan magnet
bumi dipindahkan dari Jakarta ke Bogor. Pengamatan gempa bumi dimulai
pada tahun 1908 dengan pemasangan komponen horisontal seismograf
Wiechert di Jakarta, sedangkan pemasangan komponen vertikal
dilaksanakan pada tahun 1928.
Pada tahun 1912 dilakukan reorganisasi pengamatan meteorologi
dengan menambah jaringan sekunder. Sedangkan jasa meteorologi mulai
digunakan untuk penerangan pada tahun 1930.
Pada masa pendudukan Jepang antara tahun 1942 sampai dengan
1945, nama instansi meteorologi dan geofisika diganti menjadi Kisho Kauso
Kusho.
Setelah proklamasi kemerdekaan Indonesia pada tahun 1945,
instansi tersebut dipecah menjadi dua: Di Yogyakarta dibentuk Biro
Meteorologi yang berada di lingkungan Markas Tertinggi Tentara Rakyat
Indonesia khusus untuk melayani kepentingan Angkatan Udara. Di Jakarta

10
11

dibentuk Jawatan Meteorologi dan Geofisika, dibawah Kementerian


Pekerjaan Umum dan Tenaga.
Pada tanggal 21 Juli 1947 Jawatan Meteorologi dan Geofisika
diambil alih oleh Pemerintah Belanda dan namanya diganti menjadi
Meteorologisch en Geofisiche Dienst. Sementara itu, ada juga Jawatan
Meteorologi dan Geofisika yang dipertahankan oleh Pemerintah Republik
Indonesia, kedudukan instansi tersebut di Jl. Gondangdia, Jakarta.
Pada tahun 1949, setelah penyerahan kedaulatan negara Republik
Indonesia dari Belanda, Meteorologisch en Geofisiche Dienst diubah
menjadi Jawatan Meteorologi dan Geofisika dibawah Departemen
Perhubungan dan Pekerjaan Umum. Selanjutnya, pada tahun 1950
Indonesia secara resmi masuk sebagai anggota Organisasi Meteorologi
Dunia (World Meteorological Organization atau WMO) dan Kepala
Jawatan Meteorologi dan Geofisika menjadi Permanent Representative of
Indonesia with WMO.
Pada tahun 1955 Jawatan Meteorologi dan Geofisika diubah
namanya menjadi Lembaga Meteorologi dan Geofisika di bawah
Departemen Perhubungan, dan pada tahun 1960 namanya dikembalikan
menjadi Jawatan Meteorologi dan Geofisika di bawah Departemen
Perhubungan Udara.
Pada tahun 1965, namanya diubah menjadi Direktorat Meteorologi
dan Geofisika, kedudukannya tetap di bawah Departemen Perhubungan
Udara. Pada tahun 1972, Direktorat Meteorologi dan Geofisika diganti
namanya menjadi Pusat Meteorologi dan Geofisika, suatu instansi setingkat
eselon II di bawah Departemen Perhubungan, dan pada tahun 1980
statusnya dinaikkan menjadi suatu instansi setingkat eselon I dengan nama
Badan Meteorologi dan Geofisika, dengan kedudukan tetap berada di bawah
Departemen Perhubungan. Pada tahun 2002, dengan keputusan Presiden RI
Nomor 46 dan 48 tahun 2002, struktur organisasinya diubah menjadi
Lembaga Pemerintah Non Departemen (LPND) dengan nama tetap Badan
Meteorologi dan Geofisika.
12

Terakhir, melalui Peraturan Presiden Nomor 61 Tahun 2008, Badan


Meteorologi dan Geofisika berganti nama menjadi Badan Meteorologi,
Klimatologi, dan Geofisika (BMKG) dengan status tetap sebagai Lembaga
Pemerintah Non Departemen. Pada tanggal 1 Oktober 2009 Undang-
Undang Republik Indonesia Nomor 31 Tahun 2009 tentang Meteorologi,
Klimatologi dan Geofisika disahkan oleh Presiden Republik Indonesia,
Susilo Bambang Yudhoyono. (unduh Penjelasan UU RI Nomor 31 Tahun
2009).
2.1.2 Visi Misi
Dalam rangka mendukung dan mengemban tugas pokok dan fungsi
serta memperhatikan kewenangan BMKG agar lebih efektif dan efisien,
maka diperlukan aparatur yang profesional, bertanggung jawab dan
berwibawa serta bebas dari Korupsi, Kolusi, dan Nepotisme (KKN),
disamping itu harus dapat menjunjung tinggi kedisiplinan, kejujuran dan
kebenaran guna ikut serta memberikan pelayanan informasi yang cepat,
tepat dan akurat. Oleh karena itu kebijakan yang akan dilakukan BMKG
Tahun 2010-2014 adalah mengacu pada Visi, Misi, dan Tujuan BMKG
yang telah ditetapkan.
a) Visi
Mewujudkan BMKG yang handal, tanggap dan mampu dalam
rangka mendukung keselamatan masyarakat serta keberhasilan
pembangunan nasional, dan berperan aktif di tingkat Internasional.
Terminologi di dalam visi tersebut dapat dijelaskan sebagai berikut :
a. Pelayanan informasi meteorologi, klimatologi, kualitas udara, dan
geofisika yang handal ialah pelayanan BMKG terhadap penyajian data,
informasi pelayanan jasa meteorologi, klimatologi, kualitas udara, dan
geofisika yang akurat, tepat sasaran, tepat guna, cepat, lengkap, dan
dapat dipertanggungjawabkan
b. Tanggap dan mampu dimaksudkan BMKG dapat menangkap dan
merumuskan kebutuhan stakeholder akan data, informasi, dan jasa
13

meteorologi, klimatologi, kualitas udara, dan geofisika serta mampu


memberikan pelayanan sesuai dengan kebutuhan pengguna jasa;
b) Misi
Dalam rangka mewujudkan Visi BMKG, maka diperlukan visi
yang jelas yaitu berupa langkah-langkah BMKG untuk mewujudkan
Misi yang telah ditetapkan yaitu :
1. Mengamati dan memahami fenomena meteorologi, klimatologi,
kualitas udara dan geofisika.
2. Menyediakan data, informasi dan jasa meteorologi, klimatologi,
kualitas udara dan geofisika yang handal dan terpercaya.
3. Mengkoordinasikan dan memfasilitasi kegiatan di bidang
meteorologi, klimatologi , kualitas udara dan geofisika.
4. Berpartisipasi aktif dalam kegiatan internasional di Bidang
meteorologi, klimatologi , kualitas udara dan geofisika.
Secara lebih rinci, maksud dari pernyataan misi di atas adalah
sebagai berikut :
a. Mengamati dan memahami fenomena meteorologi, klimatologi,
kualitas udara, dan geofisika artinya BMKG melaksanakan
operasional pengamatan dan pengumpulan data secara teratur,
lengkap dan akurat guna dipakai untuk mengenali dan memahami
karakteristik unsur-unsur meteorologi, klimatologi, kualitas udara,
dan geofisika guna membuat prakiraan dan informasi yang akurat;
b. Menyediakan data, informasi dan jasa meteorologi, klimatologi,
kualitas udara, dan geofisika kepada para pengguna sesuai dengan
kebutuhan dan keinginan mereka dengan tingkat akurasi tinggi dan
tepat waktu;
c. Mengkoordinasi dan Memfasilitasi kegiatan sesuai dengan
kewenangan BMKG, maka BMKG wajib mengawasi pelaksanaan
operasional, memberi pedoman teknis, serta berwenang untuk
mengkalibrasi peralatan meteorologi, klimatologi, kualitas udara,
dan geofisika sesuai dengan peraturan yang berlaku;
14

d. Berpartisipasi aktif dalam kegiatan internasional artinya BMKG


dalam melaksanakan kegiatan secara operasional selalu mengacu
pada ketentuan internasional mengingat bahwa fenomena
meteorologi, klimatologi, kualitas udara, dan geofisika tidak terbatas
dan tidak terkait pada batas batas wilayah suatu negara manapun.
2.1.3 Tugas Dan Fungsi
Sesuai Peraturan Kepala Badan Meteorologi, Klimatologi dan
Geofisika Nomor 9 TAHUN 2014 Tentang Uraian Tugas Stasiun
Meteorologi, BAB II Pasal 4 bahwa Stasiun meteorologi merupakan Unit
Pelaksana Teknis di lingkungan Badan Meteorologi, Klimatologi, dan
Geofisika yang berada dibawah dan bertanggung jawab kepada Kepala
Badan Meteorologi, Klimatologi, dan Geofisika. Adapun Tugas Pokok
Stasiun Meteorologi seperti termuat dalam Bab II pasal 6 adalah
melaksanakan pengamatan, pengelolaan data, pelayanan jasa dan tugas
penunjang meliputi pemeliharaan peralatan, kerja sama/koordinasi,
administrasi, dan tugas tambahan.
Uraian Tugas Stasiun Meteorologi Kelas II Zainuddin Abdul Madjid -
Lombok Tengah, NTB adalah sebagai berikut :
a. Pengamatan :
1. Melaksanakan pengamatan meteorologi permukaan secara terus-
menerus setiap 1 (satu) jam selama 24 (dua puluh empat) jam setiap
hari berdasarkan waktu standar internasional
2. Melaksanakan pengamatan meteorologi udara atas dengan
menggunakan pilot balon pada jam 00, 06 dan 12 UTC.
3. Melaksanakan penyandian data meteorologi permukaan setiap jam
pengamatan.
4. Melaksanakan penyandian data meteorologi udara atas pada waktu
dan jam sesuai dengan pengaturan operasi dan jam-jam pengamatan
00, 06, 12 UTC
5. Melaksanakan pengamatan cuaca khusus sesuai kebutuhan jaringan,
antara lain radar cuaca/hujan, dan penerima citra satelit cuaca
15

6. Melaksanakan pengamatan meteorologi permukaan menggunakan


peralatan di taman alat dan landas pacu untuk pelayanan
penerbangan (METAR, SPECI, MET REPORT, dan SPECIAL)
sesuai dengan ketentuan yang berlaku bagi stasiun meteorologi yang
memberikan layanan penerbangan
7. Melaksanakan pengamatan meteorologi paling sedikit terhadap
unsur-unsur: radiasi matahari, suhu udara, tekanan udara, angin,
kelembaban udara, awan, jarak pandang, curah hujan, penguapan di
stasiun meteorology
8. Melaksanakan kegiatan fam flight bagi stasiun meteorologi yang
memberikan layanan penerbangan
b. Mengelola Data
1. Melaksanakan pengiriman berita data sandi meteorologi permukaan
pada jam-jam 00, 03, 06, 09, 12, 15, 18, 21, UTC secara tepat waktu
2. Melaksanakan pengiriman berita data sandi meteorologi udara atas
pada jam-jam 00, 06, 12, 18, UTC secara tepat waktu.
3. Melaksanakan monitoring dan kualiti kontrol pengiriman berita data
sandi meteorologi permukaan dan udara atas sebagaimana dimaksud
pada huruf a dan huruf b.
4. Melaksanakan pengumpulan data meteorologi permukaan dan udara
atas untuk keperluan pemetaan dan analisis cuaca.
5. Melaksanakan pengumpulan produk informasi dan prakiraan cuaca,
produk Numerical Weather Prediction (NWP) dan/atau peringatan
dini dari Badan Meteorologi, Klimatologi, dan Geofisika Pusat
6. Melaksanakan pertukaran data dan informasi cuaca penerbangan,
sesuai ketentuan dan kebutuhan operasi penerbangan yang menjadi
tanggung jawabnya
7. Melaporkan kejadian-kejadian cuaca ekstrim di wilayah pelayanan
yang menjadi tanggung jawabnya ke Badan Meteorologi,
Klimatologi, dan Geofisika Pusat
16

8. Melaporkan keadaan cuaca pada saat terjadinya kecelakaan pesawat


ke Kepala Pusat Meteorologi Penerbangan dan Maritim Badan
Meteorologi, Klimatologi, dan Geofisika
9. Melaksanakan pengiriman data hasil pengamatan lainnya
menggunakan Sistem Pengelolaan Database Meteorologi,
Klimatologi, Kualitas Udara dan Geofisika (MKKuG) yang telah
ditentukan.
2.1.4 Struktur Organisasi
Struktrur organisasi stasiun meteorologi Zainuddin Abdul Madjid-Lombok.

Gambar 2.1 Struktur Organisasi BMKG BIZAM-Lombok


17

2.1.5 Pelayanan Data


Alur pelayanan data yang tersedia pada stasiun meteorologi
Zainuddin Abdul Madjid – Lombok.

Gambar 2.2 Alur Pelayanan Data


18

2.2 Curah Hujan


Curah hujan merupakan ketinggian air hujan yang terkumpul dalam
tempat yang datar, tidak menguap, tidak meresap, dan tidak mengalir.
Satuan curah hujan selalu dinyatakan dalam satuan milimeter atau inchi
namun untuk di indonesia satuan curah hujan yang digunakan adalah dalam
satuan milimeter (mm). Curah hujan dalam 1 (satu) milimeter memiliki arti
dalam luasan satu meter persegi pada tempat yang datar tertampung air
setinggi satu milimeter atau tertampung air sebanyak satu liter (Ajr &
Dwirani, 2019).
2.3 Data Mining
2.3.1 Pengertian Data Mining
Menurut (Zai, 2022) Data mining merupakan suatu alat yang
memungkinkan para pengguna untuk mengakses secara cepat data
dengan jumlah yang besar. Pengertian yang lebih khusus dari data
mining, yaitu suatu alat dan aplikasi menggunakan analisis statistik
pada data. Data mining adalah suatu proses ekstraksi atau penggalian
data dan informasi yang besar, yang belum diketahui sebelumnya, namun
dapat di pahami dan berguna dari database yang besar serta digunakan
untuk membuat suatu keputusan bisnis yang sangat penting. Data mining
menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk
menemukan pola-pola yang tidak diketahui pada data yang telah
dikumpulkan. Data mining memungkinkan pemakai menemukan
pengetahuan dalam data database yang tidak mungkin diketahui
keberadaanya oleh pemakai. Data mining merupakan proses semi otomatik
yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi
pengetahuan potensial dan berguna yang tersimpan di dalam database
besar.
2.3.2 Pengelompokkan Data Mining
Menurut (Rerung, 2018) Data mining dibagi menjadi beberapa
kelompok berdasarkan tugas/pekerjaan yang dapat dilakukan yaitu :
19

1. Deskripsi : terkadang peneliti dan analisis secara sederhana ingin


mencoba mencari cara untuk menggambarkan pola dan kecenderungan
yang terdapat dalam data. Deskripsi dari pola kecenderungan sering
memberikan kemungkinan penjelasan untuk suatu pola atau
kecenderungan.
2. Estimasi : hampir sama dengan klasifikasi, kecuali variabel target
estimasi lebih ke arah numerik dari pada ke arah kategori. Model
dibangun menggunakan baris data (record) lengkap yang menyediakan
nilai dari 11 variabel target sebagai nilai prediksi. Selanjutnya, pada
peninjauan berikutnya estimasi nilai dari variabel target dibuat
berdasarkan nilai variabel prediksi.
3. Prediksi : hampir sama dengan klasifikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa
metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat
pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi : terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu
pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
5. Pengklasteran :merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas obyek-obyek yang memiliki
kemiripan. Klaster adalah kumpulan record yang memiliki kemiripan
satu dengan yang lainnya dan memiliki ketidakmiripan record dalam
klaster yang lain. Berbeda dengan klasifikasi, pada pengklasteran tidak
ada variabel target. Pengklasteran tidak melakukan klasifikasi,
mengestimasi, atau memprediksi nilai dari variabel target, akan tetapi,
algoritma pengklasteran mencoba untuk melakukan pembagian
terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki
kemiripan (homogen), yang mana kemiripan record dalam satu
kelompok akan bernilai maksimal, sedangkan kemiripan dengan record
dalam kelompok lain akan bernilai minimal.
20

6. Asosiasi: Tugas asosiasi dalam data mining adalah untuk menemukan


atribut yang muncul dalam satu waktu. Salah satu implementasi dari
asosiasi adalah market basket analysis sebagaimana yang akan dibahas
dalam penelitian ini.
2.4 Clustering
Clustering merupakan salah satu teknik dari salah satu
fungsionalitas data mining. Algoritma clustering merupakan algoritma
pengelompokkan sejumlah data menjadi kelompok-kelompok data tertentu
(cluster). Pada proses clustering, tahap menentukan dan mendeskripsikan
nilai kuantitatif dari tingkat kemiripan atau ketidakmiripan data (proximity
measure). Secara umum dapat dikatakan bahwa data dalam satu cluster
memiliki tingkat kesamaan yang tinggi dan data dalam cluster yang berbeda
memiliki tingkat kesamaan yang rendah (Sukma et al., 2021).
2.5 Klasifikasi
Klasifikasi adalah kegiatan dalam mengekstrak dan memprediksi
kategori untuk masing-masing data. Klasifikasi melakukan pencarian model
yang dapat membedakan kelas data dengan tujuan agar model dapat
digunakan untuk memprediksi kelas dari suatu obyek yang kelasnya belum
diketahui (Asmaul Husnah Nasrullah, 2018). Klasifikasi merupakan salah
satu teknik data mining yang digunakan untuk membangun suatu model dari
sampel data yang belum sejenis. Karena menggunakan sekumpulan data
untuk dianalis terlebih dahulu dan pola yang didapatkan dari hasil analisis
digunakan untuk pengklasifikasian data uji, teknik klasifikasi ini termasuk
dalam supervises learning. Proses klasifikasi data terdiri dari pembelajaran
dan klasifikasi (Suhada et al., 2021).
2.6 Algoritma K-Means
Algoritma K-Means merupakan metode non-hirearki yang pada
awalnya mengambil sebagian banyaknya komponen populasi untuk
dijadikan pusat cluster awal. Pada tahap ini pusat cluster dipilih secara acak
dari sekumpulan populasi data. Berikutnya K-Means menguji masing-
masing komponen di dalam populasi data dan menandai komponen tersebut
21

ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak
minimum antar komponen dengan tiap-tiap cluster. Posisi pusat cluster
akan dihitung kembali sampai semua komponen data digolongkan ke dalam
tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster yang
baru (Sukma et al., 2021).
2.7 Algoritma C4.5
Algoritma C4.5 merupakan salah satu algoritma yang digunakan
dalam membuat pohon keputusan (decision tree). Algoritma C4.5 adalah
pengembangan dari algoritma ID3 yang diciptakan oleh J. Rose Quinlan.
Dalam buku yang berjudul The Top Ten Algorithms in Data Mining
dijelaskan oleh Xindong Wu dan Vipin Kumar bahwa algoritma C4.5 sangat
populer yang digunakan banyak peneliti di dunia (Yuli Mardi, 2019).
Penerapan algoritma C4.5 mempermudah dalam memprediksi sebuah nilai
menjadi informasi.
2.8 Flowchart
Flowchart adalah suatu teknik untuk menggambarkan urutan logika
dari suatu prosedur penyelesaian masalah. Flowchart juga dapat disebut
sebagai langkah-langkah dalam menyelesaikan masalah dengan
menggunakan simbol-simbol tertentu. Flowchart memiliki sebuah alur
logika untuk menunjukkan didalam suatu program. Flowchart memiliki
manfaat selain sebagai media komunikasi. Flowchart juga berfungsi sebagai
dokumentasi dari suatu program. Tujuan dari flowchart adalah untuk
menggambarkan suatu tahapan penyelesaian masalah secara sederhana,
terurai, rapi, dan jelas dengan menggunakan simbol-simbol standar. Dapat
juga digunakan sebagai alur dari proses jalannya program yang diolah oleh
penulis, maka dengan adanya flowchart proses atau tahapan dari jalannya
sebuah program akan terstruktur atau sesuai dengan alur yang diolah
menggunakan flowchart (Sukma et al., 2021). Pada tabel 2.1 terdapat
simbol-simbol yang digunakan untuk menggambarkan algoritma dalam
bentuk diagram alir dengan masing-masing fungsinya.
22

Tabel 2.1 Simbol-Simbol Flowchart


No Simbol Nama Fungsi
Menyatakan awal atau
akhir dari suatu tahapan
1 Terminal
yang disajikan dalam
flowchart
Menunjukkan pengujian
terhadap suatu kondisi
yang menghasilkan dua
2 Decission jawaban : ya/tidak. Setiap
jawaban akan bergantung
dari kebenaran kondisi
yang diuji.
Menyatakan suatu
3 Process tindakan/aksi(proses)
yang dilakukan.
Menyatakan jalannya
4 Flow arus suatu proses.

2.9 PHP
PHP atau yang biasa disebut Hypertext Preprocessor adalah sebuah
bahasa pemrograman server side scripting yang bersifat open source.
Sebagai sebuah scripting language, PHP menjalankan instruksi
pemrograman saat proses runtime. Hasil dari instruksi tentu akan berbeda
tergantung data yang diproses. PHP merupakan bahasa pemrograman
server-side, maka script dari PHP nantinya akan diproses di server. Jenis
server yang sering digunakan bersama dengan PHP antara lain Apache,
Nginx, dan LiteSpeed (Rahmatuloh, 2022).
23

2.10 MYSQL
Menurut (Riskawati et al., 2021) MySQL merupakan database yang
menghubungkan script PHP dengan menggunakan perintah query dan
escape character yang sama dengan PHP. MySQL mempunyai tampilan
client yang mempermudah user dalam mengakses database dengan kata
sandi untuk mengijinkan proses yang akan dilakukan. MySQL adalah
sebuah implementasi dari sistem manajemen basisdata relasional (RDBMS)
yang didistribusikan secara gratis. Setiap pengguna dapat secara bebas
menggunakan MySQL. MySQL sebenarnya merupakan turunan salah satu
konsep utama dalam basisdata yang telah ada sebelumnya SQL (Structured
Query Language).
2.11 XAMPP
XAMPP merupakan tools yang menyediakan paket perangkat lunak
ke dalam satu buah paket. Dengan menginstall XAMPP maka tidak perlu
lagi melakukan instalasidan konfigurasiweb server Apache, PHP dan
MYSQL secara manual Xampp akan menginstalasi dan
mengkonfigurasikannya secara otomatis untuk anda atau auto konfigurasi.
XAMPP adalah perangkat lunak bebas, yang mendukung banyak sistem
operasi, merupakan kompilasi dari beberapa program. Fungsinya adalah
sebagai server yang berdiri sendiri (localhost), yang terdiri atas program
Apache HTTP Server, MySQL database, dan penerjemah bahasa yang
ditulis dengan bahasa pemrograman PHP dan Perl. Nama XAMPP
merupakan singkatan dari X (empat sistem operasi apapun), Apache,
MySQL, PHP dan Perl. Program ini tersedia dalam GNU General Public
License dan bebas, merupakan web server yang mudah digunakan yang
dapat melayani tampilan halaman web yang dinamis (Riskawati et al.,
2021).
24

2.12 Confusion Matrix


Confusion matrix yang paling umum digunakan dalam pengukuran
kinerja dan tingkat kebenaran dalam proses klasifikasi. Dalam penerapan
Confusion matrix dapat digunakan untuk menganalisis seberapa baik
pengklasifikasi dapat mengenali kumpulan data dengan kelas yang berbeda
(Hasugian & Shidiq, 2019). Berikut dapat dilihat Tabel Confusion matrix :
Tabel 2.2 Tabel Confusion Matrix
Prediksi
Positif Negatif
Aktual

Positif TP FN

Negatif FP TN

Keterangan :
TP (True Positive) = Jumlah data positive yang terdeteksi benar
FP (False Positive) = Jumlah data positive yang terdeteksi salah
FN (False Negative) = Jumlah data negative yang terdeteksi salah
TN (True Negative) = Jumlah data negative yang terdeteksi benar.
Berdasarkan tabel diatas, TP dan TN menunjukkan bahwa
klasifikasi tersebut bernilai benar dan sesuai dengan nilai aktual (asli),
sedangkan FP dan FN menunjukkan bahwa klasifikasi tersebut bernilai
salah atau tidak sesuai dengan nilai aktual (asli).
2.13 Jupyter Notebook
Tools Jupyter Notebook merupakan manipulasi data python paling
populer. Dengan jupyter memudahkan pengguna untuk mengsolidasikan
kode dan output secara interaktif ke dalam satu dokumen. Untuk memulai
jupyter notebook dengan mengetikkan kode python di terminal. Jupyter
Notebook dapat diakses melalui browser. Ketika layanan dimulai, pengguna
akan diarahkan langsung ke halaman browser http://localhost:8888/tree.
Halaman notebook jupyter akan ditampilkan di folder yang menjadi tempat
sintaks jupyter notebook dijalankan (Tanugraha, 2022).
BAB III
METODOLOGI

Tahapan yang digunakan dalam penelitian ini didasarkan pada metodologi yang
digunakan. Metodologi data mining yang digunakan adalah Cross Industry
Standard Process for Data Mining (CRISP-DM). Tahapan metodologi CRISP-
DM terdiri dari enam tahapan, yaitu: business understanding, data understanding,
data preparation, modeling, evaluation, dan deployment (Hasanah et al., 2021).

Gambar 3.1 CRIPS-DM

3.1 Pemahaman Bisnis (Bussiness Understanding)


Bussiness Understanding merupakan tahap awal dari model CRIPS-
DM. pada tahap ini akan ditentukan arah dan tujuan serta strategi awal
penelitian ini akan ditentukan masalah curah hujan. Adanya global
warming, curah hujan di berbagai wilayah Indonesia berfluktuasi setiap
tahunnya. Tidak menutup kemungkinan akan terjadinya anomali cuaca,
sehingga terjadi pergeseran waktu terjadinya musim hujan baik terjadi hujan
lebih awal dari perkiraan maupun terlambat dari perkiraan. Selain
pergeseran musim hujan, anomali cuaca dapat menyebabkan curah hujan

25
26

menjadi tidak teratur dan terjadinya curah hujan yang jauh lebih tinggi rata-
rata ataupun curah hujan yang jauh lebih rendah dari rata-rata.
parameter dalam penelitian ini, antara lain Temperatur rata-rata,
Temperatur maximum, Temperatur minimum, curah hujan, penyinaran
matahari, tekanan udara, Kelembaban (RH rata-rata), kecepatan angin rata-
rata. Kecepatan angin menentukan keadaan angin normal dan angin
kencang.
Unsur-unsur cuaca curah hujan menjadi faktor penting yang harus
diperhatikan. Oleh karena itu, penelitian ini bertujuan untuk melakukan
pengelompokkan curah hujan ringan, sedang, dan lebat. Kemudian penting
dilakukan klasifikasi curah hujan berdasarkan hasil dari proses clustering.
Sehingga sistem yang akan dibuat menjadi media keputusan dan layanan
informasi untuk pihak BMKG dalam berbagai kepentingan.
3.2 Pemahaman Data (Data Understanding)
Tahapan ini dilakukan pengumpulan data cuaca berupa tahun, bulan,
tanggal, Temperatur rata-rata(T rata-rata), Temperatur Max(T Max),
Temperatur Min(T Min), Curah hujan(ch), Penyinaran matahari, Tekanan
udara, kelembapan (RH rata-rata), Kecepatan angin rata-rata. Berdasarkan
data yang telah diperoleh kemudian dipelajari dan dipahami untuk
mengetahui data yang dibutuhkan dalam penelitian.
3.2.1 Pengumpulan data awal (Collect Initial Data)
Data yang digunakan dalam penelitian ini bersumber dari BMKG
Zainuddin Abdul Madjid Lombok pada kurun waktu dari tahun 2020 sampai
dengan tahun 2022. Terhitung dari tanggal 01 Januari 2020 sampai tanggal
31 agustus 2022, data keseluruhan berjumlah 973 record. Data tersebut
kemudian diolah menjadi dataset yang dapat digunakan dalam penelitian.
Jenis data yang digunakan adalah data primer karena diperoleh secara
langsung pada kantor BMKG Zainuddin Abdul Madjid Lombok.
27

Tabel 3.1 Data BMKG


T T Ch Penyinaran Takanan RH Kecepatan
Tahun Bulan Tanggal T MIN
RATA2 MAX (mm) Matahari Udara RATA2 Angin Rata2
2020 Januari 1 26,2 31,6 24,4 13 56 1011,7 92 7
2020 Januari 2 27,2 32,6 24,2 7 36 1012,1 84 4
2020 Januari 3 26,6 30,6 24,7 10 19 1009,4 91 7
2020 Januari 4 27,6 30,4 25,6 6 13 1007,0 84 8
2020 Januari 5 28 31,6 25,8 4 69 1008,1 83 7
2020 Januari 6 28,2 32,2 25,4 56 1008,7 77 9
2020 Januari 7 28,1 31,5 26 7 49 1008,3 84 5
2020 Januari 8 28,3 31,9 24,9 100 1008,5 79 7
2020 Januari 9 28,2 32,6 24,5 100 1008,5 77 7
2020 Januari 10 28,2 33,2 23,8 100 1008,3 77 6
2020 Januari 11 26,5 32,2 24 10 99 1008,9 86 5
2020 Januari 12 27,1 31,4 24 22 25 1007,7 84 7
… … … … … … … … … … …
… … … … … … … … … … …
2022 Agustus 25 25,8 30,9 23,1 91 1013,5 80 7
2022 Agustus 26 26,0 30,7 22,8 100 1011,9 82 6
2022 Agustus 27 25,5 29,9 21,9 100 1012,0 79 8
2022 Agustus 28 25,2 29,7 21,5 33 1012,3 86 7
2022 Agustus 29 25,0 30,7 21,7 100 1011,6 85 5
2022 Agustus 30 27,0 30,9 23,0 100 1011,7 84 8
2022 Agustus 31 26,3 29,9 24,5 13 1011,8 83 6
28

Tabel 3.1 merupakan tabel data cuaca pada BMKG Zainuddin Abdul
Madjid. Data yang diperoleh adalah data cuaca tahun 2020 sampai 2022.
Berdasarkan data tersebut nantinya akan dapat dilakukan pengelompokkan curah
hujan dalam 3 kategori, yaitu : curah hujan ringan, sedang, dan lebat.
3.2.2 Mendeskripsikan Data (Describe Data)
Data yang digunakan dari BMKG Zainuddin Abdul Madjid Lombok adalah
data tahun 2020 sampai dengan 2022 dengan menggunakan format excel, dari data
tersebut terdapat 9 atribut sebagai berikut :
Tabel 3.2 Deklarasi Atribut
Atribut Keterangan
Tanggal Atribut tanggal, bulan, dan tahun yang
disimpan sebagai waktu terjadinya cuaca
T Rata-Rata Atribut Temperature rata-rata harian
T Max Atribut Temperature maximum harian
T Min Atribut Temperature minimum harian
Ch (Curah Hujan) Atribut Curah hujan harian
Penyinaran Matahari Atribut Atribut penyinaran matahari
dalam satu hari
Tekanan Udara Atribut Tekanan udara dalam satu hari
RH Rata-Rata Atribut Kelembapan rata-rata dalam satu
hari
Kecepatan Angin Rata-Rata Atribut Kecepatan angin rata-rata dalam
satu hari

3.2.3 Verikasi Kualitas Data (Verify Data Quality)


Fase verifikasi kualitas data ini akan akan melakukan pengecekan
seperti missing value, data yang tidak konsisten, data noise atau data outlier.
Dimana pengecekan ini bertujuan untuk mengetahui seberapa baik kualitas
data yang telah diperoleh sebelumnya.
Dapat dilihat pada tabel 3.3 bahwa data yang telah diperoleh dari
BMKG yang berjumlah 973 record ternyata masih terdapat missing value,
Dapat dilihat data yang mengandung missing value ialah baris kosong pada
kolom curah hujan (ch).
29

Tabel 3.3 Dataset


T Ch Penyinaran Takanan RH Kecepatan
Tahun Bulan Tanggal T MAX T MIN
RATA2 (mm) Matahari Udara RATA2 Angin Rata2
2020 Januari 1 26,2 31,6 24,4 13 56 1011,7 92 7
2020 Januari 2 27,2 32,6 24,2 7 36 1012,1 84 4
2020 Januari 3 26,6 30,6 24,7 10 19 1009,4 91 7
2020 Januari 4 27,6 30,4 25,6 6 13 1007,0 84 8
2020 Januari 5 28 31,6 25,8 4 69 1008,1 83 7
2020 Januari 6 28,2 32,2 25,4 56 1008,7 77 9
2020 Januari 7 28,1 31,5 26 7 49 1008,3 84 5
2020 Januari 8 28,3 31,9 24,9 100 1008,5 79 7
2020 Januari 9 28,2 32,6 24,5 100 1008,5 77 7
2020 Januari 10 28,2 33,2 23,8 100 1008,3 77 6
2020 Januari 11 26,5 32,2 24 10 99 1008,9 86 5
2020 Januari 12 27,1 31,4 24 22 25 1007,7 84 7
… … … … … … … … … … …
… … … … … … … … … … …
2022 Agustus 25 25,8 30,9 23,1 91 1013,5 80 7
2022 Agustus 26 26,0 30,7 22,8 100 1011,9 82 6
2022 Agustus 27 25,5 29,9 21,9 100 1012,0 79 8
2022 Agustus 28 25,2 29,7 21,5 33 1012,3 86 7
2022 Agustus 29 25,0 30,7 21,7 100 1011,6 85 5
2022 Agustus 30 27,0 30,9 23,0 100 1011,7 84 8
2022 Agustus 31 26,3 29,9 24,5 13 1011,8 83 6
30

3.3 Persiapan Data (Data Preparation)


Setelah melalui tahapan pengumpulan data awal dan pemahaman
data yang telah diperoleh. Tahapan selanjutnya yaitu melakukan persiapan
data sebelum data diproses menggunakan teknik data mining. Tahap dalam
persiapan data adalah preprocessing data. Preprocessing data dilakukan
pada tahap awal untuk mempersiapkan data mentah sebelum dilakukan
proses pemodelan. Preprocessing dilakukan dengan cara mengubah data
menjadi bentuk yang lebih mudah atau mengeliminasi data yang tidak
sesuai. Preprocessing data dilakukan dengan tujuan mendapatkan hasil
yang lebih akurat, pengurangan waktu perhitungan dan membuat nilai data
menjadi lebih kecil.
3.3.1 Pemilihan Data (Select Data)
Berdasarkan data awal yang telah dikumpulkan, dipilih beberapa
parameter yang akan digunakan sebagai atribut yang berpengaruh dalam
penelitan pengelompokkan dan klasifikasi curah hujan. atribut yang dipilih
yaitu Tanggal, T Rata-Rata, T Max, T Min, CH, Penyinaran Matahari,
Tekanan Udara, RH Rata-Rata, Kecepatan Angin Rata-Rata.
Tabel 3.4 Atribut Pada Dataset
No Atribut
1 Tanggal
2 T Rata-Rata
3 T Max
4 T Min
5 CH
6 Penyinaran Matahari
7 Tekanan Udara
8 RH Rata-Rata
9 Kecepatan Angin Rata-Rata

Atribut Tanggal hanya digunakan sebagai identifikasi data.


Sedangkan T Rata-Rata, T Max, T Min, CH, Penyinaran Matahari, Tekanan
Udara, RH Rata-Rata, dan Kecepatan Angin Rata-Rata yang akan diproses
menggunakan teknik data mining dengan metode K-Means dan metode
C4.5. Data yang dibutuhkan dalam penelitian ini adalah cuaca tahun 2020
31

sampai 2022. Kategori curah hujan ringan, sedang, dan lebat didapatkan dari
hasil wawancara kepada pihak BMKG kemudian disesuaikan dengan
kategori curah hujan yang ada pada website resmi BMKG.
3.3.2 Pembersihan data (Data Cleaning)
Kualitas data yang baik adalah kunci dasar untuk data yang
menghasilkan kualitas yang baik. Data Cleaning adalah Proses mendeteksi
dan mengoreksi (menghapus) record yang tidak akurat dari set record, tabel
atau database yang tidak komplit, incorrect, inaccurate kemudian
menggantikan, memodifikasi, atau menghapus data tersebut. Pembersihan
data dilakukan untuk memastikan bahwa data yang digunakan sudah benar-
benar memiliki kualitas yang baik, sehingga ketika melakukan
pengelompokkan dan klasifikasi curah hujan mendapatkan hasil yang
terbaik. Tahapan dalam Data Cleaning adalah menghilangkan outlier, nilai-
nilai yang tidak lengkap atau hilang (missing value). Data yang telah
dikumpulkan memiliki beberapa missing value yang dapat dilihat pada
gambar 3.3. Salah satu cara yang dapat digunakan untuk mengatasi data
yang terdapat missing value adalah menghapus data yang mengandung
missing value pada dataset yang ada. Dibawah ini adalah gambaran data
cuaca yang telah diperoleh dan mengandung missing value.
Tabel 3.3 merupakan data cuaca yang mengandung missing value.
Missing value bisa dilihat pada kolom yang tidak memiliki nilai (kosong).
Untuk mengatasi hal tersebut, maka akan dilakukan penghapusan data yang
mengandung missing value. Keseluruhan data berjumlah 973, Berdasarkan
hasil dari proses penghapusan missing value, diperoleh sebanyak 700 data
yang mengandung missing value.
Jumlah data yang diperoleh setelah dilakukan tahapan pembersihan
data (Data Cleaning) adalah 273 data. Dapat dilihat pada tabel berikut :
32

Tabel 3.5 Data Setelah Dilakukan Penghapusan Missing Value


T T Ch Penyinaran Takanan RH Kecepatan
Tahun Bulan Tanggal T MIN
RATA2 MAX (mm) Matahari Udara RATA2 Angin Rata2
2020 Januari 1 26.2 31.6 24.4 13 56 1011.7 92 7
2020 Januari 2 27.2 32.6 24.2 7 36 1012.1 84 4
2020 Januari 3 26.6 30.6 24.7 10 19 1009.4 91 7
2020 Januari 4 27.6 30.4 25.6 6 13 1007.0 84 8
2020 Januari 5 28 31.6 25.8 4 69 1008.1 83 7
2020 Januari 7 28.1 31.5 26 7 49 1008.3 84 5
2020 Januari 11 26.5 32.2 24 10 99 1008.9 86 5
2020 Januari 12 27.1 31.4 24 22 25 1007.7 84 7
2020 Januari 16 28 32.9 24.6 1 100 1011.2 81 6
2020 Januari 25 27.8 32.8 24 15 63 1011.0 84 5
2020 Januari 26 27.9 33.2 24.7 13 81 1010.5 85 6
2020 Januari 30 26 32.2 25 66 44 1009.9 96 7
… … … … … … … … … … …
… … … … … … … … … … …
2022 Juni 25 26,4 29,5 23,6 4 40 1011,5 79 6
2022 Juni 29 25,6 30,7 22,5 3 98 1010,5 85 8
2022 Juni 30 25,9 32,8 23,0 4 36 1010,7 87 9
2022 Juli 4 26,2 31,8 22,8 36 60 1010,7 90 3
2022 Agustus 8 24,8 30,6 21,2 6 100 1013,1 78 5
2022 Agustus 9 25,6 29,4 23,2 2 69 1013,0 90 7
2022 Agustus 14 26,5 32,6 23,4 11 73 1012,1 86 4
33

3.3.3 Pembuatan Dataset dan Normalisasi Data (Data Normalization)


Langkah selanjutnya adalah pembuatan dataset yang bertujuan
untuk memudahkan proses clustering. Data yang sudah melalui tahap
pembersihan data (Data cleaning) akan dibuatkan dataset. Sehingga atribut
yang digunakan adalah Tanggal, T rata-rata, T max, T min, Curah hujan
(ch), penyinaran matahari, tekanan udara, RH rata-rata, dan kecepatan angin
rata-rata. Berdasarkan hasil dari data cleaning didapatkan total keseluruhan
data adalah 273 data.
Normalisasi merupakan proses penskalaan nilai atribut dari data
sehingga bisa terletak pada skala tertentu. Normalisasi data dilakukan untuk
mempermudah mengolah data sehingga data bisa digunakan secara efektif.
Tujuan normalisasi adalah mengorganisasikan data kedalam tabel-tabel
untuk memenuhi kebutuhan pemakai, menghilangkan kerangkapan data,
mengurangi kompleksitas, mempermudah modifikasi data.
. Data Metode Min-Max Normalization merupakan salah satu
metode mengubah data yang kompleks dengan tidak menghilangkan isi,
sehingga lebih mudah diolah. Berikut persamaan Min-Max Normalization :
(𝑋ˡ − 𝑋𝑚𝑖𝑛)
𝑋ˡ =
(𝑋𝑚𝑎𝑥 − 𝑋𝑚𝑖𝑛)
Dimana:
𝑋ˡ = Data atribut yang akan dinormalisasi
𝑋𝑚𝑖𝑛 = Nilai terkecil atribut tersebut
𝑋𝑚𝑎𝑥 = Nilai tertinggi atribut tersebut
Metode normalisasi dengan min-max normalization akan melakukan
transformasi linier terhadap data asli sehingga menghasilkan keseimbangan
nilai perbandingan antar data saat sebelum dan sesudah proses (Fenny,
2019).
34

Tabel 3.6 Dataset


T Ch Penyinaran Takanan RH Kecepatan
No Tanggal T MAX T MIN
RATA2 (mm) Matahari Udara RATA2 Angin Rata2
1 1 / Januari /2020 26.2 31.6 24.4 13 56 1011.7 92 7
2 2 / Januari /2020 27.2 32.6 24.2 7 36 1012.1 84 4
3 3 / Januari /2020 26.6 30.6 24.7 10 19 1009.4 91 7
4 4 / Januari /2020 27.6 30.4 25.6 6 13 1007.0 84 8
5 5 / Januari /2020 28 31.6 25.8 4 69 1008.1 83 7
6 7 / Januari /2020 28.1 31.5 26 7 49 1008.3 84 5
7 11 / Januari /2020 26.5 32.2 24 10 99 1008.9 86 5
8 12 / Januari /2020 27.1 31.4 24 22 25 1007.7 84 7
9 16 / Januari /2020 28 32.9 24.6 1 100 1011.2 81 6
10 25 / Januari /2020 27.8 32.8 24 15 63 1011.0 84 5
11 26 / Januari /2020 27.9 33.2 24.7 13 81 1010.5 85 6
12 30 / Januari /2020 26 32.2 25 66 44 1009.9 96 7
… … … … … … … … … …
… … … … … … … … … …
267 25 / Juni / 2022 26,4 29,5 23,6 4 40 1011,5 79 6
268 29 / Juni / 2022 25,6 30,7 22,5 3 98 1010,5 85 8
269 30 / Juni / 2022 25,9 32,8 23,0 4 36 1010,7 87 9
270 04 / Juli / 2022 26,2 31,8 22,8 36 60 1010,7 90 3
271 08 / Agustus / 2022 24,8 30,6 21,2 6 100 1013,1 78 5
272 9 / Agustus / 2022 25,6 29,4 23,2 2 69 1013,0 90 7
273 14 / Agustus / 2022 26,5 32,6 23,4 11 73 1012,1 86 4
35

Tabel 3.7 Dataset Hasil Normalisasi


Kecepatan
T Ch Penyinaran Takanan RH
No Tanggal T MAX T MIN Angin
RATA2 (mm) Matahari Udara RATA2
Rata2
1 1 / Januari /2020 0,674419 0,483146 0,737705 0,124224 0,56 0,679487 0,782609 0,159215
2 2 / Januari /2020 0,790698 0,595506 0,704918 0,062112 0,36 0,730769 0,434783 0,047764
3 3 / Januari /2020 0,72093 0,370787 0,786885 0,093168 0,19 0,384615 0,73913 0,159215
4 4 / Januari /2020 0,837209 0,348315 0,934426 0,05176 0,13 0,076923 0,434783 0,196366
5 5 / Januari /2020 0,883721 0,483146 0,967213 0,031056 0,69 0,217949 0,391304 0,159215
6 7 / Januari /2020 0,895349 0,47191 1 0,062112 0,49 0,24359 0,434783 0,084915
7 11 / Januari /2020 0,709302 0,550562 0,672131 0,093168 0,99 0,320513 0,521739 0,084915
8 12 / Januari /2020 0,77907 0,460674 0,672131 0,217391 0,25 0,166667 0,434783 0,159215
9 16 / Januari /2020 0,883721 0,629213 0,770492 0 1 0,615385 0,304348 0,122065
10 25 / Januari /2020 0,860465 0,617978 0,672131 0,144928 0,63 0,589744 0,434783 0,084915
11 26 / Januari /2020 0,872093 0,662921 0,786885 0,124224 0,81 0,525641 0,478261 0,122065
12 30 / Januari /2020 0,651163 0,550562 0,836066 0,672878 0,44 0,448718 0,956522 0,159215
… … … … … … … … … …
… … … … … … … … … …
267 25 / Juni / 2022 0,697674 0,247191 0,606557 0,031056 0,4 0,653846 0,217391 0,122065
268 29 / Juni / 2022 0,604651 0,382022 0,42623 0,020704 0,98 0,525641 0,478261 0,196366
269 30 / Juni / 2022 0,639535 0,617978 0,508197 0,031056 0,36 0,551282 0,565217 0,233516
270 04 / Juli / 2022 0,674419 0,505618 0,47541 0,362319 0,6 0,551282 0,695652 0,010614
271 08 / Agustus / 2022 0,511628 0,370787 0,213115 0,05176 1 0,858974 0,173913 0,084915
272 9 / Agustus / 2022 0,604651 0,235955 0,540984 0,010352 0,69 0,846154 0,695652 0,159215
273 14 / Agustus / 2022 0,709302 0,595506 0,57377 0,10352 0,73 0,730769 0,521739 0,047764
36

3.4 Pemodelan (Modelling)


Pemodelan (modelling) dalam penelitian ini melibatkan teknik data
mining. Teknik data mining yang dipakai adalah adalah menggunakan
beberapa algoritma, algoritma tersebut adalah K-Means dan C4.5. Tahapan
fase pemodelan dapat dilihat pada penjelasan berikut :
3.4.1 Pemilihan Algoritma
Penelitian ini menggunakan 2 algoritma datamining untuk
dilakukan pengelompokkan curah hujan, selanjutnya menerapkan algoritma
C4.5 dari hasil clustering tersebut dilakukan klasifikasi curah hujan sebagai
pengambilan keputusan dan layanan infromasi.
3.4.2 Perhitungan Manual Algoritma
3.4.2.1 Algoritma K-Means
Berdasarkan konsep yang ada pada algoritma K-Means, langkah-
langkah untuk membuat sebuah cluster adalah sebagai berikut :
1. Menentukan jumlah cluster
Penentuan jumlah cluster dalam penelitian ini berdasarkan dari hasil
wawancara pada pihak BMKG dan disesuaikan dengan informasi
kategori curah hujan pada web resmi BMKG. Data ketegori curah hujan
akan dikelompokkan kedalam 3 cluster berikut:
Tabel 3.8 Kategori Cluster
Cluster 1 Cluster 2 Cluster 3
Ringan Sedang Lebat

2. Normalisasi Dataset
Hasil normalisasi pada tabel bertujuan untuk membentuk data
dalam posisi nilai dengan rentang yang sama, sehingga proses
pemodelan K-Means menjadi lebih efisien dan menghasilkan nilai yang
optimal.
37

3. Inisialisasi Pusat Cluster (Centroid) awal Berdasarkan Nilai Rata-Rata


Penentuan pusat cluster nilainya didapatkan berdasarkan
perhitungan nilai rata-rata hasil dari normalisasi dataset. Pada penelitian
ini terdapat 3 jumlah cluster 9 atribut dan sebagai berikut :

Tabel 3.9 Inisialisasi Pusat Cluster


C1 C2 C3
0,7362 0,699911 0,714062
0,521422 0,401778 0,517348
0,608359 0,446406 0,532156
0,123678 0,138625 0,134212
0,665385 0,468901 0,647692
0,641307 0,442237 0,572697
0,527473 0,551362 0,581462
0,187264 0,365694 0,10266

4. Menghitung jarak antar cluster dengan Euclidean Distance


Untuk menghitung jarak data ke setiap titik pusat cluster dapat
menggunakan jarak Euclidean Distance yang dirumuskan sebagai
berikut :

𝑑𝐸𝑢𝑐𝑙𝑖𝑑𝑒𝑎𝑛 (𝑥, 𝑦) = √∑(𝑥𝑗 − 𝑦𝑗 )2


𝑗=1

Dimana :
d = Jarak objek antar nilai data dan nilai pusat cluster
p = Jumlah dimensi data
xj = Nilai data dari dimensi ke-k
yj = Nilai pusat cluster dari dimensi ke-k
Setelah didapat titik pusat awal cluster, kemudian dilakukan
perhitungan jarak Euclidean, dan mengelompokan berdasarkan jarak
terkecil selanjutnya akan di dapat nilai centroid baru untuk acuan
perhitungan berikutnya sampai nilai centroid sebelum dan sesudah
bernilai sama. Berikut contoh perhitungan Euclidean Distance :
38

1) Jarak antara data (normalisasi) baris pertama dengan Centroid


pertama = 0,31695

((0,674419 − 0,7362)2 ) + ((0,483146 − 0,521422)2 ) +


((0,737705 − 0,608359)2 ) + ((0,124224 − 0,123678)2 )
𝑑(1, 1) √
((0,56 − 0,665385)2 ) + ((0,679487 − 0,641307)2 +
+((0,782609 − 0,527473)2 ) + ((0,159215 − 0,187264)2 )

2) Jarak antara data (normalisasi) baris pertama dengan Centroid


kedua = 0,503019

((0,674419 − 0,699911)2 ) + ((0,483146 − 0,401778)2 ) +


((0,737705 − 0,446406)2 ) + ((0,124224 − 0,138625)2 )
𝑑(1, 2) √
((0,56 − 0,468901)2 ) + ((0,679487 − 0,442237)2 +
+((0,782609 − 0,551362)2 ) + ((0,159215 − 0,365694)2 )

3) Jarak antara data (normalisasi) baris pertama dengan Centroid


ketiga = 0,328396

((0,674419 − 0,714062)2 ) + ((0,483146 − 0,517348)2 ) +


((0,737705 − 0,532156)2 ) + ((0,124224 − 0,134212)2 )
𝑑(1, 3) √
((0,56 − 0,647692)2 ) + ((0,679487 − 0,572697)2 +
+((0,782609 − 0,581462)2 ) + ((0,159215 − 0,10266)2 )

4) Jarak antara data (normalisasi) baris kedua dengan Centroid


pertama = 0,388442

((0,790698 − 0,7362)2 ) + ((0,595506 − 0,521422)2 ) +


((0,704918 − 0,608359)2 ) + ((0,062112 − 0,123678)2 )
𝑑(2, 1) √
((0,36 − 0,665385)2 ) + ((0,730769 − 0,641307)2 +
+((0,434783 − 0,527473)2 ) + ((0,047764 − 0,187264)2 )

5) Jarak antara data (normalisasi) baris kedua dengan Centroid


kedua = 0,572918

((0,790698 − 0,699911)2 ) + ((0,595506 − 0,401778)2 ) +


((0,704918 − 0,446406)2 ) + ((0,062112 − 0,138625)2 )
𝑑(2, 2) √
((0,36 − 0,468901)2 ) + ((0,730769 − 0,442237)2 +
+((0,434783 − 0,551362)2 ) + ((0,047764 − 0,365694)2 )
39

6) Jarak antara data (normalisasi) baris kedua dengan Centroid


ketiga = 0,423449

((0,790698 − 0,714062)2 ) + ((0,595506 − 0,517348)2 ) +


((0,704918 − 0,532156)2 ) + ((0,062112 − 0,134212)2 )
𝑑(2, 3) √
((0,36 − 0,647692)2 ) + ((0,730769 − 0,572697)2 +
+((0,434783 − 0,581462)2 ) + ((0,047764 − 0,10266)2 )

7) Jarak antara data (normalisasi) baris ketiga dengan Centroid


pertama =0,627052

((0,72093 − 0,7362)2 ) + ((0,370787 − 0,521422)2 ) +


((0,786885 − 0,608359)2 ) + ((0,093168 − 0,123678)2 )
𝑑(3, 1) √
((0,19 − 0,665385)2 ) + ((0,384615 − 0,641307)2 +
+((0,73913 − 0,527473)2 ) + ((0,159215 − 0,187264)2 )

8) Jarak antara data (normalisasi) baris ketiga dengan Centroid


kedua = 0,527628

((0,72093 − 0,699911)2 ) + ((0,370787 − 0,401778)2 ) +


((0,786885 − 0,446406)2 ) + ((0,093168 − 0,138625)2 )
𝑑(3, 2) √
((0,19 − 0,468901)2 ) + ((0,384615 − 0,442237)2 +
+((0,73913 − 0,551362)2 ) + ((0,159215 − 0,365694)2 )

9) Jarak antara data (normalisasi) baris ketiga dengan Centroid


ketiga = 0,600844

((0,72093 − 0,714062)2 ) + ((0,370787 − 0,517348)2 ) +


((0,786885 − 0,532156)2 ) + ((0,093168 − 0,134212)2 )
𝑑(3, 3) √
((0,19 − 0,647692)2 ) + ((0,384615 − 0,572697)2 +
+((0,73913 − 0,581462)2 ) + ((0,159215 − 0,10266)2 )

10) Jarak antara data (normalisasi) baris keempat dengan Centroid


pertama = 0,87493

((0,837209 − 0,7362)2 ) + ((0,348315 − 0,521422)2 ) +


((0,934426 − 0,608359)2 ) + ((0,05176 − 0,123678)2 )
𝑑(4, 1) √
((0,13 − 0,665385)2 ) + ((0,076923 − 0,641307)2 +
+((0,434783 − 0,527473)2 ) + ((0,196366 − 0,187264)2 )
40

11) Jarak antara data (normalisasi) baris keempat dengan Centroid


kedua = 0,746987

((0,837209 − 0,699911)2 ) + ((0,348315 − 0,401778)2 ) +


((0,934426 − 0,446406)2 ) + ((0,05176 − 0,138625)2 )
𝑑(4, 2) √
((0,13 − 0,468901)2 ) + ((0,076923 − 0,442237)2 +
+((0,434783 − 0,551362)2 ) + ((0,196366 − 0,365694)2 )

12) Jarak antara data (normalisasi) baris keempat dengan Centroid


ketiga = 0,869741

((0,837209 − 0,714062)2 ) + ((0,348315 − 0,517348)2 ) +


((0,934426 − 0,532156)2 ) + ((0,05176 − 0,134212)2 )
𝑑(4, 3) √
((0,13 − 0,647692)2 ) + ((0,076923 − 0,572697)2 +
+((0,434783 − 0,581462)2 ) + ((0,196366 − 0,10266)2 )

13) Jarak antara data (normalisasi) baris kelima dengan Centroid


pertama = 0,599791

((0,883721 − 0,7362)2 ) + ((0,483146 − 0,521422)2 ) +


((0,967213 − 0,608359)2 ) + ((0,031056 − 0,123678)2 )
𝑑(5, 1) √
((0,69 − 0,665385)2 ) + ((0,217949 − 0,641307)2 +
+((0,391304 − 0,527473)2 ) + ((0,159215 − 0,187264)2 )

14) Jarak antara data (normalisasi) baris kelima dengan Centroid


kedua = 0,700471

((0,883721 − 0,699911)2 ) + ((0,483146 − 0,401778)2 ) +


((0,967213 − 0,446406)2 ) + ((0,031056 − 0,138625)2 )
𝑑(5, 2) √
((0,69 − 0,468901)2 ) + ((0,217949 − 0,442237)2 +
+((0,391304 − 0,551362)2 ) + ((0,159215 − 0,365694)2 )

15) Jarak antara data (normalisasi) baris kelima dengan Centroid


ketiga = 0,629971

((0,883721 − 0,714062)2 ) + ((0,483146 − 0,517348)2 ) +


((0,967213 − 0,532156)2 ) + ((0,031056 − 0,134212)2 )
𝑑(5, 3) √
((0,69 − 0,647692)2 ) + ((0,217949 − 0,572697)2 +
+((0,391304 − 0,581462)2 ) + ((0,159215 − 0,10266)2 )
41

16) Jarak antara data (normalisasi) baris keenam dengan Centroid


pertama = 626864

((0,895349 − 0,7362)2 ) + ((0,47191 − 0,521422)2 ) +


((1 − 0,608359)2 ) + ((0,062112 − 0,123678)2 )
𝑑(6, 1) √
((0,49 − 0,665385)2 ) + ((0,24359 − 0,641307)2 +
+((0,434783 − 0,527473)2 ) + ((0,084915 − 0,187264)2 )

17) Jarak antara data (normalisasi) baris keenam dengan Centroid


kedua =0,698405

((0,895349 − 0,699911)2 ) + ((0,47191 − 0,401778)2 ) +


((1 − 0,446406)2 ) + ((0,062112 − 0,138625)2 )
𝑑(6, 2) √
((0,49 − 0,468901)2 ) + ((0,24359 − 0,442237)2 +
+((0,434783 − 0,551362)2 ) + ((0,084915 − 0,365694)2 )

18) Jarak antara data (normalisasi) baris keenam dengan Centroid


ketiga = 0,643439

((0,895349 − 0,714062)2 ) + ((0,47191 − 0,517348)2 ) +


((1 − 0,532156)2 ) + ((0,062112 − 0,134212)2 )
𝑑(6, 3) √
((0,49 − 0,647692)2 ) + ((0,24359 − 0,572697)2 +
+((0,434783 − 0,581462)2 ) + ((0,084915 − 0,10266)2 )

19) Jarak antara data (normalisasi) baris ketujuh dengan Centroid


pertama = 0,474724

((0,709302 − 0,7362)2 ) + ((0,550562 − 0,521422)2 ) +


((0,672131 − 0,608359)2 ) + ((0,093168 − 0,123678)2 )
𝑑(7, 1) √
((0,99 − 0,665385)2 ) + ((0,320513 − 0,641307)2 +
+((0,521739 − 0,527473)2 ) + ((0,084915 − 0,187264)2 )

20) Jarak antara data (normalisasi) baris ketujuh dengan Centroid


kedua = 0,664318

((0,709302 − 0,699911)2 ) + ((0,550562 − 0,401778)2 ) +


((0,672131 − 0,446406)2 ) + ((0,093168 − 0,138625)2 )
𝑑(7, 2) √
((0,99 − 0,468901)2 ) + ((0,320513 − 0,442237)2 +
+((0,521739 − 0,551362)2 ) + ((0,084915 − 0,365694)2 )

21) Jarak antara data (normalisasi) baris ketujuh dengan Centroid


ketiga = 0,455034
42

((0,709302 − 0,714062)2 ) + ((0,550562 − 0,517348)2 ) +


((0,672131 − 0,532156)2 ) + ((0,093168 − 0,134212)2 )
𝑑(7, 3) √
((0,99 − 0,647692)2 ) + ((0,320513 − 0,572697)2 +
+((0,521739 − 0,581462)2 ) + ((0,084915 − 0,10266)2 )

22) Jarak antara data (normalisasi) baris kedelapan dengan Centroid


pertama = 0,652368

((0,77907 − 0,7362)2 ) + ((0,460674 − 0,521422)2 ) +


((0,672131 − 0,608359)2 ) + ((0,217391 − 0,123678)2 )
𝑑(8, 1) √
((0,25 − 0,665385)2 ) + ((0,166667 − 0,641307)2 +
+((0,434783 − 0,527473)2 ) + ((0,159215 − 0,187264)2 )

23) Jarak antara data (normalisasi) baris kedelapan dengan Centroid


kedua = 0,496963

((0,77907 − 0,699911)2 ) + ((0,460674 − 0,401778)2 ) +


((0,672131 − 0,446406)2 ) + ((0,217391 − 0,138625)2 )
𝑑(8, 2) √
((0,25 − 0,468901)2 ) + ((0,166667 − 0,442237)2 +
+((0,434783 − 0,551362)2 ) + ((0,159215 − 0,365694)2 )

24) Jarak antara data (normalisasi) baris kedelapan dengan Centroid


ketiga = 0,617805

((0,77907 − 0,714062)2 ) + ((0,460674 − 0,517348)2 ) +


((0,672131 − 0,532156)2 ) + ((0,217391 − 0,134212)2 )
𝑑(8, 3) √
((0,25 − 0,647692)2 ) + ((0,166667 − 0,572697)2 +
+((0,434783 − 0,581462)2 ) + ((0,159215 − 0,10266)2 )

25) Jarak antara data (normalisasi) baris kesembilan dengan


Centroid pertama = 0,491569

((0,883721 − 0,7362)2 ) + ((0,629213 − 0,521422)2 ) +


((0,770429 − 0,608359)2 ) + ((0 − 0,123678)2 )
𝑑(9, 1) √
((1 − 0,665385)2 ) + ((0,615385 − 0,641307)2 +
+((0,304348 − 0,527473)2 ) + ((0,122065 − 0,187264)2 )

26) Jarak antara data (normalisasi) baris kesembilan dengan


Centroid kedua = 0,801361
43

((0,883721 − 0,699911)2 ) + ((0,629213 − 0,401778)2 ) +


((0,770429 − 0,446406)2 ) + ((0 − 0,138625)2 )
𝑑(9, 2) √
((1 − 0,468901)2 ) + ((0,615385 − 0,442237)2 +
+((0,304348 − 0,551362)2 ) + ((0,122065 − 0,365694)2 )

27) Jarak antara data (normalisasi) baris kesembilan dengan


Centroid ketiga = 0,565001

((0,77907 − 0,714062)2 ) + ((0,629213 − 0,517348)2 ) +


((0,770429 − 0,532156)2 ) + ((0 − 0,134212)2 )
𝑑(9, 3) √
((1 − 0,647692)2 ) + ((0,615385 − 0,572697)2 +
+((0,304348 − 0,581462)2 ) + ((0,122065 − 0,10266)2 )

28) Jarak antara data (normalisasi) baris kesepuluh dengan Centroid


pertama = 0,228607

((0,860465 − 0,7362)2 ) + ((0,617978 − 0,521422)2 ) +


((0,672131 − 0,608359)2 ) + ((0,144928 − 0,123678)2 )
𝑑(10, 1) √
((0,63 − 0,665385)2 ) + ((0,589744 − 0,641307)2 +
+((0,434783 − 0,527473)2 ) + ((0,084915 − 0,187264)2 )

29) Jarak antara data (normalisasi) baris kesepuluh dengan Centroid


kedua = 0,513469

((0,860465 − 0,699911)2 ) + ((0,617978 − 0,401778)2 ) +


((0,672131 − 0,446406)2 ) + ((0,144928 − 0,138625)2 )
𝑑(10, 2) √
((0,63 − 0,468901)2 ) + ((0,589744 − 0,442237)2 +
+((0,434783 − 0,551362)2 ) + ((0,084915 − 0,365694)2 )

30) Jarak antara data (normalisasi) baris kesepuluh dengan Centroid


ketiga = 0,27148

((0,860465 − 0,714062)2 ) + ((0,617978 − 0,517348)2 ) +


((0,672131 − 0,532156)2 ) + ((0,144928 − 0,134212)2 )
𝑑(10, 3) √
((0,63 − 0,647692)2 ) + ((0,589744 − 0,572697)2 +
+((0,434783 − 0,581462)2 ) + ((0,084915 − 0,10266)2 )

31) Jarak antara data (normalisasi) baris kesebelas dengan Centroid


pertama = 0,333655
44

((0,872093 − 0,7362)2 ) + ((0,662921 − 0,521422)2 ) +


((0,786885 − 0,608359)2 ) + ((0,124224 − 0,123678)2 )
𝑑(11, 1) √
((0,81 − 0,665385)2 ) + ((0,525641 − 0,641307)2 +
+((0,478261 − 0,527473)2 ) + ((0,122065 − 0,187264)2 )

32) Jarak antara data (normalisasi) baris kesebelas dengan Centroid


kedua =0,634019

((0,872093 − 0,699911)2 ) + ((0,662921 − 0,401778)2 ) +


((0,786885 − 0,446406)2 ) + ((0,124224 − 0,138625)2 )
𝑑(11, 2) √
((0,81 − 0,468901)2 ) + ((0,525641 − 0,442237)2 +
+((0,478261 − 0,551362)2 ) + ((0,122065 − 0,365694)2 )

33) Jarak antara data (normalisasi) baris kesebelas dengan Centroid


ketiga = 0,388249

((0,872093 − 0,714062)2 ) + ((0,662921 − 0,517348)2 ) +


((0,786885 − 0,532156)2 ) + ((0,124224 − 0,134212)2 )
𝑑(11, 3) √
((0,81 − 0,647692)2 ) + ((0,525641 − 0,572697)2 +
+((0,478261 − 0,581462)2 ) + ((0,122065 − 0,10266)2 )

34) Jarak antara data (normalisasi) baris keduabelas dengan


Centroid pertama = 0,796436

((0,651163 − 0,7362)2 ) + ((0,550562 − 0,521422)2 ) +


((0,836066 − 0,608359)2 ) + ((0,672878 − 0,123678)2 )
𝑑(12, 1) √
((0,44 − 0,665385)2 ) + ((0,448718 − 0,641307)2 +
+((0,956522 − 0,527473)2 ) + ((0,159215 − 0,187264)2 )

35) Jarak antara data (normalisasi) baris keduabelas dengan


Centroid kedua = 0,818192

((0,651163 − 0,699911)2 ) + ((0,550562 − 0,401778)2 ) +


((0,836066 − 0,446406)2 ) + ((0,672878 − 0,138625)2 )
𝑑(12, 2) √
((0,44 − 0,468901)2 ) + ((0,448718 − 0,442237)2 +
+((0,956522 − 0,551362)2 ) + ((0,159215 − 0,365694)2 )

36) Jarak antara data (normalisasi) baris keduabelas dengan


Centroid ketiga = 0,768086
45

((0,651163 − 0,714062)2 ) + ((0,550562 − 0,517348)2 ) +


((0,836066 − 0,532156)2 ) + ((0,672878 − 0,134212)2 )
𝑑(12, 3) √
((0,44 − 0,647692)2 ) + ((0,448718 − 0,572697)2 +
+((0,956522 − 0,581462)2 ) + ((0,159215 − 0,10266)2 )

37) Jarak antara data (normalisasi) baris ketigabelas dengan


Centroid pertama = 0,353706

((0,72093 − 0,7362)2 ) + ((0,662921 − 0,521422)2 ) +


((0,557377 − 0,608359)2 ) + ((0,031056 − 0,123678)2 )
𝑑(13, 1) √
((0,39 − 0,665385)2 ) + ((0,602564 − 0,641307)2 +
+((0,652174 − 0,527473)2 ) + ((0,159215 − 0,187264)2 )

38) Jarak antara data (normalisasi) baris ketigabelas dengan


Centroid kedua = 0,421011

((0,72093 − 0,699911)2 ) + ((0,662921 − 0,401778)2 ) +


((0,557377 − 0,446406)2 ) + ((0,031056 − 0,138625)2 )
𝑑(13, 2) √
((0,39 − 0,468901)2 ) + ((0,602564 − 0,442237)2 +
+((0,652174 − 0,551362)2 ) + ((0,159215 − 0,365694)2 )

39) Jarak antara data (normalisasi) baris ketigabelas dengan


Centroid ketiga = 0,328652

((0,72093 − 0,714062)2 ) + ((0,662921 − 0,517348)2 ) +


((0,557377 − 0,532156)2 ) + ((0,031056 − 0,134212)2 )
𝑑(13, 3) √
((0,39 − 0,647692)2 ) + ((0,602564 − 0,572697)2 +
+((0,652174 − 0,581462)2 ) + ((0,159215 − 0,10266)2 )
46

Berikut hasil perhitungan Euclidean Distance pada data awal


berdasarkan nilai dari masing-masing cluster pada centroid awal.
Tabel 3.10 Perhitungan Euclidean Distance
No Tanggal C1 C2 C3
1 1 / Januari /2020 0,31695 0,503019 0,328396
2 2 / Januari /2020 0,388442 0,572918 0,423449
3 3 / Januari /2020 0,627052 0,527628 0,600844
4 4 / Januari /2020 0,87493 0,746987 0,869741
5 5 / Januari /2020 0,599791 0,700471 0,629971
6 7 / Januari /2020 0,626864 0,698405 0,643439
7 11 / Januari /2020 0,474724 0,664318 0,455034
8 12 / Januari /2020 0,652368 0,496963 0,617805
9 16 / Januari /2020 0,491569 0,801361 0,565001
10 25 / Januari /2020 0,228607 0,513469 0,27148
11 26 / Januari /2020 0,333655 0,634019 0,388249
12 30 / Januari /2020 0,796436 0,818192 0,768086
… … … … …
… … … … …
267 25 / Juni / 2022 0,506218 0,530602 0,538786
268 29 / Juni / 2022 0,442016 0,570939 0,431812
269 30 / Juni / 2022 0,377103 0,327399 0,357083
270 04 / Juli / 2022 0,388022 0,488151 0,284969
271 08 / Agustus / 2022 0,727557 0,88058 0,737247
272 9 / Agustus / 2022 0,43338 0,580911 0,446518
273 14 / Agustus / 2022 0,198711 0,555385 0,217133

5. Pengelompokkan Data Berdasarkan Jarak Minimum ke pusat cluster


Berdasarkan perhitungan jarak data yang dilakukan dengan
rumus Euclidean Distance, tahapan selanjutnya adalah melakukan
pengelompokkan jarak terkecil (Minimum) dari setiap hasil yang
didapatkan dari masing-masing cluster. Berikut hasil pengelompokkan
masing-masing cluster :
47

Tabel 3.11 Pengelompokkan Data Berdasarkan Masing-Masing Cluster


Cluste
No Tanggal C1 C2 C3 Min
r
1 1 / Januari /2020 0,31695 0,503019 0,328396 0,31695 1
2 2 / Januari /2020 0,388442 0,572918 0,423449 0,388442 1
3 3 / Januari /2020 0,627052 0,527628 0,600844 0,527628 2
4 4 / Januari /2020 0,87493 0,746987 0,869741 0,746987 2
5 5 / Januari /2020 0,599791 0,700471 0,629971 0,599791 1
6 7 / Januari /2020 0,626864 0,698405 0,643439 0,626864 1
7 11 / Januari /2020 0,474724 0,664318 0,455034 0,455034 3
8 12 / Januari /2020 0,652368 0,496963 0,617805 0,496963 2
9 16 / Januari /2020 0,491569 0,801361 0,565001 0,491569 1
10 25 / Januari /2020 0,228607 0,513469 0,27148 0,228607 1
11 26 / Januari /2020 0,333655 0,634019 0,388249 0,333655 1
12 30 / Januari /2020 0,796436 0,818192 0,768086 0,768086 3
… … … … … … …
… … … … … … …
267 25 / Juni / 2022 0,506218 0,530602 0,538786 0,506218 1
268 29 / Juni / 2022 0,442016 0,570939 0,431812 0,431812 3
269 30 / Juni / 2022 0,377103 0,327399 0,357083 0,327399 2
270 04 / Juli / 2022 0,388022 0,488151 0,284969 0,284969 3
271 08 / Agustus / 2022 0,727557 0,88058 0,737247 0,727557 1
272 9 / Agustus / 2022 0,43338 0,580911 0,446518 0,43338 1
273 14 / Agustus / 2022 0,198711 0,555385 0,217133 0,198711 1

6. Menentukan Centroid dan Iterasi Baru


Iterasi selanjutnya dilakukan dengan menghitung nilai rata-
rata pada masing-masing cluster, hasil akhir perhitungan metode K-
Means adalah posisi data pada tiap cluster tidak berubah.
Perhitungan hasil akhir sudah tidak ada yang berubah (sama) pada
iterasi ke-9. Berikut hasil akhir perhitungan metode K-Means :
48

Tabel 3.12 Hasil Akhir Perhitungan K-Means


Cluste
No Tanggal C1 C2 C3 Min
r
1 1 / Januari /2020 0,551395 0,557409 0,277378 0,277378 3
2 2 / Januari /2020 0,598895 0,589455 0,429848 0,429848 3
3 3 / Januari /2020 0,853889 0,3759 0,53745 0,3759 2
4 4 / Januari /2020 1,020266 0,680119 0,845264 0,680119 2
5 5 / Januari /2020 0,626996 0,849835 0,657036 0,626996 1
6 7 / Januari /2020 0,735948 0,763879 0,643205 0,643205 3
7 11 / Januari /2020 0,391744 0,899989 0,512914 0,391744 1
8 12 / Januari /2020 0,805087 0,474742 0,585502 0,474742 2
9 16 / Januari /2020 0,347305 1,033728 0,652236 0,347305 1
10 25 / Januari /2020 0,361542 0,672261 0,315387 0,315387 3
11 26 / Januari /2020 0,349536 0,832591 0,430269 0,349536 1
12 30 / Januari /2020 0,998002 0,781305 0,657231 0,657231 3
… … … … … … …
… … … … … … …
267 25 / Juni / 2022 0,620548 0,5706 0,596407 0,5706 2
268 29 / Juni / 2022 0,298669 0,830129 0,530527 0,298669 1
269 30 / Juni / 2022 0,566145 0,384268 0,339637 0,339637 3
270 04 / Juli / 2022 0,570142 0,568123 0,216345 0,216345 3
271 08 / Agustus / 2022 0,606868 1,081167 0,839265 0,606868 1
272 9 / Agustus / 2022 0,548328 0,671307 0,488544 0,488544 3
273 14 / Agustus / 2022 0,317098 0,718821 0,292066 0,292066 3

Tabel diatas merupakan hasil akhir dari proses pengelompokkan


curah hujan ke dalam masing-masing cluster. Berikut jumlah dari
keanggotaan masing-masing cluster :
Tabel 3.13 Deskripsi Hasil Setiap CLuster
Cluster Jumlah Curah Hujan
1 112
2 78
3 83
Total 273

Berdasarkan hasil yang telah diimplementasikan menggunakan


metode K-Means, bahwa pengelompokkan curah hujan yang didapatkan
pada cluster 1 yang merupakan curah hujan ringan keanggotaannya
sebanyak 112 data, cluster 2 yang merupakan curah hujan sedang
49

keanggotaannya sebanyak 78 data, dan cluster 3 yang merupakan curah


hujan lebat sebanyak 83 data.
3.4.2.2 Algoritma C4.5
Algoritma C4.5 merupakan sebuah model yang visualisasinya
membentuk pohon keputusan. Pada penelitian ini, data yang digunakan
merupakan data hasil clustering yang diolah dengan metode K-Means.
Berdasarkan proses clustering, didapatkan hasil cluster yang dijadikan
sebagai label untuk kemudian diproses menggunakan metode C4.5.
Tahapan dalam mengolah data model C4.5 adalah sebagai berikut :
1. Mempersiapkan Data
Data yang digunakan berjumlah 15 data. Dengan pembagian 12
data training yang akan dilakukan proses perhitungan mengggunakan
metode C4.5, dan 3 data sebagai data testing. Karena data curah hujan
memiliki nilai bertipe numerik, maka perlu untuk mencari nilai v
sebagai nilai pemecah/split atau teknik ini biasa disebut sebagai
diskretisasi data, yaitu data numerik menjadi data nominal/kontinu.
Banyak pendekatan yang bisa digunakan dalam mendapatkan nilai v,
yang paling umum dan sering digunakan adalah Binning.
Binning mendefinisikan kumpulan class nominal untuk setiap
atribut (3 variable input), kemudian menetapkan setiap nilai atribut ke
dalam salah satu class. Setiap nilai atribut akan dikonversi menjadi
atribut nominal/kategorikal yang berkorespondensi dengan salah satu
bin. Pendekatan binning disebut unsupervised discretization method.
50

Tabel 3.14 Data Training


T RH
T T Penyinaran Tekanan Kecepatan
Nomor Tanggal Rata CH Rata Class
Max Min Matahari Udara Angin
Rata Rata
1 12 / Januari /2020 27,1 31,4 24 22 25 1007,7 84 7 Sedang
2 16 / Januari /2020 28 32,9 24,6 1 100 1011,2 81 6 Ringan
3 30 / Januari /2020 26 32,2 25 66 44 1009,9 96 7 Lebat
4 9 / Februari /2020 21,1 28,1 22,4 20 0 1011,7 94 6 Sedang
5 10 / Februari /2020 23,1 31,4 24,9 3 100 1011,3 83 6 Ringan
6 13 / Februari /2020 27,3 32,2 24 1 100 1011,7 83 4 Ringan
7 18 / Februari /2020 26,9 32,4 24,5 2 81 1011,1 89 5 Ringan
8 22 / Februari /2020 27,1 31,2 24,2 2 100 1011,9 85 6 Ringan
9 1 / Maret /2020 26,95 32,6 24,1 60,4 26 1009,9 91 4,83333 Lebat
10 13 / Maret /2020 27,875 31,5 23,5 97,6 35 1012,9 92 3,66667 Lebat
11 15 / Maret /2020 27,05 32,5 24 1,4 100 1010,9 88 5 Ringan
12 20 / Maret /2020 26,9 33 23,2 14,5 100 1011,8 86 6,25 Ringan

Tabel 3.15 Data Testing


T RH
T T Penyinaran Tekanan Kecepatan
Nomor Tanggal Rata CH Rata Class
Max Min Matahari Udara Angin
Rata Rata
1 21 / Desember /2020 27,55 31,2 23,6 1 100 1009,6 78 18,52 Ringan
2 28 / Januari /2021 27,2 31,4 23,4 3 75 1008,0 80 12 Ringan
3 29 / Januari /2021 27,1 31,4 20,2 38 33 1008,2 85 13 Sedang
51

2. Menentukan akar dari pohon. Akar diambil dari atribut terpilih dengan
cara menghitung nilai gain dari masing-masing atribut, nilai gain yang
paling tinggi yang akan menjadi akar pertama. Sebelum menghitung
nilai gain, maka perlu dicari dulu nilai entropy dengan menggunakan
rumus sebagai berikut :
𝑛

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑ − 𝑝𝑖 ∗ 𝐿𝑜𝑔2 𝑝𝑖


𝑖=1

Keterangan :
S = Himpunan Kasus
n = Jumlah Partisi S
pi = Proporsi dari Sᵢ, terhadap S
Langkah awal dalam algoritma C4.5 adalah mencari nilai entropy,
pertama menentukan entropy total :
Tabel 3.16 Deklarasi Total Kasus
Ringan Sedang Lebat Jumlah Kasus
7 2 3 12

𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑻𝒐𝒕𝒂𝒍)
7 7 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
12 12 12 12
3 3
+ (− ( ) × log ( ) , 3) = 0,9396
12 12

Setelah mendapatkan entropy total, selanjutnya menghitung


entropy dari masing-masing atribut seperti berikut :
1) Entropy T Rata-Rata
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟐𝟒, 𝟕𝟓)
1 1 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
5 5 5 5
0 0
+ (− ( ) × log ( ) , 3) = 0
5 5
52

𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟐𝟒, 𝟕𝟓)


6 6 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
5 5 5 5
3 3
+ (− ( ) × log ( ) , 3) = 0,9129
5 5

2) Entropy T Max
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟑𝟐, 𝟎𝟕𝟓)
2 2 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
5 5 5 5
1 1
+ (− ( ) × log ( ) , 3) = 0,981
5 5
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟑𝟐, 𝟎𝟕𝟓)
5 5 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
7 7 7 7
2 2
+ (− ( ) × log ( ) , 3) = 0
7 7

3) Entropy T Min
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟐𝟒, 𝟎𝟕𝟓)
3 3 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
1 1
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟐𝟒, 𝟎𝟕𝟓)
4 4 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
2 2
+ (− ( ) × log ( ) , 3) = 0
6 6

4) Entropy CH
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟗, 𝟖𝟕𝟓)
6 6 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
0 0
+ (− ( ) × log ( ) , 3) = 0
6 6
53

𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟗, 𝟖𝟕𝟓)
1 1 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
3 3
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
5) Entropy Penyinaran Matahari
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟖𝟏, 𝟐𝟓)
1 1 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
3 3
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟖𝟏, 𝟐𝟓)
6 6 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
0 0
+ (− ( ) × log ( ) , 3) = 0
6 6

6) Entropy Tekanan Udara


𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟏𝟎𝟎𝟗, 𝟔)
0 0 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
1 1 1 1
0 0
+ (− ( ) × log ( ) , 3) = 0
1 1
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟏𝟎𝟎𝟗, 𝟔)
7 7
= (− ( ) × log ( ) , 3)
11 11
1 1 3 3
+ (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
11 11 11 11
= 0,8964

7) Entropy RH Rata-Rata
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟖𝟕)
5 5 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
0 0
+ (− ( ) × log ( ) , 3) = 0
6 6
54

𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟖𝟕)
2 2 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
3 3
+ (− ( ) × log ( ) , 3) = 0,9621
6 6

8) Entropy Kecepatan Angin


𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟓, 𝟕𝟓)
3 3 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
5 5 5 5
2 2
+ (− ( ) × log ( ) , 3) = 0
5 5
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟓, 𝟕𝟓)
4 4 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
7 7 7 7
1 1
+ (− ( ) × log ( ) , 3) = 0,9379
7 7
Hasil perhitungan entropy dari setiap atribut dapat dilihat pada tabel
berikut :
55

Tabel 3.17 Hasil Perhitungan Entropy


Jumlah
Atribut Nilai Ringan Sedang Lebat Entropy
Kasus
Total 12 7 2 3 0,9396
T Rata Rata
≤ 24,275 2 1 1 0 0
>24,275 10 6 1 3 0,9129
T Max
≤ 32,075 5 2 2 1 0,981
>32,075 7 5 0 2 0
T Min
≤ 24,075 6 3 2 1 0,9621
>24,075 6 4 0 2 0
CH
≤ 9,875 6 6 0 0 0
>9,875 6 1 2 3 0,9621
Penyinaran
Matahari
≤ 81,25 6 1 2 3 0,9621
>81,25 6 6 0 0 0
Tekanan
Udara
≤ 1009,6 1 0 1 0 0
>1009,6 11 7 1 3 0,8964
RH Rata-
Rata
≤ 87 6 5 1 0 0
>87 6 2 1 3 0,9621
Kecepatan
Angin
≤ 5,75 5 3 0 2 0
>5,75 7 4 2 1 0,9379

3. Setelah entropy dari masing masing atribut telah didapat maka lakukan
perhitungan terhadap nilai gain. Langkah selanjutnya menghitung nilai
gain. Untuk mendapatkan nilai gain dapat menggunakan rumus :
𝑛
|𝑆ᵢ|
𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆ᵢ)
|𝑆|
𝑖=1
56

Keterangan :
S = Himpunan Kasus
A = Atribut
n = Jumlah Partisi Atribut A
Sᵢ = Jumlah Kasus Pada Partisi Ke i
S = Jumlah Kasus Dalam S

1) Gain (T Rata-Rata)
2 10
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9129) = 0,17892
12 12
2) Gain (T Max)
5 7
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0,981) + (− ( ) ∗ 0) = 0,53087
12 12
3) Gain (T Min)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0,9621) + (− ( ) ∗ 0) = 0,45857
12 12
4) Gain (CH)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9621) = 0,45857
12 12
5) Gain (Penyinaran Matahari)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0,9621) + (− ( ) ∗ 0) = 0,45857
12 12
6) Gain (Takanan Udara)
1 11
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,8964) = 0,11797
12 12
7) Gain (RH Rata-Rata)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9621) = 0,45857
12 12
8) Gain (Kecepatan Angin)
5 7
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9379) = 0,39251
12 12
57

Tabel 3.18 Hasil Perhitungan Nilai Gain


Jumlah Entrop
Atribut Nilai Ringan Sedang Lebat Gain
Kasus y
Total 12 7 2 3 0,9396
T Rata
0,17892
Rata

2 1 1 0 0
24,275
>24,275 10 6 1 3 0,9129
T Max 0,53087

5 2 2 1 0,981
32,075
>32,075 7 5 0 2 0
T Min 0,45857

6 3 2 1 0,9621
24,075
>24,075 6 4 0 2 0
CH 0,45857
≤ 9,875 6 6 0 0 0
>9,875 6 1 2 3 0,9621
Penyinara
n 0,45857
Matahari
≤ 81,25 6 1 2 3 0,9621
>81,25 6 6 0 0 0
Tekanan
0,11797
Udara

1 0 1 0 0
1009,6
>1009,6 11 7 1 3 0,8964
RH Rata-
0,45857
Rata
≤ 87 6 5 1 0 0
>87 6 2 1 3 0,9621
Kecepatan
0,39251
Angin
≤ 5,75 5 3 0 2 0
>5,75 7 4 2 1 0,9379

Berdasarkan hasil dari perhitungan yang ditunjukkan pada


tabel 3.18 dipilih atribut yang memiliki nilai gain tertinggi untuk
dijadikan sebagai akar. Terlihat atribut yang memiliki nilai gain
tertinggi adalah atribut T Max. Oleh karena itu atribut T Max dijadikan
58

sebagai akar. Terdapat 2 nilai pada atribut T Max, yaitu ≤ 32,075 dan
>32,075. Dari kedua nilai tersebut, nilai aribut >32,075 sudah
mengklasifikasikan kasus, yaitu keputusannya Lebat, sehingga tidak
perlu dilakukan perhitungan lagi. Untuk nilai ≤ 32,075 masih perlu
dilakukan perhitungan lagi.
Dari hasil perhitungan tersebut dapat digambarkan pohon keputusan
sementara seperti pada Gambar 3.2 berikut :

Gambar 3.2 Decision Tree Root

Selanjutnya menghitung nilai dari atribut T Max untuk dijadikan


node percabangan (Internal Node) dari nilai atribut ≤ 32,075.
Perhitungan dilakukan dengan cara yang sama dengan cara ulangi
langkah 2 dan 3 untuk mencari entropy serta nilai information gain pada
setiap atribut lainnya hingga semua mendapatkan nilai entropy dan
information gain. Hasil perhitungan dapat dilihat pada Tabel 3.19
berikut :
59

Tabel 3.19 Perhitungan Entropy Dan Gain


Jumlah
Atribut Nilai Ringan Sedang Lebat Entropy Gain
Kasus
Total 5 2 2 1 0,981
T Rata
0,38102
Rata
≤ 24,275 2 1 1 0 0
>24,275 3 1 1 1 1
T Min 0,98102
≤ 24,075 3 0 2 1 0
>24,075 2 2 0 0 0
CH 0,98102
≤ 9,875 2 2 0 0 0
>9,875 3 0 2 1 0
Penyinara
n 0,98102
Matahari
≤ 81,25 3 0 2 1 0
>81,25 2 2 0 0 0
Tekanan
0,20149
Udara
≤ 1009,6 1 0 1 0 0
>1009,6 4 2 1 1 0,9744
RH Rata-
0,98102
Rata
≤ 87 3 2 1 0 0
>87 2 0 1 1 0
Kecepatan
0,98102
Angin
≤ 5,75 1 0 0 1 0
>5,75 4 2 2 0 0

Pada Tabel 3.19 terlihat atribut T Min, CH, Penyinaran Matahari,


RH Rata-Rata, dan kecepatan Angin memiliki nilai gain yang sama, oleh
karena itu dipilih salah satu dari atribut tersebut. Atribut yang dipilih yaitu
penyinaran matahari sebagai internal node. Terdapat 2 nilai dari atribut
penyinaran matahari, yaitu ≤ 81,25 dan > 81,25. Dari kedua nilai tersebut
sudah mengklasifikasikan kasus, yaitu ≤ 81,25 keputusannya Sedang, dan
>81,25 keputusannya Ringan. Sehingga tidak perlu dilakukan perhitungan
lagi.
60

Dari hasil tersebut dapat digambarkan pohon keputusan seperti


pada Gambar 3.3 Berikut :

Gambar 3.3 Decision Tree

Berikut hasil klasifikasi data training berdasarkan dari proses


klasifikasi algoritma C4.5.

Tabel 3.20 Hasil Klasifikasi C4.5


T Peny Kece
Teka
Ra T T inara RH pata Hasil
Tangg nan
ta Ma Mi CH n Rata n Class Klasifi
al Udar
Ra x n Mata Rata Angi kasi
a
ta hari n
21 /
Desem 27, 31, 23, 1009,
1 100 78 18,52 Ringan Ringan
ber 55 2 6 6
/2020
28 /
27, 31, 23, 1008,
Januari 3 75 80 12 Ringan Sedang
2 4 4 0
/2021
29 /
27, 31, 20, 1008,
Januari 38 33 85 13 Sedang Sedang
1 4 2 2
/2021
61

3.5 Evaluasi (Evaluation)


3.1.1 Evaluasi Davies Bouldin Index (DBI)
Penelitian ini melakukan pengukuran performa model pada K-
Means menggunakan evaluasi Davies Bouldin Index(DBI) dengan tools
rapidminer. Kinerja pengelompokan Cluster pada umumnya di evaluasi
dengan DBI. Berdasarkan proses evaluasi yang dilakukan menggunakan
tools rapidminer didapatkan nilai dari hasil pengujian Davies Bouldin
Index(DBI) adalah 0.188 yang berarti klaster yang dihasilkan sudah baik.

Gambar 3.4 Evaluasi K-Means


62

3.1.2 Evaluasi 10-Fold Cross Validation


Evaluasi Model C4.5 menggunakan rapidminer. Prosesnya adalah
dataset curah hujan dihubungkan ke Cross Validation (X-Validation)
dengan 10-fold cross validation seperti Gambar 3.5 berikut.

Gambar 3.5 Susunan Cross Validation

Dalam melatih dan menguji model, pada bagian training diisi operator
Decicion Tree C4.5 dan bagian testing diisi operator Apply Model dan Performance.
Susunan operator training dan testing ditunjukkan pada Gambar 3.6 berikut.

Gambar 3.6 Desain Operator Cross Validation

Selanjutnya model di eksekusi sehingga menghasilkan kinerja model


dengan accuracy 85,29%.

Gambar 3.7 Hasil Performance Model C4.5


63

3.6 Penyebaran (Deployment)


Penyebaran pada penelitian ini merupakan pembuatan laporan dan
artikel dari hasil proses datamining yang diterapkan. Tahapan penyebaran
datamining hanya dilakukan untuk BMKG yang menjadi obyek penelitian
sebagai laporan bahwa pemodelan datamining layak digunakan untuk
pengelompokkan dan klasifikasi curah hujan.
3.7 Analisa Kebutuhan Sistem
Perangkat keras dan perangkat lunak yang digunakan dalam
pembuatan sistem clustering dan prediksi curah hujan dalam navigasi
penerbangan sebagai berikut :
1. Perangkat Keras
Perangkat keras yang diperlukan dalam Penelitian ini antara lain:
a. Laptop
b. Processor minimal intel core i3.
c. RAM minimal 4GB.
d. Harddisk 500GB.
e. Mouse
f. Printer
2. Perangkat Lunak
Perangkat lunak yang diperlukan dalam penelitian ini antara lain:
a. Microsoft Office Word 2013
Software yang digunakan untuk penyusunan laporan dalam
penelitian.
b. Microsoft Office Excel 2013
Software tersebut digunakan untuk menyimpan data yang digunakan
dalam penelitian, mengolah dan menganalisis perhitungan manual
K-Means Clustering.
c. Visual Studio Code
Software yang digunakan untuk menulis kode dari program yang
dibuat.
d. XAMPP Control Panel
64

Software yang digunakan sebagai database dari program yang


dibuat.
e. Sistem Operasi Windows 10
3.8 Perancangan Flowchart Sistem
3.8.1 Flowchart K-Means

Gambar 3.8 Flowchart K-Means

Dari gambar 3.8 dapat dilihat flowchart K-Means yang dimulai


dengan menetukan banyaknya cluster. Setelah nilai ditentukan, langkah
selanjutnya adalah menentukan dan menghitung centroid. Jarak antara tiap
titik data yang ada dan tiap centroid akan dihitung menggunakan Euclidean
Distance hingga ditentukan jarak terpendek antara setiap titik data dan
centroid. Selanjutnya dilakukan pengelompokan objek berdasarkan jarak
minimum terhadap pusat cluster. Pusat cluster tersebut kemudian untuk
sementara dijadikan pusat cluster atau centroid. Jika masih terdapat
centroid yang harus dipindah atau berubah ke cluster yang lain, maka proses
diulang kembali, tetapi jika tidak maka proses selesai.
65

3.8.2 Flowchart C4.5

Gambar 3.9 Flowchart Algoritma C4.5

Berdasarkan flowchart diatas dijelaskan bahwa tahap klasifikasi


algoritma C4.5 dimulai dengan memasukkan dataset, kemudian dilakukan
pencarian entropy dan pencarian gain dari masing-masing atribut pada
dataset untuk menentukkan gain tertinggi. Jika ditemukan gain tertinggi
maka gain tersebut akan menjadi root awal. Selanjutnya membuat node
cabang dengan cara yang sama dengan melihat gain tertinggi dari tiap hasil
partisi dan dari proses tersebut akan menampilkan hasil klasifikasi.
3.8.2 Diagram Use Case
Diagram Use Case dibuat untuk menampilkan alur aktivitas yang
dilakukan oleh sistem yang akan dibuat. Use Case menggambarkan fungsi
tertentu dalam suatu sistem berupa komponen, kejadian atau kelas. Adapun
Diagram Use Case dapat dilihat pada gambar berikut:
66

Gambar 3.10 Diagram Use Case

3.9 Struktur Tabel


a. Tabel User
Tabel berikut merupakan isi tabel yang terdapat di dalam
database data, dimana field User_Id dengan type data integer,
user_fullname dengan type data varchar, user_password dengan type
data varchar, user_email dengan type data varchar, sedangkan field
user_role dengan type data enum dan tidak memiliki panjang.
Tabel 3.21 Database User
Nama Type Keterangan
user_id Integer Id pengguna
Nama lengkap
user_fullname Varchar
pengguna
Password
user-password Varchar
pengguna
user_email Varchar Email pengguna
User_role Enum Peran pengguna

b. Tabel Curah Hujan


Tabel berikut merupakan tabel data curah hujan, dimana terdapat
10 keterangan field yaitu : data_id, Tanggal, T Rata-Rata, T Max, CH,
Penyinaran Matahari, Tekanan Udara, RH Rata-Rata, dan Kecepatan
Angin Rata-Rata.
67

Tabel 3.22 Database Curah Hujan


Nama Type Keterangan
Data_Id Integer Nomor urut data
Atribut tanggal, bulan, dan tahun yang
Tanggal Varchar
disimpan sebagai waktu terjadinya cuaca
T Rata-Rata Float Atribut Temperature rata-rata harian
T Max Float Atribut Temperature maximum harian
T Min Float Atribut Temperature minimum harian
Atribut Atribut penyinaran matahari dalam
CH Float
satu hari
Penyinaran
Integer Atribut Tekanan udara dalam satu hari
Matahari
Tekanan Udara Float Atribut Kelembapan rata-rata dalam satu hari
Atribut Kecepatan angin rata-rata dalam satu
RH Rata-Rata Integer
hari
Kecepatan
Angin Rata- Float Atribut Curah hujan harian
Rata
68

3.10 Desain Antar Muka (Interface)


Desain interface dibuat dengan tujuan untuk mempermudah
pembuatan tampilan dari setiap menu yang ada pada sistem. Desain
interface juga dibangun untuk bisa memenuhi kebutuhan sistam user/admin
pada aplikasi pengelompokkan dan klasifikasi curah hujan. Berikut gambar
beserta penjelasan dari setiap form yang akan dibangun.
1. Halaman Login
Halaman Login digunakan admin/user sebagai autentifikasi
yang berisi textbox User beserta Password yang digunakan untuk
meminimalisir orang asing atau orang yang tidak dikenal menggunakan
aplikasi tersebut.

Logo BMKG

Badan Meteorologi, Klimatologi, Dan


Logo BMKG
Geofisika
Masukkan Email
Badan Meteorologi, Klimatologi, Dan
Geofisika
Masukkan Email
Masukkan Password

Masukkan Password

Log In

Log
Gambar 3.11 In
Tampilan Login

2. Tampilan Halaman Dataset K-Means Clustering


Halaman K-Means Clustering akan menampilkan data yang
digunakan untuk dilakukan proses perhitungan pengelompokkan curah
hujan. Form Dataset akan menampilkan Dataset curah hujan dari
database.
69

Pada tampilan halaman dataset dilengkapi juga proses


normalisasi, tujuan dari normalisasi ini adalah membentuk data dalam
posisi nilai dengan rentang yang sama. Karena algortima K-Means
sedikit sensitif dengan adanya data outlier (pencilan), sehingga dengan
dilakukan normalisasi, deviasi dari outlier akan distribusi data normal.

K-Means Clustering Logout

K-Means Clustering
K-Means ClusteringLogout Dataset
Dataset
Tentukan Pusat Cluster Dataset
Perhitungan K-Means
Dataset Pusat
Tentukan Cluster Normalisasi Dataset
K-Means CLustering
Perhitungan K-Means
K-Means CLustering Normalisasi Dataset

Gambar 3.12 Tampilan Halaman Dataset

3. Tampilan Halaman Tentukan Pusat Cluster


Halaman Tentukan Pusat Cluster untuk menentukan type
centroid, memasukkan jumlah cluster, dan maksimal
Iterasi/perulangan. Sebelum sistem melakukan perhitungan maka harus
diinputkan jumlah cluster. Type centroid menggunakan nilai centroid
nilai rata-rata yang di dapatkan dari hasil normalisasi dataset. Jumlah
cluster yang di tentukan tidak boleh kurang dari 2 dan maksimal
perulangan di tentukan secara bebas.
70

K-Means Clustering Logout

K-Means Clustering Logout


K-Means Clustering Tentukan Centroid & Cluster
Type Centroid
Dataset Tentukan Centroid & Cluster
Tentukan Pusat Cluster Jumlah
Type Cluster
Centroid
Perhitungan K-Means Max Perulangan
Dataset Pusat
Tentukan Cluster Jumlah Cluster
K-Means CLustering
Perhitungan K-Means Max Perulangan
Simpan
K-Means CLustering

Gambar 3.13 Tampilan Penentuan Cluster

4. Tampilan Halaman Perhitungan K-Means


Halaman Hasil K-Means menampilkan form Hasil dari
perhitungan K-Means berupa Tanggal dan Hasil kluster akhir yang
sesuai dengan perhitungan manual yang dilakukan sebelumnya.

K-Means Clustering Logout

K-Means Clustering Logout


K-Means Clustering Iterasi Ke-1
Dataset
Tentukan Pusat Cluster
Perhitungan K-Means
Dataset
Tentukan Pusat Cluster
K-Means CLustering
Perhitungan K-Means
K-Means CLustering

Gambar 3.14 Tampilan Perhitungan K-Means


71

5. Tampilan Halaman Hasil K-Means Clustering


Halaman ini menampilan hasil akhir dari proses perhitungan
dataset menggunakan metode K-Means. Berdasarkan hasil akhir ini,
akan didapatkan informasi tentang pengelompokkan data berdasarkan
masing-masing cluster.

K-Means Clustering Logout

K-Means Clustering
K-Means ClusteringLogout Hasil Cluster K-Means

Dataset HasilTanggal
Cluster K-Means Cluster
Tentukan Pusat Cluster Tanggal Cluster
Dataset
Perhitungan K-Means
Tentukan Pusat Cluster
K-Means Clustering
Perhitungan K-Means

K-Means Clustering
Gambar 3.15 Tampilan Hasil K-Means
BAB IV
HASIL DAN PEMBAHASAN
Bab ini berisi tentang hasil implementasi aplikasi yang melakukan
pengujian metode K-Means Clustering dan hasil pemodelan klasifikasi metode
C4.5 menggunakan Jupyter Notebook.
4.1 Fitur Interface Aplikasi K-Means Clustering
Hasil dari penelitian yang telah dilakukan berdasarkan sistem yang
dibangun dan pembahasan implementasi yang menghasilkan aplikasi
pengelompokkan algoritma K-Means berbasis web. Berikut
tampilan/interface dari setiap form halaman yang tersedia.
4.1.1 Halaman Login
Halaman Login merupakan tampilan awal ketika program
dijalankan yang digunakan admin/user sebagai autentifikasi untuk
mengelola aplikasi. Dalam halaman login ini user/admin harus
menginputkan E-mail dan password untuk masuk kedalam system.

Gambar 4.1 Form Halaman Login

72
73

4.1.2 Tampilan Menu Dataset K-Means Clustering


Pada halaman K-Means clustering, menampilkan dataset yang akan
dilakukan pengelompokkan curah hujan berdasarkan dataset yang sudah
dibuat pada database. Halaman ini berisi informasi data curah hujan yang
terdiri dari beberapa atribut antara lain Tanggal, T Rata-Rata(Suhu Rata-
Rata Harian), T Max (suhu maximum harian), T Min (Suhu Minimum
harian), ch (curah hujan harian), penyinaran matahari, tekanan udara, RH
Rata-Rata, dan kecepatan angin rata-rata.

Gambar 4.2 Form Halaman Dataset


74

4.1.3 Tampilan Menu Menentukan Pusat Cluster


Pada menu ini, menampilkan pilihan yang bisa diisi oleh user antara
lain : Type Centroid, Jumlah Cluster, dan Max Iterasi (perulangan). Pada
pilihan jumlah cluster diisi dengan 3 sesuai dengan jumlah cluster yang
ditentukan pada penelitian ini, yaitu cluster hujan ringan, hujan sedang, dan
hujan lebat. Jumlah cluster yang inputkan tidak boleh kurang dari 2, inputtan
jumlah cluster harus lebih atau sama dengan 2.

Gambar 4.3 Form Halaman Penentuan Cluster

4.1.4 Tampilan Menu Perhitungan K-Means


Pada menu ini, menampilkan proses perhitungan dataset
menggunakan algoritma K-Means yang melakukan pengelompokkan curah
hujan menjadi cluster 1, cluster 2, dan cluster 3. Pada form halaman ini
menampilkan perhitungan centroid, perhitungan Euclidean Distance, dan
hasil cluster pada setiap proses iterasi. Proses iterasi akan berhenti sampai
keanggotaan hasil cluster dari iterasi sebelum dan sesudahnya sama. Dalam
proses clustering ini terdapat 9 jumlah iterasi(perulangan), dan terdapat
hasil jumlah cluster 1, cluster 2, dan cluster 3 sesuai dengan ketentuan
jumlah cluster dalam penelitian ini.
75

Gambar 4.4 Form Halaman Perhitungan K-Means


76

4.1.5 Tampilan Menu Hasil K-Means Clustering


Pada menu ini, menampilkan Tanggal dan hasil Cluster sebagai
Output hasil akhir dari perhitungan K-Means.
77
78
79
80
81
82
83
84
85
86
87
88

Gambar 4.5 Hasil Akhir Perhitungan K-Means


89

4.2 Prediksi C4.5 Pada Jupyter Notebook


Setelah pengelompokkan curah hujan menggunakan metode K-
Means telah selesai dilakukan, selanjutnya adalah melakukan pemodelan
dengan menggunakan Jupyter Notebook berdasarkan label target yang telah
diperoleh dari hasil clustering.
4.2.1 Memasukkan Library
Dalam memudahkan proses dan penerapan metode C4.5, dilakukan
import library dan pendeklarasian terhadap library python.

Gambar 4.6 Import Library

4.2.2 Import Dataset


Penelitian ini menggunakan dataset dengan format file *.csv.
melakukan pemanggilan dataframe dengan membuat sebuah variabel yang
bernama dataset. Kemudian melakukan pemanggilan dengan perintah
Read_csv yang merupakan perintah default dari pandas untuk memanggil
file dengan ekstensi .csv.

Gambar 4.7 Import Dataset

File tersebut diletakkan pada folder yang sama dengan file Jupyter
Notebook sehingga memudahkan dalam pemanggilan dataframe.
90

4.2.3 Menampilkan Dataset


Menampilkan Data Frame dari file klasifikasi.csv yang telah
disimpan dalam inisialisasi variabel dataset.

Gambar 4.8 Syntax Menampilkan Dataset

Berikut tampilan output isi dari data frame pada variabel dataset
dengan total yang 273 data :

Gambar 4.9 Output DataFrame

4.2.4 Melihat Informasi Atribut Pada Dataset


Menampilkan informasi detail tentang dataset seperti jumlah baris
data, nama-nama kolom beserta jumlah data dan tipe datanya, dan
sebagainya.

Gambar 4.10 Syntax Info Atribut

Berikut output dari informasi atribut pada dataset, pada gambar


dapat dilihat bahwa total keseluruhan data adalah 273 dengan 9 atribut
91

Gambar 4.11 Menampilkan Informasi Dataset

4.2.5 Mengecek Missing Value


Sebelum diterapkan pemrosesan metode pada data, penting untuk
mengetahui dan memastikan kembali data yang akan di proses mengandung
missing value atau tidak.

Gambar 4.12 Syntax Cek Missing Value

Berikut ditampilkan atribut dalam data bernilai nol, yang


menandakan bahwa data tersebut lengkap dan tidak ada data yang hilang
(missing value).

Gambar 4.13 Tidak Ada Missing Value


92

4.2.6 Menentukan Atribut Yang Akan Di Prediksi


Menampilkan jumlah atribut target yang akan dilakukan prediksi
terdapat 112 jumlah Class Ringan, 83 jumlah Class Lebat, dan 78 jumlah
Class Sedang.

Gambar 4.14 Menampilkan Atribut Target

4.2.7 Deklarasi Pemisahan Data Fitur Dan Data Label


Melakukan pemisahan data fitur dengan data class yang menjadi
target. Data sebagai fitur disimpan dalam variabel x, dan data class sebagai
target disimpan dalam variabel y.

Gambar 4.15 Deklarasi Data Training Dan Data Testing

4.2.8 Split Dataset


Dataset dibagi menjadi data training (data latih) dan data testing
(data uji) untuk menguji dan mengevaluasi model yang dihasilkan.
Memasukkan library dari sklearn.model_selection sehingga dapat
memanfaatkan fungsi train_test_split. Data uji yang digunakan yaitu 20%
dari keseluruhan data yang ditetapkan dengan nilai test_size=20.

Gambar 4.16 Split Data


93

Model klasifikasi yang telah diaplikasikan yang diperoleh dari hasil


data training dan data testing, model tersebut disimpan dalam atribut
klasifikasi.

Gambar 4.17 Deklarasi Decision Tree

4.2.9 Visualisasi Model Tree


Untuk menampilkan pohon keputusan dibutuhkan visualisasi model
decision tree dengan menggunakan fungsi export_graphviz Scikit-learn.
Menerapkan import graphviz dan pydotplus untuk plotting Tree.

Gambar 4.18 Visualisasi Model Tree

4.2.10 Visualisasi Decision Tree


Berikut tampilan visualisasi dari phon keputusan berdasarkan proses
prediksi yang telah dilakukan.

Gambar 4.19 Decision Tree


94

4.2.11 Menampilkan Data Testing


Berikut ini tampilan data testing yang akan diproses. Persentase data
testing 20% dan ditampilkan record data 10 teratas.

Gambar 4.20 Tampilan 10 Record Data Testing Teratas

4.2.12 Menampilkan data Prediksi


Melakukan prediksi pada X_test dengan menyimpan hasil proses
pada variabel y_pred seperti berikut :

Gambar 4.21 Syntax Proses Prediksi

Berikut menampilkan output dari hasil proses prediksi X_test (data


yang akan dilakukan pengujian).

Gambar 4.22 Menampilkan Hasil Prediksi


95

4.2.13 Menyimpan dan menampilkan hasil prediksi


Setelah model Decicion Tree selesai dibuat, selanjutnya menyimpan
dan menampilkan hasil perbandingan proses berdasarkan data actual dan
data prediksi 10 teratas pada tabel.

Gambar 4.23 Syntax proses perbandingan

Berikut output perbandingan tampilan hasil dari data aktual dan data
prediksi yang diproses sebelumnya yang disimpan dalam tabel.

Gambar 4.24 Perbandingan data testing dan prediksi

4.2.14 Pengujian Performa Model Decision Tree


Melakukan pengujian performance pemodelan menggunakan
confusion matrix dengan classification_report yang telah disediakan oleh
library sklearn.

Gambar 4.25 Import Library Sklearn


96

Untuk membuat tampilan tabel confusion matrix bervariasi maka


digunakan Confusion Matrix Display yang disimpan dalam variabel disp
seperti berikut :

Gambar 4.26 Syntax Menampilkan Confusion Matrix

Berikut ini merupakan visualisasi dari confusion matrix berdasarkan


dari proses yang telah dilakukan.

Gambar 4.27 Tampilan Confusion Matrix

Berdasarkan dari ilustrasi confusion matrix diatas didapatkan hasil


bahwa dari 273 data testing curah hujan, prediksi Class Lebat dengan nilai
True sebanyak 13 class(True Positif), prediksi Class Ringan dengan nilai
True sebanyak 21 class(True Positif), prediksi Class Sedang dengan nilai
True sebanyak 14 class(True Positif). salah prediksi pada Class Lebat
sebanyak 4(False Positif), sebanyak 2 class(False Negatif), dan sebanyak
36 class(True Negatif). Salah prediksi pada Class Ringan sebanyak 1(False
Positif), sebanyak 2 class(False Negatif), dan sebanyak 31 class(True
97

Negatif). Salah prediksi pada Class Sedang sebanyak 2(False Positif),


sebanyak 3 class(False Negatif), dan sebanyak 36 class(True Negatif).

4.2.15 Performance Model


Menggunakan perintah Classification report untuk mengetahui
tingkatan performa dari model yang dibuat.

Gambar 4.28 Syntax Classification Report

Hasil dari performa tersebut akan ditampilkan dalam bentuk


confusion matrix yang dapat diketahui nilai accuracy, precison, recall, f1-
score seperti berikut:

Gambar 4.29 Tampilan Output Classification Report

Berdasarkan output hasil confusion matrix diatas, berikut


perhitungan manual confusion matrix dari hasil implementasi metode C4.5.

Tabel 4.1 Hasil Confusion Matrix


Lebat Ringan Sedang
Lebat 13 0 2
Data Actual Ringan 2 21 0
Sedang 2 1 14
Data Actual
Data Prediksi

Data Prediksi
98

1. Curah Hujan Lebat

Tabel 4.2 Matrix Curah Hujan Lebat


13 4
TP FP
2 36
FN TN

a. Accuracy
13+36 49
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = 0.89 x 100% = 89%.
55 55

b. Precision
13 13
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 13+4 = = 0.76
17

c. Recall
13 13
𝑅𝑒𝑐𝑎𝑙𝑙 = 13+2 = = 0.87
15

2. Curah Hujan Ringan

Tabel 4.3 Matrix Curah Hujan Ringan


21 1
TP FP
2 31
FN TN

a. Accuracy
21+31 52
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = 0.94 x 100% = 94%.
55 55

b. Precision
21 21
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 21+1 = = 0.95
22

c. Recall
21 21
𝑅𝑒𝑐𝑎𝑙𝑙 = 21+2 = = 0.91
23
99

3. Curah Hujan Sedang

Tabel 4.4 Matrix Curah Hujan Sedang


14 2
TP FP
3 36
FN TN

a. Accuracy
14+36 50
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = 0.90 x 100% = 90%.
55 55

b. Precision
14 14
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 14+2 = = 0.88
16

c. Recall
14 14
𝑅𝑒𝑐𝑎𝑙𝑙 = 14+3 = = 0.82
17

Performa dari pemodelan penerapan Decision Tree C4.5 didapatkan nilai accuracy
87%.

Gambar 4.30 Hasil Accuracy


BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil dari penelitian dan pembahasan, maka diperoleh
kesimpulan :
1. Penelitian ini menggunakan 273 data. Berdasarkan dari proses
perhitungan K-Means diketahui bahwa jumlah hasil clustering yang di
dapatkan antara lain curah hujan dengan kategori Ringan terdapat 112
data cluster, curah hujan dengan kategori Sedang terdapat 78 data
cluster, dan curah hujan dengan kategori Lebat terdapat 83 data cluster.
2. Pengelompokkan curah hujan metode K-Means yang di evaluasi
menggunakan tools rapidminer didapatkan nilai Davies Bouldin
Index(DBI) sebesar 0.188 188 yang berarti klaster yang dihasilkan
sudah baik. Kemudian penerapan metode C4.5 menggunakan tools
Jupyter Notebook didapatkan performa pemodelan berdasarkan evaluasi
pengujian, metode C4.5 memperoleh accuracy 87% dari hasil pengujian
confusion matrix dan accuracy 85,29% dari hasil pengujian 10-fold
cross validation.
3. Pada penelitian ini, hasil pengelompokkan curah hujan menggunakan
metode K-Means memberikan pengaruh yang baik untuk prediksi curah
hujan dilihat nilai accuracy yang dihasilkan metode C4.5.
5.2 Saran
Berdasarkan dari penelitian yang dilakukan, maka penulis
memberikan saran :
1. Penelitian selanjutnya dapat dikembangkan dengan menarapkan
algoritma data mining yang lain. Penerapan algoritma yang berbeda bisa
menghasilkan nilai yang variatif dan informasi lebih akurat.
2. Penelitian selanjutnya, dalam proses pengelompokkan dan klasifikasi
bisa menggunakan kumpulan data yang lebih besar sehingga bisa
memberikan hasil akurasi yang lebih tinggi.

100
101

3. Untuk mendapatkan hasil klasifikasi dan nilai akurasi yang tinggi,


peneliti selanjutnya bisa menerapkan atribut yang tepat dan sesuai
dengan teknik mengganti, menambah atau mengurangi atribut sesuai
kebutuhan penelitian.
4. Penelitian selanjutnya bisa menerapkan metode pengujian yang lain
untuk menghasilkan performa pemodelan yang bervariasi.
5. Disarankan penelitian ini bisa digunakan sebagai referensi dan
dikembangkan untuk penelitian selanjutnya.
DAFTAR PUSTAKA

- AMIK BSI Yogyakarta, E. M. (2018). Komparasi Metode Clustering K-Means


Dan K-Medoids Dengan Model Fuzzy Rfm Untuk Pengelompokan Pelanggan.
Evolusi : Jurnal Sains Dan Manajemen, 6(2).
https://doi.org/10.31294/evolusi.v6i2.4600
Ajr, E. Q., & Dwirani, F. (2019). Menentukan Stasiun Hujan Dan Curah Hujan
Dengan Metode Polygon Thiessen Daerah Kabupaten Lebak. Agustus, 2(2),
139–146.
Alfonita, F. (2018). PENERAPAN ALGORITMA K-MEANS DALAM
PENGELOMPOKAN CURAH HUJAN DI DAERAH JABODETABEK.
Computers and Industrial Engineering, 2(January), 6.
http://ieeeauthorcenter.ieee.org/wp-content/uploads/IEEE-Reference-
Guide.pdf%0Ahttp://wwwlib.murdoch.edu.au/find/citation/ieee.html%0Ahtt
ps://doi.org/10.1016/j.cie.2019.07.022%0Ahttps://github.com/ethereum/wiki/
wiki/White-Paper%0Ahttps://tore.tuhh.de/hand
Asmaul Husnah Nasrullah. (2018). penerapan metode C45 untuk klasifikasi
mahasiswa drop out. ILKOM Jurnal Ilmiah, 10, 244–250.
Fenny, D. (2019). Analisis Perbandingan Cosine Normalization dan Min-Max
Normalization pada Pengelompokan Terjemahan Ayat Al-Quran
menggunakan Algoritma K-Means Clustering. Journal of Chemical
Information and Modeling, 53(9), 1689–1699.
Hasanah, M. A., Soim, S., & Handayani, A. S. (2021). Implementasi CRISP-DM
Model Menggunakan Metode Decision Tree dengan Algoritma CART untuk
Prediksi Curah Hujan Berpotensi Banjir. Journal of Applied Informatics and
Computing, 5(2), 103–108. https://doi.org/10.30871/jaic.v5i2.3200
Hasugian, & Shidiq. (2019). Language Record Structure. Journal of Chemical
Information and Modeling, 53(9), 1689–1699.
Pratama, A. R. I., Latipah, S. A., & ... (2022). Optimasi Klasifikasi Curah Hujan
Menggunakan Support Vector Machine (Svm) Dan Recursive Feature
Elimination (Rfe). JIPI (Jurnal …, 07, 314–324.
http://jurnal.stkippgritulungagung.ac.id/index.php/jipi/article/view/2675%0A
https://jurnal.stkippgritulungagung.ac.id/index.php/jipi/article/download/267
5/1166
Putri, A. A. (2021). Penerapan Data Mining Untuk Memprediksi Penjualan Buah
Dan Sayur Menggunakan Metode K-Nearest Neighbor ( Studi Kasus : PT .
Central Brastagi Utama ). 1(6), 354–361.
Rahayu, N. D., Sasmito, B., & Bashit, N. (2018). Analisis Pengaruh Fenomena
Indian Ocean Dipole (Iod) Terhadap Curah Hujan Di Pulau Jawa. Jurnal
Geodesi Undip, 7(1), 57–67.

102
Rahmatuloh, M. (2022). Rancang Bangun Sistem Informasi Jasa Pengiriman
Barang Pada Pt. Haluan Indah Transporindo Berbasis Web. Jurnal Teknik
Informatika, 14(1), 54–59.
Rerung, R. R. (2018). Penerapan Data Mining dengan Memanfaatkan Metode
Association Rule untuk Promosi Produk. Jurnal Teknologi Rekayasa, 3(1), 89.
https://doi.org/10.31544/jtera.v3.i1.2018.89-98
Riskawati, Zakaria, Munandar, H. M., & Bangun, B. (2021). Journal of Student
Development Information System (JoSDIS). ERANCANGAN SISTEM
PENGENALAN RAMBU-RAMBU LALU LINTAS PADA MTs ISLAMIYAH
MENGGUNAKAN ADOBE FLASH PROSESIONAL CS6, 178, 40–47.
Rofiq, H., Pelangi, K. C., & Lasena, Y. (2020). Penerapan Data Mining Untuk
Menentukan Potensi Hujan Harian Dengan Menggunakan Algoritma Naive
Bayes. Jurnal Manajemen Informatika Dan Sistem Informasi, 3(1).
Ruswanti, D. (2020). Pengukuran Performa Support Vector Machine Dan Neural
Netwok Dalam. Gaung Informatika, 13(1), 66–75.
Salsabila, F., & Intani, S. M. (2021). Implementasi Algoritma K-Means Dan C4.5
Dalam Menentukan Tingkat Penyebaran Covid-19 Di Indonesia. Jurnal
Siliwangi, 7(1), 25–30.
Suhada, K., Elanda, A., & Aziz, A. (2021). Klasifikasi Predikat Tingkat Kelulusan
Mahasiswa Program Studi Teknik Informatika dengan Menggunakan
Algoritma C4.5 (Studi Kasus: STMIK Rosma Karawang). Dirgamaya: Jurnal
Manajemen Dan Sistem Informasi, 1(2), 14–27.
https://doi.org/10.35969/dirgamaya.v1i2.182
Sukma, H., Studi, P., Informatika, T., Tinggi, S., Informatika, M., & Komputer, D.
A. N. (2021). CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA
UNTUK MENENTUKAN KELAYAKAN BANTUAN.
Tanugraha, F. D. (2022). TA : Sistem Pengenalan Aktivitas Manusia Menggunakan
Long Short-Term Memory dan Mediapipe - Repositori Universitas Dinamika.
https://repository.dinamika.ac.id/id/eprint/6190/
Www.bmkg.go.id. (2022). Sejarah | BMKG. Www.Bmkg.Go.Id.
https://www.bmkg.go.id/profil/?p=sejarah
Yuli Mardi. (2019). Data Mining : Klasifikasi Menggunakan Algoritma C4 . 5 Data
mining merupakan bagian dari tahapan proses Knowledge Discovery in
Database ( KDD ) . Jurnal Edik Informatika. Jurnal Edik Informatika, 2(2),
213–219.
Zai, C. (2022). Implementasu Data Mining Sebagai Pengolahan Data. Portal Data,
2(3), 1–12.

103

Anda mungkin juga menyukai