Skripsi Sakinatul Kubra Fix
Skripsi Sakinatul Kubra Fix
5 UNTUK
PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN
SKRIPSI
Oleh:
SAKINATUL KUBRA
1810520048
SKRIPSI
Oleh :
SAKINATUL KUBRA
1810520048
SKRIPSI
Oleh :
SAKINATUL KUBRA
1810520048
Menyetujui,
Mayadi, M.Kom
Pembimbing
____________________________
Tanggal Menyetujui :
Telah diterima dan disetujui sebagai salah satu syarat untuk memperoleh
Gelar Akademik Sarjana Komputer (S.Kom)
Mengetahui:
Lilik Widyawati, M.Kom
Ketua Program Studi S1 Ilmu Komputer
____________________________
Tanggal Mengetahui :
PENERAPAN METODE K-MEANS DAN C4.5 UNTUK
PENGELOMPOKKAN DAN KLASIFIKASI CURAH HUJAN
Oleh :
SAKINATUL KUBRA
1810520048
Puji syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena atas
berkat dan rahmat-Nya penulis dapat menyelesaikan skripsi yang berjudul
“Penerapan Metode K-Means Dan C4.5 Untuk Pengelompokkan Dan
Klasifikasi Curah Hujan”.
Dengan selesainya skripsi ini, penulis ingin mengucapkan terima kasih
kepada pihak – pihak yang telah banyak membantu dalam penyelesaian skripsi ini.
Dalam kesempatan ini penulis menyampaikan ucapan terimakasih kepada:
1. Bapak Dr. Ir. Anthony Anggrawan, MT., Ph.D. selaku Rektor Universitas
Bumigora dan dosen pembimbing dalam pengerjaan skripsi ini.
2. Ibu Dr. Helna Wardhana, M.Kom, selaku Wakil Rektor I Universitas
Bumigora.
3. Bapak Ahmat Adil, M.Sc, selaku Dekan Fakultas Teknik.
4. Ibu Lilik Widyawati, M.Kom. Selaku Ketua Program Studi S1 Ilmu Komputer.
5. Bapak Mayadi, M.Kom. selaku dosen pembimbing dalam mengerjakan skripsi
ini.
6. Seluruh keluarga tercinta, khususnya Ayah dan Ibu yang telah memberikan
dukungan materi dan moril.
7. Terimakasih kepada Mauiza Afriliani, Nina Hikma Yuni, Dan Vira Agriani
yang telah memberikan support dan menemani dalam pengerjaan skripsi ini.
8. Semua pihak yang membantu untuk terwujudnya skripsi ini yang tidak dapat
disebutkan satu persatu.
Penulis menyadari dengan sepenuhnya bahwa dalam penulisan skripsi ini
masih jauh dari kesempurnaan, maka penulis senantiasa mengharapkan kritik dan
saran yang sifatnya membangun untuk dapat lebih sempurnanya pembuatan skripsi
atau sejenisnya pada masa-masa yang akan datang. Akhirnya penulis berharap
semoga tulisan ini bermanfaat bagi semua pihak.
Penulis
i
LEMBAR PERNYATAAN KEASLIAN
Benar-benar merupakan hasil karya pribadi dan seluruh sumber yang dikutip
maupun dirujuk telah saya nyatakan dengan benar dan apabila di kemudian hari
terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka saya
bersedia menerima sanksi akademik sesuai dengan aturan yang berlaku.
Sakinatul Kubra
NIM. 1810520048
ii
IZIN PENGGUNAAN
Skripsi ini merupakan syarat kelulusan pada Program Studi S1 Ilmu Komputer
Universitas Bumigora, dengan ini penulis setuju jika skripsi ini digandakan
(diduplikasi) baik sebagian maupun seluruhnya, ataupun dikembangkan untuk
kepentingan akademis yang disetujui oleh pembimbing penulis, Ketua Program
Studi, Dekan Fakultas Teknik dan Desain.
Untuk dimaklumi, bahwa menduplikasi, mempublikasikan atau menggunakan
skripsi ini, maupun bagian-bagiannya dengan tujuan komersial / keuntungan
finansial, tidak diizinkan tanpa adanya izin tertulis dari Universitas Bumigora. Jika
hal ini dilanggar maka Universitas Bumigora akan memberikan sanksi sesuai
dengan hukum yang berlaku.
Penghargaan akademis terkait isi dari skripsi ini adalah pada penulis dan
Universitas Bumigora.
Permintaan izin untuk menduplikasi atau menggunakan materi dari skripsi ini baik
sebagian maupun seluruhnya harus ditujukan pada :
iii
ABSTRAK
Indonesia sebagai negara beriklim tropis memiliki 2 musim yakni musim
hujan serta musim kemarau. Karakteristik negara beriklim tropis juga memiliki
curah hujan yang tinggi. Namun dengan adanya pemanasan global, curah hujan di
berbagai wilayah Indonesia berfluktuasi setiap tahunnya. Tidak menutup
kemungkinan akan terjadinya anomali cuaca, sehingga terjadi pergeseran waktu
terjadinya musim hujan baik terjadi hujan lebih awal dari perkiraan maupun
terlambat dari perkiraan. Selain pergeseran musim hujan, anomali cuaca dapat
menyebabkan curah hujan menjadi tidak teratur dan terjadinya curah hujan yang
jauh lebih tinggi rata-rata ataupun curah hujan yang jauh lebih rendah dari rata-rata.
Adapun tujuan penelitian ini untuk melakukan pengelompokkan dan klasifikasi
curah hujan. Mengeksploitasi data untuk pengelompokkan dan klasifikasi akan
mampu menghasilkan informasi curah hujan untuk berbagai kepentingan.
Metodologi penelitian yang digunakan adalah metode CRISP-DM(Cross-
Industry Standard Process for Data Mining) sebagai strategi pemecahan masalah.
Penelitian ini menerapkan metode K-Means dan C4.5, metode K-Means untuk
mengelompokkan curah hujan ke dalam 3 jumlah cluster yaitu cluster 1 Ringan,
cluster 2 Sedang, cluster 3 Lebat. Berdasarkan hasil pengelompokkan curah hujan
dengan metode K-Means didapatkan hasil keanggotaan masing-masing cluster.
Hasil pengelompokkan tersebut akan dilakukan klasifikasi dengan metode C4.5
yang menjadikan hasil cluster setiap data sebagai class target. Jumlah record data
yang digunakan dalam perhitungan metode K-Means dan C4.5 berjumlah 273 data.
Berdasarkan penerapan dari metode K-Means, output dari penelitian ini
adalah didapatkan 112 data dengan intensitas curah hujan Ringan (cluster 1), 78
data dengan intensitas curah hujan sedang (cluster 2), dan 83 data dengan intensitas
curah hujan lebat (cluster 3). Pengujian yang digunakan dalam mengukur
performance K-Means adalah Davies Bouldin Index(DBI). Nilai Davies Bouldin
Index dari hasil pengujian tersebut adalah 0.188 yang berarti klaster yang dihasilkan
sudah baik. Semakin kecil nilai DBI, maka semakin baik cluster yang diperoleh
dari pengelompokkan K-Means clustering yang digunakan.
Kesimpulan dari pengelompokkan metode K-Means dilakukan prediksi
intensitas curah hujan dengan menerapkan metode C4.5 pada tools Jupyter
Notebook. Pada penelitian ini, hasil pengelompokkan menggunakan metode K-
Means memberikan pengaruh yang baik untuk prediksi pada metode C4.5,
berdasarkan evaluasi pengujian, metode C4.5 memperoleh accuracy 87% dari hasil
pengujian confusion matrix dan accuracy 85,29% dari hasil pengujian 10-fold cross
validation.
iv
DAFTAR ISI
KATA PENGANTAR ............................................................................................ I
LEMBAR PERNYATAAN KEASLIAN ........................................................... II
IZIN PENGGUNAAN ........................................................................................ III
ABSTRAK ........................................................................................................... IV
DAFTAR ISI ..........................................................................................................V
DAFTAR GAMBAR ......................................................................................... VII
DAFTAR TABEL ............................................................................................... IX
BAB I PENDAHULUAN ...................................................................................... 1
1.1 Latar Belakang ........................................................................................ 1
1.2 Rumusan Masalah ................................................................................... 4
1.3 Batasan Masalah...................................................................................... 4
1.4 Tujuan Dan Manfaat ............................................................................... 5
1.5 Metodologi Penelitian ............................................................................. 6
1.5.1 Tahap Pengumpulan Data ............................................................... 6
1.5.2 Tahap pengembangan system ......................................................... 6
1.6 Sistematika Penulisan ............................................................................. 8
BAB II LANDASAN TEORI ............................................................................. 10
2.1 Profil Sejarah Badan Meteorologi, Klimatologi Dan Geofisika ........... 10
2.1.1 Sejarah ........................................................................................... 10
2.1.2 Visi Misi ........................................................................................ 12
2.1.3 Tugas Dan Fungsi ......................................................................... 14
2.1.4 Struktur Organisasi ....................................................................... 16
2.1.5 Pelayanan Data .............................................................................. 17
2.2 Curah Hujan .......................................................................................... 18
2.3 Data Mining .......................................................................................... 18
2.3.1 Pengertian Data Mining ................................................................ 18
2.3.2 Pengelompokkan Data Mining...................................................... 18
2.4 Clustering .............................................................................................. 20
2.5 Klasifikasi ............................................................................................. 20
2.6 Algoritma K-Means ............................................................................... 20
2.7 Algoritma C4.5 ...................................................................................... 21
2.8 Flowchart .............................................................................................. 21
2.9 PHP ....................................................................................................... 22
2.10 MYSQL ................................................................................................. 23
2.11 XAMPP ................................................................................................. 23
2.12 Confusion Matrix .................................................................................. 24
2.13 Jupyter Notebook .................................................................................. 24
BAB III METODOLOGI ................................................................................... 25
3.1 Pemahaman Bisnis (Bussiness Understanding) .................................... 25
3.2 Pemahaman Data (Data Understanding) .............................................. 26
3.2.1 Pengumpulan data awal (Collect Initial Data) ............................. 26
3.2.2 Mendeskripsikan Data (Describe Data)........................................ 28
3.2.3 Verikasi Kualitas Data (Verify Data Quality) ............................... 28
3.3 Persiapan Data (Data Preparation) ...................................................... 30
v
3.3.1 Pemilihan Data (Select Data) ........................................................ 30
3.3.2 Pembersihan data (Data Cleaning) ............................................... 31
3.3.3 Pembuatan Dataset dan Normalisasi Data (Data Normalization) 33
3.4 Pemodelan (Modelling) ......................................................................... 36
3.4.1 Pemilihan Algoritma ..................................................................... 36
3.4.2 Perhitungan Manual Algoritma ..................................................... 36
3.5 Evaluasi (Evaluation) ............................................................................ 61
3.1.1 Evaluasi Davies Bouldin Index (DBI) ........................................... 61
3.1.2 Evaluasi 10-Fold Cross Validation ............................................... 62
3.6 Penyebaran (Deployment) ..................................................................... 63
3.7 Analisa Kebutuhan Sistem .................................................................... 63
3.8 Perancangan Flowchart Sistem ............................................................. 64
3.8.1 Flowchart K-Means ....................................................................... 64
3.8.2 Flowchart C4.5 .............................................................................. 65
3.9 Struktur Tabel........................................................................................ 66
3.10 Desain Antar Muka (Interface) ............................................................. 68
BAB IV HASIL DAN PEMBAHASAN ............................................................ 72
4.1 Fitur Interface Aplikasi K-Means Clustering ....................................... 72
4.1.1 Halaman Login .............................................................................. 72
4.1.2 Tampilan Menu Dataset K-Means Clustering............................... 73
4.1.3 Tampilan Menu Menentukan Pusat Cluster.................................. 74
4.1.4 Tampilan Menu Perhitungan K-Means ......................................... 74
4.1.5 Tampilan Menu Hasil K-Means Clustering .................................. 76
4.2 Prediksi C4.5 Pada Jupyter Notebook ................................................... 89
4.2.1 Memasukkan Library .................................................................... 89
4.2.2 Import Dataset .............................................................................. 89
4.2.3 Menampilkan Dataset ................................................................... 90
4.2.4 Melihat Informasi Atribut Pada Dataset ....................................... 90
4.2.5 Mengecek Missing Value .............................................................. 91
4.2.6 Menentukan Atribut Yang Akan Di Prediksi ................................ 92
4.2.7 Deklarasi Pemisahan Data Fitur Dan Data Label ......................... 92
4.2.8 Split Dataset .................................................................................. 92
4.2.9 Visualisasi Model Tree ................................................................. 93
4.2.10 Visualisasi Decision Tree .............................................................. 93
4.2.11 Menampilkan Data Testing ........................................................... 94
4.2.12 Menampilkan data Prediksi ........................................................... 94
4.2.13 Menyimpan dan menampilkan hasil prediksi ............................... 95
4.2.14 Pengujian Performa Model Decision Tree .................................... 95
4.2.15 Performance Model ....................................................................... 97
BAB V PENUTUP ............................................................................................. 100
5.1 Kesimpulan ......................................................................................... 100
5.2 Saran .................................................................................................... 100
DAFTAR PUSTAKA ........................................................................................ 102
vi
DAFTAR GAMBAR
vii
Gambar 4.26 Syntax Menampilkan Confusion Matrix .................................... 96
Gambar 4.27 Tampilan Confusion Matrix ....................................................... 96
Gambar 4.28 Syntax Classification Report...................................................... 97
Gambar 4.29 Tampilan Output Classification Report ..................................... 97
Gambar 4.30 Hasil Accuracy ........................................................................... 99
viii
DAFTAR TABEL
ix
BAB I
PENDAHULUAN
1.1 Latar Belakang
Indonesia sebagai negara beriklim tropis memiliki 2 musim yakni
musim hujan serta musim kemarau (Rahayu et al., 2018). Karakteristik
negara beriklim tropis juga memiliki curah hujan yang tinggi. Namun
dengan adanya pemanasan global, curah hujan di berbagai wilayah
Indonesia berfluktuasi setiap tahunnya. Tidak menutup kemungkinan akan
terjadinya anomali cuaca, sehingga terjadi pergeseran waktu terjadinya
musim hujan baik terjadi hujan lebih awal dari perkiraan maupun terlambat
dari perkiraan. Selain pergeseran musim hujan, anomali cuaca dapat
menyebabkan curah hujan menjadi tidak teratur dan terjadinya curah hujan
yang jauh lebih tinggi rata-rata ataupun curah hujan yang jauh lebih rendah
dari rata-rata.
Berdasarkan kesepakatan internasional di seluruh dunia menyatakan
bahwa curah hujan mempunyai peran yang sangat penting baik dalam dunia
penerbangan, meteorologi dan yang lainnya (Ruswanti, 2020). Dalam
proses pembuatan informasi data curah hujan yang sulit karena harus
melibatkan banyak sumber data, antara lain data pengamatan, data suatu
model aplikasi cuaca, data gambar tentang kondisi awan pada satelit, data
kondisi awan pada radar. Berdasarkan permasalahan diatas, perlu dilakukan
pengolahan data yang efektif dan efisien dalam pengambilan keputusan
untuk memberikan layanan informasi secara cepat dan meningkatkan
kualitas informasi yang disampaikan. Adapun tujuan penelitian ini untuk
melakukan pengelompokkan dan klasifikasi curah hujan curah hujan.
Mengeksploitasi data untuk pengelompokkan dan klasifikasi akan mampu
menghasilkan informasi curah hujan untuk berbagai kepentingan.
Dalam melakukan pengelompokkan dan klasifikasi curah hujan,
alternative yang dapat digunakan adalah menerapkan ilmu data mining.
Data mining merupakan suatu proses untuk menggali dan mengetahui suatu
nilai tambah berupa informasi yang selama ini tidak bisa diketahui secara
1
2
4. Atribut yang digunakan dalam penelitian ini antara lain Tanggal, T Rata-
Rata, T Max, T Min, CH, Penyinaran Matahari, Tekanan Udara, RH
Rata-Rata, dan Kecepatan Angin Rata-Rata.
5. Terdapat 3 cluster dalam pengelompokkan curah hujan yaitu : Ringan,
Sedang dan Lebat.
6. Pengelompokkan curah hujan dengan motode K-Means menggunakan
aplikasi berbasis web dan klasifikasi curah hujan metode C4.5
menggunakan Tools Jupter Notebook.
1.4 Tujuan Dan Manfaat
Adapun tujuan dan manfaat yang diharapkan dengan dilakukannya
penelitian sebagai berikut :
i. Tujuan
Tujuan penelitian ini adalah untuk penerapan metode K-
Means pada aplikasi berbasis web dan penerapan metode C4.5
menggunakan tools Jupyter Notebook untuk melakukan klasifikasi
curah hujan.
ii. Manfaat
Adapun manfaat dari penelitian ini adalah sebagai berikut :
1. Bagi Penulis
Meningkatkan kemampuan mahasiswa untuk
menganalisa suatu masalah ke dalam sebuah sistem sehingga
mampu membuat sistem aplikasi yang sesuai dan dapat
memaksimalkan kemampuan penulis dalam menggali potensi-
potensi yang dimiliki.
2. Bagi Pembaca
Memberikan wawasan bagi pembaca tentang
pengelompokkan dan klasifikasi curah hujan dan sebagai
perbandingan bagi pembaca untuk dijadikan referensi dalam
menyusun skripsi dikemudian hari.
6
3. Bagi instansi
Memberikan solusi alternatif untuk memudahkan
BMKG dalam mengetahui informasi terhadap pengelompokkan
dan klasifikasi terjadinya intensitas curah hujan.
1.5 Metodologi Penelitian
1.5.1 Tahap Pengumpulan Data
1. Studi literatur
Teknik pengumpulan data yang dilakukan oleh penulis
berdasarkan beberapa referensi dari penelitian sebelumnya yang dikutip
melalui jurnal, artikel dan buku.
2. Internet Searching
Teknik pengumpulan data yang dilakukan oleh penulis melalui
internet untuk mendapatkan referensi yang dibutuhkan dalam penelitian.
1.5.2 Tahap pengembangan system
CRISP-DM (Cross-Industry Standard Process for Data Mining)
merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa
tahun 1996 kemudian sudah ditetapkan sebagai suatu proses standar dalam
data mining untuk dapat diaplikasikan pada berbagai sektor industri.
Metode CRISP-DM menjadi standar proses pada data mining untuk strategi
pemecahan masalah secara umum pada bisnis atau unit dalam penelitian.
CRISP-DM adalah suatu metode yang menggunakan model proses
pengembangan pada data yang telah banyak diterapkan oleh para ahli riset
untuk memecahkan masalah dalam penelitian. Proses penelitian ini
mengacu pada enam tahap CRISP-DM yaitu pemahaman bisnis,
pemahaman data, persiapan data, pemodelan, evaluasi dan penyebaran.
7
5. Evaluation
Fase Evaluasi ini menguji model yang sudah dibuat dan
dilakukan evaluasi keakuratan dan generalitasnya. Tahapan ini
dilakukan untuk mengukur sejauh mana model yang telah dipilih
memenuhi sasaran bisnis dan bila demikian, apakah perlu lebih banyak
model untuk dibuat lagi.
6. Deployment
Fase Deployment merupakan penyusunan laporan atau
presentasi dari modelling serta evaluation pada proses data mining.
BAB V : PENUTUP
Pada bab ini terdapat kesimpulan dan saran yang berisikan
hal-hal terpenting yang dibahas dan kemudian dijadikan
kesimpulan. Bab ini juga berisi saran-saran yang digunakan
untuk pengembangan aplikasi.
BAB II
LANDASAN TEORI
10
11
ke salah satu pusat cluster yang telah didefinisikan tergantung dari jarak
minimum antar komponen dengan tiap-tiap cluster. Posisi pusat cluster
akan dihitung kembali sampai semua komponen data digolongkan ke dalam
tiap-tiap pusat cluster dan terakhir akan terbentuk posisi pusat cluster yang
baru (Sukma et al., 2021).
2.7 Algoritma C4.5
Algoritma C4.5 merupakan salah satu algoritma yang digunakan
dalam membuat pohon keputusan (decision tree). Algoritma C4.5 adalah
pengembangan dari algoritma ID3 yang diciptakan oleh J. Rose Quinlan.
Dalam buku yang berjudul The Top Ten Algorithms in Data Mining
dijelaskan oleh Xindong Wu dan Vipin Kumar bahwa algoritma C4.5 sangat
populer yang digunakan banyak peneliti di dunia (Yuli Mardi, 2019).
Penerapan algoritma C4.5 mempermudah dalam memprediksi sebuah nilai
menjadi informasi.
2.8 Flowchart
Flowchart adalah suatu teknik untuk menggambarkan urutan logika
dari suatu prosedur penyelesaian masalah. Flowchart juga dapat disebut
sebagai langkah-langkah dalam menyelesaikan masalah dengan
menggunakan simbol-simbol tertentu. Flowchart memiliki sebuah alur
logika untuk menunjukkan didalam suatu program. Flowchart memiliki
manfaat selain sebagai media komunikasi. Flowchart juga berfungsi sebagai
dokumentasi dari suatu program. Tujuan dari flowchart adalah untuk
menggambarkan suatu tahapan penyelesaian masalah secara sederhana,
terurai, rapi, dan jelas dengan menggunakan simbol-simbol standar. Dapat
juga digunakan sebagai alur dari proses jalannya program yang diolah oleh
penulis, maka dengan adanya flowchart proses atau tahapan dari jalannya
sebuah program akan terstruktur atau sesuai dengan alur yang diolah
menggunakan flowchart (Sukma et al., 2021). Pada tabel 2.1 terdapat
simbol-simbol yang digunakan untuk menggambarkan algoritma dalam
bentuk diagram alir dengan masing-masing fungsinya.
22
2.9 PHP
PHP atau yang biasa disebut Hypertext Preprocessor adalah sebuah
bahasa pemrograman server side scripting yang bersifat open source.
Sebagai sebuah scripting language, PHP menjalankan instruksi
pemrograman saat proses runtime. Hasil dari instruksi tentu akan berbeda
tergantung data yang diproses. PHP merupakan bahasa pemrograman
server-side, maka script dari PHP nantinya akan diproses di server. Jenis
server yang sering digunakan bersama dengan PHP antara lain Apache,
Nginx, dan LiteSpeed (Rahmatuloh, 2022).
23
2.10 MYSQL
Menurut (Riskawati et al., 2021) MySQL merupakan database yang
menghubungkan script PHP dengan menggunakan perintah query dan
escape character yang sama dengan PHP. MySQL mempunyai tampilan
client yang mempermudah user dalam mengakses database dengan kata
sandi untuk mengijinkan proses yang akan dilakukan. MySQL adalah
sebuah implementasi dari sistem manajemen basisdata relasional (RDBMS)
yang didistribusikan secara gratis. Setiap pengguna dapat secara bebas
menggunakan MySQL. MySQL sebenarnya merupakan turunan salah satu
konsep utama dalam basisdata yang telah ada sebelumnya SQL (Structured
Query Language).
2.11 XAMPP
XAMPP merupakan tools yang menyediakan paket perangkat lunak
ke dalam satu buah paket. Dengan menginstall XAMPP maka tidak perlu
lagi melakukan instalasidan konfigurasiweb server Apache, PHP dan
MYSQL secara manual Xampp akan menginstalasi dan
mengkonfigurasikannya secara otomatis untuk anda atau auto konfigurasi.
XAMPP adalah perangkat lunak bebas, yang mendukung banyak sistem
operasi, merupakan kompilasi dari beberapa program. Fungsinya adalah
sebagai server yang berdiri sendiri (localhost), yang terdiri atas program
Apache HTTP Server, MySQL database, dan penerjemah bahasa yang
ditulis dengan bahasa pemrograman PHP dan Perl. Nama XAMPP
merupakan singkatan dari X (empat sistem operasi apapun), Apache,
MySQL, PHP dan Perl. Program ini tersedia dalam GNU General Public
License dan bebas, merupakan web server yang mudah digunakan yang
dapat melayani tampilan halaman web yang dinamis (Riskawati et al.,
2021).
24
Positif TP FN
Negatif FP TN
Keterangan :
TP (True Positive) = Jumlah data positive yang terdeteksi benar
FP (False Positive) = Jumlah data positive yang terdeteksi salah
FN (False Negative) = Jumlah data negative yang terdeteksi salah
TN (True Negative) = Jumlah data negative yang terdeteksi benar.
Berdasarkan tabel diatas, TP dan TN menunjukkan bahwa
klasifikasi tersebut bernilai benar dan sesuai dengan nilai aktual (asli),
sedangkan FP dan FN menunjukkan bahwa klasifikasi tersebut bernilai
salah atau tidak sesuai dengan nilai aktual (asli).
2.13 Jupyter Notebook
Tools Jupyter Notebook merupakan manipulasi data python paling
populer. Dengan jupyter memudahkan pengguna untuk mengsolidasikan
kode dan output secara interaktif ke dalam satu dokumen. Untuk memulai
jupyter notebook dengan mengetikkan kode python di terminal. Jupyter
Notebook dapat diakses melalui browser. Ketika layanan dimulai, pengguna
akan diarahkan langsung ke halaman browser http://localhost:8888/tree.
Halaman notebook jupyter akan ditampilkan di folder yang menjadi tempat
sintaks jupyter notebook dijalankan (Tanugraha, 2022).
BAB III
METODOLOGI
Tahapan yang digunakan dalam penelitian ini didasarkan pada metodologi yang
digunakan. Metodologi data mining yang digunakan adalah Cross Industry
Standard Process for Data Mining (CRISP-DM). Tahapan metodologi CRISP-
DM terdiri dari enam tahapan, yaitu: business understanding, data understanding,
data preparation, modeling, evaluation, dan deployment (Hasanah et al., 2021).
25
26
menjadi tidak teratur dan terjadinya curah hujan yang jauh lebih tinggi rata-
rata ataupun curah hujan yang jauh lebih rendah dari rata-rata.
parameter dalam penelitian ini, antara lain Temperatur rata-rata,
Temperatur maximum, Temperatur minimum, curah hujan, penyinaran
matahari, tekanan udara, Kelembaban (RH rata-rata), kecepatan angin rata-
rata. Kecepatan angin menentukan keadaan angin normal dan angin
kencang.
Unsur-unsur cuaca curah hujan menjadi faktor penting yang harus
diperhatikan. Oleh karena itu, penelitian ini bertujuan untuk melakukan
pengelompokkan curah hujan ringan, sedang, dan lebat. Kemudian penting
dilakukan klasifikasi curah hujan berdasarkan hasil dari proses clustering.
Sehingga sistem yang akan dibuat menjadi media keputusan dan layanan
informasi untuk pihak BMKG dalam berbagai kepentingan.
3.2 Pemahaman Data (Data Understanding)
Tahapan ini dilakukan pengumpulan data cuaca berupa tahun, bulan,
tanggal, Temperatur rata-rata(T rata-rata), Temperatur Max(T Max),
Temperatur Min(T Min), Curah hujan(ch), Penyinaran matahari, Tekanan
udara, kelembapan (RH rata-rata), Kecepatan angin rata-rata. Berdasarkan
data yang telah diperoleh kemudian dipelajari dan dipahami untuk
mengetahui data yang dibutuhkan dalam penelitian.
3.2.1 Pengumpulan data awal (Collect Initial Data)
Data yang digunakan dalam penelitian ini bersumber dari BMKG
Zainuddin Abdul Madjid Lombok pada kurun waktu dari tahun 2020 sampai
dengan tahun 2022. Terhitung dari tanggal 01 Januari 2020 sampai tanggal
31 agustus 2022, data keseluruhan berjumlah 973 record. Data tersebut
kemudian diolah menjadi dataset yang dapat digunakan dalam penelitian.
Jenis data yang digunakan adalah data primer karena diperoleh secara
langsung pada kantor BMKG Zainuddin Abdul Madjid Lombok.
27
Tabel 3.1 merupakan tabel data cuaca pada BMKG Zainuddin Abdul
Madjid. Data yang diperoleh adalah data cuaca tahun 2020 sampai 2022.
Berdasarkan data tersebut nantinya akan dapat dilakukan pengelompokkan curah
hujan dalam 3 kategori, yaitu : curah hujan ringan, sedang, dan lebat.
3.2.2 Mendeskripsikan Data (Describe Data)
Data yang digunakan dari BMKG Zainuddin Abdul Madjid Lombok adalah
data tahun 2020 sampai dengan 2022 dengan menggunakan format excel, dari data
tersebut terdapat 9 atribut sebagai berikut :
Tabel 3.2 Deklarasi Atribut
Atribut Keterangan
Tanggal Atribut tanggal, bulan, dan tahun yang
disimpan sebagai waktu terjadinya cuaca
T Rata-Rata Atribut Temperature rata-rata harian
T Max Atribut Temperature maximum harian
T Min Atribut Temperature minimum harian
Ch (Curah Hujan) Atribut Curah hujan harian
Penyinaran Matahari Atribut Atribut penyinaran matahari
dalam satu hari
Tekanan Udara Atribut Tekanan udara dalam satu hari
RH Rata-Rata Atribut Kelembapan rata-rata dalam satu
hari
Kecepatan Angin Rata-Rata Atribut Kecepatan angin rata-rata dalam
satu hari
sampai 2022. Kategori curah hujan ringan, sedang, dan lebat didapatkan dari
hasil wawancara kepada pihak BMKG kemudian disesuaikan dengan
kategori curah hujan yang ada pada website resmi BMKG.
3.3.2 Pembersihan data (Data Cleaning)
Kualitas data yang baik adalah kunci dasar untuk data yang
menghasilkan kualitas yang baik. Data Cleaning adalah Proses mendeteksi
dan mengoreksi (menghapus) record yang tidak akurat dari set record, tabel
atau database yang tidak komplit, incorrect, inaccurate kemudian
menggantikan, memodifikasi, atau menghapus data tersebut. Pembersihan
data dilakukan untuk memastikan bahwa data yang digunakan sudah benar-
benar memiliki kualitas yang baik, sehingga ketika melakukan
pengelompokkan dan klasifikasi curah hujan mendapatkan hasil yang
terbaik. Tahapan dalam Data Cleaning adalah menghilangkan outlier, nilai-
nilai yang tidak lengkap atau hilang (missing value). Data yang telah
dikumpulkan memiliki beberapa missing value yang dapat dilihat pada
gambar 3.3. Salah satu cara yang dapat digunakan untuk mengatasi data
yang terdapat missing value adalah menghapus data yang mengandung
missing value pada dataset yang ada. Dibawah ini adalah gambaran data
cuaca yang telah diperoleh dan mengandung missing value.
Tabel 3.3 merupakan data cuaca yang mengandung missing value.
Missing value bisa dilihat pada kolom yang tidak memiliki nilai (kosong).
Untuk mengatasi hal tersebut, maka akan dilakukan penghapusan data yang
mengandung missing value. Keseluruhan data berjumlah 973, Berdasarkan
hasil dari proses penghapusan missing value, diperoleh sebanyak 700 data
yang mengandung missing value.
Jumlah data yang diperoleh setelah dilakukan tahapan pembersihan
data (Data Cleaning) adalah 273 data. Dapat dilihat pada tabel berikut :
32
2. Normalisasi Dataset
Hasil normalisasi pada tabel bertujuan untuk membentuk data
dalam posisi nilai dengan rentang yang sama, sehingga proses
pemodelan K-Means menjadi lebih efisien dan menghasilkan nilai yang
optimal.
37
Dimana :
d = Jarak objek antar nilai data dan nilai pusat cluster
p = Jumlah dimensi data
xj = Nilai data dari dimensi ke-k
yj = Nilai pusat cluster dari dimensi ke-k
Setelah didapat titik pusat awal cluster, kemudian dilakukan
perhitungan jarak Euclidean, dan mengelompokan berdasarkan jarak
terkecil selanjutnya akan di dapat nilai centroid baru untuk acuan
perhitungan berikutnya sampai nilai centroid sebelum dan sesudah
bernilai sama. Berikut contoh perhitungan Euclidean Distance :
38
2. Menentukan akar dari pohon. Akar diambil dari atribut terpilih dengan
cara menghitung nilai gain dari masing-masing atribut, nilai gain yang
paling tinggi yang akan menjadi akar pertama. Sebelum menghitung
nilai gain, maka perlu dicari dulu nilai entropy dengan menggunakan
rumus sebagai berikut :
𝑛
Keterangan :
S = Himpunan Kasus
n = Jumlah Partisi S
pi = Proporsi dari Sᵢ, terhadap S
Langkah awal dalam algoritma C4.5 adalah mencari nilai entropy,
pertama menentukan entropy total :
Tabel 3.16 Deklarasi Total Kasus
Ringan Sedang Lebat Jumlah Kasus
7 2 3 12
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑻𝒐𝒕𝒂𝒍)
7 7 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
12 12 12 12
3 3
+ (− ( ) × log ( ) , 3) = 0,9396
12 12
2) Entropy T Max
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟑𝟐, 𝟎𝟕𝟓)
2 2 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
5 5 5 5
1 1
+ (− ( ) × log ( ) , 3) = 0,981
5 5
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟑𝟐, 𝟎𝟕𝟓)
5 5 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
7 7 7 7
2 2
+ (− ( ) × log ( ) , 3) = 0
7 7
3) Entropy T Min
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟐𝟒, 𝟎𝟕𝟓)
3 3 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
1 1
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟐𝟒, 𝟎𝟕𝟓)
4 4 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
2 2
+ (− ( ) × log ( ) , 3) = 0
6 6
4) Entropy CH
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟗, 𝟖𝟕𝟓)
6 6 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
0 0
+ (− ( ) × log ( ) , 3) = 0
6 6
53
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟗, 𝟖𝟕𝟓)
1 1 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
3 3
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
5) Entropy Penyinaran Matahari
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟖𝟏, 𝟐𝟓)
1 1 2 2
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
3 3
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟖𝟏, 𝟐𝟓)
6 6 0 0
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
0 0
+ (− ( ) × log ( ) , 3) = 0
6 6
7) Entropy RH Rata-Rata
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(≤ 𝟖𝟕)
5 5 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
0 0
+ (− ( ) × log ( ) , 3) = 0
6 6
54
𝑬𝒏𝒕𝒓𝒐𝒑𝒚(> 𝟖𝟕)
2 2 1 1
= (− ( ) × log ( ) , 3) + (− ( ) × log ( ) , 3)
6 6 6 6
3 3
+ (− ( ) × log ( ) , 3) = 0,9621
6 6
3. Setelah entropy dari masing masing atribut telah didapat maka lakukan
perhitungan terhadap nilai gain. Langkah selanjutnya menghitung nilai
gain. Untuk mendapatkan nilai gain dapat menggunakan rumus :
𝑛
|𝑆ᵢ|
𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆ᵢ)
|𝑆|
𝑖=1
56
Keterangan :
S = Himpunan Kasus
A = Atribut
n = Jumlah Partisi Atribut A
Sᵢ = Jumlah Kasus Pada Partisi Ke i
S = Jumlah Kasus Dalam S
1) Gain (T Rata-Rata)
2 10
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9129) = 0,17892
12 12
2) Gain (T Max)
5 7
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0,981) + (− ( ) ∗ 0) = 0,53087
12 12
3) Gain (T Min)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0,9621) + (− ( ) ∗ 0) = 0,45857
12 12
4) Gain (CH)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9621) = 0,45857
12 12
5) Gain (Penyinaran Matahari)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0,9621) + (− ( ) ∗ 0) = 0,45857
12 12
6) Gain (Takanan Udara)
1 11
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,8964) = 0,11797
12 12
7) Gain (RH Rata-Rata)
6 6
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9621) = 0,45857
12 12
8) Gain (Kecepatan Angin)
5 7
𝐺𝑎𝑖𝑛 = (0,9396) + ( ( ) ∗ 0) + (− ( ) ∗ 0,9379) = 0,39251
12 12
57
sebagai akar. Terdapat 2 nilai pada atribut T Max, yaitu ≤ 32,075 dan
>32,075. Dari kedua nilai tersebut, nilai aribut >32,075 sudah
mengklasifikasikan kasus, yaitu keputusannya Lebat, sehingga tidak
perlu dilakukan perhitungan lagi. Untuk nilai ≤ 32,075 masih perlu
dilakukan perhitungan lagi.
Dari hasil perhitungan tersebut dapat digambarkan pohon keputusan
sementara seperti pada Gambar 3.2 berikut :
Dalam melatih dan menguji model, pada bagian training diisi operator
Decicion Tree C4.5 dan bagian testing diisi operator Apply Model dan Performance.
Susunan operator training dan testing ditunjukkan pada Gambar 3.6 berikut.
Logo BMKG
Masukkan Password
Log In
Log
Gambar 3.11 In
Tampilan Login
K-Means Clustering
K-Means ClusteringLogout Dataset
Dataset
Tentukan Pusat Cluster Dataset
Perhitungan K-Means
Dataset Pusat
Tentukan Cluster Normalisasi Dataset
K-Means CLustering
Perhitungan K-Means
K-Means CLustering Normalisasi Dataset
K-Means Clustering
K-Means ClusteringLogout Hasil Cluster K-Means
Dataset HasilTanggal
Cluster K-Means Cluster
Tentukan Pusat Cluster Tanggal Cluster
Dataset
Perhitungan K-Means
Tentukan Pusat Cluster
K-Means Clustering
Perhitungan K-Means
K-Means Clustering
Gambar 3.15 Tampilan Hasil K-Means
BAB IV
HASIL DAN PEMBAHASAN
Bab ini berisi tentang hasil implementasi aplikasi yang melakukan
pengujian metode K-Means Clustering dan hasil pemodelan klasifikasi metode
C4.5 menggunakan Jupyter Notebook.
4.1 Fitur Interface Aplikasi K-Means Clustering
Hasil dari penelitian yang telah dilakukan berdasarkan sistem yang
dibangun dan pembahasan implementasi yang menghasilkan aplikasi
pengelompokkan algoritma K-Means berbasis web. Berikut
tampilan/interface dari setiap form halaman yang tersedia.
4.1.1 Halaman Login
Halaman Login merupakan tampilan awal ketika program
dijalankan yang digunakan admin/user sebagai autentifikasi untuk
mengelola aplikasi. Dalam halaman login ini user/admin harus
menginputkan E-mail dan password untuk masuk kedalam system.
72
73
File tersebut diletakkan pada folder yang sama dengan file Jupyter
Notebook sehingga memudahkan dalam pemanggilan dataframe.
90
Berikut tampilan output isi dari data frame pada variabel dataset
dengan total yang 273 data :
Berikut output perbandingan tampilan hasil dari data aktual dan data
prediksi yang diproses sebelumnya yang disimpan dalam tabel.
Data Prediksi
98
a. Accuracy
13+36 49
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = 0.89 x 100% = 89%.
55 55
b. Precision
13 13
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 13+4 = = 0.76
17
c. Recall
13 13
𝑅𝑒𝑐𝑎𝑙𝑙 = 13+2 = = 0.87
15
a. Accuracy
21+31 52
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = 0.94 x 100% = 94%.
55 55
b. Precision
21 21
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 21+1 = = 0.95
22
c. Recall
21 21
𝑅𝑒𝑐𝑎𝑙𝑙 = 21+2 = = 0.91
23
99
a. Accuracy
14+36 50
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = = 0.90 x 100% = 90%.
55 55
b. Precision
14 14
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 14+2 = = 0.88
16
c. Recall
14 14
𝑅𝑒𝑐𝑎𝑙𝑙 = 14+3 = = 0.82
17
Performa dari pemodelan penerapan Decision Tree C4.5 didapatkan nilai accuracy
87%.
100
101
102
Rahmatuloh, M. (2022). Rancang Bangun Sistem Informasi Jasa Pengiriman
Barang Pada Pt. Haluan Indah Transporindo Berbasis Web. Jurnal Teknik
Informatika, 14(1), 54–59.
Rerung, R. R. (2018). Penerapan Data Mining dengan Memanfaatkan Metode
Association Rule untuk Promosi Produk. Jurnal Teknologi Rekayasa, 3(1), 89.
https://doi.org/10.31544/jtera.v3.i1.2018.89-98
Riskawati, Zakaria, Munandar, H. M., & Bangun, B. (2021). Journal of Student
Development Information System (JoSDIS). ERANCANGAN SISTEM
PENGENALAN RAMBU-RAMBU LALU LINTAS PADA MTs ISLAMIYAH
MENGGUNAKAN ADOBE FLASH PROSESIONAL CS6, 178, 40–47.
Rofiq, H., Pelangi, K. C., & Lasena, Y. (2020). Penerapan Data Mining Untuk
Menentukan Potensi Hujan Harian Dengan Menggunakan Algoritma Naive
Bayes. Jurnal Manajemen Informatika Dan Sistem Informasi, 3(1).
Ruswanti, D. (2020). Pengukuran Performa Support Vector Machine Dan Neural
Netwok Dalam. Gaung Informatika, 13(1), 66–75.
Salsabila, F., & Intani, S. M. (2021). Implementasi Algoritma K-Means Dan C4.5
Dalam Menentukan Tingkat Penyebaran Covid-19 Di Indonesia. Jurnal
Siliwangi, 7(1), 25–30.
Suhada, K., Elanda, A., & Aziz, A. (2021). Klasifikasi Predikat Tingkat Kelulusan
Mahasiswa Program Studi Teknik Informatika dengan Menggunakan
Algoritma C4.5 (Studi Kasus: STMIK Rosma Karawang). Dirgamaya: Jurnal
Manajemen Dan Sistem Informasi, 1(2), 14–27.
https://doi.org/10.35969/dirgamaya.v1i2.182
Sukma, H., Studi, P., Informatika, T., Tinggi, S., Informatika, M., & Komputer, D.
A. N. (2021). CLUSTERING DATA SISWA SMPN-6 PALANGKA RAYA
UNTUK MENENTUKAN KELAYAKAN BANTUAN.
Tanugraha, F. D. (2022). TA : Sistem Pengenalan Aktivitas Manusia Menggunakan
Long Short-Term Memory dan Mediapipe - Repositori Universitas Dinamika.
https://repository.dinamika.ac.id/id/eprint/6190/
Www.bmkg.go.id. (2022). Sejarah | BMKG. Www.Bmkg.Go.Id.
https://www.bmkg.go.id/profil/?p=sejarah
Yuli Mardi. (2019). Data Mining : Klasifikasi Menggunakan Algoritma C4 . 5 Data
mining merupakan bagian dari tahapan proses Knowledge Discovery in
Database ( KDD ) . Jurnal Edik Informatika. Jurnal Edik Informatika, 2(2),
213–219.
Zai, C. (2022). Implementasu Data Mining Sebagai Pengolahan Data. Portal Data,
2(3), 1–12.
103