Tugas Data Warehouse

Penerapan Data Mining untuk Data Penggunaan Air Tanah di
Provinsi DKI Jakarta Menggunakan Algoritma K-Means pada

RapidMiner Studio
Andre Fernanta1, Muhammad Rizal Toha2
1,2
Fakultas Teknologi Komunikasi dan Informatika, Program Studi Sistem Informasi, Universitas Nasional
1
2018.andre.fernanta@student.unas.ac.id , 2 2018.rizal.toha@student.unas.ac.id
Abstract – Water is an irreplaceable need for human hingga bulan September. Dibutuhkan pengawasan
life. Ground water is water that is contained in the untuk mengurangi atau mengatur tingkat penggunaan
soil layer or rocks below the soil surface. Ground air tanah di DKI Jakarta. Untuk mengelompokkan
water is one of the water resources. Apart from river daerah yang tingkat penggunaan air tanahnya tinggi,
water and rainwater, groundwater also has an dilakukan metode penambangan data
important role, especially in maintaining the pengelompokkan K-means menggunakan tools Rapid
balance and availability of raw water for household Miner Studio v.9.9 dengan data yang diperoleh dari
and industrial purposes. In DKI Jakarta, Open Data Jakarta. Dengan menggunakan metode ini,
groundwater is one of the water resources that the data yang telah terkumpul akan dibagi menjadi 3
community relies heavily on. With the limitations of cluster berdasarkan jumlah penggunaan atau
Drinking Water Companies to serve their users, pemakaian air tanah, yaitu: cluster rendah (C0),
groundwater is a very valuable and reliable cluster sedang (C1), dan cluster tinggi (C2).
resource, but its very high use can be bad for the
environment. The use of groundwater in DKI Kata Kunci – Air Tanah, DKI Jakarta, Clustering,
Jakarta in 2019 reached 6,693,949 m3 until Rapid Miner, K-Means
September. Supervision is needed to reduce or
regulate the level of groundwater use in DKI
Jakarta. To classify areas with high groundwater I. PENDAHULUAN
use, the K-means grouping data mining method was Air tanah hingga saat ini masih menjadi sumber
carried out using the Rapid Miner Studiov.9.9 tools
air baku yang paling diminati di wilayah DKI
with data obtained from Open Data Jakarta. By
using this method, the collected data will be divided Jakarta. Hal ini terjadi karena suplai air baku
into 3 clusters based on the amount of groundwater yang bersumber dari air permukaan belum
use, namely: low cluster (C0), medium cluster (C1), mampu memenuhi seluruh kebutuhan air yang
and high cluster (C2).
sangat tinggi, seperti untuk keperluan rumah
Keywords – Groundwater, DKI Jakarta, Clustering, tangga, perkotaan, industri, dan sebagainya.
Rapid Miner, K-Means Sistem pelayanan air perpipaan baru mampu
melayani 60% atau sekitar 8 juta masyarakat
DKI Jakarta (Ardelia, 2015). DKI Jakarta sedang
ABSTRAK – Air merupakan kebutuhan hidup
manusia yang tidak dapat tergantikan. Air tanah menghadapi permasalahan air tanah yang begitu
adalah air yang terdapat dalam lapisan tanah atau kompleks. Perkembangan perkotaan
bebatuan di bawah permukaan tanah. Air tanah menyebabkan konsumsi air tanah meningkat
merupakan salah satu sumber daya air. Selain air
tajam. Namun hal ini tidak diimbangi dengan
sungai dan air hujan, air tanah juga mempunyai
peranan penting terutama dalam menjaga kapasitas imbuhan air tanah yang mengalami
keseimbangan dan ketersediaan bahan baku air untuk penurunan secara signifikan. Melalui penelitian
kepentingan rumah tangga dan industri. Di DKI ini dengan mengelompokkan tingkat penggunaan
Jakarta, air tanah merupakan salah satu sumber daya
air yang sangat diandalkan oleh masyarakat. Dengan
air tanah di wilayah DKI Jakarta menjadi
keterbatasan Perusahaan Air Minum untuk melayani beberapa cluster diharapkan dapat menjadi
penggunanya, air tanah menjadi sumber daya yang masukkan kepada Pemprov DKI Jakarta agar
sangat berharga dan dapat diandalkan, namun dapat mengurangi dampak dari penambahan
penggunaanya yang sangat tinggi dapat berakibat
buruk bagi lingkungan. Penggunaan air tanah di DKI
ekstraksi air tanah yang meningkat sangat
Jakarta pada tahun 2019 mencapai 6.693.949 m3 signifikan beberapa tahun terakhir.
praktek. Secara historis, K-Means menjadi salah
satu algoritma yang paling penting dalam bidang
II. METODE PENELITIAN data mining. Berikut ini adalah langkah-langkah
dalam algoritma K-means:
Metodologi dipergunakan oleh penulis untuk
menganalisa, mengerjakan dan mengatasi
masalah yang dihadapi. Kerangka teoritis atau 1. Tentukan nilai k sebagai jumlah klaster
kerangka ilmiah merupakan metode-metode yang ingin dibentuk.
ilmiah yang akan diterapkan dalam pelaksanaan 2. Inisialisasi k pusat cluster ini bisa
penelitian. Pada kerangka kerja penelitian yang dilakukan dengan berbagai cara, namun
digunakan yaitu mempelajari literatur, yang paling sering dilakukan adalah
mengumpulkan data, menganalisa data, dengan cara random yang di ambil dari
menganalisa metode K-Means, implementasi data yang ada.
software, menguji hasil, dan menganalisa hasil. 3. Menghitung jarak setiap data input
terhadap masing – masing centroid
Analisa Data menggunakan rumus jarak Euclidean
Analisis data dilakukan setelah adanya (Euclidean Distance) hingga ditemukan jarak
yang paling dekat dari setiap data dengan
pengumpulan data. Dalam melakukan penelitian centroid. Berikut adalah persamaan
ini penulis menggunakan analisis data sekunder. Euclidian Distance :
Data Sekunder adalah sumber data penelitian
yang diperoleh melalui media perantara atau
secara tidak langsung yang berupa buku, catatan,
bukti yang telah ada, atau arsip baik yang telah Dimana :
dipublikasi atau tidak dipublikasi secara umum. d : titik dokumen
Data yang diperoleh dari penelitian ini adalah xi : data kriteria
µj : centroid pada cluster ke-j
melalui situs resmi Open Data Jakarta, yakni
4. Mengklasifikasikan setiap data
data pemakaian air tanah di Provinsi DKI Jakarta berdasarkan kedekatannya dengan
yang tersebar berdasarkan kecamatan. Variabel centroid (jarak terkecil).
data berisikan : 1. kecamatan : Kecamatan 2. 5. Memperbaharui nilai centroid. Nilai
bulan : Bulan 3. jumlah_pemakaian : Jumlah centroid baru di peroleh dari rata-rata
pemakaian (satuan per meter kubik). Data cluster yang bersangkutan dengan
tersebut akan diolah dengan melakukan menggunakan rumus:
clustering tingkat penggunaan air tanah menjadi
3 cluster yaitu, cluster rendah (C0), cluster
sedang (C1), dan cluster tinggi (C2). Dimana:
µj(t+1) : centroid baru pada iterasi ke (t+1)
Data Mining Nsj : banyak data pada cluster sj,
Data mining merupakan proses menemukan 6. Melakukan perulangan dari langkah 2 hingga
korelasi baru yang bermanfaat, pola dan trend 5,sampai anggota tiap cluster tidak ada yang
dengan menambang sejumlah repository data berubah.
dalam jumlah besar, menggunakan teknologi Jika langkah 6 telah terpenuhi, maka nilai pusa
pengenalan pola seperti statistik dan teknik cluster (µj) pada iterasi terakhir akan digunakan
matematika. sebagai parameter untuk menentukan klasifikasi
data.
Algoritma K-Means
K-Means merupakan Algoritma pengelompokan
iteratif yang melakukan partisi set data ke dalam
III. HASIL DAN PEMBAHASAN
sejumlah K cluster yang sudah ditetapkan
diawal. Algoritma K-Means sederhana untuk Pada proses pengumpulan data ada tiga
diimplementasikan dan dijalankan, relative cepat, parameter yang akan digunakan dalam
mudah beradaptasi, umum penggunaannya dalam pengolahan data yaitu kecamatan, bulan, dan
jumlah pemakaian. Pada penelitian ini data yang Setiabudi 2019 315832
dikumpulkan yaitu data Penggunaan Air Tanah Taman Sari 2019 21436
pada Pelanggan Air Tanah di DKI Jakarta Tahun Tambora 2019 474
2019. Data tersebut diambil dari situs resmi Tanah Abang 2019 391871
Open Data Jakarta. Tanjung Priok 2019 5043
Tebet 2019 213581
Table 1. Sampel Sebagian Data Jumlah Pemakaian (satuan
per meter kubik) Air Tanah
Data yang sudah dijadikan sampel akan
Kecamatan Tahun Jumlah_pemakaian dilakukan pengolahan data dengan proses
Cakung 2019 194736 clustering dengan menggunakan algoritma K-
Cempaka Putih 2019 17335 Means pada aplikasi Rapid Miner Studio v.9.9.
Cengkareng 2019 188905 Pada gambar 1 merupakan halaman utama dari
aplikasi Rapid Miner Studio v.9.9 saat pertama
Cilandak 2019 738267 kali membuka aplikasi setelah proses loading
Cilincing 2019 0 selesai terlihat pada gambar berikut :
Cipayung 2019 194198
Ciracas 2019 202617
Duren sawit 2019 32554
Gambir 2019 117506
Grogol
Petamburan 2019 89455
Jagakarsa 2019 337235
Jatinegara 2019 43857
Johar Baru 2019 2392
Gambar 1. Halaman Utama Rapid Minder Studio v.9.9
Kalideres 2019 222090
Keb Baru 2019 251006 Setelah itu kita lakukan import sampel data yang
Keb Lama 2019 1456582 akan diproses. Lalu setelah selesai melakukan
Kebon Jeruk 2019 217144 import sampel data, maka pada Main Process
terlihat sebuah operator baru Read Excel yang
Kelapa gading 2019 37305 sudah berisi file data penggunaan air tanah DKI
Kemayoran 2019 70567 Jakarta tahun 2019. Data tersebut siap dilakukan
Kembangan 2019 196625 pengujian.
Koja 2019 1609
Kramat Jati 2019 10104
Makasar 2019 412790
Mampang
Prapatan 2019 310627
Matraman 2019 24895
Menteng 2019 521899
Pademangan 2019 34800 Gambar 2. Tampilan Operator Data Siap Import
Palmerah 2019 212368
Pada gambar 2 menampilkan data yang sudah di
Pancoran 2019 377224 import, sehingga tombol pada operator read
Pasar Minggu 2019 682118 excel tidak ada lagi tanda seru warna kuning
Pasar Rebo 2019 58156 (menandakan operator telah berisi data dan siap
Penjaringan 2019 198713 diolah). Langkah selanjutnya adalah
menambahkan operator K-Means.
Pesanggrahan 2019 81470
Pulo Gadung 2019 95625
Sawah Besar 2019 51828
Senen 2019 89503
Gambar 3. Menambahkan Operator K-means
Hubungkan data dengan clustering k-means

untuk mengetahui output ke arah result. Apabila Gambar 6. Tampilan Running Data
sudah terhubung maka tentukan jumlah cluster
dan maksimal runs yang diberikan. Terakhir klik Pada tahap ini dihasilkan 3 cluster penggunaan
Tombol Play , seperti pada gambar 4. air tanah di DKI Jakarta Tahun 2019, yaitu
cluster rendah (C0) dengan 32 kecamatan,
cluster sedang (C1) dengan 9 kecamatan, dan
cluster tinggi (C2) dengan 1 kecamatan seperti
pada gambar 7.
Gambar 4. Tampilan Untuk Proses K-means
Selanjutnya melakukan pengaturan algoritma K-

Means, yang diatur pada menu Parametere
Clustering K-Means, seperti terlihat pada gambar
5.
Gambar 7. Tampilan Cluster Data Penggunaan Air Tanah
Gambar 5. Penentuan Jumlah Cluster
Pada gambar 15 di atas dilakukan pengaturan

nilai k, di mana k merupakan nilai yang
digunakan untuk menentukan jumlah cluster Gambar 8. Grafik Clustering Data Penggunaan Air Tanah
yang akan dibentuk. Di sini jumlah cluster yang
Berdasarkan gambar 8 diperoleh
akan dibentuk adalah sebanyak 3 cluster sesuai
pengelompokkan cluster jumlah penggunaan air
tingkatan pemakaian air tanah yaitu rendah,
tanah dengan daftar kecamatan seperti pada
sedang dan tinggi. Setelah proses running, akan
table 2 berikut.
tampil Example Set, seperti yang terlihat pada
gambar 6.
Tabel 2. Detail Cluster Jumlah Penggunaan (satuan per IV. KESIMPULAN
meter kubik) Air Tanah
Dari hasil penelitian yang telah dilakukan, maka
Kecamatan Jumlah_pemakaian cluster penulis dapat menarik kesimpulan bahwa proses
Cakung 194736 cluster_0 clustering jumlah penggunaan air tanah di DKI
Cempaka Putih 17335 cluster_0 Jakarta Tahun 2019 berhasil diimplementasikan
Cengkareng 188905 cluster_0 menggunakan algoritma K-Means Clustering
pada aplikasi RapidMiner v.9.9 dengan
Cilandak 738267 cluster_1
menghasilkan 3 cluster, yaitu: cluster rendah
Cilincing 0 cluster_0
(C0) dengan 32 kecamatan, cluster sedang (C1)
Cipayung 194198 cluster_0 dengan 9 kecamatan, dan cluster tinggi (C2)
Ciracas 202617 cluster_0 dengan 1 kecamatan.
Duren sawit 32554 cluster_0
Gambir 117506 cluster_0
Grogol Petamburan 89455 cluster_0
Jagakarsa 337235 cluster_1 DAFTAR ACUAN
Jatinegara 43857 cluster_0 Mardalius. “Pemanfaatan Rapid Miner Studio 8.2
Johar Baru 2392 cluster_0 Untuk Pengelompokkan Data Penjualan
Kalideres 222090 cluster_0 Aksesoris Mengggunakan Algoritma K-Means”.
Keb Baru 251006 cluster_0 JURTEKSI (Jurnal Teknologi dan Sistem
Keb Lama 1456582 cluster_2 Informasi) 4.2 (2018): 123 – 132.
Kebon Jeruk 217144 cluster_0
Kelapa gading 37305 cluster_0
Seizarwati, Wulan, dkk. “Simulasi Aliran Tanah
Kemayoran 70567 cluster_0
Jakarta dengan Beberapa Skenario Menggunakan
Kembangan 196625 cluster_0
IMOD”. Jurnal Sumber Daya Air Vol. 14 No.2
Koja 1609 cluster_0 2018: 97 – 110
Kramat Jati 10104 cluster_0
Makasar 412790 cluster_1
Mampang Prapatan 310627 cluster_1 R. W. Sari, A. Wanto, and A. P. Windarto,
Matraman 24895 cluster_0 “Implementasi Rapidminer dengan Metode K-
Menteng 521899 cluster_1 Means (Study Kasus : Imunisasi Campak pada
Pademangan 34800 cluster_0 Balita Berdasarkan Provinsi),” KOMIK
Palmerah 212368 cluster_0 (Konferensi Nasional Teknologi Informasi dan
Pancoran 377224 cluster_1 Komputer), vol. 2, no. 1, pp. 224–230, 2018.
Pasar Minggu 682118 cluster_1
Pasar Rebo 58156 cluster_0
Ni Putu Ejka Marliana, Ernawati, dan Alb. Joko
Penjaringan 198713 cluster_0
Santoso. “Analisa Penentuan Jumlah Cluster
Pesanggrahan 81470 cluster_0
Terbaik Pada Metode K-Means Clustering”.
Pulo Gadung 95625 cluster_0 Prosiding Seminar Nasional Multi Disiplin Ilmu
Sawah Besar 51828 cluster_0 & Call for Papers Unisbank (SENDI_U)
Senen 89503 cluster_0
Setiabudi 315832 cluster_1
Taman Sari 21436 cluster_0 S. Sudirman, A. P. Windarto, and A. Wanto,
Tambora 474 cluster_0 “Data Mining Tools | RapidMiner : K-Means
Tanah Abang 391871 cluster_1 Method on Clustering of Rice Crops by Province
Tanjung Priok 5043 cluster_0 as Efforts to Stabilize Food Crops In Indonesia,”
Tebet 213581 cluster_0 IOP Conference Series: Materials Science and
Engineering, vol. 420, no. 12089, pp. 1–8, 2018.

Tugas Data Warehouse

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tugas Data Warehouse

Diunggah oleh

Hak Cipta:

Format Tersedia

Penerapan Data Mining untuk Data Penggunaan Air Tanah di

Provinsi DKI Jakarta Menggunakan Algoritma K-Means pada

Hubungkan data dengan clustering k-means

Gambar 4. Tampilan Untuk Proses K-means

Selanjutnya melakukan pengaturan algoritma K-

Gambar 7. Tampilan Cluster Data Penggunaan Air Tanah

Gambar 5. Penentuan Jumlah Cluster

Pada gambar 15 di atas dilakukan pengaturan

Anda mungkin juga menyukai