UTS Data Warehouse (K01) - Andre Fernanta N - 183112700640130

UJIAN TENGAH SEMESTER
Mata Kuliah : Data Warehouse (K.01)

Nama : Andre Fernanta Nababan
NPM : 183112700640130
Soal:
Tuliskan dan jelaskan :
- Judul paper anda
- Latar Belakang permasalahan paper anda
- Keterbaharuan paper anda
- Rancangan sistem
- Metodologi yang anda gunakan
- Tools yang anda gunakan
Jawaban:
Judul paper
“Penerapan Data Mining untuk Data Penggunaan Air Tanah di Provinsi DKI Jakarta
Menggunakan Algoritma K-Means”
Latar belakang permasalahan paper
Air tanah hingga saat ini masih menjadi sumber air baku yang paling diminati di wilayah DKI
Jakarta. Hal ini terjadi karena suplai air baku yang bersumber dari air permukaan belum mampu
memenuhi seluruh kebutuhan air yang sangat tinggi, seperti untuk keperluan rumah tangga,
perkotaan, industri, dan sebagainya. Sistem pelayanan air perpipaan baru mampu melayani
60% atau sekitar 8 juta masyarakat DKI Jakarta (Ardelia, 2015). DKI Jakarta sedang
menghadapi permasalahan air tanah yang begitu kompleks. Perkembangan perkotaan
menyebabkan konsumsi air tanah meningkat tajam. Namun hal ini tidak diimbangi dengan
kapasitas imbuhan air tanah yang mengalami penurunan secara signifikan. Melalui penelitian ini
dengan mengelompokkan tingkat penggunaan air tanah di wilayah DKI Jakarta menjadi
beberapa cluster diharapkan dapat menjadi masukkan kepada Pemprov DKI Jakarta agar dapat
mengurangi dampak dari penambahan ekstraksi air tanah yang meningkat sangat signifikan
beberapa tahun terakhir.
Keterbaharuan paper
Jumlah penggunaan air tanah di DKI Jakarta Tahun 2019 berhasil diimplementasikan
menggunakan algoritma K-Means dengan menghasilkan 3 cluster, yaitu: cluster rendah (C0)
dengan 32 kecamatan, cluster sedang (C1) dengan 9 kecamatan, dan cluster tinggi (C2)
dengan 1 kecamatan.
Rancangan sistem
Data awal:
Kecamatan Tahun Jumlah_pemakaian

Cakung 2019 194736
Cempaka Putih 2019 17335
Cengkareng 2019 188905
Cilandak 2019 738267
Cilincing 2019 0
Cipayung 2019 194198
Ciracas 2019 202617
Duren Sawit 2019 32554
Gambir 2019 117506
Grogol
Petamburan 2019 89455
Jagakarsa 2019 337235
Jatinegara 2019 43857
Johar Baru 2019 2392
Kalideres 2019 222090
Keb Baru 2019 251006
Keb Lama 2019 1456582
Kebon Jeruk 2019 217144
Kelapa gading 2019 37305
Kemayoran 2019 70567
Kembangan 2019 196625
Koja 2019 1609
Kramat Jati 2019 10104
Makasar 2019 412790
Mampang
Prapatan 2019 310627
Matraman 2019 24895
Menteng 2019 521899
Pademangan 2019 34800
Palmerah 2019 212368
Pancoran 2019 377224
Pasar Minggu 2019 682118
Pasar Rebo 2019 58156
Penjaringan 2019 198713
Pesanggrahan 2019 81470
Pulo Gadung 2019 95625
Sawah Besar 2019 51828
Senen 2019 89503
Setiabudi 2019 315832
Taman Sari 2019 21436
Tambora 2019 474
Tanah Abang 2019 391871
Tanjung Priok 2019 5043
Tebet 2019 213581
 Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.
 Inisialisasi k pusat cluster ini bisa dilakukan dengan berbagai cara, namun yang
paling sering dilakukan adalah dengan cara random yang di ambil dari data yang
ada.
 Menghitung jarak setiap data input terhadap masing – masing centroid

menggunakan rumus jarak Euclidean (Euclidean Distance) hingga ditemukan jarak
yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan
Euclidian Distance:
d ( xi, μj )=√ ∑ xi−μj
Dimana:
d : titik dokumen
xi : data kriteria
µj : centroid pada cluster ke-j
 Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak

terkecil).
 Memperbaharui nilai centroid. Nilai centroid baru di peroleh dari rata-rata cluster
yang bersangkutan dengan menggunakan rumus:
1
μj ( t +1 )= Σ xj
Nsj j ∈sj
Dimana:
µj(t+1) : centroid baru pada iterasi ke (t+1)
Nsj : banyak data pada cluster sj
 Melakukan perulangan dari langkah 2 hingga 5 sampai anggota tiap cluster tidak ada
yang berubah.
Jika Langkah terakhir telah terpenuhi, maka nilai pusat cluster (µj) pada iterasi terakhir
akan digunakan sebagai parameter untuk menentukan klasifikasi data.
Pada akhirnya diperoleh klasterisasi pada Data Penggunaan Air Tanah di Provinsi DKI
Jakarta menjadi 3 cluster, yaitu:
 Cluster rendah (C0) dengan 32 kecamatan.
 Cluster sedang (C1) dengan 9 kecamatan.
 Cluster tinggi (C2) dengan 1 kecamatan.
Data akhir:
Jumlah_pemakaia
Kecamatan cluster
n
cluster_
Cakung 194736
0
cluster_
Cempaka Putih 17335
0
cluster_
Cengkareng 188905
0
cluster_
Cilandak 738267
1
cluster_
Cilincing 0
0
cluster_
Cipayung 194198
0
cluster_
Ciracas 202617
0
cluster_
Duren Sawit 32554
0
cluster_
Gambir 117506
0
Grogol cluster_
89455
Petamburan 0
cluster_
Jagakarsa 337235
1
cluster_
Jatinegara 43857
0
cluster_
Johar Baru 2392
0
cluster_
Kalideres 222090
0
cluster_
Keb Baru 251006
0
cluster_
Keb Lama 1456582
2
cluster_
Kebon Jeruk 217144
0
cluster_
Kelapa gading 37305
0
cluster_
Kemayoran 70567
0
cluster_
Kembangan 196625
0
cluster_
Koja 1609
0
cluster_
Kramat Jati 10104
0
cluster_
Makasar 412790
1
Mampang cluster_
310627
Prapatan 1
cluster_
Matraman 24895
0
cluster_
Menteng 521899
1
cluster_
Pademangan 34800
0
cluster_
Palmerah 212368
0
cluster_
Pancoran 377224
1
cluster_
Pasar Minggu 682118
1
cluster_
Pasar Rebo 58156
0
cluster_
Penjaringan 198713
0
cluster_
Pesanggrahan 81470
0
cluster_
Pulo Gadung 95625
0
cluster_
Sawah Besar 51828
0
cluster_
Senen 89503
0
cluster_
Setiabudi 315832
1
cluster_
Taman Sari 21436
0
cluster_
Tambora 474
0
cluster_
Tanah Abang 391871
1
cluster_
Tanjung Priok 5043
0
Tebet 213581 cluster_
0
Metodologi yang digunakan:

Metodologi dipergunakan oleh penulis untuk menganalisa, mengerjakan dan mengatasi
masalah yang dihadapi. Kerangka teoritis atau kerangka ilmiah merupakan metode-metode
ilmiah yang akan diterapkan dalam pelaksanaan penelitian. Pada kerangka kerja penelitian
yang digunakan yaitu mempelajari literatur, mengumpulkan data, menganalisa data,
menganalisa metode K-Means, implementasi software, menguji hasil, dan menganalisa hasil.
Tools yang digunakan:

RapidMiner: sebuah aplikasi atau software peragkat lunak yang berfungsi sebagai alat
pembelajan pada ilmu data mining.
Data diambil dari: https://data.jakarta.go.id/dataset/data-penggunaan-air-tanah-pada-
pelanggan-air-tanah-di-dki-jakarta-tahun-2019

UTS Data Warehouse (K01) - Andre Fernanta N - 183112700640130

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

UTS Data Warehouse (K01) - Andre Fernanta N - 183112700640130

Diunggah oleh

Hak Cipta:

Format Tersedia

UJIAN TENGAH SEMESTER

Mata Kuliah : Data Warehouse (K.01)

Latar belakang permasalahan paper

Kecamatan Tahun Jumlah_pemakaian

 Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.

 Menghitung jarak setiap data input terhadap masing – masing centroid

d ( xi, μj )=√ ∑ xi−μj

 Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak

Metodologi yang digunakan:

Tools yang digunakan:

Anda mungkin juga menyukai