PENDAHULUAN
1
Penerapan Metode K-Means
Udara adalah kumpulan gas dengan
Clustering dalam Menentukan komposisi terbanyaknya yakni nitrogen dan
Indeks Standar Pencemaran oksigen. Menurut Air Quality Live Index (AQLI),
Udara di DKI Jakarta pada kondisi kualitas udara di Indonesia tercatat terus
Bulan Juli 2021 memburuk sejak dua dekade terakhir, dan saat ini
Aldan Maulana Hamdani, Azhar Adhyasta
berada di peringkat ke-20 negara dengan kualitas
Priyatomo, Fairuz Ramadhania Ariffin, Kania
udara terburuk di dunia. Polusi udara yang
Aninda Ramadhanty.
menjadi penyebab menurunnya kualitas udara ini
dapat didefinisikan sebagai kondisi atmosfer yang
Abstrak—Belakangan, jagat maya ramai
mana konsentrasi substansi yang terdapat di
memperbincangkan soal pencemaran udara di
dalamnya cukup tinggi, melebihi kondisi normal
Jakarta yang sempat mencapai titik terburuk.
udara sehingga dapat menimbulkan dampak yang
Masalah pencemaran udara di Jakarta kian
terukur bagi manusia, hewan, vegetasi maupun
menurun yang diakibatkan faktor alam seperti
material lainnya (Seinfeld, 1986).
kebakaran, gunung meletus, gas alam beracun.
Pencemaran udara dapat disebabkan oleh
Tidak hanya itu asap kendaraan serta asap
kebakaran, gunung meletus, gas alam beracun,
rokok dan pembakaran sampah turut menjadi
dan lain-lain yang mengandung senyawa
sebab adanya pencemaran udara. Dampak dari
berbahaya, salah satunya adalah gas karbon
pencemaran udara ini sangat membahayakan
monoksida (Weebly, di akses 2020).
baik untuk lingkungan maupun kesehatan.
Laman WHO mengungkapkan, kehidupan
Untuk itu diperlukan data mining melalui
manusia saat ini telah diselimuti pencemaran
bentuk K-Means Clustering dengan maksud
udara dari berbagai arah. Kabut asap dari alat
untuk mengelompokan serta membentuk
transportasi telah memenuhi ruang udara untuk
klasifikasi dalam pengolahan data.
bernapas. Ditambah lagi, munculnya pencemaran
Pengelompokan cluster ini dilakukan beberapa
yang berasal dari rumah tangga seperti asap
kali pengujian jumlah cluster berbeda agar
rokok hingga pembakaran sampah. WHO
dapat dibandingkan.
mencatat, kematian dini akibat polusi udara
Kata Kunci : Metode K-Means, Clustering,
mencapai 7 juta kasus per tahun. Kematian
Pencemaran Udara
tersebut dampak dari pencemaran udara melalui
penyakit stroke, penyakit jantung, penyakit paru
obstruktif kronik, kanker paru-paru, dan infeksi
saluran pernapasan akut. Oleh karena itu,
1
sangatlah penting untuk mengukur indeks
1
standar pencemaran udara serta menganalisis Data mining adalah proses menganalisa
data dengan pengujian pencemaran udara di DKI data dari perspektif yang berbeda dan
Jakarta pada bulan Juli tahun 2021. menyimpulkan menjadi informasi-informasi
penting. Data mining dapat diartikan sebagai
proses dalam menemukan hubungan, pola, dan
II. TINJAUAN PUSTAKA
A. Clustering kecenderungan dengan memeriksa sekumpulan
Pada dasarnya clustering yaitu besar data yang tersimpan dalam penyimpanan
kemiripan karakter (similarity) antara satu data Fungsi dari data mining yang pertama
dengan yang lain. Hierarchical clustering sendiri adalah Association dengan pengertian
adalah sebuah metode pengelompokan data pemrosesan dalam identifikasi relasi dari setiap
yang dimulai dengan mengelompokkan dua peristiwa yang telah terjadi pada saat waktu
atau lebih objek yang memiliki kesamaan paling tertentu. Untuk fungsi data mining yang kedua
dekat. Lalu proses dilanjutkan ke objek lain yang yaitu Classification yang diperuntukkan dalam
seterusnya sampai cluster akan membentuk sebuah kelompok. Selanjutnya fungsi data mining
semacam pohon dimana ada hierarki (tingkatan) adalah Clusterization dimana mengidentifikasi
yang jelas antara objek, mulai dari yang paling kelompok yang memiliki karakteristik yang sama.
mirip sampai yang paling tidak mirip. Secara Data mining juga dapat berfungsi sebagai
logika semua objek pada akhirnya hanya akan Descriptive atau memahami data lebih
Berbeda dengan metode hierarchical menjadi forecasting atau yang lebih dikenal
clustering, metode non-hierarchical clustering sebagai teknik dalam peramalan data. Kemudian
justru dimulai dengan menentukan terlebih yang terakhir dari fungsi data mining sendiri yaitu
dahulu jumlah cluster yang diinginkan (dua Sequencing yang merupakan proses identifikasi
cluster, tiga cluster, atau lain sebagainya). setiap hubungan yang berbeda dalam periode
2
yang memiliki karakteristik yang sama
dikelompokkan ke dalam satu cluster.
K-Means adalah metode clustering Gambar 1. Metodologi Penelitian
sejumlah cluster dan algoritma K-Means Penulis menggunakan algoritma k-means untuk
termasuk dalam partisi clustering yang mengelompokkan data kualitas udara di DKI
memisalkan data ke k daerah bagian yang Jakarta berdasarkan variabel parameter yang
terpisah. Algoritma K-Means sangat terkenal diukur. Data yang diolah adalah dataset berisi
karena kemudahan dan kemampuannya untuk Indeks Standar Pencemaran Udara (ISPU) yang
mengcluster data yang sangat besar serta data bersumber dari website Open Data Jakarta
tertentu dan memungkinkan bagi setiap data Data diseleksi berdasarkan atribut yang akan
pada tahapan proses, sampai pada perpindahan digunakan. Selanjutnya dilakukan preprocessing
ke cluster lainnya. Algoritma K-Means merupakan data agar tidak ada duplikasi data dan data yang
metode non-hirarki yang pada mulanya bernilai null. Tahap ini data akan dilakukan
tahap inilah pusat cluster akan dipilih secara acak 1. Menentukan jumlah cluster dengan
tersebut ke salah satu pusat cluster yang telah 3. Menampilkan nilai pusat dari masing-
3
IV. PEMBAHASAN 5. so2 : Sulfida (dalam bentuk SO2) salah
Mengimport Library satu parameter yang diukur
6. co : Karbon Monoksida salah satu
parameter yang diukur
7. o3 : Ozon salah satu parameter yang
diukur
8. no2 : Nitrogen dioksida salah satu
Gambar 2. Proses Import Library parameter yang diukur
Library merupakan gabungan dari package dan 9. max : Nilai ukur paling tinggi dari seluruh
modul yang saling berkaitan untuk parameter yang diukur dalam waktu yang
mempermudah peneliti dalam membuat sama
program. Library yang digunakan antara lain 10. categori : Kategori hasil perhitungan
pandas untuk menjalankan serangkaian data, indeks standar pencemaran udara
numpy untuk proses numerik, seaborn untuk
mempermudah dalam visualisasi data,
sklearn.cluster untuk proses K-Means Clustering
dan sklearn.preprocessing untuk proses
preprocessing dengan minmax scaler.
Menginput Data
Data yang digunakan bersumber dari website
Open Data Jakarta dengan 30 sampel data.
Dataset ini berisi mengenai Indeks Standar
Pencemar Udara (ISPU) yang diukur dari 5 stasiun
pemantau kualitas udara (SPKU) yang ada di
Provinsi DKI Jakarta Tahun 2021 Penjelasan
variabel dari data diatas sebagai berikut :
1. tanggal : Tanggal pengukuran kualitas
udara
2. Stasiun : Lokasi pengukuran di stasiun
3. pm10 : Partikulat salah satu parameter
yang diukur
4. pm25 : Partikulat salah satu parameter
Gambar 3. Proses Input Dataset
yang diukur
4
Preprocessing
Proses ini dilakukan untuk memilih data
yang akan digunakan sebagai atribut penelitian
dan juga untuk menghindari adanya NaN.
1. Memilih atribut berdasarkan variabel yang
akan dihitung
5
Menentukan Jumlah Cluster Cluster 2 : Kualitas udara cukup sehat
Proses ini bertujuan untuk menentukan jumlah Cluster 3 : Kualitas udara sehat
cluster yang paling tepat dengan berbagai K-Means Clustering
metode antara lain: 1. Mengkonfigurasi fungsi k-means dan
1. Dendogram yaitu proses pembentukan menentukan cluster dari data
cluster yang dinyatakan dalam bentuk
gambar. Garis yang mendatar
menunjukan skala yang menggambarkan
tingkat kemiripan. Dari metode ini
Gambar 11. Proses K-Means
didapatkan hasil visualisasi berikut
2. Menampilkan nilai pusat dari setiap
cluster
6
Berdasarkan hasil analisa dan pengujian
yang telah dilakukan maka dapat ditarik
kesimpulan sebagai berikut:
1. Menurut hasil penelitian diketahui bahwa
pada bulan Juli 2021, kota DKI Jakarta
memiliki kualitas udara yang lebih
dominan terhadap kualitas udara yang
tidak sehat/tercemar.
2. Menurut hasil penelitian diketahui bahwa
indeks standar pencemaran udara pada
kota DKI Jakarta tergolong tinggi dan di
prediksikan akan terus meningkat.
Gambar 12. Hasil K-Means Clustering
Visualisasi
Dari hasil tersebut, penulis menyarankan
Proses ini dilakukan untuk membantu
kepada semua pembaca untuk pengembangan
peneliti dalam melakukan analisis dan
dari penelitian ini selanjutnya adalah:
kesimpulan data. Penelitian ini
1. Peneliti kedepannya diharapkan dapat
menggunakan dua metode visualisasi
mengembangkan penelitian-penelitian
yaitu
sebelumnya dengan menambahkan
1. Scatter Plot
pengaruh antara polutan utara terhadap
suatu penyakit tertentu, pertumbuhan
tanaman atau kondisi lainnya.
2. Peneliti kedepannya diharapkan
menggunakan metode-metode lain yang
berbeda pada penelitian sebelumnya
Gambar 14. Visualisasi Scatter Plot untuk mendapatkan hasil yang lebih
2. Histogram optimal terutama dalam pengujian data
nya.