Kelompok 6 - Makalah - UAS Analitika Data

I.
PENDAHULUAN
1
Penerapan Metode K-Means
Udara adalah kumpulan gas dengan
Clustering dalam Menentukan komposisi terbanyaknya yakni nitrogen dan
Indeks Standar Pencemaran oksigen. Menurut Air Quality Live Index (AQLI),
Udara di DKI Jakarta pada kondisi kualitas udara di Indonesia tercatat terus
Bulan Juli 2021 memburuk sejak dua dekade terakhir, dan saat ini
Aldan Maulana Hamdani, Azhar Adhyasta
berada di peringkat ke-20 negara dengan kualitas
Priyatomo, Fairuz Ramadhania Ariffin, Kania
udara terburuk di dunia. Polusi udara yang
Aninda Ramadhanty.
menjadi penyebab menurunnya kualitas udara ini
dapat didefinisikan sebagai kondisi atmosfer yang
Abstrak—Belakangan, jagat maya ramai
mana konsentrasi substansi yang terdapat di
memperbincangkan soal pencemaran udara di
dalamnya cukup tinggi, melebihi kondisi normal
Jakarta yang sempat mencapai titik terburuk.
udara sehingga dapat menimbulkan dampak yang
Masalah pencemaran udara di Jakarta kian
terukur bagi manusia, hewan, vegetasi maupun
menurun yang diakibatkan faktor alam seperti
material lainnya (Seinfeld, 1986).
kebakaran, gunung meletus, gas alam beracun.
Pencemaran udara dapat disebabkan oleh
Tidak hanya itu asap kendaraan serta asap
kebakaran, gunung meletus, gas alam beracun,
rokok dan pembakaran sampah turut menjadi
dan lain-lain yang mengandung senyawa
sebab adanya pencemaran udara. Dampak dari
berbahaya, salah satunya adalah gas karbon
pencemaran udara ini sangat membahayakan
monoksida (Weebly, di akses 2020).
baik untuk lingkungan maupun kesehatan.
Laman WHO mengungkapkan, kehidupan
Untuk itu diperlukan data mining melalui
manusia saat ini telah diselimuti pencemaran
bentuk K-Means Clustering dengan maksud
udara dari berbagai arah. Kabut asap dari alat
untuk mengelompokan serta membentuk
transportasi telah memenuhi ruang udara untuk
klasifikasi dalam pengolahan data.
bernapas. Ditambah lagi, munculnya pencemaran
Pengelompokan cluster ini dilakukan beberapa
yang berasal dari rumah tangga seperti asap
kali pengujian jumlah cluster berbeda agar
rokok hingga pembakaran sampah. WHO
dapat dibandingkan.
mencatat, kematian dini akibat polusi udara
Kata Kunci : Metode K-Means, Clustering,
mencapai 7 juta kasus per tahun. Kematian
Pencemaran Udara
tersebut dampak dari pencemaran udara melalui
penyakit stroke, penyakit jantung, penyakit paru
obstruktif kronik, kanker paru-paru, dan infeksi
saluran pernapasan akut. Oleh karena itu,
1
sangatlah penting untuk mengukur indeks
1
standar pencemaran udara serta menganalisis Data mining adalah proses menganalisa
data dengan pengujian pencemaran udara di DKI data dari perspektif yang berbeda dan
Jakarta pada bulan Juli tahun 2021. menyimpulkan menjadi informasi-informasi
penting. Data mining dapat diartikan sebagai
proses dalam menemukan hubungan, pola, dan
II. TINJAUAN PUSTAKA
A. Clustering kecenderungan dengan memeriksa sekumpulan
Pada dasarnya clustering yaitu besar data yang tersimpan dalam penyimpanan
metode dalam menentukan serta dengan menggunakan teknik pengenalan pola
mengelompokkan data yang mempunyai seperti statistik dan matematika.
kemiripan karakter (similarity) antara satu data Fungsi dari data mining yang pertama
dengan yang lain. Hierarchical clustering sendiri adalah Association dengan pengertian
adalah sebuah metode pengelompokan data pemrosesan dalam identifikasi relasi dari setiap
yang dimulai dengan mengelompokkan dua peristiwa yang telah terjadi pada saat waktu
atau lebih objek yang memiliki kesamaan paling tertentu. Untuk fungsi data mining yang kedua
dekat. Lalu proses dilanjutkan ke objek lain yang yaitu Classification yang diperuntukkan dalam
memiliki kedekatan kedua. Demikian menyimpulkan definisi karakteristik dalam
seterusnya sampai cluster akan membentuk sebuah kelompok. Selanjutnya fungsi data mining
semacam pohon dimana ada hierarki (tingkatan) adalah Clusterization dimana mengidentifikasi
yang jelas antara objek, mulai dari yang paling kelompok yang memiliki karakteristik yang sama.
mirip sampai yang paling tidak mirip. Secara Data mining juga dapat berfungsi sebagai
logika semua objek pada akhirnya hanya akan Descriptive atau memahami data lebih
membentuk sebuah cluster. mendalam. Berikutnya fungsi data mining juga
Berbeda dengan metode hierarchical menjadi forecasting atau yang lebih dikenal
clustering, metode non-hierarchical clustering sebagai teknik dalam peramalan data. Kemudian
justru dimulai dengan menentukan terlebih yang terakhir dari fungsi data mining sendiri yaitu
dahulu jumlah cluster yang diinginkan (dua Sequencing yang merupakan proses identifikasi
cluster, tiga cluster, atau lain sebagainya). setiap hubungan yang berbeda dalam periode
Setelah jumlah cluster diketahui, baru proses waktu tertentu.
cluster dilakukan tanpa mengikuti proses hierarki. C. K-Means Clustering

Metode ini biasa disebut dengan K-Means K-Means merupakan salah satu metode
Clustering (Santoso, 2010). data clustering non hirarki yang berupaya
B. Data Mining mempartisi data yang ada ke dalam bentuk satu

atau lebih cluster atau kelompok sehingga data
2
yang memiliki karakteristik yang sama
dikelompokkan ke dalam satu cluster.
K-Means adalah metode clustering Gambar 1. Metodologi Penelitian
berbasis jarak yang membagi data ke dalam Pengumpulan Data
sejumlah cluster dan algoritma K-Means Penulis menggunakan algoritma k-means untuk
termasuk dalam partisi clustering yang mengelompokkan data kualitas udara di DKI
memisalkan data ke k daerah bagian yang Jakarta berdasarkan variabel parameter yang
terpisah. Algoritma K-Means sangat terkenal diukur. Data yang diolah adalah dataset berisi
karena kemudahan dan kemampuannya untuk Indeks Standar Pencemaran Udara (ISPU) yang
mengcluster data yang sangat besar serta data bersumber dari website Open Data Jakarta
outlier dengan cepat. Dalam algoritma K-Means, (https://data.jakarta.go.id/dataset)
setiap data harus merupakan bagian cluster Preprocessing Data
tertentu dan memungkinkan bagi setiap data Data diseleksi berdasarkan atribut yang akan
pada tahapan proses, sampai pada perpindahan digunakan. Selanjutnya dilakukan preprocessing
ke cluster lainnya. Algoritma K-Means merupakan data agar tidak ada duplikasi data dan data yang
metode non-hirarki yang pada mulanya bernilai null. Tahap ini data akan dilakukan
mengambil cleaning data, sehingga dapat diolah dan
sebagian banyaknya komponen populasi dilakukan proses data mining
untuk dijadikan sebagai pusat cluster awal. Pada Algoritma K-Means
tahap inilah pusat cluster akan dipilih secara acak 1. Menentukan jumlah cluster dengan
dari sekumpulan populasi data. Berikutnya, K- metode elbow ataupun dendogram
Means akan menguji masing-masing komponen 2. Melakukan clustering dengan algoritma K-
di dalam populasi data dan menandai komponen Means pada python
tersebut ke salah satu pusat cluster yang telah 3. Menampilkan nilai pusat dari masing-
didefinisikan tergantung dari jarak minimum masing cluster
antar komponen dengan tiap-tiap cluster. 4. Menampilkan hasil clustering dengan

dataframe
Visualisasi
III. METODOLOGI PENELITIAN Visualisasi data dilakukan untuk mempermudah
Metode penelitian merupakan tahap keseluruhan peneliti dalam membuat hasil analisis. Dalam
yang dilakukan penulis selama proses penelitian. penelitian ini penulis menggunakan visualisasi
Langkah-langkah dari metodologi penelitian ini scatter plot dan histogram
sebagai berikut:
3
IV. PEMBAHASAN 5. so2 : Sulfida (dalam bentuk SO2) salah
Mengimport Library satu parameter yang diukur
6. co : Karbon Monoksida salah satu
parameter yang diukur
7. o3 : Ozon salah satu parameter yang
diukur
8. no2 : Nitrogen dioksida salah satu
Gambar 2. Proses Import Library parameter yang diukur
Library merupakan gabungan dari package dan 9. max : Nilai ukur paling tinggi dari seluruh
modul yang saling berkaitan untuk parameter yang diukur dalam waktu yang
mempermudah peneliti dalam membuat sama
program. Library yang digunakan antara lain 10. categori : Kategori hasil perhitungan
pandas untuk menjalankan serangkaian data, indeks standar pencemaran udara
numpy untuk proses numerik, seaborn untuk
mempermudah dalam visualisasi data,
sklearn.cluster untuk proses K-Means Clustering
dan sklearn.preprocessing untuk proses
preprocessing dengan minmax scaler.
Menginput Data
Data yang digunakan bersumber dari website
Open Data Jakarta dengan 30 sampel data.
Dataset ini berisi mengenai Indeks Standar
Pencemar Udara (ISPU) yang diukur dari 5 stasiun
pemantau kualitas udara (SPKU) yang ada di
Provinsi DKI Jakarta Tahun 2021 Penjelasan
variabel dari data diatas sebagai berikut :
1. tanggal : Tanggal pengukuran kualitas
udara
2. Stasiun : Lokasi pengukuran di stasiun
3. pm10 : Partikulat salah satu parameter
yang diukur
4. pm25 : Partikulat salah satu parameter
Gambar 3. Proses Input Dataset
yang diukur
4
Preprocessing
Proses ini dilakukan untuk memilih data
yang akan digunakan sebagai atribut penelitian
dan juga untuk menghindari adanya NaN.
1. Memilih atribut berdasarkan variabel yang
akan dihitung
Gambar 4. Proses Seleksi data
2. Visualisasi penyebaran data

Gambar 7. Proses Mengubah Data Menjadi Array
5. Melakukan standarisasi dengan MinMax

karena ukuran data sangat jauh
perbedaan rentangnya yang akan
menyebabkan plot tidak muncul dengan
sempurna
Gambar 5. Visualisasi Penyebaran Data
3. Mengecek nilai NaN
Gambar 6. Mengecek Nilai NaN
4. Mengubah data menjadi Array
Gambar 8. Proses Standarisasi MinMax
5
Menentukan Jumlah Cluster Cluster 2 : Kualitas udara cukup sehat
Proses ini bertujuan untuk menentukan jumlah Cluster 3 : Kualitas udara sehat
cluster yang paling tepat dengan berbagai K-Means Clustering
metode antara lain: 1. Mengkonfigurasi fungsi k-means dan
1. Dendogram yaitu proses pembentukan menentukan cluster dari data
cluster yang dinyatakan dalam bentuk
gambar. Garis yang mendatar
menunjukan skala yang menggambarkan
tingkat kemiripan. Dari metode ini
Gambar 11. Proses K-Means
didapatkan hasil visualisasi berikut
2. Menampilkan nilai pusat dari setiap
cluster
Gambar 12. Menampilkan Nilai Pusat
3. Menampilkan hasil clustering
Gambar 9. Visualisasi Dendrogram
2. Metode Elbow yaitu penentuan yang

didapat dengan melihat hasil visualisasi
yang membentuk siku pada suatu titik.
Dari metode ini didapatkan hasil
visualisasi berikut
Gambar 10. Visualisasi Metode Elbow
Penelitian ini menggunakan 3 cluster dengan

keterangan jika:
Cluster 1 : Kualitas udara tidak sehat
6
Berdasarkan hasil analisa dan pengujian
yang telah dilakukan maka dapat ditarik
kesimpulan sebagai berikut:
1. Menurut hasil penelitian diketahui bahwa
pada bulan Juli 2021, kota DKI Jakarta
memiliki kualitas udara yang lebih
dominan terhadap kualitas udara yang
tidak sehat/tercemar.
2. Menurut hasil penelitian diketahui bahwa
indeks standar pencemaran udara pada
kota DKI Jakarta tergolong tinggi dan di
prediksikan akan terus meningkat.
Gambar 12. Hasil K-Means Clustering
Visualisasi
Dari hasil tersebut, penulis menyarankan
Proses ini dilakukan untuk membantu
kepada semua pembaca untuk pengembangan
peneliti dalam melakukan analisis dan
dari penelitian ini selanjutnya adalah:
kesimpulan data. Penelitian ini
1. Peneliti kedepannya diharapkan dapat
menggunakan dua metode visualisasi
mengembangkan penelitian-penelitian
yaitu
sebelumnya dengan menambahkan
1. Scatter Plot
pengaruh antara polutan utara terhadap
suatu penyakit tertentu, pertumbuhan
tanaman atau kondisi lainnya.
2. Peneliti kedepannya diharapkan
menggunakan metode-metode lain yang
berbeda pada penelitian sebelumnya
Gambar 14. Visualisasi Scatter Plot untuk mendapatkan hasil yang lebih
2. Histogram optimal terutama dalam pengujian data
nya.
VI. DAFTAR PUSTAKA

[1] D. Yulia, S. Agus. 2016. “PENERAPAN METODE
CLUSTERING K-MEANS DALAM
Gambar 15. Visualisasi Histogram PENGELOMPOKAN PENJUALAN PRODUK”.

V. KESIMPULAN Jurnal Media Infotama, 12(2). 150-151.
7
[2] Ong Johan Oscar. 2013. “IMPLEMENTASI 2021/resource/78cc249fa5ed50a27a49746fc
ALGORITMA K-MEANS CLUSTERING UNTUK bfc7a3d, diakses 1 Desember 2021)
MENENTUKAN STRATEGI MARKETING
PRESIDENT UNIVERSITY”. Jurnal Ilmiah Teknik
Industri, 12(1). 13-15.
[3] Alfina Tahta, Budi Santosa, Ali Ridho
Barakbah. 2012. “Analisa Perbandingan
Metode Hierarchical Clustering, K-Means dan
Gabungan Keduanya dalam Cluster Data
(Studi Kasus : Problem Kerja Praktek Jurusan
Teknik Industri ITS)”. JURNAL TEKNIK ITS, 1.
521-523.
[4] Pradifan Andika, Widayat, Suprihanto Agus.
2021. “Pemantauan Kualitas Udara Kota Tegal
(Studi Kasus : Kecamatan Tegal Selatan,
Kecamatan Tegal Barat, Kecamatan Tegal
Timur)”. JURNAL ILMU LINGKUNGAN Program
Studi Ilmu Lingkungan Sekolah Pascasarjana
UNDIP. 19(1). 73-82.
[5] Yazid, Fathuddin dan Affandes, Muhammad.
2017. “Clustering Data Polutan Udara Kota
Pekanbaru dengan Menggunakan Metode K-
Means Clustering”. Jurnal CoreIT. 3(2). 76-80.
[6] Murti, Mikael. 2017. “Penerapan Metode K-
Means Clustering untuk Mengelompokkan
Potensi Produksi Buah-buahan di Provinsi
Daerah Istimewa Yogyakarta”. Skripsi.
Yogyakarta: Universitas Sanata Dharma
[7] Dinas Lingkungan Hidup Provinsi DKI Jakarta.
“Indeks Standar Pencemaran Udara di
Provinsi DKI Jakarta Bulan Juli Tahun 2021”.
2021.
(https://data.jakarta.go.id/dataset/indeks-
standar-pencemaran-udara-ispu-tahun-
8

Kelompok 6 - Makalah - UAS Analitika Data

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kelompok 6 - Makalah - UAS Analitika Data

Diunggah oleh

Hak Cipta:

Format Tersedia

I.

metode dalam menentukan serta dengan menggunakan teknik pengenalan pola

mengelompokkan data yang mempunyai seperti statistik dan matematika.

memiliki kedekatan kedua. Demikian menyimpulkan definisi karakteristik dalam

membentuk sebuah cluster. mendalam. Berikutnya fungsi data mining juga

Setelah jumlah cluster diketahui, baru proses waktu tertentu.

cluster dilakukan tanpa mengikuti proses hierarki. C. K-Means Clustering

Clustering (Santoso, 2010). data clustering non hirarki yang berupaya

B. Data Mining mempartisi data yang ada ke dalam bentuk satu

berbasis jarak yang membagi data ke dalam Pengumpulan Data

outlier dengan cepat. Dalam algoritma K-Means, (https://data.jakarta.go.id/dataset)

setiap data harus merupakan bagian cluster Preprocessing Data

mengambil cleaning data, sehingga dapat diolah dan

sebagian banyaknya komponen populasi dilakukan proses data mining

untuk dijadikan sebagai pusat cluster awal. Pada Algoritma K-Means

dari sekumpulan populasi data. Berikutnya, K- metode elbow ataupun dendogram

Means akan menguji masing-masing komponen 2. Melakukan clustering dengan algoritma K-

di dalam populasi data dan menandai komponen Means pada python

didefinisikan tergantung dari jarak minimum masing cluster

antar komponen dengan tiap-tiap cluster. 4. Menampilkan hasil clustering dengan

Gambar 4. Proses Seleksi data

2. Visualisasi penyebaran data

5. Melakukan standarisasi dengan MinMax

Gambar 5. Visualisasi Penyebaran Data

3. Mengecek nilai NaN

Gambar 6. Mengecek Nilai NaN

4. Mengubah data menjadi Array

Gambar 8. Proses Standarisasi MinMax

Gambar 12. Menampilkan Nilai Pusat

3. Menampilkan hasil clustering

Gambar 9. Visualisasi Dendrogram

2. Metode Elbow yaitu penentuan yang

Gambar 10. Visualisasi Metode Elbow

Penelitian ini menggunakan 3 cluster dengan

VI. DAFTAR PUSTAKA

Gambar 15. Visualisasi Histogram PENGELOMPOKAN PENJUALAN PRODUK”.

Anda mungkin juga menyukai