Abstrak
Corona virus adalah penyakit yang menyebabkan infeksi saluran pernapasan. Gejala
virus ini mulai dari flu biasa hingga penyakit yang serius seperti Middle East Resporatory
Syndrome (MERS) dan Severe Acute Respiratory Syndrome (SARS). Corona virus pertama
kali muncul di Wuhan Cina pada desember 2019. Virus ini merupakan penyakit jenis baru
yang ditemukan pada manusia. Pada penelitian ini metode yang digunakan untuk melakukan
pengelompokan data adalah metode clustering. Pada metode clustering peneliti menggunakan
algoritma K-Means untuk melakukan perhitungan data dan hasilnya akan dikelompokan
kedalam cluster. Jumlah record yang digunakan sebanyak 34 Provinsi yang nantinya akan di
bagi kedalam 2 cluster yakni cluster tertinggi dan cluster terendah. Hasil data yang diambil
dari gugus tugas penanganan Covid-19 atau situs resmi https://covid19.go.id sebanyak 34
Provensi di dapat sebagai berikut: untuk cluster tertinggi C1 sebanyak 2 Provinsi yaitu
Provinsi (DKI Jakarta dan Jawa Timur) dan untuk cluster terendah pada C2 adalah sebanyak
32 Provinsi selain Provinsi DKI Jakarta dan Jawa Timur.
1. Pendahuluan
Corona virus merupakan keluarga besar virus yang menyebabkan penyakit pada
manusia dan hewan. Pada manusia biasanya menyebabkan penyakit infeksi saluran
pernapasan, mulai flu biasa hingga penyakit yang serius seperti Middle East Respiratory
Syndrome (MERS) dan Sindrom Pernafasan Akut Berat/ Severe Acute Respiratory Syndrome
(SARS). Corona virus jenis baru yang ditemukan pada manusia sejak kejadian luar biasa
muncul di Wuhan Cina, pada Desember 2019, kemudian diberi nama Severe Acute
Respiratory Syndrome Corona virus 2 (SARS-COV2), dan menyebabkan penyakit Corona
virus Disease-2019 (COVID-19).
Banyak cabang ilmu komputer dapat memecahkan masalah yang kompleks, salah
satunya Teknik data mining. Istilah data mining memiliki beberapa pandangan, seperti
knowledge discover ataupun pattern recognition. Kedua istilah tersebut sebenarnya memiliki
ketepatannya masing-masing, istilah knowledge discovery atau penemuan pengetahuan tepat
karna digunakan tujuan utama dari data mining memang untuk mendapat pengetahuan yang
masih tersembunyi di dalam bongkahan data [1]. Teknik data mining ini sendiri memiliki
beberapa metode salah satunya metode clustering (pengelompokkan) dan untuk metode
clustering terdapat beberapa pilihan algoritma salah satu yang paling banyak digunakan
adalah algoritma K-Means.
Penelitian ini bertujuan untuk membuat sebuah data mining
pengelompokan/Clustering. Metode yang digunakan adalah Algoritma K-Means. Dengan
menggunakan Algoritma ini data yang telah dihasilkan dapat dikelompokkan kedalam
Cluster berdasarkan hasil perhitungan data. Data Covid-19 bersumber dari situs Gugus Tugas
Percepatan Penanganan Covid-19 update tanggal 6 bulan Juli 2020. Jumlah record yang
digunakan sebanyak 34 Provinsi yang nantinya akan di bagi kedalam 2 cluster yakni cluster
tertinggi dan cluster terendah. Untuk mendapatkan hasil yang maksimal pada tahapan
perhitungan K-Means selain dengan perhitungan manual akan dilakukan juga dengan
menggunakan Rapidminer versi 9.7.1.
2. Teoritis
2.1. Data Mining
Data mining merupakan proses menemukan korelasi baru yang bermanfaat, pola dan
trend dengan menambang sejumlah repository data dalam jumlah besar, menggunakan
teknologi pengenalan pola seperti statistik dan Teknik matematika. Data mining disebut
juga dengan knowledge discovery in database (KDD) ataupun pattern recognition [2].
2.2 Corona Virus (Covid-19)
Covid-19 adalah penyakit yang ditimbulkan oleh infeksi virus corona baru atau
SARS-CoV-2 yang berasal dari keluarga corona. Namun, jenis virus yang menyebar kali
ini belum pernah ada sebelumnya. Kemudian, seperti juga infeksi jenis virus corona
lainnya, virus corona baru ini menular pada manusia melalui hewan. Mengingat cepatnya
proses penyebaran dan penularan di seluruh dunia dengan tingkat kematian yang terus
meningkat setiap harinya, Badan Kesehatan Dunia (WHO) telah menetapkan Covid-19
sebagai pandemi global.
2.3 Algoritma K-Means
Algoritma K-Means merupakan Algoritma pengelompokan iteratif yang melakukan
partisi set data ke dalam sejumlah K cluster yang sudah ditetapkan diawal. Algoritma K-
Means sederhana untuk diimplementasikan dan dijalankan, relative cepat, mudah
beradaptasi, umum penggunaannya dalam praktek. Secara historis, K-Means menjadi
salah satu algoritma yang paling penting dalam bidang data mining.
Algoritma K-means adalah algoritma yang terbaik dalam algoritma partitional
clustering dan yang paling sering digunakan diantara algoritma clustering lainnya kerena
kesederhanaan dan efisiensinya. Kelebihan Algoritma Kmeans itu sendiri menurut K. Arai
and A. R. Barakbah, merupakan algoritma clustering yang paling sederhana dan umum,
hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam
jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun,
K-means mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster [3].
Berikut ini adalah langkah-langkah dalam algoritma K-means [4] :
1. Tentukan jumlah cluster (k) pada data set
2. Tentukan nilai pusat (centroid)
Penentuan nilai centroid pada tahap awal dilakukan secara random, sedangkan pada
tahap iterasi digunakan rumus seperti pada persamaan (1) berikut ini :
Keterangan :
Vij = centroid rata-rata cluster ke-I untuk variabel ke-j
Ni = Jumlah anggota cluster ke-i
i, k = indeks dari cluster
j = indeks dari variabel
Xkj = nilai data ke-k variabel ke-j untuk cluster tersebut
3. Pada masing-masing record, hitung jarak terdekat dengan centroid. Jarak centroid yang
digunakan adalah Euclidean Distance, dengan rumus seperti dibawah ini:
Keterangan:
D = Euclidean Distance
x = banyaknya objek
Ʃp = jumlah data record
Keterangan :
De = Eulidean Distance
i = Banyaknya objek 2
(x, y)= Koordinat objek
(s, t)= Koordinat centroid
4. Kelompokkan objek berdasarkan jarak ke centroid terdekat
5. Ulangi langkah ke-2, lakukan iterasi hingga centroid bernilai optimal
Jika hasil dari perhitungan di Iterasi pertama dan kedua nilai Centroid-nya
belum sama, maka perhitungan akan berlanjut pada iterasi ketiga dengan cara yang
sama seperti sebelumnya, namun pada penelitian ini nilai centroid pada iterasi ke-1
dan iterasi ke-2 memiliki nilai yang sama dan tidak ada perubahan diiterasi terakhir,
dan hasil yang didapatkan pada Cluster pertama (C1) adalah berjumlah 2 Provinsi
yang termasuk kedalam kategori kasus covid-19 tinggi pada provinsi di Indonesia.
Untuk Cluster kedua (C2) mendapatkan 32 provinsi yang termasuk kedalam kategori
kasus covid-19 rendah pada provinsi di Indonesia.
3.3. Tampilan Rapidminer
Berdasarkan data hasil clustering pada perhitungan baik secara manual
maupun menggunakan aplikasi Rapidminer menunjukkan hasil perhitungan yg sama.
Berikut adalah grafik cluster yang ditunjukkan menggunakan aplikasi Rapidminer.
4. Kesimpulan
Dari pembahasan diatas, penulis mengambil kesimpulan sebagai berikut:
Referensi
[1] Berry, M.W. and Browne, M., 2006. Lecture notes in data mining. World
Scientific.
[2] K. Fatmawati and A. P. Windarto, “DATA MINING: PENERAPAN
RAPIDMINER DENGAN K-MEANS CLUSTER PADA DAERAH
TERJANGKIT DEMAM BERDARAH DENGUE (DBD)
BERDASARKAN PROVINSI,” vol. 3, no. 2, pp. 173–178, 2018.
[3] A. I. G. Heni Sulastri, “Jurnal Teknologi dan Sistem Informasi PENERAPAN
DATA MINING DALAM PENGELOMPOKAN PENDERITA,” Teknol.
dan Sist. Inf., vol. 2, pp. 299–305, 2017.
[4] T. Khotimah, “Pengelompokan Surat Dalam Al Qur’an Menggunakan Algoritma
K-Means,” Simetris, vol. 5, no. 1, pp. 83– 88, 2014.