Anda di halaman 1dari 11

Teknik Data Mining Dalam Mengelompokkan Kasus Corona (Covid-19)

Berdasarkan Provinsi Di Indonesia


Ziarah1), I Wayan Restu Agustiawan2), I Made Marta Dwi Cahyadi3)
1),2),3)
Program Pascasarjana Ilmu Komputer Universitas Pendidikan Ganesha
1)
1929101024
2)
1929101045
3)
1929101046

Abstrak
Corona virus adalah penyakit yang menyebabkan infeksi saluran pernapasan. Gejala
virus ini mulai dari flu biasa hingga penyakit yang serius seperti Middle East Resporatory
Syndrome (MERS) dan Severe Acute Respiratory Syndrome (SARS). Corona virus pertama
kali muncul di Wuhan Cina pada desember 2019. Virus ini merupakan penyakit jenis baru
yang ditemukan pada manusia. Pada penelitian ini metode yang digunakan untuk melakukan
pengelompokan data adalah metode clustering. Pada metode clustering peneliti menggunakan
algoritma K-Means untuk melakukan perhitungan data dan hasilnya akan dikelompokan
kedalam cluster. Jumlah record yang digunakan sebanyak 34 Provinsi yang nantinya akan di
bagi kedalam 2 cluster yakni cluster tertinggi dan cluster terendah. Hasil data yang diambil
dari gugus tugas penanganan Covid-19 atau situs resmi https://covid19.go.id sebanyak 34
Provensi di dapat sebagai berikut: untuk cluster tertinggi C1 sebanyak 2 Provinsi yaitu
Provinsi (DKI Jakarta dan Jawa Timur) dan untuk cluster terendah pada C2 adalah sebanyak
32 Provinsi selain Provinsi DKI Jakarta dan Jawa Timur.

Kata Kunci: Coronavirus, K-Means, Penyakit.

1. Pendahuluan
Corona virus merupakan keluarga besar virus yang menyebabkan penyakit pada
manusia dan hewan. Pada manusia biasanya menyebabkan penyakit infeksi saluran
pernapasan, mulai flu biasa hingga penyakit yang serius seperti Middle East Respiratory
Syndrome (MERS) dan Sindrom Pernafasan Akut Berat/ Severe Acute Respiratory Syndrome
(SARS). Corona virus jenis baru yang ditemukan pada manusia sejak kejadian luar biasa
muncul di Wuhan Cina, pada Desember 2019, kemudian diberi nama Severe Acute
Respiratory Syndrome Corona virus 2 (SARS-COV2), dan menyebabkan penyakit Corona
virus Disease-2019 (COVID-19).
Banyak cabang ilmu komputer dapat memecahkan masalah yang kompleks, salah
satunya Teknik data mining. Istilah data mining memiliki beberapa pandangan, seperti
knowledge discover ataupun pattern recognition. Kedua istilah tersebut sebenarnya memiliki
ketepatannya masing-masing, istilah knowledge discovery atau penemuan pengetahuan tepat
karna digunakan tujuan utama dari data mining memang untuk mendapat pengetahuan yang
masih tersembunyi di dalam bongkahan data [1]. Teknik data mining ini sendiri memiliki
beberapa metode salah satunya metode clustering (pengelompokkan) dan untuk metode
clustering terdapat beberapa pilihan algoritma salah satu yang paling banyak digunakan
adalah algoritma K-Means.
Penelitian ini bertujuan untuk membuat sebuah data mining
pengelompokan/Clustering. Metode yang digunakan adalah Algoritma K-Means. Dengan
menggunakan Algoritma ini data yang telah dihasilkan dapat dikelompokkan kedalam
Cluster berdasarkan hasil perhitungan data. Data Covid-19 bersumber dari situs Gugus Tugas
Percepatan Penanganan Covid-19 update tanggal 6 bulan Juli 2020. Jumlah record yang
digunakan sebanyak 34 Provinsi yang nantinya akan di bagi kedalam 2 cluster yakni cluster
tertinggi dan cluster terendah. Untuk mendapatkan hasil yang maksimal pada tahapan
perhitungan K-Means selain dengan perhitungan manual akan dilakukan juga dengan
menggunakan Rapidminer versi 9.7.1.
2. Teoritis
2.1. Data Mining
Data mining merupakan proses menemukan korelasi baru yang bermanfaat, pola dan
trend dengan menambang sejumlah repository data dalam jumlah besar, menggunakan
teknologi pengenalan pola seperti statistik dan Teknik matematika. Data mining disebut
juga dengan knowledge discovery in database (KDD) ataupun pattern recognition [2].
2.2 Corona Virus (Covid-19)
Covid-19 adalah penyakit yang ditimbulkan oleh infeksi virus corona baru atau
SARS-CoV-2 yang berasal dari keluarga corona. Namun, jenis virus yang menyebar kali
ini belum pernah ada sebelumnya. Kemudian, seperti juga infeksi jenis virus corona
lainnya, virus corona baru ini menular pada manusia melalui hewan. Mengingat cepatnya
proses penyebaran dan penularan di seluruh dunia dengan tingkat kematian yang terus
meningkat setiap harinya, Badan Kesehatan Dunia (WHO) telah menetapkan Covid-19
sebagai pandemi global.
2.3 Algoritma K-Means
Algoritma K-Means merupakan Algoritma pengelompokan iteratif yang melakukan
partisi set data ke dalam sejumlah K cluster yang sudah ditetapkan diawal. Algoritma K-
Means sederhana untuk diimplementasikan dan dijalankan, relative cepat, mudah
beradaptasi, umum penggunaannya dalam praktek. Secara historis, K-Means menjadi
salah satu algoritma yang paling penting dalam bidang data mining.
Algoritma K-means adalah algoritma yang terbaik dalam algoritma partitional
clustering dan yang paling sering digunakan diantara algoritma clustering lainnya kerena
kesederhanaan dan efisiensinya. Kelebihan Algoritma Kmeans itu sendiri menurut K. Arai
and A. R. Barakbah, merupakan algoritma clustering yang paling sederhana dan umum,
hal ini dikarenakan K-means mempunyai kemampuan mengelompokkan data dalam
jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun,
K-means mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster [3].
Berikut ini adalah langkah-langkah dalam algoritma K-means [4] :
1. Tentukan jumlah cluster (k) pada data set
2. Tentukan nilai pusat (centroid)
Penentuan nilai centroid pada tahap awal dilakukan secara random, sedangkan pada
tahap iterasi digunakan rumus seperti pada persamaan (1) berikut ini :

Keterangan :
Vij = centroid rata-rata cluster ke-I untuk variabel ke-j
Ni = Jumlah anggota cluster ke-i
i, k = indeks dari cluster
j = indeks dari variabel
Xkj = nilai data ke-k variabel ke-j untuk cluster tersebut
3. Pada masing-masing record, hitung jarak terdekat dengan centroid. Jarak centroid yang
digunakan adalah Euclidean Distance, dengan rumus seperti dibawah ini:

(𝑥2, 𝑥1) = ||𝑥2 − 𝑥1||2

Keterangan:
D = Euclidean Distance
x = banyaknya objek
Ʃp = jumlah data record
Keterangan :
De = Eulidean Distance
i = Banyaknya objek 2
(x, y)= Koordinat objek
(s, t)= Koordinat centroid
4. Kelompokkan objek berdasarkan jarak ke centroid terdekat
5. Ulangi langkah ke-2, lakukan iterasi hingga centroid bernilai optimal

3. Analisa dan Pembahasan


3.1 Tahapan Pengumpulan Data
Set data yang akan di cluster adalah jumlah kasus corona pada tiap provinsi yang ada
di Indonesia update tanggal 6 bulan Juli 2020. Jumlah sampel data corona yang akan
digunakan dalam penelitian ini adalah sebanyak 34 provinsi. Sumber data didapat dari
Gugus Tugas Penanganan Covid-19 atau situs resmi https://covid19.go.id/. Berikut adalah
langkah-langkah penyelesaian yang dilakukan peneliti dalam mengelompokkan Kasus
Covid-19 menggunakan algoritma K-means. Adapun data kasus Covid-19 dapat dilihat
pada tabel 2 berikut ini:
Tabel 1. Data kasus Covid-19
NO. PROVINSI JUMLAH KASUS %
1 ACEH 87 0.1
2 BALI 1900 2.9
3 BANTEN 1525 2.3
4 BENGKULU 141 0.2
5 DAERAH ISTIMEWA YOGYAKARTA 339 0.5
6 DKI JAKARTA 12667 19.5
7 GORONTALO 271 0.4
8 JAMBI 120 0.2
9 JAWA BARAT 3700 5.7
10 JAWA TENGAH 4738 7.3
11 JAWA TIMUR 14321 22
12 KALIMANTAN BARAT 339 0.5
13 KALIMANTAN SELATAN 3628 5.6
14 KALIMANTAN TENGAH 1040 1.6
15 KALIMANTAN TIMUR 597 0.9
16 KALIMANTAN UTARA 206 0.3
17 KEPULAUAN BANGKA BELITUNG 169 0.3
18 KEPULAUAN RIAU 313 0.5
19 LAMPUNG 201 0.3
20 MALUKU 804 1.2
21 MALUKU UTARA 953 1.5
22 NUSA TENGGARA BARAT 1362 2.1
23 NUSA TENGGARA TIMUR 118 0.2
24 PAPUA 2027 3.1
25 PAPUA BARAT 265 0.4
26 RIAU 235 0.4
27 SULAWESI BARAT 124 0.2
28 SULAWESI SELATAN 5974 9.2
29 SULAWESI TENGAH 191 0.3
30 SULAWESI TENGGARA 484 0.7
31 SULAWESI UTARA 1218 1.9
32 SUMATERA BARAT 775 1.2
33 SUMATERA SELATAN 2326 3.6
34 SUMATERA UTARA 1798 2.8

3.2 Perhitungan Algoritma K-Means


Penelitian ini akan menerapkan tahapan algoritma K-means dengan perhitungan
manual juga dengan aplikasi Rapidminer untuk melakukan cluster pada data kasus covid-
19 yang ada di Indonesia dengan hasil yang diharapkan adalah 2 jenis cluster yaitu nilai
cluster tertinggi dan nilai cluster terrendah.
1. Menentukan Titik Centroid
Untuk centoid awal yakni ada 2 centroid yang nantinya akan menjadi cluster
tingkat tertinggi (C1), cluster tingkat terendah (C2). Untuk nilai cluster tertinggi
didapat dari nilai terbesar, sedangkan untuk cluster terendah diambil dari nilai
terkecil. Nilai centroid tersebut dapat dilihat pada tabel berikut:
Tabel 2. Centroid awal

Centroid C1 (Max) 14321 22


C2 (Min) 87 0.1

2. Menghitung Jarak Centroid


Pada tahap ini akan dilakukan perhitungan jarak antar titik Centroid dengan tiap
objek menggunakan rumus Eucldian Distance, yaitu sebagai berikut:

Maka perhitungan pada jarak


Centroid pertama adalah sebagai berikut:
DA1, c1 ¿ √(87−14321)2+¿ ¿ = 14234

DA2, c2 ¿ √(1900−14321)2 +¿ ¿= 12421


DA3, c3 ¿ √(1525−14321)2 +¿ ¿= 12796

DA4, c4 ¿ √(141−14321)2 +¿ ¿= 14180


DA5, c5 ¿ √(339−14321)2 +¿ ¿= 13982
Seterusnya dilakukan perhitungan dengan cara yang sama sampai alternatif terakhir.
Kemudian melakukan perhitungan untuk jarak dari Centroid kedua adalah sebagai
berikut:
DA1, c1 ¿ √(87−87)2 +¿ ¿= 0
DA2, c2 ¿ √(1900−87)2+ ¿ ¿= 1813

DA3, c3 ¿ √(1525−87)2+ ¿ ¿= 1438


DA4, c4 ¿ √(141−87)2+¿ ¿ = 54

DA5, c5 ¿ √(339−87)2+ ¿ ¿= 252


Seterusnya sampai dengan alternatif terakhir. Maka akan didapatkan hasil dari jarak
terpendek dari Centroid, dengan melihat peryataan berikut. “Jika nilai jarak terpendek
berada di kolom C1 maka pada kolom C1 dibri nilai 1” dan “Jika jarak terpendek
berada di kolom C2 maka pada kolom C2 di beri nilai 1” dan mencari nilai yang sama
pada kedua Centroid. Dapat dilihat pada tabel berikut:
Tabel 3. Hasil perhitungan iterasi ke-1
JARAK
C1 C2 NO C1 C2
TERPENDEK
14234 0 0 1   1
12421 1813 1813 2   1
12796 1438 1438 3   1
14180 54 54 4   1
13982 252 252 5   1
1654 12580 1654 6 1  
14050 184 184 7   1
14201 33 33 8   1
10621 3613 3613 9   1
9583 4651 4651 10   1
0 14234 0 11 1  
13982 252 252 12   1
10693 3541 3541 13   1
13281 953 953 14   1
13724 510 510 15   1
14115 119 119 16   1
14152 82 82 17   1
14008 226 226 18   1
14120 114 114 19   1
13517 717 717 20   1
13368 866 866 21   1
12959 1275 1275 22   1
14203 31 31 23   1
12294 1940 1940 24   1
14056 178 178 25   1
14086 148 148 26   1
14197 37 37 27   1
8347 5887 5887 28   1
14130 104 104 29   1
13837 397 397 30   1
13103 1131 1131 31   1
13546 688 688 32   1
11995 2239 2239 33   1
12523 1711 1711 34   1

3. Menentukan posisi Cluster (Pengelompokkan)


Pada tahapan ini akan dilakukan penentuan cluster yakni dari nilai yang sama
dan diletakkan pada cluster yang sesuai di Iterasi pertama. Kemudian dalam proses
perhitungan K-Means, perhitungan akan berhenti jika cluster pada iterasi yang
dihasilkan oleh nilai sebelumnya bernilai sama. Selanjutnya untuk mencari nilai
Centroid baru adalah dengan cara menjumlahkan nilai yang terpilih pada nilai Cluster
kemudian membagikan nya sebanyak jumlah nilai. Caranya sebagai berikut:
C1= (1654+0)/2=827
C2=(0+1813+1438+54+252+184+33+3613+4651+252+3541+953+510+119+82+226
+114+717+866+1275+31+1940+178+148+37+5887+104+397+1131+688+2239+171
1)/32= 1100
Dari hasil diatas didapatkan nilai centroid baru sebagai berikut:
Tabel 4. Centroid baru hasil iterasi ke-1
Centroid C1 827 0.2
C2 1100 2

Selanjutnya menghitung Centroid di Iterasi kedua dengan menggunakan rumus yang


sama seperti sebelumnya untuk menentukan jarak Centroid, Maka berikut hasil jarak
Centroid dari iterasi ke-2:

Tabel 4. Hasil perhitungan iterasi ke-2


C1 C2 JARAK TERPENDEK NO C1 C2
13407 1100 1100 1   1
11594 714 714 2   1
11969 339 339 3   1
13353 1046 1046 4   1
13155 848 848 5   1
827 11481 827 6 1  
13223 916 916 7   1
13374 1067 1067 8   1
9794 2514 2514 9   1
8756 3552 3552 10   1
827 13135 827 11 1  
13155 848 848 12   1
9866 2442 2442 13   1
12454 147 147 14   1
12897 590 590 15   1
13288 981 981 16   1
13325 1018 1018 17   1
13181 874 874 18   1
13293 986 986 19   1
12690 383 383 20   1
12541 234 234 21   1
12132 176 176 22   1
13376 1069 1069 23   1
11467 841 841 24   1
13229 922 922 25   1
13259 952 952 26   1
13370 1063 1063 27   1
7520 4788 4788 28   1
13303 996 996 29   1
13010 703 703 30   1
12276 32 32 31   1
12719 412 412 32   1
11168 1140 1140 33   1
11696 612 612 34   1

Jika hasil dari perhitungan di Iterasi pertama dan kedua nilai Centroid-nya
belum sama, maka perhitungan akan berlanjut pada iterasi ketiga dengan cara yang
sama seperti sebelumnya, namun pada penelitian ini nilai centroid pada iterasi ke-1
dan iterasi ke-2 memiliki nilai yang sama dan tidak ada perubahan diiterasi terakhir,
dan hasil yang didapatkan pada Cluster pertama (C1) adalah berjumlah 2 Provinsi
yang termasuk kedalam kategori kasus covid-19 tinggi pada provinsi di Indonesia.
Untuk Cluster kedua (C2) mendapatkan 32 provinsi yang termasuk kedalam kategori
kasus covid-19 rendah pada provinsi di Indonesia.
3.3. Tampilan Rapidminer
Berdasarkan data hasil clustering pada perhitungan baik secara manual
maupun menggunakan aplikasi Rapidminer menunjukkan hasil perhitungan yg sama.
Berikut adalah grafik cluster yang ditunjukkan menggunakan aplikasi Rapidminer.

Gambar 1. Visualisasi cluster dengan rapidminer


Dari hasil implementasi di rapidminer diketahui bahwa titik berwarna biru
adalah cluster 0, dan titik berwarna hijau adalah cluster 1. Hasil pengklasteran pada
cluster 1 (tertinggi) berjumlah 2 provinsi yaitu DKI Jakarta dan Jawa Timur dan pada
cluster 0 (terendah) berjumlah 32 provinsi.

4. Kesimpulan
Dari pembahasan diatas, penulis mengambil kesimpulan sebagai berikut:

1. Metode yang digunakan adalah Data Mining dengan Algoritma k-means


clustering untuk mengelompokkan jumlah provinsi yang terdapat kasus covid-19.
2. Pengimplementasian dilakukan dengan menggunakan bantuan software
Rapidminer 9.7.1 sehingga mendapatkan hasil yang serupa dengan perhitungan
manual di microsoft excel.
3. Hasil di dapat untuk cluster tertinggi C1 sebanyak 2 provinsi yaitu provinsi (DKI
Jakarta dan Jawa Timur). Hasil untuk cluster terendah pada C2 adalah sebanyak
32 Provinsi yaitu (Aceh, Bali, Banten, Bengkulu, DI Yogyakarta, Gorontalo,
Jambi, Jawa Barat, Jawa tengah, Kalimantan Barat, Kalimantan selatan,
Kalimantan tengah, Kalimantan timur, Kalimantan utara, Kepulauan Bangka
Belitung, Kepulauan riau, Lampung, Maluku, Maluku utara, NTB, NTT, Papua,
Papua barat, Riau, Sulawesi barat, Sulawesi selatan, Sulawesi tengah, Sulawesi
tenggara, Sulawesi utara, Sumatra barat, Sumatra selatan, Sumatra utara.

Referensi
[1] Berry, M.W. and Browne, M., 2006. Lecture notes in data mining. World
Scientific.
[2] K. Fatmawati and A. P. Windarto, “DATA MINING: PENERAPAN
RAPIDMINER DENGAN K-MEANS CLUSTER PADA DAERAH
TERJANGKIT DEMAM BERDARAH DENGUE (DBD)
BERDASARKAN PROVINSI,” vol. 3, no. 2, pp. 173–178, 2018.
[3] A. I. G. Heni Sulastri, “Jurnal Teknologi dan Sistem Informasi PENERAPAN
DATA MINING DALAM PENGELOMPOKAN PENDERITA,” Teknol.
dan Sist. Inf., vol. 2, pp. 299–305, 2017.
[4] T. Khotimah, “Pengelompokan Surat Dalam Al Qur’an Menggunakan Algoritma
K-Means,” Simetris, vol. 5, no. 1, pp. 83– 88, 2014.

Anda mungkin juga menyukai