Abstract
Data mining is a process of data mining to find important patterns that are useful.
Coronavirus (COVID-19) is an infectious disease caused by a newly discovered
coronavirus. The first case reported was in December 2019 in Wuhan,
China.COVID-19 attacked humans in different ways. The symptoms of this virus
are fever, tuberculosis and fatigue. For the elderly, children and people with
critical illnesses such as heart problems, diabetes, chronic respiratory problems,
and cancer are at high risk for infection. Serious symptoms include difficulty
breathing or shortness of breath, chest pain or feeling stressed in the chest and
limited movement.COVID-19 is transmitted through human respiratory particle
transmission and contact. When in close proximity to patients who have symptoms,
particle transmission will easily occur when their mouths and noses are exposed.
Particle transmission will also easily occur in the area around the patient.
Clustering is a method of grouping data or the process of partitioning a single
data object into a set of sections called a cluster. K means is a data mining method
that performs the modeling process without supervision and is one of the models
that group data with a partition system.
Keywords - datamining, covid19, clustering, k means
Abstrak
Data mining merupakan proses penggalian data untuk menemukan pola pola
penting yang bermanfaat.Coronavirus (COVID-19) adalah penyakit berjangkit
yang berpunca daripada virus corona yang baru ditemui. Kes pertama yang
dilaporkan adalah pada Disember 2019 di Wuhan, China.COVID-19 menyerang
manusia dalam cara yang berbeza. Simptom-simptom virus ini adalah seperti
demam, batuk kering dan keletihan. Bagi warga emas, kanak-kanak dan pengidap
penyakit kritikal seperti masalah jantung, diabetes, masalah pernafasan yang
kronik, dan kanser adalah berisiko tinggi untuk terkena jangkitan. Simptom serius
adalah seperti sukar bernafas atau nafas pendek, sakit dada atau terasa tertekan di
bahagian dada dan pergerakan yang terhad.COVID-19 berjangkit melalui tranmisi
zarah pernafasan manusia dan sentuhan. Apabila berada dalam jarak yang dekat
dengan pesakit yang mempunyai simptom, transmisi zarah akan mudah berlaku
apabila mulut dan hidung mereka terdedah. Transmisi zarah juga akan mudah
berlaku dikawasan sekeliling pesakit.
Clustering adalah metode penggolompokan data atau proses partisi satu objek data
kedalam himpunan bagian yang disebut dengan cluster. K means adalah metoe
data mining yang melakukan proses pemodelan tanpa supervisi dan merupakan
salah satu model yang melakukan pengelomppokan data dengan sitem partisi.
Kata kunci – datamining,covid19,clustering,k means
1.Pendahuluan
Data mining merupakan proses penggalian data untuk menemukan pola pola
penting yang bermanfaat atau biasa di katakan juga suatu proses ekstraksi atau
penggalian data dan informasi yang besar, yang belum diketahui sebelumnya,
namun dapat dipahamidan berguna dari database yang besar serta digunakan untuk
membuat suatu keputusanbisnis yang sangat penting.
Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan
untuk menemukan pola-pola yang tidak diketahui pada data yang telah
dikumpulkan. Data mining memungkinkan pemakai menemukan pengetahuan
dalam data database yang tidak mungkin diketahui keberadaanya oleh pemakai.
Coronavirus (COVID-19) adalah penyakit berjangkit yang berpunca daripada
virus corona yang baru ditemui. Kes pertama yang dilaporkan adalah pada
Disember 2019 di Wuhan, China.COVID-19 menyerang manusia dalam cara yang
berbeza. Simptom-simptom virus ini adalah seperti demam, batuk kering dan
keletihan. Bagi warga emas, kanak-kanak dan pengidap penyakit kritikal seperti
masalah jantung, diabetes, masalah pernafasan yang kronik, dan kanser adalah
berisiko tinggi untuk terkena jangkitan. Simptom serius adalah seperti sukar
bernafas atau nafas pendek, sakit dada atau terasa tertekan di bahagian dada dan
pergerakan yang terhad.COVID-19 berjangkit melalui tranmisi zarah pernafasan
manusia dan sentuhan. Apabila berada dalam jarak yang dekat dengan pesakit yang
mempunyai simptom, transmisi zarah akan mudah berlaku apabila mulut dan
hidung mereka terdedah. Transmisi zarah juga akan mudah berlaku dikawasan
sekeliling pesakit.
Clustering adalah metode penggolompokan data atau proses partisi satu objek data
kedalam himpunan bagian yang disebut dengan cluster. Ada berbagai macam
pengertian tentang cluster/clustering. Singkatnya cluster adalah fenomena dimana
search engine mendata dua atau lebih halaman sebuah web dengan sebuah query
pencari.
Clustering yang ini bermakna metode penganalisaan data yang tujuannya untuk
mengelompokkan data dengan cirikhas dan karateristik yang sama dalam suatu
wilayah. Beberapa pendekatan yang digunakan dalam mengembangkan metode
clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan
clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau
sering disebut dengan partition-based clustering mengelompokkan data dengan
memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering
dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering
mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana
data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak
pada hirarki yang berjauhan.
K means adalah metode data mining yang melakukan proses pemodelan tanpa
supervisi dan merupakan salah satu model yang melakukan pengelomppokan data
dengan sitem partisi. K-Means adalah suatu metode penganalisaan data atau
metode Data Mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan
data dengan sistem partisi. Metode k-means berusaha mengelompokkan data yang
ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang
berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain,
metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam
suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.
2.TEORI
2.2 K means
K-Means adalah suatu metode penganalisaan data atau metode Data Mining yang
melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah
satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode
k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok,
dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama
lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam
kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan
variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi
dengan data yang ada di cluster lainnya.
Clustering yang ini bermakna metode penganalisaan data yang tujuannya untuk
mengelompokkan data dengan cirikhas dan karateristik yang sama dalam suatu
wilayah. Beberapa pendekatan yang digunakan dalam mengembangkan metode
clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan
clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau
sering disebut dengan partition-based clustering mengelompokkan data dengan
memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering
dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering
mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana
data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak
pada hirarki yang berjauhan.
C2 2144 49 Sedang
C3 127 7 rendah
1 KAB.KOLAKA 1940 38
2 KAB.KONAWE 1544 72
3 KAB.MUNA 585 35
4 KAB.BUTON 323 26
6 BAU-BAU 2144 49
9 WAKATOBI 429 27
10 BOMBANA 548 21
5594.290393 0 2017.437236 0
7406.951262 2017.437236 0 0
1 KAB.KOLAKA 1940 38 2
2 KAB.KONAWE 1544 72 2
3 KAB.MUNA 585 35 3
4 KAB.BUTON 323 26 3
6 BAU-BAU 2144 49 2
9 WAKATOBI 429 27 3
10 BOMBANA 548 21 3
C1 C2 C3
95 48 3
Kemudian menentukan nilai centroid baru ,nilai ditentukan oleh data yang masuk
kedalam cluster berasrkan tabel diatas (data 1-17) diperoleh sebagai berikut:
-cluster 1 terdapat 1 data
-cluster 2 terdapat 4 data
-cluster 3 terdapat 12 data
Tabel 5 clusterbaru
CLASS 1 7534 95
CLASS 2 1695.5 48
CLASS 3 410.5 3
Selanjutnya mencari nilai centroid baru,ulangi langkah diatas setlah nilai centroid
baru ditemukan maka ulangi langkah perhitungan jarak yaitu pada langkah
sebelumnya memasukan data kealam cluster.
1 KAB.KOLAKA 1940 38
2 KAB.KONAWE 1544 72
3 KAB.MUNA 585 35
4 KAB.BUTON 323 26
6 BAU-BAU 2144 49
9 WAKATOBI 429 27
10 BOMBANA 548 21
C1 C2 C3 JARAKPENDEK
0 5594.008938 177.4098363 0
7105.325397 47 676.2575323 47
0 7212.10011 410.5109621 0
2 KAB.KONAWE 1544 72 3
3 KAB.MUNA 585 35 1
4 KAB.BUTON 323 26 3
6 BAU-BAU 2144 49 3
9 WAKATOBI 429 27 3
10 BOMBANA 548 21 3
4.Hasil
Cluster 1 =3
Cluster 2 = 1
Cluster 3 = 13
5.kesimpulan
Turban, E. 2005. Decision Support Systems and Inteligent Systems Edisi Bahasa Indoneia Jilid 1.
Andi:yogyakarta.
Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data Mining. John Willey &
Sons, Inc.
Ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.