Anda di halaman 1dari 15

CLUSTERING DATA COVID 19 DENGAN MENENTUKAN

DAERAH ZONA AMAN DAN TIDAK AMAN DI KABUPATEN


ATAU KOTA PROVINSI SULAWESI TENGGARA
(STUDI KASUS DATA COVID DI SULTRA)

Noviaulya,Siska yulianti,Anitasari,Amar muarif,Muh alfitrah Ramadhan


(kelompok 4 data mining)

Program Studi Sistem Informasi ,Fakultas Teknologi Informasi,Universitas


Sembilan Belas November kolaka

Abstract
Data mining is a process of data mining to find important patterns that are useful.
Coronavirus (COVID-19) is an infectious disease caused by a newly discovered
coronavirus. The first case reported was in December 2019 in Wuhan,
China.COVID-19 attacked humans in different ways. The symptoms of this virus
are fever, tuberculosis and fatigue. For the elderly, children and people with
critical illnesses such as heart problems, diabetes, chronic respiratory problems,
and cancer are at high risk for infection. Serious symptoms include difficulty
breathing or shortness of breath, chest pain or feeling stressed in the chest and
limited movement.COVID-19 is transmitted through human respiratory particle
transmission and contact. When in close proximity to patients who have symptoms,
particle transmission will easily occur when their mouths and noses are exposed.
Particle transmission will also easily occur in the area around the patient.
Clustering is a method of grouping data or the process of partitioning a single
data object into a set of sections called a cluster. K means is a data mining method
that performs the modeling process without supervision and is one of the models
that group data with a partition system.
Keywords - datamining, covid19, clustering, k means
Abstrak
Data mining merupakan proses penggalian data untuk menemukan pola pola
penting yang bermanfaat.Coronavirus (COVID-19) adalah penyakit berjangkit
yang berpunca daripada virus corona yang baru ditemui. Kes pertama yang
dilaporkan adalah pada Disember 2019 di Wuhan, China.COVID-19 menyerang
manusia dalam cara yang berbeza. Simptom-simptom virus ini adalah seperti
demam, batuk kering dan keletihan. Bagi warga emas, kanak-kanak dan pengidap
penyakit kritikal seperti masalah jantung, diabetes, masalah pernafasan yang
kronik, dan kanser adalah berisiko tinggi untuk terkena jangkitan. Simptom serius
adalah seperti sukar bernafas atau nafas pendek, sakit dada atau terasa tertekan di
bahagian dada dan pergerakan yang terhad.COVID-19 berjangkit melalui tranmisi
zarah pernafasan manusia dan sentuhan. Apabila berada dalam jarak yang dekat
dengan pesakit yang mempunyai simptom, transmisi zarah akan mudah berlaku
apabila mulut dan hidung mereka terdedah. Transmisi zarah juga akan mudah
berlaku dikawasan sekeliling pesakit.
Clustering adalah metode penggolompokan data atau proses partisi satu objek data
kedalam himpunan bagian yang disebut dengan cluster. K means adalah metoe
data mining yang melakukan proses pemodelan tanpa supervisi dan merupakan
salah satu model yang melakukan pengelomppokan data dengan sitem partisi.
Kata kunci – datamining,covid19,clustering,k means

1.Pendahuluan
Data mining merupakan proses penggalian data untuk menemukan pola pola
penting yang bermanfaat atau biasa di katakan juga suatu proses ekstraksi atau
penggalian data dan informasi yang besar, yang belum diketahui sebelumnya,
namun dapat dipahamidan berguna dari database yang besar serta digunakan untuk
membuat suatu keputusanbisnis yang sangat penting.
Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan
untuk menemukan pola-pola yang tidak diketahui pada data yang telah
dikumpulkan. Data mining memungkinkan pemakai menemukan pengetahuan
dalam data database yang tidak mungkin diketahui keberadaanya oleh pemakai.
Coronavirus (COVID-19) adalah penyakit berjangkit yang berpunca daripada
virus corona yang baru ditemui. Kes pertama yang dilaporkan adalah pada
Disember 2019 di Wuhan, China.COVID-19 menyerang manusia dalam cara yang
berbeza. Simptom-simptom virus ini adalah seperti demam, batuk kering dan
keletihan. Bagi warga emas, kanak-kanak dan pengidap penyakit kritikal seperti
masalah jantung, diabetes, masalah pernafasan yang kronik, dan kanser adalah
berisiko tinggi untuk terkena jangkitan. Simptom serius adalah seperti sukar
bernafas atau nafas pendek, sakit dada atau terasa tertekan di bahagian dada dan
pergerakan yang terhad.COVID-19 berjangkit melalui tranmisi zarah pernafasan
manusia dan sentuhan. Apabila berada dalam jarak yang dekat dengan pesakit yang
mempunyai simptom, transmisi zarah akan mudah berlaku apabila mulut dan
hidung mereka terdedah. Transmisi zarah juga akan mudah berlaku dikawasan
sekeliling pesakit.

Clustering adalah metode penggolompokan data atau proses partisi satu objek data
kedalam himpunan bagian yang disebut dengan cluster. Ada berbagai macam
pengertian tentang cluster/clustering. Singkatnya cluster adalah fenomena dimana
search engine mendata dua atau lebih halaman sebuah web dengan sebuah query
pencari.
Clustering yang ini bermakna metode penganalisaan data yang tujuannya untuk
mengelompokkan data dengan cirikhas dan karateristik yang sama dalam suatu
wilayah. Beberapa pendekatan yang digunakan dalam mengembangkan metode
clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan
clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau
sering disebut dengan partition-based clustering mengelompokkan data dengan
memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering
dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering
mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana
data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak
pada hirarki yang berjauhan.
K means adalah metode data mining yang melakukan proses pemodelan tanpa
supervisi dan merupakan salah satu model yang melakukan pengelomppokan data
dengan sitem partisi. K-Means adalah suatu metode penganalisaan data atau
metode Data Mining yang melakukan proses pemodelan tanpa supervisi
(unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan
data dengan sistem partisi. Metode k-means berusaha mengelompokkan data yang
ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai
karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang
berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain,
metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam
suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.

2.TEORI

1.1 Data mining


Adapun pengertian data mining menurut para ahli yang perlu kalian ketahui
adalah sebagai berikut.
1. Larose (2006)
Menurut Larose, definisi data mining adalah proses menemukan sesuatu yang
bermakna oleh suatu korelasi baru, pola dan juga tren yang terdapat dengan cara
memilah-milah data yang berukuran besar, dimana data tersebut disimpan dalam
repository, menggunakan teknologi sosialisasi pola serta statistik dan teknik
matematika.
Pengertian penambangan data atau “data mining” merupakan analisis
pengamatan database dalam menemukan hubungan yang tidak terduga serta juga
untuk meringkas data dengan cara atau sebuah metode baru yang dapat dimengerti
yang berguna pada pemilik data.
Penggalian data juga dapat diartikan sebagai suatu proses ekstraksi sebuah
informasi yang berguna serta juga potensial dari sekumpulan data yang secara
implisit terdapat didalam suatu kumpulan data.
2. Turban Et Al (2005)
Menurut Turban Et Al, arti data mining adalah proses yang memakai teknik
statistik, teknik matematika, kecerdasan protesis, machine learning dalam
melakukan ekstraksi dan mengidentifikasi informasi yang bermanfaat serta
pengetahuan yang terkait oleh berbagai database (yang berukuran) besar.
3. Pramudiono (2006)
Menurut Pramudiono, pengertian data mining adalah analisa yang dilakukan
secara automatic (otomatis) pada data yang berjumlah besar dan kompleks dengan
tujuan untuk mendapatkan kecendrungan atau pola penting yang keberadaannya
biasanya tidak disadari

2.2 K means
K-Means adalah suatu metode penganalisaan data atau metode Data Mining yang
melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah
satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode
k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok,
dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama
lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam
kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan
variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi
dengan data yang ada di cluster lainnya.

Data clustering menggunakan metode K-Means Clustering ini secara umum


dilakukan dengan algoritma dasar sebagai berikut:

1. Tentukan jumlah cluster


2. Alokasikan data ke dalam cluster secara random
3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke centroid/rata-rata terdekat
5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila
perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau
apabila perubahan nilai pada objective function yang digunakan di atas nilai
threshold yang ditentukan

Beberapa Permasalahan yang Terkait Dengan K-Means Clustering

Beberapa permasalahan yang sering muncul pada saat menggunakan metode K-


Means untuk melakukan pengelompokan data adalah

1. Ditemukannya beberapa model clustering yang berbeda


2. Pemilihan jumlah cluster yang paling tepat
3. Kegagalan untuk converge
4. Outliers
5. Bentuk cluster
3.ANALISA DAN PEMBAHASAN

Clustering yang ini bermakna metode penganalisaan data yang tujuannya untuk
mengelompokkan data dengan cirikhas dan karateristik yang sama dalam suatu
wilayah. Beberapa pendekatan yang digunakan dalam mengembangkan metode
clustering. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan
clustering dengan pendekatan hirarki. Clustering dengan pendekatan partisi atau
sering disebut dengan partition-based clustering mengelompokkan data dengan
memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Clustering
dengan pendekatan hirarki atau sering disebut dengan hierarchical clustering
mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana
data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak
pada hirarki yang berjauhan.

Tabel 1.data awal

NO KABUPATEN SEMBUH MENINGGAL


1 KAB.KOLAKA 1940 38
2 KAB.KONAWE 1544 72
3 KAB.MUNA 585 35
4 BUTON 323 26
5 KENDARI 7534 95
6 BAU BAU 2144 49
7 KONSEL 1086 35
8 KOLUT 1154 33
9 WAKATOBI 429 27
10 BOMBANA 548 21
11 KONUT 527 13
12 BUTON UTARA 104 17
13 KOLTIM 621 34
14 KONAWE 109 1
KEPULAUAN
15 MUNA BARAT 145 9
16 BUTON SELATAN 127 7
17 BUTON TENGAH 322 10

Tabel 2.centroid awal


C1 7534 95 tinggi

C2 2144 49 Sedang
C3 127 7 rendah

pada proses ini menenukan centroid awal c1 diambil dari data ke 5

c2 diambil dari data ke 6 dan c3 diambil dari data ke 16.

Tabel 3 jarak terpendek

NO KABUPATEN SEMBUH MENINGGAL

1 KAB.KOLAKA 1940 38

2 KAB.KONAWE 1544 72

3 KAB.MUNA 585 35

4 KAB.BUTON 323 26

5 KOTA KENDARI 7534 95

6 BAU-BAU 2144 49

7 KONAWE SELATAN 1086 35

8 KOLAKA UTARA 1154 33

9 WAKATOBI 429 27

10 BOMBANA 548 21

11 KONAWE UTARA 527 13

12 BUTON UTARA 104 17

13 KOLAKA TIMUR 621 34

14 KONAWE KEPULAUAN 109 1

15 MUNA BARAT 145 9

16 BUTON SELATAN 127 7

17 BUTON TENGAH 322 10


C1 C2 C3 JARAK DEKAT

5594.290393 204.2963534 1813.265011 204.2963534

5989.805589 600.4406715 1418.490042 600.4406715

6948.998993 1559.06286 458.855097 458.855097

7211.001803 1821.145244 196.918765 196.918765

9.746794345 5390.196286 7407.52273 9.746794345

5594.290393 0 2017.437236 0

6448.002714 1058.092624 959.408672 959.408672

6379.889419 990.1292845 1027.329061 990.1292845

7104.637077 1715.141102 302.6615271 302.6615271

6985.913827 1596.245595 421.2327148 421.2327148

7006.95269 1617.400692 400.0449975 400.0449975

7429.393784 2040.250965 25.07987241 25.07987241

6912.828799 1523.073866 494.737304 494.737304

7424.917575 2035.566015 18.97366596 18.97366596

7388.926918 1999.40016 18.11077028 18.11077028

7406.951262 2017.437236 0 0

7211.970119 1822.417351 195.0230756 195.0230756

Langkah berikutnya menentukan cluster baru dengan membandingkan antara dua


cluster nilai minimum merupakan nilai pilihan .jika ditemukan nilai yang kecil
maka dapat dimassukan kedalam cluster baru untuk lebih jelas pda tabel dibawah
ini.
Tabel 4 penentuan cluster baru

NO KABUPATEN SEMBUH MENINGGAL CLASS

1 KAB.KOLAKA 1940 38 2

2 KAB.KONAWE 1544 72 2

3 KAB.MUNA 585 35 3

4 KAB.BUTON 323 26 3

5 KOTA KENDARI 7534 95 1

6 BAU-BAU 2144 49 2

7 KONAWE SELATAN 1086 35 3

8 KOLAKA UTARA 1154 33 2

9 WAKATOBI 429 27 3

10 BOMBANA 548 21 3

11 KONAWE UTARA 527 13 3

12 BUTON UTARA 104 17 3

13 KOLAKA TIMUR 621 34 3

14 KONAWE KEPULAUAN 109 1 3

15 MUNA BARAT 145 9 3

16 BUTON SELATAN 127 7 3

17 BUTON TENGAH 322 10 3

C1 C2 C3

7534 1695.5 410.5

95 48 3
Kemudian menentukan nilai centroid baru ,nilai ditentukan oleh data yang masuk
kedalam cluster berasrkan tabel diatas (data 1-17) diperoleh sebagai berikut:
-cluster 1 terdapat 1 data
-cluster 2 terdapat 4 data
-cluster 3 terdapat 12 data

Tabel 5 clusterbaru

CLASS 1 7534 95

CLASS 2 1695.5 48

CLASS 3 410.5 3
Selanjutnya mencari nilai centroid baru,ulangi langkah diatas setlah nilai centroid
baru ditemukan maka ulangi langkah perhitungan jarak yaitu pada langkah
sebelumnya memasukan data kealam cluster.

Tabel 6. cluster literasi 2

NO KABUPATEN SEMBUH MENINGGAL

1 KAB.KOLAKA 1940 38

2 KAB.KONAWE 1544 72

3 KAB.MUNA 585 35

4 KAB.BUTON 323 26

5 KOTA KENDARI 7534 95

6 BAU-BAU 2144 49

7 KONAWE SELATAN 1086 35

8 KOLAKA UTARA 1154 33

9 WAKATOBI 429 27

10 BOMBANA 548 21

11 KONAWE UTARA 527 13

12 BUTON UTARA 104 17

13 KOLAKA TIMUR 621 34

14 KONAWE KEPULAUAN 109 1

15 MUNA BARAT 145 9

16 BUTON SELATAN 127 7

17 BUTON TENGAH 322 10

C1 C2 C3 JARAKPENDEK
0 5594.008938 177.4098363 0

5390.196286 5990.04808 90.47237147 90.47237147

6448.27915 6949.01216 7124.094065 6448.27915

6380.301247 7211.03356 1734.110219 1734.110219

7105.325397 47 676.2575323 47

6986.391916 5390.000093 744.1049993 744.1049993

7007.479789 6448.013105 30.30264015 30.30264015

7430.40941 6380.017633 138.6731769 138.6731769

6913.269125 7105.031034 116.9283969 116.9283969

7425.594993 6986.052176 306.8195724 306.8195724

7389.500457 7007.087412 212.7704162 212.7704162

7407.52273 7430.06467 0 301.5066334

7212.500884 6913.014176 265.567788 265.567788

7534.598928 7425.148753 283.5282173 283.5282173

7534.598928 7389.102923 88.77640452 88.77640452

7534.598928 7407.113473 410.5109621 410.5109621

0 7212.10011 410.5109621 0

Langkah berikutnya menentukan letak cluster baru dengan cara membandingkan


antara dua cluster ,nilai minimum merupakan nilai pilihan.jika ditemukan nilai
yang paling kecil maka dapat di masukkan kedalam cluster tersebut.untuk jelasnya
dapat dilihat pada tabel dibawah ini.

Tabel 7.penentuan cluster baru literasi 2

NO KABUPATEN SEMBUH MENINGGAL CLASS


1 KAB.KOLAKA 1940 38 1

2 KAB.KONAWE 1544 72 3

3 KAB.MUNA 585 35 1

4 KAB.BUTON 323 26 3

5 KOTA KENDARI 7534 95 2

6 BAU-BAU 2144 49 3

7 KONAWE SELATAN 1086 35 3

8 KOLAKA UTARA 1154 33 3

9 WAKATOBI 429 27 3

10 BOMBANA 548 21 3

11 KONAWE UTARA 527 13 3

12 BUTON UTARA 104 17 3

13 KOLAKA TIMUR 621 34 3

14 KONAWE KEPULAUAN 109 1 3

15 MUNA BARAT 145 9 3

16 BUTON SELATAN 127 7 3

17 BUTON TENGAH 322 10 1

4.Hasil

Cluster 1 =3
Cluster 2 = 1
Cluster 3 = 13
5.kesimpulan

Data tersebut diolah menggunakan k means untuk menentukan kelompok daerah


yang aman dan tidak aman .maka dapat disimpulkan sebagai berikut:
I. Menerapkan metoe clusteringdapat menentukan daerah aman dan tidak
aman di sulawesi tenggara.
II. Penerapan metode k means dengan mnggunkan bantuan exel mengahasilkan
data daerah yang aman sehingga dapat menentukan daerah yang merupakan
aman di tempati.
DAFTAR PUSTAKA

Agusta, Y. 2021. clustering. https://yudiagusta.wordpress.com/clustering/ .

Mulyawan, R. 2021. Mengenal Pengertian Data Mining. https://rifqimulyawan.com/blog/pengertian-


data-mining/amp/ .

M, Y. 2019. Memahami Apa Itu Data Mining?. https://accounting.binus.ac.id/2019/10/03/memahami-


apa-itu-data-mining/ .

Turban, E. 2005. Decision Support Systems and Inteligent Systems Edisi Bahasa Indoneia Jilid 1.
Andi:yogyakarta.

Larose, Daniel T. 2005. Discovering Knowledge in Data : An Introduction to Data Mining. John Willey &
Sons, Inc.

Ayyad, Usama. 1996. Advances in Knowledge Discovery and Data Mining. MIT Press.

Informatikalogi. 2021. Algoritma K-Means Clustering. https://informatikalogi.com/algoritma-k-means-


clustering/ .

Anda mungkin juga menyukai