Anda di halaman 1dari 10

Klasterisasi Kasus Penyakit Malaria di Indonesia pada Tahun

2013-2015 Berdasarkan Provinsi Menggunakan


Algoritma K-Means

Disusun Oleh :

Hasiholan Matondang
Bahagia Elfrando Nababan
Dharma Bakti Situmorang
Rosaima Situmorang
Vriska Amanda
Siti Khairunnisa

KECERDASAN BISNIS
PROGRAM STUDI SISTEM INFORMASI
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS BUDI DARMA
1. Dataset

Data kasus penyakit malaria merupakan dataset yang bersumber dari BPS ( Badan Pusat
Statistik ) . Dataset ini meliputi kasus penyakit malaria di Indonesia dari tahun 2013 hingga
2015 di setiap provinsi yang ada. Pada kesempatan ini kami akan mengklasifikasi kasus
penyakit malaria berdasarkan provinsi di Indonesia.

2. K-mean

Kami menggunakan metode K-mean sebagai metode klasifikasi klustering pada kasus malaria
berdasarkan provinsi di Indonesia. Berikut kami paparkan penjelasan apa itu k-mean dan cara
penyelesain yang dapat dilakukan menggunakan k-mean.

K-means adalah salah satu metode klastering atau pengelompokan data dalam statistik dan ilmu
komputer. Tujuannya adalah untuk membagi kumpulan data menjadi beberapa kelompok atau
klaster berdasarkan kemiripan antar data.
Metode ini bekerja dengan cara mengelompokkan data ke dalam sejumlah klaster yang
telah ditentukan sebelumnya. Setiap data akan ditempatkan pada klaster yang memiliki pusat
tertentu. Pusat klaster dihitung dengan mengambil rata-rata aritmatika dari semua data pada
klaster tersebut.
Algoritma k-means bekerja dengan langkah-langkah sebagai berikut:
1. Menentukan jumlah klaster yang diinginkan
2. Memilih titik-titik awal yang akan menjadi pusat klaster
3. Menempatkan setiap data pada klaster yang terdekat dengan pusat klaster
4. Menghitung ulang pusat klaster dengan mengambil rata-rata dari data-data pada klaster
tersebut
5. Mengulangi langkah 3 dan 4 sampai tidak ada lagi data yang berpindah klaster atau telah
mencapai batas iterasi yang ditentukan.
Tujuan utama dari k-means adalah untuk meminimalkan jarak antara setiap data pada
klaster dan pusat klaster, serta memaksimalkan jarak antara pusat klaster yang berbeda-beda.
K-means umumnya digunakan dalam analisis data, pemrosesan citra, dan pengenalan pola.
Kami akan memulai mengklasifikan dataset yang kami miliki dengan menggunakan sebuah
tools data mining yang cukup populer yaitu RapidMiner.
3. Tools RapidMiner

RapidMiner adalah salah satu platform open-source untuk analisis data dan penambangan data
(data mining). RapidMiner menyediakan berbagai algoritma dan tool untuk melakukan
pengolahan data, seperti preprocessing data, analisis data, visualisasi data, dan modelling data.
Salah satu tool yang disediakan oleh RapidMiner adalah k-means clustering, yaitu algoritma
pengelompokan data dalam klaster dengan menggunakan metode k-means.

Berikut adalah langkah-langkah untuk menggunakan RapidMiner dan k-means clustering:


1. Buka RapidMiner dan impor data yang ingin dianalisis.
2. Tambahkan operator "Read CSV" pada canvas RapidMiner dan sambungkan dengan
operator berikutnya.
3. Tambahkan operator "k-Means" pada canvas RapidMiner dan sambungkan dengan
operator sebelumnya.
4. Atur parameter pada operator "k-Means", seperti jumlah klaster yang diinginkan, metrik
jarak, dan kriteria konvergensi.
5. Jalankan operator "k-Means" dan lihat hasilnya pada folder view.
6. Analisis hasil klastering, seperti melihat distribusi data dalam setiap klaster dan
mengidentifikasi karakteristik khusus dari setiap klaster.

Berikut adalah beberapa tips untuk memperoleh hasil klastering yang optimal:
1. Pilih jumlah klaster yang tepat. Anda dapat menggunakan teknik elbow method atau
silhouette analysis untuk menentukan jumlah klaster yang optimal berdasarkan data Anda.
2. Pilih metrik jarak yang sesuai dengan data Anda. Euclidean distance biasanya digunakan
sebagai metrik default, tetapi dalam beberapa kasus, metrik jarak lain seperti cosine
distance atau correlation distance dapat lebih cocok.
3. Periksa data outliers dan bersihkan data jika diperlukan. Outliers dapat mempengaruhi hasil
klastering dan menghasilkan klaster yang tidak bermakna atau tidak relevan.
4. Uji dan validasi hasil klastering dengan menggunakan teknik validasi seperti cross-
validation atau holdout validation.
3.1. Langkah penyelesain menggunakan RapidMiner

Berikut langkah – langkah penyelesaian klasifkasi kasus penyakit malaria menggunakan


RapidMiner dengan metode k-mean clustering :
1. Masukkan dataset kasus penyakit malaria dengan menggunakan operator “ Read Excel “ ,
Drag operator ke dalam canva agar muncul kotak seperti yang digambar

2. Kemudian, double click pada kotak operator “ Read Excel “ , supaya untuk memasukkan
dataset yang kita punya. Tekan next untuk menuju ke menu yang lainnya.
Kemudian next dan evaluasi dataset yang kita punya, seperti jika ada beragam tipe data
yang kita miliki di dalam dataset kita, kita dapat merubah nya dengan cara Change Type

Dan jika terdapat tipe data polynominal maka dapat di ganti role nya dengan cara Change
Role.

Mengubah role nya menjadi label. Kolom Provinsi sekarang memiliki role sebagai label
nanti nya ketika melakukan performance. Setelah semua kolom dataset sudah diatur maka
tekan finish.
3. Sekarang kita akan mencari operator k-mean, contoh operator k-mean yang akan dipilih
ialah seperti gambar dibawah ini.
Sebelum memasukkan operator k-mean ke canva kerja kita di rapidminer, terlebih dahulu
kita memasukkan operator Multiply . Operator ini berfungsi untuk membuat duplikat
dataset .

Setelah multiply sudah di dapat silakan di drag ke dalam canva kerja kemudian connect kan
antara read excel dengan multiply . Dan terakhir nanti nya kita akan menambahkan operator
Performance . Digunakan untuk mengukur kualitas cluster yang dihasilkan oleh model
clustering, dengan memperhitungkan jarak antara data dan pusat cluster. Operator ini
menghitung nilai distorsi (distortion) atau SSE (Sum of Squared Errors), yaitu jumlah
kuadrat jarak antara setiap data dalam suatu cluster dengan pusat clusternya.
Di bagian ini pilih operator performance di bagian segmentation yaitu Cluster Distance
Performance khusus untuk k-mean.
4. Setelah seluruh operator yang kita butuh kan siap sekarang mari kita lakukan perhitugannya
di rapidminer .

Pertama, kita melakukan uji coba dengan berbeda nilai K ( nilai banyaknya cluster yang
dibutuhkan ) pada setiap kluster nya, sebagai berikut :
Operator k-mean-1 memiliki nilai K = 2
Operator k-mean-2 memiliki nilai K = 3
Operator k-mean-3 memiliki nilai K = 4
Operator k-mean-4 memiliki nilai K = 5
Kemudian, dalam menentukan hasil atau klustering mana yang optimal dipakai sehingga
bisa didapatkan hasil yang memuaskan menggunakan Davies-Bouldin Index .
Penggunaan Davies-Bouldin Index untuk menentukan jumlah kluster yang optimal pada
data, dimana nilai DBI terkecil menunjukkan kualitas klustering yang lebih baik. Maka
didapat kan hasil DBI dari tiap kluster, ialah :

Kluster ( K ) Hasil DBI


2 0.148
3 0.417
4 0.437
5 0.340

Jadi, yang menjadi kluster optimal ialah, K = 2.


5. Setelah melakukan evaluasi dan mendapatkan kluster yang optimal, selanjutnya dilakukan
interpretasi hasil clustering.
Maka, didapat hasil kluster sebagai berikut :
Cluster 1 sebanyak 32 item
Cluster 2 sebanyak 2 item

Cluster Model ( K =2 )
Avg. within centroid distance: 2321015454.459
Avg. within centroid distance_cluster_0: 2369111570.784
Avg. within centroid distance_cluster_1: 1551477593.250
Davies Bouldin: 0.148

Cluster 1 merupakan provinsi yang tergolong pada tingkat menengah kebawah dalam kasus
penyakit malaria dalam kurung waktu 3 tahun ( 2013, 2014, 2015) , sedangkan
Cluster 2 merupakan provinsi yang tergolong pada tingkat menengah keatas dalam kasus
penyakit malaria dalam kurung waktu 3 tahun. Terdapat 2 provinsi yang termasuk didalam
cluster 2 yaitu : Nusa Tenggara Timur dan Papua Barat.

4. Kesimpulan

Berdasarkan hasil klastering di atas, dapat disimpulkan bahwa terdapat dua kelompok provinsi
dalam hal kasus penyakit malaria dalam kurun waktu tiga tahun (2013-2015). Kelompok
pertama (Cluster 1) terdiri dari 32 provinsi yang tergolong pada tingkat menengah kebawah
dalam kasus penyakit malaria, sedangkan kelompok kedua (Cluster 2) hanya terdiri dari 2
provinsi, yaitu Nusa Tenggara Timur dan Papua Barat, yang tergolong pada tingkat menengah
keatas dalam kasus penyakit malaria.
Dari hasil evaluasi DBI yang mendekati nol, dapat disimpulkan bahwa kualitas
klastering pada data ini cukup baik. Namun, perlu diingat bahwa pengelompokan ini hanya
berdasarkan pada data kasus penyakit malaria dan perlu dilakukan evaluasi lebih lanjut dengan
mempertimbangkan faktor-faktor lain seperti faktor lingkungan, sosial, dan geografis untuk
mendapatkan hasil klastering yang lebih baik dan lebih bermakna.
Berdasarkan hasil klastering ini, disarankan agar pihak-pihak yang terkait, seperti
pemerintah, dinas kesehatan, dan masyarakat, dapat lebih memperhatikan kesehatan dan upaya
pencegahan penyakit malaria di provinsi yang tergolong pada kelompok pertama (Cluster 1).
Selain itu, pihak terkait juga dapat melakukan analisis lebih lanjut terhadap faktor-faktor yang
memengaruhi tingkat kasus penyakit malaria di masing-masing provinsi, sehingga dapat
dilakukan upaya pencegahan yang lebih efektif dan efisien. Oleh karena itu, saran yang dapat
diberikan adalah perlu dilakukan tindakan preventif dan penanganan lebih intensif terhadap
kasus penyakit malaria di provinsi-provinsi yang termasuk dalam cluster 1. Sedangkan untuk
provinsi-provinsi yang termasuk dalam cluster 2, perlu dilakukan evaluasi dan perbaikan pada
program-program pengendalian penyakit malaria yang sudah dilakukan.

Anda mungkin juga menyukai