Anda di halaman 1dari 6

ANALISIS KLASTERING K-MEANS UNTUK Kota Yang Terjangkit DBD Berdasarkan Provinsi

Yandi Anzari (230 1162 035)


School of Computing, Telkom University
Yandianzari.ya@gmail.com

 Australia, Pasifik Selatan dan Pasifik


1. Introduction Tengah.
Demam berdarah dengue (DBD) adalah
penyakit menular yang disebabkan oleh Berdasarkan data yang bersumber dari
virus dengue yang dibawa oleh nyamuk. Ditjen PP dan PL serta Kementrian dan
Demam berdarah DBD dulu disebut Kesehatan RI pada tahun 2013. Terdapat
penyakit “break-bone” karena kadang beberapa kota pada setiap provinsi yang
menyebabkan nyeri sendi dan otot di terjangkit DBD setiap tahun nya.
mana tulang terasa retak. Demam
berdarah ringan menyebabkan demam Data Mining adalah proses yang
tinggi, ruam, dan nyeri otot dan sendi. menggunakan teknik statistik,
Demam berdarah yang parah, atau juga matematika, kecerdasan buatan, machine
dikenal sebagai dengue hemorrhagic learning untuk mengekstraksi dan
fever, dapat menyebabkan perdarahan mengidentifikasi informasi yang
serius, penurunan tekanan darah yang bermanfaat dan pengetahuan yang terkait
tiba-tiba (shock), dan kematian. dari berbagai database besar. Data mining
mempunyai fungsi yang penting untuk
Hingga saat ini belum ada penanganan membantu mendapatkan informasi yang
yang spesifik untuk demam berdarah. berguna serta meningkatkan pengetahuan
Namun, vaksin demam berdarah telah bagi pengguna. Salah satu fungsi dari data
dikembangkan oleh WHO pada bulan April mining adalah klasifikasi. Sedangkan salah
2016. Vaksin tersebut berfungsi untuk satu proses yang umum di gunakan dalam
mencegah terjadinya fase ke-2 demam data mining salah satu nya adalah
berdarah. klastering.
Jutaan kasus infeksi DBD terjadi setiap
Clustering merupakan pengelompokan
tahunnya bukan hanya di Indonesia, akan data tanpa berdasarkan kelas data
tetapi juga di seluruh dunia. Kondisi ini tertentu ke dalam kelas objek yang sama.
dapat terjadi pada pasien dengan usia Sebuah kluster adalah kumpulan record
berapapun. Demam berdarah dengue yang memiliki kemiripan suatu dengan
paling banyak ditemui selama musim yang lainnya dan memiliki ketidakmiripan
hujan dan setelah musim hujan di area dengan record dalam kluster lain.
tropis dan subtropics, antara lain : Tujuannya adalah untuk menghasilkan
pengelompokan objek yang mirip satu
 Afrika
sama lain dalam kelompok-kelompok.
 Asia Tenggara dan China
Semakin besar kemiripan objek dalam
 India
suatu cluster dan semakin besar
 Timur Tengah
perbedaan tiap cluster maka kualitas
 Karibia, Amerika Tengah dan Amerika
analisis cluster semakin baik. Salah satu
Selatan
metode klastering yang sering digunakan Syarat Clustering
adalah K-Means.
Menurut Han dan Kamber, 2012, syarat
K-Means Clustering merupakan salah sekaligus tantangan yang harus dipenuhi
satu metode yang dapat digunakan untuk oleh suatu algoritma clustering adalah:
membagi sejumlah objek ke dalam partisi- 1. Skalabilitas
partisi berdasarkan kategori-kategori yang Suatu metode clustering harus
ada dengan melihat titik tengah yang mampu menangani data dalam
diberikan. Peng-cluster-an objek dilihat jumlah yang besar. Saat ini data
dari jarak objek dengan titik tengah yang dalam jumlah besar sudah sangat
paling dekat. Setelah mengetahui titik umum digunakan dalam berbagai
tengah terdekat, objek tersebut akan bidang misalnya saja suatu
diklasifikasikan sebagai anggota dari database. Tidak hanya berisi
kategori tersebut. Terdapat beberapa ratusan objek, suatu database
algoritma untuk menyempurnakan K- dengan ukuran besar bahkan berisi
Means, antara lain, K-means++, Kmedoids, lebih dari jutaan objek.
Bisection K-means serta mini batch
Kmeans. Dengan memanfaatkan data 2. Kemampuan analisa beragam
mining serta metode klastering bentuk data
diharapkan akan mempermudah pihak Algortima klasteriasi harus mampu
yang berkepentingan terutama dimplementasikan pada berbagai
Kementrian dan Kesehatan RI agar dapat macam bentuk data seperti data
segera melakukan penanggulangan pada nominal, ordinal maupun
provinsi yang banyak terjangkit DBD. gabungannya.

II. K-Means 3. Menemukan cluster dengan


bentuk yang tidak terduga
A. Clustering Banyak algoritma clustering yang
Clustering merupakan proses partisi menggunakan metode Euclidean
satu set objek data ke dalam himpunan atau Manhattan yang hasilnya
bagian yang disebut dengan cluster. Objek berbentuk bulat. Padahal hasil
yang di dalam cluster memiliki kemiripan clustering dapat berbentuk aneh
karakteristik antar satu sama lainnya dan dan tidak sama antara satu dengan
berbeda dengan cluster yang lain. Partisi yang lain. Karenanya dibutuhkan
tidak dilakukan secara manual melainkan kemampuan untuk menganalisa
dengan suatu algoritma clustering. Oleh cluste dengan bentuk apapun pada
karena itu, clustering sangat berguna dan suatu algoritma clustering.
bisa menemukan group atau kelompok
yang tidak dikenal dalam data. Clustering 4. Kemampuan untuk dapat
banyak digunakan dalam berbagai aplikasi menangani noise
seperti misalnya pada business Data tidak selalu dalam keadaan
intelligence, pengenalan pola citra, web baik. Ada kalanya terdapat data
search, bidang ilmu biologi, dan untuk yang rusak, tidak dimengerti atau
keamanan (security). Di dalam business hilang. Karena system inilah, suatu
inteligence, clustering bisa mengatur algortima clustering dituntut untuk
banyak customer ke dalam banyaknya mampu menangani data yang
kelompok rusak.
5. Sensitifitasterhadap perubahan mirip di hirarki yang agak jauh. Ada dua
input metode yang sering diterapkan
Perubahan atau penambahan data yaitu agglomerative hieararchical
pada input dapat menyebabkan clustering dan divisive hierarchical
terjadi perubahan pada cluster yang clustering. Agglomerative melakukan
telah ada bahkan bisa proses clustering dari N cluster menjadi
menyebabkan perubahan yang satu kesatuan cluster, dimana N adalah
mencolok apabila menggunakan jumlah data, sedangkan divisive
algoritma clustering yang memiliki melakukan proses clustering yang
tingkat sensitifitas rendah. sebaliknya yaitu dari satu cluster
6. Mampu melakukan clustering menjadi N cluster. Beberapa metode
untuk data dimensi tinggi hierarchical clustering yang sering di
Suatu kelompok data dapat berisi gunakan dibedakan menurut cara mereka
banyak dimensi ataupun atribut. untuk menghitung tingkat kemiripan. Ada
Untuk itu diperlukan algoritma yang menggunakan Single Linkage,
clustering yang mampu menangani Complete Linkage, Average Linkage,
data dengan dimensi yang Average Group Linkage dan lain-lainnya.
jumlahnya tidak sedikit. Seperti juga halnya dengan partition-
7. Interpresasi dan kegunaan based clustering, kita juga bisa memilih
Hasil dari clustering harus dapat jenis jarak yang digunakan untuk
diinterpretasikan dan berguna. menghitung tingkat kemiripan antar data.

Ada beberapa pendekatan yang


digunakan dalam mengembangkan
metode clustering. Dua pendekatan
utama adalah clustering dengan
pendekatan partisi dan clustering dengan
pendekatan hirarki. Clustering dengan
pendekatan partisi atau sering disebut
dengan partition-based
clustering mengelompokkan data dengan
memilah-milah data yang dianalisa ke Salah satu cara untuk mempermudah
dalam cluster-cluster yang ada. Clustering pengembangan dendogram untuk
dengan pendekatan hirarki atau sering hierarchical clustering ini adalah dengan
disebut dengan hierarchical clustering membuat similarity matrix yang memuat
mengelompokkan data dengan membuat tingkat kemiripan antar data yang
suatu hirarki berupa dendogram dimana dikelompokkan. Tingkat kemiripan bisa
data yang mirip akan ditempatkan pada dihitung dengan berbagai macam cara
hirarki yang berdekatan dan yang tidak seperti dengan Euclidean Distance Space.
pada hirarki yang berjauhan. Berangkat dari similarity matrix ini, kita
bisa memilih lingkage jenis mana yang
1. Clustering dengan Pendekatan akan digunakan untuk mengelompokkan
Hirarki data yang dianalisa.

Clustering dengan pendekatan hirarki 2. Partition based clastering


dalam mengelompokkan data yang mirip Metode ini mengelompokkan data
dalam hirarki yang sama dan yang tidak kedalam klaster-klaster dimana tiap
klaster harus berisi paling sedikit satu 5. Kembali ke Step 3, apabila masih ada
objek dan tiap objek hanya merupakan data yang berpindah cluster atau
anggota dari satu klaster. Contoh : k- apabila perubahan nilai centroid, ada
Means, Fuzzy C-Means (FCM), k-Medoids, yang di atas nilai threshold yang
CLARA, CLARANS, PAM ditentukan atau apabila perubahan
nilai pada objective function yang
digunakan di atas nilai threshold yang
ditentukan

B. K-Means
K-means merupakan salah satu
algoritma clustering yang dapat digunakan
untuk membagi sejumlah objek ke dalam
partisi-partisi berdasarkan kategori- Distance space digunakan untuk
kategori yang ada dengan melihat titik menghitung jarak antara data dan
tengah yang diberikan. Peng-cluster-an centroid. Adapun persamaan yang dapat
objek dilihat dari jarak objek dengan titik digunakan salah satunya yaitu Euclidean
tengah yang paling dekat. Setelah Distance Space. Euclidean distance
space sering digunakan dalam
mengetahui titik tengah terdekat, objek
perhitungan jarak, hal ini dikarenakan
tersebut akan diklasifikasikan sebagai hasil yang diperoleh merupakan jarak
anggota dari kategori tersebut. Tujuan terpendek antara dua titik yang
algoritma ini yaitu untuk membagi data diperhitungkan. Adapun persamaannya
menjadi beberapa kelompok. Algoritma adalah sebagai berikut :
ini menerima masukan berupa data tanpa
label kelas

Secara umum algoritma dasar dari K-


Means Clustering adalah sebagai berikut :
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam cluster secara III. Eksperiment
random 1. Persiapan data
3. Hitung centroid/rata-rata dari data
Data yang akan digunakan pada studi
yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke kasus ini yaitu data jumlah kota penderita
centroid/rata-rata terdekat DBD untuk semua provinsi di Indonesia
ditahun 2010-2012, data ini didapat dari
Kementrian dan Kesehatan RI pada tahun
2013. Berikut ini sajian data yang
digunakan dalam studi kasus :

2. Coding
Proses pembuatan K-means ini memakai
Bahasa pemprograman python, berikut ini
sebagian source code.

IV. Hasil dan Kesmpulan


Hasil dari source code yang dibuat didapat
kan data yang sudah terkelompok berikut
dengan klasternya, pada percobaan ini
memakai 3 klaster, yag mana klaster yang
diambil secara acak dari data yang ada,
berikut tampilan dari hasil yang telah ada.
Figure 1 : plot data

Figure II: klaster K-Means

Dengan memanfaatkan data mining pada


proses klastering telah didapatkan data data
yang dalam bentuk excel secara terkelompok
berdasarkan jarak terdekat data tersebut
dengan klaster yang diambil secara acak oleh
system.

Anda mungkin juga menyukai