Anda di halaman 1dari 6

ANALISIS DATA RAWAT INAP RUMAH SAKIT KOTA SEMARANG

UNTUK MENGETAHUI DAERAH ENDEMI PENYAKIT


MENGGUNAKAN ALGORITMA K-MEANS

Fitra Wahyu Putri


Teknik Informatika (S1), Fakultas Ilmu Komputer
Universitas Dian Nuswantoro
111201105977@mhs.dinus.ac.id

ABSTRACT
Finding patterns of information and valuable knowledge of the data on a very large database called data
mining. One popular algorithm in data mining technique is the K-Means algorithm. While the discovery of
relationships between item sets pattern combinations used Cluster Rules (Rule Clustering).
Data mining has been implemented every related fields, including health, business or trade, education, and
telecommunications. In the health sector for example the results of the implementation of data mining using
the K-Means algorithm can help medical in policy decisions related to any health institution.

Key Words : Data Mining, Clustering, K-Means, Medical Record, Endemic Diseases, Levenshtein
Distance.

ABSTRAK
Mencari pola informasi dan pengetahuan yang berharga dari suatu data pada database yang sangat besar
disebut dengan data mining. Salah satu algoritma yang popular pada teknik data mining adalah algoritma
K-Means. Sedangkan dalam penemuan pola kombinasi hubungan antar itemsets digunakan Cluster Rules
(Aturan Clustering). Data mining telah diimplementasikan keberbagai bidang, diantaranya bidang
kesehatan, bisnis atau perdagangan, pendidikan, dan telekomunikasi. Di bidang kesehatan misalnya hasil
implementasi data mining menggunakan algoritna K-Means dapat membantu para medis dalam kebijakan
pengambilan keputusan terhadap apa yang berhubungan dengan institusi kesehatan.

Kata Kunci : Data Mining, Clustering, K-Means, Rekam Medis, Endemi Penyakit, Jarak Levenshtein.

I. PENDAHULUAN dapat menangani ratusan pasien baik yang rawat


jalan atau rawat inap. Oleh karena itu, Knowledge
Rumah sakit adalah institusi perawatan kesehatan
Management System sangat dibutuhkan untuk
profesional yang pelayanannya ditangani oleh
mendukung pekerjaan tenaga medis dalam
dokter, perawat dan tenaga ahli kesehatan
menangani pasien dan membantu manajerial
lainnya. Rumah sakit sangat berperan dalam
dalam pengambilan keputusan, sehingga
kehidupan masyarakat terutama di bidang
kesalahan dalam penanganan dapat dihindari.
kesehatan. Dalam sehari, rumah sakit daerah
Salah satu bagian dari Knowledge Management II. METODE
System yaitu Sistem Informasi Manajemen
Teknik data mining di dunia kesehatan bukanlah
Rumah Sakit (SIMRS). Peraturan Menteri
hal yang baru. Potensi data mining dalam dunia
Kesehatan Republik Indonesia Nomor 82 Tahun
kesehatan sudah diakui secara luas dan menarik
2013 pasal 1:2, menjelaskan bahwa Sistem
[1]. Banyak studi yang dilakukan menggunakan
Informasi Manajemen Rumah Sakit yang
teknik data mining modern, seperti klasifikasi dan
selanjutnya disingkat SIMRS adalah suatu sistem
prediksi data mining. Data mining memiliki
teknologi informasi komunikasi yang memproses
potensi untuk mempengaruhi kesehatan
dan mengintegrasikan seluruh alur proses
masyarakat dalam berbagai cara dari pribadi, obat
pelayanan rumah sakit dalam bentuk jaringan
genetik, studi kesehatan lingkungan dan
koordinasi, pelaporan dan prosedur administrasi
epidemiologi [2].
untuk memperoleh informasi secara tepat dan
akurat, dan merupakan bagian dari Sistem Cross-Industry Standard Process for Data
Informasi Kesehatan. SIMRS ini dirancang untuk Mining (CRISP-DM) yang dikembangkan tahun
mengelola semua proses manual dari A-Z
1996 oleh beberapa analis dari beberapa industri
diproses dan dikonversikan secara elektronik dan (DaimlerChrysler, SPSS, dan NCR),
realtime dari pelayanan registrasi, rekam medis, menyediakan standard proses data mining
rawat jalan, billing, farmasi, inventori, keuangan, sebagai strategi pemecahan masalah secara
rawat inap, dsb yang secara keseluruhan akan umum dari bisnis atau unit penelitian.
menghasilkan output pelayanan yang prima dan
cepat. Dalam CRISP-DM, sebuah proyek data mining
Data-data penyakit pasien rawat inap dan data memiliki siklus hidup yang terbagi menjadi enam
alamat pasien dapat diolah lagi menggunakan fase. Seluruh fase saling berhubungan dan
teknik data mining untuk mencari tahu daerah bersifat adaptif. Fase berikutnya bergantung pada
mana saja yang membutuhkan penyuluhan dan keluaran dari seluruh fase sebelumnya. Enam
program-program khusus. Data mining fase CRISP-DM [3] :
dibutuhkan untuk mendukung pengambilan
1. Fase Pemahaman Bisnis
keputusan ditingkat manajerial karena akses ke
2. Fase Pemahaman Data
database dalam ukuran besar dan dimensi yang
3. Fase Pengolahan Data
lebih kompleks membutuhkan waktu yang cukup
4. Fase Pemodelan
lama dalam mengolahnya secara manual.
5. Fase Evaluasi
Dengan mengetahui atribut penentu jenis 6. Fase Penyebaran
penyakit pasien rawat inap diharapkan pihak
manajemen rumah sakit dapat melakukan kontrol
terhadap daerah dengan penyakit-penyakit yang
butuh penanganan khusus sehingga prosentase
pasien dengan penyakit endemi di daerah tersebut
dapat di tekan dan rumah sakit juga dapat
mempersiapkan peralatan bila terjadi pelonjakan
penyakit tertentu. Endemi adalah penyakit yang
berjangkit disuatu daerah atau pada suatu
golongan masyarakat (Kamus Besar Bahasa
Indonesia).
data yang lebih jauh (berbeda) dari data yang lain
akan berpisah dalam kelompok yang berbeda.

a. Data sebelum b. Data setelah


pengelompokan pengelompokan

Gambar 2.2. Pengelompokan prestasi mahasiswa

Pada Gambar 2.2 (b), dapat diamati ada 3


Gambar 2.1 Enam Fase CRISP-DM kelompok mahasiswa yaitu kelompok mahasiswa
dengan SKS sedikit dan IPK tinggi (simbol x),
K-Means Clustering adalah salah satu algoritma kelompok mahasiswa dengan SKS tinggi dan IPK
supervised learning yang menerima masukan rendah (simbol •) dan kelompok mahasiswa
berupa data tanpa label kelas. Algoritma K- dengan SKS dan IPK rendah (simbol ᴼ) [4].
Means mengelompokkan data yang menjadi
masukkannya tanpa mengetahui terlebih dahulu Untuk pengelompokan data berdasarkan
target kelasnya ke dalam beberapa kelompok. kemiripan/ketidakmiripan antar-data tanpa ada
Pada setiap cluster terdapat titik pusat (centroid) label kelas yang diketahui sebelumnya disebut
yang merepresentasikan cluster tersebut. pembelajaran tidak terbimbing atau unsupervised
learning. Untuk penanganan data pembelajaran
Adanya data set yang akan diolah dalam data tidak terbimbing dapat menggunakan metode
mning belum diketahui kelas labelnya. Misalnya clustering. Tujuan dari clustering adalah
dalam kasus data catatan akademik, diketahui meminimalkan jarak di dalam cluster dan
nilai IPK yang didapat dan jumlah SKS yang memaksimalkan jarak antar cluster [5].
sudah ditempuh. Di awal sebelum proses
penggunaan metode data mining, belum Algoritma K-Means merupakan algoritma
diketahui label dari kelompok mahasiswa pengelompokan iterative yang melakukan
tersebut, seperti pada gambar 2.2 (a). pengelompokan data set ke dalam sejumlah K
Pengelompokan data dilakukan dengan cluster yang sudah ditetapkan di awal. Algoritma
menggunakan algoritma yang sudah ditentukan K-Means sederhana untuk diimplementasikan
dan selanjutnya data akan diproses dengan dan dijalankan, relative cepat, mudah
algoritma untuk dikelompokkan menurut beradaptasi, umum penggunaannya dalam
karakteristik alaminya. Tidak ada unsur praktek (Wu dan Kumar, 2009).
pembimbingan (denga pemberian label kelas),
melainkan algoritma akan berjalan dengan Secara historis, bentuk esensial K-Means
sendirinya untuk mengelompokkan data tersebut. ditemukan oleh sejumlah peneliti dari lintas
Data yang lebih dekat (mirip) dengan data lain disiplin ilmu. Yang paling berpengaruh adalah
akan berkelompok dalam satu cluster, sedangkan Lloyd (1982), Forgey (1965), Friedman dan
Rudin (1967), dan McQueen (1967). Algoritma kanan bawah menjadi nilai edit distance yang
K-Means berkembang menjadi algoritma hill- menggambarkan jumlah perbedaan dua string [6].
climbing [4].
III. HASIL DAN PEMBAHASAN
K-Means dapat diterapkan pada data yang
Dari data rekam medis pasien rawat inap Rumah
dipresentasikan dalam r-dimensi ruang tempat.
Sakit Kota Semarang, diperoleh 13797 record
K-Means mengelompokan set data r-dimensi,
data. Setelah dilakukan proses selection &
X={xi|i=1, …, N}, dimana xi є Rd. Menggunakan
cleaning, diperoleh 6807 data yang memenuhi
pendekatan partitional clustering. Tiap cluster
syarat untuk diolah dalam proses mining
dihubungkan dengan sebuah centroid (titik
selanjutya.
pusat). Tiap titik ditempatkan ke dalam cluster
dengan centroid terdekat. Jumlah cluster, K, Dalam penelitian ini telah ditentukan akan
harus ditentukan [5]. terbentuk 5 cluster yang nantinya digunakan
untuk penarikan kesimpulan.
Levenshtein distance dibuat oleh Vladimir
Levenshtein pada tahun 1965. Hasil perhitungan Sebagai sample diambil 20 data untuk dataset
edit jarak didapatkan dari matrik yang digunakan yang akan dicoba secara manual.
untuk menghitung jumlah perbedaan string antar
dua string (string A dan string B) [6].

Gambar 3.1 Sample data (20 dataset)

Dari 20 dataset tersebut di dapatkan hasil


centroid awal masing-masing cluster adalah :

 Cluster pertama (C0)= [0.25; 0.75; 0; 0; …; 0]


 Cluster kedua (C1) = [0; 0.5; 0.5; 0; …; 0]
 Cluster ketiga (C2) = [0.25; 0.75; 0; 0; …; 0]
Gambar 2.3 Algoritma Levenshtein Distance
 Cluster keempat (C3)= [0.5; 0.25; 0.25; 0; …;
Algoritma ini dimulai dari pojok kiri atas sebuah 0]
array dua dimensi yang telah diisi sejumlah  Cluster kelima (C4)= [0.5; 0.25; 0.25; 0; …;
karakter string awal dan string target yang
nantinya diberi nilai cost. Nilai cost pada ujung 0]
Lalu dilakukan perhitungan jarak dengan daerah endemi pedurungan, banyak
euclidieancedistance. menyerang usia anak-anak (0-12 tahun) dan
jenis kelamin perempuan.
 Cluster kedua (C1) memiliki karakteristik
tipe penyakit A01.0 (typhoid fever) dengan
daerah endemi tembalang, banyak
menyerang usia anak-anak (0-12 tahun) dan
jenis kelamin laki-laki.
 Cluster ketiga (C2) memiliki karakteristik
tipe penyakit A04.9 (bacterial intestinal
infection) dengan daerah endemi semarang
selatan, banyak menyerang usia anak-anak
(0-12 tahun) dan jenis kelamin laki-laki
 Cluster keempat (C3) memiliki karakteristik
tipe penyakit A01.0 (typhoid fever) dengan
Gambar 3.2 Hasil perhitungan jarak iterasi
daerah endemic semarang selatan, banyak
pertama
menyerang usia muda (13-25 tahun) dan jenis
Dari jarak masing-masing centroid data kelamin perempuan.
dikelompokkan kedalam 5 cluster sesuai dengan  Cluster kelima (C4) memiliki karakteristik
hasil perhitungan jarak tersebut. Cluster dengan tipe penyakit A04.9 (bacterial intestinal
jarak terendah adalah cluster untuk data tersebut. infection) dengan daerah endemi tembalang,
Hasil dari iterasi pertama : banyak menyerang usia anak-anak (0-12
tahun) dan jenis kelamin laki-laki
 Pada cluster pertama (C0) memiliki jumlah
anggota 5 data, yaitu pada data ke M3, M6, Hasil dari clustering tersebut dihitung lagi tingkat
M11, M16, M17. kemiripan penyakit hasil cluster dengan penyakit
 Pada cluster kedua (C1) memiliki jumlah endemi pada database. Dengan menggunakan
anggota 3 data, yaitu pada data ke M2, M7, algoritma Levenshtein Distance diperoleh hasil
M12. penyakit A01.0 (typhoid fever) merupakan
 Pada cluster ketiga (C2) memiliki jumlah penyakit endemi dengan kemiripan >75% dan
anggota 2 data, yaitu pada data ke M8, M16. penyakit A04.9 (Bacterial intestinal infection)
 Pada cluster keempat (C3) memiliki jumlah bukan merupakan penyakit endemi karena
anggota 5 data, yaitu pada data ke M1, M4, kemiripan dengan penyakit endemic <75%.
M9, M13, M14. IV. KESIMPULAN
 Pada cluster kelima (C4) memiliki jumlah
anggota 6 data, yaitu pada data ke M5, M10, Hasil dari penelitian menggunakan 20 dataset
M15, M18, M19, M20. menghasilkan 4 cluster yang memberi
kesimpulan bahwa daerah Pedurungan,
Dalam perhitungan 20 dataset ini proses
Tembalang, dan Semarang Selatan adalah daerah
clustering membentuk 5 iterasi hingga diperoleh endemi untuk penyakit Typhoid Fever. Hasil
nilai centroid dengan jarak yang sama. Hasil statistik clustering menunjukkan dari empat
cluster tersebut adalah :
cluster, dua diantaranya menunjukkan daerah
 Cluster pertama (C0) memiliki karakteristik Semarang Selatan sebagai daerah endemi
tipe penyakit A01.0 (typhoid fever) dengan penyakit dengan karakteristik masing-masing.
V. REFERENSI

[1] Kulikowski, C. A. (2002). The micro-


macro spectrum of medical informatics
challenges : From molecular medicine to
transforming health care in a globalizing
society. Methods of Information in
Medicine; 41(1), 20-24.
[2] Stephanie, J. Hickey. (2013). Naïve
Bayes Classification of Public Health
Data with Greedy Feature Selection,
USA : Iona College.
[3] Kusrini., & Luthfi, Emha Taufiq. (2009).
Algoritma Data Mining. Andi Offset:
Yogyakarta.
[4] Prasetyo, Eko. Data Mining “Mengolah
Data Menjadi Informasi Menggunakan
MATLAB”. Andi Offset : Yogyakarta.
[5] Larose, Daniel T. (2005). Discovering
knowledge in data an introduction to
Data Mining. A John Willey & Sons, Inc:
United State.
[6] Adriyani, Ni Made Muni.,dkk.
Implementasi Algoritma Levenshtein
Distance Dan Metode Empiris Untuk
Menampilkan Saran Perbaikan
Kesalahan Pengetikan Dokumen
Berbahasa Indonesia. Unversitas
Udayana: Fakultas Matematika dan Ilmu
Pengetahuan Alam.

Anda mungkin juga menyukai