Anda di halaman 1dari 10

Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan

Teknik Data Mining Attribute Importance (AI) dan Algoritma Naive Bayes
Furqonuddin Ramdhani, Agus Mutamakin

Abstrak

Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk
mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan
transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke
database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data
mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam
ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.

Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut
penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit
dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas
pelayanan.

Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto
Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak
2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan
atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15),
prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08),
jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan
model yang dibuat memiliki predictive confidence sebesar 50,41%.

Keyword : SIMRS, data mining, biaya rawat, rawat inap


I. Pendahuluan

Perkembangan teknologi informasi yang pesat terutama di


sektor kesehatan memungkinkan data dalam jumlah besar
terakumulasi dengan cepat. Saat ini berbagai rumah sakit
sudah mulai menerapkan sistem informasi rumah sakit
berbasis komputer untuk mendukung manajemen
keuangan (khususnya billing systems) [1]. Untuk rumah
sakit yang sudah mapan sistem informasinya bahkan
mulai memperluas kebutuhannya untuk membangun
sistem informasi klinik.

Pertumbuhan yang pesat dari akumulasi data itu telah


menciptakan kondisi yang sering disebut sebagai “rich of
data but poor of knowledge”, karena data yang terkumpul
itu hanya digunakan untuk kebutuhan operasional saja,
bahkan tidak jarang kumpulan data itu dibiarkan begitu Gambar 1. Evolusi teknologi sistem database
saja seakan-akan menjadi “kuburan data” (data tombs).
Menurut Friedman[4] ada beberapa definisi dari data
Untuk melakukan analisa data dalam jumlah besar yang mining. Dikumpulkan dari berbagai literatur data mining
tersimpan pada database, biasanya digunakan teknik data antara lain sebagai berikut:
mining. Meski telah umum digunakan pada industri
keuangan dan telekomunikasi, teknik data mining mulai • Data mining adalah proses ekstraksi sebelumnya

diterapkan secara intensif di sektor kesehatan. Sebagai tidak dikenal dan dipahami dari database berukuran

contoh, Mayo Clinic bekerja sama dengan IBM besar dan digunakan untuk membuat keputusan bisnis

menerapkan teknik data mining pada pasien dengan yang penting. - Zekulin.

kesamaan jenis kelamin, usia dan riwayat kesehatan untuk • Data mining adalah serangkaian metode yang
mengetahui respon terhadap pengobatan tertentu .[2] digunakan dalam proses penemuan pengetahuan
untuk membedakan yang sebelumnya tidak diketahui
Teknis data mining dapat kita lihat sebagai hasil dari
baik hubungan dan pola dalam data. - Ferruzza.
evolusi alamiah teknologi informasi. Proses evolusi dalam
• Data mining adalah proses pendukung keputusan
teknologi sistem database dapat dilihat pada Gambar 1.
yang digali dari basis data berukuran besar untuk
mengetahui pola yang tidak diketahui dan tak terduga
sebelumnya pada data. - Parsaye

Potensi data mining dalam bidang kesehatan sudah diakui


secara luas. Banyak studi yang diakukan menggunakan
teknik data mining modern, antara lain classification dan
predictive yang diterapkan pada rekam medis elektronis.
Beberapa dari studi tersebut antara lain adalah sebagai
berikut :
• Teknik Classification Naïve Bayes yang diterapkan 3. Transformasi data, data diubah menjadi bentuk yang
untuk masalah seleksi embrio [6] sesuai untuk di mining;
• Teknik Decision Tree untuk mengembangkan dan
4. Aplikasi teknik data mining, proses inti dimana teknik
memvalidasi ukuran resiko stratifikasi mortalitas di
data mining diterapkan untuk mengekstrak pola-pola
rumah sakit karena dekomposisi akut gagal
tertentu pada data;
jantung(ADHF) [7]
• Neural Network untuk memprediksi pasien tertentu 5. Evaluasi pola yang ditemukan;
yang akan mengalami kegagalan dialysis peritoneal
6. Presentasi pengetahuan, menggunakan teknik
[8]
visualisasi untuk menampilkan hasil data mining kepada
• Support Vector Machines (SVM) untuk memprediksi
pengguna (user).
sumber pendarahan dan mengidentifikasi kohort pada
pasien dengan pendarahan akut gastrointestinal (GIB)
yang memerlukan intervensi mendesak, termasuk
endoskopi [9]
• Association digunakan untuk mengkonfirmasi aturan
yang akan digunakan oleh sistem pakar yang
membantu dalam diagnosis penyakit jantung dan
untuk menemukan aturan-aturan baru
untuk memperkaya pengetahuan sistem pakar [10]
• Text Mining untuk mengidentifikasi luka yang terkait
dengan luka jatuh pada orang tua [11]

Penggunan data mining diharapkan dapat membantu para


pengambil keputusan mendapatkan informasi yang lebih
akurat dan bermakna sebagai salah satu sarana untuk Gambar 2. Tahapan dalam proses data mining

meningkatkan pelayanan kesehatan kepada masyarakat.


III. Data dan Perangkat Pendukung

II. Proses Data Mining


III.1. Data

Pada bagian ini akan dijelaskan proses data mining yang


Untuk mengidentifikasi atribut-atribut penentu biaya
terdiri dari beberapa tahap yang diilustrasikan di gambar
pasien rawat inap, digunakan data kunjungan pasien rawat
2[3]:
inap RSUP Dr. Cipto Mangunkusumo dengan jaminan

1. Pembersihan data (data cleaning), untuk membersihkan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010

noise dan data yang tidak konsisten. Dalam kasus ini yang diambil dari database SIMRS sebanyak 8383

membersihkan data-data pasien yang sudah dihapus dan kunjungan pasien. Setelah dilakukan data cleaning,

identitas yang tidak lengkap (misal: umur, status marital, didapatkan 2022 kunjungan pasien yang layak untuk

pendidikan, diagnosa, dan sebagainya); dianalisa.

2. Integrasi data, penggabungan data dari berbagai


sumber;
III.2. Perangkat Lunak Bayesian Classification didasarkan pada Teorema
Bayesian. Konsep dasar teori bayes itu pada dasarnya
Untuk analisa data mining digunakan perangkat lunak
adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian
Oracle Data Miner dan database Oracle 11g.
H adalah posterior dan X adalah prior. Prior adalah
III. 3 Metode & Teknik pengetahuan kita tentang karakteristik suatu parameter
(bisa dibaca sebagai pengalaman di masa lalu atas suatu
III.3.1. Attribute Importance (AI)
parameter atau juga bisa berdasarkan teori), sedangkan
Attribute Importance (AI) memberi peringkat atribut posterior adalah karakteristik yang akan kita duga pada
dengan menghilangkan atribut yang berulang, tidak kejadian yang akan datang.
relevan, atau tidak informatif dan mengidentifikasi atribut
Teorema Bayesian berguna untuk melakukan kalkulasi
yang mungkin memiliki pengaruh yang paling tinggi
probabilitas posterior, P(H|X), dari P(H), P(X) dan
dalam membuat prediksi.
P(X|H). Teori Bayes adalah sebagai berikut :

P(H|X) = P(X|H)P(H)

P(X)

Proses classification biasanya dibagi menjadi dua fase :


learning dan test. Pada fase learning, sebagian data yang
telah diketahui kelas datanya diumpankan untuk

Gambar 3. Ilustrasi Atrribut Importance membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data
AI menggunakan algoritma Minimum Description Length lainnya untuk mengetahui akurasi dari model tersebut.
(MDL). Algoritma MDL mempertimbangkan setiap Bila akurasinya mencukupi model ini dapat dipakai untuk
atribut sebagai model prediktif sederhana dari kelas target. prediksi kelas data yang belum diketahui. [3]

Teknik AI digunakan untuk mengoptimalkan analisa


model classification dengan mengurangi atribut yang
digunakan dan akan meningkatkan kecepatan dan akurasi
saat membangun model.

III.3.2. Naive Bayes Algorithm (Classification)

Classification  adalah  proses  untuk  menemukan  model  


atau   fungsi   yang   menjelaskan   atau   membedakan   Gambar 4. Ilustrasi pemodelan teknik Classification
konsep   atau   kelas   data,   dengan   tujuan   untuk   dapat   untuk mengukur akurasi
memperkirakan   kelas   dari   suatu   objek   yang   labelnya  
III.3.3. Data Scoring
tidak   diketahui.   Model   itu   sendiri   bisa   berupa   aturan  
“jika-­‐maka”.   Dalam   teknik   classification   terdapat   Setelah model dibuat dengan aplikasi data mining, model
beberapa  algoritma  yang  bisa  digunakan  antara  lain   tersebut bisa digunakan untuk membuat prediksi dari data
decision  tree,  naive  bayes  ,  adaptive  naive  bayes,  logistic   baru yang dalam hal ini diterapkan untuk memprediksi
regression  dan  support  vector  machine.   pola biaya data kunjungan pasien. Model biasanya dibuat
dengan menggunakan data historis dari kunjungan pasien
sebelumnya. Prosesnya secara umum di ilustrasikan
sebagai berikut :

Sistem   Model  
Data   Data  
Historis   Mining  

Gambar 5. Ilustrasi Pembuatan Model

Data  
Historis  

Gambar 5. Distribusi berdasar gender

Model  
Scoring
Engine  

Data  
Prediksi  

Gambar 6. Ilustrasi Sistem Scoring

IV. Teknik Data Mining

IV.1. Persiapan Data


Gambar 6 Distribusi berdasar umur
Sebelum dilakukan teknik data mining dilakukan
eksplorasi data untuk mengetahui distribusi data pasien
berdasarkan atribut tertentu (misal: distribusi pasien
berdasar umur) dan juga untuk mengidentifikasi data yang
tidak normal (outliers). Data divisualisasikan dalam
bentuk histogram. Beberapa histogram profil kunjungan
pasien ditampilkan sebagai berikut :
Gambar 7. Distribusi berdasar unit kunjungan

Keterangan Gambar 7 :
Gambar 9. Distribusi berdasar length of stay (LOS)
178 =  A - Penyakit Dalam 105 =  A - Onkologi Obgin
Dalam studi ini data kunjungan pasien di RSCM akan
108 =  A - Bedah 121 =  Kebidanan (IGD)
diamati atribut-atribut yang akan mempengaruhi pola
173 =  A - Bedah LT 4 113 =  A - Obgin
biaya pasien yang dirawat di RSCM. Untuk biaya di buat
176 =  A - Mata 175 =  A - THT skala RENDAH, SEDANG dan TINGGI. Dengan aturan
109 =  A - Neurologi sebagai berikut :

101 =  PJT - Intermediate Ward Lt. 4 Jika Biaya Tagihan < 10 juta Maka Pola
biaya RENDAH.

Jika Biaya Tagihan >10 juta dan < 50


juta maka biaya SEDANG.

Sedangkan jika Biaya tagihan > 10 juta


maka pola biaya TINGGI.

Permasalahan pada data yang memiliki banyak atribut


seperti data rekam medis pasien adalah tidak semua data
akan berkontribusi jika diterapkan model prediktif, bahkan
beberapa atribut cenderung mengaburkan hasil (noise).

Teknik Attribute Importance (AI) digunakan untuk


mengidentifikasi indikator yang paling berpengaruh
terhadap pasien dengan pola biaya tinggi atau rendah.
Setelah dianalisa menggunakan teknik Attribute
Gambar 8. Distribusi berdasar status kematian (tidak
Importance (AI), data akan dianalisa menggunakan teknik
meninggal=0, meninggal=1)
klasifikasi menggunakan Algoritma Naïve Bayes yang
kemudian akan digunakan untuk melakukan scoring Berikut ini merupakan tabel lengkap hasil analisa
terhadap kasus kunjungan pasien. menggunakan teknik Attribute Importance (AI).

IV.2. Analisa Menggunakan Teknik Attribute


Importance (AI)

Attribute Importance (AI) memberikan solusi otomatis


untuk meningkatkan kecepatan dan akurasi model
klasifikasi yang dibangun di atas tabel data dengan atribut
dalam jumlah besar.

Atribut untuk menentukan peringkat berdasarkan pada


kekuatan korelasi atau hubungan antara atribut prediktor
dengan atribut target. Target pada kasus ini adalah
mencari faktor yang sangat berpengaruh pada pola beban
biaya pasien rawat inap di RSCM (RENDAH, SEDANG, Gambar 10. Hasil Analisa Attribute Importance
TINGGI).
Name Rank Importance
Atribut yang digunakan untuk analisa adalah sebagai PROC1 1 0.16850816
berikut : PROC4 2 0.151484777
PROC3 3 0.148049858
LOS 4 0.136418431
PROC2 5 0.123940453
ORG_ID 6 0.102628058
PRIMARY_DIAG 7 0.084659551
ADM_GENDER_CD 8 0.024481749
MARITAL_ST 9 0.019523313
AGE 10 0.006332294
MORTALITY 11 0.005728084
EDUCATION 12 -0.005963103
JOBCLASS 13 -0.010410216
SEC_DIAG1 14 -0.024403058
SEC_DIAG3 15 -0.027612921
Tabel 1. Atribut data set SEC_DIAG2 16 -0.041533283

Tabel 2. Peringkat AI

Dapat dilihat baik dari grafik maupun tabel atribut-atribut


yang mempengaruhi besarnya beban biaya pasien dari
yang tertinggi sampai yang terendah. Dari hasil analisa
dapat diketahui bahwa atribut education, jobclass,
sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki confidence 50,41 % menandakan bahwa model Naïve
pengaruh korelasi signifikan terhadap pola biaya pasien. Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.

IV.2. Teknik Klasifikasi (Classification) Menggunakan


Algoritma Naive Bayes

Teknik Klasifikasi merupakan teknik yang umum


digunakan untuk memprediksi outcome yang spesifik dan
biasanya bersifat kategorikal. Dalam kasus ini digunakan
Gambar 12. Akurasi dari model
untuk memprediksi pola biaya RENDAH , SEDANG dan
TINGGI. Untuk menganalisa menggunakan teknik ini Pada tabel akurasi menunjukkan bahwa model cukup baik
digunakan atribut hasil analisa menggunakan Attribute memprediksi kasus pola biaya RENDAH dengan
Importance (AI). Atribut yang tidak memiliki pengaruh prosentase 83,36 %, kasus pola biaya SEDANG dengan
signifikan tidak diikutsertakan dalam analisa ini. prosentase 64 % dan kasus pola biaya TINGGI dengan
prosentase 53,45 %. Average Accuracy sebesar 0.669372 ,
Overall Accuracy sebesar 0.764488.

Gambar 13. Confusion matrix

Pada gambar confusion matrix dapat diketahui ada 461


kasus yang diklasifikasi dengan benar sebagai pola biaya
Tabel 3. Atribut data set
RENDAH dari total 553 kasus, ada 46 kasus yang salah
klasifikasi yang seharusnya adalah pola biaya SEDANG
tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya
TINGGI diprediksi sebagai pola biaya RENDAH.

Untuk pola biaya SEDANG dapat diketahui ada 128 kasus


yang diklasifikasi dengan benar sebagai pola biaya
SEDANG dari total 200 kasus. Sedangkan untuk pola
biaya TINGGI dapat diketahui ada 31 kasus yang
Gambar 11 Predictive confidence
diklasifikasi dengan benar sebagai pola biaya TINGGI
Predictive confidence menunjukkan bahwa model yang dari total 58 kasus.
dibuat menggunakan teknik klasifikasi menggunakan
Dari model tersebut diterapkan model scoring untuk data
Algoritma Naïve Bayes cukup baik untuk digunakan
yang akan di tes maka hasil nya adalah sebagai berikut
dengan predictive confidence sebesar 50,41%. Predictive
(data sample 25 kasus kunjungan pasien):
Penggunaan teknik data mining pada studi ini
menunjukkan secara jelas potensi data mining untuk
menggali pengetahuan baru yang akan membantu
meningkatkan kualitas operasional pelayanan dan proses
pengambilan keputusan di rumah sakit.

Referensi

[1]. Fuad, A. 2005. Teknologi Informasi untuk


Keselamatan Pasien. http://www.desentralisasi

Tabel 2. Data scoring kesehatan.net/. 27 April 2008 14:10.

Kolom prediction pada tabel diatas adalah nilai target [2]. N. Wartz, “IBM, Mayo Clinic to Mine Data”, The
untuk kasus(kunjungan) tersebut dan kolom probability information Management Journal, volume 3, issue 6,
adalah adalah nilai confidence dari prediksi tersebut. November /December 2004,p.8
Kolom cost merupakan biaya (cost) dari prediksi yang
salah, dengan biaya (cost) yang rendah berarti probabilitas [3]. J.Han and M. Kamber. Data Mining : Concepts and

yang tinggi. Techniques. Morgan Kaufmann, 2001.8

V. Kesimpulan [4]. Friedman JH: Data Mining and Statistics: What's the
Connection? Dept. of Statistics and Stanford Linear
Pada paper ini telah dilakukan studi dengan menggunakan Accelerator Center, Stanford University, Stanford, CA,
teknik Attribute Importance (AI) untuk mengetahui http://stat.stanford.edu/~jhf/ftp/dm-stat.ps
peringkat atribut yang berpengaruh terhadap pola biaya
data kunjungan pasien yang didefinisikan sebagai kelas [5]. Hamm , Carolyn : Oracle Data Mining: Mining Gold

target RENDAH, SEDANG dan TINGGI. Dengan From Your Data Warehouse.Rampant,2007

mengetahui atribut-atribut yang mempengaruhi biaya


[6]. Morales, D. A., Bengoetxea, E. et al. 2008. Selection
tinggi, maka manajemen rumah sakit dapat lebih
of human embryos for transfer by Bayesian classifiers.
memfokuskan program efisiensi pada prosedur-prosedur
Computers in Biology and Medicine 38(11–12):1177–
medis berbiaya tinggi dan mengurangi LOS.
1186.

Percobaan kedua adalah dengan membuat model


menggunakan teknik classification dengan Algoritma [7]. Fonarow, G. C., Adams, K. F., Jr. et al. 2005. Risk

Naive Bayes yang kemudian digunakan untuk stratification for in-hospital mortality in acutely

memprediksi pola biaya pada data kunjungan pasien yang decompensated heart failure: classification and regression

akan datang (scoring data). Dengan model prediksi biaya tree analysis. JAMA 293(5):572–580.

tersebut, dapat diperkirakan biaya pasien rawat inap pada


saat awal kunjungan. Informasi perkiraan biaya tersebut [8]. Tangri, N., Ansell, D. et al. 2008. Predicting

bermanfaat bagi pihak pasien, karena dapat technique survival in peritoneal dialysis patients:

mempersiapkan pembiyaan dan pihak rumah sakit karena comparing artificial neural networks and logistic

dapat mengetahui perkiraan biaya dan sumberdaya yang regression. Nephrology Dialysis Transplantation

harus disiapkan untuk merawat pasien. 23(9):29722981.


[9]. Chu, A., Ahn, H. et al. 2008. A decision support and Knowledge Discovery.
system to facilitate management of patients with acute
gastrointestinal bleeding. Artificial Intelligence in [11]. Tremblay, M. C., Berndt, D. et al. 2005. Utilizing
Medicine 42(3):247–259. text mining techniques to identify fall related injuries. In
Proceedings of the 11th Americas Conference on
[10]. Ordonez, C., Santana, C. A. et al. 2000. Discovering Information Systems (AMCIS 2005), Omaha, NE.
interesting association rules in medical data. In ACM  

SIGMOD Workshop on Research Issues on Data Mining

Anda mungkin juga menyukai