Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan Teknik Data Mining Attribute Importance AI Dan Algoritma Naive Bayes Rev1

Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan
Teknik Data Mining Attribute Importance (AI) dan Algoritma Naive Bayes
Furqonuddin Ramdhani, Agus Mutamakin
Abstrak
Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk
mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan
transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke
database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data
mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam
ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.
Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut
penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit
dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas
pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto
Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak
2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan
atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15),
prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08),
jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan
model yang dibuat memiliki predictive confidence sebesar 50,41%.
Keyword : SIMRS, data mining, biaya rawat, rawat inap

I. Pendahuluan
Perkembangan teknologi informasi yang pesat terutama di

sektor kesehatan memungkinkan data dalam jumlah besar
terakumulasi dengan cepat. Saat ini berbagai rumah sakit
sudah mulai menerapkan sistem informasi rumah sakit
berbasis komputer untuk mendukung manajemen
keuangan (khususnya billing systems) [1]. Untuk rumah
sakit yang sudah mapan sistem informasinya bahkan
mulai memperluas kebutuhannya untuk membangun
sistem informasi klinik.
Pertumbuhan yang pesat dari akumulasi data itu telah

menciptakan kondisi yang sering disebut sebagai “rich of
data but poor of knowledge”, karena data yang terkumpul
itu hanya digunakan untuk kebutuhan operasional saja,
bahkan tidak jarang kumpulan data itu dibiarkan begitu Gambar 1. Evolusi teknologi sistem database
saja seakan-akan menjadi “kuburan data” (data tombs).
Menurut Friedman[4] ada beberapa definisi dari data
Untuk melakukan analisa data dalam jumlah besar yang mining. Dikumpulkan dari berbagai literatur data mining
tersimpan pada database, biasanya digunakan teknik data antara lain sebagai berikut:
mining. Meski telah umum digunakan pada industri
keuangan dan telekomunikasi, teknik data mining mulai • Data mining adalah proses ekstraksi sebelumnya
diterapkan secara intensif di sektor kesehatan. Sebagai tidak dikenal dan dipahami dari database berukuran
contoh, Mayo Clinic bekerja sama dengan IBM besar dan digunakan untuk membuat keputusan bisnis
menerapkan teknik data mining pada pasien dengan yang penting. - Zekulin.
kesamaan jenis kelamin, usia dan riwayat kesehatan untuk • Data mining adalah serangkaian metode yang
mengetahui respon terhadap pengobatan tertentu .[2] digunakan dalam proses penemuan pengetahuan
untuk membedakan yang sebelumnya tidak diketahui
Teknis data mining dapat kita lihat sebagai hasil dari
baik hubungan dan pola dalam data. - Ferruzza.
evolusi alamiah teknologi informasi. Proses evolusi dalam
• Data mining adalah proses pendukung keputusan
teknologi sistem database dapat dilihat pada Gambar 1.
yang digali dari basis data berukuran besar untuk
mengetahui pola yang tidak diketahui dan tak terduga
sebelumnya pada data. - Parsaye
Potensi data mining dalam bidang kesehatan sudah diakui

secara luas. Banyak studi yang diakukan menggunakan
teknik data mining modern, antara lain classification dan
predictive yang diterapkan pada rekam medis elektronis.
Beberapa dari studi tersebut antara lain adalah sebagai
berikut :
• Teknik Classification Naïve Bayes yang diterapkan 3. Transformasi data, data diubah menjadi bentuk yang
untuk masalah seleksi embrio [6] sesuai untuk di mining;
• Teknik Decision Tree untuk mengembangkan dan
4. Aplikasi teknik data mining, proses inti dimana teknik
memvalidasi ukuran resiko stratifikasi mortalitas di
data mining diterapkan untuk mengekstrak pola-pola
rumah sakit karena dekomposisi akut gagal
tertentu pada data;
jantung(ADHF) [7]
• Neural Network untuk memprediksi pasien tertentu 5. Evaluasi pola yang ditemukan;
yang akan mengalami kegagalan dialysis peritoneal
6. Presentasi pengetahuan, menggunakan teknik
[8]
visualisasi untuk menampilkan hasil data mining kepada
• Support Vector Machines (SVM) untuk memprediksi
pengguna (user).
sumber pendarahan dan mengidentifikasi kohort pada
pasien dengan pendarahan akut gastrointestinal (GIB)
yang memerlukan intervensi mendesak, termasuk
endoskopi [9]
• Association digunakan untuk mengkonfirmasi aturan
yang akan digunakan oleh sistem pakar yang
membantu dalam diagnosis penyakit jantung dan
untuk menemukan aturan-aturan baru
untuk memperkaya pengetahuan sistem pakar [10]
• Text Mining untuk mengidentifikasi luka yang terkait
dengan luka jatuh pada orang tua [11]
Penggunan data mining diharapkan dapat membantu para

pengambil keputusan mendapatkan informasi yang lebih
akurat dan bermakna sebagai salah satu sarana untuk Gambar 2. Tahapan dalam proses data mining
meningkatkan pelayanan kesehatan kepada masyarakat.

III. Data dan Perangkat Pendukung
II. Proses Data Mining

III.1. Data
Pada bagian ini akan dijelaskan proses data mining yang

Untuk mengidentifikasi atribut-atribut penentu biaya
terdiri dari beberapa tahap yang diilustrasikan di gambar
pasien rawat inap, digunakan data kunjungan pasien rawat
2[3]:
inap RSUP Dr. Cipto Mangunkusumo dengan jaminan
1. Pembersihan data (data cleaning), untuk membersihkan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010
noise dan data yang tidak konsisten. Dalam kasus ini yang diambil dari database SIMRS sebanyak 8383
membersihkan data-data pasien yang sudah dihapus dan kunjungan pasien. Setelah dilakukan data cleaning,
identitas yang tidak lengkap (misal: umur, status marital, didapatkan 2022 kunjungan pasien yang layak untuk
pendidikan, diagnosa, dan sebagainya); dianalisa.
2. Integrasi data, penggabungan data dari berbagai

sumber;
III.2. Perangkat Lunak Bayesian Classification didasarkan pada Teorema
Bayesian. Konsep dasar teori bayes itu pada dasarnya
Untuk analisa data mining digunakan perangkat lunak
adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian
Oracle Data Miner dan database Oracle 11g.
H adalah posterior dan X adalah prior. Prior adalah
III. 3 Metode & Teknik pengetahuan kita tentang karakteristik suatu parameter
(bisa dibaca sebagai pengalaman di masa lalu atas suatu
III.3.1. Attribute Importance (AI)
parameter atau juga bisa berdasarkan teori), sedangkan
Attribute Importance (AI) memberi peringkat atribut posterior adalah karakteristik yang akan kita duga pada
dengan menghilangkan atribut yang berulang, tidak kejadian yang akan datang.
relevan, atau tidak informatif dan mengidentifikasi atribut
Teorema Bayesian berguna untuk melakukan kalkulasi
yang mungkin memiliki pengaruh yang paling tinggi
probabilitas posterior, P(H|X), dari P(H), P(X) dan
dalam membuat prediksi.
P(X|H). Teori Bayes adalah sebagai berikut :
P(H|X) = P(X|H)P(H)
P(X)
Proses classification biasanya dibagi menjadi dua fase :

learning dan test. Pada fase learning, sebagian data yang
telah diketahui kelas datanya diumpankan untuk
Gambar 3. Ilustrasi Atrribut Importance membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data
AI menggunakan algoritma Minimum Description Length lainnya untuk mengetahui akurasi dari model tersebut.
(MDL). Algoritma MDL mempertimbangkan setiap Bila akurasinya mencukupi model ini dapat dipakai untuk
atribut sebagai model prediktif sederhana dari kelas target. prediksi kelas data yang belum diketahui. [3]
Teknik AI digunakan untuk mengoptimalkan analisa

model classification dengan mengurangi atribut yang
digunakan dan akan meningkatkan kecepatan dan akurasi
saat membangun model.
III.3.2. Naive Bayes Algorithm (Classification)
Classification adalah proses untuk menemukan model

atau fungsi yang menjelaskan atau membedakan Gambar 4. Ilustrasi pemodelan teknik Classification
konsep atau kelas data, dengan tujuan untuk dapat untuk mengukur akurasi
memperkirakan kelas dari suatu objek yang labelnya
III.3.3. Data Scoring
tidak diketahui. Model itu sendiri bisa berupa aturan
“jika-‐maka”. Dalam teknik classification terdapat Setelah model dibuat dengan aplikasi data mining, model
beberapa algoritma yang bisa digunakan antara lain tersebut bisa digunakan untuk membuat prediksi dari data
decision tree, naive bayes , adaptive naive bayes, logistic baru yang dalam hal ini diterapkan untuk memprediksi
regression dan support vector machine. pola biaya data kunjungan pasien. Model biasanya dibuat
dengan menggunakan data historis dari kunjungan pasien
sebelumnya. Prosesnya secara umum di ilustrasikan
sebagai berikut :
Sistem Model
Data Data
Historis Mining
Gambar 5. Ilustrasi Pembuatan Model
Data
Historis
Gambar 5. Distribusi berdasar gender
Model
Scoring
Engine
Data
Prediksi
Gambar 6. Ilustrasi Sistem Scoring
IV. Teknik Data Mining
IV.1. Persiapan Data

Gambar 6 Distribusi berdasar umur
Sebelum dilakukan teknik data mining dilakukan
eksplorasi data untuk mengetahui distribusi data pasien
berdasarkan atribut tertentu (misal: distribusi pasien
berdasar umur) dan juga untuk mengidentifikasi data yang
tidak normal (outliers). Data divisualisasikan dalam
bentuk histogram. Beberapa histogram profil kunjungan
pasien ditampilkan sebagai berikut :
Gambar 7. Distribusi berdasar unit kunjungan
Keterangan Gambar 7 :
Gambar 9. Distribusi berdasar length of stay (LOS)
178 = A - Penyakit Dalam 105 = A - Onkologi Obgin
Dalam studi ini data kunjungan pasien di RSCM akan
108 = A - Bedah 121 = Kebidanan (IGD)
diamati atribut-atribut yang akan mempengaruhi pola
173 = A - Bedah LT 4 113 = A - Obgin
biaya pasien yang dirawat di RSCM. Untuk biaya di buat
176 = A - Mata 175 = A - THT skala RENDAH, SEDANG dan TINGGI. Dengan aturan
109 = A - Neurologi sebagai berikut :
101 = PJT - Intermediate Ward Lt. 4 Jika Biaya Tagihan < 10 juta Maka Pola
biaya RENDAH.
Jika Biaya Tagihan >10 juta dan < 50

juta maka biaya SEDANG.
Sedangkan jika Biaya tagihan > 10 juta

maka pola biaya TINGGI.
Permasalahan pada data yang memiliki banyak atribut

seperti data rekam medis pasien adalah tidak semua data
akan berkontribusi jika diterapkan model prediktif, bahkan
beberapa atribut cenderung mengaburkan hasil (noise).
Teknik Attribute Importance (AI) digunakan untuk

mengidentifikasi indikator yang paling berpengaruh
terhadap pasien dengan pola biaya tinggi atau rendah.
Setelah dianalisa menggunakan teknik Attribute
Gambar 8. Distribusi berdasar status kematian (tidak
Importance (AI), data akan dianalisa menggunakan teknik
meninggal=0, meninggal=1)
klasifikasi menggunakan Algoritma Naïve Bayes yang
kemudian akan digunakan untuk melakukan scoring Berikut ini merupakan tabel lengkap hasil analisa
terhadap kasus kunjungan pasien. menggunakan teknik Attribute Importance (AI).
IV.2. Analisa Menggunakan Teknik Attribute

Importance (AI)
Attribute Importance (AI) memberikan solusi otomatis

untuk meningkatkan kecepatan dan akurasi model
klasifikasi yang dibangun di atas tabel data dengan atribut
dalam jumlah besar.
Atribut untuk menentukan peringkat berdasarkan pada

kekuatan korelasi atau hubungan antara atribut prediktor
dengan atribut target. Target pada kasus ini adalah
mencari faktor yang sangat berpengaruh pada pola beban
biaya pasien rawat inap di RSCM (RENDAH, SEDANG, Gambar 10. Hasil Analisa Attribute Importance
TINGGI).
Name Rank Importance
Atribut yang digunakan untuk analisa adalah sebagai PROC1 1 0.16850816
berikut : PROC4 2 0.151484777
PROC3 3 0.148049858
LOS 4 0.136418431
PROC2 5 0.123940453
ORG_ID 6 0.102628058
PRIMARY_DIAG 7 0.084659551
ADM_GENDER_CD 8 0.024481749
MARITAL_ST 9 0.019523313
AGE 10 0.006332294
MORTALITY 11 0.005728084
EDUCATION 12 -0.005963103
JOBCLASS 13 -0.010410216
SEC_DIAG1 14 -0.024403058
SEC_DIAG3 15 -0.027612921
Tabel 1. Atribut data set SEC_DIAG2 16 -0.041533283
Tabel 2. Peringkat AI
Dapat dilihat baik dari grafik maupun tabel atribut-atribut

yang mempengaruhi besarnya beban biaya pasien dari
yang tertinggi sampai yang terendah. Dari hasil analisa
dapat diketahui bahwa atribut education, jobclass,
sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki confidence 50,41 % menandakan bahwa model Naïve
pengaruh korelasi signifikan terhadap pola biaya pasien. Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.
IV.2. Teknik Klasifikasi (Classification) Menggunakan

Algoritma Naive Bayes
Teknik Klasifikasi merupakan teknik yang umum

digunakan untuk memprediksi outcome yang spesifik dan
biasanya bersifat kategorikal. Dalam kasus ini digunakan
Gambar 12. Akurasi dari model
untuk memprediksi pola biaya RENDAH , SEDANG dan
TINGGI. Untuk menganalisa menggunakan teknik ini Pada tabel akurasi menunjukkan bahwa model cukup baik
digunakan atribut hasil analisa menggunakan Attribute memprediksi kasus pola biaya RENDAH dengan
Importance (AI). Atribut yang tidak memiliki pengaruh prosentase 83,36 %, kasus pola biaya SEDANG dengan
signifikan tidak diikutsertakan dalam analisa ini. prosentase 64 % dan kasus pola biaya TINGGI dengan
prosentase 53,45 %. Average Accuracy sebesar 0.669372 ,
Overall Accuracy sebesar 0.764488.
Gambar 13. Confusion matrix
Pada gambar confusion matrix dapat diketahui ada 461

kasus yang diklasifikasi dengan benar sebagai pola biaya
Tabel 3. Atribut data set
RENDAH dari total 553 kasus, ada 46 kasus yang salah
klasifikasi yang seharusnya adalah pola biaya SEDANG
tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya
TINGGI diprediksi sebagai pola biaya RENDAH.
Untuk pola biaya SEDANG dapat diketahui ada 128 kasus

yang diklasifikasi dengan benar sebagai pola biaya
SEDANG dari total 200 kasus. Sedangkan untuk pola
biaya TINGGI dapat diketahui ada 31 kasus yang
Gambar 11 Predictive confidence
diklasifikasi dengan benar sebagai pola biaya TINGGI
Predictive confidence menunjukkan bahwa model yang dari total 58 kasus.
dibuat menggunakan teknik klasifikasi menggunakan
Dari model tersebut diterapkan model scoring untuk data
Algoritma Naïve Bayes cukup baik untuk digunakan
yang akan di tes maka hasil nya adalah sebagai berikut
dengan predictive confidence sebesar 50,41%. Predictive
(data sample 25 kasus kunjungan pasien):
Penggunaan teknik data mining pada studi ini
menunjukkan secara jelas potensi data mining untuk
menggali pengetahuan baru yang akan membantu
meningkatkan kualitas operasional pelayanan dan proses
pengambilan keputusan di rumah sakit.
Referensi
[1]. Fuad, A. 2005. Teknologi Informasi untuk

Keselamatan Pasien. http://www.desentralisasi
Tabel 2. Data scoring kesehatan.net/. 27 April 2008 14:10.
Kolom prediction pada tabel diatas adalah nilai target [2]. N. Wartz, “IBM, Mayo Clinic to Mine Data”, The
untuk kasus(kunjungan) tersebut dan kolom probability information Management Journal, volume 3, issue 6,
adalah adalah nilai confidence dari prediksi tersebut. November /December 2004,p.8
Kolom cost merupakan biaya (cost) dari prediksi yang
salah, dengan biaya (cost) yang rendah berarti probabilitas [3]. J.Han and M. Kamber. Data Mining : Concepts and
yang tinggi. Techniques. Morgan Kaufmann, 2001.8
V. Kesimpulan [4]. Friedman JH: Data Mining and Statistics: What's the
Connection? Dept. of Statistics and Stanford Linear
Pada paper ini telah dilakukan studi dengan menggunakan Accelerator Center, Stanford University, Stanford, CA,
teknik Attribute Importance (AI) untuk mengetahui http://stat.stanford.edu/~jhf/ftp/dm-stat.ps
peringkat atribut yang berpengaruh terhadap pola biaya
data kunjungan pasien yang didefinisikan sebagai kelas [5]. Hamm , Carolyn : Oracle Data Mining: Mining Gold
target RENDAH, SEDANG dan TINGGI. Dengan From Your Data Warehouse.Rampant,2007
mengetahui atribut-atribut yang mempengaruhi biaya

[6]. Morales, D. A., Bengoetxea, E. et al. 2008. Selection
tinggi, maka manajemen rumah sakit dapat lebih
of human embryos for transfer by Bayesian classifiers.
memfokuskan program efisiensi pada prosedur-prosedur
Computers in Biology and Medicine 38(11–12):1177–
medis berbiaya tinggi dan mengurangi LOS.
1186.
Percobaan kedua adalah dengan membuat model

menggunakan teknik classification dengan Algoritma [7]. Fonarow, G. C., Adams, K. F., Jr. et al. 2005. Risk
Naive Bayes yang kemudian digunakan untuk stratification for in-hospital mortality in acutely
memprediksi pola biaya pada data kunjungan pasien yang decompensated heart failure: classification and regression
akan datang (scoring data). Dengan model prediksi biaya tree analysis. JAMA 293(5):572–580.
tersebut, dapat diperkirakan biaya pasien rawat inap pada

saat awal kunjungan. Informasi perkiraan biaya tersebut [8]. Tangri, N., Ansell, D. et al. 2008. Predicting
bermanfaat bagi pihak pasien, karena dapat technique survival in peritoneal dialysis patients:
mempersiapkan pembiyaan dan pihak rumah sakit karena comparing artificial neural networks and logistic
dapat mengetahui perkiraan biaya dan sumberdaya yang regression. Nephrology Dialysis Transplantation
harus disiapkan untuk merawat pasien. 23(9):29722981.

[9]. Chu, A., Ahn, H. et al. 2008. A decision support and Knowledge Discovery.
system to facilitate management of patients with acute
gastrointestinal bleeding. Artificial Intelligence in [11]. Tremblay, M. C., Berndt, D. et al. 2005. Utilizing
Medicine 42(3):247–259. text mining techniques to identify fall related injuries. In
Proceedings of the 11th Americas Conference on
[10]. Ordonez, C., Santana, C. A. et al. 2000. Discovering Information Systems (AMCIS 2005), Omaha, NE.
interesting association rules in medical data. In ACM
SIGMOD Workshop on Research Issues on Data Mining

Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan Teknik Data Mining Attribute Importance AI Dan Algoritma Naive Bayes Rev1

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan Teknik Data Mining Attribute Importance AI Dan Algoritma Naive Bayes Rev1

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisa Klasifikasi Biaya Pasien Rawat Inap Menggunakan

Keyword : SIMRS, data mining, biaya rawat, rawat inap

Perkembangan teknologi informasi yang pesat terutama di

Pertumbuhan yang pesat dari akumulasi data itu telah

Potensi data mining dalam bidang kesehatan sudah diakui

Penggunan data mining diharapkan dapat membantu para

meningkatkan pelayanan kesehatan kepada masyarakat.

II. Proses Data Mining

Pada bagian ini akan dijelaskan proses data mining yang

pendidikan, diagnosa, dan sebagainya); dianalisa.

2. Integrasi data, penggabungan data dari berbagai

Proses classification biasanya dibagi menjadi dua fase :

Teknik AI digunakan untuk mengoptimalkan analisa

III.3.2. Naive Bayes Algorithm (Classification)

Classification adalah proses untuk menemukan model

Gambar 5. Ilustrasi Pembuatan Model

Gambar 5. Distribusi berdasar gender

Gambar 6. Ilustrasi Sistem Scoring

IV. Teknik Data Mining

IV.1. Persiapan Data

Jika Biaya Tagihan >10 juta dan < 50

Sedangkan jika Biaya tagihan > 10 juta

Permasalahan pada data yang memiliki banyak atribut

Teknik Attribute Importance (AI) digunakan untuk

IV.2. Analisa Menggunakan Teknik Attribute

Attribute Importance (AI) memberikan solusi otomatis

Atribut untuk menentukan peringkat berdasarkan pada

Dapat dilihat baik dari grafik maupun tabel atribut-atribut

IV.2. Teknik Klasifikasi (Classification) Menggunakan

Teknik Klasifikasi merupakan teknik yang umum

Gambar 13. Confusion matrix

Pada gambar confusion matrix dapat diketahui ada 461

Untuk pola biaya SEDANG dapat diketahui ada 128 kasus

[1]. Fuad, A. 2005. Teknologi Informasi untuk

Tabel 2. Data scoring kesehatan.net/. 27 April 2008 14:10.

yang tinggi. Techniques. Morgan Kaufmann, 2001.8

mengetahui atribut-atribut yang mempengaruhi biaya

Percobaan kedua adalah dengan membuat model

tersebut, dapat diperkirakan biaya pasien rawat inap pada

harus disiapkan untuk merawat pasien. 23(9):29722981.

SIGMOD Workshop on Research Issues on Data Mining

Anda mungkin juga menyukai