Teknik Data Mining Attribute Importance (AI) dan Algoritma Naive Bayes
Furqonuddin Ramdhani, Agus Mutamakin
Abstrak
Sistem Informasi Manajemen Rumah Sakit (SIMRS) secara umum telah digunakan oleh para staf rumah sakit untuk
mendukung operasional sehari-hari. Sebagian besar informasi yang didapat pada operasional SIMRS berasal dari pengolahan
transactional database. Sedangkan untuk mendukung pengambilan keputusan ditingkat manajerial, diperlukan akses ke
database dalam ukuran besar dan dimensi yang lebih kompleks, sehingga diperlukan teknik data mining. Pendekatan data
mining biasa dilakukan untuk menggali informasi, pengetahuan, pola-pola baru dan tren dengan menganalisis database dalam
ukuran besar, menggunakan teknologi pengenalan pola, teknik statistik dan matematik.
Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut
penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit
dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas
pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto
Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 dari database SIMRS sebanyak
2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan
atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15),
prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08),
jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan
model yang dibuat memiliki predictive confidence sebesar 50,41%.
diterapkan secara intensif di sektor kesehatan. Sebagai tidak dikenal dan dipahami dari database berukuran
contoh, Mayo Clinic bekerja sama dengan IBM besar dan digunakan untuk membuat keputusan bisnis
menerapkan teknik data mining pada pasien dengan yang penting. - Zekulin.
kesamaan jenis kelamin, usia dan riwayat kesehatan untuk • Data mining adalah serangkaian metode yang
mengetahui respon terhadap pengobatan tertentu .[2] digunakan dalam proses penemuan pengetahuan
untuk membedakan yang sebelumnya tidak diketahui
Teknis data mining dapat kita lihat sebagai hasil dari
baik hubungan dan pola dalam data. - Ferruzza.
evolusi alamiah teknologi informasi. Proses evolusi dalam
• Data mining adalah proses pendukung keputusan
teknologi sistem database dapat dilihat pada Gambar 1.
yang digali dari basis data berukuran besar untuk
mengetahui pola yang tidak diketahui dan tak terduga
sebelumnya pada data. - Parsaye
1. Pembersihan data (data cleaning), untuk membersihkan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010
noise dan data yang tidak konsisten. Dalam kasus ini yang diambil dari database SIMRS sebanyak 8383
membersihkan data-data pasien yang sudah dihapus dan kunjungan pasien. Setelah dilakukan data cleaning,
identitas yang tidak lengkap (misal: umur, status marital, didapatkan 2022 kunjungan pasien yang layak untuk
P(H|X) = P(X|H)P(H)
P(X)
Gambar 3. Ilustrasi Atrribut Importance membentuk model perkiraan. Kemudian pada fase test
model yang sudah terbentuk diuji dengan sebagian data
AI menggunakan algoritma Minimum Description Length lainnya untuk mengetahui akurasi dari model tersebut.
(MDL). Algoritma MDL mempertimbangkan setiap Bila akurasinya mencukupi model ini dapat dipakai untuk
atribut sebagai model prediktif sederhana dari kelas target. prediksi kelas data yang belum diketahui. [3]
Sistem
Model
Data
Data
Historis
Mining
Data
Historis
Model
Scoring
Engine
Data
Prediksi
Keterangan Gambar 7 :
Gambar 9. Distribusi berdasar length of stay (LOS)
178 =
A - Penyakit Dalam 105 =
A - Onkologi Obgin
Dalam studi ini data kunjungan pasien di RSCM akan
108 =
A - Bedah 121 =
Kebidanan (IGD)
diamati atribut-atribut yang akan mempengaruhi pola
173 =
A - Bedah LT 4 113 =
A - Obgin
biaya pasien yang dirawat di RSCM. Untuk biaya di buat
176 =
A - Mata 175 =
A - THT skala RENDAH, SEDANG dan TINGGI. Dengan aturan
109 =
A - Neurologi sebagai berikut :
101 =
PJT - Intermediate Ward Lt. 4 Jika Biaya Tagihan < 10 juta Maka Pola
biaya RENDAH.
Tabel 2. Peringkat AI
Referensi
Kolom prediction pada tabel diatas adalah nilai target [2]. N. Wartz, “IBM, Mayo Clinic to Mine Data”, The
untuk kasus(kunjungan) tersebut dan kolom probability information Management Journal, volume 3, issue 6,
adalah adalah nilai confidence dari prediksi tersebut. November /December 2004,p.8
Kolom cost merupakan biaya (cost) dari prediksi yang
salah, dengan biaya (cost) yang rendah berarti probabilitas [3]. J.Han and M. Kamber. Data Mining : Concepts and
V. Kesimpulan [4]. Friedman JH: Data Mining and Statistics: What's the
Connection? Dept. of Statistics and Stanford Linear
Pada paper ini telah dilakukan studi dengan menggunakan Accelerator Center, Stanford University, Stanford, CA,
teknik Attribute Importance (AI) untuk mengetahui http://stat.stanford.edu/~jhf/ftp/dm-stat.ps
peringkat atribut yang berpengaruh terhadap pola biaya
data kunjungan pasien yang didefinisikan sebagai kelas [5]. Hamm , Carolyn : Oracle Data Mining: Mining Gold
target RENDAH, SEDANG dan TINGGI. Dengan From Your Data Warehouse.Rampant,2007
Naive Bayes yang kemudian digunakan untuk stratification for in-hospital mortality in acutely
memprediksi pola biaya pada data kunjungan pasien yang decompensated heart failure: classification and regression
akan datang (scoring data). Dengan model prediksi biaya tree analysis. JAMA 293(5):572–580.
bermanfaat bagi pihak pasien, karena dapat technique survival in peritoneal dialysis patients:
mempersiapkan pembiyaan dan pihak rumah sakit karena comparing artificial neural networks and logistic
dapat mengetahui perkiraan biaya dan sumberdaya yang regression. Nephrology Dialysis Transplantation