Anda di halaman 1dari 14

Noor rahmat effendi (3101 1302 2316)

CONTOH KASUS DATA MINING


Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi
kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di
rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan
mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat
melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa
mengurangi kualitas pelayanan.
Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan
pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari
2009 s/d 30 September 2010 daridatabase SIMRS sebanyak 2022 kunjungan (jumlah sebelum
dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan
atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur
medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13),
organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin
(AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang
dibuat memiliki predictive confidence sebesar 50,41%.

I. Pendahuluan
Perkembangan teknologi informasi yang pesat terutama di sektor kesehatan
memungkinkan data dalam jumlah besar terakumulasi dengan cepat. Saat ini berbagai rumah sakit
sudah mulai menerapkan sistem informasi rumah sakit berbasis komputer untuk mendukung
manajemen keuangan (khususnya billing systems) [1]. Untuk rumah sakit yang sudah mapan
sistem informasinya bahkan mulai memperluas kebutuhannya untuk membangun sistem informasi
klinik. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering
disebut sebagai “rich of data but poor of knowledge”, karena data yang terkumpul itu hanya
digunakan untuk kebutuhan operasional saja, bahkan tidak jarang kumpulan data itu dibiarkan
begitu saja seakan-akan menjadi “kuburan data” (data tombs). Untuk melakukan analisa data
dalam jumlah besar yang tersimpan pada database, biasanya digunakan teknik data mining. Meski
telah umum digunakan pada industri keuangan dan telekomunikasi, teknik data mining mulai
diterapkan secara intensif di sektor kesehatan. Sebagai contoh, Mayo Clinic bekerja sama dengan
IBM menerapkan teknik data mining pada pasien dengan kesamaan jenis kelamin, usia dan
riwayat kesehatan untuk mengetahui respon terhadap pengobatan tertentu .[2] Teknis data
mining dapat kita lihat sebagai hasil dari evolusi alamiah teknologi informasi.
2. PROSES DATA MINING

Pada bagian ini akan dijelaskan proses data mining yang terdiri dari beberapa tahap .
1. Pembersihan data (data cleaning), untuk membersihkan noise dan data yang tidak konsisten.
Dalam kasus ini membersihkan data-data pasien yang sudah dihapus dan identitas yang tidak
lengkap (misal: umur, status marital, pendidikan, diagnosa, dan sebagainya).
2. Integrasi data, penggabungan data dari berbagai sumber;
3. Transformasi data, data diubah menjadi bentuk yang sesuai untuk di mining;
4. Aplikasi teknik data mining, proses inti dimana teknikdata mining diterapkan untuk mengekstrak
pola-pola tertentu pada data;
5. Evaluasi pola yang ditemukan;
6. Presentasi pengetahuan, menggunakan teknik visualisasi untuk menampilkan hasil data
Mining kepadapengguna (user).
3. Data dan Perangkat Pendukung

3.1 Data
Untuk mengidentifikasi atribut-atribut penentu biaya pasien rawat inap, digunakan data
kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode
1 Januari 2009 s/d 30 September 2010 yang diambil dari database SIMRS sebanyak 8383
kunjungan pasien. Setelah dilakukan data cleaning, didapatkan 2022 kunjungan pasien yang layak
untuk dianalisa.
3.2. Perangkat Lunak
Untuk analisa data mining digunakan perangkat lunak Oracle Data Miner dan database Oracle
11g.
3.3 Metode & Teknik
3.3.1Atribute Importance (AI)
Attribute Importance (AI) memberi peringkat atribut dengan menghilangkan atribut yang
berulang, tidak relevan, atau tidak informatif dan mengidentifikasi atribut yang mungkin memiliki
pengaruh yang paling tinggi dalam membuat prediksi.
Gambar 3.

AI menggunakan algoritma Minimum Description Length (MDL). Algoritma MDL


mempertimbangkan setiap atribut sebagai model prediktif sederhana dari kelas target. Teknik AI
digunakan untuk mengoptimalkan analisa model classification dengan mengurangi atribut yang
digunakan dan akan meningkatkan kecepatan dan akurasi saat membangun model.

3.3.2. Naive Bayes Algorithm (Classification)


Classification adalah proses untuk Menemukan model Atau fungsi yang atau membedakan
konsep atau kelas data, Dengan tujuan untuk dapat memperkirakan Kelas dari Suatu objek yang
labelnya tidak Berupa aturan “jika--‐maka”. Dalam Teknik classification terdapat beberapa
Algoritma yang Bisa digunakan antara lain decision tree,Naive
bayes , adaptive naive bayes, logistic regression dan support vector machine. Bayesian
Classificationdidasarkan pada Teorema Bayesian. Konsep dasar teori bayes itu pada dasarnya
adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian H adalah posterior dan X adalah prior.
Prior adalah pengetahuan kita tentang karakteristik suatu parameter (bisa dibaca sebagai
pengalaman di masa lalu atas suatu parameter atau juga bisa berdasarkan teori), sedangkan
posterior adalah karakteristik yang akan kita duga pada kejadian yang akan datang.
Teorema Bayesian berguna untuk melakukan kalkulasi probabilitas posterior, P(H|X), dari
P(H), P(X) dan P(X|H). Teori Bayes adalah sebagai berikut : P(H|X) = P(X|H)P(H)

P(X)
Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase
learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model
perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya
untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai
untuk prediksi kelas data yang belum diketahui. [3]

3.3.3 Data Scoring

Setelah model dibuat dengan aplikasi data mining, model tersebut bisa digunakan untuk
membuat prediksi dari data baru yang dalam hal ini diterapkan untuk memprediksi pola biaya data
kunjungan pasien. Model biasanya dibuat dengan menggunakan data historis dari kunjungan
pasien sebelumnya.
Prosesnya dapat digambarkan sebagai berikut:
4 . Teknik Data Mining

4.1 Persiapan Data


Sebelum dilakukan teknik data mining dilakukan eksplorasi data untuk mengetahui
distribusi data pasien berdasarkan atribut tertentu (misal: distribusi pasien berdasar umur) dan juga
untuk mengidentifikasi data yang tidak normal (outliers). Data divisualisasikan dalam bentuk
histogram. Beberapa histogram profil kunjungan pasien ditampilkan sebagai berikut :

Gambar 5. Distribusi berdasar gender


Gambar 6 Distribusi berdasar umur

Gambar 7. Distribusi berdasar unit kunjungan


Keterangan Gambar 7 :
178 = A - Penyakit Dalam 105 = A - Onkologi Obgin
108 = A – Bedah 121 = Kebidanan (IGD)
173 = A - Bedah LT 4 113 = A - Obgin
176 = A - Mata 175 = A - THT
109 = A – Neurologi 101 = PJT - Intermediate Ward Lt. 4

Gambar 8. Distribusi berdasar status kematian (tidak


meninggal=0, meninggal=1)
Gambar 9. Distribusi berdasar length of stay (LOS)

Dalam studi ini data kunjungan pasien di RSCM akan diamati atribut-atribut yang akan
mempengaruhi pola biaya pasien yang dirawat di RSCM. Untuk biaya di buat skala RENDAH,
SEDANG dan TINGGI. Dengan aturan sebagai berikut :

Jika Biaya Tagihan < 10 juta Maka Pola biaya RENDAH.


Jika Biaya Tagihan >10 juta dan < 50 juta maka biaya SEDANG.
Sedangkan jika Biaya tagihan > 50 juta maka pola biaya TINGGI.

Permasalahan pada data yang memiliki banyak atribut seperti data rekam medis pasien
adalah tidak semua data akan berkontribusi jika diterapkan model prediktif, bahkan beberapa
atribut cenderung mengaburkan hasil (noise). Teknik Attribute Importance (AI) digunakan untuk
mengidentifikasi indikator yang paling berpengaruh terhadap pasien dengan pola biaya tinggi atau
rendah. Setelah dianalisa menggunakan teknik Attribute Importance (AI), data akan dianalisa
menggunakan teknik klasifikasi menggunakan Algoritma Naïve Bayes yang kemudian akan
digunakan untuk melakukan scoring terhadap kasus kunjungan pasien.
4.2 Analisa Menggunakan Teknik Attribute Importance (AI)
Attribute Importance (AI) memberikan solusi otomatis untuk meningkatkan kecepatan dan
akurasi model klasifikasi yang dibangun di atas tabel data dengan atribut dalam jumlah besar.
Atribut untuk menentukan peringkat berdasarkan pada kekuatan korelasi atau hubungan antara
atribut prediktor dengan atribut target. Target pada kasus ini adalah mencari faktor yang sangat
berpengaruh pada pola beban biaya pasien rawat inap di RSCM (RENDAH, SEDANG, TINGGI).
Atribut yang digunakan untuk analisa adalah sebagai berikut :

Tabel 1. Atribut data


Berikut ini merupakan tabel lengkap hasil analisa menggunakan teknik Attribute
Importance (AI).

Gambar 10. Hasil Analisa Attribute Importance

Tabel 2. Peringkat AI
Dapat dilihat baik dari grafik maupun tabel atribut-atribut yang mempengaruhi besarnya
beban biaya pasien dari yang tertinggi sampai yang terendah. Dari hasil analisa dapat diketahui
bahwa atribut education, jobclass, sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki pengaruh
korelasi signifikan terhadap pola biaya pasien.

1.2 Teknik Klasifikasi (Classification) Menggunakan Algoritma Naive Bayes

Teknik Klasifikasi merupakan teknik yang umum digunakan untuk memprediksi outcome
yang spesifik dan biasanya bersifat kategorikal. Dalam kasus ini digunakan untuk memprediksi
pola biaya RENDAH , SEDANG dan TINGGI. Untuk menganalisa menggunakan teknik ini
digunakan atribut hasil analisa menggunakan Attribute Importance (AI). Atribut yang tidak
memiliki pengaruh signifikan tidak diikutsertakan dalam analisa ini.

Tabel 3. Atribut data set


Gambar 11 Predictive confidence

Predictive confidence menunjukkan bahwa model yan dibuat menggunakan teknik klasifikasi
menggunakan Algoritma Naïve Bayes cukup baik untuk digunakan dengan predictive
confidence sebesar 50,41%. Predictive. confidence 50,41 % menandakan bahwa model Naïve
Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.

Gambar 12. Akurasi dari model

Pada tabel akurasi menunjukkan bahwa model cukup baik memprediksi kasus pola biaya
RENDAH dengan prosentase 83,36 %, kasus pola biaya SEDANG dengan prosentase 64 % dan
kasus pola biaya TINGGI dengan prosentase 53,45 %. Average Accuracy sebesar 0.669372 ,
Overall Accuracy sebesar 0.764488.
Gambar 13. Confusion matrix

Pada gambar confusion matrix dapat diketahui ada 461 kasus yang diklasifikasi dengan
benar sebagai pola biaya RENDAH dari total 553 kasus, ada 46 kasus yang salah klasifikasi yang
seharusnya adalah pola biaya SEDANG tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya TINGGI diprediksi sebagai pola biaya
RENDAH.
Untuk pola biaya SEDANG dapat diketahui ada 128 kasus yang diklasifikasi dengan benar
sebagai pola biaya SEDANG dari total 200 kasus. Sedangkan untuk pola biaya TINGGI dapat
diketahui ada 31 kasus yang diklasifikasi dengan benar sebagai pola biaya TINGGI dari total 58
kasus. Dari model tersebut diterapkan model scoring untuk data yang akan di tes maka hasil nya
adalah sebagai berikut (data sample 25 kasus kunjungan pasien):

Tabel 2. Data scoring


Kolom prediction pada tabel diatas adalah nilai target kasus(kunjungan) tersebut dan
kolom probability adalah adalah nilai confidence dari prediksi tersebut. Kolom cost merupakan
biaya (cost) dari prediksi yang salah, dengan biaya (cost) yang rendah berarti probabilitas yang
tinggi.

1. Kesimpulan

Pada paper ini telah dilakukan studi dengan menggunakan teknik Attribute Importance (AI)
untuk mengetahui peringkat atribut yang berpengaruh terhadap pola biaya data kunjungan pasien
yang didefinisikan sebagai kelas target RENDAH, SEDANG dan TINGGI. Dengan mengetahui
atribut-atribut yang mempengaruhi biaya tinggi, maka manajemen rumah sakit dapat lebih
memfokuskan program efisiensi pada prosedur-prosedur medis berbiaya tinggi dan mengurangi
LOS.
Percobaan kedua adalah dengan membuat model menggunakan
teknik classification dengan Naive Bayes yang kemudian digunakan untuk memprediksi pola
biaya pada data kunjungan pasien yang akan datang (scoring data). Dengan model prediksi biaya
tersebut, dapat diperkirakan biaya pasien rawat inap pada saat awal kunjungan. Informasi
perkiraan biaya tersebut bermanfaat bagi pihak pasien, karena dapat mempersiapkan pembiyaan
dan pihak rumah sakit karena dapat mengetahui perkiraan biaya dan sumberdaya yang harus
disiapkan untuk merawat pasien.

Diambil dari http://fazri-indop.blogspot.co.id/2012/03/contoh-kasus-data-mining.html

Anda mungkin juga menyukai