Teknik Imputasi Missing Valuespada Data Mining

Anda mungkin juga menyukai

Anda di halaman 1dari 6

Teknik Imputasi Missing Values pada Data

Mining : Studi Kasus pada Data Hepatitis

Yohanes Eki Apriliawan

12.7438

27 Juni 2015
Abstrak

Studi komparatif terhadap kasus dengan data pasien hepatitis di sebuah rumah sakit di

Amerika Serikat. Tahapan yang menjadi pusat perhatian adalah tahapan imputasi missing

values. Paper ini bertujuan untuk memilih metode yang paling cocok untuk melakukan

imputasi dengan dataset yang bersifat MCAR. Metode yang diujikan antara lain metode

imputasi mean dan modus, K-Nearest Neighbor, dan Singular Value Decomposition. Setelah

dilakukan uji, metode yang paling cocok adalah metode imputasi mean dan modus.

Pengenalan

Setiap langkah dalam melakukan proses data mining membutuhkan ketelitian yang cukup.

Dari banyak proses yang terdapat pada data mining, proses yang perlu dilakukan dengan

sangat hati-hati adalah data preprocessing. Data preprocessing merupakan langkah yang

dilakukan sebelum masuk pada proses mining pada data. Data preprocessing berisi beberapa

kegiatan yang tujuan utamanya adalah melakukan pengenalan dan perbaikan pada data yang

akan diteliti. Perlunya perbaikan pada data yang akan diteliti disebabkan karena data mentah

cenderung tidak siap untuk di-mining. Contoh kasus yang paling banyak terjadi adalah

adanya missing values pada data. Missing value biasanya disebabkan karena nilai tidak

relevan dengan kasus yang sebenarnya, terlewat pada waktu pengumpulan data, atau ada

pengabaian pada waktu perngumpulan data[1].

Missing values bisa dibagi menjadi 3 kelas berbeda berdasarkan karakteristik antar

variabelnya[2] :

1. Missing Completely at Random(MCAR) : Missing values tidak bergantung pada data lain

Teknik Imputasi Missing Values pada Data Page 1 of 5


Mining : Studi Kasus pada Data Hepatitis |
Yohanes Eki Apriliawan
2. Missing at Random(MAR) : Missing values bergantung pada data lain, namun tidak

bergantung pada data itu sendiri

3. Not Missing at Random(NMAR) : Peluang adanya missing values bergantung pada nilai

atribut tersebut.

Pada umumnya, untuk menangani adanya missing data dapat dilakukan tiga kategori[2] :

1. Mengabaikan atau menghapus missing values : Ada dua pendekatan pada kategori ini,

yakni complete case analysis dan discarding instances or attributes.

2. Estimasi parameter : Melakukan estimasi parameter dengan menggunkan Maximum

Likelihood.

3. Imputasi : Mengisi missing values dengan menggunakan berbagi pendekatan.

Paper ini merupakan sebuah studi komparatif yang menguji keefektivitasan dari beberapa

metode imputasi pada missing values. Metode-metode yang dibandingkan dalam paper ini

adalah modus dan mean, K-Nearest Neighbor(KNN) Imputation, dan Singular Value

Decomposition(SVD) Imputation. Sedangkan data yang dijadikan kasus pada paper ini adalah

data hepatitis di sebuah rumah sakit di Amerika Serikat.

Metodologi

Seperti dijelaskan sebelumnya bahwa akan dibandingkan tiga metode yang antara lain :

1. Modus dan Mean

Metode ini merupakan metode yang digunakan yang paling sering digunakan. Cara kerja

metode ini adalah mengganti nilai missing values dengan nilai yang paling sering muncul

pada data kategori atau nilai rata-rata pada data numerik[3].

2. K-Nearest Neighbor Imputation


Teknik Imputasi Missing Values pada Data Page 2 of 5
Mining : Studi Kasus pada Data Hepatitis |
Yohanes Eki Apriliawan
Metode ini merupakan metode mengisi missing values dengan melihat kedekatan antara

dua instance yang berbeda menggunakan distance function[3]. Distance function yang

digunakan biasanya menggunakan Euclidean Distance[5] :

√∑(𝑞𝑖 − 𝑝𝑖 )2
𝑖=1

3. Singular Value Decomposition Imputation

Metode SVD Imputation merupakan metode yang menggambarkan sekumpulan data

menjadi sebuah matriks. Metode ini merupakan metode yang cukup mudah dilakukan.

Misal 𝑥𝑖𝑗 merupakan missing values pada 𝑋, maka[4] :

a. Menghilangkan baris ke-i kemudian menghitung nilai SVD untuk sisa data pada

matriks tersebut.

b. Menghilangkan kolom ke-j kemudian menghitung nilai SVD untuk sisa data pada

matriks tersebut.

c. Mengganti nilai 𝑥𝑖𝑗 tadi dengan :

Data yang dijadikan sebagai kasus adalah data pasien hepatitis di sebuah rumah sakit di

Amerika Serikat. Data tersebut terdiri dari 155 observasi dengan 20 variabel dengan 15

variabel kategori dan 5 variabel numerik. Teknik mining yang dilakukan dengan

menggunakan metode K-Nearest Neighbor dengan k=10. Sedangkan indikator pengukur

untuk menentukan efektivitas dari metode yang berbeda dengan menggunakan Accuracy

yang dihasilkan dengan Confusion Matrix.

Teknik Imputasi Missing Values pada Data Page 3 of 5


Mining : Studi Kasus pada Data Hepatitis |
Yohanes Eki Apriliawan
Hasil dan Kesimpulan

Hasil dari prediksi adalah sebagai berikut :

Metode Imputasi Error Akurasi Salah Prediksi

Mean dan Modus 15,385% 84,615% 6

K-Nearest Neighbor 17,949% 82,051% 7

SVD 20,513% 79,487% 8

Dari hasil tersebut dapat dilihat bahwa dari ketiga metode yang diujikan, metode imputasi

dengan metode Mean dan Modus adalah yang paling akurat dalam melakukan prediksi

dengan tingkat akurasi 84,615%. Sedangkan metode imputasi SVD adalah yang paling rendah

tingkat akurasinya dengan hanya 79,487%. Sedangkan dengan metode KNN dengan tingkat

akurasi 82,051% berada di tengah kedua metode tadi.

Hal ini menunjukkan bahwa data hepatitis yang dijadikan dalam studi kasus merupakan data

yang bersifat MCAR. Hal ini dapat dilihat dari tingginya tingkat akurasi metode imputasi

mean dan modus. Metode imputasi mean dan modus mengabaikan pengaruh antar variabel.

Kesimpulan yang dapat diambil dalam hasil uji di atas adalah untuk data hepatitis yang

bersifat MCAR, metode imputasi yang paling efektif adalah metode imputasi mean dan modus.

Metode yang cukup efektif adalah KNN, dan metode yang kurang efektif adalah metode SVD.

Keefektifan diukur dengan menggunakan akurasi dari class yang diprediksi.

Teknik Imputasi Missing Values pada Data Page 4 of 5


Mining : Studi Kasus pada Data Hepatitis |
Yohanes Eki Apriliawan
Referensi

[1]Gimpy, Vohra Dr. Rajan, Minakshi.2014.Estimation of Missing Values Using Decision Tree

Approach.IJCSIT Vol 5:5216

[2]Batista Gustavo, Monard Maria.2002.An Analysis of Four Missing Data Treatment

Methods for Supervised Learning.ICMC:2

[3]Acuna Edgar, Rodriguez Caroline.2003.The Treatment of Missing Values and Its Effect in

The Classifier Accuracy:2

[4]Lee, Ralph.2001.A Study of Imputation Algorithm.US Department of Education

Teknik Imputasi Missing Values pada Data Page 5 of 5


Mining : Studi Kasus pada Data Hepatitis |
Yohanes Eki Apriliawan

Anda mungkin juga menyukai