Teknik Imputasi Missing Valuespada Data Mining
Teknik Imputasi Missing Valuespada Data Mining
Teknik Imputasi Missing Valuespada Data Mining
12.7438
27 Juni 2015
Abstrak
Studi komparatif terhadap kasus dengan data pasien hepatitis di sebuah rumah sakit di
Amerika Serikat. Tahapan yang menjadi pusat perhatian adalah tahapan imputasi missing
values. Paper ini bertujuan untuk memilih metode yang paling cocok untuk melakukan
imputasi dengan dataset yang bersifat MCAR. Metode yang diujikan antara lain metode
imputasi mean dan modus, K-Nearest Neighbor, dan Singular Value Decomposition. Setelah
dilakukan uji, metode yang paling cocok adalah metode imputasi mean dan modus.
Pengenalan
Setiap langkah dalam melakukan proses data mining membutuhkan ketelitian yang cukup.
Dari banyak proses yang terdapat pada data mining, proses yang perlu dilakukan dengan
sangat hati-hati adalah data preprocessing. Data preprocessing merupakan langkah yang
dilakukan sebelum masuk pada proses mining pada data. Data preprocessing berisi beberapa
kegiatan yang tujuan utamanya adalah melakukan pengenalan dan perbaikan pada data yang
akan diteliti. Perlunya perbaikan pada data yang akan diteliti disebabkan karena data mentah
cenderung tidak siap untuk di-mining. Contoh kasus yang paling banyak terjadi adalah
adanya missing values pada data. Missing value biasanya disebabkan karena nilai tidak
relevan dengan kasus yang sebenarnya, terlewat pada waktu pengumpulan data, atau ada
Missing values bisa dibagi menjadi 3 kelas berbeda berdasarkan karakteristik antar
variabelnya[2] :
1. Missing Completely at Random(MCAR) : Missing values tidak bergantung pada data lain
3. Not Missing at Random(NMAR) : Peluang adanya missing values bergantung pada nilai
atribut tersebut.
Pada umumnya, untuk menangani adanya missing data dapat dilakukan tiga kategori[2] :
1. Mengabaikan atau menghapus missing values : Ada dua pendekatan pada kategori ini,
Likelihood.
Paper ini merupakan sebuah studi komparatif yang menguji keefektivitasan dari beberapa
metode imputasi pada missing values. Metode-metode yang dibandingkan dalam paper ini
adalah modus dan mean, K-Nearest Neighbor(KNN) Imputation, dan Singular Value
Decomposition(SVD) Imputation. Sedangkan data yang dijadikan kasus pada paper ini adalah
Metodologi
Seperti dijelaskan sebelumnya bahwa akan dibandingkan tiga metode yang antara lain :
Metode ini merupakan metode yang digunakan yang paling sering digunakan. Cara kerja
metode ini adalah mengganti nilai missing values dengan nilai yang paling sering muncul
dua instance yang berbeda menggunakan distance function[3]. Distance function yang
√∑(𝑞𝑖 − 𝑝𝑖 )2
𝑖=1
menjadi sebuah matriks. Metode ini merupakan metode yang cukup mudah dilakukan.
a. Menghilangkan baris ke-i kemudian menghitung nilai SVD untuk sisa data pada
matriks tersebut.
b. Menghilangkan kolom ke-j kemudian menghitung nilai SVD untuk sisa data pada
matriks tersebut.
Data yang dijadikan sebagai kasus adalah data pasien hepatitis di sebuah rumah sakit di
Amerika Serikat. Data tersebut terdiri dari 155 observasi dengan 20 variabel dengan 15
variabel kategori dan 5 variabel numerik. Teknik mining yang dilakukan dengan
untuk menentukan efektivitas dari metode yang berbeda dengan menggunakan Accuracy
Dari hasil tersebut dapat dilihat bahwa dari ketiga metode yang diujikan, metode imputasi
dengan metode Mean dan Modus adalah yang paling akurat dalam melakukan prediksi
dengan tingkat akurasi 84,615%. Sedangkan metode imputasi SVD adalah yang paling rendah
tingkat akurasinya dengan hanya 79,487%. Sedangkan dengan metode KNN dengan tingkat
Hal ini menunjukkan bahwa data hepatitis yang dijadikan dalam studi kasus merupakan data
yang bersifat MCAR. Hal ini dapat dilihat dari tingginya tingkat akurasi metode imputasi
mean dan modus. Metode imputasi mean dan modus mengabaikan pengaruh antar variabel.
Kesimpulan yang dapat diambil dalam hasil uji di atas adalah untuk data hepatitis yang
bersifat MCAR, metode imputasi yang paling efektif adalah metode imputasi mean dan modus.
Metode yang cukup efektif adalah KNN, dan metode yang kurang efektif adalah metode SVD.
[1]Gimpy, Vohra Dr. Rajan, Minakshi.2014.Estimation of Missing Values Using Decision Tree
[3]Acuna Edgar, Rodriguez Caroline.2003.The Treatment of Missing Values and Its Effect in