Teknik Imputasi Missing Valuespada Data Mining

Teknik Imputasi Missing Values pada Data
Mining : Studi Kasus pada Data Hepatitis
Yohanes Eki Apriliawan
12.7438
27 Juni 2015
Abstrak
Studi komparatif terhadap kasus dengan data pasien hepatitis di sebuah rumah sakit di
Amerika Serikat. Tahapan yang menjadi pusat perhatian adalah tahapan imputasi missing
values. Paper ini bertujuan untuk memilih metode yang paling cocok untuk melakukan
imputasi dengan dataset yang bersifat MCAR. Metode yang diujikan antara lain metode
imputasi mean dan modus, K-Nearest Neighbor, dan Singular Value Decomposition. Setelah
dilakukan uji, metode yang paling cocok adalah metode imputasi mean dan modus.
Pengenalan
Setiap langkah dalam melakukan proses data mining membutuhkan ketelitian yang cukup.
Dari banyak proses yang terdapat pada data mining, proses yang perlu dilakukan dengan
sangat hati-hati adalah data preprocessing. Data preprocessing merupakan langkah yang
dilakukan sebelum masuk pada proses mining pada data. Data preprocessing berisi beberapa
kegiatan yang tujuan utamanya adalah melakukan pengenalan dan perbaikan pada data yang
akan diteliti. Perlunya perbaikan pada data yang akan diteliti disebabkan karena data mentah
cenderung tidak siap untuk di-mining. Contoh kasus yang paling banyak terjadi adalah
adanya missing values pada data. Missing value biasanya disebabkan karena nilai tidak
relevan dengan kasus yang sebenarnya, terlewat pada waktu pengumpulan data, atau ada
pengabaian pada waktu perngumpulan data[1].
Missing values bisa dibagi menjadi 3 kelas berbeda berdasarkan karakteristik antar
variabelnya[2] :
1. Missing Completely at Random(MCAR) : Missing values tidak bergantung pada data lain
Teknik Imputasi Missing Values pada Data Page 1 of 5

Mining : Studi Kasus pada Data Hepatitis |
2. Missing at Random(MAR) : Missing values bergantung pada data lain, namun tidak
bergantung pada data itu sendiri
3. Not Missing at Random(NMAR) : Peluang adanya missing values bergantung pada nilai
atribut tersebut.
Pada umumnya, untuk menangani adanya missing data dapat dilakukan tiga kategori[2] :
1. Mengabaikan atau menghapus missing values : Ada dua pendekatan pada kategori ini,
yakni complete case analysis dan discarding instances or attributes.
2. Estimasi parameter : Melakukan estimasi parameter dengan menggunkan Maximum
Likelihood.
3. Imputasi : Mengisi missing values dengan menggunakan berbagi pendekatan.
Paper ini merupakan sebuah studi komparatif yang menguji keefektivitasan dari beberapa
metode imputasi pada missing values. Metode-metode yang dibandingkan dalam paper ini
adalah modus dan mean, K-Nearest Neighbor(KNN) Imputation, dan Singular Value
Decomposition(SVD) Imputation. Sedangkan data yang dijadikan kasus pada paper ini adalah
data hepatitis di sebuah rumah sakit di Amerika Serikat.
Metodologi
Seperti dijelaskan sebelumnya bahwa akan dibandingkan tiga metode yang antara lain :
1. Modus dan Mean
Metode ini merupakan metode yang digunakan yang paling sering digunakan. Cara kerja
metode ini adalah mengganti nilai missing values dengan nilai yang paling sering muncul
pada data kategori atau nilai rata-rata pada data numerik[3].
2. K-Nearest Neighbor Imputation

Metode ini merupakan metode mengisi missing values dengan melihat kedekatan antara
dua instance yang berbeda menggunakan distance function[3]. Distance function yang
digunakan biasanya menggunakan Euclidean Distance[5] :
√∑(𝑞𝑖 − 𝑝𝑖 )2
𝑖=1
3. Singular Value Decomposition Imputation
Metode SVD Imputation merupakan metode yang menggambarkan sekumpulan data
menjadi sebuah matriks. Metode ini merupakan metode yang cukup mudah dilakukan.
Misal 𝑥𝑖𝑗 merupakan missing values pada 𝑋, maka[4] :
a. Menghilangkan baris ke-i kemudian menghitung nilai SVD untuk sisa data pada
matriks tersebut.
b. Menghilangkan kolom ke-j kemudian menghitung nilai SVD untuk sisa data pada
matriks tersebut.
c. Mengganti nilai 𝑥𝑖𝑗 tadi dengan :
Data yang dijadikan sebagai kasus adalah data pasien hepatitis di sebuah rumah sakit di
Amerika Serikat. Data tersebut terdiri dari 155 observasi dengan 20 variabel dengan 15
variabel kategori dan 5 variabel numerik. Teknik mining yang dilakukan dengan
menggunakan metode K-Nearest Neighbor dengan k=10. Sedangkan indikator pengukur
untuk menentukan efektivitas dari metode yang berbeda dengan menggunakan Accuracy
yang dihasilkan dengan Confusion Matrix.

Hasil dan Kesimpulan
Hasil dari prediksi adalah sebagai berikut :
Metode Imputasi Error Akurasi Salah Prediksi
Mean dan Modus 15,385% 84,615% 6
K-Nearest Neighbor 17,949% 82,051% 7
SVD 20,513% 79,487% 8
Dari hasil tersebut dapat dilihat bahwa dari ketiga metode yang diujikan, metode imputasi
dengan metode Mean dan Modus adalah yang paling akurat dalam melakukan prediksi
dengan tingkat akurasi 84,615%. Sedangkan metode imputasi SVD adalah yang paling rendah
tingkat akurasinya dengan hanya 79,487%. Sedangkan dengan metode KNN dengan tingkat
akurasi 82,051% berada di tengah kedua metode tadi.
Hal ini menunjukkan bahwa data hepatitis yang dijadikan dalam studi kasus merupakan data
yang bersifat MCAR. Hal ini dapat dilihat dari tingginya tingkat akurasi metode imputasi
mean dan modus. Metode imputasi mean dan modus mengabaikan pengaruh antar variabel.
Kesimpulan yang dapat diambil dalam hasil uji di atas adalah untuk data hepatitis yang
bersifat MCAR, metode imputasi yang paling efektif adalah metode imputasi mean dan modus.
Metode yang cukup efektif adalah KNN, dan metode yang kurang efektif adalah metode SVD.
Keefektifan diukur dengan menggunakan akurasi dari class yang diprediksi.

Referensi
[1]Gimpy, Vohra Dr. Rajan, Minakshi.2014.Estimation of Missing Values Using Decision Tree
Approach.IJCSIT Vol 5:5216
[2]Batista Gustavo, Monard Maria.2002.An Analysis of Four Missing Data Treatment
Methods for Supervised Learning.ICMC:2
[3]Acuna Edgar, Rodriguez Caroline.2003.The Treatment of Missing Values and Its Effect in
The Classifier Accuracy:2
[4]Lee, Ralph.2001.A Study of Imputation Algorithm.US Department of Education


Teknik Imputasi Missing Valuespada Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Anda mungkin juga menyukai

Teknik Imputasi Missing Valuespada Data Mining

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Teknik Imputasi Missing Valuespada Data Mining

Diunggah oleh

Hak Cipta:

Format Tersedia

Teknik Imputasi Missing Values pada Data

Mining : Studi Kasus pada Data Hepatitis

Yohanes Eki Apriliawan

pengabaian pada waktu perngumpulan data[1].

Teknik Imputasi Missing Values pada Data Page 1 of 5

bergantung pada data itu sendiri

yakni complete case analysis dan discarding instances or attributes.

2. Estimasi parameter : Melakukan estimasi parameter dengan menggunkan Maximum

3. Imputasi : Mengisi missing values dengan menggunakan berbagi pendekatan.

data hepatitis di sebuah rumah sakit di Amerika Serikat.

1. Modus dan Mean

pada data kategori atau nilai rata-rata pada data numerik[3].

2. K-Nearest Neighbor Imputation

digunakan biasanya menggunakan Euclidean Distance[5] :

3. Singular Value Decomposition Imputation

Metode SVD Imputation merupakan metode yang menggambarkan sekumpulan data

Misal 𝑥𝑖𝑗 merupakan missing values pada 𝑋, maka[4] :

c. Mengganti nilai 𝑥𝑖𝑗 tadi dengan :

menggunakan metode K-Nearest Neighbor dengan k=10. Sedangkan indikator pengukur

yang dihasilkan dengan Confusion Matrix.

Teknik Imputasi Missing Values pada Data Page 3 of 5

Hasil dari prediksi adalah sebagai berikut :

Metode Imputasi Error Akurasi Salah Prediksi

Mean dan Modus 15,385% 84,615% 6

K-Nearest Neighbor 17,949% 82,051% 7

SVD 20,513% 79,487% 8

akurasi 82,051% berada di tengah kedua metode tadi.

Keefektifan diukur dengan menggunakan akurasi dari class yang diprediksi.

Teknik Imputasi Missing Values pada Data Page 4 of 5

Approach.IJCSIT Vol 5:5216

[2]Batista Gustavo, Monard Maria.2002.An Analysis of Four Missing Data Treatment

Methods for Supervised Learning.ICMC:2

The Classifier Accuracy:2

[4]Lee, Ralph.2001.A Study of Imputation Algorithm.US Department of Education

Teknik Imputasi Missing Values pada Data Page 5 of 5

Anda mungkin juga menyukai