Anda di halaman 1dari 6

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/257604715

Imputasi Missing data Menggunakan Algoritma Pengelompokan Data K-


Harmonic Means

Conference Paper · January 2013

CITATIONS READS

3 5,022

2 authors:

Abidatul Izzah Nur Hayatin


Politeknik Kediri University of Muhammadiyah Malang
25 PUBLICATIONS   59 CITATIONS    39 PUBLICATIONS   22 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Open Web Directory for Children View project

Improved Linear Regression View project

All content following this page was uploaded by Abidatul Izzah on 24 February 2014.

The user has requested enhancement of the downloaded file.


Seminar Nasional Matematika dan Aplikasinya 2013

Imputasi Missing data Menggunakan Algoritma


Pengelompokan Data K-Harmonic Means
Abidatul Izzah 1), Nur Hayatin 2)
1)
Jurusan Teknik Informatika ITS Surabaya
Jl. Teknik Kimia Kampus Teknik Informatika ITS Surabaya
2)
Teknik Informatika Universitas Muhammadiyah Malang
Jl. Raya Tlogomas 246, Malang Indonesia
1)
aza.syaifa@gmail.com
2)
noorhayatin@umm.ac.id

Abstract— Missing data adalah hilangnya suatu nilai permasalahan yang berkaitan dengan missing data.
atribut tertentu pada suatu instance dataset. Metode yang umum digunakan adalah dengan cara
Permasalahan ini disebabkan oleh tidak adanya data membuang data yang mengandung missing (case
di lapangan atau adanya kesalahan dalam deletion). Beberapa metode telah dikembangkan
pencacahan. Metode yang sering digunakan untuk
mengatasi permasalahan ini adalah dengan mengisi
khusus untuk menangani missing data. Salah satu
nilai dari rataan atribut yang ada atau metode tersebut adalah teknik imputasi. Teknik
menghilangkan instance yang mengandung missing imputasi sendiri dibedakan menjadi beberapa
data. Penggunaan metode ini dirasa kurang efektif metode, yang paling popular adalah: mean,
karena dapat menghilangkan informasi penting median, modus, dan klasterisasi.
yang mungkin terdapat pada data yang dibuang. Imputasi missing data pernah dilakukan oleh
Metode lain yang digunakan adalah dengan Malarvizhi menggunakan KM. Dalam penelitian
mengestimasi nilai missing data atau yang dikenal tersebut dilakukan analisa kinerja KM dan K-
dengan imputasi data. Salah satu teknik imputasi
Nearest Neighbour (KNN) untuk imputasi missing
yang digunakan adalah algoritma pengelompokan
data K-Means (KM). Dalam perkembangannya, KM
data. Analisa dilakukan dengan cara
telah disempurnakan untuk menghindari pengaruh membandingkan akurasi dari hasil klasterisasi
dari data-data yang ada di sekitar titik tengah kedua metode tersebut. Hasil pengujian
klaster, metode pengelompokan data ini disebut menunjukkan bahwa KM menunjukkan akurasi
dengan K-Harmonic Means (KHM). KHM kurang baik dibanding KNN. Hal ini
merupakan variasi model KM dalam hal fungsi dimungkinkan karena KM memiliki kelemahan
obyektif yang digunakan. Penelitian ini bertujuan pada inisialisasi centroid (Malarvizhi dkk, 2012).
untuk mengimputasi nilai yang hilang pada suatu K-Means (KM) adalah salah satu algoritma
data menggunakan K-Harmonic Means. Algoritma
pengelompokan data yang dapat digunakan untuk
KHM digunakan untuk menentukan titik centroid
yang digunakan untuk mengestimasi nilai missing melakukan imputasi pada missing data. Algoritma
data. Data yang digunakan dalam penelitian ini KM mengelompokkan data (klasterisasi)
adalah lima dataset yang diperoleh dari UCI berdasarkan titik pusat klaster (centroid). Pen
Machine Learning. Dengan menggunakan (1999) telah melakukan perbandingan empat
pendekatan metode ini diharapkan hasil imputasi teknik inisialisasi centroid, yaitu random, Forgy,
missing data yang diperoleh memiliki Mean Square MacQueen dan Kaufman. Proses inisialisasi
Error (MSE) sekecil mungkin. centroid sangat mempengaruhi hasil klasterisasi
sehingga permasalahan sensitifitas terhadap
Keywords— Imputasi, K-Harmonic Means, K- penentuan titik awal menjadi kelemahan metode
Means, Missing data
ini Jika inisialisasi centroid kurang optimal, maka
I. PENDAHULUAN hasil klasterisasi juga akan kurang optimal.
Disamping itu titik awal pusat klaster yang
Dalam kasus nyata, banyak sekali ditemukan ditentukan secara random sangat memungkinkan
dataset yang setengah dari fiturnya hilang. hasil klaster konvergen pada lokal optimal Hal
Permasalahan ini disebut dengan missing data. inilah yang menjadi salah satu kelemahan KM
Missing data dapat diakibatkan oleh kesalahan (Pen, 1999). Untuk mengatasi masalah yang terjadi
sistem maupun human error. Dalam banyak kasus pada inisialisasi pusat klaster, Zhang, Hsu, dan
yang berkaitan dengan pengenalan pola maupun Dayal (Zhang dkk, 1999) mengusulkan sebuah
klasifikasi, missing data merupakan permasalahan metode baru yang diberi nama K-Harmonic Means
yang dapat mempengaruhi hasil klasifikasi. (KHM) yang kemudian dimodifikasi oleh
Missing data menjadi kelemahan umum dalam Hammerly dan Elkan (Hammerly, 2002).
klasifikasi dimana hampir semua metode Penelitian ini bertujuan untuk menerapkan
klasifikasi hanya dapat bekerja pada data yang algoritma KHM sebagai algoritma untuk imputasi
lengkap. Hal ini yang mendorong perlunya dicari missing data agar didapatkan estimasi nilai untuk
metode khusus untuk penanganan terhadap data missing yang lebih mendekati nilai
Seminar Nasional Matematika dan Aplikasinya 2013

sebenarnya. Penelitian ini juga membandingkan dengan cara mendapatkan pola dari data yang
beberapa metode imputasi yang lain (KM, Mean, memiliki fitur lengkap. Beberapa metode imputasi
dan Median) untuk mengetahui kinerja dari metode yang populer adalah: Mean, Median/Modus dan
tersebut dengan menganalisa klasterisasi data yang klasterisasi.
dihasilkan. Missing data adalah suatu kondisi dimana
data tidak ada atau data hilang. Terdapat 3
II. STUDI PUSTAKA mekanisme penghilangan data, antara laon
A. Pengelompokan Data Missing Completely at Random (MCAR), yaitu
jika distribusi data yang hilang pada suatu atibut
Pengelompokkan data dalam data mining
tidak tergantung pada data pengamatan atau
dibedakan menjadi 2, yaitu klasifikasi dan
missing data. Metode ini akan menggunakan
klasterisasi. Klasifikasi adalah pengelompokkan
dataset komplit kemudian membangkitkan missing
data yang membutuhkan data latih (supervised).
data secara acak berdasarkan proporsi tertentu.
Sedangkan klasterisasi adalah pengelompokkan
Keuntungan dari metode ini adalah memudahkan
data tanpa membutuhkan data latih (unsupervised).
para peneliti untuk estimasi komputasi dari model
Du (2010) menjelaskan bahwa klasterisasi
yang diusulkan Mekanisme lain adalah Missing at
adalah proses membagi data yang tidak berlabel
Random (MAR), yaitu jika distribusi data yang
menjadi kelompok-kelompok data yang memiliki
hilang pada suatu atribut tergantung pada data
kemiripan. Setiap kelompok data (klaster) terdiri
pengamatan tetapi tidak tergantung pada missing
dari obyek yang memiliki kemiripan satu sama lain
data. Yang terakhir adalah Not Missing at
dan setiap klaster memiliki ketidakmiripan dengan
Random (NMAR), jika distribusi data yang hilang
klaster lain. Klasterisasi lazim digunakan dalam
pada suatu atribut tergantung pada missing data
analisis data multivariat.
(Pigott dan Therese, 2011)..
Misalkan K adalah jumlah klaster, C
merupakan label klaster, dan P merupakan dataset.
Klasterisasi harus memenuhi kriteria sebagai C. K-Means
berikut: Algoritma KM merupakan algoritma
klasterisasi yang mengelompokkan data
Ci  , i  {1,2,..., K} (1) berdasarkan titik pusat klaster (centroid) terdekat
Ci  C j  , i  j and i, j {1,2,..., K} (2) dengan data. Tujuan dari KM adalah
K
pengelompokkan data dengan memaksimalkan
P (3) kemiripan data dalam satu klaster dan
C i
i 1 meminimalkan kemiripan data antar klaster.
Ukuran kemiripan yang digunakan dalam klaster
adalah fungsi jarak. Sehingga pemaksimalan
B. Imputasi Missing Data
kemiripan data didapatkan berdasarkan jarak
Missing data adalah suatu kondisi hilangnya terpendek antara data terhadap titik centroid.
sebagian fitur pada dataset. Missing data dapat Tahapan awal yang dilakukan pada proses
disebabkan oleh kesalahan sistem seperti tidak klasterisasi data dengan menggunakan algoritma
adanya respon terhadap sensor atau perangkat KM adalah pembentukan titik awal centroid cj
penerima input. Dapat pula disebabkan oleh human Pada umumnya pembentukan titik awal centroid
error seperti ketidaklengkapan memasukkan data dibangkitkan secara acak. Jumlah centroid cj yang
pada database atau ketidakpahaman responden dibangkitkan sesuai dengan jumlah klaster yang
dalam pengisian kuisioner pada survey skala besar ditentukan di awal. Setelah k centroid terbentuk
sehingga melewati form isian yang telah kemudian dihitung jarak tiap data xi dengan
disediakan. Metode yang ada pada data mining centroid ke-j sampai k, dinotasikan dengan d(xi,cj).
hanya dapat memroses data yang memiliki Terdapat beberapa ukuran jarak yang digunakan
kelengkapan fitur sehingga dibutuhkan sebagai ukuran kemiripan suatu instance data,
penanganan khusus terhadap permasalahan ini. salah satunya adalah jarak Euclid. Perhitungan
Ada 3 metode yang digunakan untuk penanganan jarak Euclidean seperti pada Persamaan 4.
missing data, yaitu : Case Deletion, Parameter
Estimation, dan Imputation Techniques (Little dan
Rubin, 2002).
Case deletion merupakan metode yang paling
mudah yaitu dengan cara menghapus data yang
mengandung missing. Kelemahan dari metode ini Jika semakin kecil, kesamaan antara
adalah dimungkinkan informasi-informasi penting
dua unit pengamatan semakin dekat. Syarat
ikut terhapus ketika missing data dihapus. Teknik
menggunakan jarak Euclid adalah jika semua fitur
imputasi merupakan metode penanganan missing
dalam dataset tidak saling berkorelasi. Jika
data yang lebih banyak diteliti. Imputasi data
terdapat fitur yang berkorelasi maka menggunakan
adalah memperkirakan nilai pada missing data
Seminar Nasional Matematika dan Aplikasinya 2013

konsep jarak Mahalanobis (Duran dan Odell, Selanjutnya untuk setiap data xi, hitung nilai
1974). keanggotaan m(cl|xi) untuk setiap titik pusat klaster
Selanjutnya dari jarak tersebut dicari yang cl berdasarkan Persamaan 6.
terdekat sehingga data akan mengelompok || x  c ||  p2
berdasarkan centroid yang paling dekat. Tahap m(cl | xi )  k i l
berikutnya adalah update titik centroid dengan  || xi  cl ||  p2
l 1 (6)
menghitung rata-rata jarak seluruh data terhadap
centroid. Selanjutnya akan kembali lagi ke proses Untuk setiap data xi, hitung nilai bobot w(xi)
awal. Iterasi ini akan diulangi terus sampai berdasarkan Persamaan 7.
K
didapatkan centroid yang konstan artinya titik  || xi  cl ||  p 2
centroid sudah tidak berubah lagi. Atau iterasi w( xi )  l 1
2
dihentikan berdasarkan jumlah iterasi maksimal  K || x  c ||  p 
 i l 
yang ditentukan (Agusta, 2007). Gambar 1  l 1 
(7)
menunjukkan diagram alur algoritma KM. Untuk setiap titik pusat cj, ulang kembali
perhitungan untuk posisi titik pusat klaster dari
Tentukan k
semua data berdasarkan nilai keanggotaan dan
bobot yang dimiliki tiap data. Penentuan posisi
Bangkitkan titik pusat ini berdasarkan Persamaan 8.
centroid {cj,..,ck} N
 m(cl | xi ).w( xi ).xi
cl  i 1
N
Hitung dij(xi,cj),  m(cl | xi ).w( xi )
{i=1,..,N},{j=1,..,k} i 1 (8)
Ulangi perhitungan nilai fungsi tujuan sampai
Tentukan klaster update centroid sampai mendapatkan nilai fungsi
untuk tiap anggota tujuan yang tidak terdapat perubahan atau kurang
dari ambang batas. Tetapkan keanggotaan data xi
pada suatu klaster dengan titik pusat klaster cj
sesuai dengan nilai keanggotaan xi terhadap cj.
N Update Tahapan KHM dapat dilihat pada Gambar 2.
centroid

Inisialisasi centroid ci
Y

Kelompok data
Tent nilai parameter p

Gambar 1. Diagram Prosedur KM


Hitung nilai keanggotaan tiap centroid
m(cl|xi) dan nilai bobot w(xi)
D. K-Harmonic Means
Algoritma KHM merupakan pengembangan
dari KM yang memperbaiki kekurangan dari KM Hitung nilai posisi centroid ci baru
dengan menggunakan fungsi obyektif yang
didapatkan dengan cara meminimalisasi rata-rata
harmonik dari jarak seluruh data dengan tiap Tetapkan keanggotaan data xi pada
centroid. Dari hasil penelitian menunjukkan bahwa suatu klaster dengan titik pusat klaster
KHM tidak sensitif terhadap inisialisasi centroid cj
dan secara signifikan meningkatkan kualitas
klasterisasi dibandingkan dengan KM (Zhang dkk Gambar 2. Diagram Prosedur KHM
1999).
Widiartha (2012) menjelaskan langkah-langkah III. METODE
KHM sebagai berikuy: Langkah pertama KHM Untuk mengimplementasikan algoritma
adalah inisialisasi posisi titik pusat klaster awal pengelompokan data KHM sebagai metode
secara random. Kemudian jika p adalah input imputasi missing data, langkah pertama adalah
parameter dan biasanya nilai p ≥ 2. hitung nilai membagi data yang digunakan menjadi data latih
fungsi tujuan Persamaan 5. dan data uji. Data yang digunakan adalah data
N K komplit yang tidak mengandung missing data.
KHM ( X , C )  
i 1
K 1 Langkah berikutnya adalah melakukan

l 1 || xi  cl ||
p
(5) pengelompokan data dari data latih tersebut
menggunakan KHM. Dari proses pengelompokan
Seminar Nasional Matematika dan Aplikasinya 2013

Dataset

Membangkitkan missing data


(proporsi = 10%, 30% 50%)

Imputasi dengan Imputasi dengan Imputasi dengan Imputasi dengan


KHM KM Mean Median

Membandingkan
nilai MSE

Gambar 3. Bagan Penelitian

ini akan diperoleh masing-masing centroid untuk


B. Skenario Uji Coba
setiap kelompok data.
Kemudian pada data uji dilakukan Pengujian dilakukan pada beberapa metode
penghilangan nilai atribut menggunakan teknik imputasi untuk menganalisa performa dari metode
MCAR hingga data uji terdiri dari data komplit Dc imputasi. Pada penelitian ini terdapat 4 metode
dan data missing Dm. Proporsi penghilangan nilai yang akan diujicobakan yaitu KHM, KM, Mean,
atribut ini sebesar 10%, 30%, dan 50%. Kemudian dan Median. Proses pertama yang akan dilakukan
dilakukan tahap imputasi dengan menghitung jarak untuk imputasi data dari data komplit adalah
Euclidean sesuai dengan Persamaan 1 antara membangkitkan missing data. Dengan cara
setiap data uji yang mengandung missing data Dm menghilangkan beberapa instance secara acak,
dengan masing-masing titik centroid pada setiap berturut-turut dengan proporsi 10%, 30%, dan
kelompok data. 50%.
Centroid terdekat berdasarkan jarak tersebut Setelah diperoleh dataset dengan missing data,
akan mengisi atribut yang hilang pada Dm. Proses proses imputasi dilakukan. Evaluasi dari hasil
ini dilakukan sampai seluruh missing data terisi. imputasi dilihat dari perhitungan MSE. Dalam
Evaluasi dilakukan dengan menghitung nilai setiap imputasi untuk masing-masing dataset dan
Mean Square Error (MSE) antara nilai imputasi proporsi dilakukan 10 kali replikasi. Dimana dari
dengan nilai real. Jika setiap replikasi akan dihitung nilai MSE sehingga
merupakan dataset real dan dari 10 replikasi akan didapatkan nilai rata-rata
merupakan dataset hasil MSE untuk tiap metode. Pada akhirnya uji one way
imputasi maka MSE dapat ditentukan dengan ANOVA dilakukan untuk mengetahui performa
persamaan : terbaik dari metode yang diujikan
C. Hasil Uji Coba
Pada pengujian menggunakan metode KHM,
Bagan metode penelitian ini dapat dilihat pada parameter yang digunakan adalah p = 2. Berikut ini
Gambar 3. Tabel 2 menunjukkan nilai rata-rata MSE yang
IV. UJI COBA DAN ANALISIS diperoleh dari 10 replikasi.

A. Data Uji Coba


Data yang digunakan dalam uji coba ini TABEL 2. HASIL UJI COBA
adalah dataset iris, wine, dan glass yang diambil Rata-rata MSE
Metode Proporsi
dai UCI Machine Learning Repository. Dataset Iris Glass Wine
tersebut merupakan dataset yang lengkap yang 10% 0.0032 0.0032 0.0184
tidak terdapat missing value pada data.
KHM 30% 0.029 0.0009 0.0006
Karakteristik dataset tersebut dapat dilihat pada
Tabel 1. 50% 0.0557 0.0011 0.0008
TABEL 1. DATASET
10% 0.0047 0.0114 0.016
Dataset Instance Atribut
Iris 150 4 KM 30% 0.0622 0.0013 0.0007
Wine 178 13
Glass 214 10 50% 0.0716 0.0015 0.0009
Seminar Nasional Matematika dan Aplikasinya 2013

Rata-rata MSE KHM memberikan nilai MSE yang sama dengan


Metode Proporsi
Iris Glass Wine metode imputasi KNN dan Median. Hal ini
10% 0.0360 0.0159 0.0822 disebabkan proses pemilihan data hilang adalah
secara random sehingga adakalanya nilai nilai
Mean 30% 0.0926 0.0013 0.0009 yang hilang merupakan median itu sendiri.
50% 0.1199 0.0013 0.0013
V. KESIMPULAN
10% 0.0384 0.0279 0.103
Hasil imputasi menggunakan KHM
Median 30% 0.1048 0.0017 0.0011 memberikan nilai MSE paling kecil untuk semua
50% 0.1236 0.0016 0.0014 dataset yakni 0.0293 untuk dataset Iris, 0.001733
untuk dataset Glass, dan 0.0066 untuk dataset
Wine. Jika dibandingkan dengan teknik imputasi
Dari pengamatan secara rata-rata metode KM, Mean, dan Median, secara rata-rata imputasi
imputasi pengelompokan data KHM memiliki missing data menggunakan algoritma
MSE paling rendah. Dalam pengujian data hasil pengelompokan data KHM menunjukkan hasil
10 replikasi antara metode KHM dengan KM, yang lebih baik. Namun hasil uji statistik
Mean, dan Median diatas digunakan uji statistik menunjukkan bahwa perbedaan secara signifikan
ANOVA dengan taraf kepercayaan 95%. Dengan terjadi antara KHM dengan Mean dan Median,
menggunakan software SPSS 17, diperoleh nilai tidak dengan KM. Dari hasil yang telah
p-value untuk perbandingan metode KHM dengan didapatkan, dapat disimpulkan bahwa secara rata-
metode imputasi KM, Mean, dan Median dapat rata KHM mampu memberikan nilai akurasi yang
dilihat pada Tabel 3. Nilai yang ditunjukkan lebih baik jika dibandingkan dengan metode KM
adalah nilai p-value antara metode KHM dengan namun perbedaan ini tidak terlihat signifikan.
metode lainnya.
DAFTAR PUSTAKA
Tabel 3. HASIL UJI STATISTIK Agusta, Y, 2007, K-Means – Penerapan, Permasalahan dan
p Metode Terkait. Jurnal Sistem dan Informatika
Metode Data Proporsi Vol. 3, 47-60
KM Mean Median Du, K.L., 2010, Clustering A neural network approach.
Neural Network, 23, pp.89-107
10% 0.994 0 0
Duran, B.S., Odell, P.L.,1974, Cluster Analysis : A Survey,
Iris 30% 0.514 0.054 0.016 Springer-Verlag, Berlin and New York
Little, R. J. dan Rubin, D.B. 2002. Statistical analysis with
50% 0.919 0.065 0.046 missing data. Second Edition. John Wiley and
Sons, New York.
10% 0.985 0.948 0.723 Hammerly, G., dan Elkan, C., 2002, Alternatives to The K-
KHM Glass 30% 0.887 0.89 0.457 Means Algorithm that Find Better Clusterings,
Proceedings of the 11th international conference
50% 0.684 0.937 0.468 on information and knowledge management, hal.
600–607.
10% 1 0.76 0.567 Malarvizhi, T. 2012, K-NN classifier performs better than k-
means clustering in missing value imputation,
Wine 30% 0.976 0.585 0.18
IOSR Journal of Computer Engineering, Vol.6,
50% 0.983 0.029 0.009 No. 5, hal 12-15.
Pen, J.M., Lozano, J.A., dan Larranaga, P. (1999), An
Empirical Comparison of Four Initialization
Jika diambil nilai α = 0.05, maka hal ini Methods for The K-Means Algorithm, Pattern
menunjukkan bahwa metode imputasi KHM Recognition Letters, Vol. 20, hal. 1027-1040.
Pigott D.T., 2011. A review of methods for missing data.
menunjukkan hasil yang baik secara signifikan Educational Research and Evaluation, Vol. 7,
jika dibandingkan dengan Mean dan Median, No.4, hal. 353-383.
namun tidak untuk KM karena nilai yang Widiartha, I.M, Arifin, A.Z., Yuniarti, A., 2012, Klasterisasi
ditunjukkan kurang dari nilai batas α. Dari sini Data Iris Menggunakan Metode Berbasis
Artificial Bee Colony Dan K-Harmonic Means
bisa disimpulkan bahwa secara rata-rata metode Tesis Pascasarjana Jurusan T. Informatika, FTIF,
KHM memiliki performa yang bagus dengan Institut Teknologi Sepuluh Nopember, Surabaya.
menghasilkan MSE yang paling kecil jika Zhang, B., Hsu, M., dan Dayal, U. 1999, K-Harmonic Means –
dibandingkan dengan tiga metode A Data Clustering Algorithm, Technical Report
HPL-1999-124, Hewlett-Packard Laboratories.
pembandingnya. Namun, pada kasus tertentu

View publication stats

Anda mungkin juga menyukai