net/publication/257604715
CITATIONS READS
3 5,022
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Abidatul Izzah on 24 February 2014.
Abstract— Missing data adalah hilangnya suatu nilai permasalahan yang berkaitan dengan missing data.
atribut tertentu pada suatu instance dataset. Metode yang umum digunakan adalah dengan cara
Permasalahan ini disebabkan oleh tidak adanya data membuang data yang mengandung missing (case
di lapangan atau adanya kesalahan dalam deletion). Beberapa metode telah dikembangkan
pencacahan. Metode yang sering digunakan untuk
mengatasi permasalahan ini adalah dengan mengisi
khusus untuk menangani missing data. Salah satu
nilai dari rataan atribut yang ada atau metode tersebut adalah teknik imputasi. Teknik
menghilangkan instance yang mengandung missing imputasi sendiri dibedakan menjadi beberapa
data. Penggunaan metode ini dirasa kurang efektif metode, yang paling popular adalah: mean,
karena dapat menghilangkan informasi penting median, modus, dan klasterisasi.
yang mungkin terdapat pada data yang dibuang. Imputasi missing data pernah dilakukan oleh
Metode lain yang digunakan adalah dengan Malarvizhi menggunakan KM. Dalam penelitian
mengestimasi nilai missing data atau yang dikenal tersebut dilakukan analisa kinerja KM dan K-
dengan imputasi data. Salah satu teknik imputasi
Nearest Neighbour (KNN) untuk imputasi missing
yang digunakan adalah algoritma pengelompokan
data K-Means (KM). Dalam perkembangannya, KM
data. Analisa dilakukan dengan cara
telah disempurnakan untuk menghindari pengaruh membandingkan akurasi dari hasil klasterisasi
dari data-data yang ada di sekitar titik tengah kedua metode tersebut. Hasil pengujian
klaster, metode pengelompokan data ini disebut menunjukkan bahwa KM menunjukkan akurasi
dengan K-Harmonic Means (KHM). KHM kurang baik dibanding KNN. Hal ini
merupakan variasi model KM dalam hal fungsi dimungkinkan karena KM memiliki kelemahan
obyektif yang digunakan. Penelitian ini bertujuan pada inisialisasi centroid (Malarvizhi dkk, 2012).
untuk mengimputasi nilai yang hilang pada suatu K-Means (KM) adalah salah satu algoritma
data menggunakan K-Harmonic Means. Algoritma
pengelompokan data yang dapat digunakan untuk
KHM digunakan untuk menentukan titik centroid
yang digunakan untuk mengestimasi nilai missing melakukan imputasi pada missing data. Algoritma
data. Data yang digunakan dalam penelitian ini KM mengelompokkan data (klasterisasi)
adalah lima dataset yang diperoleh dari UCI berdasarkan titik pusat klaster (centroid). Pen
Machine Learning. Dengan menggunakan (1999) telah melakukan perbandingan empat
pendekatan metode ini diharapkan hasil imputasi teknik inisialisasi centroid, yaitu random, Forgy,
missing data yang diperoleh memiliki Mean Square MacQueen dan Kaufman. Proses inisialisasi
Error (MSE) sekecil mungkin. centroid sangat mempengaruhi hasil klasterisasi
sehingga permasalahan sensitifitas terhadap
Keywords— Imputasi, K-Harmonic Means, K- penentuan titik awal menjadi kelemahan metode
Means, Missing data
ini Jika inisialisasi centroid kurang optimal, maka
I. PENDAHULUAN hasil klasterisasi juga akan kurang optimal.
Disamping itu titik awal pusat klaster yang
Dalam kasus nyata, banyak sekali ditemukan ditentukan secara random sangat memungkinkan
dataset yang setengah dari fiturnya hilang. hasil klaster konvergen pada lokal optimal Hal
Permasalahan ini disebut dengan missing data. inilah yang menjadi salah satu kelemahan KM
Missing data dapat diakibatkan oleh kesalahan (Pen, 1999). Untuk mengatasi masalah yang terjadi
sistem maupun human error. Dalam banyak kasus pada inisialisasi pusat klaster, Zhang, Hsu, dan
yang berkaitan dengan pengenalan pola maupun Dayal (Zhang dkk, 1999) mengusulkan sebuah
klasifikasi, missing data merupakan permasalahan metode baru yang diberi nama K-Harmonic Means
yang dapat mempengaruhi hasil klasifikasi. (KHM) yang kemudian dimodifikasi oleh
Missing data menjadi kelemahan umum dalam Hammerly dan Elkan (Hammerly, 2002).
klasifikasi dimana hampir semua metode Penelitian ini bertujuan untuk menerapkan
klasifikasi hanya dapat bekerja pada data yang algoritma KHM sebagai algoritma untuk imputasi
lengkap. Hal ini yang mendorong perlunya dicari missing data agar didapatkan estimasi nilai untuk
metode khusus untuk penanganan terhadap data missing yang lebih mendekati nilai
Seminar Nasional Matematika dan Aplikasinya 2013
sebenarnya. Penelitian ini juga membandingkan dengan cara mendapatkan pola dari data yang
beberapa metode imputasi yang lain (KM, Mean, memiliki fitur lengkap. Beberapa metode imputasi
dan Median) untuk mengetahui kinerja dari metode yang populer adalah: Mean, Median/Modus dan
tersebut dengan menganalisa klasterisasi data yang klasterisasi.
dihasilkan. Missing data adalah suatu kondisi dimana
data tidak ada atau data hilang. Terdapat 3
II. STUDI PUSTAKA mekanisme penghilangan data, antara laon
A. Pengelompokan Data Missing Completely at Random (MCAR), yaitu
jika distribusi data yang hilang pada suatu atibut
Pengelompokkan data dalam data mining
tidak tergantung pada data pengamatan atau
dibedakan menjadi 2, yaitu klasifikasi dan
missing data. Metode ini akan menggunakan
klasterisasi. Klasifikasi adalah pengelompokkan
dataset komplit kemudian membangkitkan missing
data yang membutuhkan data latih (supervised).
data secara acak berdasarkan proporsi tertentu.
Sedangkan klasterisasi adalah pengelompokkan
Keuntungan dari metode ini adalah memudahkan
data tanpa membutuhkan data latih (unsupervised).
para peneliti untuk estimasi komputasi dari model
Du (2010) menjelaskan bahwa klasterisasi
yang diusulkan Mekanisme lain adalah Missing at
adalah proses membagi data yang tidak berlabel
Random (MAR), yaitu jika distribusi data yang
menjadi kelompok-kelompok data yang memiliki
hilang pada suatu atribut tergantung pada data
kemiripan. Setiap kelompok data (klaster) terdiri
pengamatan tetapi tidak tergantung pada missing
dari obyek yang memiliki kemiripan satu sama lain
data. Yang terakhir adalah Not Missing at
dan setiap klaster memiliki ketidakmiripan dengan
Random (NMAR), jika distribusi data yang hilang
klaster lain. Klasterisasi lazim digunakan dalam
pada suatu atribut tergantung pada missing data
analisis data multivariat.
(Pigott dan Therese, 2011)..
Misalkan K adalah jumlah klaster, C
merupakan label klaster, dan P merupakan dataset.
Klasterisasi harus memenuhi kriteria sebagai C. K-Means
berikut: Algoritma KM merupakan algoritma
klasterisasi yang mengelompokkan data
Ci , i {1,2,..., K} (1) berdasarkan titik pusat klaster (centroid) terdekat
Ci C j , i j and i, j {1,2,..., K} (2) dengan data. Tujuan dari KM adalah
K
pengelompokkan data dengan memaksimalkan
P (3) kemiripan data dalam satu klaster dan
C i
i 1 meminimalkan kemiripan data antar klaster.
Ukuran kemiripan yang digunakan dalam klaster
adalah fungsi jarak. Sehingga pemaksimalan
B. Imputasi Missing Data
kemiripan data didapatkan berdasarkan jarak
Missing data adalah suatu kondisi hilangnya terpendek antara data terhadap titik centroid.
sebagian fitur pada dataset. Missing data dapat Tahapan awal yang dilakukan pada proses
disebabkan oleh kesalahan sistem seperti tidak klasterisasi data dengan menggunakan algoritma
adanya respon terhadap sensor atau perangkat KM adalah pembentukan titik awal centroid cj
penerima input. Dapat pula disebabkan oleh human Pada umumnya pembentukan titik awal centroid
error seperti ketidaklengkapan memasukkan data dibangkitkan secara acak. Jumlah centroid cj yang
pada database atau ketidakpahaman responden dibangkitkan sesuai dengan jumlah klaster yang
dalam pengisian kuisioner pada survey skala besar ditentukan di awal. Setelah k centroid terbentuk
sehingga melewati form isian yang telah kemudian dihitung jarak tiap data xi dengan
disediakan. Metode yang ada pada data mining centroid ke-j sampai k, dinotasikan dengan d(xi,cj).
hanya dapat memroses data yang memiliki Terdapat beberapa ukuran jarak yang digunakan
kelengkapan fitur sehingga dibutuhkan sebagai ukuran kemiripan suatu instance data,
penanganan khusus terhadap permasalahan ini. salah satunya adalah jarak Euclid. Perhitungan
Ada 3 metode yang digunakan untuk penanganan jarak Euclidean seperti pada Persamaan 4.
missing data, yaitu : Case Deletion, Parameter
Estimation, dan Imputation Techniques (Little dan
Rubin, 2002).
Case deletion merupakan metode yang paling
mudah yaitu dengan cara menghapus data yang
mengandung missing. Kelemahan dari metode ini Jika semakin kecil, kesamaan antara
adalah dimungkinkan informasi-informasi penting
dua unit pengamatan semakin dekat. Syarat
ikut terhapus ketika missing data dihapus. Teknik
menggunakan jarak Euclid adalah jika semua fitur
imputasi merupakan metode penanganan missing
dalam dataset tidak saling berkorelasi. Jika
data yang lebih banyak diteliti. Imputasi data
terdapat fitur yang berkorelasi maka menggunakan
adalah memperkirakan nilai pada missing data
Seminar Nasional Matematika dan Aplikasinya 2013
konsep jarak Mahalanobis (Duran dan Odell, Selanjutnya untuk setiap data xi, hitung nilai
1974). keanggotaan m(cl|xi) untuk setiap titik pusat klaster
Selanjutnya dari jarak tersebut dicari yang cl berdasarkan Persamaan 6.
terdekat sehingga data akan mengelompok || x c || p2
berdasarkan centroid yang paling dekat. Tahap m(cl | xi ) k i l
berikutnya adalah update titik centroid dengan || xi cl || p2
l 1 (6)
menghitung rata-rata jarak seluruh data terhadap
centroid. Selanjutnya akan kembali lagi ke proses Untuk setiap data xi, hitung nilai bobot w(xi)
awal. Iterasi ini akan diulangi terus sampai berdasarkan Persamaan 7.
K
didapatkan centroid yang konstan artinya titik || xi cl || p 2
centroid sudah tidak berubah lagi. Atau iterasi w( xi ) l 1
2
dihentikan berdasarkan jumlah iterasi maksimal K || x c || p
i l
yang ditentukan (Agusta, 2007). Gambar 1 l 1
(7)
menunjukkan diagram alur algoritma KM. Untuk setiap titik pusat cj, ulang kembali
perhitungan untuk posisi titik pusat klaster dari
Tentukan k
semua data berdasarkan nilai keanggotaan dan
bobot yang dimiliki tiap data. Penentuan posisi
Bangkitkan titik pusat ini berdasarkan Persamaan 8.
centroid {cj,..,ck} N
m(cl | xi ).w( xi ).xi
cl i 1
N
Hitung dij(xi,cj), m(cl | xi ).w( xi )
{i=1,..,N},{j=1,..,k} i 1 (8)
Ulangi perhitungan nilai fungsi tujuan sampai
Tentukan klaster update centroid sampai mendapatkan nilai fungsi
untuk tiap anggota tujuan yang tidak terdapat perubahan atau kurang
dari ambang batas. Tetapkan keanggotaan data xi
pada suatu klaster dengan titik pusat klaster cj
sesuai dengan nilai keanggotaan xi terhadap cj.
N Update Tahapan KHM dapat dilihat pada Gambar 2.
centroid
Inisialisasi centroid ci
Y
Kelompok data
Tent nilai parameter p
Dataset
Membandingkan
nilai MSE