ABSTRAK
Prediksi nilai adalah hal yang terus dikembangkan dalam penggalian data. Regresi linier
merupakan metode dasar dalam memprediksi nilai berdasar variabel-variabel pada data. Salah
satu hal yang mempengaruhi kualitas dari hasil regresi adalah persebaran data latih. Data latih
terkadang membuat persamaan regresi kurang optimal. Hal ini dapat diantisipasi dengan
mengelompokkan data terlebih dahulu kemudian membangun model regresi dari masing-
masing kelompok. Pengelompokan data dilakukan dengan menggunakan algoritma Spectral
Clustering, sedangkan model regresi dibangun dengan algoritma Clusterwise Regression. Hasil
prediksi merupakan hasil perkalian keanggotaan fuzzy data uji dengan persamaan regresi pada
masing-masing kelompok. Metode ini diujicobakan terhadap beberapa dataset yang bervariasi
yang dibandingkan dengan metode regresi linear biasa. Ukuran pengujian yang digunakan
adalah Root Mean Square Error yang menghitung kesalahan dari hasil prediksi. Semakin kecil
nilai RMSE suatu metode maka metode tersebut semakin baik. Berdasar pada uji coba yang
dilakukan, penggunaan metode yang diusulkan mampu memprediksi nilai dengan kesalahan
sekitar 3 sampai 6 persen. Parameter jumlah cluster juga berpengaruh terhadap hasil prediksi
yaitu berbanding terbalik dengan nilai RMSE.
ABSTRACT
Predicted values are continuously being developed in data mining. Linear regression
is a basic method for predicting the value of variables based on the data. One that affects the
quality of the regression is the spread of the data training. Data training sometimes make less
optimal regression model. It can be anticipated by clustering the data first and then building
the regression model of each cluster. We are using Spectral Clustering for clustering data,
whereas regression model is built with Clusterwise Regression algorithm. The prediction result
is obtained by multiplying fuzzy membership data testing with the result of regression equation
in each group. This method is tested against several variations dataset compared to standard
linear regression methods. Measure of the test used is Root Mean Square Error that computes
the error of the predicted results. The smaller the RMSE value indicates the method is the
better method in predictioning value. Based on experiments performed, the proposed method is
able to predict the score with the error about 3 – 6 percent. Number of clusters as parameter
affects the prediction, which is inversely proportional to the value of RMSE.
1
Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 2014
2
Ahmad Yusuf & Handayani Tjandrasa, Prediksi Nilai dengan …
Dataset ke-4 adalah dataset nilai yang kurang pada data akan diganti
Housing yang merupakan data nilai dengan rata-rata nilai pada atribut yang
kepemilikan rumah di sebagian wilayah bersesuaian jika atribut tersebut
Boston, Amerika Serikat [4]. Dataset merupakan numerik, dan akan diganti
Housing terdiri dari 13 atribut kontinu dengan modus nilai atribut yang
dan 1 atribut yang bersifat diskrit. bersesuaian jika nominal.
Variabel respon dari dataset ini adalah Pada tahap pra proses juga
nilai median kepemilikan rumah pada dilakukan normalisasi data. Normalisasi
suatu kota dalam satuan 1000 US Dollar data dilakukan untuk menyeragamkan
yang ditunjukkan pada atribut MEDV. interval data. Keseragaman data
Variabel prediktornya merupakan atribut berpengaruh dalam perhitungan matriks-
lainnya antara lain rata-rata kejahatan matriks pada data. Normalisasi yang
pada kota bersangkutan (CRIM), dilakukan merupakan normalisasi
proporsi tanah residential (ZN), proporsi kolom/atribut. Normalisasi dilakukan
bisnis non-retail (INDUS), dan berdasar persamaan 1
sebagainya. xi , j min( x j )
Dataset Computer Hardware xi, j (1)
merupakan dataset ke-5 yang digunakan max( xi ) min( x j )
dalam uji coba pada penelitian ini. Dimana merupakan nilai normalisasi
Dataset Computer Hardware data pada baris i dan atribut j, xi,j
merupakan data performa relatif dari cpu merupakan data aslinya, dan min(xj)
[4]. Dataset ini terdiri dari 9 atribut, merupakan nilai minimal dari atribut j,
dimana Atribut PRP merupakan sedangkan max(xj) merupakan nilai
performa relatif CPU yang digunakan maksimalnya. Keluaran dari proses
sebagai variabel respon. Atribut lainnya normalisasi ini berupa data yang
selain Vendor Name dan Model Name memiliki interval 0 sampai 1.
digunakan sebagai variabel prediktor.
Atribut Vendor Name dan Model Name Tahap Clustering
tidak digunakan karena memiliki nilai Clustering merupakan salah satu
string. Variabel prediktor yang metode eksplorasi data yang digunakan
digunakan meliputi cycle time mesin dalam mencari pola yang ada pada
(MYCT), memory minimal (MMIN) suatu dataset. Pada umumnya pola
dan maksimal (MMAX), dan tersebut dapat dilihat dari kesamaan
sebagainya. sifat, karakteristik, atau ciri dari record-
record pada dataset [5,6].
METODE Salah satu metode Clustering
adalah Spectral Clustering. Pada
Tahap Pra Proses Spectral Clustering, pengelompokkan
Pra proses yang dilakukan didasarkan atas kesamaan antara setiap
adalah penanganan missing value. Nilai- data. Kesamaan tersebut dilihat dari
3
Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 2014
4
Ahmad Yusuf & Handayani Tjandrasa, Prediksi Nilai dengan …
5
Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 2014
6
Ahmad Yusuf & Handayani Tjandrasa, Prediksi Nilai dengan …
dicapai pada parameter jumlah cluster dengan kesalahan relative sekitar 4-5
sama dengan 4 yaitu 46,553. Kesalahan persen. Dataset nilai praktikum yang
relatif pada dataset Computer Hardware memiliki atribut lebih sedikit
sebesar 4,05 persen (0 - 1150). Dari menunjukkan kesalahan relative yang
hasil analisis diatas nilai kesalahan lebih kecil yaitu 2 sampai 3 persen.
relatif yang dicapai dari dataset yang
digunakan sekitar 3 sampai 6 persen. SIMPULAN
Dari perubahan jumlah cluster
secara umum terlihat bahwa semakin Prediksi nilai merupakan salah
besar jumlah cluster maka nilai satu bagian dari penggalian data yang
kesalahan yang dihasilkan semakin kecil terus dikembangkan. Pada penelitian ini
sampai pada titik optimal. Dari kelima diusulkan algoritma Clusterwise
dataset yang diujicobakan menunjukkan Regression dengan Spectral Clustering.
tren yang relatif sama yaitu nilai RMSE Metode usulan mampu melakukan
berbanding terbalik dengan jumlah prediksi nilai yang telah diujicobakan
cluster. Pada beberapa kasus terlihat pada beberapa dataset dengan nilai
nilai RMSE yang lebih besar parameter kesalahan relatif 3 sampai 6 persen.
jumlah cluster tertentu dari jumlah Algoritma Clusterwise Regression
cluster -1 dan jumlah cluster +1. Hal ini dengan Spectral Clustering mampu
dapat terjadi karena hasil Clustering mereduksi kesalahan RMSE dari hasi
yang digunakan selanjutnya dalam prediksi menggunakan Multiple
proses prediksi kurang optimal untuk Regression biasa sebesar 30 sampai 40
dimodelkan persamaan regresi. persen.
Perbandingan nilai RMSE dari Pada metode usulan diperlukan
Multiple Regression (jumlah cluster = 1) masukan jumlah cluster sebagai
dan Clusterwise Regression – Spectral parameter. Parameter jumlah cluster
Clustering dari hasil ujicoba terlihat memberikan pengaruh pada hasil
bahwa nilai RMSE pada hasil prediksi prediksi. Pada ujicoba yang dilakukan
dataset menggunakan metode yang masing-masing dataset akan
diusulkan lebih kecil dibandingkan menghasilkan model optimal pada
dengan RMSE pada hasil prediksi parameter jumlah cluster tertentu
menggunakan Multiple Regression. bergantung pada karakteristik data.
Reduksi kesalahan RMSE yang Jumlah atribut juga mempengaruhi hasil
dihasilkan sekitar 30 hingga 40 persen. prediksi menggunakan metode yang
Hal ini menunjukkan bahwa metode diusulkan. Pada ujicoba yang dilakukan
pada penelitian ini mampu semakin banyak atribut maka nilai
mengoptimalkan performa dari prediksi kesalahannya semakin besar. Hal ini
nilai menggunakan regresi linier. dikarenakan adanya kemungkinan
Pada hasil uji coba nilai atribut-atribut yang tidak relevan dengan
kesalahan relatif paling besar (6 persen) variabel respon.
didapatkan pada dataset Housing.
Dataset Housing memiliki atribut
prediktor dibandingkan dengan dataset DAFTAR PUSTAKA
lainnya yaitu 13 atribut. Hal ini dapat
menyebabkan hasil kurang optimal [1] Lau, Kin-nam., Leung, Pui-lam.,
karena memungkinkan adanya atribut- Tse, Ka-kit. (1998). A
atribut yang tidak relevan. mathematical programming
Berdasarkan hasil uji coba, approach to Clusterwise
semakin banyak atribut prediktor yang Regression model and its
digunakan maka nilai kesalahan extensions. Elsevier European
relatifnya semakin besar secara umum. Journal of Operational Research.
Dataset Auto MPG dan Computer
Hardware memiliki 7 atribut prediktor
7
Jurnal Ilmiah SimanteC Vol. 4, No. 1 Juni 2014