45 165 2 PB

Journal of Software Engineering, Vol. 1, No.
1, April 2015 ISSN 2356-3974
Resampling Logistic Regression untuk Penanganan

Ketidakseimbangan Class pada Prediksi Cacat Software
Harsih Rianto
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri
hrsanto@gmail.com
Romi Satria Wahono

Fakultas Ilmu Komputer, Uni versitas Dian Nuswantoro
romi@romisatriawahono.net
Abstract: Software yang berkualitas tinggi adalah software Chen, 2012; Wahono, Suryana, & Ahmad, 2014). Untuk
yang dapat membantu proses bisnis perusahaan dengan efektif, meningkatkan efesiensi dan jaminan kualitas yang tinggi dari
efesien dan tidak ditemukan cacat selama proses pengujian, sebuah software, dalam pengujiannya diperlukan program
pemeriksaan, dan implementasi. Perbaikan software setelah yang mampu memprediksi cacat software (Chang et al., 2011).
pengirimana dan implementasi, membutuhkan biaya jauh lebih Prediksi cacat Software digunakan untuk mengidentifikasi
mahal dari pada saat pengembangan. Biaya yang dibutuhkan modul yang rawan terhadap cacat pada pengembangan modul
untuk pengujian software menghabisakan lebih dari 50% dari yang akan dirilis dan membantu memprediksi kesalahan pada
biaya pengembangan. Dibutuhkan model pengujian cacat modul tersebut.
software untuk mengurangi biaya yang dikeluarkan. Saat ini Penelitian dalam bidang Software Engineering khususnya
belum ada model prediksi cacat software yang berlaku umum tentang prediksi cacat software telah menjadi topik penelitian
pada saat digunakan digunakan. Model Logistic Regression yang sangat penting (Hall, Beecham, Bowes, Gray, &
merupakan model paling efektif dan efesien dalam prediksi Counsell, 2012). Saat ini penelitian prediksi cacat software
cacat software. Kelemahan dari Logistic Regression adalah fokus pada 1) estimasi jumlah cacat pada software, 2) asosiasi
rentan terhadap underfitting pada dataset yang kelasnya tidak cacat pada software, 3) klasifikasi pada cacat software
seimbang, sehingga akan menghasilkan akurasi yang rendah. terutama pada penentuan cacat dan non-cacat (Song, Jia,
Dataset NASA MDP adalah dataset umum yang digunakan Shepperd, Ying, & Liu, 2011). Klasifikasi merupakan
dalam prediksi cacat software. Salah satu karakter dari dataset pendekatan yang poluler untuk memprediksi cacat software
prediksi cacat software, termasuk didalamnya dataset NASA (Lessmann, Member, Baesens, Mues, & Pietsch, 2008). Para
MDP adalah memiliki ketidakseimbangan pada kelas. Untuk pengembang dapat menghindari hal-hal yang merugikan
menangani masalah ketidakseimbangan kelas pada dataset pengguna dan tim pengembang dari cacat software sedini
cacat software pada penelitian ini diusulkan metode mungkin dengan menggunakan prediksi cacat software.
resampling. Eksperimen dilakukan untuk membandingkan Algoritma klasifikasi seperti C4.5, Decision Tree, Linear
hasil kinerja Logistic Regression sebelum dan setelah Regression, Logistic Regression (LR), Nave Bayes (NB),
diterapkan metode resampling. Demikian juga dilakukan Neural Network (NN), Random Fores (RF) dan Support Vector
eksperimen untuk membandingkan metode yang diusulkan Machine (SVM) menjadi focus topik penelitian yang banyak
hasil pengklasifikasi lain seperti Nave Bayes, Linear dilakukan (Hall et al., 2012). Hasil komparasi algoritma
Descriminant Analysis, C4.5, Random Forest, Neural klasifikasi diperoleh dua metode algoritma terbaik yaitu Nave
Network, k-Nearest Network. Hasil eksperimen menunjukkan Bayes dan Logistic Regression (Hall et al., 2012). Nave Bayes
bahwa tingkat akurasi Logistic Regression dengan resampling adalah model klasifikasi probabilitas sederhana. Penggunaan
lebih tinggi dibandingkan dengan metode Logistric Regression algoritma Nave Bayes sangat mudah dan nyaman karena tidak
yang tidak menggunakan resampling, demikian juga bila memerlukan estimasi parameter yang rumit. Sehingga Nave
dibandingkan dengan pengkalisifkasi yang lain. Dari hasil Bayes bisa digunakan pada dataset yang sangat besar. Selain
eksperimen di atas dapat disimpulkan bahwa metode pada dataset yang besar Nave Bayes juga menyajikan hasil
resampling terbukti efektif dalam menyelesaikan klasifikasi kepada pengguna dengan sangat mudah tanpa harus
ketidakseimbangan kelas pada prediksi cacat software dengan memiliki pengetahuan teknologi klasifikasi terlebih dahulu (X.
algoritma Logistic Regression. Wu & Kumar, 2010). Namun Nave Bayes berasumsi pada
semua atribut dataset adalah sama penting dan tidak terkait satu
Keywords: Ketidakseimbangan Kelas, Logistic Regression, sama lain, sedangkan pada kenyataannya sulit dipahami
Resampling. keterkaitan antar atribut (J. Wu & Cai, 2011). Logistic
Regression adalah metode klasifikasi statistik probabilitas.
Keuntungan Logistic Regression adalah algoritma ini telah
1 PENDAHULUAN dipelajar secara ekstensif (Hosmer et al., 2013; Hosmer &
Software yang dikembangkan dan dibuat oleh para Lemeshow, 2000) disamping pengembangan terbaru tentang
pengembang sebagian besar digunakan oleh perusahaan atau penerapan truncate newton (Lin et al., 2008). Kelemahan dari
instansi pemerintahan. Pembuatan software tersebut bertujuan Logistic Regression adalah rentan terhadap underfitting dan
agar proses bisnis pada perusahaan atau instansi pemerintahan memiliki akurasi yang rendah (Harrington, 2012).
berjalan dengan efesien, efektif, cepat dan akurat. Logistic Regression merupakan klasifikasi linier yang telah
Pengembangan sebuah software yang berkualitas tinggi terbukti menghasilkan klasifikasi yang powerful dengan
membutuhkan biaya yang sangat mahal (Chang, Mu, & Zhang, statistik probabilitas dan menangani masalah klasifikasi multi
2011; Czibula, Marian, & Czibula, 2014; Ma, Luo, Zeng, & kelas (Canu & Smola, 2006; Karsmakers, Pelckmans, &
Copyright 2015 IlmuKomputer.Com 46

http://journal.ilmukomputer.org
Journal of Software Engineering, Vol. 1, No. 1, April 2015 ISSN 2356-3974
Suykens, 2007). Masalah besar yang dialami oleh algoritma mengetahui metode apa saja yang digunakan, data seperti apa
Logistic Regression adalah ketidakseimbangan kelas (class yang diproses, dan model seperti yang dihasilkan.
imbalance) pada dataset berdimensi tinggi (Lin et al., 2008). Penelitian yang dilakukan oleh Komarek dan Moore
Jika dilihat dari dataset yang digunakan untuk prediksi cacat (Komarek & Moore, 2005), melakukan penelitan untuk
software, secara umum menggunakan dataset NASA masih meningkatkan akurasi prediksi model Logistic Regression
mengalami ketidakseimbangan (imbalance) kelas dengan mengimplementasikan 3 metode yaitu: 1) Iteratively
(Khoshgoftaar, Gao, Napolitano, & Wald, 2013). Jumlah data re-weighted least squares (IRLS), 2) Truncated Regularized
yang rawan cacat (fault-prone) lebih sedikit dari pada jumlah IRLS (TR-IRLS), dan 3) Generic Likelihood Maximization.
data yang tidak rawan cacat (nonfault-prone). Membangun Logistic Regression merupakan algoritma klasifikasi dalam
model klasifikasi prediksi cacat software tanpa melakukan data mining yang memiliki performance tinggi. Dalam
pengolahan data awal, tidak akan menghasilkan prediksi yang beberapa implementasi data mining, Logistic Regression dapat
efektif, karena jika kelas data awal tidak seimbang (imbalance) mengunguli algoritma lain seperti Nave Bayes, Support
maka hasil prediksi cenderung menghasilkan kelas mayoritas Vector Mechine (SVM), dan K-Nearest Neighbor (KNN).
(Khoshgoftaar et al., 2013). Karena rawan cacat merupakan Dalam penelitian ini menggunakan dataset yang dibagi dalam
kelas minoritas dari prediksi cacat software. Kinerja model tiga kategori yaitu: 1) pendeteksian link (citeseer, imdb), 2)
prediksi cacat software berkurang secara signifikan, dataset penelitian (ds2, ds1, ds1.100, ds1.10) dan 3) klasifikasi
dikarenakan dataset yang digunakan mengandung teks (modapte.sub). Hasil penelitian menunjukan matrik Area
ketidakseimbangan kelas (class imbalance). Secara umum Under Curve (AUC) yaitu, TR-IRLS 0,94 citeseer, 0,98 imdb,
seleksi fitur (feature selection) digunakan dalam machine 0.72 ds2, 0.94 ds1, 0,91 ds1.100 dan 0,84 ds1.10.
learning ketika melibatkan dataset berdimensi tinggi dan Penelitian yang dilakukan oleh Lin, Weng dan Keerthi (Lin
atribut yang masih mengandung noise (Wahono et al., 2014). et al., 2008), menunjukan hasil konvergensi yang lebih cepat
Untuk menangani dataset berdimensi tinggi selain seleksi dari pada metode quasi Newton. Metode Truncated Newton
fitur (feature selection), dapat juga menggunakan teknik merupakan metode yang telah diakui mampu menangani
resampling. Dengan meningkatkan kelas minoritas dapat dataset berdimensi tinggi seperti penelitian (Komarek &
meningkatkan kemampuan algoritma mechine learning Moore, 2005) namun metode ini tidak sepenuhnya digunakan.
menjadi lebih baik, karena bisa mengenali sampel kelas Penelitian ini merupakan turunan pengunanan model Newton,
minoritas dari sampel mayoritas (Thanathamathee & yang menggunakan dataset berdimensi tinggi yaitu a9a dengan
Lursinsap, 2013). Resampling merupakan cara yang paling 32561 instance, real-sim dengan 72309 instance, news20
populer untuk mengatasi masalah ini. Terdapat tiga pendekatan dengan 19996 instance, yahoo-japan dengan 176203 instance,
dasar untuk mengatasi masalah ketidakseimbangan kelas, yaitu rcv1 dengan 677399 instance dan yahoo-korea dengan 460554
oversampling kelas minoritas, undersampling kelas mayoritas instance. Penerapan metode Trust Region Newton (TRON)
atau menggunakan metode hybrid yang menggunakan dasar memperlihatkan hasil komputasi 50% lebih cepat dibadingkan
dari kedua metode ini. Resampling juga sebagai sarana metode limited memory quasi Newton (LBFGS) penelitian Liu
mengubah distribusai kelas minoritas sehingga tidak kurang dan Nocedal 1989 dalam (Lin et al., 2008).
terwakili ketika training data pada algorita mechine learning. Penelitian yang dilakukan oleh Maalouf dan Trafalis
Metode resampling sudah terkenal diterapkan untuk (Maalouf & Trafalis, 2011), mampu menangani dataset yang
memecahakn masalah ketidak seimbangan kelas (class seimbang dan peristiwa langka. Dalam penelitian ini
imbalace) (Thanathamathee & Lursinsap, 2013). diterapkan model rare event re-weighted kernel logistic
Oversampling adalah metode yang paling sederhana untuk regression (RE-WKLR). Dataset yang digunakan dalam
menangani kelas minoritas dengan melakukan random kelas penelitian ini adalah UCI Machine Learning dan kejadian nyata
selama proses pengambilan sampel. Proses pengambilan angin tornado. Performance dari metode RE-WKLR
sampel dengan teknik oversampling ini adalah dengan menunjukan hasil klasifikasi yang lebih tinggi dari pada SVM.
menduplikasi kelas positif dan dilakukan penyeimbangkan Secara keseluruhan hasil akurasi dari penelitian ini dengan
kelas secara acak (Ganganwar, 2012). Namun, karena metode menggunakan pengukuran komparasi paired t-test 0.017.
ini menduplikasi kelas positif yang ada dikelas minoritas, Kesimpulan dari penelitian ini menujukan bawah algoritma
kemungkinan terjadi overfitting pasti akan terjadi. RE-WKLR sangat mudah diimplementasikan dan kuat dalam
Undersampling hampir sama dengan teknik oversampling menangani data seimbang dan peristiwa langka. Metode RE-
dengan menghitung selisih kelas mayoritas dan kelas WKLR sesuai untuk dataset yang skala kecil dan menengah.
minoritas. Selanjutnya dilakuakn perulangan sebanyak selisih Penelitian yang dilakukan oleh Wahono, Suryana, dan
kelas mayoritas dengan kelas minoritas. Selama proses Ahmad (Wahono et al., 2014) menerapan optimasi
perulangan dilakukan penghapusan terhadap kelas mayoritas metaheuristik untuk menemukan solusi optimal dalam seleksi
sehingga didapatkan jumlah yang sama dengan kelas fitur (feature selection), secara signifikan mampu mencari
minoritas. solusi berkualitas tinggi dengan jangka waktu yang wajar.
Pada penelitian ini yang akan dilakukan adalah penerapan Metode yang diusulkan dalam penelitian ini adalah optimasi
resampling untuk penyelesaian ketidakseimbagan kelas (class metaheuristik (algoritma genetika dan particle swarm
imbalance) pada Logistic Regression untuk prediksi cacat optimization (PSO)) dan teknik Bagging untuk meningkatkan
software, sehingga dapat menghasilkan kinerja yang baik pada kinerja prediksi cacat Software. Bagging baik digunakan untuk
dataset yang seimbang. model klasifikasi dan regressi. Bagging merupakan algoritma
pembelajaran yang stabil pada dataset berdimensi tinggi dan
attribut yang masih mengandung noise (Alpaydin, 2010).
2 PENELITIAN TERKAIT Dalam penelitian ini menggunakan 9 dataset NASA MDP dan
Penelitian tentang penanganan ketidakseimbangan kelas 10 algoritma pengklasifikasi dan dikelompokan dalam 5 tipe,
pada Logistic Regression telah banyak dilakukan dan telah yaitu klasifikasi statistic tradisional (Logistic Regression (LR),
dipublikasikan. Untuk melakukan penelitian ini perlu ada Linear Discriminant Analysis (LDA), dan Nave Bayes (NB)),
kajian terhadap penelitian yang terkait sebelumnya agar dapat Nearest Neighbors (k-Nearest Neighbor (k-NN) dan K*),

Neural Network (Back Propagation (BP), Support Vector Tabel 1. Dataset NASA MDP Repository
Machine (SVM)), dan Decision Tree (C4.5, Classification and Nama Atribut
NASA Dataset Repository
CM1 JM1 KC1 KC3 MC1 MC2 PC1 PC3 PC4 PC5
Regression Tree (CART), dan Random Forest (RF)). Hasilnya LOC BLANK P P P P P P P P P P
menunjukan bahwa metode yang diusulkan menunjukan LOC CODE AND COMMENT P P P P P P P P P P
LOC COMMENT S P P P P P P P P P P
peningkatan kenerja model prediksi cacat Software. Dari hasil LOC EXECUT ABLE P P P P P P P P P P
Perbandingan model yang dilakukan, disimpulkan bahwa tidak LOC T OT AL P P P P P P P P P P
ada perbedaan signifikan dalam penggunaan optimasi PSO dan NUMBER OF LINES P P P P P P P P
HALST EAD CONT ENT P P P P P P P P P P
algorima genetika saat digunakan pada seleksi fitur, untuk HALST EAD DIFFICULT Y P P P P P P P P P P
algoritma klasifikasi dalam prediksi cacat Software. HALST EAD EFFORT P P P P P P P P P P
HALST EAD ERROR EST P P P P P P P P P P
HALST EAD LENGT H P P P P P P P P P P
HALST EAD LEVEL P P P P P P P P P P
HALST EAD PROG T IME P P P P P P P P P P
3 METODE YANG DIUSULKAN HALST EAD VOLUME P P P P P P P P P P
Metode yang diusulkan pada penelitian ini yaitu untuk NUM OPERANDS P P P P P P P P P P
NUM OPERAT ORS P P P P P P P P P P
meningkatkan kinerja algoritma Logistic Regression dengan NUM UNIQUE OPERANDS P P P P P P P P P P
metode resampling untuk menangani ketidakseimbangan kelas NUM UNIQUE OPERAT ORS P P P P P P P P P P
CYCLOMAT IC COMPLEXIT Y P P P P P P P P P P
(class imbalance) pada prediksi cacat software. Selanjutnya CYCLOMAT IC DENSIT Y P P P P P P P P
untuk validasi menggunakan 10-fold cross validation. Hasil DESIGN COMPLEXIT Y P P P P P P P P P P
ESSENT IAL COMPLEXIT Y P P P P P P P P P P
pengukuran kinerja algoritma dengan menggunakan uji t (t- BRANCH COUNT P P P P P P P P P P
test) untuk mengetahui perbedaan kinerja model setelah dan CALL PAIRS P P P P P P P P
CONDIT ION COUNT P P P P P P P P
sebelum diterapkan model resampling. Selanjutnya juga DECISION COUNT P P P P P P P P
dilakukan pengujian kinerja model algoritam Logistic DECISION DENSIT Y P P P P P P
DESIGN DENSIT Y P P P P P P P P
Regression dengan algoritma pengklasifikasi lain EDGE COUNT P P P P P P P P
menggunakan uji Freidmen (Freidmen test). Model kerangka ESSENT IAL DENSIT Y P P P P P P P P
GLOBAL DAT A COMPLEXIT Y P P P
pemikiran metode yang diusulkan ditunjukan pada Gambar 1. GLOBAL DAT A DENSIT Y P P P
MAINT ENANCE SEVERIT Y P P P P P P P P
MODIFIED CONDIT ION COUNT P P P P P P P P
MULT IPLE CONDIT ION COUNT P P P P P P P P
Dataset
NODE COUNT P P P P P P P P
NORMALIZED CYLOMAT IC COMPLEXIT Y P P P P P P P P
PARAMET ER COUNT P P P P P P P P
PERCENT COMMENT S P P P P P P P P
PAT HOLOGICAL COMPLEXIT Y
10 Cross Validation DEFECT IVE P P P P P P P P P P
Split Jumlah attribute 37 21 21 39 38 39 37 37 37 38
Jumlah modul 344 9593 2096 200 9277 127 759 1125 1399 17001
Jumlah modul cacat 42 1759 325 36 68 44 61 140 178 503
Presentase modul cacat 12% 18% 16% 18% 1% 35% 8% 12% 13% 3%
Model
Jumlah modul tidak cacat 302 7834 1771 164 9209 83 698 985 1221 16498
Resampling Training
Proses pengujian metode dimulai dari pembagian dataset
dengan metode 10-fold cross validation yaitu membagi dataset
Classification menjadi dua segmen, segmen pertama digunakan sebagai data
Logistic Regression Testing training dan segemen kedua digunakan sebagai data testing
untuk mevalidasi model (Witten, Frank, & Hall, 2011).
Selanjutnya diterapkan tahapan eveluasi menggunakan Area
Validation Under Curve (AUC) untuk mengukur hasil akurasi indikator
dari performa model prediksi. Hasil akurasi dapat dilihat secara
manual dengan dilakukan perbandingan klasifikasi
menggunakan curva Receiver Operating Characteristic (ROC)
dari hasil confusion matrix. ROC menghasilkan dua garis
Evaluasi Model Comparison
dengan bentuk true positives sebagai garis vertikal dan false
Confusion matrix AUC t-test Friedmen test
positives sebagai garis horisontal (Vercellis, 2011). Kurva
ROC adalah grafik antara sensitivitas (true positive rate), pada
Gambar 1. Kerangka Pemikiran Model yang Diusulkan sumbu Y dengan 1-spesifitas pada sumbu X (false positive
rate), curva ROC ini menggambarkan seakan-akan ada terik-
Dalam penelitian ini dikumpulkan data sekunder yaitu menarik antara sumbu Y dengan sumbu X (Dubey, Zhou,
NASA (National Aeronautics and Space Administration) MDP Wang, Thompson, & Ye, 2014)
(Metrics Data Program) repository sebagai software matrics Pengukuran akurasi dengan confusion matrix dapat dilihat
yang merupakan dataset yang sudah umum digunakan para pada Tabel 2.
peneliti dalam penelitian Software Engineering (Hall et al.,
2012). Data NASA MDP dikhususkan untuk topik penelitian Tabel 2. Confusion Matrix
cacat software dan kegagalan software. Data NASA tidak Actual
Class
hanya terdapat di repository MDP namun juga terdapat pada TRUE FALSE
PROMISE. Kebanyakan peneliti menggunakan data NASA TRUE True Positive (TP) False Negatif (FN)
Prediction
dari MDP karena sudah diperbaiki oleh Martin Shepperd FALSE False Negatif (FN) True Negatif (TN)
(Liebchen & Shepperd, 2008) dengan menghilangkan data
yang null atau data yang kosong. Dataset Nasa MDP
Repository ditunjukan pada Tabel 1.

Formulasi perhitungan yang dilakukan (Gorunescu, 2011) Mulai

adalah sebagai berikut:
+
=
+ + + Pilih dataset, filter dataset
dan k-flod cross validation
= =
+

= = Proses penyeimbangan dataset
+

=
+ i=0

=
+
2 T Hitung kinerja model
= i<k
prediksi cacat software
+
= Y
Membagi datase kedalam k bagian, Selesai

Dalam pengklasifikasi keakuratan dari tes diagnotik
data ke I dijadikan sebagai data testing
menggunakan Area Under Curve(AUC) (Gorunescu, 2011) dan sisanya sebagai data training
dapat dijabarkan melalui Tabel 3.
Tabel 3. Nilai AUC, Keterangan dan Simbol

Filter data =
Proses data training
Nilai AUC Klasifikasi Simbol Resample dengan model
0.90 1.00 Excellent classification resample
Y
0.80 0.90 Good classification T
0.70 0.80 Fair classification
0.60 0.70 Poor classification Lakukan traing dataset terhadap
model logistic regression
< 0.60 Failure
Evaluasi dalam penelitian ini adalah menggunakan uji t (t- Lakukan pengujian
test). Uji t adalah membandingkan hubungan antara dua terhadap data
variabel yaitu variabel respon dan variabel predictor (Larose,
2005). Uji t sample berpasangan (paired-sample t-test)
dipergunakan untuk menguji perbandingan selisih dua rata-rata i++
dari dua sample yang berpasangan dengan asumsi bahwa data
terdistribusi dengan normal. Selanjutnya untuk mengevaluasi
metode Logistic Regression dengan pengklasifikasi lain Gambar 2. Flowchart Metode yang Diusulkan
menggunakan uji Friedman (Friedman test). Uji Friedman di
usulkan oleh Demsar untuk membandingkan model klasifikasi
(Demar, 2006). Uji Friedman (Friedman test) merupakan uji 4 HASIL EKSPERIMEN
statistik non parametrik, yang juga disebut dengan Anova dua Eksperimen yang dilakukan dalam penelitian ini
arah berdasarkan peringkat (two-way anova by ranks). Uji menggunakan sebuah platform komputer berbasis Intel Core
Friedman (Friedman test) berdasarkan peringkat kinerja dari i3-3217U @1.80GHz (4 CPUs), RAM 2GB, dan sistem
perkiraan kinerja aktual, sehingga lebih tahan terhadap outlier. operasi Microsoft Windows 7 Ultimate 32-bit. Sedangkan
Semua model klasifikasi akan diperingkat berdasarkan lingkungan pengembangan aplikasi menggunakan bahasa
performen terhdap dataset dan peringkat rata-rata dari model pemrograman Java Netbeans IDE 8.0.1 dan library Weka 3.6,
klasifikasi yang dibandingkan. untuk analisa hasil eksperimen menggunakan aplikasi
Flowchart metode yang diusulkan dapat dilihat pada Microsoft Excel 2007 dengan plugin XLSTAT.
Gambar 2, dimulai dengan memilih dataset yang akan diuji, Dalam eksperimen yang dilakukan dengan menggunakan
filter dataset dan jumlah cross validation yang diinginkan. 10 dataset NASA MDP (CM1, JM1, KC1, KC3, MC1, MC2,
Selanjutnya dataset diproses kedalam model sebanyak jumlah PC1, PC3, PC4, dan PC5). Metode yang diuji adalah metode
cross validation sampai mendapakan hasil kinerja prediksi pengklasifikasi Logistic Regression (LR), hasil eksperimen
cacat software. Kemudian dilakukan evaluasi terhadap akurasi, disajikan pada Tabel 4, informasi yang disajikan adalah
sensitivity, spesificity, FPrate, Precision, F-Measure, dan G- akurasi, sensitivty (recall), spesificity, Positive Predictive
Mean dari hasil confusion matrix. Setelah mendapatkan hasil Value (PPV) atau , Negative predictive Value (NPV)
akurasi dan AUC kemudian dilakukan uji t (t-test) untuk atau , F-Measure, G-Mean dan AUC. Hasil eksperimen
mengetahui kinerja model setelah dan sebelum diterapakan pada Tabel 4, menunjukan rata-rata akurasi pada 10 dataset
resampling. Untuk mengetahui hasil kinerja model dengan adalah 88.35% dan rata-rata AUC sebesar 0.818.
pengklasifikasi lain dilakukan uji Friedman (Friedman test).

Tabel 4. Hasil Eksperimen Logistic Regression peningkatan kenerja setelah diterapkan metode resample pada
Dataset TP TN FP FN Accuracy Recall Specificity PPV NPV F-Measure G-Mean AUC dataset yang mengalami ketidakseimbangan kelas dengan
CM1 9 19 33 283 84.88% 21.43% 93.71% 32.14% 89.56% 0.256 0.448 0.728
JM1 180 137 1579 7697 82.11% 10.23% 98.25% 56.78% 82.98% 0.173 0.317 0.705
peningkatan kinerja pada dataset CM1 dan KC3.
KC1 70 44 255 1727 85.74% 21.54% 97.52% 61.40% 87.13% 0.319 0.458 0.800
KC3 12 17 24 147 79.50% 33.33% 89.63% 41.38% 85.97% 0.369 0.547 0.708 Tabel 7. Rekap Pengukuran AUC Model Prediksi Cacat
MC1 19 14 49 9195 99.32% 27.94% 99.85% 57.58% 99.47% 0.376 0.528 0.875
MC2 36 10 9 72 85.04% 80.00% 87.71% 78.26% 88.89% 0.791 0.038 0.863
Software
Dataset
PC1 11 13 50 658 91.70% 18.03% 98.14% 45.83% 93.20% 0.259 0.421 0.828 Model
PC3 28 34 112 951 87.02% 20.00% 96.55% 45.16% 89.46% 0.277 0.439 0.819
LR 0.728 0.705 0.8 0.708 0.875 0.863 0.828 0.819 0.907 0.955
PC4 86 34 92 1187 90.99% 48.32% 97.22% 71.67% 92.81% 0.577 0.685 0.907
LR+Resample 0.816 0.708 0.791 0.875 0.895 0.9 0.854 0.846 0.926 0.951
PC5 147 108 356 16390 97.27% 29.23% 99.35% 57.65% 97.87% 0.388 0.539 0.955
Pada penelitian ini dilakukan pengujian hipotesis degan uji

Sedangan pada Tabel 5 ditunjukan hasil eksperimen metode
paired sample t-test untuk Logistic Legression (LR) dengan
Logistic Regression dengan Resampling untuk 10 dataset
Logistic Regression dan Resample (LR+Resample) dan uji
NASA MDP. Hasil eksperimen disajikan adalah akurasi,
Freidmen (Friedman test) untuk membandingkan dengan
sensitivty (recall), spesificity, Positive Predictive Value (PPV)
pengklasifikasi lain. Uji t (t-test) adalah hubungan antara
atau , Negative predictive Value (NPV) atau ,
variabel respon dengan variable prediktor (Larose, 2005).
F-Measure, G-Mean dan AUC. Hasil eksperimen pada Tabel
Hipotesis nol (H0) menyatakan bahwa tidak ada perbedaan
5, menunjukan rata-rata akurasi pada 10 dataset adalah 90.83%
hasil eksperimen antara motode LR dan LR+Resample,
dan rata-rata AUC sebesar 0.856.
sedangkan hipotesis satu (H1) menyatakan bahwa ada
perbedaan hasil eksperiment antara LR dan LR+Resample.
Tabel 5. Hasil Pengukuran LR dan Resampling
Dataset TP TN FP FN Accuracy Recall Specificity PPV NPV F-Measure G-Mean AUC
CM1 18 10 23 293 90.40% 43.90% 96.70% 64.29% 92.72% 0.522 0.652 0.816
JM1 166 136 1600 7691 81.90% 9.40% 98.26% 54.97% 82.78% 0.161 0.304 0.708 1
KC1 82 58 253 1703 85.16% 24.48% 96.71% 58.57% 87.07% 0.345 0.487 0.791
KC3 32 15 5 148 90.00% 86.49% 90.80% 68.09% 96.73% 0.762 0.886 0.875
MC1 20 5 43 9209 99.48% 31.75% 99.95% 80.00% 99.54% 0.455 0.563 0.895 0.8
MC2 31 12 36 680 93.68% 46.27% 98.27% 72.09% 94.97% 0.564 0.674 0.900
PC1 17 12 38 692 93.41% 30.91% 98.30% 58.62% 94.80% 0.405 0.551 0.854
PC3 29 38 116 942 86.31% 20.00% 96.12% 43.28% 89.04% 0.274 0.438 0.846
0.6
PC4 112 43 88 1156 90.64% 56.00% 96.41% 72.26% 92.93% 0.631 0.735 0.926
PC5 143 103 355 16400 97.31% 28.72% 99.38% 58.13% 97.88% 0.384 0.534 0.951 0.4
Pada Tabel 6 disajikan rekap pengukuran akurasi model 0.2

Logistic Regression (LR) dan Logistic Regression dengan
penerapan Resample (LR+Resample). 0
CM1 JM1 KC1 KC3 MC1MC2 PC1 PC3 PC4 PC5
Tabel 6. Rekap Pengukuran Akurasi LR dan LR+Resample
pada Prediksi Cacat Software LR LR+Resample
Dataset
Model
CM1 JM1 KC1 KC3 MC1 MC2 PC1 PC3 PC4 PC5 Gambar 4 Grafik Rekap Pengukuran AUC LR dan
LR 84.88% 82.11% 85.74% 79.50% 99.32% 85.04% 91.70% 87.02% 90.99% 97.27%
LR+Resample 90.40% 81.90% 85.16% 90.00% 99.48% 93.68% 93.41% 86.31% 90.64% 97.31%
LR+Resample pada Prediksi Cacat Software
Dapat dilihat bawah terdapat peningkatan hasil kinerja Pada uji t sampel berpasangan (paired-sample t-test) untuk
model dengan melakukan penanganan ketidakseimbangan variabel akurasi LR dan variabel LR+Resample dapat dilihat
kelas (class imbalance) pada dataset NASA MDP. Perbedaan pada Tabel 8.
kinerja yang dihasilkan memang tidak cukup signifikan, yang t-Test: Paired Two Sample for Means
dapat dilihat pada Gambar 3. Peningkatan kinerja hanya terjadi Tabel 8. Paired sample t-test Akurasi LR dan LR+Resample
pada dataset CM1, KC3, dan MC2. LR LR+Resample
Mean 88.357 90.829
100.00% Variance 40.77077889 29.42509889
Observations 10 10
80.00%
Pearson Correlation 0.759543832
60.00% Hypothesized Mean Difference 95
df 9
40.00%
t Stat -73.5139356
20.00% P(T<=t) one-tail 4.03234E-14
t Critical one-tail 1.833112923
0.00% P(T<=t) two-tail 8.06469E-14
CM1 JM1 KC1 KC3 MC1MC2 PC1 PC3 PC4 PC5 t Critical two-tail 2.262157158
LR LR+Resample
Dari hasil uji t sampel berpasangan (paired-sample t-test)
Gambar 3. Grafik Rekap Pengukuran Akurasi Pada Prediksi pada Tabel 8 dapat diambil kesimpulan hipotesis berdasarkan
Cacat Software perbandingan t hitung dan t tabel, juga berdasarkan nilai
probabilitas. Nilai t hitung yang diwakili oleh t Stat sebesar
Hasil perbandingan Area Under Curve (AUC) Logistic 73.513956, dan nilai t tabel yang diwakili oleh t Critical two-
Regression (LR) dan Logistic Regression dengan penerapan tail sebesar 2.262157158 maka dapat dipastikan nilai t hitung
Resample (LR+Resample) disajikan dalam Tabel 7. Dapat > t tabel yang artinya H0 gagal diterima dan H1 diterima,
dilihat dari Gambar 4 grafik pengukuran AUC mengalami artinya ada perbedaan antara hasil akurasi LR dan

LR+Resample, sedangkan diketahui nilai probabilitas sebesar hipotesis satu (H1) menyatakan bahwa ada perbedaan hasil
8.06469E-14, maka dapat dipatikan bahwa nilai probabilitas < eksperiment antara LR, LR+R, NB, LDA, KNN, C.45, RF,
0,05 yang artinya H0 gagal diterima dan H1 diterima, artinya SVM dan k*. Uji Friedman dilakukan menggunakan aplikasi
terdapat perbedaan yang signifikan dari rata-rata akurasi LR XLSTAT untuk hasil akurasi dari semua pengklasifikasi. Tabel
dan LR+Resample, hasil akurasi menunjukan LR+Resample 11 merupakan hasil dari uji Friedman untuk pairwise
lebih tinggi dibandingkan dengan LR. differences
Selanjutnya uji t sampel berpasangan (paired-sample t-test) Dari hasil uji Friedman model klasifikasi terbaik pada
untuk hasil AUC dari LR dan variabel LR+Resample dapat semua dataset dicatak tebal. Dalam uji Friedman didapatkan
dilihat pada Tabel 9. Nilai t hitung yang diwakili oleh t Stat hasil signifikansi statistik pengujian P-value seperti telihat
sebesar 5669.85953, dan nilai t tabel yang diwakili oleh t pada Tabel 11. Berdasarkan p-value dapat menjawab hipotesa
Critical two-tail sebesar 2.262157158 maka dapat dipastikan H0 diterima jika p-value signifikan dan menolak H1 ketika p-
nilai t hitung > t tabel yang artinya H0 gagal diterima dan H1 value kurang signifikan. Dalam penelitian ini akan diatur
diterima, artinya ada perbedaan antara hasil AUC LR dan seberapa signifikan statistik dengan symbol dengan nilai
LR+Resample, sedangkan diketahui nilai probabilitas sebesar 0.05. Sehingga dapat dirumuskan jika p-value = menerima
8.40652E-31, maka dapat dipatikan bahwa nilai probabilitas < H0 dan menolak H1.
0,05 yang artinya H0 gagal diterima dan H1 diterima, artinya
terdapat perbedaan yang signifikan dari rata-rata AUC LR dan Tabel 11. Hasil Akurasi Uji Friedman untuk Pairwise
LR+Resample, hasil AUC menunjukan LR+Resample lebih Differences
tinggi dibandingkan dengan LR.
t-Test: Paired Two Sample for Means
Tabel 9. Paired sample t-test Akurasi LR dan LR+Resample
LR LR+Resample
Mean 0.8188 0.8562
Variance 0.007261289 0.005063956
Observations 10 10
Pearson Correlation 0.784614645
Hypothesized Mean Difference 95
df 9
Untuk uji Friedman ini, kita mengatur tingkat signifikansi
statistik () menjadi 0,05. Ini berarti bahwa ada perbedaan
t Stat -5669.85953
yang signifikan secara statistik jika P-value <0,05. Dari hasil
P(T<=t) one-tail 4.20426E-31
percobaan, P-value adalah 0,0001, ini lebih rendah dari tingkat
t Critical one-tail 1.833112923
signifikansi = 0,05, dengan demikian kita harus menolak
P(T<=t) two-tail 8.40852E-31
hipotesis nol, dan itu berarti bahwa ada perbedaan yang
t Critical two-tail 2.262157158
signifikan secara statistik. Selanjutnya dilakukan uji Friedman
dengan Nemenyi post hoc tes untuk mendeteksi pengklasifikasi
Selanjutnya untuk mengetahui metode yang diusulkan
tertentu berbeda secara signifikan. Tabel 12 memperlihatakan
dapat menangani ketidakseimbangan kelas (class imbalance)
hasil akurasi uji Friedman untuk p-value.
pada dataset NASA maka dibanginkan dengan algoritma
pengklasifikasi lain yaitu: Nave Bayes (NB), Linear
Tabel 12. Hasil Akurasi Uji Friedman untuk P-values
Discriminant Analysis (LDA), k-nearest neighbor (k-NN),
Decision Tree (C.45), Random Forest (RF), Support Vector
Machine (SVM) dan neares neighbor (k*). Eksperimen untuk
pengklasifikasi lain menggunakan software Rapid Miner versi
5.3. Rekap hasil akurasi dari eksperimen yang dilakukan pada
LR, LR+Resample dan pengklasidikasi lain dapat dilihat pada
Tabel 10.
Tabel 10. Rekap Akurasi dengan Pengklasifikasi Lain

Dataset
Model
LR 84.88% 82.11% 85.74% 79.50% 99.32% 85.04% 91.70% 87.02% 90.99% 97.27% Dapat dilihat pada Gambar 5, Logistic Regression dengan
LR+R 90.40% 81.90% 85.16% 90.00% 99.48% 93.68% 93.41% 86.31% 90.64% 97.31% Resampling (LR+R) menghasilkan akurasi tinggi berdasarkan
NB 82.56% 81.31% 82.25% 79.00% 93.54% 72.44% 90.93% 33.51% 87.42% 96.63%
LDA 43.02% 81.90% 85.73% 57.00% 97.75% 43.31% 81.03% 65.16% 85.70% 96.58%
uji Freidmen. Berdasarkan Tabel 12. dapat ditunjukan bahwa
KNN 81.69% 70.22% 80.44% 71.50% 99.16% 62.99% 87.35% 80.98% 81.63% 96.82% pengklasifiasi Nave Bayes (NN) danLogistic Regression (LR)
C.45 79.07% 81.66% 84.49% 81.50% 99.40% 61.42% 91.83% 87.29% 87.28% 97.11% menghasilkan akurasi yang tinggi seperti penelitian oleh (Hall
SVM 87.50% 80.91% 85.35% 82.00% 99.27% 70.08% 91.83% 87.56% 89.42% 97.30%
RF 88.05% 81.67% 84.49% 82.00% 99.29% 66.14% 91.87% 87.56% 87.28% 97.10%
et al., 2012; Wahono et al., 2011). Seperti yang dilakukan oleh
K* 87.79% 81.66% 84.49% 82.00% 99.27% 65.35% 91.96% 87.56% 12.72% 97.04% (Saifudin, 2014) yang menggunakan dataset NASA, hasil
akurasi NB dan LR menunjukan hasil yang signifikan.
Dari Tabel 10 rekap akurasi dipergunakan untuk uji
Friedman (Friedmant test) yang menguji hipotesis nol (H0)
menyatakan bahwa tidak ada perbedaan hasil eksperimen
antara motode Logitic Regression (LR), Logistic Regression
menggunakan Resample (LR+R), Nave Bayes (NB), Linear
Discriminant Analysis (LDA), k-nearest neighbor (k-NN),
Decision Tree (C.45), Random Forest (RF), Support Vector
Machine (SVM) dan neares neighbor (k*). Sedangkan

percobaan, P-value adalah 0,0001, ini lebih rendah dari tingkat

signifikansi = 0,05, dengan demikian kita harus menolak
hipotesis nol, dan itu berarti bahwa ada perbedaan yang
signifikan secara statistik. Selanjutnya dilakukan uji Friedman
dengan Nemenyi post hoc tes untuk mendeteksi pengklasifikasi
tertentu berbeda secara signifikan. Tabel 15 memperlihatakan
hasil akurasi uji Friedman untuk p-value.
Tabel 15. Hasil AUC Uji Friedman untuk P-values
Gambar 5. Grafik Mean Akurasi Uji Friedman
Pada uji Friedman selanjutnya adalah menguji hasil AUC

dari eksperimen yang sudah dilakukan. Tabel 13 menujukan
rekap hasil eksperimen AUC. Dari Tabel 13 rekap AUC Dapat dilihat pada Gambar 6, Logistic Regression dengan
dipergunakan untuk uji Friedman (Friedman test) yang Resampling (LR+R) menghasilkan AUC tinggi berdasarkan uji
menguji hipotesis nol (H0) menyatakan bahwa tidak ada Freidmen. Berdasarkan Tabel 15, dapat ditunjukan bahwa
perbedaan hasil eksperimen antara motode LR, LR+R, NB, pengklasifiasi Nave Bayes (NN) dan Logistic Regression (LR)
LDA, k-NN, C.45, RF, SVM dan k*. Sedangkan hipotesis satu menghasilkan AUC yang tinggi seperti penelitian oleh (Hall et
(H1) menyatakan bahwa ada perbedaan hasil eksperiment al., 2012; Wahono et al., 2011). Seperti yang dilakukan oleh
antara LR, LR+R, NB, LDA, KNN, C.45, RF, SVM dan k*. (Saifudin, 2014) yang menggunakan dataset NASA, hasil
Uji Friedman dilakukan menggunakan aplikasi XLSTAT akurasi NB dan LR menunjukan hasil yang signifikan.
untuk hasil akurasi dari semua pengklasifikasi. Tabel 11
merupakan hasil dari uji Friedman untuk pairwise differences
Tabel 13. Perbandingan AUC Model Prediksi Cacat Software

Dataset
Model
LR 0.728 0.705 0.800 0.708 0.875 0.863 0.828 0.819 0.907 0.955
LR+R 0.816 0.708 0.791 0.875 0.895 0.900 0.854 0.846 0.926 0.951
NB 0.780 0.683 0.786 0.677 0.916 0.712 0.775 0.756 0.840 0.940
LDA 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500
KNN 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500
C.45 0.500 0.500 0.542 0.541 0.836 0.489 0.609 0.696 0.723 0.500
SVM 0.736 0.614 0.731 0.595 0.509 0.716 0.810 0.732 0.905 0.784
RF 0.518 0.000 0.549 0.599 0.639 0.627 0.523 0.509 0.150 0.676
K* 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500 0.500
Dari hasil AUC uji Friedman model klasifikasi terbaik pada

semua dataset dicetak tebal. Dalam uji Friedman didapatkan
hasil signifikansi statistik pengujian P-value seperti telihat
pada Tabel 14. Berdasarkan p-value dapat menjawab hipotesa Gambar 6. Grafik Mean AUC uji Friedman
H0 diterima jika p-value signifikan dan menolak H1 ketika p-
value kurang signifikan. Dalam penelitian ini akan diatur
seberapa signifikan statistik dengan symbol dengan nilai 5 KESIMPULAN
0.05. Sehingga dapat dirumuskan jika p-value = menerima Penelitian dengan menerapkan metode resampling untuk
H0 dan menolak H1. penyelesaian ketidakseimbangan kelas (class Imbalance) pada
dataset NASA MDP untuk prediksi cacat Software dengan
Tabel 14. Hasil AUC Uji Friedman untuk Pairwise algoritma Logistic Regression. Hasil eksperimen pada
Differences penelitian ini mendapatakn nilai akurasi sebesar 99,48% pada
dataset MC1 dengan model LR+Resample, mengalami
peningkatan sebesar 0.16% dari LR tanpa Resample. Dan hasil
AUC sebesar 0.951 pada dataset PC5 untuk model
LR+Resample.
Hasil perbandingan dari eksperimen pada penelitian untuk
semua dataset dengan pengklasifikasi lain (Naive Bayes (NB),
Linear Discriminant Analysis (LDA), k-Nearest Neghbor
(k-NN), C4.5, Support Vector Machine (SVM), Random
Forest (RF), dan K*) tingkat akurasi Logistic Regression
menunjukan hasil yang paling baik, baik dalam parameter
Untuk uji Friedmant ini, kita mengatur tingkat signifikansi AUC maupun akurasi.
statistik () menjadi 0,05. Ini berarti bahwa ada perbedaan
yang signifikan secara statistik jika P-value <0,05. Dari hasil

Dari hasil pengujian di atas maka dapat disimpulkan bahwa Song, Q., Jia, Z., Shepperd, M., Ying, S., & Liu, J. (2011). A General
pengunaan metode LR+Resample mampu menangani Software Defect-Proneness Prediction Framework. IEEE
ketidakseimbangan dataset pada logistic regression dengan Transactions on Software Engineering.
menghasilkan nilai akurasi dan AUC lebih tinggi dibandingkan Thanathamathee, P., & Lursinsap, C. (2013). Handling imbalanced
data sets with synthetic boundary data generation using
dengan metode LR yang tidak menggunakan Resample. Dari bootstrap re-sampling and AdaBoost techniques. Pattern
hasil pengujian diatas dapat disimpulkan bahwa metode Recognition Letters.
resampling terbukti efektif dalam menyelesaikan Vercellis, C. (2011). Business Intelligence: Data Mining and
ketidakseimbangan kelas pada prefiksi cacat Software dengan Optimization for Decision Making. Methods. John Wiley &
algoritma Logistic Regression. Sons.
Wahono, R. S., Suryana, N., & Ahmad, S. (2014). Metaheuristic
Optimization based Feature Selection for Software Defect
REFERENSI Prediction. Journal of Software.
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Third
Edition. Elsevier Inc.
Alpaydin, E. (2010). Introduction to Machine Learning. London: The Wu, J., & Cai, Z. (2011). Attribute Weighting via Differential
MIT Press. Evolution Algorithm for Attribute Weighted Naive Bayes (
Canu, S., & Smola, A. (2006). Kernel methods and the exponential WNB ).
family. Neurocomputing. Wu, X., & Kumar, V. (2010). The Top Ten Algorithms in Data
Chang, R., Mu, X., & Zhang, L. (2011). Software Defect Prediction Mining. Taylor & Francis Group.
Using Non-Negative Matrix Factorization. Journal of
Software.
Czibula, G., Marian, Z., & Czibula, I. G. (2014). Software defect
prediction using relational association rule mining. Information
Sciences.
Dubey, R., Zhou, J., Wang, Y., Thompson, P. M., & Ye, J. (2014). BIOGRAFI PENULIS
Analysis of sampling techniques for imbalanced data: An
n=648 ADNI study. NeuroImage. Harsih Rianto. Memperoleh gelar S.Kom
Ganganwar, V. (2012). An overview of classification algorithms for dari Sekolah Tinggi Ilmu Komputer Nusa
imbalanced datasets. International Journal of Emerging Mandiri Jakarta (STMIK Nusa Mandiri) dan
Technology and Advanced Engineering. M.Kom dari program pasca sarjana program
Gorunescu, F. (2011). Data mining: Concepts, models and techniques. studi Magister Ilmu Komputer STMIK Nusa
Intelligent Systems Reference Library, 12. Mandiri, Jakarta. Saat ini bekerja sebagai
Hall, T., Beecham, S., Bowes, D., Gray, D., & Counsell, S. (2012). A dosen di AMIK BSI Bekasi. Minat
Systematic Literature Review on Fault Prediction Performance penelitiannya saat ini meliputi mechine
in Software Engineering. IEEE Transactions on Software learning dan software engineering (rekayasa perangkat lunak).
Engineering.
Harrington, P. (2012). Machine Learning in Action. Manning
Publications Co. Romi Satria Wahono. Memperoleh gelar
Hosmer, D. W., & Lemeshow, S. (2000). Applied Logistic Regression B.Eng dan M.Eng pada bidang ilmu komputer
Second Edition. New York, NY: John Wiley & Sons, Inc. di Saitama University Japan, dan Ph.D pada
Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013). Applied bidang software engineering di Universiti
Logistic Regression Third Edition. Hoboken, NJ, USA: John Teknikal Malaysia Melaka. Pengajar dan
Wiley & Sons, Inc. peneliti di Fakultas Ilmu Komputer,
Karsmakers, P., Pelckmans, K., & Suykens, J. a. K. (2007). Multi- Universitas Dian Nuswantoro. Pendiri dan
class kernel logistic regression: a fixed-size implementation. CEO PT Brainmatics, perusahaan yang
2007 International Joint Conference on Neural Networks. bergerak di bidang pengembangan software. Minat penelitian pada
Khoshgoftaar, T. M., Gao, K., Napolitano, A., & Wald, R. (2013). A bidang software engineering dan machine learning. Profesional
comparative study of iterative and non-iterative feature member dari asosiai ilmiah ACM, PMI dan IEEE Computer Society.
selection techniques for software defect prediction.
Information Systems Frontiers.
Komarek, P., & Moore, A. W. (2005). Making Logistic Regression A
Core Data Mining Tool. School of Computer Science.
Larose, D. T. (2005). Discovering Knowladge In Data: An
Introduction to Data Mining. Discovering Knowledge in Data:
An Introduction to Data Mining.
Lessmann, S., Member, S., Baesens, B., Mues, C., & Pietsch, S.
(2008). Benchmarking Classification Models for Software
Defect Prediction: A Proposed Framework and Novel
Findings.
Liebchen, G. a., & Shepperd, M. (2008). Data sets and data quality in
software engineering. Proceedings of the 4th International
Workshop on Predictor Models in Software Engineering.
Lin, C., Weng, R. C., & Keerthi, S. S. (2008). Trust Region Newton
Method for Large-Scale Logistic Regression. Journal of
Machine Learning Research.
Ma, Y., Luo, G., Zeng, X., & Chen, A. (2012). Transfer learning for
cross-company software defect prediction. Information and
Software Technology.
Maalouf, M., & Trafalis, T. B. (2011). Robust weighted kernel logistic
regression in imbalanced and rare events data. Computational
Statistics & Data Analysis.


45 165 2 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

45 165 2 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

Journal of Software Engineering, Vol. 1, No.

1, April 2015 ISSN 2356-3974

Resampling Logistic Regression untuk Penanganan

Romi Satria Wahono

Copyright 2015 IlmuKomputer.Com 46

Copyright 2015 IlmuKomputer.Com 47

Copyright 2015 IlmuKomputer.Com 48

Formulasi perhitungan yang dilakukan (Gorunescu, 2011) Mulai

Membagi datase kedalam k bagian, Selesai

Tabel 3. Nilai AUC, Keterangan dan Simbol

Copyright 2015 IlmuKomputer.Com 49

Pada penelitian ini dilakukan pengujian hipotesis degan uji

Pada Tabel 6 disajikan rekap pengukuran akurasi model 0.2

Copyright 2015 IlmuKomputer.Com 50

Tabel 10. Rekap Akurasi dengan Pengklasifikasi Lain

Copyright 2015 IlmuKomputer.Com 51

percobaan, P-value adalah 0,0001, ini lebih rendah dari tingkat

Tabel 15. Hasil AUC Uji Friedman untuk P-values

Gambar 5. Grafik Mean Akurasi Uji Friedman

Pada uji Friedman selanjutnya adalah menguji hasil AUC

Tabel 13. Perbandingan AUC Model Prediksi Cacat Software

Dari hasil AUC uji Friedman model klasifikasi terbaik pada

Copyright 2015 IlmuKomputer.Com 52

Copyright 2015 IlmuKomputer.Com 53

Anda mungkin juga menyukai