Oleh:
Muhammad Tonykha Jaya
P31.2015.01830
PERNYATAAN PENULIS
PERSETUJUAN TESIS
ABSTRACT
ABSTRAK
ACKNOWLEDGEMENTS
i
DAFTAR ISI
TESIS ......................................................................................................................................... 1
TESIS .......................................................................................................................................... i
ABSTRACT ................................................................................................................................ i
ABSTRAK .................................................................................................................................. i
ACKNOWLEDGEMENTS ........................................................................................................ i
2
2.2.5 Penilaian Kualitas Studi ..................................................................................... 16
Bab 5 Kesimpulan................................................................................................................ 39
3
DAFTAR GAMBAR
4
DAFTAR TABEL
5
BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Estimasi usaha pengembangan perangkat lunak dikenal sebagai salah satu tugas paling
penting pada menejemen proyek perangkat lunak (Hosni, Idri and Abran, 2017). Estimasi usaha
pengembangan perangkat lunak bergantung pada data proyek, kurangnya nilai data pada
beberapa atribut menyebabkan tidak tercapainya penerapan model estimasi usaha perangkat
lunak (Patil, 2014). Jadi estimasi usaha perangkat lunak merupakan kegiatan yang sangat
penting, dan proses pengembangannya sangat bergantung pada kualitas data.
Teknik estimasi usaha perangkat lunak dikelompokkan menjadi tiga kategori utama,
pertama penilaian ahli untuk menentukan perkiraan usaha; kedua teknik parametrik yang
berasal dari analisis statistik dan numerik; dan ketiga teknik machine learning (ML) (Huang,
Li and Xie, 2015) (de Barcelos Tronto, da Silva and Sant’Anna, 2008). Mechine learning telah
mendapatkan perhatian khusus pada estimasi usaha perangkat lunak (Wen et al., 2012).
Beberapa metode machine learning diantaranya adalah Analogy based estimation (Wen, Li and
Tang, 2009) (Amazal, Idri and Abran, 2014), neural network (Nassif et al., 2016), algoritma
genetika, case based reasoning (CBR) (Jun and Lee, 2001), Decision tree (DT) (Hosni, Idri and
Abran, 2017).
6
and-error digunakan untuk menentukan pengaturan parameter untuk arsitektur Neural
Network. Neural Network sulit untuk mendapatkan pengaturan parameter optimal (Lessmann
et al., 2008). Dalam mengembangkan model berbasis Neural Network, penting untuk
menghapus outlier dan mengidentifikasi variabel dominan pada data (Park and Baek, 2008).
Feature Selection (FS) baru-baru ini digunakan dalam bidang estimasi usaha perangkat
lunak untuk meningkatkan akurasi dan ketahanan teknik prediksi (Idri and Cherradi, 2016).
Metode Feature Selection telah digunakan di bidang SDEE untuk tujuan mengurangi dimensi
ukuran dataset dengan menghilangkan fitur yang tidak relevan dan berlebihan (Hosni, Idri and
Abran, 2017). (Idri and Cherradi, 2016) menemukan bahwa penggunaan Forward Feature
Selection, dapat meningkatkan akurasi prediksi Fuzzy Analogy dan mengurangi jumlah fitur
yang dipilih daripada Backward Feature Elimination. Strategi dasar dalam model wrapper
adalah memperbaiki secara berulang serangkaian fitur F saat ini dengan menambahkan fitur
secara berurutan (Aggarwal, 2015).
7
Pada penelitian ini diusulkan metode Neural Network dengan optimasi parameter
genetik algoritma, dan teknik fitur seleksi forward selection MRMR untuk menangani masalah
fitur yang tidak relevan.
Hasil penelitian ini diharapkan dapat digunakan untuk mengembangkan estimasi usaha
perangkat lunak agar menghasilkasn estimasi usaha perangkat lunak yang berkualitas. Selain
itu juga memberikan sumbangan dalam pengembangan dan penerapan model untuk menangani
fitur yang tidak relevan pada estimasi usaha perangkat lunak.
BAB I PENDAHULUAN
Pada bab ini akan diuraikan mengenai latar belakang masalah, identifikasi masalah, rumusan
masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan.
8
Pada bab ini akan membahas mengenai tinjauan pustaka berupa systematic literature review
(SLR) yang berisi: (1) penelitian terkait atau penelitian yang sudah dilakukan oleh beberapa
peneliti tentang penerapan algoritma genetika pada algoritma Neural Network untuk estimasi
usaha perangkat lunak. (2) publikasi artikel penelitian, (3) peneliti yang paling aktif, (4) dataset
yang sering digunakan, (5) metode yang sering digunakan, dan (6) daftar referensi SLR.
Pada bab ini akan dibahas mengenai metode pengumpulan data, metode yang diusulkan, dan
pengujian metode.
Pada bab ini akan dibahas mengenai hasil dari penelitian dan pembahasannya. Hasil pada bab
ini akan menyajikan hasil dari kinerja metode yang diusulkan dibanding dengan metode
sebelumnya.
Pada bab ini menyajikan kesimpulan dari hasil penelitian, dan saran untuk penelitian lebih
lanjut.
9
BAB 2
TINJAUAN PUSTAKA
2.1 Pendahuluan
Sebelum melakukan penelitian lebih lanjut, diperlukan kajian terhadap penelitian
terdahulu untuk mengetahui lebih lanjut mengenai metode ataupun data yang sudah pernah
dilakukan. Tinjauan pustaka ini dilakukan untuk mengetahui state-of-the-art tentang penelitian
pada estimasi usaha usaha perangkat lunak. Ada sebanyak 11 jurnal mengenai fitur yang tidak
relevan yang dipublikasikan antara 1 Januari 2010 hingga 31 Juli 2020 akan diinvestigasi.
Penelitian tentang fitur yang tidak relevan telah banyak dilakukan dan penelitian tersebut
sangat beragam dan kompleks, sehingga diperlukan sebuah gambaran yang komprehensif
mengenai state-of-the-art dari penelitian tersebut.
Tahapan SLR pada penelitian ini dapat dilihat pada Gambar 2.1.
10
Mulai
2. Merencanakan tahapan
review
3. Mengevaluasi tahapan
review
8. Merangkum data
TAHAP
9. Melaporkan hasil LAPORAN
Selesai
11
Tabel 2.1 Ringkasan PICOC
Kriteria PICOC
Population Software, software application, software system, information system
Intervention Fitur yang tidak relevan dan berlebihan
Comparison -
Outcomes Penyelesaian masalah pada fitur yang tidak relevan dan berlebihan
Context Penelitian di Industri dan Universitas dengan menggunakan data kecil
dan besar
Untuk rumusan masalah pada tinjauan pustaka dalat dilihat pada Tabel 2.2. Rumusan
masalah ini hanya ditunjukkan untuk tinjauan pustaka, tidak untuk penelitian utuma. Peta
pikiran rumusan masalah secara visual dapat dilihat pada Gambar 2.2.
12
RQ3 dan RQ4 digunakan untuk mendukung penelitian utama. Sedangkan RQ 1 dan
RQ2 digunakan untuk mendukung konteks penelitian
Pencarian artikel penelitian terkait dibatasi pada tahun 2010 sampai dengan 2020.
Publikasi yang diambil berupa publikasi research articles.
13
2.2.3 Seleksi Studi
Seleksi studi didasarkan pada kriteria terhadap penelitian yang akan digunakan maupun
tidak digunakan berdasarkan RQ yang terbentuk. Beberapa kriteria tersebut dapat dilihat pada
Tabel 2.3. Sedangkan tahap penelitian dari seleksi studi dapat dilihat pada Gambar 2.3.
14
Start
End
15
2.2.4 Ekstraksi Data
Studi utama yang dipilih selanjutnya diekstraksi, ekstraksi data bertujuan untuk
mengumpulkan data dari studi utama yang berkontribusi dan dibutuhkan untuk menjawab
pertanyaan penelitian terkait. Tabel 2.4 menunjukkan ekstraksi terhadap penelitian terhadap
fitur yang tidak relevan dan berlebihan.
16
mengintegrasikan metode feature selection forward selection untuk menangani fitur yang tidak
relevan pada estimasi usaha perangkat lunak. Gambar 2.4 menunjukkan sebaran publikasi
artikel penelitian tersebut dalam kurun waktu Tahun 2010 sampai Tahun 2020, sedangkan
Gambar 2.5 menunjukkan jumlah publikasi jurnalnya. Nilai dan kategori jurnal tersebut
diperingkat berdasarkan SJR (Scimago Journal Rank) yang dapat dilihat pada Tabel 2.5.
Gambar 2.4 dan Gambar 2.5 menunjukkan bahwa topik penelitian ini secara konsisten terus
dikembangkan sampai saat ini.
2020
2018
2016
2014
2012
2010
2008
2006
2004
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35
JURNAL PUBLIKASI
APPLIED SOFT COMPUTING 1
IEEE 1
INFORMATION AND SOFTWARE
TECHNOLOGY
1
IET SOFTWARE 3
NEUROCOMPUTING 2
17
Tabel 2.5 Nilai dan Kategori Jurnal berdasarkan SJR (Scimago Journal Rank)
18
Peneliti yang Aktif dan Berkontribusi
6
Jumlah Publikasi
5
4
3
2
1 Jumlah
0
Mesquita, Diego…
Baek, Seung
Lalit V. Patil
Cherradi, Safae
Menzies, Tim
Menzies, Tim
Lin, Chin Teng
Hosni, Mohamed
Lefley, Martin
Cowling, Peter I.
George Lee, C. S.
Khatibi Bardsiri, V.
Abran, Alain
Li, Yan-Fu
Bener, Ayse
Eirola, Emil
Idri, AliPeneliti
Dataset
33%
67%
Private Public
Gambar 2.7 Menunjukkan bahwa Dataset Public yang Diperoleh dari promise software
engineering repository memiliki persentase paling besar digunakan dan dataset yang sering
digunakan tersebut dapat dilihat pada Tabel 2.6
19
Tabel 2.6 Dataset Public yang Sering Digunakan Pada Estimasi Usaha Perangkat Lunak
No. Dataset
1 Albrecht
2 COCOMO
3 Desharnais
4 ISBSG
5 Kemerer
6 Maxwell
7 NASA
20
2.3.4.1 Metode (Oliveira et al., 2010)
Pada Tahun 2010, Oliveira et al., mengatakan bahwa pemilihan fitur memiliki pengaruh
penting pada akurasi estimasi usaha perangkat lunak. Oliveira et al., mengusulkan dan
menyelidiki penggunaan metode Algoritma Genetika (GA) untuk secara bersamaan (1)
memilih subset fitur masukan yang optimal dan (2) mengoptimalkan parameter metode
pembelajaran mesin, yang bertujuan pada tingkat akurasi yang lebih tinggi untuk perkiraan
upaya perangkat lunak.
Dataset yang mereka gunakan adalah enam dataset benchmark proyek perangkat lunak,
yaitu, Desharnais, NASA, COCOMO, Albrecht, Kemerer dan Koten and Gray. Hasilnya
dibandingkan dengan yang diperoleh dengan metode yang diusulkan dalam literatur
menggunakan Neural Networks, Support Vector Machines, Multiple Additive Regression
Trees, Bagging, And Bayesian Statistical Models.
Pada semua simulasi GA menggunakan persilangan roulette wheel selection and elitism
replacement dua titik secara acak. Performa dari metode yang diusulkan pada penelitian
tersebut menggunakan alat ukur MMRE and PRED. Pada semua dataset, metode Oliveira et
al., mencapai kinerja terbaik dalam hal PRED. Dalam dataset Desharnais dan COCOMO,
metode kami lebih unggul dari yang lain dalam hal PRED dan MMRE. Kami juga
membandingkan hasil kami di kumpulan data Koten dan Grey dengan artikel asli yang
mempertimbangkan metrik berdasarkan residual absolut. Perbandingan telah menunjukkan
bahwa metode yang kami usulkan mengungguli metode Koten dan Gray dalam tiga hal metrik,
yaitu, Sum Ab.Res., Med. Ab.Res., Dan SD Ab.Res.
21
Population
Data Set
Split
Converting genotype to
phenotype
Selected Feature subset
Testing Training
with FS wit FS
Fitnes Evaluation
Termination
No Genetic operation
are satisfied?
Yes
Optimized
parameters and FS
22
2.3.4.2 Metode (Zare, Khademi Zare and Fallahnezhad, 2016)
Zare, Khademi Zare dan Fallahnezhad pada Tahun 2016 melakukan penelitian pada
fitur yang tidak relevan pada estimasi usaha perangkat lunak. Mereka mencoba untuk
menerapkan metode tiga level Bayesian network and 15 components of COCOMO and
software size untuk memperkirakan upaya yang dibutuhkan (Man-Month). Bayesian network
nilai estimasi usaha dimodifikasi dengan menentukan koefisien optimal yang dihasilkan dari
kontrol optimal yang dirancang oleh algoritma genetika.
Dataset yang digunakan pada penelitian tersebut adalah COCOMO NASA yang
diperoleh dari Promise Software Engineering Repository kumpulan data COCOMO NASA1
mencakup 60 proyek perangkat lunak yang diimplementasikan mempertimbangkan 17
komponen COCOMO, ukuran perangkat lunak berdasarkan 1000 baris kode (KLOC) dan nilai
aktual dari estimasi yang diperlukan untuk pengembangan perangkat lunak. (Zare, Khademi
Zare and Fallahnezhad, 2016) menggunakan 40 proyek untuk pembelajaran model dan 20
proyek lainnya digunakan untuk pengujian model.
Bayesian Network perlu mendapatkan interval ukuran perangkat lunak dan nilai effort
aktual dalam proyek kumpulan data. Bayesian Network bekerja dengan interval diskrit
sehingga akurasi estimasi berkurang. Untuk mengatasi masalah interval diskrit, (Zare,
Khademi Zare and Fallahnezhad, 2016) mengubah interval diskrit menjadi interval fuzzy untuk
meningkatkan akurasi. Zare menunjukkan bahwa koefisien optimal yang dihasilkan dari GA
dan PSO dapat menurunkan nilai error. Namun, nilai kesalahan dalam metode GA lebih kecil
dari nilai kesalahan PSO. Selain itu, membandingkan hasil model yang diusulkan dengan
model lain menunjukkan bahwa akurasi model yang diusulkan lebih baik daripada hasil model
lain.
23
Data Set
Split
Testing Training
Feature Selection
Preprocessing
Algorithm
Cross
Validation Beyesian Network
based on COCOMO
component
MMRE-PRED
Dataset yang digunakan pada penelitian tersebut adalah COCOMO, ISBSG, dan
Kemerer yang diperoleh dari Promise Software Engineering Repository kumpulan data
Repositori data ISBSG R11 (ISBSG), yang mencakup total 5052 proyek dari 24 negara. Fitur
yang dipilih adalah: {Input count (Inpcont), Output count (Outcont), Inquiry count (EnqCont),
File count (FileCont), Interface Count (Intcont), Adjusted function point (AFP), dan
Normalized effort in hours (NorEffort)}. Dataset Albrecht adalah kumpulan data populer yang
24
mencakup 24 proyek yang dikembangkan oleh bahasa generasi ketiga. Ada lima fitur
independen: "Inpcout", "Outcount", "Quecount", "Filcount" dan "SLOC" dan dua fitur
dependen: "Fp" dan "Effort" dalam kumpulan data ini. Upaya, yang dicatat dalam 1000 jam
orang, adalah fitur penargetan. Kumpulan data Kemerer berisi data yang dikumpulkan dari 15
besar menyelesaikan proyek pemrosesan data bisnis. Setiap proyek memiliki tujuh fitur
masukan: (1) bahasa pemrograman, (2) perangkat keras, (3) durasi, (4) KSLOC, (5) AdjFP
(titik fungsi yang disesuaikan), (6) Upaya dan (7) RAWFP (fungsi mentah poin) (Kemerer,
1987.
Penggunaan ANFIS yang digabungkan dengan SBO sebagai algoritma pelatihan baru
cocok untuk digunakan pada bidang pembobotan atribut, bobot Neural Network dan
penyesuaian bias serta penyesuaian parameter ANFIS. Selain itu, berdasarkan model yang
diusulkan adalah generasi parameter yang dioptimalkan untuk ANFIS. Dengan memilih
parameter terbaik yang dihasilkan oleh SBO, kinerja ANFIS meningkat secara signifikan.
Kombinasi SBO dan ANFIS memiliki performa terbaik diantara model yang ada. Berdasarkan
hasil keseluruhan, dapat disimpulkan bahwa algoritma ini dapat menjadi algoritma pelengkap
yang tepat untuk menyelesaikan masalah estimasi usaha pengembangan perangkat lunak.
Secara khusus, model hibrida ANFIS-SBO mampu menghasilkan estimasi yang akurat di
bidang ini.
25
LEARNING SCHEME
Initialize the
first population
Training
of bowers
Step
Calculate the
Create base fuzzy system cost of bowers
Data Set
Yes
Other
variable?
Optimized parameter
No
Calculate the
No
cost of bower
26
2.4 Daftar Referensi Systematic Literature Review (SLR)
Daftar referensi yang systematic literature review ini dapat dilihat pada Tabel 2.7. Daftar referensi terdiri dari 7 atribut (Tahun, judul,
peneliti, jurnal, dataset, metode usulan, validasi dan evaluasi) dan terdapat sebelas Publikasi penelitian dari Tahun 2010 hingga 2020 yang membas
fitur yang tidak relevan pada estimasi usaha perangkat lunak.
27
3. 2013 LMES: A localized multi- Bardsiri, Vahid IET Software ISBSG, localized multi-estimator 10-fold cross
estimator model to Khatibi Maxwell and (LMES) validation,
estimate software COCOMO MMRE, RED,
development effort MdMRE and
BMMRE
4. 2014 Fuzzy entropy-based Kumar, M IET Software Private- Fuzzy entropi Print_tokens
framework for multi- (Kumar, Kumar Software and
faceted test case and Sharma, Infrastructure Print_tokens2,
classification and 2014) Repository
selection: An empirical (SIR)
study
5. 2014 Mixture of Gaussians for Eirola, Emil Neurocomputing Private Mixture Gaussian NN RMSE
distance estimation with (Eirola et al.,
missing data 2014)
6. 2014 A Mutual Information- Liu, Qin 2014 IEEE 38th ISBSG, Hybrid feature selection MMRE,
Based Hybrid Feature Annual Desharnais (supervised and PRED
Selection Method for Computer unsupervised FS)
Software Cost Estimation Software and
Using Feature Clustering Applications
Conference
28
7. 2016 Improving effort Idri, Ali (Idri and IEEE ISBSG, Fuzzy analogy SA and Pred
estimation of Fuzzy Cherradi, 2016) COCOMO81,
Analogy using feature Desharnais,
subset selection Maxwell,
Miyazaki,
China,
Kemerer and
Albrecht.
8. 2016 Software effort estimation Zare, Fatemeh Applied Soft COCOMO three levels Bayesian MRE
based on the optimal (Zare, Khademi Computing NASA network
Bayesian belief network Zare and
Fallahnezhad,
2016)
9. 2017 Cross-validation based K Huang, Journal of Private CVBkNNI (Cross Cross-
nearest neighbor Jianglin(Huang Systems and validation based knn validation,
imputation for software et al., 2017) Software imputation) RMSE
quality datasets: An
empirical study
10. 2017 Satin bowerbird Samareh Engineering COCOMO, Adaptive neuro-fuzzy three fold
optimizer: A new Moosavi, Seyyed Applications of ISBSG, inference system (ANFIS) cross
optimization algorithm to Hamid (Samareh Kemerer validation,
29
optimize ANFIS for Moosavi and Artificial & satin bower bird MMRE And
software development Khatibi Bardsiri, Intelligence optimization (SBO) PRED
effort estimation 2017)
11. 2017 Euclidean distance Mesquita, Diego Neurocomputing Private Expected Euclidean RMSE
estimation in incomplete P.P. Distance (EED)
datasets
30
BAB 3
METODOLOGI PENELITIAN
31
3.2 Analisis Masalah Dan Tinjauan Pustaka
Pada Gambar 3.1 dapat dilihat aktifias penelitian penereapan algoritma genetika dan
forward selection neural network untuk mengatasi fitur yang tidak relevan diawali dengan
identifikasi masalah yang diuraikan pada bab 1, dilanjutkan identifikasi dan evaluasi metode
yang pernah diusulkan beserta dataset yang digunakan diuraikan pada bab 2 berupa Systematic
Literature Review (SLR).
Nama Effort
No. Size Unit Feature
Dataset Min Max Mean Median Skewnes Kurtosis
32
Kerangka pemikiran dalam penelitian ini dapat ditunjukkan pada Gambar 3.2 dengan
komponen utama sebagai berikut:
1. Masalah penelitian dalam penelitian ini adalah algoritma Neural network memiliki
keunggulan toleransi kesalahan yang kuat dan kemampuan yang kuat dari
pemrosesan data kesalahan perangkat lunak yang dinamis, tetapi kepraktisan NN
terbatas karena kesulitan memilih parameter yang sesuai (optimal) dari arsitektur
Neural Network.
2. Metode eksperimen digunakan dalam penelitian ini berupa metode usulan Neural
Network dengan optimasi parameter genetik algoritma, dan teknik fitur seleksi
forward selection untuk menangani masalah fitur yang tidak relevan.
3. Tujuan penelitian ini adalah menerapkan genetika algoritma untuk optimasi
parameter pada Neural Network dengan mengintegrasikan metode feature selection
forward selection untuk menangani fitur yang tidak relevan pada estimasi usaha
perangkat lunak.
4. Evaluasi kinerja menggunakan akurasi dengan metode valsidasi cross-validation
dan RMSE dari metode-metode yang digunakan.
33
Validasi
Permasalahan Metode yang Pernah Ada Metode Usulan
&Evaluasi
Cross-Validation
Preprocessing Preprocessing
Wrapper
- Genetic Algorithm
- Forward subset selection
- backward input selection
- subset fitur bootstrapping and Wrapper MMRE& PRED
Mengidentifikasi masalah
look-up tables - Optimize MRMR +
dalam penerapkan genetika
Forward subset
algoritma untuk optimasi
Hybrid: selection
parameter pada Neural
Network dengan - supervised & unsupervised
mengintegrasikan metode feature selection
feature selection forward - wrapper and filter
selection untuk menangani
fitur yang tidak relevan pada
estimasi usaha perangkat Algorithm
Algorithm
lunak
Regression methods
Ensemble of neural networks
with associative memory
(ENNA) Genetik algorithm based
Fuzzy analogy Neural Network
Fuzzy entropi
CVBkNNI
Mixture Gaussian NN
Expected Euclidean Distance
(EED)
Tahapan dari penerapan Algoritma genetika untuk optimasi parameter Neural Network
yang diusulkan dalam penelitian ini adalah sebagai berikut:
1. Siapkan dataset
2. Gunakan mRMR;
a) pilihan inkremental mRMR untuk memilih n (sejumlah besar preset) fitur
sekuensial dari input X. n set fitur sekuensial 𝑆1 ∁ 𝑆2 ∁ … ∁ 𝑆𝑛−1 ∁ 𝑆𝑛
b) Bandingkan semua n set fitur sekuensial 𝑆𝑘 … 𝑆𝑛 , (1 ≤ 𝑘 ≤ 𝑛 ) untuk mencari
kisaran 𝑘, memanggil Ω, di mana kesalahan masing-masing (cross-validation-
classification) error 𝑒𝑘 secara konsisten kecil (yaitu, memiliki mean kecil dan
varian kecil).
c) Dalam Ω, Temukan kesalahan klasifikasi terkecil 𝑒 ∗ = min 𝑒𝑘 . Ukuran optimal
dari set fitur, 𝑛∗ , pilih 𝑘 terkecil yang sesuai dengan 𝑒 ∗ .
d) Pilih fitur forward subset selection untuk memilih subset dari 𝑚 fitur dari 𝑆𝑛
e) Kesalahan klasifikasi diatur sejumlah sampel, yaitu N. Wrapper pertama
mencari subset fitur dengan satu fitur, dilambangkan sebagai 𝑍1 , dengan
memilih fitur 𝑋1∗ .
34
f) Pilih inkremental ini berulang hingga kesalahan klasifikasi mulai meningkat,
{𝑆𝑛 − 𝑍1 ,} Wrapper selection feature 𝑋2∗ sehingga feature 𝑍2 = {𝑍1 , 𝑋2∗ }
mengarah kepengurangan kesalahan terbesar.
g) Pilih inkremental berulang hingga kesalahan klasifikasi mulai meningkat, yaitu
𝑒𝑘 + 1 > 𝑒𝑘
h) Apabila 𝑒𝑘 + 1 = 𝑒𝑘 dilakukan pencarian tambahan sampai kondisi terpenuhi.
i) Setelah kondisi terminasi terpenuhi, jumlah fitur yang dipilih, 𝑚 , dipilih
sebagai dimensi untuk mencapai kesalahan terendah pertama kali.
3. Genetik algorithm menghasilkan populasi awal secara acak
4. Memperkirakan nilai fitness setiap kromosom dalam populasi
5. Melakukan operasi genetik, termasuk persilangan, mutasi dan seleksi
6. Hentikan algoritma jika kriteria terminasi terpenuhi; kembali ke Langkah 4 jika
tidak. Kriteria penghentian adalah jumlah maksimum yang telah ditentukan
sebelumnya.
7. Parameter NN, including, learning rate, momentum and training cycles dipilih dan
dioptimalkan, kemudian NN dilatih oleh set pelatihan dengan parameter yang
dipilih.
8. Parameter yang dipilih dan biaya parameter digunakan untuk membangun fungsi
fitness function. Setiap kromosom dievaluasi dengan persamaan fitness function
berikut. 𝐹𝑖𝑡𝑛𝑒𝑠𝑠 = 𝑊𝑎 𝑥 𝐴 + 𝑊𝑝 𝑥 (𝑆 + (∑𝑛𝑖=1 𝐶𝑖 𝑥 𝑃𝑖 ))−1
Keterangan:
𝑃𝑖 adalah nilai parameter
𝑊𝑝 adalah bobot parameter
𝐶𝑖 adalah biaya parameter
𝑆 adalah menetapkan konstanta untuk menghindari penyebut mencapai nol
𝐴 adalah akurasi klasifikasi
𝑊𝑎 adalah bobot akurasi klasifikasi
9. Ketika kondisi akhir terpenuhi, operasi berakhir dan parameter NN yang
dioptimalkan diproduksi. Jika tidak, proses akan berlanjut dengan operasi generasi
berikutnya. Metode yang diusulkan mencari solusi yang lebih baik dengan operasi
genetik, termasuk persilangan, mutasi dan seleksi.
10. Lakukan evaluasi hasil pengukuran berupa RMSE menggunakan metode validasi
10-foldcross-validation
35
Data Set
Split
Testing Training
Feature selection
Testing Training
with FS wit FS
Implementation MRMR
Traning NN dengan
Parameter yang Dipilih Mutatuion Operation
berdasarkan Set pelatihan
Baru
Crossover Operation
Semua training set No
selesai?
Yes
Selection Operation
Kriteria Terpenuhi?
Optimized NN
Parameters
36
3.5 Eksperimen dan pengujian
Beberapa algoritma digunakan dalam penelitian ini sebagai pembanding dari pemilihan
parameter Neural Network dengan algoritma genetika antara lain Neural Network, GA-
based method for feature selection and parameters optimization for machine learning
regression. Tahapan eksperimen dalam penelitian ini adalah sebagai berikut:
1. Menyiapkan dataset
2. Melakukan eksperimen menggunakan Neural Network
3. Melakukan eksperimen menggunakan GA-based method for feature selection
and parameters optimization for machine learning regression
4. Melakukan eksperimen menggunakan metode usulan pemilihan parameter
Neural Network dengan algoritma genetika
5. Mencatat hasil pengukuran evaluasi masing-masing metode berupa RMSE
berdasarkan pengujian metode validasi 10-fold cross-validation
6. Mengkomparasi atau membandingkan kinerja Neural Network, GA-based
method for feature selection and parameters optimization for machine learning
regression dan metode usulan pemilihan parameter Neural Network dengan
Algortima Genetika dengan uji beda menggunakan Friedman test untuk
mengetahui perbedaan setiap metode.
Eksperimen dilakukan menggunakan computer dan aplikasi penunjang seperti
Microsoft Excel 2016, python 3.6. Spesifikasi komputer yang digunakan dapat
dilihat pada Tabel 3.2.
37
BAB 4
HASIL DAN PEMBAHASAN
4.1 Hasil
Pada bab ini akan dijelaskan eksperimen terhadap metode pembanding dari metode usulan
penerapan Algoritma genetika untuk optimasi parameter Neural Network terhadap metode
state of the art antara lain Neural Network, dan GA-based method for feature selection and
parameters optimization for machine learning regression serta hasil pengukuran yang
dilakukan berupa RMSE dengan metode validasi 10-fold-cross-validation. Untuk metode GA-
38
BAB 5 KESIMPULAN
39
DAFTAR PUSTAKA
Aggarwal, C. C. (2015) Data Mining: The Textbook, Springer International Publishing. doi:
10.1007/978-3-319-14142-8.
Amazal, F.-A., Idri, A. and Abran, A. (2014) ‘An Analogy-Based Approach to Estimation of
Software Development Effort Using Categorical Data’, 2014 Joint Conference of the
International Workshop on Software Measurement and the International Conference on
Software Process and Product Measurement, pp. 252–262. doi:
10.1109/IWSM.Mensura.2014.31.
Brereton, P. et al. (2007) ‘Lessons from applying the systematic literature review process
within the software engineering domain’, 80, pp. 571–583. doi: 10.1016/j.jss.2006.07.009.
Eirola, E. et al. (2014) ‘Mixture of Gaussians for distance estimation with missing data’,
Neurocomputing. Elsevier, 131, pp. 32–42. doi: 10.1016/j.neucom.2013.07.050.
Hanchuan Peng, Fuhui Long and Ding, C. (2005) ‘Feature selection based on mutual
information criteria of max-dependency, max-relevance, and min-redundancy’, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 27(8), pp. 1226–1238. doi:
10.1109/TPAMI.2005.159.
Hosni, M. and Idri, A. (2018) ‘Software development effort estimation using feature selection
techniques’, Frontiers in Artificial Intelligence and Applications, 303(September), pp. 439–
452. doi: 10.3233/978-1-61499-900-3-439.
Hosni, M., Idri, A. and Abran, A. (2017) ‘Investigating heterogeneous ensembles with filter
feature selection for software effort estimation’, ACM International Conference Proceeding
Series, Part F1319(2), pp. 207–220. doi: 10.1145/3143434.3143456.
Huang, J. et al. (2017) ‘Cross-validation based K nearest neighbor imputation for software
quality datasets: An empirical study’, Journal of Systems and Software, 132, pp. 226–252. doi:
40
10.1016/j.jss.2017.07.012.
Huang, J., Li, Y.-F. and Xie, M. (2015) ‘An empirical analysis of data preprocessing for
machine learning-based software cost estimation’, Information and Software Technology.
Elsevier B.V., 67, pp. 108–127. doi: 10.1016/j.infsof.2015.07.004.
Idri, A., Amazal, F. A. and Abran, A. (2015) ‘Analogy-based software development effort
estimation: A systematic mapping and review’, Information and Software Technology. Elsevier
B.V., 58, pp. 206–230. doi: 10.1016/j.infsof.2014.07.013.
Idri, A. and Cherradi, S. (2016) ‘Improving effort estimation of Fuzzy Analogy using feature
subset selection’, in 2016 IEEE Symposium Series on Computational Intelligence (SSCI).
IEEE, pp. 1–8. doi: 10.1109/SSCI.2016.7849928.
Jun, E. S. and Lee, J. K. (2001) ‘Quasi-optimal case-selective neural network model for
software effort estimation’, Expert Systems with Applications, 21(1), pp. 1–14. doi:
10.1016/S0957-4174(01)00021-5.
Khatibi Bardsiri, V. et al. (2012) ‘Increasing the accuracy of software development effort
estimation using projects clustering’, IET Software, 6(6), p. 461. doi: 10.1049/iet-
sen.2011.0210.
Kumar, M., Kumar, R. and Sharma, A. (2014) ‘Fuzzy entropy-based framework for multi-
faceted test case classification and selection: an empirical study’, IET Software, 8(3), pp. 103–
112. doi: 10.1049/iet-sen.2012.0198.
Lessmann, S. et al. (2008) ‘Benchmarking classification models for software defect prediction:
A proposed framework and novel findings’, IEEE Transactions on Software Engineering,
34(4), pp. 485–496. doi: 10.1109/TSE.2008.35.
Liu, Q. et al. (2014) ‘A Mutual Information-Based Hybrid Feature Selection Method for
Software Cost Estimation Using Feature Clustering’, in 2014 IEEE 38th Annual Computer
Software and Applications Conference. IEEE, pp. 27–32. doi: 10.1109/COMPSAC.2014.99.
Nassif, A. B. et al. (2016) ‘Neural network models for software development effort estimation:
a comparative study’, Neural Computing and Applications. Springer London, 27(8), pp. 2369–
41
2381. doi: 10.1007/s00521-015-2127-1.
Oliveira, A. L. I. et al. (2010) ‘GA-based method for feature selection and parameters
optimization for machine learning regression applied to software effort estimation’,
Information and Software Technology. Elsevier B.V., 52(11), pp. 1155–1166. doi:
10.1016/j.infsof.2010.05.009.
Park, H. and Baek, S. (2008) ‘An empirical validation of a neural network model for software
effort estimation’, Expert Systems with Applications, 35(3), pp. 929–937. doi:
10.1016/j.eswa.2007.08.001.
Patil, L. V (2014) ‘Improving the a Accuracy of Cbsd Effort Estimation Using Fuzzy Logic’,
pp. 1385–1391.
Ponsa, D. and López, A. (2007) ‘Feature Selection Based on a New Formulation of the
Minimal-Redundancy-Maximal-Relevance Criterion’, in Pattern Recognition and Image
Analysis. Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 47–54. doi: 10.1007/978-3-540-
72847-4_8.
Samareh Moosavi, S. H. and Khatibi Bardsiri, V. (2017) ‘Satin bowerbird optimizer: A new
optimization algorithm to optimize ANFIS for software development effort estimation’,
Engineering Applications of Artificial Intelligence. Elsevier, 60(January), pp. 1–15. doi:
10.1016/j.engappai.2017.01.006.
Wahono, R. S., Herman, N. S. and Ahmad, S. (2014) ‘Neural Network Parameter Optimization
Based on Genetic Algorithm for Software Defect Prediction’, Advanced Science Letters,
20(10), pp. 1951–1955. doi: 10.1166/asl.2014.5641.
Wen, J. et al. (2012) ‘Systematic literature review of machine learning based software
development effort estimation models’, Information and Software Technology. Elsevier B.V.,
54(1), pp. 41–59. doi: 10.1016/j.infsof.2011.09.002.
Wen, J., Li, S. and Tang, L. (2009) ‘Improve analogy-based software effort estimation using
principal components analysis and correlation weighting’, Proceedings - Asia-Pacific Software
Engineering Conference, APSEC, (2), pp. 179–186. doi: 10.1109/APSEC.2009.40.
42
Zare, F., Khademi Zare, H. and Fallahnezhad, M. S. (2016) ‘Software effort estimation based
on the optimal Bayesian belief network’, Applied Soft Computing. Elsevier B.V., 49, pp. 968–
980. doi: 10.1016/j.asoc.2016.08.004.
43