Anda di halaman 1dari 44

TESIS

Pemilihan parameter Neural Network dengan Algoritma Genetika untuk


Estimasi Usaha Perangkat Lunak

Oleh:
Muhammad Tonykha Jaya
P31.2015.01830

PROGRAM MAGISTER TEKNIK INFORMATIKA


FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2020
TESIS

PENGESAHAN STATUS TESIS

PERNYATAAN PENULIS

PERSETUJUAN TESIS

ABSTRACT

ABSTRAK

ACKNOWLEDGEMENTS

i
DAFTAR ISI

TESIS ......................................................................................................................................... 1

TESIS .......................................................................................................................................... i

PENGESAHAN STATUS TESIS .............................................................................................. i

PERNYATAAN PENULIS ........................................................................................................ i

PERSETUJUAN TESIS ............................................................................................................. i

ABSTRACT ................................................................................................................................ i

ABSTRAK .................................................................................................................................. i

ACKNOWLEDGEMENTS ........................................................................................................ i

DAFTAR ISI .............................................................................................................................. 2

Daftar gambar ............................................................................................................................ 4

Daftar Tabel ............................................................................................................................... 5

Bab 1 PENDAHULUAN ....................................................................................................... 6

1.1 Latar Belakang Masalah .............................................................................................. 6

1.2 Identifikasi Masalah .................................................................................................... 8

1.3 Rumusan Masalah ....................................................................................................... 8

1.4 Tujuan Penelitian......................................................................................................... 8

1.5 Manfaat Penelitian....................................................................................................... 8

1.6 Sistematika Penulisan .................................................................................................. 8

Bab 2 Tinjauan Pustaka ....................................................................................................... 10

2.1 Pendahuluan .............................................................................................................. 10

2.2 Tahapan Systematic Literature Review ..................................................................... 10

2.2.1 Pertanyaan Penelitian (RQ)................................................................................ 11

2.2.2 Strategi Pencarian .............................................................................................. 13

2.2.3 Seleksi Studi....................................................................................................... 14

2.2.4 Ekstraksi Data .................................................................................................... 16

2
2.2.5 Penilaian Kualitas Studi ..................................................................................... 16

2.2.6 Sintesis Data....................................................................................................... 16

2.3 Hasil dan Analisis...................................................................................................... 16

2.3.1 Publikasi Jurnal .................................................................................................. 16

2.3.2 Peneliti yang paling aktif ................................................................................... 18

2.3.3 Dataset yang digunakan ..................................................................................... 19

2.3.4 Metode yang Pernah Diusulkan ......................................................................... 20

2.4 Daftar Referensi Systematic Literature Review (SLR) .............................................. 27

Bab 3 Metodologi Penelitian ............................................................................................... 31

3.1 Desain Penelitian ....................................................................................................... 31

3.2 Analisis Masalah Dan Tinjauan Pustaka ................................................................... 32

3.3 Pengumpulan Dataset ............................................................................................... 32

3.4 Metode yang Diusulkan ............................................................................................ 32

3.5 Eksperimen dan pengujian ........................................................................................ 37

Bab 4 Hasil dan Pembahasan ............................................................................................... 38

4.1 Hasil .......................................................................................................................... 38

Bab 5 Kesimpulan................................................................................................................ 39

Daftar Pustaka .......................................................................................................................... 40

3
DAFTAR GAMBAR

Gambar 2.1 Tahapan Systematic Literature Review ................................................................ 11


Gambar 2.2 Peta Pikiran Rumusan Masalah............................................................................ 13
Gambar 2.3 Seleksi Studi ......................................................................................................... 15
Gambar 2.4 Sebaran Publikasi Penelitian Tahun 2010 - Tahun 2020 .................................... 17
Gambar 2.5 Jumlah Publikasi Jurnal Tahun 2010-2020 .......................................................... 17
Gambar 2.6 Peneliti yang Aktif dan Berkontribusi ................................................................. 19
Gambar 2.7 Sebaran Dataset yang Digunakan ........................................................................ 19
Gambar 2.8 Peta Pikiran Penelitian ......................................................................................... 20
Gambar 2.9 Tahapan GA untuk Pemilihan Fitur dan Pengoptimalan Parameter .................... 22
Gambar 2.11 Tahapan Optimal Bayesian Belief Network ...................................................... 24
Gambar 2.12 Tahapan Optimization Algorithm to Optimize ANFIS ....................................... 26
Gambar 3.1 Aktifitas dalam Tahapan Penelitian dan Relasi ................................................... 31
Gambar 3.2 Kerangka Penelitian ............................................................................................. 34
Gambar 3.3 Tahapan Metode Yang Diusulkan........................................................................ 36

4
DAFTAR TABEL

Tabel 2.1 Ringkasan PICOC .................................................................................................... 12


Tabel 2.2 Rumusan Masalah .................................................................................................... 12
Tabel 2.3 Kriteria Seleksi Studi ............................................................................................... 14
Tabel 2.4 Properti Ekstraksi Data Untuk Pertanyaan Penelitian ............................................. 16
Tabel 2.5 Nilai dan Kategori Jurnal berdasarkan SJR (Scimago Journal Rank) ..................... 18
Tabel 2.6 Dataset Public yang Sering Digunakan Pada Estimasi Usaha Perangkat Lunak .... 20
Tabel 2.7 Daftar Referensi Systematic Literature Review (SLR) ............................................ 27
Tabel 3.1 Dataset yang Digunakan pada Penelitian................................................................. 32
Tabel 3.2 Spesifikasi Komputer yang Digunakan ................................................................... 37

5
BAB 1
PENDAHULUAN
1.1 Latar Belakang Masalah
Estimasi usaha pengembangan perangkat lunak dikenal sebagai salah satu tugas paling
penting pada menejemen proyek perangkat lunak (Hosni, Idri and Abran, 2017). Estimasi usaha
pengembangan perangkat lunak bergantung pada data proyek, kurangnya nilai data pada
beberapa atribut menyebabkan tidak tercapainya penerapan model estimasi usaha perangkat
lunak (Patil, 2014). Jadi estimasi usaha perangkat lunak merupakan kegiatan yang sangat
penting, dan proses pengembangannya sangat bergantung pada kualitas data.

Teknik estimasi usaha perangkat lunak dikelompokkan menjadi tiga kategori utama,
pertama penilaian ahli untuk menentukan perkiraan usaha; kedua teknik parametrik yang
berasal dari analisis statistik dan numerik; dan ketiga teknik machine learning (ML) (Huang,
Li and Xie, 2015) (de Barcelos Tronto, da Silva and Sant’Anna, 2008). Mechine learning telah
mendapatkan perhatian khusus pada estimasi usaha perangkat lunak (Wen et al., 2012).
Beberapa metode machine learning diantaranya adalah Analogy based estimation (Wen, Li and
Tang, 2009) (Amazal, Idri and Abran, 2014), neural network (Nassif et al., 2016), algoritma
genetika, case based reasoning (CBR) (Jun and Lee, 2001), Decision tree (DT) (Hosni, Idri and
Abran, 2017).

Analogy based software development effort estimation (ASEE) terbukti menjadi


alternatif untuk metode estimasi konvensional, karena mempunyai kemampuan meniru
pendekatan pemecahan masalah manusia. Namun, metode Analogy dibatasi oleh
ketidakmampuan untuk menangani data kategori dengan benar (Amazal, Idri and Abran, 2014).
ASEE dan ANN adalah metode populer yang digunakan untuk memprediksi software effort
estimation (Bardsiri et al., 2013). ASEE dapat memodelkan hubungan kompleks antara atribut
usaha dan perangkat lunak, dengan begitu ASEE dapat diterapkan pada tahap awal proyek
perangkat lunak dan mengurangi masalah pada outlier. Namun, model ASEE tidak dapat
menangani categorical attribute dan missing values (Idri, Amazal and Abran, 2015). Neural
Network memiliki kemampuan untuk mempelajari fungsi-fungsi yang kompleks (Wen et al.,
2012) memiliki toleransi kesalahan yang kuat dan kemampuan yang kuat dari pemrosesan data
kesalahan perangkat lunak yang dinamis (Lessmann et al., 2008). Kepraktisan Neural Network
terbatas karena kesulitan memilih parameter yang sesuai dari arsitektur jaringan, termasuk
jumlah neuron tersembunyi, kecepatan belajar, momentum dan siklus pelatihan. Metode trial-

6
and-error digunakan untuk menentukan pengaturan parameter untuk arsitektur Neural
Network. Neural Network sulit untuk mendapatkan pengaturan parameter optimal (Lessmann
et al., 2008). Dalam mengembangkan model berbasis Neural Network, penting untuk
menghapus outlier dan mengidentifikasi variabel dominan pada data (Park and Baek, 2008).

Feature Selection (FS) baru-baru ini digunakan dalam bidang estimasi usaha perangkat
lunak untuk meningkatkan akurasi dan ketahanan teknik prediksi (Idri and Cherradi, 2016).
Metode Feature Selection telah digunakan di bidang SDEE untuk tujuan mengurangi dimensi
ukuran dataset dengan menghilangkan fitur yang tidak relevan dan berlebihan (Hosni, Idri and
Abran, 2017). (Idri and Cherradi, 2016) menemukan bahwa penggunaan Forward Feature
Selection, dapat meningkatkan akurasi prediksi Fuzzy Analogy dan mengurangi jumlah fitur
yang dipilih daripada Backward Feature Elimination. Strategi dasar dalam model wrapper
adalah memperbaiki secara berulang serangkaian fitur F saat ini dengan menambahkan fitur
secara berurutan (Aggarwal, 2015).

FS adalah langkah penting dalam penemuan data pengetahuan karena menghilangkan


informasi yang noise atau tidak relevan, sehingga menghasilkan data dengan informasi
berkualitas tinggi yang dapat membantu membangun sistem prediksi yang akurat (Hosni and
Idri, 2018). Teknik preprocessing yang cermat dapat mengurangi kesalahan prediksi dan
meningkatkan efisiensi, seleksi yang cermat diperlukan sesuai dengan karakteristik metode
pembelajaran mesin, serta dataset yang digunakan untuk estimasi biaya perangkat lunak
(Huang, Li and Xie, 2015). Salah satu pendekatan umum untuk mengukur relevansi ini adalah
informasi timbal balik antara fitur dan label kelas (Ponsa and López, 2007). Relevansi biasanya
dicirikan dalam istilah korelasi atau informasi timbal balik, yang merupakan salah satu ukuran
yang banyak digunakan untuk menentukan ketergantungan variabel (Hanchuan Peng, Fuhui
Long and Ding, 2005).

Salah satu pendekatan paling populer untuk mewujudkan Max-Dependency adalah


pemilihan fitur Max-Relevance memilih fitur dengan relevansi tertinggi dengan kelas target c
(Hanchuan Peng, Fuhui Long and Ding, 2005). Minimal-redundancy-maximal-relevance
(MRMR) dapat lebih baik dilihat sebagai kerangka umum untuk secara efektif memilih fitur
dan memungkinkan semua kemungkinan untuk skema implementasi yang lebih canggih atau
lebih kuat (Hanchuan Peng, Fuhui Long and Ding, 2005).

7
Pada penelitian ini diusulkan metode Neural Network dengan optimasi parameter
genetik algoritma, dan teknik fitur seleksi forward selection MRMR untuk menangani masalah
fitur yang tidak relevan.

1.2 Identifikasi Masalah


Berdasarkan latar belakang masalah yang telah diuraikan di atas, maka research
problem (RP) untuk penelitian ini adalah algoritma Neural Network (NN) memiliki toleransi
kesalahan yang kuat dan kemampuan yang kuat dari pemrosesan data kesalahan perangkat
lunak yang dinamis, tetapi kepraktisan NN terbatas karena kesulitan memilih parameter yang
sesuai (optimal) dari arsitektur NN.

1.3 Rumusan Masalah


Berdasarkan latar belakang masalah dan masalah penelitian di atas, maka research
question (RQ) untuk penelitian ini adalah bagaimana peningkatan kinerja algoritma Neural
Network dengan optimasi parameter diterapkan untuk estimasi usaha perangkat lunak?

1.4 Tujuan Penelitian


Tujuan dari penelitian ini adalah menerapkan genetika algoritma untuk optimasi
parameter pada Neural Network dengan mengintegrasikan metode feature selection forward
selection untuk menangani fitur yang tidak relevan pada estimasi usaha perangkat lunak

1.5 Manfaat Penelitian

Hasil penelitian ini diharapkan dapat digunakan untuk mengembangkan estimasi usaha
perangkat lunak agar menghasilkasn estimasi usaha perangkat lunak yang berkualitas. Selain
itu juga memberikan sumbangan dalam pengembangan dan penerapan model untuk menangani
fitur yang tidak relevan pada estimasi usaha perangkat lunak.

1.6 Sistematika Penulisan


Pada penelitian ini dibagi menjadi lima bab dan disetiap bab dibagi lagi menjadi
beberapa subbab sesuai topik yang dibahas. Sistematika pada penulisan ini adalah:

BAB I PENDAHULUAN

Pada bab ini akan diuraikan mengenai latar belakang masalah, identifikasi masalah, rumusan
masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan.

BAB II TINJAUAN PUSTAKA

8
Pada bab ini akan membahas mengenai tinjauan pustaka berupa systematic literature review
(SLR) yang berisi: (1) penelitian terkait atau penelitian yang sudah dilakukan oleh beberapa
peneliti tentang penerapan algoritma genetika pada algoritma Neural Network untuk estimasi
usaha perangkat lunak. (2) publikasi artikel penelitian, (3) peneliti yang paling aktif, (4) dataset
yang sering digunakan, (5) metode yang sering digunakan, dan (6) daftar referensi SLR.

BAB III METODE PENELITIAN

Pada bab ini akan dibahas mengenai metode pengumpulan data, metode yang diusulkan, dan
pengujian metode.

BAB IV HASIL DAN PEMBAHASAN

Pada bab ini akan dibahas mengenai hasil dari penelitian dan pembahasannya. Hasil pada bab
ini akan menyajikan hasil dari kinerja metode yang diusulkan dibanding dengan metode
sebelumnya.

BAB 5 KESIMPULAN DAN SARAN

Pada bab ini menyajikan kesimpulan dari hasil penelitian, dan saran untuk penelitian lebih
lanjut.

9
BAB 2
TINJAUAN PUSTAKA

2.1 Pendahuluan
Sebelum melakukan penelitian lebih lanjut, diperlukan kajian terhadap penelitian
terdahulu untuk mengetahui lebih lanjut mengenai metode ataupun data yang sudah pernah
dilakukan. Tinjauan pustaka ini dilakukan untuk mengetahui state-of-the-art tentang penelitian
pada estimasi usaha usaha perangkat lunak. Ada sebanyak 11 jurnal mengenai fitur yang tidak
relevan yang dipublikasikan antara 1 Januari 2010 hingga 31 Juli 2020 akan diinvestigasi.
Penelitian tentang fitur yang tidak relevan telah banyak dilakukan dan penelitian tersebut
sangat beragam dan kompleks, sehingga diperlukan sebuah gambaran yang komprehensif
mengenai state-of-the-art dari penelitian tersebut.

Metode tinjauan pustaka yang digunakan adalah menggunakan systematic literature


review (Brereton et al., 2007), dengan menggunakan alur proses penentuan PICOC dan RQ
dengan style Wahono (Wahono, 2015).

2.2 Tahapan Systematic Literature Review


SLR pada penelitian ini terdiri dari tiga tahapan (Wahono, 2015) diantaranya adalah:

1. Tahap perencanaan: mengidentifikasi kebutuhan dilakukannya SLR.


2. Tahap pelaksanaan: mengidentifikasi literature berupa artikel penelitian terkait yang
disebut sebagai studi utama pada SLR.
3. Tahap pelaporan: laporan hasil dari SLR.

Tahapan SLR pada penelitian ini dapat dilihat pada Gambar 2.1.

10
Mulai

1. Menentukan kebutuhan dari TAHAP


tinjauan pustaka PERENCANAAN

2. Merencanakan tahapan
review

3. Mengevaluasi tahapan
review

4. Mencari penelitian terkait TAHAP


PELAKSANAAN

5. Memilih penelitian terkait

6. Mendata penelitian terkait

7. Menilai kualitas penelitian

8. Merangkum data

TAHAP
9. Melaporkan hasil LAPORAN

Selesai

Gambar 2.1 Tahapan Systematic Literature Review

2.2.1 Pertanyaan Penelitian (RQ)


Pertanyaan penelitian disusun menggunakan kriteria Population, Intervention,
Comparasion, Outcomes, Context (PICOC) (Kitchenham and Charters, 2007). Tabel 2.1
menunjukkan kriteria PICOC dari pertanyaan penelitian.

11
Tabel 2.1 Ringkasan PICOC

Kriteria PICOC
Population Software, software application, software system, information system
Intervention Fitur yang tidak relevan dan berlebihan
Comparison -
Outcomes Penyelesaian masalah pada fitur yang tidak relevan dan berlebihan
Context Penelitian di Industri dan Universitas dengan menggunakan data kecil
dan besar

Untuk rumusan masalah pada tinjauan pustaka dalat dilihat pada Tabel 2.2. Rumusan
masalah ini hanya ditunjukkan untuk tinjauan pustaka, tidak untuk penelitian utuma. Peta
pikiran rumusan masalah secara visual dapat dilihat pada Gambar 2.2.

Tabel 2.2 Rumusan Masalah

Rumusan Masalah Motivasi


RQ1 Jurnal mana yang paling banyak Mengidentifikasi jurnal yang paling
mem-publish-kan penelitian fitur signifikan dalam masalah fitur yang tidak
yang tidak relevan dan berlebihan relevan
RQ2 Siapa peneliti yang paling aktif dalam Mengidentifikasi peneliti yang paling aktif
penelitian tentang fitur yang tidak dalam penelitian tentang fitur yang tidak
relevan dan berlebihan relevan dan berlebihan
RQ3 Metode apa yang diusulkan untuk Mengidentifikasi metode yang diusulkan
menyelesaikan fitur yang tidak untuk menyelesaikan fitur yang tidak
relevan dan berlebihan relevan dan berlebihan
RQ4 Metode perbaikan apa yang Mengidentifikasi metode perbaikan yang
ditawarkan dalam penelitian tentang ditawarkan dalam penelitian fitur yang
fitur yang tidak relevan dan tidak relevan dan berlebihan
berlebihan

12
RQ3 dan RQ4 digunakan untuk mendukung penelitian utama. Sedangkan RQ 1 dan
RQ2 digunakan untuk mendukung konteks penelitian

Gambar 2.2 Peta Pikiran Rumusan Masalah

2.2.2 Strategi Pencarian


Strategi pencarian diawali dengan memilih digital library dan mengatur keyword.
Digital library yang digunakan dalam penyusunan SLR ini antara lain: ScienceDirect dan
Springer (link.springer.com) dengan pengaturan keyword sebagai berikut:

1. Identifikasi istilah pencarian dari PICOC


2. Identifikasi istilah pencarian dari pertanyaan penelitian
3. Identifikasi istilah pencarian pada judul, abstrak, dan keyword yang relevan
4. Identifikasi sinonim, ejaan alternative dan antonym dari istilah pencarian
5. Penentuan keyword yang menyeluruh menggunakan identifikasi istilah pencarian
Boolean AND OR

Keyword yang digunakan: Software AND (Cost* OR Effort) AND (Estimat* OR


Assess* OR Predict*) AND (“Feature selection” OR “feature subset selection” OR “feature
significance” OR Filter OR Wrapper OR Embedded OR *relevant feature OR Cost drivers OR
Effort drivers OR Attribute OR “Attribute Selection”)

Pencarian artikel penelitian terkait dibatasi pada tahun 2010 sampai dengan 2020.
Publikasi yang diambil berupa publikasi research articles.

13
2.2.3 Seleksi Studi
Seleksi studi didasarkan pada kriteria terhadap penelitian yang akan digunakan maupun
tidak digunakan berdasarkan RQ yang terbentuk. Beberapa kriteria tersebut dapat dilihat pada
Tabel 2.3. Sedangkan tahap penelitian dari seleksi studi dapat dilihat pada Gambar 2.3.

Tabel 2.3 Kriteria Seleksi Studi


Kriteria yang digunakan Kriteria yang tidak digunakan
Penelitian tentang penerapan teknik Penelitian teknik Feature Selection untuk
Feature selection di Software Effort memperkirakan upaya pemeliharaan atau
Estimation pengujian
Penelitian perbandingan antara berbagai Duplikat paper
teknik Feature selection di Software Effort
Estimation
Penelitian yang diterbitkan pada Jurnal, Paper yang ditulis selain menggunakan
Konferensi, atau teknikal paper Bahasa Inggris
Paper yang diterbitkan sebelum Tahun 2000

14
Start

Memilih sumber pencarian

Menentukan kata kunci


pencarian

Melakukan pencarian awal

Melakukan pencarian awal

Sebagian besar hasil yang no


dikeluarkan sesuai dengan Membuat kata kunci ulang
penelitian?
yes
Digital Library:
Mendapatkan list penelitian ScienceDirect
berdasarkan judul dan abstrak IEEE Explore

Seleksi list penelitian awal

Seleksi list penelitian awal

Seleksi list penelitian


berdasarkan judul dan abstrak

Seleksi list penelitian


berdasarkan isi publikasi

Buat list akhir dari penelitan


hasil pencarian

End

Gambar 2.3 Seleksi Studi

Software Mendeley Dekstop digunakan peneliti untuk membantu menyimpan dan


manajemen penelitian dari hasil seleksi studi. Hasil dari pencarian studi utama terdapat 304
penelitian. Setelah melalui tahap seleksi studi dan menilai kualitas studi berdasarkan kriteria
pada Tabel 2.3. Terdapat sebelas penelitian.

15
2.2.4 Ekstraksi Data
Studi utama yang dipilih selanjutnya diekstraksi, ekstraksi data bertujuan untuk
mengumpulkan data dari studi utama yang berkontribusi dan dibutuhkan untuk menjawab
pertanyaan penelitian terkait. Tabel 2.4 menunjukkan ekstraksi terhadap penelitian terhadap
fitur yang tidak relevan dan berlebihan.

Tabel 2.4 Properti Ekstraksi Data Untuk Pertanyaan Penelitian

No. Properti Pertanyaan Penelitian


Publikasi dan peneliti yang paling berkontribusi
pada topik pemilihan parameter Neural Network
1. RQ1 dan RQ2
dengan Algoritma Genetikaa untuk estimasi
usaha perangkat lunak
Dataset yang paling sering digunakan pada topik
pemilihan parameter Neural Network dengan
2. RQ3
Algoritma Genetika untuk estimasi usaha
perangkat lunak
Metode yang sering digunakan pada topik
pemilihan parameter Neural Network dengan
3. RQ4
Algoritma Genetika untuk estimasi usaha
perangkat lunak

2.2.5 Penilaian Kualitas Studi


Penilaian kualitas studi utama dapat digunakan sebagai panduan untuk membantu
menginterpretasikan kualitas dari temuan dan untuk menentukan kesimpulan yang diuraikan.

2.2.6 Sintesis Data


Tujuan dari sintesis data adalah untuk menjawab pertanyaan penelitian. Sintesis data
yang digunakan pada penelitian ini, secara umum berupa sintesis narasi. Beberapa diagram
batang, diagram lingkaran, dan tabel digunakan untuk menunjang penjelasan pada penelitian
ini.

2.3 Hasil dan Analisis


2.3.1 Publikasi Jurnal
Pada tinjauan pustaka ini akan menganalisa sebanyak publikasi yang membahas tentang
penerapkan Genetika Algoritma untuk optimasi parameter pada Neural Network dengan

16
mengintegrasikan metode feature selection forward selection untuk menangani fitur yang tidak
relevan pada estimasi usaha perangkat lunak. Gambar 2.4 menunjukkan sebaran publikasi
artikel penelitian tersebut dalam kurun waktu Tahun 2010 sampai Tahun 2020, sedangkan
Gambar 2.5 menunjukkan jumlah publikasi jurnalnya. Nilai dan kategori jurnal tersebut
diperingkat berdasarkan SJR (Scimago Journal Rank) yang dapat dilihat pada Tabel 2.5.
Gambar 2.4 dan Gambar 2.5 menunjukkan bahwa topik penelitian ini secara konsisten terus
dikembangkan sampai saat ini.

2020

2018

2016

2014

2012

2010

2008

2006

2004
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35

Gambar 2.4 Sebaran Publikasi Penelitian Tahun 2010 - Tahun 2020

JURNAL PUBLIKASI
APPLIED SOFT COMPUTING 1

IEEE 1
INFORMATION AND SOFTWARE
TECHNOLOGY
1

2014 INTERNATIONAL CONFERENCE 1


ENGINEERING APPLICATIONS OF
ARTIFICIAL INTELLIGENCE
1

IET SOFTWARE 3

JOURNAL OF SYSTEMS AND SOFTWARE 1

NEUROCOMPUTING 2

Gambar 2.5 Jumlah Publikasi Jurnal Tahun 2010-2020

17
Tabel 2.5 Nilai dan Kategori Jurnal berdasarkan SJR (Scimago Journal Rank)

No. Publikasi Jurnal SJR Kategori (Q) Penerbit


1 Computer Science 1.19 Q1 Institute of Electrical and Electronics
Engineers Inc.
2 Computer Science 0.78 Q1 Elsevier
3 Computer Science 1.75 Q1 Elsevier B.V.
4 Computer Science 0.32 Q3 Institution of Engineering and
Technology
5 Computer Science 0.32 Q3 Institution of Engineering and
Technology
6 Computer Science 1.41 Q1 Elsevier BV
7 Computer Science 1.01 Q1 Engineering Applications of Artificial
Intelligence
8 Computer Science 0.77 Q2 Journal of Systems and Software
9 Computer Science 1.18 Q1 Neurocomputing
10 Computer Science 1.01 Q1 Engineering Applications of Artificial
Intelligence
11 Computer Science 1.18 Q1 Neurocomputing

2.3.2 Peneliti yang paling aktif


Berdasarkan studi utama yang dipilih dari Tahun 2010 sampai 2020, dapat diketahui
peneliti yang aktif dan berkontribusi pada penelitian penerapkan genetika algoritma untuk
optimasi parameter pada Neural Network dengan mengintegrasikan metode feature selection
forward selection untuk menangani fitur yang tidak relevan pada estimasi usaha perangkat
lunak.

18
Peneliti yang Aktif dan Berkontribusi
6

Jumlah Publikasi
5
4
3
2
1 Jumlah
0

Mesquita, Diego…
Baek, Seung

Lalit V. Patil
Cherradi, Safae

Menzies, Tim
Menzies, Tim
Lin, Chin Teng
Hosni, Mohamed

Lefley, Martin
Cowling, Peter I.

Gomes, João P.P.


Kaur, Arvinder
Braga, Petronio L.

George Lee, C. S.

Khatibi Bardsiri, V.
Abran, Alain

Li, Yan-Fu
Bener, Ayse

Eirola, Emil
Idri, AliPeneliti

Gambar 2.6 Peneliti yang Aktif dan Berkontribusi

2.3.3 Dataset yang digunakan


Berdasarkan studi utama yang dipilih dataset yang digunakan pada sebelas penelitian
penerapkan genetika algoritma untuk optimasi parameter pada Neural Network dengan
mengintegrasikan metode feature selection forward selection untuk menangani fitur yang tidak
relevan pada estimasi usaha perangkat lunak berupa dataset public yang diperoleh dari promise
software engineering repository. Sebaran dataset tersebut dapat dilihat pada Gambar 2.7.

Dataset

33%

67%

Private Public

Gambar 2.7 Sebaran Dataset yang Digunakan

Gambar 2.7 Menunjukkan bahwa Dataset Public yang Diperoleh dari promise software
engineering repository memiliki persentase paling besar digunakan dan dataset yang sering
digunakan tersebut dapat dilihat pada Tabel 2.6

19
Tabel 2.6 Dataset Public yang Sering Digunakan Pada Estimasi Usaha Perangkat Lunak

No. Dataset
1 Albrecht

2 COCOMO

3 Desharnais

4 ISBSG

5 Kemerer

6 Maxwell

7 NASA

2.3.4 Metode yang Pernah Diusulkan


Metode yang telah digunakan untuk menangani fitur yang tidak relevan pada estimasi
usaha perangkat lunak sejak Tahun 2010 berjumlah sebelas penelitian. Peta pikiran dari
penelitian tersebut dapat dilihat pada Gambar 2.8. Penelitian tersebut pada bab ini akan dibahas
satu persatu untuk mengetahui lebih lanjut penelitian yang sudah dilakukan oleh peneliti
sebelumnya. Pada bab ini juga akan digambarkan framework secara umum dari masing-masing
metode yang pernah diusulkan.

Gambar 2.8 Peta Pikiran Penelitian

20
2.3.4.1 Metode (Oliveira et al., 2010)
Pada Tahun 2010, Oliveira et al., mengatakan bahwa pemilihan fitur memiliki pengaruh
penting pada akurasi estimasi usaha perangkat lunak. Oliveira et al., mengusulkan dan
menyelidiki penggunaan metode Algoritma Genetika (GA) untuk secara bersamaan (1)
memilih subset fitur masukan yang optimal dan (2) mengoptimalkan parameter metode
pembelajaran mesin, yang bertujuan pada tingkat akurasi yang lebih tinggi untuk perkiraan
upaya perangkat lunak.

Dataset yang mereka gunakan adalah enam dataset benchmark proyek perangkat lunak,
yaitu, Desharnais, NASA, COCOMO, Albrecht, Kemerer dan Koten and Gray. Hasilnya
dibandingkan dengan yang diperoleh dengan metode yang diusulkan dalam literatur
menggunakan Neural Networks, Support Vector Machines, Multiple Additive Regression
Trees, Bagging, And Bayesian Statistical Models.

Pada semua simulasi GA menggunakan persilangan roulette wheel selection and elitism
replacement dua titik secara acak. Performa dari metode yang diusulkan pada penelitian
tersebut menggunakan alat ukur MMRE and PRED. Pada semua dataset, metode Oliveira et
al., mencapai kinerja terbaik dalam hal PRED. Dalam dataset Desharnais dan COCOMO,
metode kami lebih unggul dari yang lain dalam hal PRED dan MMRE. Kami juga
membandingkan hasil kami di kumpulan data Koten dan Grey dengan artikel asli yang
mempertimbangkan metrik berdasarkan residual absolut. Perbandingan telah menunjukkan
bahwa metode yang kami usulkan mengungguli metode Koten dan Gray dalam tiga hal metrik,
yaitu, Sum Ab.Res., Med. Ab.Res., Dan SD Ab.Res.

21
Population
Data Set

Split

Testing Training Parameter genes Feature genes

Converting genotype to
phenotype
Selected Feature subset

Testing Training
with FS wit FS

Traning Regression Methode

Testing Regression Methode

Fitnes Evaluation

Termination
No Genetic operation
are satisfied?

Yes

Optimized
parameters and FS

MMRE & PRED

Gambar 2.9 Tahapan GA untuk Pemilihan Fitur dan Pengoptimalan Parameter

22
2.3.4.2 Metode (Zare, Khademi Zare and Fallahnezhad, 2016)
Zare, Khademi Zare dan Fallahnezhad pada Tahun 2016 melakukan penelitian pada
fitur yang tidak relevan pada estimasi usaha perangkat lunak. Mereka mencoba untuk
menerapkan metode tiga level Bayesian network and 15 components of COCOMO and
software size untuk memperkirakan upaya yang dibutuhkan (Man-Month). Bayesian network
nilai estimasi usaha dimodifikasi dengan menentukan koefisien optimal yang dihasilkan dari
kontrol optimal yang dirancang oleh algoritma genetika.

Dataset yang digunakan pada penelitian tersebut adalah COCOMO NASA yang
diperoleh dari Promise Software Engineering Repository kumpulan data COCOMO NASA1
mencakup 60 proyek perangkat lunak yang diimplementasikan mempertimbangkan 17
komponen COCOMO, ukuran perangkat lunak berdasarkan 1000 baris kode (KLOC) dan nilai
aktual dari estimasi yang diperlukan untuk pengembangan perangkat lunak. (Zare, Khademi
Zare and Fallahnezhad, 2016) menggunakan 40 proyek untuk pembelajaran model dan 20
proyek lainnya digunakan untuk pengujian model.

Bayesian Network perlu mendapatkan interval ukuran perangkat lunak dan nilai effort
aktual dalam proyek kumpulan data. Bayesian Network bekerja dengan interval diskrit
sehingga akurasi estimasi berkurang. Untuk mengatasi masalah interval diskrit, (Zare,
Khademi Zare and Fallahnezhad, 2016) mengubah interval diskrit menjadi interval fuzzy untuk
meningkatkan akurasi. Zare menunjukkan bahwa koefisien optimal yang dihasilkan dari GA
dan PSO dapat menurunkan nilai error. Namun, nilai kesalahan dalam metode GA lebih kecil
dari nilai kesalahan PSO. Selain itu, membandingkan hasil model yang diusulkan dengan
model lain menunjukkan bahwa akurasi model yang diusulkan lebih baik daripada hasil model
lain.

23
Data Set

Split
Testing Training

Feature Selection
Preprocessing

Forward Subset Selection Genetic Algorithm/PSO


Strategy
Strategy

Algorithm
Cross
Validation Beyesian Network
based on COCOMO
component

MMRE-PRED

Gambar 2.10 Tahapan Optimal Bayesian Belief Network

2.3.4.3 Metode (Samareh Moosavi and Khatibi Bardsiri, 2017)


(Samareh Moosavi and Khatibi Bardsiri, 2017) pada Tahun 2017 melakukan penelitian
pada fitur yang tidak relevan pada estimasi usaha perangkat lunak. Mereka mencoba untuk
menerapkan metode tiga level Bayesian network and 15 components of COCOMO and
software size untuk memperkirakan upaya yang dibutuhkan (Man-Month). Bayesian network
nilai estimasi usaha dimodifikasi dengan menentukan koefisien optimal yang dihasilkan dari
kontrol optimal yang dirancang oleh algoritma genetika.

Dataset yang digunakan pada penelitian tersebut adalah COCOMO, ISBSG, dan
Kemerer yang diperoleh dari Promise Software Engineering Repository kumpulan data
Repositori data ISBSG R11 (ISBSG), yang mencakup total 5052 proyek dari 24 negara. Fitur
yang dipilih adalah: {Input count (Inpcont), Output count (Outcont), Inquiry count (EnqCont),
File count (FileCont), Interface Count (Intcont), Adjusted function point (AFP), dan
Normalized effort in hours (NorEffort)}. Dataset Albrecht adalah kumpulan data populer yang

24
mencakup 24 proyek yang dikembangkan oleh bahasa generasi ketiga. Ada lima fitur
independen: "Inpcout", "Outcount", "Quecount", "Filcount" dan "SLOC" dan dua fitur
dependen: "Fp" dan "Effort" dalam kumpulan data ini. Upaya, yang dicatat dalam 1000 jam
orang, adalah fitur penargetan. Kumpulan data Kemerer berisi data yang dikumpulkan dari 15
besar menyelesaikan proyek pemrosesan data bisnis. Setiap proyek memiliki tujuh fitur
masukan: (1) bahasa pemrograman, (2) perangkat keras, (3) durasi, (4) KSLOC, (5) AdjFP
(titik fungsi yang disesuaikan), (6) Upaya dan (7) RAWFP (fungsi mentah poin) (Kemerer,
1987.

Penggunaan ANFIS yang digabungkan dengan SBO sebagai algoritma pelatihan baru
cocok untuk digunakan pada bidang pembobotan atribut, bobot Neural Network dan
penyesuaian bias serta penyesuaian parameter ANFIS. Selain itu, berdasarkan model yang
diusulkan adalah generasi parameter yang dioptimalkan untuk ANFIS. Dengan memilih
parameter terbaik yang dihasilkan oleh SBO, kinerja ANFIS meningkat secara signifikan.
Kombinasi SBO dan ANFIS memiliki performa terbaik diantara model yang ada. Berdasarkan
hasil keseluruhan, dapat disimpulkan bahwa algoritma ini dapat menjadi algoritma pelengkap
yang tepat untuk menyelesaikan masalah estimasi usaha pengembangan perangkat lunak.
Secara khusus, model hibrida ANFIS-SBO mampu menghasilkan estimasi yang akurat di
bidang ini.

25
LEARNING SCHEME
Initialize the
first population
Training
of bowers
Step
Calculate the
Create base fuzzy system cost of bowers
Data Set

Get parameters of base fuzzy Chose elite


Standardzing data system
Calculate the
fitnes of each
Yes There are
bower (Eq.2)
other
3-fold cross validation parameters Calculate the
No
probabilitu of
each bower
Calculation new parameters Coefisients SBO (Eq.1)
Testing Training
with FS Step Select a bower
Insert new parameters in the
Chose elite
fuzzy system Select target
Create base fuzzy system
bower (by
Short new roulette wheel)
Learning Optimized Inference results Yes
bowers and old
Set parameter of membership parameter
bowers Calculate
function
No
No Effort estimation
Update the
variable of
Inference result Classification data Other bower?
current position
Calculation criteria MMRE,
Eq.3
PRED
Effort estimation
Mutation with
certain
Termination probability Eq.6
MMRE & PRED

Yes
Other
variable?
Optimized parameter
No
Calculate the
No
cost of bower

Gambar 2.11 Tahapan Optimization Algorithm to Optimize ANFIS

26
2.4 Daftar Referensi Systematic Literature Review (SLR)
Daftar referensi yang systematic literature review ini dapat dilihat pada Tabel 2.7. Daftar referensi terdiri dari 7 atribut (Tahun, judul,
peneliti, jurnal, dataset, metode usulan, validasi dan evaluasi) dan terdapat sebelas Publikasi penelitian dari Tahun 2010 hingga 2020 yang membas
fitur yang tidak relevan pada estimasi usaha perangkat lunak.

Tabel 2.7 Daftar Referensi Systematic Literature Review (SLR)

No. Tahun Judul Peneliti Jurnal Dataset Metode Validasi dan


Evaluasi
1. 2010 GA-based method for Oliveira, Information and Deshar- nais, Regression methods+GA Cross-
feature selection and Adriano Software NASA, for Feature Selection validation,
parameters L.I.(Oliveira et Technology COCOMO, MMRE&Pred
al., 2010) Albrecht,
Kemerer and
Koten and
Gray
2. 2012 Increasing the accuracy of Khatibi Bardsiri, IET Software Maxwell, Hybrid (fuzzy clustering, Cross-
software development V. (Khatibi Desharnins ABE dan ANN) validation,
effort estimation using Bardsiri et al., MMRE&Pred
projects clustering 2012)

27
3. 2013 LMES: A localized multi- Bardsiri, Vahid IET Software ISBSG, localized multi-estimator 10-fold cross
estimator model to Khatibi Maxwell and (LMES) validation,
estimate software COCOMO MMRE, RED,
development effort MdMRE and
BMMRE
4. 2014 Fuzzy entropy-based Kumar, M IET Software Private- Fuzzy entropi Print_tokens
framework for multi- (Kumar, Kumar Software and
faceted test case and Sharma, Infrastructure Print_tokens2,
classification and 2014) Repository
selection: An empirical (SIR)
study
5. 2014 Mixture of Gaussians for Eirola, Emil Neurocomputing Private Mixture Gaussian NN RMSE
distance estimation with (Eirola et al.,
missing data 2014)
6. 2014 A Mutual Information- Liu, Qin 2014 IEEE 38th ISBSG, Hybrid feature selection MMRE,
Based Hybrid Feature Annual Desharnais (supervised and PRED
Selection Method for Computer unsupervised FS)
Software Cost Estimation Software and
Using Feature Clustering Applications
Conference

28
7. 2016 Improving effort Idri, Ali (Idri and IEEE ISBSG, Fuzzy analogy SA and Pred
estimation of Fuzzy Cherradi, 2016) COCOMO81,
Analogy using feature Desharnais,
subset selection Maxwell,
Miyazaki,
China,
Kemerer and
Albrecht.
8. 2016 Software effort estimation Zare, Fatemeh Applied Soft COCOMO three levels Bayesian MRE
based on the optimal (Zare, Khademi Computing NASA network
Bayesian belief network Zare and
Fallahnezhad,
2016)
9. 2017 Cross-validation based K Huang, Journal of Private CVBkNNI (Cross Cross-
nearest neighbor Jianglin(Huang Systems and validation based knn validation,
imputation for software et al., 2017) Software imputation) RMSE
quality datasets: An
empirical study
10. 2017 Satin bowerbird Samareh Engineering COCOMO, Adaptive neuro-fuzzy three fold
optimizer: A new Moosavi, Seyyed Applications of ISBSG, inference system (ANFIS) cross
optimization algorithm to Hamid (Samareh Kemerer validation,

29
optimize ANFIS for Moosavi and Artificial & satin bower bird MMRE And
software development Khatibi Bardsiri, Intelligence optimization (SBO) PRED
effort estimation 2017)
11. 2017 Euclidean distance Mesquita, Diego Neurocomputing Private Expected Euclidean RMSE
estimation in incomplete P.P. Distance (EED)
datasets

30
BAB 3
METODOLOGI PENELITIAN

3.1 Desain Penelitian


Pada penelitian ini menggunakan metode penelitian eksperimen. Metode penelitian
eksperimen adalah uji coba yang dilakukan oleh peneliti sendiri untuk melakukan investigasi
hubungan sebab akibat. Tahapan pada penelitian ini dapat dilihat pada Gambar 3.1, yang
menjelaskan tahapan penelitian berupa aktifitas dari tahapan penelitian dan relasi dengan
pembahasan pada masing-masing bab. Tahapan penelitian yang dimaksud terdiri dari:

1. Analisa Masalah Dan Tinjauan Pustaka


2. Pengumpulan Dataset
3. Metode Yang Diusulkan
4. Eksperimen Dan Pengujian Metode
5. Evaluasi Hasil Eksperimen

TAHAPAN PENELITIAN AKTIFITAS PENELITIAN RELASI BAB


Mengidentifikasi masalah untuk
menangani fitur yang tidak relevan
pada estimasi usaha perangkat lunak
1. Analisis Masalah dan Tinjauan
Mengidentifikasi dan mengevaluasi
Pustaka BAB 1
metode yang pernah diusulkan dalam
penereapan Algoritma genetika dan
Forward Selection Neural Network
untuk mengatasi Fitur yang tidak
relevan
2. Pengumpulan Dataset BAB 2
Mengidentifikasi dataset yang
digunakan dalam penereapan
Algoritma genetika dan Forward
Selection Neural Network untuk
mengatasi Fitur yang tidak relevan
3. Metode yang diusulkan

Mengumpulkan data mengolah dataset


untuk eksperimen

Mendesain dan mengusulkan BAB 3


4. Pengujian Metode
metodeNeural Network berbasis
Algoritma Genetika dan Forward
Selection untuk mengatasi Fitur yang
tidak relevan BAB 4

5. Evaluasi hasil Eksperimen Melakukan eksperimen dan pengujian


pada metode yang sudah ada dan
metode usulan
BAB 5
Mengevaluasi hasil eksperimen

Gambar 3.1 Aktifitas dalam Tahapan Penelitian dan Relasi

31
3.2 Analisis Masalah Dan Tinjauan Pustaka
Pada Gambar 3.1 dapat dilihat aktifias penelitian penereapan algoritma genetika dan
forward selection neural network untuk mengatasi fitur yang tidak relevan diawali dengan
identifikasi masalah yang diuraikan pada bab 1, dilanjutkan identifikasi dan evaluasi metode
yang pernah diusulkan beserta dataset yang digunakan diuraikan pada bab 2 berupa Systematic
Literature Review (SLR).

3.3 Pengumpulan Dataset


Dataset yang digunakan pada penelitian ini mengacu pada hasil SLR yang telah
dijabarkan pada bab 2, yakni dataset public dari promise software engineering repository dan
dapat diunduh melalui http://promise.site.uottawa.ca/SERepository/datasets-page.html. Tabel
3.1 merupakan daftar dataset yang digunakan pada penelitian ini berdasarkan mayoritas dataset
yang paling sering digunakan pada penelitian sebelumnya.

Tabel 3.1 Dataset yang Digunakan pada Penelitian

Nama Effort
No. Size Unit Feature
Dataset Min Max Mean Median Skewnes Kurtosis

1 Albrecht 24 Man/Months 6 0.5 105 21.87 11 2.30 4.7

2 COCOMO81 252 Man/Months 12 6 114000 683.44 98 4.39 20.5

3 China 499 Man/Hours 15 26 54620 3921.04 1829 3.92 19.3

4 Desharnais 77 Man/Hours 11 546 23940 4833.90 3542 2.03 5.3

5 Kemerer 15 Man/Mounts 6 23 1107 219.24 130 3.07 10.6

6 Miyazaki 48 Man/Mounts 7 5.6 1586 87.47 38 6.26 41.3

3.4 Metode yang Diusulkan


Penelitian ini mengusulkan metode penerapan Algoritma genetika dan Forward
Selection Neural Network untuk mengatasi Fitur yang tidak relevan pada estimasi usaha
perangkat lunak. Algoritma genetika diterapkan untuk menangani optimasi parameter Neural
Network (Wahono, Herman and Ahmad, 2014), dan teknik forward selection digunakan untuk
mengatasi masalah fitur yang tidak relevan.

32
Kerangka pemikiran dalam penelitian ini dapat ditunjukkan pada Gambar 3.2 dengan
komponen utama sebagai berikut:

1. Masalah penelitian dalam penelitian ini adalah algoritma Neural network memiliki
keunggulan toleransi kesalahan yang kuat dan kemampuan yang kuat dari
pemrosesan data kesalahan perangkat lunak yang dinamis, tetapi kepraktisan NN
terbatas karena kesulitan memilih parameter yang sesuai (optimal) dari arsitektur
Neural Network.
2. Metode eksperimen digunakan dalam penelitian ini berupa metode usulan Neural
Network dengan optimasi parameter genetik algoritma, dan teknik fitur seleksi
forward selection untuk menangani masalah fitur yang tidak relevan.
3. Tujuan penelitian ini adalah menerapkan genetika algoritma untuk optimasi
parameter pada Neural Network dengan mengintegrasikan metode feature selection
forward selection untuk menangani fitur yang tidak relevan pada estimasi usaha
perangkat lunak.
4. Evaluasi kinerja menggunakan akurasi dengan metode valsidasi cross-validation
dan RMSE dari metode-metode yang digunakan.

33
Validasi
Permasalahan Metode yang Pernah Ada Metode Usulan
&Evaluasi

Data Set Data Set

Cross-Validation
Preprocessing Preprocessing
 Wrapper
- Genetic Algorithm
- Forward subset selection
- backward input selection
- subset fitur bootstrapping and Wrapper MMRE& PRED
Mengidentifikasi masalah
look-up tables - Optimize MRMR +
dalam penerapkan genetika
Forward subset
algoritma untuk optimasi
 Hybrid: selection
parameter pada Neural
Network dengan - supervised & unsupervised
mengintegrasikan metode feature selection
feature selection forward - wrapper and filter
selection untuk menangani
fitur yang tidak relevan pada
estimasi usaha perangkat Algorithm
Algorithm
lunak
 Regression methods
 Ensemble of neural networks
with associative memory
(ENNA) Genetik algorithm based
 Fuzzy analogy Neural Network
 Fuzzy entropi
 CVBkNNI
 Mixture Gaussian NN
 Expected Euclidean Distance
(EED)

Gambar 3.2 Kerangka Penelitian

Tahapan dari penerapan Algoritma genetika untuk optimasi parameter Neural Network
yang diusulkan dalam penelitian ini adalah sebagai berikut:

1. Siapkan dataset
2. Gunakan mRMR;
a) pilihan inkremental mRMR untuk memilih n (sejumlah besar preset) fitur
sekuensial dari input X. n set fitur sekuensial 𝑆1 ∁ 𝑆2 ∁ … ∁ 𝑆𝑛−1 ∁ 𝑆𝑛
b) Bandingkan semua n set fitur sekuensial 𝑆𝑘 … 𝑆𝑛 , (1 ≤ 𝑘 ≤ 𝑛 ) untuk mencari
kisaran 𝑘, memanggil Ω, di mana kesalahan masing-masing (cross-validation-
classification) error 𝑒𝑘 secara konsisten kecil (yaitu, memiliki mean kecil dan
varian kecil).
c) Dalam Ω, Temukan kesalahan klasifikasi terkecil 𝑒 ∗ = min 𝑒𝑘 . Ukuran optimal
dari set fitur, 𝑛∗ , pilih 𝑘 terkecil yang sesuai dengan 𝑒 ∗ .
d) Pilih fitur forward subset selection untuk memilih subset dari 𝑚 fitur dari 𝑆𝑛
e) Kesalahan klasifikasi diatur sejumlah sampel, yaitu N. Wrapper pertama
mencari subset fitur dengan satu fitur, dilambangkan sebagai 𝑍1 , dengan
memilih fitur 𝑋1∗ .

34
f) Pilih inkremental ini berulang hingga kesalahan klasifikasi mulai meningkat,
{𝑆𝑛 − 𝑍1 ,} Wrapper selection feature 𝑋2∗ sehingga feature 𝑍2 = {𝑍1 , 𝑋2∗ }
mengarah kepengurangan kesalahan terbesar.
g) Pilih inkremental berulang hingga kesalahan klasifikasi mulai meningkat, yaitu
𝑒𝑘 + 1 > 𝑒𝑘
h) Apabila 𝑒𝑘 + 1 = 𝑒𝑘 dilakukan pencarian tambahan sampai kondisi terpenuhi.
i) Setelah kondisi terminasi terpenuhi, jumlah fitur yang dipilih, 𝑚 , dipilih
sebagai dimensi untuk mencapai kesalahan terendah pertama kali.
3. Genetik algorithm menghasilkan populasi awal secara acak
4. Memperkirakan nilai fitness setiap kromosom dalam populasi
5. Melakukan operasi genetik, termasuk persilangan, mutasi dan seleksi
6. Hentikan algoritma jika kriteria terminasi terpenuhi; kembali ke Langkah 4 jika
tidak. Kriteria penghentian adalah jumlah maksimum yang telah ditentukan
sebelumnya.
7. Parameter NN, including, learning rate, momentum and training cycles dipilih dan
dioptimalkan, kemudian NN dilatih oleh set pelatihan dengan parameter yang
dipilih.
8. Parameter yang dipilih dan biaya parameter digunakan untuk membangun fungsi
fitness function. Setiap kromosom dievaluasi dengan persamaan fitness function
berikut. 𝐹𝑖𝑡𝑛𝑒𝑠𝑠 = 𝑊𝑎 𝑥 𝐴 + 𝑊𝑝 𝑥 (𝑆 + (∑𝑛𝑖=1 𝐶𝑖 𝑥 𝑃𝑖 ))−1
Keterangan:
𝑃𝑖 adalah nilai parameter
𝑊𝑝 adalah bobot parameter
𝐶𝑖 adalah biaya parameter
𝑆 adalah menetapkan konstanta untuk menghindari penyebut mencapai nol
𝐴 adalah akurasi klasifikasi
𝑊𝑎 adalah bobot akurasi klasifikasi
9. Ketika kondisi akhir terpenuhi, operasi berakhir dan parameter NN yang
dioptimalkan diproduksi. Jika tidak, proses akan berlanjut dengan operasi generasi
berikutnya. Metode yang diusulkan mencari solusi yang lebih baik dengan operasi
genetik, termasuk persilangan, mutasi dan seleksi.
10. Lakukan evaluasi hasil pengukuran berupa RMSE menggunakan metode validasi
10-foldcross-validation

35
Data Set

Split

Testing Training

Feature selection

Testing Training
with FS wit FS

Implementation MRMR

Traning NN dengan
Parameter yang Dipilih Mutatuion Operation
berdasarkan Set pelatihan
Baru
Crossover Operation
Semua training set No
selesai?
Yes
Selection Operation

Hubungkan semua model

Validasi model yang


dihasilkan

Hitung Akurasi Model

Hitung Fitness Value

Kriteria Terpenuhi?

Optimized NN
Parameters

MMRE & PRED

Gambar 3.3 Tahapan Metode Yang Diusulkan

36
3.5 Eksperimen dan pengujian
Beberapa algoritma digunakan dalam penelitian ini sebagai pembanding dari pemilihan
parameter Neural Network dengan algoritma genetika antara lain Neural Network, GA-
based method for feature selection and parameters optimization for machine learning
regression. Tahapan eksperimen dalam penelitian ini adalah sebagai berikut:

1. Menyiapkan dataset
2. Melakukan eksperimen menggunakan Neural Network
3. Melakukan eksperimen menggunakan GA-based method for feature selection
and parameters optimization for machine learning regression
4. Melakukan eksperimen menggunakan metode usulan pemilihan parameter
Neural Network dengan algoritma genetika
5. Mencatat hasil pengukuran evaluasi masing-masing metode berupa RMSE
berdasarkan pengujian metode validasi 10-fold cross-validation
6. Mengkomparasi atau membandingkan kinerja Neural Network, GA-based
method for feature selection and parameters optimization for machine learning
regression dan metode usulan pemilihan parameter Neural Network dengan
Algortima Genetika dengan uji beda menggunakan Friedman test untuk
mengetahui perbedaan setiap metode.
Eksperimen dilakukan menggunakan computer dan aplikasi penunjang seperti
Microsoft Excel 2016, python 3.6. Spesifikasi komputer yang digunakan dapat
dilihat pada Tabel 3.2.

Tabel 3.2 Spesifikasi Komputer yang Digunakan

Processor Intel Core i3 + 7𝑡ℎ Gen


Operating System Windows 10 Enterprise 64-bit
Memory 4Gb
Storage 1Tb

37
BAB 4
HASIL DAN PEMBAHASAN

4.1 Hasil
Pada bab ini akan dijelaskan eksperimen terhadap metode pembanding dari metode usulan
penerapan Algoritma genetika untuk optimasi parameter Neural Network terhadap metode
state of the art antara lain Neural Network, dan GA-based method for feature selection and
parameters optimization for machine learning regression serta hasil pengukuran yang
dilakukan berupa RMSE dengan metode validasi 10-fold-cross-validation. Untuk metode GA-

38
BAB 5 KESIMPULAN

39
DAFTAR PUSTAKA
Aggarwal, C. C. (2015) Data Mining: The Textbook, Springer International Publishing. doi:
10.1007/978-3-319-14142-8.

Amazal, F.-A., Idri, A. and Abran, A. (2014) ‘An Analogy-Based Approach to Estimation of
Software Development Effort Using Categorical Data’, 2014 Joint Conference of the
International Workshop on Software Measurement and the International Conference on
Software Process and Product Measurement, pp. 252–262. doi:
10.1109/IWSM.Mensura.2014.31.

de Barcelos Tronto, I. F., da Silva, J. D. S. and Sant’Anna, N. (2008) ‘An investigation of


artificial neural networks based prediction systems in software project management’, Journal
of Systems and Software, 81(3), pp. 356–367. doi: 10.1016/j.jss.2007.05.011.

Bardsiri, V. K. et al. (2013) ‘LMES: A localized multi-estimator model to estimate software


development effort’, Engineering Applications of Artificial Intelligence. Elsevier, 26(10), pp.
2624–2640. doi: 10.1016/j.engappai.2013.08.005.

Brereton, P. et al. (2007) ‘Lessons from applying the systematic literature review process
within the software engineering domain’, 80, pp. 571–583. doi: 10.1016/j.jss.2006.07.009.

Eirola, E. et al. (2014) ‘Mixture of Gaussians for distance estimation with missing data’,
Neurocomputing. Elsevier, 131, pp. 32–42. doi: 10.1016/j.neucom.2013.07.050.

Hanchuan Peng, Fuhui Long and Ding, C. (2005) ‘Feature selection based on mutual
information criteria of max-dependency, max-relevance, and min-redundancy’, IEEE
Transactions on Pattern Analysis and Machine Intelligence, 27(8), pp. 1226–1238. doi:
10.1109/TPAMI.2005.159.

Hosni, M. and Idri, A. (2018) ‘Software development effort estimation using feature selection
techniques’, Frontiers in Artificial Intelligence and Applications, 303(September), pp. 439–
452. doi: 10.3233/978-1-61499-900-3-439.

Hosni, M., Idri, A. and Abran, A. (2017) ‘Investigating heterogeneous ensembles with filter
feature selection for software effort estimation’, ACM International Conference Proceeding
Series, Part F1319(2), pp. 207–220. doi: 10.1145/3143434.3143456.

Huang, J. et al. (2017) ‘Cross-validation based K nearest neighbor imputation for software
quality datasets: An empirical study’, Journal of Systems and Software, 132, pp. 226–252. doi:

40
10.1016/j.jss.2017.07.012.

Huang, J., Li, Y.-F. and Xie, M. (2015) ‘An empirical analysis of data preprocessing for
machine learning-based software cost estimation’, Information and Software Technology.
Elsevier B.V., 67, pp. 108–127. doi: 10.1016/j.infsof.2015.07.004.

Idri, A., Amazal, F. A. and Abran, A. (2015) ‘Analogy-based software development effort
estimation: A systematic mapping and review’, Information and Software Technology. Elsevier
B.V., 58, pp. 206–230. doi: 10.1016/j.infsof.2014.07.013.

Idri, A. and Cherradi, S. (2016) ‘Improving effort estimation of Fuzzy Analogy using feature
subset selection’, in 2016 IEEE Symposium Series on Computational Intelligence (SSCI).
IEEE, pp. 1–8. doi: 10.1109/SSCI.2016.7849928.

Jun, E. S. and Lee, J. K. (2001) ‘Quasi-optimal case-selective neural network model for
software effort estimation’, Expert Systems with Applications, 21(1), pp. 1–14. doi:
10.1016/S0957-4174(01)00021-5.

Khatibi Bardsiri, V. et al. (2012) ‘Increasing the accuracy of software development effort
estimation using projects clustering’, IET Software, 6(6), p. 461. doi: 10.1049/iet-
sen.2011.0210.

Kitchenham, B. and Charters, S. (2007) ‘Guidelines for performing Systematic Literature


Reviews in SE", Kitchenham et al Guidelines for performing Systematic Literature
Reviews in Software Engineering’.

Kumar, M., Kumar, R. and Sharma, A. (2014) ‘Fuzzy entropy-based framework for multi-
faceted test case classification and selection: an empirical study’, IET Software, 8(3), pp. 103–
112. doi: 10.1049/iet-sen.2012.0198.

Lessmann, S. et al. (2008) ‘Benchmarking classification models for software defect prediction:
A proposed framework and novel findings’, IEEE Transactions on Software Engineering,
34(4), pp. 485–496. doi: 10.1109/TSE.2008.35.

Liu, Q. et al. (2014) ‘A Mutual Information-Based Hybrid Feature Selection Method for
Software Cost Estimation Using Feature Clustering’, in 2014 IEEE 38th Annual Computer
Software and Applications Conference. IEEE, pp. 27–32. doi: 10.1109/COMPSAC.2014.99.

Nassif, A. B. et al. (2016) ‘Neural network models for software development effort estimation:
a comparative study’, Neural Computing and Applications. Springer London, 27(8), pp. 2369–

41
2381. doi: 10.1007/s00521-015-2127-1.

Oliveira, A. L. I. et al. (2010) ‘GA-based method for feature selection and parameters
optimization for machine learning regression applied to software effort estimation’,
Information and Software Technology. Elsevier B.V., 52(11), pp. 1155–1166. doi:
10.1016/j.infsof.2010.05.009.

Park, H. and Baek, S. (2008) ‘An empirical validation of a neural network model for software
effort estimation’, Expert Systems with Applications, 35(3), pp. 929–937. doi:
10.1016/j.eswa.2007.08.001.

Patil, L. V (2014) ‘Improving the a Accuracy of Cbsd Effort Estimation Using Fuzzy Logic’,
pp. 1385–1391.

Ponsa, D. and López, A. (2007) ‘Feature Selection Based on a New Formulation of the
Minimal-Redundancy-Maximal-Relevance Criterion’, in Pattern Recognition and Image
Analysis. Berlin, Heidelberg: Springer Berlin Heidelberg, pp. 47–54. doi: 10.1007/978-3-540-
72847-4_8.

Samareh Moosavi, S. H. and Khatibi Bardsiri, V. (2017) ‘Satin bowerbird optimizer: A new
optimization algorithm to optimize ANFIS for software development effort estimation’,
Engineering Applications of Artificial Intelligence. Elsevier, 60(January), pp. 1–15. doi:
10.1016/j.engappai.2017.01.006.

Wahono, R. S. (2015) ‘A Systematic Literature Review of Software Defect Prediction:


Research Trends, Datasets, Methods and Frameworks’, Journal of Software Engineering, 1(1),
pp. 1–16.

Wahono, R. S., Herman, N. S. and Ahmad, S. (2014) ‘Neural Network Parameter Optimization
Based on Genetic Algorithm for Software Defect Prediction’, Advanced Science Letters,
20(10), pp. 1951–1955. doi: 10.1166/asl.2014.5641.

Wen, J. et al. (2012) ‘Systematic literature review of machine learning based software
development effort estimation models’, Information and Software Technology. Elsevier B.V.,
54(1), pp. 41–59. doi: 10.1016/j.infsof.2011.09.002.

Wen, J., Li, S. and Tang, L. (2009) ‘Improve analogy-based software effort estimation using
principal components analysis and correlation weighting’, Proceedings - Asia-Pacific Software
Engineering Conference, APSEC, (2), pp. 179–186. doi: 10.1109/APSEC.2009.40.

42
Zare, F., Khademi Zare, H. and Fallahnezhad, M. S. (2016) ‘Software effort estimation based
on the optimal Bayesian belief network’, Applied Soft Computing. Elsevier B.V., 49, pp. 968–
980. doi: 10.1016/j.asoc.2016.08.004.

43

Anda mungkin juga menyukai