Anda di halaman 1dari 4

BAB III

METODOLOGI PENELITIAN

3.1. Tahapan Penelitian


Dalam penelitian kali ini terdapat tahapan-tahapan yang dilakukan untuk
klasifikasi malware dari pengumpulan datase, proses imbalance dataset untuk
skenario 2, proses segmentasi gambar, preprocessing, training, dan evaluasi
terhadap model yang diusulkan. Metode yang akan digunakan adalah
Convolutional Neural Network model InceptionResnet-V2 dan implementasi
image segmentation. Tahapan penelitian dapat dilihat pada gambar 2.

Gambar 2. Alur Tahapan Penelitian

3.2. Dataset
Dalam penelitian ini, peneliti menciptakan dua skenario menggunakan dua
dataset. Set pertama (imbalance) adalah set data dengan jumlah sampel keseluruhan
sebanyak 9.029 sampel gambar yang tersebar tidak merata di dalam 25 kelas, dan
datset kedua (balance) adalah dataset dengan sampel keseluruhan sebanyak 2.000
sampel gambar yang tersebar merata di dalam 25 kelas. Bentuk gambar ini adalah
bentuk konversi dari malware yang telah dirubah menjadi bytemap dengan warna
abu-abu. Akurasi pada tingkat kesamaan dataset yang tinggi pada setiap skenario
membuat tingkat kesulitan dalam mengklasifikasikan setiap kategori malware yang
ada menjadi cukup tinggi.

Gambar 3. Contoh Gambar Malware

3.3. Data Augmentation


Untuk meningkatkan jumlah dan variasi data yang telah tersedia untuk
pelatihan model, teknik yang digunakan adalah data augmentation. Teknik ini
melibatkan variasi baru dari data train yang ada dengan mengubah gambar,
menggeser atau memutar objek, atau menambahkan noise dan distorsi pada
gambar.

3.4 Image Pre-processing


Image Pre-processing data citra malware dilakukan untuk menerapkan
Image Data Generator. Pre-processing train data dan test data dengan
menormalisasi data sebelumnya yang memiliki skala [0.128] menjadi [0.1] dan
mengubah ukuran gambar menjadi 128x128 dengan menggunakan class_mode
‘Categorical’ dan jenis warna RGB.
3.5. Model InceptionResnet-V2
Dalam penilitian ini, kami merancang model CNN dengan pre-trained
InceptionResnet-V2 yang sebelumnya sudah dilatih dengan menambahkan
augmentation dan melakukan balancing pada dataset. InceptionResnet-V2
merupakan kombinasi dari dua metode CNN yaitu residual dan inception [22].
Model Inception terkenal dengan bentuk arsitektur multi-branch-nya, yang
memiliki kumpulan filter (1x1, 3x3, 5x5, dll) yang digabungkan menjadi satu setiap
cabangnya.

Arsitektur ini memiliki bentuk split-transform-merge dari modul awal yang


memiliki kemampuan representasi yang kuat dalam kepadatan lapisan yang telah
ada [22]. Model residual terkenal karena dapat melatih arsitektur yang sangat
dalam. Jaringan hibrida InceptionResNet-V2 menggunakan koneksi residual
dengan tingkat efisiensi yang baik [23]. Konfigurasi utama untuk jaringan
InceptionResNet-V2 tidak ditunjukkan di sini, tetapi konsep dasar dari modul
interior jaringan mencakup blok-blok seperti InceptionResNet-A, Inception-
ResNet-B, Inception-ResNet-C [23], seperti yang terlihat pada Gambar 4.

Gambar 4. Arsitektur Model InceptionResnet-V2

3.6. Evaluasi Model


Evaluasi model dilakukakn dengan menguji beberapa skenario yang
diusulkan pada data segmentasi menggunakan metode thresholding dan k-means,
dan hasilnya dievaluasi melalui perhitungan performa. Selanjutnya, hasil evaluasi
ini juga ditampilkan dalam bentuk grafik validation loss dan validation accuracy
untuk memahami kinerja akurasi dan loss model. Evaluasi juga melibatkan
confusion matrix untuk mengukur seberapa akurat model dalam melakukan
prediksi [24]. Selain itu, evaluasi model juga mencakup classification report yang
berisi perhitungan performa akurasi, precision, recall, dan f1-score [25]. Rumus
yang digunakan untuk menghitung performa model adalah sebagai berikut:

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒


𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 =
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒

2 𝑥 𝑃𝑟𝑒𝑠𝑖𝑠𝑖 𝑥 𝑅𝑒𝑐𝑎𝑙𝑙
𝐹1 − 𝑆𝑐𝑜𝑟𝑒 =
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 + 𝑅𝑒𝑐𝑎𝑙𝑙

3.7. Skenario Pengujian


Pada penelitian ini dilakukan dua pengujian dikarenakan dataset yang asli
masih tidak seimbang, peneliti melakukan proses balancing untuk dataset yang
digunakan. Dengan demikian, terdapat dua dataset yang nantinya akan memiliki
skenario yang akan diimplementasikan dalam penelitian. Dataset tersebut
mengalami tahap pembagian data (splitting) dengan rasio 7% data train dan 30%
data test. Dari data train tersebut, dilakukan preprocessing dan augmentation.
Setelah itu, dilakukan pembagian kembali dengan rasio 90% data train dan 10%
data validasi. Kemudian, dilakukan train data menggunakan model arsitektur
InceptionResnet-V2.

Anda mungkin juga menyukai