Makalah (Jurnal Ieee)

PENERAPAN SELEKSI FITUR FAST CORRELATION BASED FILTER
PADA METODE MODIFIED K-NEAREST NEIGHBOR UNTUK

MENGKLASIFIKASI SERANGAN JARINGAN KOMPUTER
MENGGUNAKAN DATASET KDD CUP 1999
Niko Arianto1, Iwan Iskandar2

1,2
Jurusan Teknik Informatika, Fakultas Sains dan Teknologi, UIN Sultan Syarif Kasim Riau
Jl. HR. Soebrantas No. 155 Simpang Baru, Panam, Pekanbaru, 28293
Email: 1niko.arianto@students.uin-suska.ac.id, 2iwan.iskandar@uin-suska.ac.id
ABSTRAK
Penggunaan perangkat lunak anti virus maupun firewall dapat membantu mencegah serangan
terhadap suatu host. Namun mencegah serangan saja tidaklah cukup, terlebih bila host yang diserang
merupakan suatu sistem atau server yang penting. Mengingat pentingnya masalah suatu serangan jaringan
komputer, ada berbagai penelitian yang mencoba mengukur keadaaan tersebut. Berdasarkan penelitian
penulis, penggunaan dataset KDD CUP 99 untuk dijadikan pengukuran basis penelitian, dan merupakan
suatu kumpulan dari data record atau laporan intrusi serangan pada jaringan komputer yang dapat digunakan
sebagai alat dan acuan data latih dan uji untuk mendeteksi ancaman serangan. Penelitian ini melakukan
penggalian informasi berdasarkan pengujian pada 260 data sampel terhadap pengambilan data balance untuk
mengklasifikasi ke 5 kelas yakni Normal, Denial of Service (DoS), User to Root (U2R), Remote to Local
(R2L) dan Probe sebagai pembelajaran mesin suatu serangan jaringan komputer pada dataset KDD CUP 99.
Dilakukan seleksi fitur dengan metode Fast Correlation Based Filter sebelum dilakukan tahapan klasifikasi
metode Modified K-Nearest Neighbor yang digunakan. Hasilnya sistem yang dibangun memiliki tingkat
akurasi sebesar 90,38% dengan perbandingan data latih dan data uji yaitu 80:20 dengan nilai k = 3.
Kata Kunci : Dataset KDD CUP 99, Denial of Service, Fast Correlation Based Filter, Modified K-
Nearest Neighbor, Normal, Probe, Remote to Local dan User to Root.
.
ABSTRACT
Use of anti-virus software or firewalls can help prevent attacks on a host. But preventing attacks is not
enough, especially if the host is attacked is an important system or server. Given the importance of the
problem of a computer network attack, there are various studies that try to measure the circumstances. Based
on the author's research, the use of KDD CUP 99 dataset to be used as the measurement of research base,
and is a collection of data record or attack intrusion reports on computer networks that can be used as a tool
and reference of training and test data to detect threats of attack. This research performs extracting
information based on testing on 260 sampled data to collect balance data to classify into 5 class is Normal,
Denial of Service (DoS), User to Root (U2R), Remote to Local (R2L) and Probe as machine learning an
attack computer network on the KDD CUP 99 dataset. Selection of features using the Fast Correlation Based
Filter method is performed before the classification stage of the Modified K-Nearest Neighbor method is
used. The result of the built system has an accuracy of 90.38% with the comparison of training data and test
data is 80:20 with the value k = 3.
Keywords : Dataset KDD CUP 99, Denial of Service, Fast Correlation Based Filter, Modified K-
Nearest Neighbor, Normal, Probe, Remote to Local dan User to Root.
1. PENDAHULUAN serangan terhadap suatu host. Namun menahan

serangan saja tidak cukup, terlebih bila host yang
Penggunaan perangkat lunak firewall diserang merupakan suatu sistem atau server yang
maupun anti virus dapat membantu menahan penting. Mengingat pentingnya masalah suatu
serangan jaringan komputer, ada berbagai penelitian klasifikasi. Seleksi fitur digunakan untuk
yang mencoba mengukur keadaan tersebut. mengurangi dimensi data dan fitur yang tidak
Berdasarkan penelitian sebelumnya Nurhadi, (2017) relevan, serta untuk meningkatkan efektifitas dan
meneliti tentang bagaimana meng klasifikasi deteksi efisiensi kinerja dari algoritma klasifikasi. Menurut
serangan dalam jaringan dengan dataset KDD CUP Firqiani dkk, (2007) perbandingan hasil akurasi
99 menggunakan metode K-Nearest Neighbor (K- klasifikasi data dengan seleksi fitur jauh lebih baik
NN) yang memperoleh hasil dengan tingkat akurasi dari pada tanpa seleksi fitur. Rata-rata hasil akurasi
pengujian mencapai k3 = 80% dan k13 = 85,0%. data tanpa seleksi fitur yaitu 81.66% sedangkan
Namun, didalam proses teknik klasifikasi dengan menggunakan seleksi fitur yaitu 85.51%.
menggunakan metode K-NN terdapat kekurangan Algoritma Fast Correlation Based Filter
dan kelemahan. Menurut Mutrofin dkk, (2014) adalah salah satu algoritma seleksi fitur yang
kekurangan K-NN adalah nilai k bias, komputasi dikembangkan oleh (Yu dan Huan, 2003) yang
kompleks, keterbatasan memori dan mudah tertipu dikutip oleh (Firqiani dkk, 2005) diperoleh hasil
dengan atribut/fitur yang tidak relevan. bahwa Fast Correlation Based Filter sangat efisien
Maka dari itu dilakukan perbaikan dalam hal dalam melakukan seleksi fitur serta memberikan
kekurangan pada metode K-NN. Salah satu performa yang baik bagi kinerja algoritma
perbaikan metode K-NN adalah Modified K-Nearest klasifikasi, baik dari segi waktu maupun akurasi
Neighbor (MK-NN). MK-NN merupakan algoritma hasil klasifikasi. Kemudian pada penelitian Chou,
yang dikembangkan dari algoritma K-NN, Te-Shun dkk (2007) membandingkan pendekatan
algoritma MK-NN menambahkan proses baru untuk dua algoritma pemilihan fitur berbasis korelasi
melakukan klasifikasi yaitu perhitungan nilai yakni Correlation-based Filter Selection (CFS) dan
validitas untuk mempertimbangkan validitas antar Fast Correlation-Based Filter (FCBF) di enam
data latih dan pehitungan weighted voting untuk kumpulan data yang diambil dari UCI databases dan
menghitung bobot dari masing-masing terdekat. KDD 99 dataset untuk melatih dan menguji
Penambahan dua proses baru dalam MK-NN algoritma pembelajaran mesin (machine learning)
sehingga dapat memperbaiki setiap kesalahan pada C4.5 dan Naive Bayes. Dari hasil penelitian tersebut
proses K-NN. Penelitian Parvin dkk, (2008) menunjukkan akurasi mencapai rata-rata tertinggi,
menunjukkan MK-NN sangat baik dalam memiliki kinerja superior dan dapat menseleksi fitur
peningkatan akurasi dibandingkan dengan metode yang paling signifikan dalam memilih fitur
K-NN. Kemudian pada penelitian Maihendra, informatif dari sekumpulan dataset untuk
(2016) dalam memprediksi putusan perkara meningkatkan akurasi tugas klasifikasi.
perceraian menggunakan metode MK-NN , didapati Pada penelitian ini menggunakan dataset
hasil akurasi sebesar 95,089% pada perbandingan KDD CUP 1999 sebagai acuan data latih dan data
data latih dan data uji 80:20 dengan nilai k=3. uji. Selanjutnya data akan dipraproses mengguna
Penelitian lainnya Rasepta, (2015) mengklasifikasi kan seleksi fitur Fast Correlation Based Filter
status gizi balita menggunakan metode MK-NN (FCBF) dan kemudian diklasifikasi menggunakan
dengan didapati tingkat akurasi tertinggi sebesar metode Modified K-Nearest Neighbor (MK-NN).
90% pada skenario 90:10 dan 80:20 dengan k = 1 Diharapkan pada penelitian ini metode FCBF-
sampai k = 3. MKNN mampu menghasilkan dan memperoleh
Pada umumnya algoritma klasifikasi akurasi yang baik dalam mengklasifikasi kelas-
menggunakan semua fitur yang terdapat pada data kelas jenis serangan pada dataset KDD CUP 99
untuk membangun sebuah model, padahal tidak dengan akurat.
semua fitur tersebut relevan terhadap hasil
klasifikasi. Apabila hal tersebut terjadi pada data 2. LANDASAN TEORI
yang memiliki ukuran dan dimensi yang sangat
besar, maka membuat kinerja algoritma menjadi 2.1. Knowledge Discovering in Data (KDD)
tidak efektif dan efisien, misalnya saja waktu Istilah data mining dan knowledge discovery
pemrosesan menjadi lebih lama akibat banyak fitur in databases (KDD) sering kali digunakan secara
yang harus diproses pada dataset KDD CUP 99 bergantian untuk menjelaskan proses penggalian
yang memiliki sejumlah besar data lalu lintas informasi tersembunyi dalam suatu basis data yang
jaringan yang terpantau. (Chou, Te-Shun dkk, besar. Sebenarnya kedua istilah tersebut memiliki
2007). konsep yang berbeda, tetapi berkaitan satu sama
Salah satu solusi yang digunakan untuk lain. Dan salah satu tahapan dalam keseluruhan
mengatasi masalah tersebut adalah dengan proses KDD adalah data mining. Proses KDD
menggunakan seleksi fitur. Seleksi fitur adalah secara garis besar dapat dijelaskan sebagai berikut,
salah satu tahap praproses pada klasifikasi. Seleksi Shapiro (sebagaimana dikutip oleh Maihendra,
fitur dilakukan dengan cara memilih fitur-fitur yang 2016).
relevan terhadap data yang mempengaruhi hasil
2.2. Selection meningkatkan nilai accuracy dari metode deteksi yang
Pemilihan (seleksi) data dari sekumpulan diuji. Pemilihan fitur juga bermanfaat dalam mereduksi
data operasional perlu dilakukan sebelum tahap dimensi dari dataset dengan cara „membuang‟ fitur-fitur
penggalian informasi dalam KDD dimulai. Data yang tidak signifikan (tidak memiliki pengaruh terhadap
hasil seleksi yang akan digunakan untuk proses data penentuan kelas / label). Tujuan utama dari seleksi fitur
mining, disimpan dalam suatu berkas, terpisah dari adalah memperoleh kumpulan fitur-fitur terbaik yang
basis data operasional (Maihendra, 2016). dapat meningkatkan performansi dari model deteksi yang
dikembangkan.
2.3. Preprocessing
Sebelum data diolah ke tahap selanjutnya, a. Entropy
data perlu dilakukan prerocessing terlebih dahulu. Di dalam bidang Information Theory, Entropy
Tujuan preprocessing adalah agar meningkatkan sering digunakan sebagai suatu parameter untuk
performance dari teknik atau metode data mining. mengukur heterogenitas (keberagaman) dari suatu
Ada beberapa tahapan preprocessing sebagai kumpulan sampel data. Jika kumpulan sampel data
berikut : semakin heterogen, maka nilai entropy nya semakin
besar. Secara matematis, entropy dirumuskan sebagai
2.3.1. Data Cleaning berikut :
𝒄
Proses menghilangkan noise dari data yang
tidak konsisten atau tidak relevan. Pembersihan data 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑺 = − 𝒑𝒊 𝒍𝒐𝒈𝟐 𝒑𝒊
ini akan mempengaruhi performansi teknik/metode 𝒊
Dimana :
data mining karena data yang ditangani akan
c : Jumlah nilai yang ada pada atribut target
berkurang jumlah dan kompleksitasnya..
(jumlah kelas klasifikasi)
2.4. Transformation pi : Jumlah sampel untuk kelas i
Data diubah atau digabung ke dalam format yang
sesuai untuk diproses dalam data mining. Beberapa b. Information Gain
metode data mining membutuhkan format data yang Setelah mendapatkan nilai entropy untuk suatu
khusus sebelum bisa diaplikasikan. Cara lain yang dapat kumpulan sampel data, maka dapat diukur efektivitas
dilakukan dalam transformasi data adalah normalization, suatu fitur dalam mengklasifikasikan data. Ukuran
dimana data atribut dibuat dalam skala tertentu sehingga efektivitas ini disebut sebagai information gain. Secara
menjadi kisaran data yang lebih kecil sehingga sebaran matematis, information gain dari suatu fitur A, dituliskan
datanya tidak terlalu jauh. Dengan rumus normalisasi : sebagai berikut (Suyanto, 2007) :
|𝑺𝒗 |
𝒗− 𝒎𝒊𝒏𝒂 𝑰𝑮 𝑺, 𝑨 = 𝑬𝒏𝒕𝒓𝒐𝒑𝒚 𝑺 −
𝒗𝒊 = (𝒏𝒆𝒘_𝒎𝒂𝒙𝒂 – new_𝒎𝒊𝒏𝒂 ) + 𝑺
𝒎𝒂𝒙𝒂 − 𝒎𝒊𝒏𝒂 𝒗≡𝑽𝒂𝒍𝒖𝒆𝒔(𝑨)
new_𝒎𝒊𝒏𝒂 ∗ 𝑬𝒏𝒕𝒓𝒐𝒑𝒚(𝑺𝒗 )
Dimana : Dimana :
𝑣𝑖 : Data baru setelah normalisasi A : fitur
v : Data sebelum normalisasi V : menyatakan suatu nilai yang mungkin
𝑛𝑒𝑤_𝑚𝑎𝑥𝑎 : Batas nilai max baru adalah 1 untuk fitur A
new_𝑚𝑖𝑛𝑎 : Batas nilai min baru adalah 0 Values(A) : himpunan nilai-nilai yang mungkin
𝑚𝑎𝑥𝑎 : Nilai maximum pada kolom untuk fitur A
𝑚𝑖𝑛𝑎 : Nilai minimum pada kolom |𝑆𝑣 | : jumlah sampel untuk nilai v
|S| : jumlah seluruh sampel data
2.5. Data Mining Entropy(𝑆𝑣 ) : entropy untuk sampel-sampel yang
Sebagaimana dikutip oleh Maihendra, (2016) memiliki nilai v
Data mining adalah teknik bagaimana menelusuri data
yang ada untuk membangun sebuah model, kemudian c. Symmetrical Uncertainty
menggunakan model tersebut agar dapat mengenali pola SU mengkompensasi bias IG terhadap fitur
data lain yang tidak berada dalam basis data yang dengan nilai lebih tersendiri dan menormalkan
disimpan. Teknik Data Mining didukung oleh tiga nilai-nilai berkisaran 0 hingga 1. Pengukuran SU
teknologi yaitu pengumpulan data secara besar, dapat dihitung dengan persamaan sebagai berikut
multiprocessor pada komputer dan algoritma data mining
(Firqiani dkk, 2007) :
(Kusrini, 2009).
𝑰𝑮(𝑺, 𝑨)
𝑺𝑼 𝑺, 𝑨 = 𝟐 ∗
2.5.1. Feature Selection 𝑯 𝑺 + 𝑯(𝑨)
Pemilihan fitur adalah suatu proses yang Dimana :
dilakukan untuk menentukan fitur-fitur yang signifikan A : fitur
dalam dataset yang sesuai untuk permasalahan yang akan S : kelas
dipecahkan. Semakin baik hasil pemilihan fitur dapat
H : nilai entropy terdapat dalam Persamaan (2.11) di bawah ini
Nilai Symmetrical Uncertainty (SU) berkisar (Rasepta, 2016) :
pada rentang 0 sampai dengan 1. Fitur akan terpilih jika 𝟏𝒂= 𝒃
𝑺 𝒂, 𝒃 =
nilai SU>δ, dimana δ adalah nilai threshold = 0. Pada 𝟎𝒂≠ 𝒃
penelitian Firqiani dkk, (2005) nilai akurasi tertinggi Dimana :
terdapat pada nilai threshold 0. a : Kelas a pada data training
b : Kelas lain selain a pada data training
2.5.2. K-Nearest Neighbor (K-NN)
Rumus yang biasa digunakan sebagai ukuran b. Weight Voting
jarak untuk data numerik yaitu euclidean distance. Dalam metode MK-NN, pertama weight
Proses perhitungan jarak euclidean dari algoritma masing-masing tetangga dihitung dengan mengguna
MK-NN ini adalah digunakan untuk mencari jarak kan 1 / (de + 1). Kemudian, validitas dari setiap data
tiap data latih dan mencari jarak tiap data uji dan pada data latih dikalikan dengan weight berdasa
data latih. Berikut persamaan yang digunakan untuk rkan pada jarak Euclidean. Sehingga metode
memperoleh nilai Jarak Euclidean (Werdani, Ajeng MKNN, didapatkan persamaan weight voting tiap
Kesuma, 2015) : tetangga sebagai berikut (Rasepta, 2016) :
𝟏
𝒑 𝑾(𝒊) = 𝑽𝒂𝒍𝒊𝒅𝒊𝒕𝒂𝒔(𝒊) 𝐱
𝒅𝒆 + 𝟎, 𝟓
𝒅𝒊 = (𝒙𝟐𝒊 − 𝒙𝟏𝒊 )𝟐 Dimana :
𝒊=𝟏 W(i) : Perhitungan Weight Voting
Keterangan : Validasi (i) : Nilai Validasi
x1 = Data latih de : Jarak Euclidean
x2 = Data uji
i = Variabel data 2.6. Evaluasi
d = Jarak Performa dari suatu model kasifikasi dapat diukur
p = Dimensi data tingkat akurasinya dengan melakukan evaluasi.
Menurut Rasepta, (2016) Performa dari suatu model
2.5.3. Modified K-Nearest Neighbor (MK-NN) kasifikasi dapat diukur dengan tingkat akurasinya
Hamid Parvin dkk (2008), sebagaimana berdasarkan Confusion matrix. Confusion matrix
dikutip oleh Maihendra (2016), metode ini merupakan alat yang berguna untuk menganalisis
merupakan modifikasi dari kNN dimana ada seberapa baik classifier mengenali tuple dari kelas
beberapa perhitungan yang ditambah. Setelah yang berbeda. TP dan TN memberikan informasi
mendapatkan euclidean distance, selanjutnya ketika classifier benar, sedangkan FP dan FN
dilakukan perhitungan validitas untuk semua data memberikan informasi ketika classifier salah.
yang terdapat pada data latih. Kemudian dilakukan Akurasi merupakan persentase dari data yang
perhitungan Weight Voting pada semua data uji diprediksi secara benar. Perhitungan akurasi adalah
menggunakan validitas data. :
(𝑻𝑷 + 𝑻𝑵)
𝑨𝒌𝒖𝒓𝒂𝒔𝒊 =
a. Validitas Data Latih (𝑻𝑷 + 𝑻𝑵 + 𝑭𝑷 + 𝑭𝑵)
Validitas digunakan untuk menghitung Keterangan :
jumlah titik dengan label yang sama untuk semua TP : True positives, merupakan jumlah data dengan
data pada data latih. Validitas setiap data tergantung kelas positif yang diklasifikasi kan positif.
pada setiap tetangga terdekatnya. Setelah dilakukan TN : True negatives, merupakan jumlah data dengan
validasi data, selanjutnya data tersebut digunakan kelas negatif yang diklasifika sikan negatif.
sebagai informasi lebih mengenai data tersebut. FP : False positives, merupakan jumlah data
Persamaan yang digunakan untuk menghitung dengan kelas positif diklasifikasikan negatif.
validitas setiap data latih adalah (Rasepta, 2016) : FN : False negatives, merupakan jumlah data
𝒌 dengan kelas negatif diklasifikasikan positif.
𝟏
𝑽𝒂𝒍𝒊𝒅𝒂𝒔𝒊 𝒙 = 𝑺(𝒍𝒂𝒃𝒆𝒍 𝒙, 𝒍𝒂𝒃𝒆𝒍 𝑵𝒊 𝒙)
𝟑 2.7. KDD CUP
𝒊=𝟏
Dimana : KDD CUP merupakan suatu kompetisi di
K : Jumlah titik terdekat bidang Data Mining dan Ekplorasi ilmu
Lbl (x) : Kelas x pengetahuan diseluruh dunia yang diadakan oleh
Ni (x) : Label kelas titik terdekat x ACM SIGKDD (Special Interest Group on
Fungsi S digunakan untuk menghitung Knowledge Discovery and Data Mining).
kesamaan antara titik a dan data ke-b tetangga Organisasi ini menyelengarakan kompetisi tersebut
terdekat. Persamaan untuk mendefinisikan fungsi S pada setiap tahun dengan fokus tema yang berbeda-
beda. Pada tahun 1999 kompetisi KDD Cup
berfokus kepada Intrusion Detection and Report. Mulai
Intrusion Detection and Report merupakan suatu

Identifikasi Masalah
data laporan intrusi serangan pada jaringan
komputer yang dapat digunakan sebagai acuan data Studi Pustaka
Buku, Jurnal dan Situs Web
latih dan uji untuk mendeteksi ancaman serangan
(www.kdnuggets.com). Analisa
1. Analisa Data Pengumpulan Data
2. Analisa Tahapan Knowledge Discovering KDD CUP 99 Dataset
2.7.1. KDD CUP 1999 Dataset in Data (KDD)
a. Data Selection
Pada tahun 1999, ACM Special Interest b. Data Cleaning
c. Data Transformasi
Group on Knowledge Discovery and Data Mining d. Fast Correlation Based Filter
e. Klasifikasi dengan MK-NN Perancangan
adalah organisasi profesional terkemuka 3. Analisa Sistem Database dan Interface
penambang data, menyelenggarakan kompetisi di

dunia yang mempertemukan berbagai researcher, Implementasi
akademisi dan praktisi untuk dapat memberikan Sistem berbasis PHP
bantuan menyelesaikan kasus yang diberikan dalam

Pengujian
kompetisinya tersebut. Kompetisi tersebut adalah Whitebox dan Confusion Matrix
Knowledge Discovery in Database (KDD) Cup 99
yang bertema Computer Network Intrusion Kesimpulan dan Saran
Detection. Dataset KDD CUP 99 dikeluarkan oleh

DARPA (Defense Anvanced Research Projects Selesai
Agency) dan dikelola oleh MIT Loncoln Lbs.

Kumpulan dari data ini digunakan sebagai alat Gambar 3.1 Tahapan Metodologi Penelitian
kompetisi internasional ilmu pengetahuan dan data
mining yang ke 3, yang diadakan secara bersamaan 3.1. Analisa Sistem
dengan konfrensi internasional ilmu pengetahuan Analisa perancangan pada sistem klasifikasi
dan data mining KDD-99 yang ke lima, tujuan dari serangan pada dataset KDD CUP 99 yang akan
kompetisi adalah untuk membangun detektor intrusi dibangun meliputi : Context Diagram, Data Flow
jaringan, yang mampu membuat model perbedaan Diagram (DFD), Flowchart dan Entity Relationship
prediksi antara koneksi "buruk" disebut dengan Diagram (ERD).
gangguan atau serangan dan baik disebut koneksi Adapun gambaran umum tahapan proses
normal (http://kdd.ics.uci.edu). analisa sistem yang akan dilakukan pada penelitian
Dataset yang memiliki 41 atribut/fitur yang ini dapat dijelaskan berdasarkan gambar berikut :
dibagi ke dalam tiga kelompok yaitu fitur basic,
fitur konten dan fitur trafik. Fitur basic (fitur nomor
1 sampai 9) merupakan hasil ekstraksi dari sistem
log tcpdump dalam jaringan komputer. Fitur konten
(fitur nomor 10 sampai 22) merupakan fitur-fitur
yang diambil dari kegiatan yang berlangsung dalam
sistem jaringan komputer. Sedangkan fitur trafik
terbagi menjadi dua bagian, pertama terdiri dari
fitur nomor 23 sampai 31 merupakan fitur trafik
jaringan yang dihitung menggunakan waktu dua
detik time window, dan kedua terdiri dari fitur
nomor 32 sampai 41 dihitung menggunakan waktu
dua detik time window dari tujuan ke host (Essra
dkk, 2016).
Gambar 3.2 Flowchart Metode Fast Correlation
3. METODOLOGI PENELITIAN
Based Filter dan Modified K-Nearest Neighbor
Metodologi penelitian adalah tahapan yang
akan dilakukan dalam melakukan penelitian agar
dapat memenuhi tujuan sesuai dengan yang 4. ANALISA DAN PEMBAHASAN
diharapkan. Tahapan penelitian yang akan 4.1. Knowledge Discovering in Database
dilakukan :
a. Data selection
Tahap data selection merupakan pemilihan
(seleksi) data yang akan digunakan dalam
penelitian. Tahapan ini perlu dilakukan sebelum
dilakukan tahap perhitungan. Seleksi yang
dilakukan adalah dengan menghapus fitur-fitur yang d. Seleksi Fitur dengan Fast Correlation
tidak diperlukan untuk proses mining. Menurut Based Filter (FCBF)
Essra dkk, (2016) tidak semua fitur yang ada Setelah melalui tahapan sebelumnya, pada
didalam dataset KDD CUP 99 memberikan bagian ini dijelaskan bagaimana fitur yang akan
kontribusi pada karakteristik trafik jaringan. diseleksi dan digunakan nantinya sebagai proses
Kayacik dkk, (2005) juga menyimpulkan bahwa klasifikasi. Pemilihan fitur menggunakan metode
tidak semua 41 fitur dibutuhkan untuk FCBF, algoritma ini akan dijelaskan pada flowchart
mengklasifikasikan jenis serangan. Fitur yang tidak yang diperlihatkan pada gambar 4.1 dibawah ini :
digunakan untuk proses selanjutnya adalah sevice Mulai
dan flag. Sehingga total fitur setelah seleksi data

yang digunakan menjadi 39 atribut. Data
normalisasi kdd
cup 99
b. Data Preprocessing
Tahap data processing ini menggunakan Hitung entropy
proses cleaning data. Proses pembersihan terhadap

data yang tidak konsisten, missing value atau data
Hitung information gain
yang hilang, outlier atau data yang memiliki nilai
yang berlebihan diantara data-data yang ada, serta
data yang redudan atau ganda. Pada penelitian ini Hitung symmetric uncertainty
dilakukan proses cleaning dengan cara menghapus

data yang redudan. Pada tahapan cleaning ini Tentukan dan pilih fitur
dilakukan melalui sistem. Caranya adalah dengan dengan threshold 0
menyeleksi semua fitur yang ada dalam satu data

kemudian dibandingkan dengan semua data yang Selesai
ada. Apabila terdapat data yang persis sama, maka

semua data yang ada tersebut dihapus dan hanya Gambar 4.1 Flowchart Seleksi Fitur Fast
menyisakan satu record saja. Setelah dilakukan Correlation Based Filter
cleaning, data yang semula berjumlah 494.021 data .
menjadi berjumlah 145.585 data. e. Klasifikasi dengan Modified K-Nearest
. Neighbor (MK-NN)
c. Data Transformation Berdasarkan data yang telah didapatkan pada
Setelah melakukan tahap preprocessing data, proses sebelumnya, maka pada bagian ini dijelaskan
data yang akan digunakan pada transformasi bagaimana penggunaan metode MK-NN dalam
sebanyak 260 data. Berdasarkan dengan keadaan klasifikasi data tersebut. Untuk lebih jelas mengenai
kelas data yang seimbang (Balance Class) artinya cara kerja algortima MK-NN ini akan dijelaskan
tidak ada kelas yang lebih mendominasi. Sebanyak pada flowchart yang diperlihatkan pada gambar 4.2
52 data yang diambil, kemudian dikalikan dengan 5 dibawah ini :
fitur yang berbeda, sehingga masing–masing dari ke Mulai
5 fitur mendapatkan 52 jumlah data yang seimbang

untuk masing-masing kelas. Sehingga diharapkan
akan mampu menambah kompleksitas serta
Data Latih Kdd Data Uji Kdd
keakurasian dari model klasifikasi sistem yang akan Cup 99 Cup 99
dibangun dan menghindari selisih hasil rentang

target yang berat sebelah karena jumlah data yang Hitung Jarak euclidean antar
data latih
Hitung Jarak euclidean data
latih dengan data uji
berbeda dan bervariasi. Pada tahap ini dilakukan
transformasi data dengan menormalisasi Tentukan k. Hitung
(persamaan 2.1). Normalisasi dilakukan pada data Validitas
yang memiliki sebaran yang jauh. Tujuannya adalah Hitung Weight

Voting
agar sebaran data berada pada rentang nilai [0-1].

Pada penelitian ini data yang dinormalisasikan Pilih Mayoritas data sesuai
jumlah k
adalah data dengan fitur duration, protocol_type,

scr_bytes, dst_bytes, wrong_fragment, urgent, Identifikasi kelas
data uji
count, serror_rate, same_srv_rate, dst_host_diff_
srv_rate, dst_host_srv_count, num_compromised Selesai
dan root_sheel. Sedangkan fitur lainnya tidak perlu
dinormalisasikan karena rentang nilainya sudah Gambar 4.2 Flowchart Klasifikasi Modified K-
Nearest Neighbor
berada pada [0-1].
.
5. IMPLEMENTASI DAN PENGUJIAN nilai k=3 memiliki tingkat akurasi tertinggi yaitu
Pengujian merupakan tahap untuk 90.38%. Sedangkan skenario 60:40 dengan nilai
mengetahui apakah sistem berhasil dan berfungsi k=13 memiliki tingkat akurasi terendah yaitu
sesuai dengan kebutuhan dan tujuan penelitian. 70.19%.
Berikut ini adalah rencana pengujian yang akan
dilakukan pada sistem klasifikasi serangan jaringan 6. KESIMPULAN
komputer dengan menerapkan metode Modified K- Kesimpulan pada dasarnya mengacu pada
Nearest Neighbor : tujuan penelitian yang telah dirancang sebelumnya.
1. Pengujian dilakukan untuk mengetahui apakah Berhasil atau tidaknya dalam mencapai tujuan
sistem sudah berjalan sesuai dengan analisa dan tersebut dibuktikan pada tahap implementasi dan
perancangan yang telah dibuat dengan pengujian. Berdasarkan penelitian yang telah
menggunakan metode whitebox dan blackbox. dilakukan maka penulis dapat menarik kesimpulan :
2. Pengujian akurasi metode dengan 1. Berhasil membangun sistem klasifikasi
menggunakan confusion matrix. Pengujian serangan jaringan komputer menggunakan
dilakukan dengan menggunakan mekanisme dataset KDD CUP 99 dengan menerapkan
pembagian data latih dan data uji 60:40, 70:30, metode seleksi fitur Fast Correlation Based
80:20 dan 90:10. Parameter k yang digunakan Filter dan metode klasifikasi Modified K-
adalah k = 3, k = 5, k = 7, k = 9, k = 11 dan k = Nearest Neighbor.
13. 2. Sistem yang dibangun memiliki tingkat
Pengujian dilakukan dengan beberapa skenario akurasi tertinggi sebesar 90.38% pada skenario
pembagian data latih dan data uji dimana pemilihan perbandingan data latih dan data uji 80:20
data uji dan data latih dilakukan secara acak oleh untuk nilai k=3.
sistem dari total 260 record data penelitian yang Setiap penelitian tidak selalu menghasilkan
ada. Skenario pembagian data latih dan data uji yang sempurna, maka pasti ada kekurangan yang
yaitu : harus diperbaiki melalui saran yang membangun.
1. 90% data latih : 10% data uji, (90:10). Saran yang mesti diperhatikan untuk pengembangan
2. 80% data latih : 20% data uji, (80:20). penelitian ini selanjutnya, adalah :
3. 70% data latih : 30% data uji, (70:30). 1. Menambah cakupan data latih yang
4. 60% data latih : 40% data uji, (60:40). digunakan.
Nilai k yang digunakan dalam pengujian 2. Menggunakan metode klasifikasi lain atau
akurasi ini adalah k = 3, k = 5, k = 7,k = 9, k = 11 mengkombinasikannya dengan metode lain
dan k = 13. Nilai k yang dipilih berdasarkan jurnal untuk mengolah data KDD CUP 99 tersebut.
penelitian sebelumnya oleh (Nurhadi, 2017). Setiap 3. Menggunakan kasus permasalahan lainnya
skenario pembagian data latih dan data uji akan dengan menggunakan metode seleksi fitur
dilakukan pengujian dengan menggunakan ketiga Fast Correlation Based Filter dan metode
nilai k tersebut kemudian akan dicari rata-rata nilai klasifikasi Modified K-Nearest Neighbor.
akurasi dari keseluruhan skenario. Berikut adalah 4. Menambahkan metode optimasi pada nilai k
perhitungan akurasi dari setiap skenario pembagian untuk menemukan nilai k terbaik yang
data latih dan data uji tentunya parameter nilai k sangat berpengaruh
terhadap hasil klasifikasi dan akurasi yang
Tabel 5.1 Akurasi Sistem dihasilkan dalam pengujian.
Akurasi
DAFTAR PUSTAKA
(90:10) (80:20) (70:30) (60:40) [1] A.Olusola, Adetunmbi dkk, “Analysis of
K KDD’99 Intrusion Detection Dataaset for
Selection of Relevance Features”, 2010
3 88.46 % 90.38 % 81.25 % 83.01 % [2] Abadi, Delki, ”Perbandingan Algoritme
5 84.61 % 78.84 % 76.92 % 73 % Feature Selection Information Gain dan
Symmetrical Uncertainty pada Data
7 80.77 % 71.15 % 87.17 % 78 % Ketahanan Pangan”, 2013
9 80 % 79.23 % 80.76% 73 % [3] Ali, Syed Imran dan Shahzad, Waseem, “A
Feature Subset Selection Method based on
11 76.92 % 75 % 76.92 % 78 % Symmetrical and Colony Optimization”, 2012
[4] Alimudin, Akhmad dkk, “Sistem Deteksi
13 76.92 % 71.15 % 71.79 % 70.19 %
Intrusi Pada Jaringan Dengan Menggunakan
Metode K-Nearest Neighbor dan Teori
Hasil pengujian akurasi sistem pada Tabel Dempster Shafer”, 2013
5.17 menunjukkan bahwa skenario 80:20 dengan
[5] Anif, Muhammad dkk, “Penerapan Intrusion Pada Sistem Deteksi Intrusi Dengan
Detection System (IDS) dengan Metode Pembatasan Ukuran Cluster dan Sub-
Deteksi Port Scanning pada Jaringan Medoid”, 2016
Komputer di Politeknik Negeri Semarang”, [21] Mutrofin, Siti dkk, “Optimasi Teknik
2015 Klasifikasi Modified K Nearest Neighbor
[6] Anisyah, Novi dkk, “Aplikasi Mobile untuk K- Menggunakan Algoritma Genetika”, 2014
Nearest Neighbor pada Intrusion Detection [22] Nurhadi, Naldi, “Aplikasi Intelligence
System Berbasis Snort”, 2011 Intrusion Detection System (IIDS) Dengan
[7] Arifin, Muhammad, “IG-KNN untuk Prediksi Menggunakan Metode K-Nearest Neighbor
Costumer Churn Telekomunikasi”, 2015 Untuk Mendeteksi Serangan Pada Jaringan”,
[8] Chou, Te-Shun dkk, “Correlation-Based 2017
Feature Selection for Intrusion Detection [23] Ozgur, Atilla dan Erdem, Hamit, “A Review of
Design”, 2007 KDD99 Dataset Usage in Intrusion Detection
[9] Essra, Aulia dkk, “Analisi Information Gain and Machine Learning between 2010 and
Attribute Evaluation untuk Klasifikasi 2015”, 2016
Serangan Intrusi”, 2016 [24] Panggabean, Esty CF, “Optimasi Parameter
[10] Fachrul Pralienka Bani, “Perbaikan Prediksi Pada Fast Correlation Based Filter
Kesalahan Perangkat Lunak Menggunakan Menggunakan Metode Particle Swarm
Seleksi Fitur dan Cluster-Based Optimization Untuk Klasifikasi Meagenom”,
Classification”, 2017 2017
[11] Firqiani, Hida Nur dkk, “Seleksi Fitur [25] Parvin, Hamid dkk, “MKNN : Modified K-
Menggunakan Fast Correlation Based Filter Nearest Neighbor”, 2008
Pada Algoritma Voting Feature Intervals 5”, [26] Purbasari,Intan Yuniar dan Nugroho, Budi,
2007 “Benchmarking Algoritma Pemilihan Atribut
[12] Ginting, Sindy Erika Br, dkk, “Voting Based pada Klasifikasi Data Mining”, 2013
Extreme Learning Machine dalam Klasifikasi [27] Ramadhani, Kurniawan Nur dkk,
Computer Network Intrusion Detection” “Implementasi Swarm Intelligence pada
[13] Handrianto, Yopi dan Supendar, Hendra, Intrusion Detection System”, 2011
“Analisa Monitoring Lalu Lintas Paket Data [28] Rampure, Vinod dan Tiwari, Akhilesh, “A
Menggunakan Intrusion Detection System”, Rough Set Based Feature Selection on KDD
2014 CUP 99 Dataset”, 2015
[14] Haq, Nutan Farah dkk, “Application of [29] Rasepta, Kevin Martha, “Klasifikasi Status
Machine Learning Approaches in Intrusion Gizi Balita Menggunakan Metode Modified K-
Detection System: A Survey”, 2015 Nearest Neighbor”, 2016
[15] Id-SIRTII/CC - Indonesia Security Incident [30] Senliol, Baris dkk, “Fast Correlation Based
Response Team on Internet Filter (FCBF) with a Different Search
Infrastructure/Coordination Center, "Data Strategy”, 2009
Internet Trafik Minggu Ke-5 Bulan Juli Tahun [31] Simanjuntak, Tri Halomoan dkk,
2015". [Online] Available: “Implementasi Modified K-Nearest Neighbor
www.idsirtii.or.id/mingguan/bulan/Juli/2015.h Dengan Otomatisasi Nilai K Pada
tml (diakses pada 08 Agustus 2017) Pengklasifikasian Penyakit Tanaman
[16] Jiang, Bai-Ning dkk, “A Hybrid Feature Kedelai”, 2017
Selection Algoritm : Combination of [32] Susanto, Bekti Maryuni, “K-Nearest Neighbor
Symmetrical Uncertainty and Generic (K-NN) untuk Mendeteksi Gangguan Jaringan
Algorithms”, 2011 Komputer pada Intrusion Detection Dataset”,
[17] Kayacik, H. Gunes dkk, “Selecting Features 2014
for Intrusion Detection: A Feature Relevance [33] Suyanto, “Artificial Intelegence Searching
Analysis on KDD 99 Intrusion Detection Reasoning Planning and Learning”, Bandung,
Dataset”, 2005 Informatika, 2007
[18] Mahrus, Muhammad dkk, “Sistem Pendeteksi [34] Stolfo, Salvatore J dkk, "Intrusion Detector
Serangan Adaptif dengan Menggunakan Learning". [Online] Available:
Algoritma Genetik ”, 2013 http://kdd.ics.uci.edu/databases/kddcup99/task
[19] Maihendra, Ridho, “Penerapan Metode .html (diakses pada 08 Agustus 2017)
Modified K-Nearest Neighbor (MK-NN) untuk [35] Tavallaee, Mahbod dkk, “A Detailed Analysis
Memprediksi Putusan Perkara Perceraian”, of the KDD CUP 99 Data Set”, 2009
2016 [36] Wafiyah, Fakihatin dkk, “Implementasi
[20] Mutaqien, Indera Zainul, “Pengembangan Algoritma Modified K-Nearest Neighbor
Metode Seleksi Fitur dan Transformasi Data
(MKNN) untuk Klasifikasi Penyakit Demam”, http://www.kdnuggets.com/datasets/kddcup.ht
2017 ml (diakses pada 08 Agustus 2017)
[37] Werdani, Ajeng Kesuma, “Penerapan Metode [40] _____________, "Web Attack Visualization".
Modified K-Nearest Neighbor (MK-NN) Pada [Online] Available:
Identifikasi Citra Daging Sapi dan Daging www.akamai.com/us/en/about/our-
Babi”, 2015 thinking/state-of-the-internet-report/ web-
[38] _____________, "Data KDD CUP 1999 : attack-visualization.jsp (diakses pada 08
Computer Network Intrusion Detection". Agustus 2017).
[Online] Available: http://www.kdd.org/kdd-
cup/view/kdd-cup-1999/Data (diakses pada 08
Agustus 2017)
[39] _____________, "KDD CUP (KDD
Nuggets)". [Online] Available:

Makalah (Jurnal Ieee)

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Makalah (Jurnal Ieee)

Diunggah oleh

Hak Cipta:

Format Tersedia

PENERAPAN SELEKSI FITUR FAST CORRELATION BASED FILTER

PADA METODE MODIFIED K-NEAREST NEIGHBOR UNTUK

Niko Arianto1, Iwan Iskandar2

1. PENDAHULUAN serangan terhadap suatu host. Namun menahan

Intrusion Detection and Report merupakan suatu

penambang data, menyelenggarakan kompetisi di

bantuan menyelesaikan kasus yang diberikan dalam

Detection. Dataset KDD CUP 99 dikeluarkan oleh

Agency) dan dikelola oleh MIT Loncoln Lbs.

dan flag. Sehingga total fitur setelah seleksi data

proses cleaning data. Proses pembersihan terhadap

dilakukan proses cleaning dengan cara menghapus

dilakukan melalui sistem. Caranya adalah dengan dengan threshold 0

menyeleksi semua fitur yang ada dalam satu data

ada. Apabila terdapat data yang persis sama, maka

5 fitur mendapatkan 52 jumlah data yang seimbang

dibangun dan menghindari selisih hasil rentang

(persamaan 2.1). Normalisasi dilakukan pada data Validitas

yang memiliki sebaran yang jauh. Tujuannya adalah Hitung Weight

agar sebaran data berada pada rentang nilai [0-1].

adalah data dengan fitur duration, protocol_type,

Anda mungkin juga menyukai