Pendeteksian Trafik Anomali pada Jaringan didasarkan pada Analisa Payload Data
Berbasis Metode Support Vector Machines
Isbat Uzzin Nadhori, Moch. Hariadi
Institut Teknologi Sepuluh Nopember Surabaya, Fakultas Teknologi Industi,
Teknik Elektro Bidang Keahlian Jaringan Cerdas Multimedia
{isbat@eepis-its.edu, mochar@ee.its.ac.id}
Abstrak
Intrusi didefinisikan sebagai usaha yang bisa membahayakan integritas, kerahasiaan dan
ketersediaan sumber daya yang ada [1]. Dalam konteks jaringan komputer, intrusi menunjukkan usaha
yang bisa membahayakan integritas, kerahasiaan dan ketersediaan sumber daya yang ada pada
jaringan. Paper ini terkonsentrasi pada usaha untuk melakukan deteksi dan klasifikasi terhadap intrusi
dengan mengamati traffic jaringan.
Paper ini berusaha melakukan pendekatan klasifikasi intrusi menggunakan metode Support
Vector Machines. Ide dasarnya adalah mencatat aktifitas traffic jaringan menggunakan tool tcpdump,
selanjutnya dilakukan ekstraksi fitur dari paket tcpdump khususnya pada payload data berdasarkan
paper [2]. Diambil fitur utama yang paling berpengaruh yaitu : Destination Port, Source Port, Duration,
Flag Packet Length dan Keyword Packet. Berdasarkan fitur tersebut digunakan untuk melakukan
klasifikasi jenis intrusi menggunakan metode Support Vector Machines. Sebagai training, diambil data
yang bebas dari intrusi, dan sebagai testing data diambil data non intrusi dan intrusi untuk melihat
efektifitas metode yang ditawarkan.
Eksperimen ini didasarkan pada data intrusi DARPA’99. Sebagai training data dipakai data
minggu ketiga yang bebas attack, dan sebagai testing data dipakai data minggu kelima. Berdasarkan
percobaan metode ini bisa mendeteksi attack R2L (Remote To Local Attack) yaitu attack yang
berusaha melakukan akses yang bukan haknya dari jarak jauh) dan U2R (User To Root Attack) yaitu
attack yang berusahamelakukan akses yang bukan haknya ke superuser dari jaringan dalam.
B1-98
SEMINAR NASIONAL ELECTRICAL, INFORMATICS, AND IT’S EDUCATIONS 2009 B1-99
1. Pengambilan traffic data jaringan, bisa dengan Named, ncftp, netbus, netcat, Phf, ppmacro,
menggunakan tools yang sudah ada misalnya Sendmail, sshtrojan, Xlock, Xsnoop
tcpdump dan selanjutnya melakukan • U2R (User To Root Attack- melakukan akses
preprocessing terhadap data dari traffic yang bukan haknya ke superuser dari jaringan
jaringan untuk mendapatkan fitur dalam), termasuk dalam kategori ini : anypw,
2. Nilai fitur dianalisa dengan menggunakan casesen, Eject, Ffbconfig, Fdformat,
metode tertentu untuk mendapatkan Loadmodule, ntfsdos, Perl, Ps, sechole,
kesimpulan apakah terjadi serangan atau Xterm, yaga
tidak. • PROBING, misal : insidesniffer, Ipsweep,
Mattew V. Mahoney dan Philip K. Chan [3] ls_domain, Mscan, NTinfoscan, Nmap, queso,
melakukan penelitian tentang network anomali resetscan, Saint, Satan
Intrusion Detection System yang didasarkan pada
data DARPA 1999 [7]. Mereka berusaha mendeteksi 3 Support Vector Machine
traffic anomali berdasarkan payload data. Hal ini
3.1 Konsep SVM
dilakukan dengan cara melakukan ekstraksi payload
Support Vector Machine (SVM) adalah metode
paket dari file tcpdump dan melakukan korelasi
learning machine yang bekerja atas prinsip Structural
payload di dalamnya untuk mendeteksi intrusi. Like
Risk Minimization (SRM) yaitu mencari nilai resiko
Zhang dan Gregory B. White [1][2], melakukan deteksi
terkecil dalam menentukan vektor tertentu menjadi
intrusi dengan melakukan korelasi port, keyword
bagian dari sebuah kelas dengan tujuan menemukan
(yang diambil dari kata pertama payload) dan panjang
hyperplane terbaik yang memisahkan dua buah class
packet (packet length). Dibahas tentang
pada input space.
preprocessing yang perlu dilalui untuk mendapatkan
Pertama kali diperkenalkan Boser, Guyon dan
model intrusi dan memilih fitur yang paling
Vapnik pada tahun 1992 di Annual Workshop on
berpengaruh dengan PCA. Wenke Lee dkk [6]
Computational Learning Theory. Sebagai salah satu
melakukan pengambilan traffic jaringan menggunakan
metode pattern recognition, usia SVM terbilang masih
tools tcpdump, selanjutnya dilakukan pre-processing
relatif muda. Walaupun demikian, evaluasi
untuk mendapatkan informasi dari connection-level.
kemampuannya dalam berbagai aplikasinya
Lee membatasi koneksi menjadi TCP dan UDP.
menempatkannya sebagai state of the art dalam
Dibangun script untuk menghasilkan informasi
pattern recognition, dan dewasa ini merupakan salah
connection-level. Pada koneksi TCP mulai dari 3-
satu tema yang berkembang dengan pesat.
wayhandshake sampai finalisasi dianggap sabagi satu
Data yang tersedia dinotasikan sebagai
connection-level. Sedangkan pada UDP setiap paket r
dihasilkan satu connection-level. Pada setiap xi ∈ ℜ d , sedangkan label masing-masing
yi = {+ 1,−1} untuk i=1,2,3 …. l. Yang
connection-level akan menghasilkan fitur yang siap
dimodelkan dengan data mining. dinotasikan
Mukkamala [4] melakukan penelitian mana l adalah banyaknya data. Diasumsikan kedua
Pendeteksi Intrusi pada Jaringan dengan class –1 dan +1 dapat terpisah secara sempurna oleh
menggunakan pendekatan metoda SVM dan Neural hyperplane berdimensi d , yang didefinisikan
Network. Berdasarkan kesimpulan Mukkamala SVM r r
mempunyai keunggulan dalam hal akurasi hasilnya. w⋅ x + b = 0
Data yang digunakan pada penelitian Mukkamala r
adalah dataset matang hasil preprocessing yang Pattern w yang termasuk class –1 (sampel
disediakan oleh DARPA diambil dari simulasi negatif) dapat dirumuskan sebagai pattern yang
serangan di MIT Lab. memenuhi pertidaksamaan
Penelitian - penelitian di atas berdasarkan r r
pada dataset DARPA yang menyediakan 4 kategori w ⋅ x + b ≤ −1
attack. Pada DARPA 1999 mensimulasikan attack sbb
: r
• DoS (Denial-of-Service), termasuk di Sedangkan pattern w yang termasuk class +1
dalamnya : Apache2, arppoison, back, (sampel positif)
Crashiis, dosnuke, Land, Mailbomb, SYN r r
Flood, (Neptune), Ping of Death (POD), w ⋅ x + b ≥ +1
Process Table, selfping, Smuff
• R2L ( Remote To Local Attack - melakukan
akses yang tidak bukan haknya dari jarak
jauh) , termasuk dalam kategori ini :
Dictionary, Ftpwrite, Guest, Httptunnel, Imap,
SEMINAR NASIONAL ELECTRICAL, INFORMATICS, AND IT’S EDUCATIONS 2009 B1-100
dengan αi yang positif inilah yang disebut sebagai
support vector.
Pada dasarnya SVM hanya memisahkan dua
kelas saja (biner), kelas +1 dan kelas -1 dengan cara
mencari garis pemisah dengan dua buah kelompok
yang berbeda. Pencarian tersebut menghasilkan
sebuah pemisah yang nantinya sebagai dasar dari
pengelompokan data. Penelitian ini menggunaan
metode support vector mechine One class yaitu hanya
Gambar 3.1. SVM berusaha menemukan mentrainingkan data yang satu kelas, dan digunakan
hyperplane terbaik yang memisahkan kedua class untuk testing kelas +1 dan -1.
–1 dan +1
SVM berusaha menemukan hyperplane terbaik 4 Desain Sistem
yang memisahkan kedua class –1 dan +1 dengan 4.1 Preprocessing Data
cara menemukan margin terbesar. Margin terbesar Metode anomali untuk pendeteksian intrusi yang
dapat ditemukan dengan memaksimalkan nilai jarak kami kerjakan seperti pada gambar 4.1. Pertama-tama
1 data traffic jaringan ditangkap dengan perangkat lunak
antara hyperplane dan titik terdekatnya, yaitu r . tcpdump, setelah melalui tahap preprocessing data
w dibagi menjadi dua bagian yaitu data training dan data
Hal ini dapat dirumuskan sebagai Quadratic testing. Dengan menggunakan SVM data training
Programming (QP) problem, yaitu mencari titik diklasifikasikan menjadi non intrusi. Hasil training SVM
minimal persamaan (3.4), dengan memperhatikan digunakan untuk melakukan testing data intrusi dan
constraint persamaan (3.5) non intrusi.
1 r
τ ( w) =
2
min r 2
w
w (3.4)
yi (xi ⋅ w + b ) − 1 ≥ 0, ∀i
r r
(3.5)