Anda di halaman 1dari 17

Datasets- Kumpulan Data

Andreas A. Trinoto., MMSI


Dataset penting ?
Pengulangan percobaan, peneliti mengulangi
percobaan dengan dataset dan mendapatkan hasil
yang sama, jika menggunakan pendekatan yang sama.
ini dapat mengatasi sifat serangan dan skenario
jaringan yang terus berubah

Validasi pendekatan baru, metode dan algoritma baru


terus dikembangkan untuk mendeteksi anomali
jaringan.
Dataset penting ?
Perbandingan pendekatan yang berbeda, contoh dataset
DARPA 1998 umumnya digunakan untuk evaluasi kinerja
sistem deteksi anomali

Penyesuaian parameter, deteksi anomali jaringan


umumnya mengasumsikan model normalitas untuk
mengidentifikasi lalu lintas jahat.

Dimensi atau jumlah fitur, satu set fitur atau atribut yang
optimal harus dipertimbangkan untuk mewakili normal
serta semua kemungkinan contoh serangan.
Syarat pembuatan dataset
Dunia nyata, kumpulan data harus dibuat dengan
memantau situasi sehari-hari dengan cara yang realistis,
seperti lalu lintas jaringan harian dari suatu organisasi

Kelengkapan dalam pelabelan, Pelabelan lalu lintas


sebagai jinak atau jahat harus didukung oleh bukti yang
tepat untuk setiap contoh

Ketepatan dalam pelabelan: Diberikan kumpulan data,


pemberian label dari setiap contoh lalu lintas harus
benar. Ini berarti bahwa pengetahuan kita tentang
peristiwa keamanan yang diwakili oleh data harus pasti
Syarat pembuatan dataset
Ukuran jejak yang memadai: Kumpulan data yang dihasilkan harus tidak
bias dalam hal ukuran di kedua contoh lalu lintas jinak dan berbahaya

Ekstraksi fitur konkret, fitur ini berperan penting selama memvalidasi


mekanisme pendeteksian

Skenario serangan yang beragam: Dengan meningkatnya frekuensi,


ukuran, variasi, dan kompleksitas serangan, ancaman intrusi menjadi
lebih kompleks termasuk pemilihan layanan dan aplikasi yang
ditargetkan

Rasio antara lalu lintas serangan dan normal, Kebanyakan dataset yang
ada telah dibuat berdasarkan asumsi berikut: Lalu lintas anomali secara
statistik berbeda dari lalu lintas normal dan Mayoritas instance lalu lintas
jaringan normal
Datasets Sintesis
Berguna ketika merancang sistem prototipe apa pun
untuk analisis teoretis sehingga desainnya dapat
disempurnakan,

Untuk menguji dan membuat berbagai jenis skenario


pengujian

Menyediakan validasi awal dari metode atau sistem


tertentu; jika hasilnya terbukti memuaskan, para
pengembang kemudian melanjutkan untuk
mengevaluasi metode atau sistem dalam domain
tertentu
Datasets Benchmark / lingkungan
simulasi dalam jaringan besar
1. Dataset KDDcup99, dibangun di atas data yang diambil
dalam program evaluasi IDS DARPA98. Set data
pelatihan KDD terdiri dari sekitar 4,900,000 vektor
sambungan tunggal, yang masing-masing berisi 41 fitur
dan diberi label sebagai normal atau serangan dari jenis
serangan tertentu. Dataset uji berisi sekitar 300,000
sampel dengan total 24 jenis serangan pelatihan,
dengan tambahan 14 jenis serangan dalam dataset uji
saja.

Serangan yang diwakilkan terutama empat jenis: penolakan


layanan (DoS), remote ke lokal (r2l), pengguna ke root (u2r),
dan pengawasan atau probing.
Datasets Benchmark / lingkungan
simulasi dalam jaringan besar
2. Dataset NSL-KDD, terdiri dari catatan terpilih dari
dataset KDD lengkap, sebelumnya diperkenalkan.
Dataset ini tersedia untuk publik bagi para peneliti1
dan memiliki kelebihan di atas kumpulan data KDD
asli.

Kumpulan NSL-KDD terdiri dari dua bagian:

(i) KDDTrainC dan (ii) KDDTestC


Datasets Benchmark / lingkungan
simulasi dalam jaringan besar
3. Dataset DARPA 2000, Dua skenario serangan disimulasikan dalam
kontes evaluasi DARPA 2000, yaitu, Lincoln Laboratory scenario
DDoS (LLDOS) 1: 0 dan LLDOS 2: 0. Untuk mencapai variasi, dua
skenario serangan ini dilakukan melalui beberapa skenario jaringan
dan audit.

Sesi ini dikelompokkan menjadi empat fase serangan:

(a) menyelidik,

(b) membobol sistem dengan mengeksploitasi kerentanan,

(c) menginstal perangkat lunak DDoS untuk sistem yang disusupi, dan

(d) meluncurkan serangan DDoS terhadap target lain


Datasets Benchmark / lingkungan
simulasi dalam jaringan besar
4. Dataset DEFCON3, berisi lalu lintas jaringan yang
diambil selama kompetisi peretas yang disebut
Capture The Flag (CTF), di mana tim yang bersaing
dibagi menjadi dua grup: penyerang dan pembela.
Lalu lintas yang dihasilkan selama CTF sangat berbeda
dari lalu lintas jaringan dunia nyata karena hanya berisi
lalu lintas yang mengganggu tanpa lalu lintas latar
belakang yang normal. Karena keterbatasan ini,
dataset DEFCON telah ditemukan berguna hanya
dalam mengevaluasi teknik korelasi tanda
Datasets Benchmark / lingkungan
simulasi dalam jaringan besar
5. Dataset CAIDA (pusat analisis data internet terapan),
mengumpulkan banyak jenis data dan membuatnya
tersedia bagi komunitas riset.

Serangan CAIDA DDoS 2007 berisi 1 jam jejak lalu lintas


anonim dari serangan DDoS pada bulan Agustus 2007, yang
berusaha untuk mengkonsumsi sejumlah besar sumber daya
jaringan saat menghubungkan ke server Internet. Jejak lalu
lintas hanya berisi serangan lalu lintas ke korban dan
tanggapan dari korban dengan bentuk pecahan 5 menit.
Semua jejak lalu lintas dalam format pcap (tcpdump).
Pencipta menghapus lalu lintas non-serangan sebanyak
mungkin ketika membuat dataset CAIDA DDoS 2007.
Datasets Benchmark / lingkungan
simulasi dalam jaringan besar

6. Dataset LBNL (Lawrence Berkeley National


Laboratory), Jejak lalu lintas perusahaan internal LBNL
adalah jejak jaringan tajuk penuh tanpa muatan.
Dataset ini menderita anonimisasi berat sampai-
sampai lalu lintas pemindaian diekstrak dan secara
terpisah dianonimkan untuk menghapus informasi apa
pun yang dapat mengidentifikasi IP individual
Datasets Benchmark / lingkungan
simulasi dalam jaringan besar
7. Dataset Endpoint, dibagi dua :

• Endpoint background traffic: (1) menjalankan aplikasi peer-to-peer-to-peer-


to-peer-to-peer-to-peer dan multimedia. Volume lalu lintas komputer rumah
yang besar juga terlihat dari jumlah sesi rata-rata mereka yang tinggi per
detik. Untuk menghasilkan lalu lintas serangan, pengembang menginfeksi
Virtual Machines (VMs) pada titik akhir dengan malware yang berbeda.
Malware ini memiliki tingkat pemindaian yang beragam dan port atau aplikasi
serangan.

• Endpoint attack traffic: Lalu lintas serangan yang dicatat di titik akhir
sebagian besar terdiri dari scan port keluar. Perhatikan bahwa ini adalah
kebalikan dari dataset LBNL, di mana sebagian besar lalu lintas serangan
masuk. Keragaman arah serangan dan tingkat ini memberikan dasar yang
kuat untuk perbandingan kinerja antara detektor pemindaian.
Datasets Kehidupan Nyata
1. Dataset UNIBS, Jejak paket UNIBS dikumpulkan pada
router tepi jaringan kampus Universitas Brescia di Italia,
pada tiga hari kerja berturut-turut. Dataset mencakup lalu
lintas yang diambil atau dikumpulkan dan disimpan
menggunakan 20 workstation, masing-masing menjalankan
daemon klien GT (Ground Truth). Pencipta dataset
mengumpulkan lalu lintas dengan menjalankan tcpdump
pada router fakultas, yang merupakan kotak Xeon Linux
ganda yang menghubungkan jaringan lokal ke Internet
melalui uplink 100 Mb / s khusus. Mereka menangkap dan
menyimpan jejak pada disk khusus dari workstation yang
terhubung ke router melalui pengontrol ATA khusus.
Datasets Kehidupan Nyata
2. Dataset ISCX-UNB, Jejak paket nyata dianalisis untuk membuat
profil untuk agen yang menghasilkan lalu lintas nyata untuk protokol
HTTP, SMTP, SSH, IMAP, POP3, dan FTP. Berbagai skenario
serangan multistage dieksplorasi untuk menghasilkan lalu lintas
jahat.

3. Dataset Universitas Kyoto (KU), adalah kumpulan data lalu lintas


jaringan yang diperoleh dari honeypots. Dataset mentah yang
diperoleh dari sistem honeypot terdiri dari 24 fitur statistik, di mana
14 fitur signifikan diekstraksi. Pengembang dataset mengekstrak
sepuluh fitur tambahan yang dapat digunakan untuk menyelidiki
peristiwa jaringan di dalam universitas secara lebih efektif. Namun,
mereka menggunakan 14 fitur konvensional hanya selama pelatihan
dan pengujian.
Kesimpulan Dataset
Dataset yang dijelaskan di atas adalah aset berharga untuk
komunitas deteksi intrusi, Namun, dataset benchmark menderita
dari fakta bahwa mereka bukan perwakilan yang baik dari lalu
lintas dunia nyata.

Sebagai contoh, dataset DARPA telah dipertanyakan tentang


realisme lalu lintas latar belakang karena dihasilkan secara sintetis.
Selain kesulitan simulasi lalu lintas jaringan kehidupan nyata, ada
tantangan tambahan dalam evaluasi IDS.

Ini termasuk kesulitan dalam mengumpulkan skrip serangan dan


perangkat lunak korban, persyaratan yang berbeda untuk menguji
IDS berbasis anomali vs berbasis signature dan IDS berbasis host
vs IDS berbasis jaringan

Anda mungkin juga menyukai