Weka2012-1-00645-Sk 2 PDF
Weka2012-1-00645-Sk 2 PDF
LANDASAN TEORI
Pada bab ini dijelaskan teori-teori dasar mengenai teknik data mining, teknik
pengumpulan data (data collection) jaringan (dalam hal ini mengenai Packet Capture
pada Wireshark), software WEKA, dan perangkat jaringan yang dikumpulkan informasi
Data mining merupakan teknologi baru yang sangat berguna untuk membantu
bisnis yang sangat berguna untuk mendukung pengambilan keputusan penting. Analisis
yang diotomatisasi yang dilakukan oleh data mining melebihi yang dilakukan oleh
sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data mining
banyak waktu untuk menjawabnya. Data mining mengeksplorasi basis data untuk
oleh para pelaku bisnis karena terletak di luar ekspektasi para pelaku bisnis.
Proses dalam menemukan pola atau informasi menarik dari sejumlah data yang
besar, dimana data dapat disimpan dalam database, data warehouse atau dapat disimpan
seperti teknik statistik dan matematika. (Han dan Kamber, 2006:39; Larose, 2005:2).
1
2
Banyak orang menggunakan istilah data mining dan knowledge discovery in
tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan
dalam proses KDD adalah data mining (Han dan Kamber, 2006:5).
Data mining didefinisikan sebagai satu set teknik yang digunakan secara
relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini
adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam
teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat
juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis
text, dan multimedia (citra). Data mining dapat juga didefinisikan sebagai “pemodelan
dan penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume
yang besar”
relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen
pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha
pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari
lahan sumbernya. Dengan tersedianya basis data dalam kualitas dan ukuran yang
ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari
penemuan pola ini adalah analisis pada data penjulan ritel untuk
data anomali yang dapat diartikan sebagai data salah ketik (karena
kesalahan operator).
Teknik yang digunakan untuk menggali hal-hal penting yang belum diketahui
sebelumnya atau memprediksi sesuatu yang akan terjadi disebut pemodelan. Pemodelan
di sini dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang
telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan
dicari jawabannya.
4
2.1.5 Teknik dan Metode data mining
Teknik data mining terbagi atas : Association Rule Mining, Classification, Clustering,
dan regretion. Metode data mining terbagi atas tiga : Predictive Modelling, Discovery,
aturan assosiatif antara suatu kombinasi item. Contoh dari aturan assosiatif dari analisa
pembelian di suatu pasar swalayan adalah bisa diketahui seberapa besar kemungkinan
seorang customer membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut,
kampanye pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu.
Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support
yaitu persentase kombinasi item tersebut dalam database dan confidence yaitu kuatnya
2. Classification
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui (Han dan Kamber,
2006:24). Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree,
formula matematis atau neural network. Selain itu, Klasifikasi adalah fungsi
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data
berdasarkan kelas data tertentu (Clustering atau analisis cluster adalah proses
pengelompokan satu set benda-benda fisik atau abstrak ke dalam kelas objek yang sama
(Han dan Kamber, 2006:383)). Analisis Cluster adalah proses pengelompokan objek
berdasarkan pada perilaku atau karakteristik yang serupa (Sambamoorthi, 2010:2). Dan
cluster adalah kumpulan objek data yang mirip satu sama lain dalam kelompok yang
sama dan berbeda dengan objek data di kelompok lain (Han dan Kamber, 2006:383).
Tujuannya adalah untuk menghasilkan pengelompokan objek yang mirip satu sama lain
dalam kelompok-kelompok. Semakin besar kemiripan objek dalam suatu cluster dan
semakin besar perbedaan tiap cluster maka kualitas analisis cluster semakin baik
(Karhendana, 2008).
unsupervised learning, yang berarti analisis cluster menemukan pola dari data dengan
tidak memanfaatkan label yang sudah ada sebelumnya. Berbeda dengan klasifikasi yang
dilakukan dengan memanfaatkan label yang sudah ada sebelumnya, yang dihasilkan dari
proses data training (Karhendana, 2008; Rahmawati, 2007). Clustering dapat dilakukan
pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
6
4. Regresi
sebuah variabel prediksi bernilai nyata. Aplikasi dari regresisi ini misalnya adalah pada
prediksi volume biomasa di hutan dengan didasari pada pengukuran gelombang mikro
sebuah produk baru sebagai fungsi dari pembiayaan advertensi, dan lain-lain.
Banyak teknik dan metode yang ada untuk melakukan berbagai jenis tugas data
mining. Metode ini dikelompokkan dalam 3 paradigma utama data mining: Predictive
1. Predictive Modeling
memprediksi dan mengklasifikasi perilaku masa depan dari sebuah entitas. Ada dua tipe
mengklasifikasi) data contoh ke dalam satu atau beberapa kelas yang telah didefinisikan.
pengajuan pinjaman yang akan disetujui. Teknik klasifikasi meliputi Naive Bayesian,
1.2 Regresi melibatkan model yang memetakan data contoh ke prediksi real-
valued. Teknik regresi meliputi neural networks dan decision (atau regression) trees.
7
2. Discovery
discovery menggunakan teknik yang menganalisis data set yang besar untuk menemukan
association rules (atau pola), atau menemukan kluster dari sampel yang dapat
namun hasilnya juga dapat diaplikasikan ke metode data mining yang lain
3. Deviation Detection
untuk mengidentifikasi kebiasaan suatu entitas dan menetapkan sejumlah norm melalui
pattern discovery. Sampel yang berdeviasi dari norm lalu diidentifikasi sebagai tidak
Tujuan dari data mining itu sendiri adalah mencari data pada sebuah database /
data warehouse, yang dapat meramalkan prospek masa depan. Karena data mining
adalah suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yaitu :
1. Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
3. Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Tahap-tahap diatas, bersifat interaktif di mana pemakai terlibat langsung atau dengan
perantaraan knowledgebase.
8
Knowledge Discovery and data mining (KDD) adalah proses yang dibantu oleh
komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan
memperkirakan perilaku dan trend masa depan, memungkinkan bisnis untuk membuat
keputusan yang proaktif dan berdasarkan pengetahuan. Data mining tools mampu
menjawab permasalahan bisnis yang secara tradisional terlalu lama untuk diselesaikan.
Data mining tools menjelajah database untuk mencari pola tersembunyi, menemukan
infomasi yang prediktif yang mungkin dilewatkan para pakar karena berada di luar
berbeda
3. Data selection, mengambil data yang relevan dengan tugas analisis dari
database
bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.
9
5. Data mining, proses esensial untuk mengekstrak pola dari data dengan metode
cerdas.
olah teknologi data mining adalah teknologi utuh dan berdiri sendiri. Dibandingkan
dengan Knowledge Data Discovery (KDD), istilah data mining lebih dikenal para pelaku
bisnis. Pada aplikasinya, sebenarnya data mining merupakan bagian dari proses KDD
terutama berkaitan dengan ekstraksi dan penghitungan pola-pola dari data yang diteliti.
Secara garis besar, langkah-langkah utama dalam proses KDD (Knowledge Data
Discovery) :
dimulai.
3. Pre-processing Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning
pada data yang menjadi fokus dari KDD (Knowledge Data Discovery). Proses
cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang
Coding adalah proses transformasi pada data yang telah terpilih, sehingga data
7. Data mining
sebelumnya.
11
2.1.8 Tahapan dalam preprocessing
kemampuan dari sistem untuk dapat mengumpulkan data dengan cepat. Jika data
tersebut disimpan dalam kantor regional, sering kali data tersebut diupload ke
sebuah server yang lebih terpusat. Data dapat diringkas terlebih dahulu sebelum
• Seleksi & Pembersihan. Proses pembersihan data, dimana informasi yang tidak
yang konsisten karena berasal dari berbagai sumber. Data-data yang telah
atribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data
yang tidak konsisten dan banyak kekeliruan dapat membuat hasil data mining
mempunyai banyak record untuk seorang customer. Setiap record atau file
customer mempunyai nomor customer yang sama, tetapi informasi dalam tiap
filenya berbeda.
Pada langkah terakhir, data telah diekstrak dari banyak basis data ke dalam basis
data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan
12
peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan
WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat lunak
Universitas Waikato di Selandia Baru. WEKA adalah perangkat lunak gratis yang
grafis yang disebut Explorer. Hal ini memberikan akses ke semua fasilitas dengan
menggunakan pilihan menu dan pengisian formulir. Sebagai contoh, dataset dapat
dibaca dengan cepat dari file ARFF (atau spreadsheet) menggunakan Interface Explorer.
semuanya dalam memori utama. Ketika dataset dibuka, maka semua data set tersebut
masuk ke dalam memori utama. Ini berarti bahwa Explorer hanya dapat diterapkan
untuk masalah kecil sampai menengah. Namun, WEKA berisi beberapa algoritma
tambahan yang dapat digunakan untuk memproses dataset yang sangat besar.
dan bergabung bersama-sama ke dalam konfigurasi yang diinginkan oleh user. Hal ini
algorithms), metode evaluasi, dan modul visualisasi. Jika filter dan algoritma
pembelajaran (learning algorithms) mampu, maka data akan dimuat dan diproses secara
bertahap.
menjawab pertanyaan praktis dasar ketika menerapkan teknik klasifikasi dan regresi
yaitu berupa metode dan nilai parameter karya terbaik yang sesuai untuk masalah yang
diberikan. Biasanya tidak ada cara untuk menjawab pertanyaan ini secara Apriori. Hal
ini dapat dilakukan secara interaktif dengan menggunakan interface Explorer. Namun,
parameter yang berbeda pada korpus dataset, untuk mengumpulkan statistik kinerja, dan
Dibalik interface ini terletak interaktif fungsionalitas dasar dari WEKA. Ini dapat
diakses dalam bentuk mentah dengan memasukkan perintah tekstual, yang memberikan
akses ke semua fitur dari sistem. Ketika WEKA dijalankan, harus dipilih di antara empat
J
J48
J48 merupakan
m i
implementas
si C4.5 di WEKA.
C
C4.5
C4.5
5 merupakann pengembanngan dari ID33. Beberapa perbedaannnya antara laiin :
1. Mam
mpu menangaani atribut dengan
d tipe diskrit
d atau kontinu.
k
2. Mam
mpu menangaani atribut yang
y kosong (missing vallue)
T
Tambahan, C4.5
C ini suddah ada penerrusnya, yaknni C5.
I
ID3
t
tree atau po
ohon keputuusan. Algorritma ini dittemukan oleeh J. Ross Quinlan, deengan
m
memanfaatk
kan teori info
formasi atau informationn theory miliik Shanon. Kepanjangan
K n ID3
a
adalah Iterative Dichotoomiser 3.
Ideny
ya, adalah membuat
m poohon dengann percabanggan awal adaalah atribut yang
p
paling domiinan. Maksuudnya dominnan adalah yang
y paling bisa
b membaagi antara iyya dan
t
tidak. Perhattikan gambaar berikut:
pembagiannya cukup ideal. Maksud ideal adalah setiap cabang hanya terdiri dari warna
hijau saja atau warna merah saja. Namun untuk cabang “full” tidak satu warna (hijau
saja atau merah saja) dikarenakan hanya ada 2 atribut yang tersedia. Pemilihan atribut
Untuk menentukan atribut mana yang lebih dahulu dipergunakan untuk membuat
cabang pohon, digunakanlah teori informasi. Pada WEKA, ada pilihan untuk
menggunakan ID3 ini, dengan nama yang sama. Namun, jelas semua atribut harus
Setelah menerapkan classifier yang dipilih maka data akan diuji sesuai dengan
3. Cross-validation
Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan. Nilai
adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes
16
dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10
kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan
menjadi data training sebanyak k-1 kali. Kemudian, error dari k tes tersebut
4. Percentage split
2.3 Wireshark
Wireshark merupakan salah satu network analysis tools, atau disebut juga dengan
protocol analysis tools atau packet sniffer yang dapat didownload dengan mudah di
Ethereal.
Packet sniffer diartikan sebagai sebuah program atau tools yang memiliki
kemampuan untuk ‘menghadang’ dan melakukan pencatatan terhadap traffic data dalam
jaringan, baik Ethernet maupun non-Ethernet. Hanya saja, sehari-hari lebih sering
berkutat dengan jaringan Ethernet. Selama terjadi aliran data packet sniffer dapat
menangkap Protocol Data Unit (PDU), melakukan dekoding serta melakukan analisis
terhadap isi paket berdasarkan spesifikasi RFC atau spesifikasi-spesifikasi yang lain.
Wireshark sebagai salah satu packet sniffer diprogram sedemikian rupa untuk mengenali
d
dalam jaring
gan kerena paket
p tidak pernah
p berboohong. Yangg dimaksud di sini, padaa saat
c
customer meengatakan bahwa
b jaringgannya pelann, atau jaringgannya tidakk responsive, atau
j
jaringannya kadang ceppat kadang tiidak bisa connect, dan sebagainya,
s maka cara paling
p
m
mudah adallah ‘menghadang dan melakukan pencatatan’ jaringan dengan
d langgsung
m
melihat isi-isi paket yang lewat di jaaringan terseebut.
l
lainnya (karrena teknologgi hub memaang masih bersifat shareed). Shared yang
y dimakssud di
d B dapatt didengar olleh komputeer C yang diihubungkan ke hub yangg sama denggan A
dan
d B.
dan
Deng
gan adanya switch, hall tersebut dii atas tidak mungkin terjadi
t (walaaupun
m
masih mung
gkin dilakukan dengan teeknik-teknikk seperti AR
RP poisoningg dan sebagaainya)
k
karena tekn
nologi switchh membuat jalur virtuaal untuk komunikasi anntar pemakaainya.
a
adalah melaakukan prosees port mirrooring dari sw
witch tersebuut ke salah satu
s port di mana
d
dipasang sofftware snifffer tersebut. Hanya prodduk switch yang
y managge-able yangg bisa
m
melakukan hal
h ini. Jika switch
s memakai unmanaaged, maka prosesnya
p akkan lebih rum
mit.
18
Gambar 2.4
2 Contoh skema jaringan yang bannyak digunakkan
Gam
mbar 2.4 di atas dapatt dijadikan contoh skkema jaringaan yang baanyak
d
digunakan di
d mana biassanya netwoork administtrator menginginkan meemonitor kooneksi
j
jaringan ke Internet.
I Maaka yang dilakukan adallah melakukaan ‘port mirrroring’ padaa link
y
yang merah,, dengan targget mirror port
p adalah port
p tempat di
d mana Wirreshark dipaasang.
T
Tetapi, tentu saja unntuk melakuukan hal tersebut,
t ministrator harus
neetwork adm
m
mengkonfigurasi switchh. Bila tidaak bisa merrekonfigurassi switch, atau
a switch tidak
m
mendukung port mirrorring maka jaalan keluarnnya adalah memasang
m hub. Tidak mudah
m
m
mendapatka
an hub di saat-saat sekkarang, kareena di pasarran kebanyaakan sudah tidak
d
diproduksi lagi. Kelem
mahan lain dari
d pengguunaan hub adalah
a jenis koneksinyaa half
d
duplex, bukaan full dupleex seperti padda switch.
Solu
usi lainnya addalah mengggunakan netw
work tap. Tiidak banyak perusahaan yang
sebagainya. Pada saat proses instaalasi, juga akan diinstaall aplikasi WinPCap, yang
m
merupakan er khusus yaang akan dippakai pada Wireshark.
driver-drive
d W A
Apabila WinnPCap
t
tidak all, maka Wireshark
diinsta W tidaak akan bisaa berfungsi untuk
u capturre packet melalui
m
j
jaringan.
19
2.3.1 Penggunaan Wireshark
protocol
• Import dan Export paket data dari dan ke banyak program capture lainnya.
Hal ini menyebabkan tidak akan ada peringatan ketika hal-hal aneh di jaringan
Wireshark, maka sesuatu dari jaringan hanya akan “diukur” oleh Wireshark. Paket pada
jaringan tidak dikirim oleh Wireshark. Hal-hal aktif lainnya tidak akan dilakukan oleh
Wireshark (kecuali untuk resolusi nama, tetapi bahkan yang dapat dinonaktifkan).
Wireshark
Display Filter → Sebuah kolom yang dapat diisi dengan sintaks-sintaks untuk
Detail Paket → Sebuah paket tentunya membawa informasi tertentu yang bisa
Detail Heksa → Detail paket yang terpilih akan ditampilkan dalam bentuk heksa,
berikut ini:
tertangkap.
paket data.
data tersebut.
File Menu ini berisi item untuk membuka dan menggabungkan file hasil
satu atau lebih banyak paket, menangani profil konfigurasi, dan mengatur
preferensi (cut, copy, dan paste saat ini tidak dapat diimplementasikan).
View Menu ini mengontrol tampilan data yang diambil, termasuk pewarnaan
Capture Menu ini memungkinkan untuk memulai dan berhenti menangkap dan
Analyze Menu ini berisi item untuk memanipulasi tampilan filter, mengaktifkan
Statistics Menu ini berisi item untuk menampilkan berbagai jendela statistik,
Telephony Menu ini berisi item untuk menampilkan berbagai jendela telepon statistik
Tools Menu ini berisi berbagai alat yang tersedia di Wireshark, seperti
Internals Menu ini berisi item yang menampilkan informasi tentang internal
Wireshark
Help Menu ini berisi item untuk membantu pengguna, misalnya akses ke
23
beberapa halaman bantuan dasar, manual dari berbagai command line tools,
Open... Ctrl+O Item menu ini memuat kotak dialog open file yang
dimiliki.
Open Recent Item menu ini menunjukkan submenu yang berisi file
Close Ctrl+W Item menu ini menutup jendela hasil capture saat ini.
menonaktifkannya).
Save Ctrl+S Item menu ini menyimpan hasil capture saat ini. Jika
Save As... Shift+Ctrl+S Item menu ini memungkinkan untuk menyimpan file
File As
File Set > Item menu ini memungkinkan untuk menampilkan daftar
List Files file dalam file set. Akan muncul kotak dialog List File
File Set > Jika file yang sedang dimuat merupakan bagian dari satu
25
Next File set file, dan melompat ke file selanjutnya di dalam set.
Jika bukan bagian dari satu set file atau hanya file yang
File Set > Jika file yang sedang dimuat merupakan bagian dari satu
Previous File set file, dan melompat ke file sebelumnya dalam set. Jika
bukan bagian dari satu set file atau hanya file pertama
Wireshark Export
Export > Ctrl+H Item menu ini memungkinkan untuk mengekspor byte
Selected dipilih saat ini dalam panel paket byte ke file biner.
Bytes...
Objects > atau beberapa objek HTTP hasil capture ke file lokal.
Quit Ctrl+Q Item menu ini memungkinkan untuk berhenti atau keluar
preferensi).
Tabel 2.2 Penjelasan menu-menu yang ada pada menu file Wireshark
an.
an.
an.
13. Display Filters : Membuat dan atau mengedit display filter peng-
capture-an.
14. Coloring Rules : Memberi dan atau mengedit warna pada rule-rule
paket.
Wireshark.
Untuk mulai melakukan penangkapan paket, tinggal click pada button seperti
Setellah itu akan muncul diallog box sepeerti di bawahh ini. Tentukkan interfacee yang
a
akan dipakaai untuk mennangkap pakket bila terddapat lebih dari
d satu buaah interface yang
t
terpasang dii komputer atau
a laptop yang
y digunakkan untuk cap
apturing.
Gambar 2.10
2 Interfacce yang terdaapat di peranngkat jaringaan yang henddak melakukkan
Untu
uk memulai penangkapaan paket, tinnggal klik paada tombol Start di inteerface
y
yang dipilih
h. Setelah ituu akan ditam
mpilkan dafttar berupa laayar scrollinng yang beriisikan
p
paket-paket yang ditanggkap. Untukk selesai meenangkap paaket, maka tinggal
t klik pada
t
tombol yang
g ditunjukkann oleh panahh berikut.
G
Gambar 2.11 Cara menghhentikan cappturing
29
2.4 Switch
Switch bisa digunakan juga untuk menghubungkan switch satu dengan switch
lainnya, untuk memperbanyak jumlah port, atau memperluas jangkauan dari jaringan
(misalkan ada satu gedung dengan gedung yang lainnya). Pada vendor network
equipment, berbagai switch dipecah ke level berbeda seperti core, aggregation dan
access. Pemisahan berbagai level ini dikarenakan setiap level dimaksudkan untuk fungsi
yang berbeda. Switch yang beredar di pasaran terdiri dari 2 (dua) jenis yaitu:
Adalah switch yang tidak dapat di manage, switch tersebut sudah siap pakai,
hanya dipasang dan switch sudah bisa digunakan tanpa perlu diseting.
Adalah switch yang bisa diatur untuk kebutuhan jaringan tertentu, ada beberapa
manageable switch.
30
Perbedaan tersebut bisa dilihat dari kelebihan dan keunggulan yang dimiliki oleh switch
Network).
4.Bisa melakukan pengaturan trafik maintenance network karena dapat diakses tanpa