SISTEM INFORMASI
3KA03
Disusun Oleh :
NAMA ANGGOTA : NPM :
1. Irvan Welvi Nanda 1. 15114481
2. Panggih Pangestu 2. 18114385
3. Rifa Hanina 3. 19114338
4. Wisnu Dwi Antoro 4. 1C114301
1
FAKULTAS ILMU KOMPUTER
DAN TEKNOLOGI INFORMASI
UNIVERSITAS GUNADARMA
TAHUN AJARAN 2016/2017
2
1. PENDAHULUAN
3
Pohon keputusan merupakan sebuah sistem atau cara yang manusia
kembangkan untuk membantu mencari dan membuat keputusan untuk masalah-
masalah tersebut dan dengan memperhitungkan berbagai macam faktor yang ada
di dalam lingkup masalah tersebut. Secara umum, pohon keputusan adalah suatu
gambaran permodelan dari suatu persoalan yang terdiri dari serangkaian
keputusan yang mengarah ke solusi.
4
2. LANDASAN TEORI
2.1 Weka
2.1.1 Pengertian Weka
Weka (Wakaito Environment for Knowledge Analysis) adaah aplikasi Data
Mining Open Source berbasis Java. Aplikasi ini dikembangakn pertama kali oleh
Universitas Waikato di Selandia Baru. Weka adala software open source yang
diterbitkan dibawah lisensi GNU (General Public License). Weka terdiri dari
koleksi algoritma machine learning yang dapat digunakan untuk melakukan
generalisasi atau formulasi dari sekumpulan data sampling. Algoritma ini bisa
diterapkan secara langsung kedalam data set atau bisa juga dipanggil dari kode
java kita sendiri. Weka memiliki tools untuk data re-processing, classification,
regression, clustering, association rules, dan visualization.
Weka mengorganisasi kelas kelas ke dalam paket paket dan setiap
kelas dipaket dapat mereferensi kelas lain dipaket lain. Paket classifiers berisi
implementasi dari hampir semua algoritma untuk klarifikasi dan prediksi. Kelas
yang paling penting adalah Classifier, yang mendeklarasikan struktur umum dari
skema klasifikasi dan prediksi. Kelas ini memiliki 2 (dua) metoda, yaitu Build
Classifier dan Classify Instance, yang harus diimplementasikan oleh kelas kelas
yang menginduk ke kelas ini. Semua kelas yang mengimplementasikan algoritma
klasifikasi menginduk ke kelas Classifier, termasuk kelas J48. J48 menangani
himpunan data dalam format ARFF, tidak mengandung kode untuk
mengkonstruksi pohon keputusan. Kelas ini mereferensi kelas kelas lain,
kebanyakan di pakaet Weka.
Pada Weka ada beberapa metoda pemilihan variable dari suatu dataset,
diantaranya Best First, Exhautuve Search, FCBF Search, Genetic Search, Greedy
Stepwise, Race Seacrh, Random Search, Ranker dan Ranker Search. Metoda atau
teknik yang digunakan Weka adalah Predictive dan Decriptive karena Weka
mendukung teknik teknik data preprocessing, clustering, classification,
regression, visualization, dan feature selection. Semua teknik Weka adalah
didasarkan pada asumsi bahwa data tersedia sebagai flat file tunggal atau
5
hubungan, dimana setiap titik data digambarkan oleh sejumlah tetap atribut
(atribut numeric atau nominal). Algoritma yang digunakan adalah :
1. J48, atau kloning versi open source dari algoritma C4.5 yang dapat
digunakan untuk pembentukkan keputusan (decision tree).
2. Liniar Regression, algoritma untuk menghasilkan formulasi numerik
dengan metode statistik regresi linier.
3. Nave Bayes, salah satu classifier numerik
Weka menerima input data dalam format ARFF (Atribute Relation File
Format). Format ARFF adalah tipe file teks yang berisi berbagai instance. Proses
yang dilakukan Weka adalah Decision Tree menggunakan Algoritma J48. Weka
menghasilkan knowledge berupa pohon keputusan yang dapat membantu user
dalam mengambil keputusan. Weka mampu menyelesaikan masalah-masalah Dara
Mining di dunia nyata, khususnya klasifikasi yang mendasari pendekatan machine
learning. Perangkat lunak ini ditulis dalam hirarki class java dengan metode
berorientasi objek dan dapat berjalan hampir semua platform. Weka mudah
digunakan dan diterapkan pada beberapa tingkatan yang berbeda. Tersedia
implementasi algoritma pembelajaran state of the art yang dapat diterapkan pada
dataset dari command line. Pengguna dapat melakukan preprocess pada data,
memasukkannya dalam sebuah skema pembelajaran, dan menganalisa classifier
yang dihasilkan dan performanya. Semua itu tanpa menuliskan kode program
sama sekali. Tools yang dapat digunakan untuk preprocessing dataset membuat
user dapat berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan
detail seperti pembacaan data dari file, implementasi algoritma filtering, dan
penyediaan kode untuk evaluasi hasil.
6
Gambar 2.1 Tampilan Awal Weka
Pada tampilan awal ketika aplikasi Weka dibuka terlihat seperti pada
Gambar 2.1 . Weka memiliki empat menu utama dan empat tombol. Empat menu
utama tersebut adalah
1) Program
Pada menu program terdapat tiga sub menu, yaitu :
a. LogWindows, sub menu ini berfungsi untuk menampilkan jendela
Log yang merekap semua yang tercetak untuk stdout dan stderr.
b. Memory usage, menampilkan penggunaan memori pada saat
aplikasi Weka digunakan.
c. Exit, untuk keluar dari aplikasi Weka.
2) Visualization
Menu ini merupakan sarana untuk memvisualisasikan data dengan aplikasi
Weka. Pada menu ini terdpata lima sub menu, yaitu :
a. Plot, untuk menampilkan plot 2D dari sebuah dataset.
b. ROC, untuk menampilkan kurva ROC yang telah disimpan
sebelumnya.
c. TreeVisualizer, untuk menampilkan graf berarah.
d. Graph Visualizer, memvisualisasikan format grafik XML BIF atau
DOT.
7
e. Boundary Visualizer, mengizinkan visualisasi dari batas keputusan
classifier dalam plot 2D.
3) Tools
Menu ini menampilkan aplikasi lainnya yang berguan bagi pengguna.
Pada menu ini terdapat tiga sub menu, yaitu :
a. ArffViewer, sebuah aplikasi MDI yang menampilkan file ARFF dalam
format spreadsheet.
b. SqlViwer, mempresentasikan sebuah lembar kerja SQL, untuk
melakukan query database via JDBC.
c. Bayes net editor, sebuah aplikasi untuk mengedit, memvisualisasikan
dan mempelajari bayes net.
2.2 J48
J48 merupakan implementasi algoritma C4.5 (berbasis java) pada Weka.
Algoritma C4.5 berbasis Decision Tree (pohon keputusan). Dalam algoritm C4.5
digunakan information gain untuk memilih atribut yang akan digunakan untuk
pemisahan obyek. Atribut yang mempunyai information gain paling tinggi
disbanding atribut yang lain relative terhadap set y dalam suatu data, dipilih untuk
melakukan pemecahan. Pada algoritma ini, pemilihan atribut mana yang akan
menempati suatu simpul dilakukan dengan melakukan perhitungan entropi
informasi dan mencari nilai yang paling minimum.
Pemilihan atribut pada algoritma ini berdasarkan pada asumsi bahwa
kompleksitas yang dimiliki oleh pohon keputusan sangat berkaitan erat dengan
jumlah informasi yang diberikan oleh nilai nilai atributnya. Dengan kata lain,
teknik heuristic berbasiskan informasi ini memilih atribut yang memberikan
perolehan informasi terbesar (highest information gain) dalam menghasilkan
subpohon (subtree) untuk mengklasifikasikan sampel. Proses C4.5, pilih atribut
sebagai akar (root), buat cabangn untuk tiap nilai, bagi kasus ke dalam cabang,
ulangi proses untuk tiap cabang hingga semua cabang memiliki kelas yang sama.
Atribut akar dipilih berdasar nilai Gain tertinggi (membutuhkan perhitungan
Entropy).
8
2.3 Pohon Keputusan (Decision Tree)
Pohon keputusan merupakan salah saru metode klasifikasi yang
menggunakan representai struktur pohon (tree) dimana setiap node
mempresentasujab atribut, cabangnya mempresentasikan nilai dari atribut, dan
daun mempresentsikan kelas. Node yang paling atas dari decision tree disebut
sebagai root. Decision tree merupakan motede klasifikasi yang paling popular
digunakan. Selain karena pembangunannya relative cepat, hasil dari model yang
dibangun mudah untuk dipahami. Pada pohon keputusan terdiri dari tiga bagian
yaitu :
a. Root node, merupakan node paling atas, pada node ini tidak ada input
dan bisa tidak mempunyai output atau mempunyai output lebih dari
satu.
b. Internal node, merupakan node percabangan, pada node ini hanya satu
input dan mempunyai output minimal dua.
c. Leaf node, merupakan node akhir, hanya memiliki satu input, dan tidak
memiliki output.
Pada pohon keputusan, simpul dalam menyatakan pengujian terhadap
suatu atribut, cabang menyatakan hasil dari suatu pengujian, sementara daun
menyatakan kelas yang diprediksi.
9
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya
sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan
baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi
kelas tersebut. Metode pohon keputusan dapat menghindari munculnya
permasalahan ini dengan menggunakan criteria yang jumlahnya lebih
sedikit pada setiap node internal tanpa banyak mengurangi kualitas
keputusan yang dihasilkan.
10
membuat sebuah model yang akurat untuk memprediksi anggota mana yang
berpotensi untuk merespon permintaan, tanpa memperhatikan bagaimana atau
mengapa model tersebut bekerja.
11
training data yang telah disiapkan. Algoritma ini mempunyai inputan
berupa training samples dan samples (Heryanti 2005 dalam Kusrini 2009).
Training samples berupa data contoh yang akan digunakan untuk
membangun sebuah tree yang telah diuji kebenarannya.
2.4 Entropy
Entropy (S) adalah jumlh bit yang diperkirakan dibutuhakn untuk dapat
mengektrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.
entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Semakin kecil nilai entropy maka semakin baik untuk digunakan dalam
mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara
optimal adalah log2 p bits untuk messages yang mempunyai probabilitas p.
Sehingga jumlah bit yang diperkiran untuk mengekstraksi S ke dalam kelas adalah
:
-p log2 p+ - p- log2 p-
12
3. METODE PENELITIAN
13
3.1.2 Mengubah Tree Menjadi Rule
Setelah Tree muncul selanjutnya merubahnya menjadi rule. Berikut
ini adalah rule yang telah dikembangkan dari pohon keputusan :
Berikut ini adalah bentuk keterangan umum dari rule yang sudah dibuat di
atas:
14
3. Pilih data yang ingin di analisis, data yang akan dianalisis adalah data
bendera (flags) di dunia.
15
4. Setelah itu kita akan mengkalsifikasi type atau jenis -jenis bendera
tersebut. Disini menggunakan algoritma decision tree pada Weka, yaitu
J48.
16
5. Setelah memilih classifier,lalu klik Supplied test set pada Test Option
6. Setelah klik Supplied test set, lalu klik set dan akan muncul tampilan
seperti berikut ini:
17
7. Klik start dan akan muncul tampilan seperti berikut ini.
18
9. Berikut ini adalah tampilan Tree yang sudah ditampilkan
19
11. Setelah itu simpan data dengan nama flags tugas kdm.arrf menandakan
bahwa data berikut sudah siap untuk di olah
20
12. Setelah menyimpan data,buka kembali data sebelumnya dengan
menggunakan Tools -> ArffViewer.
13. Buka kembali data yang sudah disimpan pada pembahasan sebelumnya.
21
14. Berikut ini adalah tabel prediksi flags.arff
22
23
4. PENUTUP
4.1 Kesimpulan
Teknik data mining digunakan untuk menggali pengetahuan dari data
training untuk diambil informasinya guna pengambilan keputusan.
Pada data flags didapatkan pola pengetahuan dari decision tree yang
mudah dipahami, yang memudahkan untuk pengambilan keputusan
apakah keanekaragaman bendera di dunia diterima atau ditolak.
Dengan mereduksi atribut yang diperlukan didapatkan klasifikasi yang
mempunyai akurasi yang tinggi, yaitu menggunakan algoritma J48
sebesar 93,81 %. Dari data pengujian yang diberikan berupa data
bendera berdasarkan tempat tinggal sejumlah 194 negara yang akan
ditentukan, didapatkan keputusan akhir pada populasi. Jika populasi
<= 22 maka diterima, selain itu ditolak.
24