Anda di halaman 1dari 24

KONSEP DATA MINING

ANALISA KLASIFIKASI BENDERA DI DUNIA DENGAN ALGORITMA


DECISION TREE MENGGUNAKAN SOFTWARE WEKA

SISTEM INFORMASI
3KA03
Disusun Oleh :
NAMA ANGGOTA : NPM :
1. Irvan Welvi Nanda 1. 15114481
2. Panggih Pangestu 2. 18114385
3. Rifa Hanina 3. 19114338
4. Wisnu Dwi Antoro 4. 1C114301

1
FAKULTAS ILMU KOMPUTER
DAN TEKNOLOGI INFORMASI
UNIVERSITAS GUNADARMA
TAHUN AJARAN 2016/2017

2
1. PENDAHULUAN

1.1 Latar Belakang


Setiap Negara tentunya memiliki Bendera sebagai lambang Negara
tersebut. Bendera Negara adalah dasar pengetahuan sosial untuk siapa pun.
Setelah itu pengetahuan lebih detail tentang luas wilayah, Ibukota Negara, bentuk
pemerintahan, serta mata uang dari Negara tersebut juga menjadi materi dasar
pengetahuan sosial tentang suatu Negara. Bendera Negara di dunia
beranekaragam, mulai dari warna, lambang, dan pola pada bendera. Untuk
menentukan berapa banyak bendera yang berbeda pada setiap Negara dibutuhkan
suatu algoritma yang dapat menyelesaikan masalah tersebut.
Seperti yang kita ketahui bahwa manusia selalu berhadapan dengan suatu
masalah. Masalah-masalah ini memiliki tingkat kesulitan dan kompleksitas yang
sangat bervariasi, mulai dari yang teramat sederhana dengan sedikit faktor-faktor
atau hal-hal yang berkaitan dengan masalah tersebut dan perlu diperhitungkan,
sampai dengan yang sangat rumit dengan banyak sekali faktor-faktor atau hal-hal
yang turut serta berkaitan dengan masalah tersebut dan perlu untuk
diperhitungkan juga.
Untuk menghadapi masalah-masalah ini, manusia mulai
mengembangkan sebuah sistem atau cara yang dapat membantu manusia agar
dapat dengan mudah mampu untuk menyelesaikan masalah-masalah tersebut.
Adapun pohon keputusan ini adalah sebuah jawaban akan sebuah sistem atau cara
yang manusia kembangkan untuk membantu mencari dan membuat keputusan
untuk masalah-masalah tersebut dan dengan memperhitungkan berbagai macam
factor yang ada di dalam lingkup masalah tersebut. Dengan pohon keputusan,
manusia dapat dengan mudah melihat mengidentifikasi dan melihat hubungan
antara faktor-faktor yang mempengaruhi suatu masalah dan dapat mencari
penyelesaian terbaik dengan memperhitungkan faktor-faktor tersebut. Pohon
keputusan ini juga dapat menganalisa nilai resiko dan nilai suatu informasi yang
terdapat dalam suatu alternatif pemecahan masalah.

3
Pohon keputusan merupakan sebuah sistem atau cara yang manusia
kembangkan untuk membantu mencari dan membuat keputusan untuk masalah-
masalah tersebut dan dengan memperhitungkan berbagai macam faktor yang ada
di dalam lingkup masalah tersebut. Secara umum, pohon keputusan adalah suatu
gambaran permodelan dari suatu persoalan yang terdiri dari serangkaian
keputusan yang mengarah ke solusi.

1.2 Tujuan Penulisan


Tujuan penulisan ini adalah untuk mengimplementasikan metode
Decision Tree dalam menentukan keanekaragaman bendera Negara di dunia dari
kategori warna, lambang, dan pola dengan menggunakan Algoritma J48 yang
diharpkan mampu menyajikan informasi yang akurat.

1.3 Manfaat Penulisan


Penulisan makalah ini diharapkan dapat memberikan manfaat bagi
penulis khususnya serta bagi para pembaca pada umumnya. Diharapkan dengan
membaca makalah ini dapat memberikan pengetahuan mengenai pohon
keputusan.

4
2. LANDASAN TEORI

2.1 Weka
2.1.1 Pengertian Weka
Weka (Wakaito Environment for Knowledge Analysis) adaah aplikasi Data
Mining Open Source berbasis Java. Aplikasi ini dikembangakn pertama kali oleh
Universitas Waikato di Selandia Baru. Weka adala software open source yang
diterbitkan dibawah lisensi GNU (General Public License). Weka terdiri dari
koleksi algoritma machine learning yang dapat digunakan untuk melakukan
generalisasi atau formulasi dari sekumpulan data sampling. Algoritma ini bisa
diterapkan secara langsung kedalam data set atau bisa juga dipanggil dari kode
java kita sendiri. Weka memiliki tools untuk data re-processing, classification,
regression, clustering, association rules, dan visualization.
Weka mengorganisasi kelas kelas ke dalam paket paket dan setiap
kelas dipaket dapat mereferensi kelas lain dipaket lain. Paket classifiers berisi
implementasi dari hampir semua algoritma untuk klarifikasi dan prediksi. Kelas
yang paling penting adalah Classifier, yang mendeklarasikan struktur umum dari
skema klasifikasi dan prediksi. Kelas ini memiliki 2 (dua) metoda, yaitu Build
Classifier dan Classify Instance, yang harus diimplementasikan oleh kelas kelas
yang menginduk ke kelas ini. Semua kelas yang mengimplementasikan algoritma
klasifikasi menginduk ke kelas Classifier, termasuk kelas J48. J48 menangani
himpunan data dalam format ARFF, tidak mengandung kode untuk
mengkonstruksi pohon keputusan. Kelas ini mereferensi kelas kelas lain,
kebanyakan di pakaet Weka.
Pada Weka ada beberapa metoda pemilihan variable dari suatu dataset,
diantaranya Best First, Exhautuve Search, FCBF Search, Genetic Search, Greedy
Stepwise, Race Seacrh, Random Search, Ranker dan Ranker Search. Metoda atau
teknik yang digunakan Weka adalah Predictive dan Decriptive karena Weka
mendukung teknik teknik data preprocessing, clustering, classification,
regression, visualization, dan feature selection. Semua teknik Weka adalah
didasarkan pada asumsi bahwa data tersedia sebagai flat file tunggal atau

5
hubungan, dimana setiap titik data digambarkan oleh sejumlah tetap atribut
(atribut numeric atau nominal). Algoritma yang digunakan adalah :
1. J48, atau kloning versi open source dari algoritma C4.5 yang dapat
digunakan untuk pembentukkan keputusan (decision tree).
2. Liniar Regression, algoritma untuk menghasilkan formulasi numerik
dengan metode statistik regresi linier.
3. Nave Bayes, salah satu classifier numerik
Weka menerima input data dalam format ARFF (Atribute Relation File
Format). Format ARFF adalah tipe file teks yang berisi berbagai instance. Proses
yang dilakukan Weka adalah Decision Tree menggunakan Algoritma J48. Weka
menghasilkan knowledge berupa pohon keputusan yang dapat membantu user
dalam mengambil keputusan. Weka mampu menyelesaikan masalah-masalah Dara
Mining di dunia nyata, khususnya klasifikasi yang mendasari pendekatan machine
learning. Perangkat lunak ini ditulis dalam hirarki class java dengan metode
berorientasi objek dan dapat berjalan hampir semua platform. Weka mudah
digunakan dan diterapkan pada beberapa tingkatan yang berbeda. Tersedia
implementasi algoritma pembelajaran state of the art yang dapat diterapkan pada
dataset dari command line. Pengguna dapat melakukan preprocess pada data,
memasukkannya dalam sebuah skema pembelajaran, dan menganalisa classifier
yang dihasilkan dan performanya. Semua itu tanpa menuliskan kode program
sama sekali. Tools yang dapat digunakan untuk preprocessing dataset membuat
user dapat berfokus pada algoritma yang digunakan tanpa terlalu memperhatikan
detail seperti pembacaan data dari file, implementasi algoritma filtering, dan
penyediaan kode untuk evaluasi hasil.

2.1.2 GUI Weka

6
Gambar 2.1 Tampilan Awal Weka

Pada tampilan awal ketika aplikasi Weka dibuka terlihat seperti pada
Gambar 2.1 . Weka memiliki empat menu utama dan empat tombol. Empat menu
utama tersebut adalah
1) Program
Pada menu program terdapat tiga sub menu, yaitu :
a. LogWindows, sub menu ini berfungsi untuk menampilkan jendela
Log yang merekap semua yang tercetak untuk stdout dan stderr.
b. Memory usage, menampilkan penggunaan memori pada saat
aplikasi Weka digunakan.
c. Exit, untuk keluar dari aplikasi Weka.
2) Visualization
Menu ini merupakan sarana untuk memvisualisasikan data dengan aplikasi
Weka. Pada menu ini terdpata lima sub menu, yaitu :
a. Plot, untuk menampilkan plot 2D dari sebuah dataset.
b. ROC, untuk menampilkan kurva ROC yang telah disimpan
sebelumnya.
c. TreeVisualizer, untuk menampilkan graf berarah.
d. Graph Visualizer, memvisualisasikan format grafik XML BIF atau
DOT.

7
e. Boundary Visualizer, mengizinkan visualisasi dari batas keputusan
classifier dalam plot 2D.
3) Tools
Menu ini menampilkan aplikasi lainnya yang berguan bagi pengguna.
Pada menu ini terdapat tiga sub menu, yaitu :
a. ArffViewer, sebuah aplikasi MDI yang menampilkan file ARFF dalam
format spreadsheet.
b. SqlViwer, mempresentasikan sebuah lembar kerja SQL, untuk
melakukan query database via JDBC.
c. Bayes net editor, sebuah aplikasi untuk mengedit, memvisualisasikan
dan mempelajari bayes net.

2.2 J48
J48 merupakan implementasi algoritma C4.5 (berbasis java) pada Weka.
Algoritma C4.5 berbasis Decision Tree (pohon keputusan). Dalam algoritm C4.5
digunakan information gain untuk memilih atribut yang akan digunakan untuk
pemisahan obyek. Atribut yang mempunyai information gain paling tinggi
disbanding atribut yang lain relative terhadap set y dalam suatu data, dipilih untuk
melakukan pemecahan. Pada algoritma ini, pemilihan atribut mana yang akan
menempati suatu simpul dilakukan dengan melakukan perhitungan entropi
informasi dan mencari nilai yang paling minimum.
Pemilihan atribut pada algoritma ini berdasarkan pada asumsi bahwa
kompleksitas yang dimiliki oleh pohon keputusan sangat berkaitan erat dengan
jumlah informasi yang diberikan oleh nilai nilai atributnya. Dengan kata lain,
teknik heuristic berbasiskan informasi ini memilih atribut yang memberikan
perolehan informasi terbesar (highest information gain) dalam menghasilkan
subpohon (subtree) untuk mengklasifikasikan sampel. Proses C4.5, pilih atribut
sebagai akar (root), buat cabangn untuk tiap nilai, bagi kasus ke dalam cabang,
ulangi proses untuk tiap cabang hingga semua cabang memiliki kelas yang sama.
Atribut akar dipilih berdasar nilai Gain tertinggi (membutuhkan perhitungan
Entropy).

8
2.3 Pohon Keputusan (Decision Tree)
Pohon keputusan merupakan salah saru metode klasifikasi yang
menggunakan representai struktur pohon (tree) dimana setiap node
mempresentasujab atribut, cabangnya mempresentasikan nilai dari atribut, dan
daun mempresentsikan kelas. Node yang paling atas dari decision tree disebut
sebagai root. Decision tree merupakan motede klasifikasi yang paling popular
digunakan. Selain karena pembangunannya relative cepat, hasil dari model yang
dibangun mudah untuk dipahami. Pada pohon keputusan terdiri dari tiga bagian
yaitu :
a. Root node, merupakan node paling atas, pada node ini tidak ada input
dan bisa tidak mempunyai output atau mempunyai output lebih dari
satu.
b. Internal node, merupakan node percabangan, pada node ini hanya satu
input dan mempunyai output minimal dua.
c. Leaf node, merupakan node akhir, hanya memiliki satu input, dan tidak
memiliki output.
Pada pohon keputusan, simpul dalam menyatakan pengujian terhadap
suatu atribut, cabang menyatakan hasil dari suatu pengujian, sementara daun
menyatakan kelas yang diprediksi.

2.3.1 Kelebihan dan Kekurangan Pohon Keputusan


Kelebihan dati metode keputusan adalah :
Daerah pengambilan keputusan yang sebelumnya kompleks dan sangat
global, dapat diubah menjadi lebih simpel dan spesifik.
Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena ketika
menggunakan metode pohon keputusan maka sample diuji hanya
berdasarkan kriteria atau kelas tertentu.
Fleksibel untuk memilih fitur dari internal node yang berbeda, fitur yang
terpilih akan membedakan suatu kriteria dibandingkan kriteria yang lain
dalam node yang sama.

9
Dalam analisis multivariat, dengan kriteria dan kelas yang jumlahnya
sangat banyak, seorang penguji biasanya perlu untuk mengestimasikan
baik itu distribusi dimensi tinggi ataupun parameter tertentu dari distribusi
kelas tersebut. Metode pohon keputusan dapat menghindari munculnya
permasalahan ini dengan menggunakan criteria yang jumlahnya lebih
sedikit pada setiap node internal tanpa banyak mengurangi kualitas
keputusan yang dihasilkan.

Kekurangan dari pohon keputusan adalah :


Terjadi overlap terutama ketika kelas-kelas dan criteria yang digunakan
jumlahnya sangat banyak. Hal tersebut juga dapat menyebabkan
meningkatnya waktu pengambilan keputusan dan jumlah memori yang
diperlukan.
Pengakumulasian jumlah eror dari setiap tingkat dalam sebuah pohon
keputusan yang besar.
Kesulitan dalam mendesain pohon keputusan yang optimal.
Hasil kualitas keputusan yang didapatkan dari metode pohon keputusan
sangat tergantung pada bagaimana pohon tersebut didesain.

2.3.2 Manfaat Pohon Keputusan


Manfaat utama dari penggunaan pohon keputusan ialah kemampuannya
untuk mem-break down proses pengambilan keputusan yang kompleks menjadi
lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi
dari permasalahan. Pohon Keputusan juga berguna untuk mengeksplorasi data,
menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan
sebuah variabel target. Pohon keputusan memadukan antara eksplorasi data dan
pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan
bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sering
terjadi tawar menawar antara keakuratan model dengan transparansi model.
Dalam beberapa aplikasi, akurasi dari sebuah klasifikasi atau prediksi
adalah satu-satunya hal yang ditonjolkan, misalnya sebuah perusahaan directmail

10
membuat sebuah model yang akurat untuk memprediksi anggota mana yang
berpotensi untuk merespon permintaan, tanpa memperhatikan bagaimana atau
mengapa model tersebut bekerja.

2.3.3 Algoritma Algoritma dalam Metode Pohon Keputusan


Beberapa algoritma yang ada pada metode pohon keputusan, sebagai berikut :
1. Algoritma ID3 (Iterative Dychotomyzer version 3)
ID3 adalah suatu algoritma pelajaran pohon keputusan yang
sederhana yang dikembangkan oleh Ross Quinlan (1986). Algoritma ID3
berusaha membangun pohon keputusan secara top-down yang disebut juga
Top Down Induction Decision Tree (TDIDT) (Suyanto, 2007). Algoritma
TDIDT memerlukan 2 langkah pengerjaan yaitu membangun pohon
keputusan (Construction Decision Tree) dan menyederhanakan pohon
keputusan yang dibuat (Prunning Decision Tree).
2. Algoritma Assistant
Algoritma Assistant ini juga termasuk kepada keluarga ID3 yang
merupakan sistem induksi atas-kebawah, dari pohon keputusan.(Quinlan,
1986).Sistem secara berulang membangun suatu pohon keputusan yang
biner. simpul dari pohon sesuai dengan atribut, dan daun-daun (simpul
terminal) ke kelas diagnostik /peramalan.Pada setiap langkah yang
berulang tentang konstruksi pohon keputusan, atribut paling informatif' (
suatu atribut yang memperkecil jumlah test yang diharapkan yang
diperlukan untuk penggolongan dari kasus yang baru) terpilih dan suatu
subtree dibangun.Assistant menyamaratakan lebih lanjut di atribut
dihargai-bilangan bulat dari ACLS dengan mengijinkan atribut dengan
nilai kontinyu.Assistant tidak membentuk suatu pohon keputusan secara
berulang-ulangseperti cara ID3, tetapi meliputi algoritma untuk pilih
pelatihan bernilai baik dari objek tersedia.
3. Algoritma C4.5
C4.5 adalah ekstensi dari algoritma decision-tree ID3. Algoritma
ID3/C4.5 ini secara rekursif membuat sebuah decision tree berdasarkan

11
training data yang telah disiapkan. Algoritma ini mempunyai inputan
berupa training samples dan samples (Heryanti 2005 dalam Kusrini 2009).
Training samples berupa data contoh yang akan digunakan untuk
membangun sebuah tree yang telah diuji kebenarannya.

2.4 Entropy
Entropy (S) adalah jumlh bit yang diperkirakan dibutuhakn untuk dapat
mengektrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S.
entropy bisa dikatakan sebagai kebutuhan bit untuk menyatakan suatu kelas.
Semakin kecil nilai entropy maka semakin baik untuk digunakan dalam
mengekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara
optimal adalah log2 p bits untuk messages yang mempunyai probabilitas p.
Sehingga jumlah bit yang diperkiran untuk mengekstraksi S ke dalam kelas adalah
:
-p log2 p+ - p- log2 p-

12
3. METODE PENELITIAN

3.1 Mengubah Data Menjadi Tree


Pertama kali mengubah data menjadi tree terlebih dahulu, data dinyatakan
dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu
parameter yang dibuat sebagai kriteria dalam pembentukan tree. Dalam data
sampel tentukan terlebih dahulu node terpilih, yaitu dengan menghitung nilai
informasi gain masing masing atribut untuk menentukan node terpilih, gunakan
nilai informasi gain paling besar. Dengan menggunakan persamaan berikut:

3.1.1 Menyusun Tree Awal


Setelah nilai informasi selesai dihitung, maka ambilah nilai informasi gain
terbesar dari beberapa atribut, kemudian jadikan sebagai node awal. Node
berikutnya dapat dipilih pada bagian yang mempunyai nilai 0 dan 1. Pada data ini,
Saltires menjadi node awal dalam gambar tree.

13
3.1.2 Mengubah Tree Menjadi Rule
Setelah Tree muncul selanjutnya merubahnya menjadi rule. Berikut
ini adalah rule yang telah dikembangkan dari pohon keputusan :

R1 = IF saltires = 1, THEN color = blue


R2 = IF saltires = 0, THEN quarters 0(176.0/12.0)
R3 = IF blue = 1 ^ population ^ >22 THEN quarters 0.(2.0)
R4 = IF blue = 0, THEN quarters 0.(2.0)
R5 = IF population <=22, THEN quarters 1.(14.0)

Berikut ini adalah bentuk keterangan umum dari rule yang sudah dibuat di
atas:

R1 = JIKA saltires = 1, MAKA warna = blue


R2 = JIKA saltires = 0, MAKA quarters 0(176.0/12.0)
R3 = JIKA blue = 1, population = >22 MAKA quarters 0.(20)
R4 = JIKA blue = 0, MAKA quarters 0.(2.0)
R5 - JIKA population <=22, MAKA quarters 1.(14.0)

3.1.3 Langkah langkah Pengerjaan


1. Jalankan aplikasi Weka 2.8 yang telah terinstall, lalu klik Explorer

2. Klik Open file untuk memasukkan data yang akan diinput

14
3. Pilih data yang ingin di analisis, data yang akan dianalisis adalah data
bendera (flags) di dunia.

15
4. Setelah itu kita akan mengkalsifikasi type atau jenis -jenis bendera
tersebut. Disini menggunakan algoritma decision tree pada Weka, yaitu
J48.

16
5. Setelah memilih classifier,lalu klik Supplied test set pada Test Option

6. Setelah klik Supplied test set, lalu klik set dan akan muncul tampilan
seperti berikut ini:

pilih Open file dan pilih flags.arff dan lalu close.

17
7. Klik start dan akan muncul tampilan seperti berikut ini.

8. Klik kanan pada misc.InputMappedClassifier, klik Visualize tree untuk


menampilkan tree

18
9. Berikut ini adalah tampilan Tree yang sudah ditampilkan

10. Klik kanan pada misc.InputMappedClassifier, klik Visualize Classifier


error untuk menampilkan hasilnya

19
11. Setelah itu simpan data dengan nama flags tugas kdm.arrf menandakan
bahwa data berikut sudah siap untuk di olah

20
12. Setelah menyimpan data,buka kembali data sebelumnya dengan
menggunakan Tools -> ArffViewer.

13. Buka kembali data yang sudah disimpan pada pembahasan sebelumnya.

21
14. Berikut ini adalah tabel prediksi flags.arff

22
23
4. PENUTUP

4.1 Kesimpulan
Teknik data mining digunakan untuk menggali pengetahuan dari data
training untuk diambil informasinya guna pengambilan keputusan.
Pada data flags didapatkan pola pengetahuan dari decision tree yang
mudah dipahami, yang memudahkan untuk pengambilan keputusan
apakah keanekaragaman bendera di dunia diterima atau ditolak.
Dengan mereduksi atribut yang diperlukan didapatkan klasifikasi yang
mempunyai akurasi yang tinggi, yaitu menggunakan algoritma J48
sebesar 93,81 %. Dari data pengujian yang diberikan berupa data
bendera berdasarkan tempat tinggal sejumlah 194 negara yang akan
ditentukan, didapatkan keputusan akhir pada populasi. Jika populasi
<= 22 maka diterima, selain itu ditolak.

24

Anda mungkin juga menyukai