Anda di halaman 1dari 16

LAPORAN PRAKTIKUM 3

DATA MINING

“Decision Tree”

Oleh
MUHAMMAD ZULFAN

Nim : 1657301066
Kelas : TI 4.3
Program Studi : Teknik Informatika
No. Praktikum : 03 / PDM/ TI/ 2019
Dosen Pembimbing : Muhammad Arhami,S.Si.,M.Kom

KEMENTRIAN RISET DAN KEMENTRIAN TINGGI

POLITEKNIK NEGERI LHOKSEUMAWE

2019
LEMBARAN PENGESAHAN

No. Praktikum : 03/ PDM/ TI/ 2019

Judul Praktikum : Decision Tree

Nama : Muhammad Zulfan

NIM : 1657301066

Jurusan : Teknologi Informasi dan Komputer

Program Studi : Teknik Informatika

Tanggal Percobaan : 11 Okteber 2019

Tanggal Penyerahan : 18 Oktober 2019

Dosen Pembimbing : Muhammad Arhami,S.Si.,M.Kom

Buket Rata, 18 Oktober 2019


Mahasiswa Dosen pembimbing

Muhammad Zulfan Muhammad Arhami,S.Si.,M.Kom


NIM 1657301054 NIP 19741029 200003 1 001

ii
DAFTAR ISI
Halaman
LEMBARAN PENGESAHAN ............................................................................. ii

DAFTAR ISI ......................................................................................................... iii

BAB 1 PENDAHULUAN ..................................................................................... 1

1.1 Tujuan ..................................................................................................... 1

1.2 Latar Belakang ....................................................................................... 1

BAB 1I LANDASAN TEORI .......................................................................... 4

2.1 Definisi Decision Tree............................................................................. 4

2.2 Kelebihan dan Kekurangan Decision Tree .......................................... 5

2.2.1 Kelebihan Decision Tree ................................................................... 5

2.2.2 Kekurangan Decisiom Tree............................................................... 5

BAB III PERCOBAAN......................................................................................... 6

3.1 Alat Dan Bahan....................................................................................... 6

3.2 Langkah Percobaan................................................................................ 6

3.3 Percobaan, Hasil dan Analisa ................................................................ 6

3.3.1 Percobaan 1 ....................................................................................... 6

3.3.2 Percobaan 2 ....................................................................................... 7

3.3.3 Percobaan 3 ....................................................................................... 9

3.3 Analisa Manual Percobaan 1 ............................................................... 10

BAB IV KESIMPULAN ..................................................................................... 12

1.1 Kesimpulan ........................................................................................... 12

DAFTAR PUSTAKA ..............................................................................................

iii
BAB 1
PENDAHULUAN
1.1 Tujuan
1. Mahasiswa mampu mendefinisikan Algoritma Decision Tree.
2. Mahasiswa mampu menjelaskan permasalahan kualitas data dan
penyelesaiannya.
3. Mahasiswa mampu mengetahui cara kerja Decision Tree.
1.2 Latar Belakang
Perkembangan yang pesat di bidang pengumpulan data dan teknologi
penyimpanan di berbagai bidang, menghasilkan basis data yang terlampau
besar. Namun, data yang dikumpulkan jarang dilihat lagi, karena terlalu
panjang, membosankan, dan tidak menarik. Seringkali, keputusan -yang
katanya berdasarkan data- dibuat tidak lagi berdasarkan data, melainkan dari
intuisi para pembuat keputusan. Sehingga, lahirlah cabang ilmu data mining
ini.
Menurut, Wikipedia data mining adalah ekstraksi pola yang menarik
dari data dalam jumlah besar. Suatu pola dikatakan menarik apabila pola
tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola
yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan
diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian
data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda,
seperti KDD (knowledge discovery in database), analisis pola, arkeologi data,
pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat
data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem
basis data perusahaan, e-commerce, data saham, dan data bioinformatika),
tetapi tidak tahu pola apa yang bisa didapatkan. Sedangkan menurut, Davies
(2004) Secara sederhana data mining adalah penambangan atau penmuan
informasi baru dengan mencari pola atau aturan tertendu dari sejumlah data
yang sangat besar.
Menurut Han dan Kamber (2011, p36), data mining adalah proses
menemukan pola yang menarik dan pengetahuan dari data yang berjumlah

1
besar. Sedangkan menurut Linoff dan Berry (2011, p7) Data mining adalah
suatu pencarian dan analisa dari jumlah data yang sangat besar dan bertujuan
untuk mencari arti dari pola dan aturan. Lalu menurut Connolly dan
Begg,(2010), Data mining adalah suatu proses ekstraksi atau penggalian data
yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari
database yang besar serta digunakan untuk membuat suatu keputusan bisnis
yang sangat penting. Dan menurut Vercellis (2009, p77), Data mining adalah
aktivitas yang menggambarkan sebuah proses analisis yang terjadi secara
iteratif pada database yang besar, dengan tujuan mengekstrak informasi dan
knowledge yang akurat dan berpotensial berguna untuk knowledge workers
yang berhubungan dengan pengambilan keputusan dan pemecahan masalah.
Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru
berdasarkan atribut dan sample-sample dari training data.Algoritma k-Nearest
Neighbor menggunakan Neighborhood Classification sebagai nilai prediksi
dari nilai instance yang baru.
Alasan utama mengapa data mining sangat menarik perhatian industri
informasi dalam beberapa tahun belakangan ini adalah karena tersedianya data
dalam jumlah yang besar dan semakin besarnya kebutuhan untuk mengubah
data tersebut menjadi informasi dan pengetahuan yang berguna karena sesuai
fokus bidang ilmu ini yaitu melakukan kegiatan mengekstraksi atau
menambang pengetahuan dari data yang berukuran/berjumlah besar, informasi
inilah yang nantinya sangat berguna untuk pengembangan. berikut langkah-
langkah dalam data mining :
1) Data cleaning (untuk menghilangkan noise data yang tidak
konsisten)
2) Data integration (di mana sumber data yang terpecah dapat
disatukan).
3) Data selection (di mana data yang relevan dengan tugas analisis
dikembalikan ke dalam database).

2
4) Data transformation (di mana data berubah atau bersatu menjadi
bentuk yang tepat untuk menambang dengan ringkasan performa
atau operasi agresi).
5) Knowledge Discovery (proses esensial di mana metode yang
intelejen digunakan untuk mengekstrak pola data).
6) Pattern evolution (untuk mengidentifikasi pola yang benar-benar
menarik yang mewakili pengetahuan berdasarkan atas beberapa
tindakan yang menarik).
7) Knowledge presentation (di mana gambaran teknik visualisasi dan
pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kepada user).

3
BAB 1I
LANDASAN TEORI
2.1 Definisi Decision Tree
Menurut Han dan Kamber (2011, p332), Decision Tree adalah top-down
pohon rekursif dari algoritma induksi, yang menggunakan ukuran seleksi atribut
untuk memilih atribut yang diuji. Algoritma decision tree mencoba untuk
meningkatkan akurasi dengan menghapus cabang-cabang pohon yang
mencerminkan noise dalam data. Decision tree merupakan salah satu teknik yang
dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau
record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang,
bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2009).
Decision Tree adalah sistem pendukung keputusan yang berupa pohon grafik
keputusan. Decision Tree digunakan untuk belajar classification function yang
menyimpulkan nilai atribut dependen (variabel). (Girja, Bhargava & Mathuria,
2013).
Dalam situasi lain kemampuan untuk menjelaskan alasan pengambilan
keputusan adalah sesuatu yang sangat penting. Misalnya pada perusahaan asuransi
ada larangan resmi untuk mendeskriminasi berdasarkan variabel-variabel tertentu.
Perusahaan asuransi dapat mencari sendiri keadaan yang mencerminkan bahwa
mereka tidak menggunakan deskriminasi yang ilegal dalam memutuskan seseorang
diterima atau ditolak. Sebuah pohon keputusan adalah sebuah struktur yang dapat
digunakan untuk membagi kumpulan data yang besar menjadi himpunan-
himpunan record yang lebih kecil dengan menerapkan serangkaian aturan
keputusan. Anggota himpunan hasil menjadi mirip satu dengan yang lain dengan
masing-masing rangkaian pembagian. Sebuah model pohon keputusan terdiri dari
sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi
lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah
pohon keputusan mungkin dibangun dengan seksama secara manual, atau dapat
tumbuh secara otomatis dengan menerapkan salah satu atau beberapa algoritma
pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi (Tan
dkk, 2004).

4
2.2 Kelebihan dan Kekurangan Decision Tree
2.2.1 Kelebihan Decision Tree
1) Daerah pengambilan keputusan yang sebelumnya kompleks dan
sangat global, dapat diubah menjadi lebih simpel dan spesifik.
2) Eliminasi perhitungan-perhitungan yang tidak diperlukan, karena
ketika menggunakan metode pohon keputusan maka sampel diuji
hanya berdasarkan kriteria atau kelas tertentu.
3) Fleksibel untuk memilih fitur dari node internal yang berbeda, fitur
yang terpilih akan membedakan suatu kriteria dibandingkan kriteria
yang lain dalam node yang sama. Kefleksibelan metode pohon
keputusan ini meningkatkan kualitas keputusan yang dihasilkan jika
dibandingkan ketika menggunakan metode penghitungan satu tahap
yang lebih konvensional.
4) Dalam analisis multivarian, dengan kriteria dan kelas yang
jumlahnya sangat banyak, seorang penguji biasanya perlu
mengestimasikan baik itu distribusi dimensi tinggi ataupun
parameter tertentu dari distribusi kelas tersebut. Metode pohon
keputusan dapat menghindari munculnya permasalahan ini dengan
menggunakan kriteria yang jumlahnya lebih sedikit pada
setiap node internal tanpa banyak mengurangi kualitas keputusan
yang dihasilkan.
2.2.2 Kekurangan Decisiom Tree
1) Terjadi overlapping terutama ketika kelas-kelas dan kriteria yang
digunakan jumlahnya sangat banyak. Hal tersebut juga dapat
menyebabkan meningkatnya waktu pengambilan keputusan dan
jumlah memori yang diperlukan.
2) Pengakumulasian jumlah kesalahan dari setiap tingkat dalam
sebuah pohon keputusan yang besar.
3) Kesulitan dalam mendesain pohon keputusan yang optimal.
4) Hasil kualitas keputusan yang didapatkan dari metode pohon
keputusan sangat tergantung pada bagaimana pohon didesain.

5
BAB III
PERCOBAAN

3.1 Alat Dan Bahan


1) Komputer dengan system operasi windows.
2) Program aplikasi Weka.
3) Modul Pratikum Data Warehousing dan Data Mining
3.2 Langkah Percobaan
1) Jalankan Weka
2) Klick Menu Explore
3) Tekan Open File
4) Pilih file dengan ekstensi arff
5) Klick tombol classify pada menu
6) Pilih tombol choose, Folder Lazy, Pilih j48
7) Klik start
8) Klik kanan pada trees - J48
9) Pilih Visualize Tree
3.3 Percobaan, Hasil dan Analisa
3.3.1 Percobaan 1
Input :

6
Output :

Analisa :
Dari tree diatas dapat disimpulkan root node Own_house untuk true
yang menghasilkan internal node yes yang nilainya mutlak yaitu YES(6,0),
Sedangkan untuk false menghasilkan internal node has_job yang belum
mutlak sehingga harus di lakukan perhitungan lagi dan menghasilkan leaf
nod true yang menghasilkan nilai mutlak YES(3,0), dan NO(6,0).
3.3.2 Percobaan 2
Input :

7
Output :

Analisa :
Dari tree diatas dapat disimpulkan root node menghasilkan tiga
internal nood, untuk 31..40 menghasilkan nilai mutlak yaitu YES(4,0),
Sedangkan untuk =>40 menghasilkan internal node credit_rating yang
belum mutlak sehingga harus di lakukan perhitungan lagi dan menghasilkan
leaf nod true yang menghasilkan nilai mutlak YES(3,0), dan NO(2,0).
Untuk <=30 menghasilkan internal node student yang belum mutlak
sehingga harus di lakukan perhitungan lagi dan menghasilkan leaf nod true
yang menghasilkan nilai mutlak YES(2,0), dan NO(3,0).

8
3.3.3 Percobaan 3
Input :

Output :

Analisa :
Dari tree diatas dapat disimpulkan root node Income_Range
menghasilkan 4 internal nood, untuk =50..60K menghasilkan nilai mutlak
yaitu 38(2.0/1.0), untuk =40..50K menghasilkan nilai mutlak yaitu

9
42(4.0/3.0), Sedangkan untuk 30-40K menghasilkan internal node sex yang
belum mutlak sehingga harus di lakukan perhitungan lagi dan menghasilkan
leaf nod FEMALE yang menghasilkan nilai mutlak 40(2.0/1.0), dan
MALE yang menghasilkan nilai mutlak 43(3.0/1.0). Untuk 20-30K
menghasilkan internal node Life_Insurance_Promotion yang belum
mutlak sehingga harus di lakukan perhitungan lagi dan menghasilkan leaf
nod YES yang menghasilkan nilai mutlak 19(2.0/1.0), dan NO yang
menghasilkan nilai mutlak 27(2.0/1.0)
3.3 Analisa Manual Percobaan 1

A. Tabel Data
ID Age Has_Job Own_House Credit_rating Class
1 young FALSE FALSE fair NO
2 young FALSE FALSE good NO
3 young TRUE FALSE good YES
4 young TRUE TRUE fair YES
5 young FALSE FALSE fair NO
6 middle FALSE FALSE fair NO
7 middle FALSE FALSE good NO
8 middle TRUE TRUE good YES
9 middle FALSE TRUE excellent YES
10 middle FALSE TRUE excellent YES
11 old FALSE TRUE excellent YES
12 old FALSE TRUE good YES
13 old TRUE FALSE good YES
14 old TRUE FALSE excellent YES
15 old FALSE FALSE fair NO

B. Entropy Total
Jumlah Kasus SUM NO SUM YES Entropy TOTAL
15 6 9 0.970950594

10
C. Iterasi 1
total 15 6 9 0.970950594

age 0.0830075
young 5 3 2 0.970950594
middle 5 2 3 0.970950594
old 5 1 4 0.721928095

Has_Job 0.323650198
FALSE 10 6 4 0.970950594
TRUE 5 0 5 0

Own_House 0.419973094
FALSE 9 6 3 0.918295834
TRUE 6 0 6 0
0.362989563
Credit_Ratting fair 5 4 1 0.721928095
good 6 2 4 0.918295834
excellent 4 0 4 0

D. Tabel Data 2
ID Age Has_Job Own_House Credit_rating Class
1 young FALSE FALSE fair NO
2 young FALSE FALSE good NO
3 young TRUE FALSE good YES
5 young FALSE FALSE fair NO
6 middle FALSE FALSE fair NO
7 middle FALSE FALSE good NO
13 old TRUE FALSE good YES
14 old TRUE FALSE excellent YES
15 old FALSE FALSE fair NO

E. Entropy Total 2
Jumlah Kasus SUM NO SUM YES Entropy TOTAL
9 6 3 0.918295834

F. Iterasi 2
Attribute Nilai jml kasus no yes entropy gain
total 9 6 3 0.918295834

age 0.251629167
young 4 3 1 0.811278124
middle 5 2 0 0
old 3 2 1 0.918295834

Has_Job 0.918295834
FALSE 6 6 0 0
TRUE 3 0 3 0

0.47385139
Credit_Ratting fair 4 4 0 0
good 4 2 2 1
excellent 1 0 1 0

11
BAB IV
KESIMPULAN

1.1 Kesimpulan

Jadi dapat disimpulkan :


 Decision Tree adalah top-down pohon rekursif dari algoritma induksi,
yang menggunakan ukuran seleksi atribut untuk memilih atribut yang
diuji.
 Decision Tree digunakan untuk belajar classification function yang
menyimpulkan nilai atribut dependen (variabel).
 Salah satu kelebiah Decision tree adalah Eliminasi perhitungan-
perhitungan yang tidak diperlukan, karena ketika menggunakan metode
pohon keputusan maka sampel diuji hanya berdasarkan kriteria atau
kelas tertentu.
 Salah satu kekurangan Decision tree adalah Pengakumulasian jumlah
kesalahan dari setiap tingkat dalam sebuah pohon keputusan yang
besar

12
DAFTAR PUSTAKA
Han, J., Kamber, M., & Pei, J. (2011). Data Mining Concepts and Techniques Third
Edition. Waltham: Elsevier Inc.
Linoff dan Berry (2011) Data Mining Techniques: For Marketing, Sales, and
Customer Relationship Management, 3rd Edition.
Connolly, Thomas and Begg, Carolyn. (2010). Database Systems A Practical
Approach to Design, Implementation, and Management Fifth Edition.
Boston: Pearson Education.
Vercellis (2009), Data Warehousing, in Business Intelligence,
onlinelibrary.wiley.com.
Girja, Bhargava & Mathuria, (2013) Decision Tree Analysis on J48 Algorithm for
Data Mining.
Efferin, S., Darmadji, S. H., Tan Y. 2004. “Metode Penelitian Untuk Akuntansi:
Sebuah Pendekatan Praktis”, Malang: Bayumedia Publishing
https://id.wikipedia.org/wiki/Penggalian_data

Anda mungkin juga menyukai