Anda di halaman 1dari 5

Implementsai dan Analisis Decision Tree Menggunakan Algoritma C4.

5 dalam Pengambilan Keputusan pada Kasus Prediksi Pembelian Komputer


Toyibatu Lailiya
Jurusan Teknik Informatika, Fakultas Teknik, Universitas Trunojoyo Madura Jl. Raya Telang PO. BOX 2 Kamal, Bangkalan, Madura E-Mail: thoy2saja@gmail.com Abstrak

Decision tree merupakan suatu pemodelan dalam mencari solusi dari masalah atau persoalan. Dalam makalah ini akan dibahas penggunaan Decision tree dalam bidang bisnis dan pemasaran. Dalam contohnya terdapat beberapa data yang menunjukan prosentase pembeli dan penjualan unit komputer di suatu perusahaan atau toko dalam kurun waktu tertentu. Data tersebut mengandung atribut yang akan dijadikan pertimbangan atau masukkan yang nantinya digunakan untuk memprediksi apakah seseorang akan membeli komputer atau tidak. Dalam makalah ini akan dilakukan analisis dan perhitungan dengan metode Decision tree dengan algoritma C4.5 untuk memprediksi apakah seseorang dengan karakteristik tertentu akan membeli komputer atau tidak.Hal ini sangat bermanfaat bagi perusahaan atau toko tersebut untuk menentukan target pemasaran dan penjualan. Hal ini juga akan membantu perusahaan agar dapat berinovasi sesuai dengan perkembangan zaman dan mampu menyikapi keinginan pelanggan.
Kata kunci: Decision tree, klasifikasi, entropy, information gain.

PENDAHULUAN
Pada era yang semakin modern dengan perkembangan teknologi yang semakin cepat, dituntut adanya pendekatan yang mampu mempermudah kinerja manusia. Dalam kehidupan sehari-hari manusia dihadapkan dengan berbagai permasalahan dalam berbagai bidang. Tingkat kesulitan dan kerumitan permasalahan pun berbeda, ada yang sederhana, ada pula yang sangat rumit dengan banyak faktor yang harus diperhatikan. Seiring dengan tumbuhnya permasalahanpermasalahan yang beragam dan baru, manusia mulai mengembangkan sistem dan pendekatan yang berguna untuk membantu pengambilan keputusan dalam menyelesaikan permasalahan tersebut. Tentunya dengan tetap memeperhatikan beberapa faktor dan kemungkinan yang akan terjadi dalam ruang lingkup permasalahan tersebut Decision tree merupakan salah satu konsep yang pemanfaatannya sangat diperlukan dalam kehidupa sehari-hari, khususnya dalam memodelkan dan menggambarkan hierarki persoaalan. Dengan Decision tree, manusia dapat dengan mudah mengidentifikasi dan melihat hubungan antara faktor-faktor yang mempengaruhi suatu masalah dan dapat mencari penyelesaian terbaik dengan memperhitungkan faktor-faktor tersebut. Decision tree juga dapat menganalisa nilai resiko dan nilai suatu informasi yang terdapat dalam suatu alternatif pemecahan masalah [1]. Dalam makalah ini akan dibahas penggunaan Decision tree dalam bidang bisnis dan pemasaran. Dalam contohnya terdapat beberapa data yang menunjukan prosentase pembeli dan penjualan unit komputer di suatu perusahaan atau toko dalam kurun waktu tertentu. Data tersebut mengandung atribut yang akan dijadikan pertimbangan atau masukkan yang nantinya digunakan untuk memprediksi apakah seseorang akan membeli komputer atau tidak. Dalam makalah ini akan dilakukan analisis dan perhitungan dengan metode Decision tree untuk memprediksi apakah seseorang dengan karakteristik tertentu akan membeli komputer atau tidak. Hal ini sangat bermanfaat bagi perusahaan atau toko tersebut untuk menentukan target pemasaran dan penjualan.

KAJIAN PUSTAKA
Decision tree (Decision tree) Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node. Pengembangan Decision tree dimulai dari root node, berdasarkan konvensi ditempatkan di bagian atas diagram Decision tree, semua atribut dievaluasi pada decision node, dengan tiap outcome yang mungkin menghasilkan cabang. Tiap cabang dapat masuk baik ke decision node yang lain ataupun ke leaf node [2]. Persyaratan yang harus dipenuhi dalam penerapan algoritma Decision tree: 1. Algoritma Decision tree merepresentasikan supervised learning, dan oleh karena itu membutuhkan variabel target preclassified. 2. Training data set harus kaya dan bervariasi. 3. Kelas atribut target harus diskrit [2]. Manfaat Decision tree Decision tree adalah salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur berhirarki. Konsep dari Decision tree adalah mengubah data menjadi Decision tree dan aturan-aturan keputusan. Manfaat utama dari penggunaan Decision tree adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Decision tree juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Decision tree memadukan antara eksplorasi data dan pemodelan, sehingga sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sering terjadi tawar menawar antara keakuratan model dengan transparansi model.

Dalam beberapa aplikasi, akurasi dari sebuah klasifikasi atau prediksi adalah satusatunya hal yang ditonjolkan, misalnya sebuah perusahaan direct mail membuat sebuah model yang akurat untuk memprediksi anggota mana yang berpotensi untuk merespon permintaan, tanpa memperhatikan bagaimana atau mengapa model tersebut bekerja [1]. Konsep Data dalam Decision tree Berikut adalah konsep data dalam decision tree untuk pengambilan keputusan: 1. Data dinyatakan dalam bentuk tabel dengan atribut dan record 2. Atribut menyatakan suatu parameter yang dibuat sebagai kriteria dalam pembentukan tree. Misalkan untuk menentukan beli komputer, kriteria yang diperhatikan adalah umur, penghasilan, status belajar dan credit ratting. Salah satu atribut merupakan atribut yang menyatakan data solusi per-item data yang disebut target-atribut. 3. Atribut memiliki nilai-nilai yang dinamakan dengan instace. Misalkan atribut credit ratting memiliki instance berupa excelent dan fair. Proses dalam Decision tree Berikut adalah proses dalam decision tree: 1. Mengubah bentuk data (tabel) menjadi model tree. 2. Mengubah model tree menjadi rule. 3. Menyederhanakan rule (Pruning)[3].

Berikut adalah table data kasus prediksi pembelian computer:


age <=30 <=30 3140 >40 >40 >40 3140 <=30 <=30 >40 <=30 3140 3140 >40 income studentcredit_rating buys_computer high no fair no high no excellent no high no fair yes medium no fair yes low yes fair yes low yes excellent no low yes excellent yes medium no fair no low yes fair yes medium yes fair yes medium yes excellent yes medium no excellent yes high yes fair yes medium no excellent no

Tabel 1. Keputusan pembelian komputer

PERSAMAAN MATEMATIKA
Definisi Entropy Entropy (S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample S. Entropy bisa dikatakan sebagai kebutuhan bit unuk menyatakan suatu kelas. Semakin kecil nilai entropy maka semakin baik utnuk digunakan dalam meng-ekstraksi suatu kelas. Panjang kode untuk menyatakan informasi secara optimal adalah bits untuk messages yang mempunayi probabilitas p. Sehingga jumlah bit yang diperkirakan utnuk mengekstraksi S ke dalam kelas adalah:

TABEL DAN GAMBAR


Berikut adalah gambar konsep decision tree: Dengan: S : Ruang data sample yang akan digunakan untuk training P+ : Jumlah yang bersolusi positif/mendukung P- : Jumlah yang bersolusi negatif/tidak mendukung Niali Gain Tertinggi Dalam kasus pembelian computer, seseorang akan diprediksi apakah dia akan membeli computer atau tidak, dengan mempertimbangkan beberapa atribut yang dimilikinya. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut:

Gambar 1. Konsep Decision Tree

2. Untuk Income: S = [9+,5-] E = -((9/14) Log2 (9/14) + (5/14) Log2 (5/14)) E = 0. 940

Dengan: S : Ruang data sample yang akan digunakan untuk training A : Atribut n : Jumlah partisi atribut A : Jumlah kasus pada partisi ke-i : Jumlah kasus dalam S

PEMBAHASAN
Algoritma C4.5 Dalam kasus yang tertera pada Tabel 1, akan dibuat pohon keputusan untuk menentukan membeli komputer atau tidak dengan melihat umur (age), pendapatan (income), status belajar (student) dan rata-rata kredit (credit rating). Algoritma yang akan digunakan adalah algoritma C4.5 yaitu sebagai berikut: 1. Pilih atribut sebagai akar 2. Buat cabang untuk masing-masing nilai 3. Bagi kasus dalam cabang. 4. Ulangi kasus untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. Langkah yang dilakukan adalah menghitung jumlah kasus, jumlah kasus untuk keputusan Yes, jumlah kasus untuk keputusan No, dan Entropy dari semua kasus dan kasus yang dibagi berdasarkan atribut Age, Income, Student dan Credit-Rating. Setelah itu lakukan penghitungan Gain untuk masingmasing atribut. Hasil perhitungannya adalah sebagai berikut:
1. Untuk Age: S = [9+,5-] E = -((9/14) Log2 (9/14) + (5/14) Log2 (5/14)) E = 0. 940

Gain (S, Income) = 0.940 - (4/14)*1.0 (6/14)*0.918 (4/14)*0.811 = 0.029 3. Untuk Student: S = [9+,5-] E = -((9/14) Log2 (9/14) + (5/14) Log2 (5/14)) E = 0. 940

Gain (S, Student) = 0.940 - (7/14)*0.592 (7/14)*0.985 = 0.152 4. Untuk Credit Rating: S = [9+,5-] E = -((9/14) Log2 (9/14) + (5/14) Log2 (5/14)) E = 0. 940

Gain (S, Credit-rating) = 0.940 - (8/14)*0.811 (6/14)*1.0 = 0.048 Gain (S, AGE)= 0.940 - (5/14)*0.971 (4/14)*0.0 (5/14)*0.971 = 0.246

Karena Age memiliki Gain tertinggi, maka AGE digunakan sebagai ROOT (Simpul Akar).

Income memiliki Gain yang kecil sehingga dipangkas dari pohon karena hanya berpengaruh kecil terhadap hasil prediksi.

KESIMPULAN
Makalah ini menganalisa kinerja metode Decision tree menggunakan algoritma C4.5 dalam proses pengambilan keputusan pembelian computer. Dengan mempertimbangkan beberapa atribut dalam data maka dihitung entropy dan gain tertinggi sehingga dapat menentukan Decision tree yang sesuai dengan algoritma C4.5. Manfaat utama dari penggunaan Decision tree adalah kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan lebih menginterpretasikan solusi dari permasalahan. Decision tree juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Gain (S <=30, Student) = 0.971 (2/5)0.0 (3/5)0.0 = 0.971 Gain (S <=30, Credit_Rating) = 0.971 (3/5)0.918 (2/5)1.0 = 0.020

Selanjutnya, saat Age = 3140 maka apapun keadaan yang lain, pasti akan membeli computer (YES). Sehingga keputusannya menjadi:

DAFTAR PUSTAKA
Artikel Jurnal [1] Yogi yusuf W. 2007, Perbandingan Performansi Algoritma Decision Tree C5.0, Cart, Dan Chaid: Kasus Prediksi Status Resiko Kredit Di Bank X, Seminar Nasional Aplikasi Teknologi Informasi, Yogyakarta. [2] ________, _______, Konsep Data Mining: decision Tree (pohon keputusan) , __________, ______. [3] Ginar Santika Niwanputri, _____ , Penggunaaan Pohon Dalam Decision Tree Analysis Untuk Pengambilan Keputusan Investasi Dalam Perencanaan Bisnis, Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Bandung.

Dengan rule:
R1: If (Age = (<=30)) (Student = Yes) Then Buy_Computer = Yes R2: If (Age = (<=30)) (Student = No) Then Buy_Computer = No R3: If (Age = 31...40) Then Buy_Computer = Yes R4: If (Age = (>40)) (Credit_rating = Fair) Then Buy_Computer = Yes R5: If (Age = (>40)) (Credit_rating = Excellent) Then Buy_Computer = No