0% menganggap dokumen ini bermanfaat (0 suara)

370 tayangan12 halaman

Data Mining Algoritma C4.5

Diunggah oleh

Acip Suracip

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

370 tayangan12 halaman

Data Mining Algoritma C4.5

Diunggah oleh

Acip Suracip

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

Algoritma C4.

5
Contoh implementasi Data Mining dengan Algoritma
C4.5 menggunakan PHP dan MySQL untuk analisis
prediksi masa studi mahasiswa .
Dalam artikel ini akan ditunjukkan penerapan algoritma C4.5 dengan tehnik klasifikasi yang merupakan
salah satu tehnik Data Mining untuk menganalisa prediksi masa studi mahasiswa. Akan ditunjukkan juga
langkah-langkah pembuatan aplikasinya dengan bahasa pemrograman PHP dan database MySQL.

[ author : cahya dsn (mailto:cahyadsn@gmail.com), published on : February 9, 2017 updated on :

June 8, 2019 ]

minerva (http://cahyadsn.phpindonesia.id)

donasi (https://www.paypal.com/cgi-bin/webscr?cmd=_s-xclick&hosted_button_id=K6YRM43CZ44UQ)

Mau lihat artikel lainya? (articles.php)

Dapatkan artikel-artikel lain seputar pemrograman website di sini (articles.php),
dan dapatkan ide-ide baru

Pendahuluan

Studi Kasus dan Perhitungan Manual

Learning Dataset
Perhitungan Manual

Aplikasi PHP
Persiapan Data
Koneksi ke Database Server
Langkah-langkah Algoritma C4.5

Simpulan

Daftar Pustaka
1. Pendahuluan
Algoritma C4.5 merupakan kelompok algoritma Decision Tree. Algoritma ini mempunyai input berupa training
samples dan samples. Training samples berupa data contoh yang akan digunakan untuk membangun
sebuah tree yang telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang nantinya
akan digunakan sebagai parameter dalam melakukan klasifikasi data ( Sunjana, 2010 )

Algoritma C 4.5 adalah salah satu metode untuk membuat decision tree berdasarkan training data yang telah disediakan.
Algoritma C 4.5 dibuat oleh Ross Quinlan yang merupakan pengembangan dari ID3 yang juga dibuat oleh Quinlan
( Quinlan, 1993 ). Beberapa pengembangan yang dilakukan pada C4.5 antara lain adalah : bisa mengatasi missing value,
bisa mengatasi continue data, dan pruning.

1.1. Klasifikasi
Klasifikasi data merupakan suatu proses yang menemukan properti-properti yang sama pada sebuah himpunan obyek di
dalam sebuah basis data dan mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi yang
ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan model dari training set yang membedakan atribut ke dalam
kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan atribut yang kelasnya belum
diketahui sebelumnya. Teknik klasifikasi terbagi menjadi beberapa teknik yang diantaranya adalah Pohon Keputusan
(Decision Tree).

1.2. Pohon Keputusan (Decision Tree)

Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan
mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah
dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured
Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data,
menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target.

Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, pohon keputusan sangat bagus sebagai
langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah
pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi
himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing
rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain ( Berry dan Linoff, 2004 ).

Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi
lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun
dengan seksama secara manual atau dapat tumbuh secara otomatis dengan menerapkan salah satu atau beberapa
algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi.

Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan
probability dari tiap-tiap record terhadap kategori-kategori tersebut atau untuk mengklasifikasi record dengan
mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel
continue meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini.
Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan,antara lain ID3, CART, dan C4.5
( Larose, 2006 ).

Data dalam pohon keputusan biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu
parameter yang dibuat sebagai kriteria dalam pembentukan pohon. Misalkan untuk menentukan main tenis, kriteria yang
diperhatikan adalah cuaca, angin, dan temperatur.

Salah satu atribut merupakan atribut yang menyatakan data solusi per item data yang disebut target atribut. Atribut memiliki
nilai-nilai yang dinamakan dengan instance. Misalkan atribut cuaca mempunyai instance berupa cerah, berawan, dan hujan
( Basuki dan Syarif, 2003 )

Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi
rule, dan menyederhanakan rule ( Basuki dan Syarif, 2003 ).

1.3. Algoritma C4.5

Berikut ini algoritma dasar dari C4.5:

Input : sampel training, label training, atribut

Output : pohon keputusan

1. Membuat simpul akar untuk pohon yang dibuat

2. Jika semua sampel positif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (+)
3. Jika semua sampel negatif, berhenti dengan suatu pohon dengan satu simpul akar, beri tanda (-)
4. Jika atribut kosong, berhenti dengan suatu pohon dengan suatu simpul akar, dengan label sesuai nilai yang terbanyak
yang ada pada label training
5. Untuk yang lain, Mulai
A. A ------ atribut yang mengklasifikasikan sampel dengan hasil terbaik (berdasarkan Gain rasio)
B. Atribut keputusan untuk simpul akar ----- A
C. Untuk setiap nilai, vi, yang mungkin untuk A
a. Tambahkan cabang di bawah akar yang berhubungan dengan A= vi
b. Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atrribut A
c. Jika sampel Svi kosong
i. Di bawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label
training
ii. Yang lain tambah cabang baru di bawah cabang yang sekarang C4.5 (sampel training, label
training, atribut-[A])
D. Berhenti

Mengubah tree yang dihasilkan dalam beberapa rule. Jumlah rule sama dengan jumlah path yang mungkin dapat dibangun
dari root sampai leaf node.

Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut ( Craw 2005 ).

:
a. Pilih atribut sebagai akar
b. Buat cabang untuk masing-masing nilai
c. Bagi kasus dalam cabang
d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
1.3.1 Gain
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain
digunakan rumus seperti tertera dalam persamaan [C45-01] ( Quinlan 1993, Craw 2005 ).
n ∣Si ∣
Gain(S, A) = Entropy(S) − ∑ ∗ Entropy(Si )
i=1 ∣S∣

.. [C45-01]
Keterangan
S : Himpunan Kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah Kasus pada partisi ke-i
|S| : Jumlah Kasus dalam S

1.3.2. Entropy
Sedangkan penhitungan nilai entropy dapat dilihat pada persamaan [C45-02] berikut ini ( Quinlan 1993, Craw 2005 ).
n
Entropy(S) = ∑ (−pi ) ∗ log2 (pi )
i=1

.. [C45-02]
Keterangan
S : Himpunan Kasus
n : Jumlah partisi atribut S
pi : Proporsi dari Si terhadap S

1.3.3. Information Gain

Information gain adalah salah satu attribute selection measure yang digunakan untuk memilih
test attribute tiap node pada
tree. Atribut dengan informasi gain tertinggi dipilih sebagai test atribut
dari suatu node ( Sunjana, 2010 ). Dalam prosesnya
perhitungan gain bisa terjadi atau tidak suatu missing value.

1.4. Prinsip Kerja

Pada tahap pembelajaran algoritma C4.5 memiliki 2 prinsip kerja yaitu:

1. Pembuatan pohon keputusan. Tujuan dari algoritma penginduksi pohon keputusan adalah mengkontruksi struktur
data pohon yang dapat digunakan untuk memprediksi kelas dari sebuah kasus atau record baru yang belum memiliki
kelas. C4.5 melakukan konstruksi pohon keputusan dengan metode divide and conquer. Pada awalnya hanya dibuat
node akar dengan menerapkan algoritma divide and conquer. Algoritma ini memilih pemecahan kasus-kasus yang
terbaik dengan menghitung dan membandingkan gain ratio, kemudian node-node yang terbentuk di level berikutnya,
algoritma divide and conquer akan diterapkan lagi sampai terbentuk daun-daun.
2. Pembuatan aturan-aturan (rule set). Aturan-aturan yang terbentuk dari pohon keputusan akan membentuk suatu
kondisi dalam bentuk if-then. Aturan-aturan ini didapat dengan cara menelusuri pohon keputusan dari akar sampai
daun. Setiap node dan syarat percabangan akan membentuk suatu kondisi atau suatu if, sedangkan untuk nilai-nilai
yang terdapat pada daun akan membentuk suatu hasil atau suatu then.
2. Studi Kasus dan Perhitungan Manual
Untuk membantu pemahaman terhadap algoritma C4.5 dalam tehnik klasifikasi masalah, berikut disertakan
contoh perhitungan manual analisis prediksi masa studi mahasiswa dengan menggunakan algortima C4.5.

This document using Dynamic Content Technology ™ for enrichment sample case and reading experience

Data yang digunakan BUKAN merupakan data real, tapi data yang digenerate secara otomatis dari sistem
Data dan Nilai Perhitungan yang ditampilkan akan SELALU BERBEDA jika halaman di refresh/reload
Jumlah Dataset yang diperhitungkan, digenerate secara acak/random antara 100 s.d 400
Nilai dari masing-masing dataset ditampilkan secara acak/random

Seiring dengan berkembangnya teknologi penyimpanan data, semakin berkembang pula kemampuan seseorang dalam
mengumpulkan dan mengolah data. Data yang terkumpul dan berukuran besar tersebut merupakan aset yang dapat
dimanfaatkan untuk dianalisis yang hasilnya berupa pengetahuan atau informasi berharga untuk masa mendatang. Tidak
hanya dunia bisnis, namun instansi seperti perguruan tinggi juga mengalami penumpukan data.

Jurusan Teknik Komputer Universitas Antah Berantah adalah program pendidikan tinggi yang memiliki beban studi sekurang-
kurangnya 144 SKS (satuan kredit semester) yang dijadwalkan untuk 8 semester dan dapat ditempuh dalam waktu kurang
dari 8 semester dan paling lama 14 semester. Dari data kelulusan yang diperoleh dari sekretariat Jurusan Teknik Komputer
Program Sarjana (S1) angkatan 2020 hanya 3 orang mahasiswa yang lulus dalam 8 semester. Hal ini menunjukkan bahwa
masih banyak mahasiswa Program Sarjana (S1) reguler di Jurusan Teknik Komputer yang menempuh lama studi lebih dari 8
semester.

Melihat kondisi tersebut diperlukan penelitian untuk menggali data yang dimiliki oleh Jurusan Teknik Komputer. Data yang
akan dimanfaatkan disini adalah data nilai akademik mahasiswa baik yang sudah lulus (yang akan digunakan sebagai data
training dan data testing) maupun yang belum lulus/yang sedang menempuh studi yang akan digunakan untuk memprediksi
masa studi masing-masing mahasiswa. Penelitian ini dirasa perlu karena jika masa studi mahasiswa dapat diketahui lebih
dini, maka pihak jurusan dapat melakukan tindakan-tindakan yang dirasa perlu supaya mahasiswa dapat lulus tepat waktu
sekaligus meningkatkan kualitas jurusan itu sendiri.

Dibutuhkan suatu teknik klasifikasi yang merupakan salah satu teknik dari data mining untuk menganalisis data Jurusan
Teknik Komputer tersebut. Dengan menerapkan teknik ini akan dibangun pohon keputusan (decicion tree) untuk melihat
kemungkinan mahasiswa yang lulus lebih dari 8 semester. Pohon keputusan tersebut merupakan keluaran dari sebuah
aplikasi yang dibangun dengan menerapkan Algoritma C4.5 untuk memprediksi masa studi mahasiswa yang sedang
menempuh perkuliahan.

2.1. Learning Dataset

Berikut ini adalah contoh dataset yang digunakan sebagai bahan pembelajaran (dataset di generate secara random sejumlah
220 data sample/training).

TABEL 1 : Learning Dataset*

No. Jenis Kelamin Usia Domisili IPK Beasiswa Waktu Studi

1 Perempuan >= 22th Dalam kota 2.76 s.d. 3.50 Mendapat beasiswa > 8 smtr

2 Perempuan < 22th Luar kota 2.76 s.d. 3.50 Mendapat beasiswa > 8 smtr

3 Laki-laki < 22th Dalam kota 2.00 s.d. 2.75 Mendapat beasiswa > 8 smtr

4 Perempuan >= 22th Luar kota 3.51 s.d. 4.00 Mendapat beasiswa <= 8 smtr

5 Perempuan < 22th Dalam kota 3.51 s.d. 4.00 Mendapat beasiswa > 8 smtr

6 Perempuan >= 22th Dalam kota 2.76 s.d. 3.50 Tidak mendapat beasiswa <= 8 smtr

7 Laki-laki < 22th Luar kota 2.76 s.d. 3.50 Mendapat beasiswa > 8 smtr

8 Laki-laki >= 22th Dalam kota 2.00 s.d. 2.75 Tidak mendapat beasiswa > 8 smtr

9 Perempuan < 22th Luar kota 2.00 s.d. 2.75 Tidak mendapat beasiswa > 8 smtr

10 Laki-laki >= 22th Luar kota 2.76 s.d. 3.50 Tidak mendapat beasiswa > 8 smtr

11 Perempuan < 22th Luar kota 2.00 s.d. 2.75 Tidak mendapat beasiswa > 8 smtr

12 Laki-laki >= 22th Dalam kota 2.76 s.d. 3.50 Tidak mendapat beasiswa > 8 smtr

13 Laki-laki >= 22th Dalam kota 2.76 s.d. 3.50 Tidak mendapat beasiswa > 8 smtr

14 Perempuan >= 22th Dalam kota 2.76 s.d. 3.50 Tidak mendapat beasiswa > 8 smtr

15 Perempuan >= 22th Luar kota 2.00 s.d. 2.75 Tidak mendapat beasiswa > 8 smtr

...

218 Laki-laki >= 22th Luar kota 3.51 s.d. 4.00 Mendapat beasiswa <= 8 smtr

219 Perempuan >= 22th Dalam kota 2.00 s.d. 2.75 Tidak mendapat beasiswa <= 8 smtr

220 Perempuan < 22th Dalam kota 3.51 s.d. 4.00 Mendapat beasiswa > 8 smtr

)* yang ditampilkan hanya beberapa data saja mengingat banyaknya data yang dipakai dan tidak memungkinkan untuk
ditampilkan semuanya. Data selengkapnya dapat diunduh di tautan pada bagian akhir artikel ini ( -- on progress-- )

Dari Learning Dataset tersebut, dapat dibuat summary sebagai berikut:

TABEL 2 : Summary Learning Dataset

Jumlah Kasus

No Atribut Nilai Atribut Total <= 8 smtr > 8 smtr

1 Total Total 220 69 151

2 Jenis Kelamin Perempuan 99 34 65

3 Jenis Kelamin Laki-laki 121 35 86

4 Usia >= 22 th 108 38 70

Jumlah Kasus

No Atribut Nilai Atribut Total <= 8 smtr > 8 smtr

5 Usia < 22 th 112 31 81

6 Domisili Dalam kota 126 41 85

7 Domisili Luar kota 94 28 66

8 IPK 2.76 s.d. 3.50 138 41 97

9 IPK 2.00 s.d. 2.75 55 20 35

10 IPK 3.51 s.d. 4.00 27 8 19

11 Beasiswa Mendapat beasiswa 114 35 79

12 Beasiswa Tidak mendapat beasiswa 106 34 72

Data Summary Learning Dataset pada TABEL 2 tersebut untuk selanjutnya akan diproses untuk mendapatkan suatu pohon
keputusan -- decision tree, yang akan diuraikan dibagian berikut ini.

2.2. Perhitungan Manual

Berikut ini adalah uraian langkah-langkah dalam algoritma C4.5 untuk menyelesaikan kasus seorang mahasiswa akan lulus
dalam jangka waktu 8 semester atau tidak, berdasarkan jenis kelamin, usia, domisili, IPK, dan beasiswa. Learning Dataset
yang telah ada pada TABEL 1, akan digunakan untuk membentuk pohon keputusan.

Pada TABEL 1, atribut-atributnya adalah Jenis kelamin, Usia, Domisili, IPK, dan Beasiswa. Setiap atribut memiliki nilai.
Sedangkan kelasnya ada pada kolom Waktu Studi yaitu kelas "<= 8 smtr" dan kelas "> 8 smtr". Kemudian data tersebut
dianalisis; dataset tersebut memiliki 220 kasus yang terdiri dari 69 "<= 8 smtr" dan 151 "> 8 smtr" pada kolom Waktu Studi
(Lihat TABEL 2 baris pertama).

2.2.1. Perhitungan Total Entropy

Berdasarkan persamaan C45-02 dapat dihitung nilai Entropy untuk keseluruhan data sample/training/learning dataset (S)
sebagai berikut:
151 151 69 69
Entropy(S) = (−( ) ∗ log2 ( )) + (−( ) ∗ log2 ( ))
220 220 220 220

= (−(0.68636363636364) ∗ (−0.37634770953744)) + (−(0.31363636363636) ∗ (−1.1595210417551))

= 0.25831138245524 + 0.36366796309592

= 0.62197934555116

Hasil perhitungan Entropy dari Dataset (S) tersebut dapat disajikan dalam tabel sebagai berikut (TABEL 3) :

TABEL 3 : Hasil Perhitungan pada Dataset (S)

Total Kasus Jumlah '<= 8 Smtr' Jumlah '> 8 Smtr' Total Entropy

220 69 151 0.62197934555116

2.2.2. Perhitungan Entropy dan Gain tiap Atribut
Setelah mendapatkan entropy dari keseluruhan kasus, kemudian dilakukan analisis pada setiap atribut dan nilai-nilainya dan
menghitung entropy-nya seperti yang ditampilkan pada TABEL 4

TABEL 4 : Analisis Atribut, Nilai, Banyaknya Kejadian Nilai, Entropy dan Gain
Jumlah

<= 8 >8
Node Atribut Nilai Total smtr smtr Entropy Gain

1 Jenis Perempuan 99 34 65 0.6432872200319 0.0016837038673728

Kelamin

Jenis Laki-laki 121 35 86 0.60148435030805

Kelamin

Usia >= 22 th 108 38 70 0.64858547700331 0.0032742535788801

Usia < 22 th 112 31 81 0.5898918635495

Domisili Dalam kota 126 41 85 0.63087070428042 0.00043171366905365

Domisili Luar kota 94 28 66 0.60905074760352

IPK 2.76 s.d. 3.50 138 41 97 0.60838832537674 0.0019029414098779

IPK 2.00 s.d. 2.75 55 20 35 0.65548177390139

IPK 3.51 s.d. 4.00 27 8 19 0.60769342387096

Beasiswa Mendapat beasiswa 114 35 79 0.61669351421007 0.00010940832515061

Beasiswa Tidak mendapat 106 34 72 0.62743703367711

beasiswa

Nilai entropy dari masing-masing nilai atribut yang terdapat pada TABEL 4 diperoleh menggunakan persamaan C45-02,
sebagai contoh untuk nilai Luar kota dari atribut Domisili perhitungan entropy-nya sebagai berikut :

2.2.3. Menentukan Root Node

Karena nilai Gain terbesar adalah Gain(Usia) yaitu sebesar 0.0032742535788801, maka atribut Usia menjadi node akar (root
node)

3. Aplikasi PHP
Sebagai pelengkap artikel data mining dengan Algoritma C4.5 pada bagian ini akan dibahas langkah-
langkah dalam implementasinya dengan bahasa pemrograman PHP dan database MySQL/MariaDB.
3.1. Persiapan Data
Sebelum melangkah ke pembuatan aplikasinya, dipersiapkan dulu untuk struktur database dan tabel-tabel yang berkaitan
dengan aplikasi yang akan dibuat berikut ini

3.1.1 Pembuatan Database

Sebagai bahan pembelajaran aplikasi Data Mining dengan Algoritma C4.5 ini; dibuat database (dalam hal ini menggunakan
MySQL/MariaDB Database server) sebagai berikut:

CREATE DATABASE IF NOT EXISTS db_dm;

USE db_dm;

Awalnya membuat dulu database dengan nama db_dm jika belum ada database dengan nama tersebut, kemudian gunakan
database tersebut dengan memakai sintak USE db_dm;

3.1.2. Membuat Data Tabel Attributes

DROP TABLE IF EXISTS c45_attributes;

CREATE TABLE IF NOT EXISTS c45_attributes(

id INT AUTO_INCREMENT PRIMARY KEY,

name VARCHAR(50),

target INT DEFAULT '0'

);

3.1.3. Membuat Data Tabel Instances

DROP TABLE IF EXISTS c45_instances;

CREATE TABLE IF NOT EXISTS c45_instances(

id INT AUTO_INCREMENT PRIMARY KEY,

id_attribute INT NOT NULL,

name VARCHAR(50)

);

3.1.4. Membuat Data Tabel Samples

DROP TABLE IF EXISTS c45_samples;

CREATE TABLE IF NOT EXISTS c45_samples(

id INT AUTO_INCREMENT PRIMARY KEY,

name VARCHAR(50)

);

3.1.5. Membuat Data Tabel Sample_details

DROP TABLE IF EXISTS c45_sample_details;

CREATE TABLE IF NOT EXISTS c45_sample_details(

id INT AUTO_INCREMENT PRIMARY KEY,

id_sample INT NOT NULL,

id_instance INT NOT NULL

);

3.1.6. Membuat Tabel Decision Tree

DROP TABLE IF EXISTS c45_decision_tree;

CREATE TABLE IF NOT EXISTS c45_decision_tree(

id INT AUTO_INCREMENT PRIMARY KEY,

id_attribute INT NOT NULL,

id_instance INT NOT NULL,

id_target INT DEFAULT '0'

);

3.2. Koneksi ke Database Server

Sebelum melalukan operasi dengan data dari database, perlu dibuat script untuk koneksi ke database terlebih dahulu. Dari
database yang sudah dibuat, kita bisa membuat script php untuk membuat koneksi ke database server dengan extension
mysqli sebagai berikut:

<?php

//-- konfigurasi database

$dbhost = 'localhost';

$dbuser = 'root';

$dbpass = '';

$dbname = 'db_dm';

//-- koneksi ke database server dengan extension mysqli

$db = new mysqli($dbhost,$dbuser,$dbpass,$dbname);

//-- hentikan program dan tampilkan pesan kesalahan jika koneksi gagal

if ($db->connect_error) {

die('Connect Error ('.$db->connect_errno.')'.$db->connect_error);

Sesuaikan nilai-nilai $dbhost,$dbuser,$dbpass dan $dbname dengan konfigurasi database yg digunakan.

3.3. Langkah-langkah Algoritma C4.5

<?php

//-- fungsi Entropy

function entropy($S){

$entropy=0;

foreach($S as $s){

$p= $s/array_sum($S);

$entropy+=(-$p)*log($p);

}

return $entropy;

//-- fungsi Gain

function gain($S,$Si){

$gain=entropy($S);

foreach($Si as $si){

$gain-=($si/array_sum($Si))*entropy($Si);

}

return $gain;

4. Simpulan

5. Daftar Pustaka
Basuki A dan Syarif I, 2003. Decision Tree. Politeknik Elektronika Negeri Surabaya (PENS) – ITS
Berry, Michael J.A & Linoff, Gordon S. 2004. Data Mining Techniques For Marketing, Sales, Customer
Relationship Management Second Editon. United States of America: Wiley Publishing, Inc.
Craw, S., 2005. Case based reasoning: Lecture 3: CBR Case-Base Indexing.
Han, J., & Kamber, M., 2006. Data mining Concepts and Techniques. San Fransisco: Morgan Kaufmann.
Kusrini, & Lutfhi, E. T., 2009. Algoritma Data Mining. Yogyakarta: Andi.
Larose, T. D, 2005. An Introduction to Data Mining. Wiley~Interscience: New Jersey.
Larose D, T., 2006, Data Mining Methods and Models, Jhon Wiley & Sons, Inc. Hoboken New Jersey
Quinlan, J. R., 1993 C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers.
Santosa, B., 2007. Data mining (Teknik Pemanfaatan Data untuk Keperluan Bisnis). Surabaya: Graha Ilmu.
Santosa, B., 2007. Data mining Terapan. Surabaya: Graha Ilmu.
Sunjana, 2010. Seminar Nasional Aplikasi Teknologi Informasi 2010. Snati 2010. Aplikasi Mining Data Mahasiswa
Dengan Metode Klasifikasi Decision Tree , 24-29.
Tan, P. N., Steinbach, M., & Kumar, V., 2005. DATA MINING. New York: Addison Wesley.
6. Artikel Terkait
DSS SAW Method (saw.php)
DSS AHP Method (ahp.php)
DSS ELECTRE Method (electre.php)
DSS MFEP Method (mfep.php)
DSS MPE Method (mpe.php)
DSS CPI Method (cpi.php)
DSS MOORA Method (moora.php)
DSS SMART Method (smart.php)
DSS TOPSIS Method (topsis.php)
DSS Profile Matching Method (profile_matching.php)
DSS VIKOR Method (vikor.php)
DSS WP Method (wp.php)
DSS PROMETHEE Method (promethee.php)
DSS ANP Method (anp.php)

Code licensed under Apache License v2.0 (http://www.apache.org/licenses/LICENSE-2.0), documentation under CC BY 3.0
(http://creativecommons.org/licenses/by/3.0/).

Anda mungkin juga menyukai

Rule Base (Decision Tree) (PPTX)
Belum ada peringkat
Rule Base (Decision Tree) (PPTX)
25 halaman
Acuan Perbandingan ID3 Dan C4.5
Belum ada peringkat
Acuan Perbandingan ID3 Dan C4.5
7 halaman
Algoritma C4.5: Pohon Keputusan
Belum ada peringkat
Algoritma C4.5: Pohon Keputusan
10 halaman
Algoritma C4.5
100% (4)
Algoritma C4.5
35 halaman
Logo Universitas Narotama dalam Data Mining
Belum ada peringkat
Logo Universitas Narotama dalam Data Mining
14 halaman
Aplikasi Prediksi Kredit Nasabah C4.5
Belum ada peringkat
Aplikasi Prediksi Kredit Nasabah C4.5
8 halaman
Decision Tree ID3 dan CART untuk Pembelian Komputer
Belum ada peringkat
Decision Tree ID3 dan CART untuk Pembelian Komputer
21 halaman
Penentuan Harga Ikan Cupang dengan ARAS
Belum ada peringkat
Penentuan Harga Ikan Cupang dengan ARAS
97 halaman
Pohon Keputusan C4.5 dalam Data Mining
Belum ada peringkat
Pohon Keputusan C4.5 dalam Data Mining
7 halaman
Panduan Lengkap Hierarchical Clustering
Belum ada peringkat
Panduan Lengkap Hierarchical Clustering
8 halaman
Sistem Pakar Forward Chaining
Belum ada peringkat
Sistem Pakar Forward Chaining
1 halaman
Model AI: Logika If-Then-Else
Belum ada peringkat
Model AI: Logika If-Then-Else
17 halaman
Algoritma Berbasis Aturan (Rule-Based Reasoning)
Belum ada peringkat
Algoritma Berbasis Aturan (Rule-Based Reasoning)
4 halaman
K-Means Data Mining Kelompok 7
Belum ada peringkat
K-Means Data Mining Kelompok 7
22 halaman
Struktur Hirarki Metode AHP
Belum ada peringkat
Struktur Hirarki Metode AHP
11 halaman
Metode SAW: Algoritma dan Studi Kasus
Belum ada peringkat
Metode SAW: Algoritma dan Studi Kasus
9 halaman
Tugas SPK
Belum ada peringkat
Tugas SPK
7 halaman
Tugas Akhir: Basis Data Penyewaan Mobil
Belum ada peringkat
Tugas Akhir: Basis Data Penyewaan Mobil
11 halaman
Jenis Laporan Manajemen dan Grafik
Belum ada peringkat
Jenis Laporan Manajemen dan Grafik
3 halaman
Penjadwalan Disk
Belum ada peringkat
Penjadwalan Disk
14 halaman
Penyusunan Jadwal Kuliah dengan Forward Chaining
Belum ada peringkat
Penyusunan Jadwal Kuliah dengan Forward Chaining
2 halaman
Laporan Data Mining MENGELOMPOKAN MATAKULIAH BERDASARKAN NILAI YANG SAMA DENGAN METODE CLUSTERING MENGGUNAKAN ALGORITMA K-MEANS
0% (1)
Laporan Data Mining MENGELOMPOKAN MATAKULIAH BERDASARKAN NILAI YANG SAMA DENGAN METODE CLUSTERING MENGGUNAKAN ALGORITMA K-MEANS
15 halaman
Algoritma C45 untuk Klasifikasi Data Golf
Belum ada peringkat
Algoritma C45 untuk Klasifikasi Data Golf
17 halaman
Kunci Jawaban Quiz Sistem Operasi
Belum ada peringkat
Kunci Jawaban Quiz Sistem Operasi
3 halaman
Materi M3 - Tipe Data, Variabel, Konstanta Dan Operator VB
Belum ada peringkat
Materi M3 - Tipe Data, Variabel, Konstanta Dan Operator VB
26 halaman
Artikel Internet Marketing
Belum ada peringkat
Artikel Internet Marketing
17 halaman
Ujian Statistika UPN Yogyakarta 2013
Belum ada peringkat
Ujian Statistika UPN Yogyakarta 2013
1 halaman
Aplikasi Fuzzy Logic (Case Study Prediksi Produksi)
Belum ada peringkat
Aplikasi Fuzzy Logic (Case Study Prediksi Produksi)
46 halaman
Panduan Kebergunaan Sistem Interaktif
Belum ada peringkat
Panduan Kebergunaan Sistem Interaktif
20 halaman
Sistem Informasi Penjualan Mekar Jaya
Belum ada peringkat
Sistem Informasi Penjualan Mekar Jaya
10 halaman
2.3.1 Algoritma Brute Force: X Dengan X X X
Belum ada peringkat
2.3.1 Algoritma Brute Force: X Dengan X X X
31 halaman
Metode SAW untuk Rekrutmen Karyawan
Belum ada peringkat
Metode SAW untuk Rekrutmen Karyawan
12 halaman
Hungarian Model Maksimisasi (Research Operation)
100% (1)
Hungarian Model Maksimisasi (Research Operation)
2 halaman
Pertemuan 3 - Feasibility Studi
Belum ada peringkat
Pertemuan 3 - Feasibility Studi
17 halaman
Multimedia Retrieval
Belum ada peringkat
Multimedia Retrieval
9 halaman
Program Harga Kendaraan VB.NET
Belum ada peringkat
Program Harga Kendaraan VB.NET
8 halaman
Teknologi Penggerak Disk Magnetik
Belum ada peringkat
Teknologi Penggerak Disk Magnetik
30 halaman
Kemiringan dan Keruncingan Distribusi Data
Belum ada peringkat
Kemiringan dan Keruncingan Distribusi Data
36 halaman
Materi 3.5 Memahami Tipe Data Pada Basis Data
Belum ada peringkat
Materi 3.5 Memahami Tipe Data Pada Basis Data
8 halaman
Contoh Tugas Black Box (TBB)
100% (1)
Contoh Tugas Black Box (TBB)
16 halaman
Makalah Mesin Inferensi
Belum ada peringkat
Makalah Mesin Inferensi
8 halaman
Perbedaan 1 Tier 2 Tier 3 Tier Dan N Tier
Belum ada peringkat
Perbedaan 1 Tier 2 Tier 3 Tier Dan N Tier
4 halaman
Pertemuan 6 - Klasifikasi Dengan K-NN
Belum ada peringkat
Pertemuan 6 - Klasifikasi Dengan K-NN
28 halaman
Latihan Normalisasi Data
Belum ada peringkat
Latihan Normalisasi Data
32 halaman
Decision Tree PDF
Belum ada peringkat
Decision Tree PDF
69 halaman
Sistem Pendukung Keputusan Dalam Penentuan Pemberian Pinjaman Uang Pada Anggota Swasti Sari Dengan Metode Promethee
Belum ada peringkat
Sistem Pendukung Keputusan Dalam Penentuan Pemberian Pinjaman Uang Pada Anggota Swasti Sari Dengan Metode Promethee
18 halaman
Desain Database Penyewaan Properti
Belum ada peringkat
Desain Database Penyewaan Properti
27 halaman
Membuat Table & Constraint Di Oracle
100% (1)
Membuat Table & Constraint Di Oracle
15 halaman
Soal Uts Bahasa Dan Automata Taufiq
Belum ada peringkat
Soal Uts Bahasa Dan Automata Taufiq
9 halaman
(Bahasa) Pertemuan 14 - Studi Kasus Analisis Klaster Dengan Algoritma K-Means Clustering Dan Implementasi Python
Belum ada peringkat
(Bahasa) Pertemuan 14 - Studi Kasus Analisis Klaster Dengan Algoritma K-Means Clustering Dan Implementasi Python
19 halaman
Unsur dan Ciri Sistem Pakar
Belum ada peringkat
Unsur dan Ciri Sistem Pakar
3 halaman
Panduan Praktikum Array 1 Dimensi
0% (1)
Panduan Praktikum Array 1 Dimensi
3 halaman
Kelompok 24 - Makalah Data Mining - Preprocessing Data
0% (1)
Kelompok 24 - Makalah Data Mining - Preprocessing Data
13 halaman
Analisis Kualitas Jeruk Menggunakan Data Mining
Belum ada peringkat
Analisis Kualitas Jeruk Menggunakan Data Mining
13 halaman
Kelompok 5 - Data Mining PDF
Belum ada peringkat
Kelompok 5 - Data Mining PDF
21 halaman
Rangkuman Soal Teori Mata Kuliah ERP
Belum ada peringkat
Rangkuman Soal Teori Mata Kuliah ERP
5 halaman
Memahami Data Warehouse dan Data Mining
83% (6)
Memahami Data Warehouse dan Data Mining
22 halaman
Tugas Algoritma ID3
Belum ada peringkat
Tugas Algoritma ID3
16 halaman
Algoritma C4.5 dalam Pohon Keputusan
Belum ada peringkat
Algoritma C4.5 dalam Pohon Keputusan
8 halaman
Klasifikasi Data dengan Algoritma C4.5
Belum ada peringkat
Klasifikasi Data dengan Algoritma C4.5
8 halaman
Eko - Santoso - Journal JIKI Rev 1.0
Belum ada peringkat
Eko - Santoso - Journal JIKI Rev 1.0
9 halaman
Proposal Proyek Pengadaan Aplikasi AI
Belum ada peringkat
Proposal Proyek Pengadaan Aplikasi AI
8 halaman
Data Preprocessing Lanjutan
Belum ada peringkat
Data Preprocessing Lanjutan
41 halaman
Penambangan Data Multimedia dan Spasial
Belum ada peringkat
Penambangan Data Multimedia dan Spasial
43 halaman
Solusi Manajemen Armada dan Penjualan
0% (1)
Solusi Manajemen Armada dan Penjualan
18 halaman
Aplikasi Membership Apotek X Online
Belum ada peringkat
Aplikasi Membership Apotek X Online
1 halaman
Aplikasi POS untuk Apotek Berbasis Laravel
Belum ada peringkat
Aplikasi POS untuk Apotek Berbasis Laravel
8 halaman
Algoritma Asosiasi
Belum ada peringkat
Algoritma Asosiasi
36 halaman
Solusi Manajemen Armada dan Penjualan
0% (1)
Solusi Manajemen Armada dan Penjualan
18 halaman