Anda di halaman 1dari 17

LAPORAN PENELITIAN DATA WAREHOUSE

PENERAPAN ALGORITMA C45 PADA DATA GOLF

Oleh Kelompok : I
Yafi Maula Maghfiroh (4115095)
Achmad Miftakhul Ilmi (4115092)
Irvania Nur Sholihah (4115004)
Eko Budi Santoso (4115059)
Martoko (4115026)

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS PESANTREN TINGGI DARUL ULUM

JOMBANG
KATA PENGANTAR

Dengan mengucap puji dan syukur kehadirat Allah SWT, karena atas
ridho dan hidayah-Nya, sehingga penulis dapat menyelesaikan laporan ini.
Maksud dan tujuan dari penulisan laporan ini adalah untuk pendalaman materi
data mining dan data warehouse pada Jurusan Sistem Informasi di Universitas
Pesantren Tinggi Darul ‘Ulum Jombang.
Penulis merasa bahwa dalam menyusun laporan ini masih menemui
beberapa kesulitan dan hambatan, disamping itu juga menyadari bahwa penulisan
laporan ini masih jauh dari sempurna dan masih banyak kekurangan-kekurangan
lainnya, maka dari itu kami mengharapkan saran dan kritik yang membangun dari
semua pihak.
Akhir kata, semoga Allah SWT senantiasa melimpahkan karunia-Nya
dan membalas segala amal budi serta kebaikan pihak-pihak yang telah membantu
penulis dalam penyusunan laporan ini dan semoga tulisan ini dapat memberikan
manfaat bagi pihak-pihak yang membutuhkan.

Jombang, 14 Mei 2018

Penulis

ii
DAFTAR ISI

KATA PENGANTAR ............................................................................................ ii


DAFTAR ISI .......................................................................................................... iii
DAFTAR GAMBAR ............................................................................................. iv
BAB 1 PENDAHULUAN .......................................................................................5
1.1 Latar Belakang ..........................................................................................5
1.2 Rumusan Masalah .....................................................................................5
1.3 Tujuan Penelitian .......................................................................................6
BAB 2 LANDASAN TEORI ...................................................................................7
2.1 Data Warehouse ........................................................................................7
2.2 Data Mining ...............................................................................................7
2.3 Algoritma Klasifikasi ................................................................................8
2.4 Rapid Miner .............................................................................................11
BAB 3 HASIL DAN PEMBAHASAN..................................................................12
3.1 Data Percobaan ........................................................................................12
3.2 Simulasi Menggunakan Rapid Miner ......................................................13
BAB 4 KESIMPULAN ..........................................................................................16
DAFTAR PUSTAKA ............................................................................................17

iii
DAFTAR GAMBAR

Gambar 2.1 Teknik Klasifikasi ............................................................................... 8

Gambar 3.1Tampilan Awal Aplikasi RapidMiner 5.1 .......................................... 13

Gambar 3.2 Import Data ....................................................................................... 14

Gambar 3.3 Konektivitas antara Data dengan Operator ....................................... 14

Gambar 3.4 Hasil Decision Tree ........................................................................... 15

Gambar 3.5 Hasil Prediksi Rapid Miner dengan Data Uji .................................... 15

iv
BAB 1

PENDAHULUAN

1.1 Latar Belakang

Dalam dunia olahraga cuaca yang baik adalah salah satu faktor pendukung
dimana para atlet bisa melalukan latihan. Oleh karena itu, untuk menghidari
adanya jadwal latihan yang gagal perlu dibuatkan prosedur yang baik agar dapat
meminimalisir kemungkinan akibat masalah yang ada karena cuaca yang tidak
menentu. Pada masalah ini perlu dilakukan proses analisa data golf untuk
mengetahui apakah main atau tidak. Dari data golf yang ada dapat digunakan
untuk dilakukan pengolahan data. Salah satu teknik pengolahan data yang dapat
digunakan dalam proses tersebut adalah klasifikasi. Klasifikasi adalah teknik
pengolahan data yang membagi objek menjadi beberapa kelas sesuai dengan
jumlah kelas yang diinginkan. Dan menggunakan Algoritma C4.5 dalam proses
pengklasifikasi-annya. Yang dapat menentukan apakah altet dapat bermain golf
atau tidak. Kemudian, Hasil dari pengklasifikasiannya divalidasi dengan ten-fold
cross validation dengan tingkat akurasi 96,26 %, presisi 100% dan recall 71,43%.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang telah dijelaskan. Maka penulis dapat

merumuskan masalah, diantaranya:

1. Langkah apa saja yang harus dilakukan pada proses perhitungan

menggunakan algoritma C45?

5
6

2. Bagaimana penerapan algoritma C45 pada data golf menggunakan Rapid


Miner?

1.3 Tujuan Penelitian

Berdasarkan rumusan masalah yang telah diuraikan sebelumnya, maka

tujuan dari penelitian ini adalah:

1. Untuk mengetahui langkah apa saja yang harus dilakukan pada proses

perhitungan menggunakan algoritma C45.

2. Untuk mengetahui hasil klasifikasi penerapan algoritma c.45 pada data

golf.

3. Untuk pendalaman materi data mining dan data warehouse.


7

BAB 2

LANDASAN TEORI

2.1 Data Warehouse

Pengertian data warehouse menurut Inmon (2002, p31), “a data


warehouse is a subject oriented, nonvolatile, time variant collection of data in
support of management’s decisions ” atau dapat diartikan “ data warehouse adalah
koleksi data yang mempunyai sifat berorientasi subjek, terintegrasi , tidak
mengalami perubahan dan mempunyai variasi waktu yang digunakan untuk
mendukung proses pengambilan keputusan manajemen”.
Menurut Vidette Poe, data warehouse merupakan database yang bersifat
analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang
keputusan.

2.2 Data Mining

Data mining adalah proses menganalisa data dari perspektif yang berbeda
dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai
untuk meningkatkan keuntungan, memperkecil biaya pengeluaran, atau bahkan
keduanya. Secara teknis, data mining dapat disebut sebagai proses untuk
menemukan korelasi atau pola dari ratusan atau ribuan field dari sebuah relasional
database yang besar.
Kemampuan data mining untuk mencari informasi bisnis yang berharga
dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam
mulia dari lahan sumbernya, teknologi ini dipakai untuk :
1. Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi
proses pencarian informasi pemprediksi di dalam basis data yang besar
8

2. Penemuan pola-pola yang tidak diketahui sebelumnya, dimana data


mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang
sebelumnya tersembunyi dalam satu sapuan.
Data mining berguna untuk membuat keputusan yang kritis, terutama
dalam strategi.

2.3 Algoritma Klasifikasi

Klasifikasi data adalah suatu proses yang menemukan properti-properti


yang sama pada sebuah himpunan obyek di dalam sebuah basis data, dan
mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model
Klasifikasi yang ditetapkan. Tujuan dari klasifikasi adalah untuk menemukan
model dari training set yang membedakan atribut ke dalam kategori atau kelas
yang sesuai, model tersebut kemudian digunakan untuk mengklasifikasikan
atribut yang kelasnya belum diketahui sebelumnya.
Teknik klasifikasi terbagi menjadi beberapa teknik yang di antaranya
sebagai berikut :

Gambar 2.1 Teknik Klasifikasi


Menurut Larose (2005) bahwa ada beberapa algoritma yang dapat
digunakan dalam pembentukan pohon keputusan, antara lain C45, ID3, dan
CART.
9

A C45

Algoritma C4.5 merupakan kelompok algoritma decision tree. Algoritma


ini mempunyai input berupa training samples dan samples. Training samples
berupa data contoh yang akan digunakan untuk membangun sebuah tree yang
telah diuji kebenarannya. Sedangkan samples merupakan field-field data yang
nantinya akan kita gunakan sebagai parameter dalam melakukan klasifikasi data.
Algoritma C4.5 adalah algoritma hasil pengembangan dari algoritma ID3.Secara
umum algoritma C4.5 untuk membangun sebuah pohon keputusan adalah sebagai
berikut:
1. Pilih atribut sebagai akar,
2. Buat cabang untuk tiap–tiap nilai,
3. Bagi kasus dalam cabang, dan
4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari
atribut-atribut yang ada. Untuk menghitung gain digunakan rumus berikut:
𝑛
| 𝑆𝑖 |
𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) − ∑ ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆𝑖)
|𝑆|
𝑖=1

dimana :
S = Himpunan kasus
A = Atribut
n = Jumlah partisi atribut A
| 𝑆𝑖 | = Jumlah kasus pada partisi ke-i
| 𝑆 | = Jumlah kasus dalam S
Sedangkan penghitungan nilai entropy dapat dilihat dalam persamaan berikut:
𝑛

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ − 𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖
𝑖=1
dimana:
S = Himpunan kasus
i = Fitur
n = Jumlah partisi S
Pi = Proporsi Si terhadap S
10

B ID3

Iterative Dichotomicer 3 (ID3) adalah algoritma decision tree learning


(algoritma pembelajaran pohon keputusan) yang paling dasar. Algoritma ini
melakukan pencarian secara rakus atau menyeluruh (greedy), pada semua
kemungkinan pohon keputusan. Salah satu algoritma induksi pohon keputusan
yaitu ID3 (Iterative Dichotomiser 3).
ID3 dikembangkan oleh J. Ross Quinlan. Algoritma ID3 dapat
diimplementasikan menggunakan fungsi rekursif (fungsi yang memanggil dirinya
sendiri). Algoritma ID3 berusaha membangun decision tree (pohon keputusan)
secara top-down (dari atas kebawah), mulai dengan pertanyaan : “atribut mana
yang pertama kali harus dicek dan diletakkan pada root ?” pertanyaan ini dijawab
dengan mengevaluasi semua atribut yang ada dengan menggunakan suatu ukuran
statistik (yang banyak digunakan adalah information gain) untuk mengukur
efektivitas suatu atribut dalam mengklasifikasikan kumpulan sampel data. Berikut
adalah cara kerja dari algoritma ID3:
1. Pemilihan atribut dengan menggunakan Information Gain.
2. Pilih atribut dimana nilai gainnya paling besar.
3. Buat simpul yang berisi atribut tersebut.
4. Proses perhitungan Information Gain akan terus dilaksanakan sampai
semua data masuk kedalam kelas yang sama, sedangkan atribut yang telah
dipilih tidak diikutkan lagi dalam perhitungan nilai information gain.
Gain mengukur seberapa baik suatu atribut memisahkan training example
kedalam kelas target. Atribut dengan informasi tertinggi akan dipilih. Dengan
tujuan untuk mendefinisikan gain, pertamatama digunakanlah ide dari teori
informasi yang disebut entropi. Entropi mengukur jumlah dari informasi.

C CART

(CART) adalah salah satu metode atau algoritma dari teknik pohon
keputusan. CART adalah suatu metode statistik nonparametrik yang dapat
menggambarkan hubungan antara variabel respon (variabel dependen) dengan
satu atau lebih variabel prediktor (variabel independen). Menurut Breiman dkk
(1993), apabila variabel respon berbentuk kontinu maka metode yang digunakan
11

adalah metode regresi pohon (regression trees), sedangkan apabila variabel respon
memiliki skala kategorik maka metode yang digunakan adalah metode klasifikasi
pohon (classification trees). Variabel respon dalam penelitian ini berskala
kategorik, sehingga metode yang akan digunakan adalah metode klasifikasi
pohon. Pembentukan pohon klasifikasi terdiri atas 3 tahap yang memerlukan
learning sample L. Tahap pertama adalah pemilihan pemilah. Setiap pemilahan
hanya bergantung pada nilai yang berasal dari satu variabel independen. Untuk
variabel independen kontinu Xj dengan ruang sampel berukuran n dan terdapat n
nilai amatan sampel yang berbeda, maka akan terdapat n - 1 pemilahan yang
berbeda.
Sedangkan untuk Xj adalah variabel kategori nominal bertaraf L , maka
akan diperoleh pemilahan sebanyak 2𝐿−1 − 1. Tetapi jika variabel X adalah
kategori ordinal maka akan diperoleh 𝐿 − 1 pemilahan yang mungkin.

2.4 Rapid Miner

Rapid Miner adalah platform perangkat lunak ilmu data yang


dikembangkan oleh perusahaan bernama sama dengan yang menyediakan
lingkungan terintegrasi untuk persiapan data, pembelajaran mesin, pembelajaran
dalam, penambangan teks, dan analisis prediktif. Hal ini digunakan untuk bisnis
dan komersial, juga untuk penelitian, pendidikan, pelatihan, rapid prototyping,
dan pengembangan aplikasi serta mendukung semua langkah dalam proses
pembelajaran mesin termasuk persiapan data, hasil visualisasi, validasi model, dan
optimasi.
Rapid Miner dikembangkan pada model inti terbuka. Dengan Rapid
Miner Studio Free Edition, yang terbatas untuk 1 prosesor logika dan 10.000 baris
data, tersedia di bawah lisensi AGPL. Harga komersial dimulai dari $2.500 dan
tersedia dari pengembang.
BAB 3

HASIL DAN PEMBAHASAN

3.1 Data Percobaan

Karena metode klasifiksai merupakan supervised learning maka data kami


bagi menjadi dua yaitu data latih dan data uji. Berikut merupakan data golf yang
kami gunakan untuk melakukan praktikum :
A Data Latih

Tabel 1 Data Latih


No Outlook Temperature Humidity Windy Play
1 Sunny Hot High FALSE don't play
2 Sunny Hot High TRUE don't play
3 Cloudy Hot High FALSE play
4 Rainy Mild High FALSE play
5 Rainy Cool Normal FALSE play
6 Rainy Cool Normal TRUE play
7 Cloudy Cool Normal TRUE play
8 Sunny Mild High FALSE don't play
9 Sunny Cool Normal FALSE play
10 Rainy Mild Normal FALSE play
11 Sunny Mild Normal TRUE play
12 Cloudy Mild High TRUE play
13 Cloudy Hot Normal FALSE play

12
13

B Data Uji

Tabel 2 Data Uji


No Outlook Temperature Humidity Windy Play
1 Rainy Mild High TRUE don't play

3.2 Simulasi Menggunakan Rapid Miner

Berikut merupakan langkah-langkah dalam mensimulasikan data golf


terhadap software Rapid Miner :
1. Jalankan terlebih dahulu Rapid Miner 8.1 sehingga muncul tampilan awal
seperti dibawah ini;

Gambar 3.1Tampilan Awal Aplikasi RapidMiner 5.1

2. Masukkan data latih dan data uji ke dalam repository dengan memberikan
tanda label pada kelas play.
14

Gambar 3.2 Import Data


3. Masukkan data latih, data uji, operator decision tree, operator apply model
ke dalam kotak process, kemudian hubungkan satu sama lain seperti pada gambar
dibawah ini, kemudian klik icon segitiga biru atau tombol F11 untuk mendapatkan
hasil.

Gambar 3.3 Konektivitas antara Data dengan Operator


15

4. Pola informasi yang dihasilkan dari proses klasifikasi ini ditampilkan


dalam bentuk pohon keputusan (decision tree) sehingga mudah dimengerti oleh
pihak yang berkepentingan. Berikut merupakan hasil berupa pohon keputusan
(decision tree).

Gambar 3.4 Hasil Decision Tree


Sedangkan gambar dibawah ini menunjukkan bahwa data uji dengan
hasil prediksi memiliki hasil yang sama yaitu don’t play.

Gambar 3.5 Hasil Prediksi Rapid Miner dengan Data Uji


16

BAB 4

KESIMPULAN

Berdasarkan hasil penelitian yang telah dilakukan, maka dapat ditarik


kesimpulan bahwa penerapan algoritma C4.5 pada data golf akan bermanfaat
dalam proses pengambilan keputusan dalam terjadi atau tidaknya permainan.
1. Yang menjadi faktor tertinggi yang mempengaruhi terjadinya
permainan golf adalah tingkat kelembapan.
2. Jika tingkat kelembapan dalam kategori normal maka permainan golf
dapat dilakukan.
3. Namun apabila tingkat kelembapan dalam kategori tinggi lebih dari 6
maka tidak diperbolehkan untuk bermain, tetapi jika tingkat
kelembapan kurang dari 6 maka masih diperkenankan untuk bermain
golf.
17

DAFTAR PUSTAKA

Inmon, William H. 2005. Building Data Warehouse. 3th Edition. Canada:


John Wiley & Sons.
Poe, Vidette(1998). Building Data Warehouse for Decision Support,
edisi-2. Prentice Hall.
http://elib.unikom.ac.id/files/disk1/676/jbptunikompp-gdl-luqmanpanj
33787-8-12.unik-i.pdf (diakses pada tanggal 26 Mei 2018).
http://cahyadsn.dev.php.or.id/extra/c45.php (diakses pada tanggal 26 Mei
2018)
http://elib.unikom.ac.id/files/disk1/588/jbptunikompp-gdl-idahamidah-
29367-8-unikom_i-i.pdf (diakses pada tangal 26 Mei 2018)
https://id.wikipedia.org/wiki/RapidMiner (diakses pada tangal 26 Mei
2018)

Anda mungkin juga menyukai