Oleh Kelompok : I
Yafi Maula Maghfiroh (4115095)
Achmad Miftakhul Ilmi (4115092)
Irvania Nur Sholihah (4115004)
Eko Budi Santoso (4115059)
Martoko (4115026)
JOMBANG
KATA PENGANTAR
Dengan mengucap puji dan syukur kehadirat Allah SWT, karena atas
ridho dan hidayah-Nya, sehingga penulis dapat menyelesaikan laporan ini.
Maksud dan tujuan dari penulisan laporan ini adalah untuk pendalaman materi
data mining dan data warehouse pada Jurusan Sistem Informasi di Universitas
Pesantren Tinggi Darul ‘Ulum Jombang.
Penulis merasa bahwa dalam menyusun laporan ini masih menemui
beberapa kesulitan dan hambatan, disamping itu juga menyadari bahwa penulisan
laporan ini masih jauh dari sempurna dan masih banyak kekurangan-kekurangan
lainnya, maka dari itu kami mengharapkan saran dan kritik yang membangun dari
semua pihak.
Akhir kata, semoga Allah SWT senantiasa melimpahkan karunia-Nya
dan membalas segala amal budi serta kebaikan pihak-pihak yang telah membantu
penulis dalam penyusunan laporan ini dan semoga tulisan ini dapat memberikan
manfaat bagi pihak-pihak yang membutuhkan.
Penulis
ii
DAFTAR ISI
iii
DAFTAR GAMBAR
Gambar 3.5 Hasil Prediksi Rapid Miner dengan Data Uji .................................... 15
iv
BAB 1
PENDAHULUAN
Dalam dunia olahraga cuaca yang baik adalah salah satu faktor pendukung
dimana para atlet bisa melalukan latihan. Oleh karena itu, untuk menghidari
adanya jadwal latihan yang gagal perlu dibuatkan prosedur yang baik agar dapat
meminimalisir kemungkinan akibat masalah yang ada karena cuaca yang tidak
menentu. Pada masalah ini perlu dilakukan proses analisa data golf untuk
mengetahui apakah main atau tidak. Dari data golf yang ada dapat digunakan
untuk dilakukan pengolahan data. Salah satu teknik pengolahan data yang dapat
digunakan dalam proses tersebut adalah klasifikasi. Klasifikasi adalah teknik
pengolahan data yang membagi objek menjadi beberapa kelas sesuai dengan
jumlah kelas yang diinginkan. Dan menggunakan Algoritma C4.5 dalam proses
pengklasifikasi-annya. Yang dapat menentukan apakah altet dapat bermain golf
atau tidak. Kemudian, Hasil dari pengklasifikasiannya divalidasi dengan ten-fold
cross validation dengan tingkat akurasi 96,26 %, presisi 100% dan recall 71,43%.
5
6
1. Untuk mengetahui langkah apa saja yang harus dilakukan pada proses
golf.
BAB 2
LANDASAN TEORI
Data mining adalah proses menganalisa data dari perspektif yang berbeda
dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai
untuk meningkatkan keuntungan, memperkecil biaya pengeluaran, atau bahkan
keduanya. Secara teknis, data mining dapat disebut sebagai proses untuk
menemukan korelasi atau pola dari ratusan atau ribuan field dari sebuah relasional
database yang besar.
Kemampuan data mining untuk mencari informasi bisnis yang berharga
dari basis data yang sangat besar, dapat dianalogikan dengan penambangan logam
mulia dari lahan sumbernya, teknologi ini dipakai untuk :
1. Prediksi trend dan sifat-sifat bisnis, dimana data mining mengotomatisasi
proses pencarian informasi pemprediksi di dalam basis data yang besar
8
A C45
dimana :
S = Himpunan kasus
A = Atribut
n = Jumlah partisi atribut A
| 𝑆𝑖 | = Jumlah kasus pada partisi ke-i
| 𝑆 | = Jumlah kasus dalam S
Sedangkan penghitungan nilai entropy dapat dilihat dalam persamaan berikut:
𝑛
𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆) = ∑ − 𝑝𝑖 ∗ 𝑙𝑜𝑔2 𝑝𝑖
𝑖=1
dimana:
S = Himpunan kasus
i = Fitur
n = Jumlah partisi S
Pi = Proporsi Si terhadap S
10
B ID3
C CART
(CART) adalah salah satu metode atau algoritma dari teknik pohon
keputusan. CART adalah suatu metode statistik nonparametrik yang dapat
menggambarkan hubungan antara variabel respon (variabel dependen) dengan
satu atau lebih variabel prediktor (variabel independen). Menurut Breiman dkk
(1993), apabila variabel respon berbentuk kontinu maka metode yang digunakan
11
adalah metode regresi pohon (regression trees), sedangkan apabila variabel respon
memiliki skala kategorik maka metode yang digunakan adalah metode klasifikasi
pohon (classification trees). Variabel respon dalam penelitian ini berskala
kategorik, sehingga metode yang akan digunakan adalah metode klasifikasi
pohon. Pembentukan pohon klasifikasi terdiri atas 3 tahap yang memerlukan
learning sample L. Tahap pertama adalah pemilihan pemilah. Setiap pemilahan
hanya bergantung pada nilai yang berasal dari satu variabel independen. Untuk
variabel independen kontinu Xj dengan ruang sampel berukuran n dan terdapat n
nilai amatan sampel yang berbeda, maka akan terdapat n - 1 pemilahan yang
berbeda.
Sedangkan untuk Xj adalah variabel kategori nominal bertaraf L , maka
akan diperoleh pemilahan sebanyak 2𝐿−1 − 1. Tetapi jika variabel X adalah
kategori ordinal maka akan diperoleh 𝐿 − 1 pemilahan yang mungkin.
12
13
B Data Uji
2. Masukkan data latih dan data uji ke dalam repository dengan memberikan
tanda label pada kelas play.
14
BAB 4
KESIMPULAN
DAFTAR PUSTAKA