Minggu 09 – Klasifikasi
Tugas Praktikum:
1. Tuliskan kembali proses praktikum ini, kemudian buat laporannya.
2. Pengertian klasifikasi? Tuliskan dengan bahasa anda sendiri.
3. Cari tau perbedaan antara algoritma C4.5 dan C5.0?
4. Apa yang dimaksud dengan entropy dan gain?
5. Apa itu pruning (cek pada referensi)
6. Tuliskan rules yang dihasilkan pada praktikum ini! Contoh: Rule 1: (income = high) ∧
(credit_rating = Fair) → No
7. Bandingkan rules yang dihasilkan, dengan rules yang anda hitung pada pertemuan sebelumnya.
Apakah terdapat perbedaan?
8. Kumpulkan laporan, script, dataset dalam bentuk .rar/.zip pada learningif.polibatam.ac.id
Jawaban :
Hasil Running :
Hasil running adalah menepkan sebuah directory kedalam variable yang bernama “lokasi”.
Directory ini nantinya akan dijadikan working directory dimana kita akan bekerja.
4. Buat file baru, beri nama w8.csv, boleh diganti yang lain
Hasil Running :
Script diatas akan membuat sebuah variable yang bernama dataset, variable ini berisi data
excel dengan format (.csv) dan menggunakan pemisah berupa tanda “;”.
6. Instalasi package
install.packages(“C50”)
install.packages(“printr”)
Script :
7. Untuk melihat package yang sudah terinstal pada computer anda, perhatikan pada bagian
kanan bawah
Jawab :
8. Gunakan package
library(C50)
library(printr)
Script:
Hasil Running :
Hasil running akan memuat libgrary C50 dan printr kedalam projek yang akan kita buat.
Hasil Running :
11. Menampilkan pohon yang sudah dibangun
Jawab :
12. . Menjadikan dataset, sebagai data testing. Namun hanya kolom 1,2,3,4 saja, dan tanpa
label
datatesting <-dataset[,1:4] :
Script :
Script diatas akan membuat dataset baru namun hanya pada kolom 1 – 4. Dataset
tersebut akan disimpan pada sebuah variable bernama datatest
Isi Dataset
#prediksi
predictions <-predict(model, datatesting)
Hasil Running :
2) Pengertian klasifikasi? Tuliskan dengan bahasa anda sendiri.
Jawab :
Jawab :
C4.5 yang digunakan untuk membangun sebuah pohon keputusan yang mudah dimengerti
fleksibel dan menarik dikarenakan dapat divisualisasikan dalam bentuk gambar.
Algoritma C5.0 yaitu salah satu algoritma klasifikasi data mining yang khususnya diterapkan
pada teknik decision tree. Dalam algoritma ini pemilihan atribut yang akan diproses
menggunakan information gain.
Jawab :
Entropy adalah ukuran kemurnian semakin rendah nilai entropinya maka semakin murni,
semakin homogen. salah satu besaran termodinamika yang mengukur energi dalam sistem per
satuan temperatur yang tak dapat digunakan untuk melakukan usaha.
Gain adalah Pengurangan entropy total oleh partisi atribut , semakin banyak
partisipasinya,semakin banyak dikurangin.
Jawab :
Pruning adalah proses pemangkasan atau penyederhanaan dari pohon keputusan (decision tree)
sehingga dapat membuat pengelompokkan data menjadi lebih mudah dan lebih singkat.
Jawab :
7) Bandingkan rules yang dihasilkan, dengan rules yang anda hitung pada pertemuan sebelumnya.
Apakah terdapat perbedaan?
Jawab :
Setelah dibandingkan, rules yang dihasilkan pada praktikum ini dengan praktikum minggu lalu
sama.