Laporan Praktikum Data Mining Moduul 4
Laporan Praktikum Data Mining Moduul 4
Oleh :
JURUSAN STATISTIKA
FAKULTAS SAINS TERAPAN
INSTITUT SAINS & EKNOLOGI AKPRIND
YOGYAKARTA
2023
A. DATA PERCOBAAN
Data yang digunakan dalam laporan ini adalah pokemon database yang di akses
melalui laman https://pokemondb.net/pokedex/all#type=normal dan sudah di
screaping.
B. RUMUSAN MASALAH
Bagaimana pembentukan decision tree untuk klasifikasi database pokemon?
C. HASIL DAN PEMBAHASAN
Data yang digunakan pada laporan ini adalah data hasil screaping pokemon data
base, dengan jumlah data yang digunakan sebanyak 30 data dan 4 variabel
(variabel type, variabel total, variabel HP, dan variabel attcak). Berikut adalah
tampilan data yang akan digunakan:
Setelah membuat data frame baru, langkah selanjutnya adalah melihat struktur
data dari data diatas :
Dari output diatas, dapat dilihat tipe data setiap variabel, dimana untuk variabel
nama dan variabel type berbentuk character dan variabel total, variabel HP dan
variabel attcak bertipe numerik.
Selanjutnya mencari nilai rata-rata dari variabel total, HP dan attcak untuk
keperluan meruba tipe data.
Dari output diatas didapatkan nilai rata-rata untuk variabel total sebesar 401.5667,
rata-rata untuk variabel HP sebesar 59.7 dan untuk variabel attcak sebesar
69.93333.
Langkah selanjutnya yaitu merubah skala data dari variabel type, variabel total,
variabel HP dan variabel attcak menjadi faktor atau kategori.
Dari output diatas untuk variabel type bentuk datanya atau skala datanya sudah
berubah menjadi factor, sedangkan untuk variabel yang sebelumnya bernama
total, hp dan attcak berubah menjadi kategori_total, kategori_hp dan
kategori_attcak dengan skala atau bentuk datanya character.
Selanjutnya setelah data di faktorkan atau type datanya telah berubah, dibuat data
frame baru dan merubah nama setiap variabel:
Dari output diatas, nama setiap variabel sudah berubah yang sebula variabel type
menjadi X1, kategori_total menjadi X2, kategori_HP menjadi X3 dan kategori
attcak menjadi Y.
Selanjutnya menyiapkan data training dan data testing, dari data diatas di bagi dua
menjadi data training dan data testing. Data training digunakan untuk membangun
model, sedangkan data testing digunakan untuk menguji keakurasian model. Pada
laporan ini digunakan proporsi data training dan data testing sebesar 80%:20%
dengan perhitungan sebagai berikut:
Jumlah data training = proporsi data training × n
= 80% × 30 = 24
Jumlah data testing = proporsi data testing × n
= 20% × 30 = 6
Berdasarkan hasil perhitungan diatas maka dapat diketahui bahwa pembagian data
training dan testing adalah 24 dan 6 data. Berikut adalah pembagian data training
dan testing :
Output diatas, data dibagi menjadi dua yaitu training dan testing dengan masing
masing banyaknya data adalah 24 dan 6 dengan banyak variabel sebanyak 5
variabel.
Selanjutnya melakukan ekplorasi data dengan melihat karakteristik setiap variabel
yang ada (statistika deskriptif):
Dari output diatas, didapatkan statistik deskriptif setiap variabel, untuk variabel
total memiliki nilai minimum atau terendah sebesar 195.0, nilai tertinggi sebesar
634.0 dengan rata rata sebesar 401.6, untuk variabel HP memiliki nilai minimum
atau terendah sebesar 30.0, nilai tertinggi sebesar 83.0 dengan rata rata sebesar
59.7, untuk variabel attack memiliki nilai minimum atau terendah sebesar 20.0,
nilai tertinggi sebesar 150.0 dengan rata rata sebesar 69.93.
Selanjutnya menentukan Minsplit, Minbucket dan Maxdepth yang akan
digunakan dalam membuat model. Dalam laporan ini minsplit, minbucket dan
maxdepth yang digunakan adalah: Minsplit = 0, Minbucket = 0, Maxdepth = 3,
hasil output yang didapatkan sebagai berikut:
D. KESIMPULAN
Pada analisis dan pembahasan diperoleh kesimpulan bahwa dengan membagi
data menjadi 2 bagian yaitu data training dan data testing, pada penggunaan
maxdepth = 3 diperoleh bahwa rata-rata akurasi (untuk nilai maxdepth = 3)
sebesar 83.33% dan menghasilkan 8 leaf nodes.