Anda di halaman 1dari 9

LAPORAN MINGGUAN

PRAKTIKUM DATA MINING


KELOMPOK A

Oleh :

Nama : Virgilius Daton Balamakin


NIM : 201064018
Modul Ke- : 4 (Empat)
Asisten : 1. Caecilia Safira Ferini Marcellina Mitang
2. Devi Octaviani Hasibuan
3. Qurnia Amanah Dwiadi
4. Sahlina

JURUSAN STATISTIKA
FAKULTAS SAINS TERAPAN
INSTITUT SAINS & EKNOLOGI AKPRIND
YOGYAKARTA
2023
A. DATA PERCOBAAN
Data yang digunakan dalam laporan ini adalah pokemon database yang di akses
melalui laman https://pokemondb.net/pokedex/all#type=normal dan sudah di
screaping.
B. RUMUSAN MASALAH
Bagaimana pembentukan decision tree untuk klasifikasi database pokemon?
C. HASIL DAN PEMBAHASAN
Data yang digunakan pada laporan ini adalah data hasil screaping pokemon data
base, dengan jumlah data yang digunakan sebanyak 30 data dan 4 variabel
(variabel type, variabel total, variabel HP, dan variabel attcak). Berikut adalah
tampilan data yang akan digunakan:

Setelah membuat data frame baru, langkah selanjutnya adalah melihat struktur
data dari data diatas :

Dari output diatas, dapat dilihat tipe data setiap variabel, dimana untuk variabel
nama dan variabel type berbentuk character dan variabel total, variabel HP dan
variabel attcak bertipe numerik.
Selanjutnya mencari nilai rata-rata dari variabel total, HP dan attcak untuk
keperluan meruba tipe data.

Dari output diatas didapatkan nilai rata-rata untuk variabel total sebesar 401.5667,
rata-rata untuk variabel HP sebesar 59.7 dan untuk variabel attcak sebesar
69.93333.
Langkah selanjutnya yaitu merubah skala data dari variabel type, variabel total,
variabel HP dan variabel attcak menjadi faktor atau kategori.

Dari output diatas untuk variabel type bentuk datanya atau skala datanya sudah
berubah menjadi factor, sedangkan untuk variabel yang sebelumnya bernama
total, hp dan attcak berubah menjadi kategori_total, kategori_hp dan
kategori_attcak dengan skala atau bentuk datanya character.
Selanjutnya setelah data di faktorkan atau type datanya telah berubah, dibuat data
frame baru dan merubah nama setiap variabel:

Dari output diatas, nama setiap variabel sudah berubah yang sebula variabel type
menjadi X1, kategori_total menjadi X2, kategori_HP menjadi X3 dan kategori
attcak menjadi Y.
Selanjutnya menyiapkan data training dan data testing, dari data diatas di bagi dua
menjadi data training dan data testing. Data training digunakan untuk membangun
model, sedangkan data testing digunakan untuk menguji keakurasian model. Pada
laporan ini digunakan proporsi data training dan data testing sebesar 80%:20%
dengan perhitungan sebagai berikut:
Jumlah data training = proporsi data training × n
= 80% × 30 = 24
Jumlah data testing = proporsi data testing × n
= 20% × 30 = 6
Berdasarkan hasil perhitungan diatas maka dapat diketahui bahwa pembagian data
training dan testing adalah 24 dan 6 data. Berikut adalah pembagian data training
dan testing :

Output diatas, data dibagi menjadi dua yaitu training dan testing dengan masing
masing banyaknya data adalah 24 dan 6 dengan banyak variabel sebanyak 5
variabel.
Selanjutnya melakukan ekplorasi data dengan melihat karakteristik setiap variabel
yang ada (statistika deskriptif):

Dari output diatas, didapatkan statistik deskriptif setiap variabel, untuk variabel
total memiliki nilai minimum atau terendah sebesar 195.0, nilai tertinggi sebesar
634.0 dengan rata rata sebesar 401.6, untuk variabel HP memiliki nilai minimum
atau terendah sebesar 30.0, nilai tertinggi sebesar 83.0 dengan rata rata sebesar
59.7, untuk variabel attack memiliki nilai minimum atau terendah sebesar 20.0,
nilai tertinggi sebesar 150.0 dengan rata rata sebesar 69.93.
Selanjutnya menentukan Minsplit, Minbucket dan Maxdepth yang akan
digunakan dalam membuat model. Dalam laporan ini minsplit, minbucket dan
maxdepth yang digunakan adalah: Minsplit = 0, Minbucket = 0, Maxdepth = 3,
hasil output yang didapatkan sebagai berikut:

Berdasarkan hasil output diatas didapatkan:


a) Untuk data training memiliki 24 data yang akan dianalisis.
b) 1) menunjukkan akar atau root nodes dengan banyaknya data sebesar 24.
Nilai 12 adalah banyaknyak high attcak dari 24 data yang ada. Sedangkan
12 data yang lain adalah low attcak dari 24 data yang ada, dan nilai
probabilitas untuk high attcak sebesar 0.50000000 serta nilai probabilitas
low attcak sebesar 0.50000000.
c) 2) menunjukkan sub cabang dari nodes. Untuk X2 = hightotal menunjukan
bahwa 12 data yang termasuk hightotal dan 1 data yang termasuk
higAttcak dengan nilai probabilitas untuk hightotal sebesar 0.91666667
dan nilai probabilitas untuk higAttcak sebesar 0.08333333.
d) 3) menunjukkan sub cabang dari nodes. Untuk X2 = lowtotal menunjukan
bahwa 12 data yang termasuk lowtotal dan 1 data yang termasuk lowattcak
dengan nilai probabilitas untuk lowtotal sebesar 0.08333333 dan nilai
probabilitas untuk lowattcak sebesar 0.91666667.
e) 4) menunjukkan sub-sub cabang dari nodes. Untuk X1 =
Type(1,10,11,3,4,8,9) menunjukan bahwa 11 data termasuk dalam type
dan 0 data termasuk kedalam higattcak dengan nilai probabilitas untuk
type sebesar 1.00000000 nilai probabilitas untuk higattcak sebesar
0.00000000.
f) Dan selanjutnya bisa dilihat di output diatas.

Selanjutnya membuat diagram Decision Tree:

Berdasarkan hasil output dapat dilihat bahwa :

a) Terdapat tiga variabel yang berpengaruh dalam klasifikasi database pokemon


(variabel attack) terhadap variabel type, total dan HP.
b) Variabel X2 (Total) menjadi akar atau merupakan variabel paling penting
dalam pembentukan pohon.
c) Terdapat 8 leaf nodes yang mengidentifikasikan:
a. Akan di prediksi mendapatkan target high attack ketika X2(Variabel
Total) = hightotal dan X1 (Variabel Type) = (GrassPoison, Normal,
DarkNormal, FireFlying, FireDragon, BugPoison dan NormalFlying.
b. Akan di prediksi mendapatkan low attcak ketika X2(Variabel Total) =
hightotal dan X1 (Variabel Type) = (GrassPoison, Normal,
DarkNormal, FireFlying, FireDragon, BugPoison dan NormalFlying.
c. Akan di prediksi mendapatkan low attcak ketika X2(Variabel Total) =
hightotal dan X1 (Variabel Type) = (GrassPoison, Normal,
DarkNormal, FireFlying, FireDragon, BugPoison dan NormalFlying.
d. Akan di prediksi mendapatkan low attcak ketika X2(Variabel Total)
tidak sama dengan hightotal dan X3 (Variabel HP) = highp.
e. Akan diprediksi mendapatkan lowattcak ketika X2 atau variabel total
tidak sama dengan hightotal, dan X3 atau variabel HP = higHP dan
variabel X1 atau type tidak sama dengan 8 atau bugpoison.
f. Akan diprediksi mendapatkan higattcak ketika X2 atau variabel total
tidak sama dengan hightotal, dan X3 atau variabel HP = higHP dan
variabel X1 atau type tidak sama dengan 8 atau bugpoison.
Selanjutnya dapat dilihat tabel hasil prediksi data testing dari model diatas :
Nama X1 X2 X3 Y Prediksi.Test
Ivysaur 1 hightotal higHP lowAttcak 1
Charmeleon 2 hightotal lowHP lowAttcak 1
Blastoise 5 hightotal higHP higAttcak 2
Blastoise MB 5 hightotal higHP higAttcak 2
Butterfree 7 lowtotal higHP lowAttcak 1
Spearow 9 lowtotal lowHP lowAttcak 2
Keterangan dari tabel hasil prediksi diatas 1 = lowAttcak, dan 2 = higAttcak. Dari
tabel diatas diketahui bahwa kesalahan prediksi pada hasil klasifikasi adalah 1
atau 1/6.
Dapat diketahui juga Tingkat akurasi data testing model 1 sebesar 83.33% dengan
nilai errornya sebesar 0.166667%. Sehingga diperoleh tabel kesalahan klasifikasi
data testing yang ditunjukan pada Tabel dibawah ini.
Prediksi
Aktual
2 (higAttcak) 1 (lowAttcak)
1 (lowAttcak) 0 3
2 (higAttcak) 2 1

D. KESIMPULAN
Pada analisis dan pembahasan diperoleh kesimpulan bahwa dengan membagi
data menjadi 2 bagian yaitu data training dan data testing, pada penggunaan
maxdepth = 3 diperoleh bahwa rata-rata akurasi (untuk nilai maxdepth = 3)
sebesar 83.33% dan menghasilkan 8 leaf nodes.

Anda mungkin juga menyukai