Laporan Mingguan Modul 05
Laporan Mingguan Modul 05
Oleh :
JURUSAN STATISTIKA
FAKULTAS SAINS TERAPAN
INSTITUT SAINS & EKNOLOGI AKPRIND
YOGYAKARTA
2023
A. DATA PERCOBAAN
Data yang digunakan dalam laporan ini adalah pokemon database yang di akses
melalui laman https://pokemondb.net/pokedex/all#type=normal dan sudah di
screaping.
B. RUMUSAN MASALAH
Bagaimana penyelesaian studi kasus dengan algoritma random forest pada data
pokemon database!
C. HASIL DAN PEMBAHASAN
Langkah-langkah penyelesaian:
a) Menampilkan data.frame untuk data dengan nama “Data_Sip” sebagai
berikut:
Berdasarkan output di atas dapat dilihat bahwa terdapat 30 data dan 5 variabel
yaitu variabel Nama, Type, Total, HP, dan Attack.
b) Memilih variabel :
Variabel input (independen) :
a. X1 = Type
b. X2 = Total
c. X3 = HP
Variabel target (dependen) :
Y = Attack
c) Mengubah skala data sesuai tujuan :
Decision tree disini bertujuan untuk membentuk pohon keputusan Attack
berdasarkan variabel Type, Total dan HP.
Variabel Type, Total dan HP diubah menjadi kategori. Berikut hasil output
yang diperoleh:
Dari sintax diatas, skala data berhasil di rubah sesuai tujuan. Berikut adalah
outputnya :
Dari output diatas, variabel yang digunakan untuk analisis selanjutnya adalah
variabel type, kategori_total, kategori_hp, kategori_attack.
Sehingga tampilan data frame baru seperti berikut:
d) Menyiapkan data training dan data testing:
Selanjutnya membagi data menjadi 2 bagian yaitu data training dan data
testing. Data training digunakan untuk membangun model, sedangkan data
testing digunakan untuk menguji keakurasian model. Pada pembagian data
training dan data testing digunakan komposisi 75% : 25%.
Jumlah data training = proporsi data training × n
= 75% × 30 = 22.5 ≈ 22
Jumlah data testing = proporsi data testing × n
= 25% × 30 = 7.5 ≈ 7
Berdasarkan hasil perhitungan diatas maka dapat diketahui bahwa pembagian
data training dan testing adalah 22 dan 7. Berikut adalah pembagian data
training dan testing :
e) Melakukan eksplorasi data:
Decision tree adalah metode nonparametrik, sehingga tidak ada asumsi
khusus, sehingga eksplorasi data dapat dilakukan dengan mengetahui
rangkuman data. Berikut hasil output yang diperoleh:
Dari output diatas, dapat dilhat untuk data testing dan training variabel Y, X2,
dan X3 tipe datanya carakter dan untuk variabel X1 bertipe data numerik yang
mana untuk data training pada variabel X1, angka 8 : 4 artinya data yang
dikodekan dengan 8 atau BugPoison berjumlah paling banyak yaitu sebanyak
4 data, angka 1 : 3 artinya data yang dikodekan dengan 1 atau GrassPoison
berjumlah sebanyak 3 data, dan lain lain seperti pada output diatas, untuk
interpretasi data testing juga sama seperti pada data training.
f) Membangun model untuk “Data Training” dengan ntree=50,mtry=3
Sebelumnya untuk mendapatkan mtry digunakan rumus:
√banyaknya variabel √3
a. mtry = = =0
2 2
sehingga dari ketiga nilai mtry diatas, kita gunakan nilai mtry terbesar yaitu
3 untuk membangun model. Selanjutnya membuat model, dengan hasil
output sebagai berikut :
Dari output diatas, diketahui Tingkat akurasi data testing model 1 sebesar 87.5%,
didapatkan juga tabel kesalahan klasifikasi data testing yang ditunjukan pada Tabel
dibawah ini :
Prediksi
Aktual
2 (higAttcak) 1 (lowAttcak)
2 (higAttcak) 3 0
1 (lowAttcak) 1 4
Selanjutnya dapat dilihat tabel hasil prediksi data training dari model diatas :
data.train.X1 data.train.X2 data.train.X3 data.train.Y MODEL.RF1.predicted
6 lowtotal lowHP lowAttcak1 lowAttcak1
8 lowtotal higHP higAttcak2 lowAttcak1
6 lowtotal lowHP lowAttcak1 lowAttcak1
1 hightotal higHP higAttcak2 higAttcak2
5 lowtotal lowHP lowAttcak1 lowAttcak1
8 lowtotal lowHP lowAttcak1 lowAttcak1
9 lowtotal higHP lowAttcak1 higAttcak2
5 hightotal lowHP lowAttcak1 higAttcak2
2 lowtotal lowHP lowAttcak1 lowAttcak1
8 hightotal higHP higAttcak2 higAttcak2
11 hightotal higHP higAttcak2 higAttcak2
9 hightotal higHP higAttcak2 higAttcak2
3 hightotal higHP higAttcak2 higAttcak2
10 hightotal lowHP higAttcak2 lowAttcak1
4 hightotal higHP higAttcak2 higAttcak2
11 lowtotal lowHP lowAttcak1 lowAttcak1
3 hightotal higHP higAttcak2 higAttcak2
9 hightotal higHP higAttcak2 higAttcak2
10 lowtotal lowHP lowAttcak1 lowAttcak1
8 lowtotal lowHP lowAttcak1 lowAttcak1
1 hightotal higHP higAttcak2 higAttcak2
1 lowtotal lowHP lowAttcak1 lowAttcak1
Keterangan dari tabel hasil prediksi diatas 1 = lowAttcak, dan 2 = higAttcak. Dari tabel
diatas diketahui bahwa kesalahan prediksi pada hasil klasifikasi adalah 4 atau 4/22.
D. KESIMPULAN
Pada analisis dan pembahasan diperoleh kesimpulan bahwa dengan membagi data
menjadi 2 bagian yaitu data training dan data testing dengan komposisi 75%:25%
didapatkan data training dan testing adalah 22 dan 7 data, selanjutnya untuk
membangun model menggunakan mtry = 3 karena merupakan nilai terbesar,
sehingga di buat model pohon keputusan dengan k=2 didapatkan 3 pohon dan 4 daun
dengan tingkat akurasi sebesar 87.5% dan kesalahan prediksi sebesar 4/22 serta nilai
MDA dan MDG tertinggi terdapat pada variabel X2.