Anda di halaman 1dari 10

LAPORAN MINGGUAN

PRAKTIKUM DATA MINING


KELOMPOK A

Oleh :

Nama : Virgilius Daton Balamakin


NIM : 201064018
Modul Ke- : 5 (Lima)
Asisten : 1. Caecilia Safira Ferini Marcellina Mitang
2. Devi Octaviani Hasibuan
3. Qurnia Amanah Dwiadi
4. Sahlina

JURUSAN STATISTIKA
FAKULTAS SAINS TERAPAN
INSTITUT SAINS & EKNOLOGI AKPRIND
YOGYAKARTA
2023
A. DATA PERCOBAAN
Data yang digunakan dalam laporan ini adalah pokemon database yang di akses
melalui laman https://pokemondb.net/pokedex/all#type=normal dan sudah di
screaping.
B. RUMUSAN MASALAH
Bagaimana penyelesaian studi kasus dengan algoritma random forest pada data
pokemon database!
C. HASIL DAN PEMBAHASAN
Langkah-langkah penyelesaian:
a) Menampilkan data.frame untuk data dengan nama “Data_Sip” sebagai
berikut:

Berdasarkan output di atas dapat dilihat bahwa terdapat 30 data dan 5 variabel
yaitu variabel Nama, Type, Total, HP, dan Attack.
b) Memilih variabel :
Variabel input (independen) :
a. X1 = Type
b. X2 = Total
c. X3 = HP
Variabel target (dependen) :
Y = Attack
c) Mengubah skala data sesuai tujuan :
Decision tree disini bertujuan untuk membentuk pohon keputusan Attack
berdasarkan variabel Type, Total dan HP.
Variabel Type, Total dan HP diubah menjadi kategori. Berikut hasil output
yang diperoleh:

Dari sintax diatas, skala data berhasil di rubah sesuai tujuan. Berikut adalah
outputnya :

Dari output diatas, variabel yang digunakan untuk analisis selanjutnya adalah
variabel type, kategori_total, kategori_hp, kategori_attack.
Sehingga tampilan data frame baru seperti berikut:
d) Menyiapkan data training dan data testing:
Selanjutnya membagi data menjadi 2 bagian yaitu data training dan data
testing. Data training digunakan untuk membangun model, sedangkan data
testing digunakan untuk menguji keakurasian model. Pada pembagian data
training dan data testing digunakan komposisi 75% : 25%.
Jumlah data training = proporsi data training × n
= 75% × 30 = 22.5 ≈ 22
Jumlah data testing = proporsi data testing × n
= 25% × 30 = 7.5 ≈ 7
Berdasarkan hasil perhitungan diatas maka dapat diketahui bahwa pembagian
data training dan testing adalah 22 dan 7. Berikut adalah pembagian data
training dan testing :
e) Melakukan eksplorasi data:
Decision tree adalah metode nonparametrik, sehingga tidak ada asumsi
khusus, sehingga eksplorasi data dapat dilakukan dengan mengetahui
rangkuman data. Berikut hasil output yang diperoleh:

Dari output diatas, dapat dilhat untuk data testing dan training variabel Y, X2,
dan X3 tipe datanya carakter dan untuk variabel X1 bertipe data numerik yang
mana untuk data training pada variabel X1, angka 8 : 4 artinya data yang
dikodekan dengan 8 atau BugPoison berjumlah paling banyak yaitu sebanyak
4 data, angka 1 : 3 artinya data yang dikodekan dengan 1 atau GrassPoison
berjumlah sebanyak 3 data, dan lain lain seperti pada output diatas, untuk
interpretasi data testing juga sama seperti pada data training.
f) Membangun model untuk “Data Training” dengan ntree=50,mtry=3
Sebelumnya untuk mendapatkan mtry digunakan rumus:
√banyaknya variabel √3
a. mtry = = =0
2 2

b. mtry = √banyaknya variabel = √3 = 1

c. mtry = √banyaknya variabel × 2 = √3 × 2 = 3


atau dengan software R sebagai berikut :

sehingga dari ketiga nilai mtry diatas, kita gunakan nilai mtry terbesar yaitu
3 untuk membangun model. Selanjutnya membuat model, dengan hasil
output sebagai berikut :

Berdasarkan hasil output dapat dilihat bahwa :


a. Tipe untuk random forest adalah klasifikasi.
b. Banyak atau jumlah pohon ada 50 pohon.
c. Jumlah variabel yang dicoba setiap percabangan ada 3.
d. OOB (out of box) estimate of error rate adalah estimasi error
(perkiraan tingkat kesalahan) yang didapatkan jika data di luar dari
data pengujian sebesar 18.18%.
e. Pada matriks didapatkan bahwa terdapat 9 data benar diprediksi
highattack2 dan 2 data salah prediksi highattack2 untuk kategori
highattck2 dengan eror sebesar 0.1818182 %.
f. Pada matriks didapatkan bahwa terdapat 9 data benar diprediksi
lowattack1 dan 2 data salah prediksi lowattack1 untuk kategori
lowattack dengan eror sebesar 0.1818182%.

Berdasarkan hasil output di atas digunakan untuk melihat seberapa


penting variabel predictor (variabel independen) yang sedang diteliti.
Dalam melihat kestabilan variabel prediktor digunakan Mean Decrease
Gini dan dalam melihat tingkat akurasi variabel prediktor digunakan Mean
Decrease Accuracy. Output di atas diketahui bahwa variabel prediktor yang
memiliki nilai MDA dan MDG tertinggi terdapat pada variabel X2 yang
nilainya sebesar 5.228675 dan 4.917523.
 Menampilkan Mean Decrease Accuracy dan Mean Decrease Gini
dalam bentuk plot untuk “MODEL.RF1”
Berdasarkan hasil output di atas dapat dilihat bahwa variabel prediktor yang
memiliki nilai MDA dan MDG tertinggi terdapat pada variabel X2.
g) Menampilkan pohon 1 dengan k = 2

Berdasarkan hasil output dapat dilihat bahwa :


a. Akan di prediksi mendapatkan target highattack2 ketika X2 atau variabel
Kategori_Total < 1.5.
b. Akan di prediksi mendapatkan target lowattack1 ketika X1 atau variabel
type dengan nama atau kode (GrassPoison, Normal, DarkNormal, Fire,
FireFlying, FireDragon, Water, Bug, BugFlying, dan NormalFlying) dan
variabel X3 atau kategori_HP < 1.5.
c. Akan di prediksi mendapatkan target highattack2 ketika X1 atau variabel
type dengan nama atau kode (BugPoison) dan variabel X3 atau kategori_HP
>= 1.5.
h) Hasil prediksi klasifikasi :

Dari output diatas, diketahui Tingkat akurasi data testing model 1 sebesar 87.5%,
didapatkan juga tabel kesalahan klasifikasi data testing yang ditunjukan pada Tabel
dibawah ini :
Prediksi
Aktual
2 (higAttcak) 1 (lowAttcak)
2 (higAttcak) 3 0
1 (lowAttcak) 1 4

Selanjutnya dapat dilihat tabel hasil prediksi data training dari model diatas :
data.train.X1 data.train.X2 data.train.X3 data.train.Y MODEL.RF1.predicted
6 lowtotal lowHP lowAttcak1 lowAttcak1
8 lowtotal higHP higAttcak2 lowAttcak1
6 lowtotal lowHP lowAttcak1 lowAttcak1
1 hightotal higHP higAttcak2 higAttcak2
5 lowtotal lowHP lowAttcak1 lowAttcak1
8 lowtotal lowHP lowAttcak1 lowAttcak1
9 lowtotal higHP lowAttcak1 higAttcak2
5 hightotal lowHP lowAttcak1 higAttcak2
2 lowtotal lowHP lowAttcak1 lowAttcak1
8 hightotal higHP higAttcak2 higAttcak2
11 hightotal higHP higAttcak2 higAttcak2
9 hightotal higHP higAttcak2 higAttcak2
3 hightotal higHP higAttcak2 higAttcak2
10 hightotal lowHP higAttcak2 lowAttcak1
4 hightotal higHP higAttcak2 higAttcak2
11 lowtotal lowHP lowAttcak1 lowAttcak1
3 hightotal higHP higAttcak2 higAttcak2
9 hightotal higHP higAttcak2 higAttcak2
10 lowtotal lowHP lowAttcak1 lowAttcak1
8 lowtotal lowHP lowAttcak1 lowAttcak1
1 hightotal higHP higAttcak2 higAttcak2
1 lowtotal lowHP lowAttcak1 lowAttcak1
Keterangan dari tabel hasil prediksi diatas 1 = lowAttcak, dan 2 = higAttcak. Dari tabel
diatas diketahui bahwa kesalahan prediksi pada hasil klasifikasi adalah 4 atau 4/22.
D. KESIMPULAN
Pada analisis dan pembahasan diperoleh kesimpulan bahwa dengan membagi data
menjadi 2 bagian yaitu data training dan data testing dengan komposisi 75%:25%
didapatkan data training dan testing adalah 22 dan 7 data, selanjutnya untuk
membangun model menggunakan mtry = 3 karena merupakan nilai terbesar,
sehingga di buat model pohon keputusan dengan k=2 didapatkan 3 pohon dan 4 daun
dengan tingkat akurasi sebesar 87.5% dan kesalahan prediksi sebesar 4/22 serta nilai
MDA dan MDG tertinggi terdapat pada variabel X2.

Anda mungkin juga menyukai