Disusun Oleh:
1. Made Meita Puspadewi, S.Pd.,
M.Sc.
2. I Putu Gede Abdi Sudiatmika
S.Pd.,M.Kom
3. Rifky Lana Rahardian, S.Kom.,
M.T
User
[COMPANY NAME]
DAFTAR ISI
Resiko Mitigasi
Dataset belum memenuhi tujuan Membersihkan data
bisnis
Tim data science kurang perform Membentuk tim cadangan
Waktu pelaksanaan terlambat Melakukan estimasi pekerjaan dengan
cermat
Komunikasi buruk Memperbanyak saluran komunikasi
Menjadi
• Langkah ketiga: buka statistic, maka akan terlihat dataset sudah terdeteksi
• Langkah keempat: memberikan nama pada fitur kolom dengan isian sebagai berikut:
a) Date : tanggal pengambilan data sensor
b) Temperature : suhu di dalam rumah
c) Humidity : kelembaban di dalam rumah
d) Light : tingkat cahaya (terang) di dalam rumah
e) CO2 : kadar CO2 di dalam rumah
f) HumidityRatio: Rasio Kelembaban di dalam rumah
g) Occupancy : kehadiran penghuni di dalam rumah
• Langkah kelima : untuk menentukan label, maka pilih set role, dan pilih Occupancy
2.1 Hasil Telaah Data
Hasil analisis tipe dan relasi data adalah terdapat 20.560 record dan 7 fitur dengan
deskripsi pada gambar berikut:
Dari gambar diatas, dapat dilihat bahwa tipe data integer. Khusus untuk
RAPIDMINER, label harus dalam bentuk polynominal. Maka perlu merubah tipe
data class tersebut dengan cara menggunakan operator “numerical to polynominal”.
Keterangan:
• Rasio data dibagi menjadi 70:30
Interpretasi:
Nilai akurasi 98.81% berarti bahwa machine learning decision tree yang kita pakai,
berhasil memprediksi tidak ada penghuni (0), dan ada penghuni (1) sebesar 98.81%
Nilai recall 98.88% pada true ada penghuni (1) menunjukkan yang ada penghuni (1)
dengan benar diklasifikasikan sebagai tidak ada penghuni sebesar 98.88%
Nilai recall 98.79% pada TRUE tidak ada penghuni (0) menunjukkan yang tidak ada
penghuni (0) dengan benar diklasifikasikan sebagai kepleset sebesar 98.79%
Nilai weighted Recall 98.84% berarti bahwa (TP / TP + FN) menunjukkan yang ada
penghuni (1) dengan benar diklasifikasikan sebagai ada penghuni (1) sebesar 98.84%
Nilai weighted Precision 98.03% berarti bahwa (TP/TP + FP) menunjukkan yang
diprediksi ada penghuni (1) ternyata memang ada penghuni (1) sebesar 98.03%
3.4 Melakukan Proses Review Pemodelan (J.62DMI00.015.1)
Sebelum pengambilan keputusan, mari kita review beberapa hal:
• Untuk pembagian data, dari 70:30 dicoba menjadi 80:20
Kesimpulan: saat pembagian data 80:20 memiliki akurasi yang lebih kecil
daripada pembagian data 70:30. Maka hasil yang maskimal dan optimal adalah
saat pembagian data 70:30.
• Namun, untuk poin diatas ada sedikit kendala, bagaimana tingkat kehandalan dari
machine learning decision tree yang terbentuk. Maka kita bisa menggunakan
Cross Validation.
• Kemudian kita akan mencari parameter terbaik dari dataset tersebut
Skema dari permodelan menjadi seperti ini:
Dimana didalam optimize parameter mempunyai skema sebagai berikut:
Setelah selesai. Maka kembali ke menu utama, klik “optimize parameter” dan set
parameter berikut:
Dapat dilihat bahwa masih ada leaf tree yang belum pure tapi lebih sedikit daripada
sebelumnya. Dapat dikatakan bahwa tree ini adalah hasil yang maksimal.
3.4.1 Menilai Kesesuaian proses pemodelan
Proses pemodelan sudah sesuai dengan tahapan yang ditentukan mulai dari
menentukan tujuan bisnis, tujuan teknis data science, penyiapan data dan pemodelan
3.4.2 Menilai Kulitas Proses Pemodelan
Rangkaian validasi pemodelan digambarkan sebagai berikut:
Dari hasil pemodelan menggunakan Decision Tree, Naïve Bayes dan K-NN memiliki
nilai akurasi yang berbeda. Akurasi DT adalah 99.22%; Akurasi NB adalah 97.07%;
dan akurasi K-NN adalah 99.16%. Dengan membandingkan ketiga model klasifikasi
tersebut paling maksimal pada model DT. Dapat disimpulkan metode preprocessing
yang membuat performa menjadi maksimal dengan nilai pembagian training dan
testing sebesar 70:30 dengan model klasifikasi Decission Tree.