Anda di halaman 1dari 25

11/21/2022 TUGAS 02

STUDI KASUS: KLASIFIKASI DAN


PREDIKSI DETEKSI PENGHUNI PADA
RUMAH PINTAR

Disusun Oleh:
1. Made Meita Puspadewi, S.Pd.,
M.Sc.
2. I Putu Gede Abdi Sudiatmika
S.Pd.,M.Kom
3. Rifky Lana Rahardian, S.Kom.,
M.T

User
[COMPANY NAME]
DAFTAR ISI

1. Project Charte ..................................................................................................................................... 2


2. Penyiapan Data ................................................................................................................................... 5
2.1 Hasil Telaah Data ........................................................................................................................ 8
2.1.1 Analisis Karakteristik Data................................................................................................ 8
2.1.2 Identifikasi Data Pencilan (Outlier) ................................................................................ 10
2.2 Hasil Validasi Data ................................................................................................................... 11
2.3 Hasil Penentuan Object Data ................................................................................................... 11
2.4 Menghapus Duplikasi Data ...................................................................................................... 11
3. Permodelan ........................................................................................................................................ 13
3.1 Membangun Skenario Model (J.62DMI00.012.1) .................................................................. 13
3.2 Membangun Model (J.62DMI00.013.1) .................................................................................. 13
3.2.1 Menyiapkan Parameter Model ........................................................................................ 13
3.2.2 Menggunakan Tools Pemodelan ...................................................................................... 13
3.3 Mengavaluasi Hasil Permodelan (J.62DMI00.014.1)............................................................. 15
3.3.1 Menggunakan model data real ........................................................................................ 15
3.3.2 Menilai hasil permodelan ................................................................................................. 16
3.4 Melakukan Proses Review Pemodelan (J.62DMI00.015.1) ................................................... 17
3.4.1 Menilai Kesesuaian proses pemodelan ............................................................................ 21
3.4.2 Menilai Kulitas Proses Pemodelan .................................................................................. 21
3.4.3 Hasil Performance Model Decision Tree ........................................................................ 21
3.4.4 Interpretasi ........................................................................................................................ 24
1. Project Charte
• Poject Title : Klasifikasi dan Prediksi Deteksi Penghuni Pada Rumah Pintar
• Project Start Date : 21 November 2022
• Project Finis Date : 13 Februari 2023
• Budget Information : Rp. 300.000.000,- (Tiga Ratus Juta Rupiah)
• Manager Project:
• Latar Belakang/Permasalahan:
IIoT 4.0 hadir untuk mencakup semua sistem pemantauan dan pemeliharaan
perusahaan. Oleh karena itu, kami membutuhkan algoritme dan pendekatan yang berani
dan berkelanjutan untuk menganalisis data sensor IoT dan mengungkap pola dan
wawasan tersembunyi. Indeks panas (suhu + kelembaban) adalah salah satu data umum
yang terekam pada alat pembaca IOT ini. Frekuensi data yang masuk sangat cepat. Sensor
membaca ratusan hingga jutaan data per detik. Contohnya adalah sensor situasi pada
smart home yaitu tanggal, suhu, kelembapan, cahaya, tingkat kelembapan, penggunaan
watt. Tujuan dari sensor ini adalah untuk mengetahui apakah ada penghuni rumah yang
berada di dalam rumah saat itu. Oleh karena itu, perlu dilakukan pengklasifikasian dan
perencanaan hunian rumah yang sesuai dengan karakteristik tersebut.
Di antara alternatif yang dikembangkan adalah pendekatan Data Science yang
mengadopsi framework yang banyak digunakan di dunia industri, yaitu framework
CRISP-DM. Kerangka kerja ini dipecah menjadi urutan 11 langkah, termasuk:
memahami tujuan bisnis, memahami tujuan teknis ilmu data, memahami dan melakukan
prapemrosesan data, membuat skenario pemodelan, membangun model yang andal,
mengevaluasi pemodelan, dan meninjau proyek ilmu data. Solusinya digunakan untuk
mengidentifikasi faktor-faktor yang berkontribusi terhadap suhu dalam ruangan. Hasil
prediksi tersebut kemudian digunakan pemilik rumah untuk mengatur suhu ruangan agar
nyaman digunakan.
Sumber data utama untuk tujuan pengembangan model prediksi ini adalah hasil
pendaftaran rumah dengan objek pencarian ruangan menggunakan IoT, menghasilkan
data yang berisi properti berikut: tanggal, suhu, kelembaban, cahaya, kelembaban, suhu.
di sini variabel dependen (variabel pencarian) adalah occupancy.
Tujuan utama penggunaan pendekatan Data Science dalam hal ini adalah:
(1) mengidentifikasi variabel kunci yang mempengaruhi karakteristik, (2) membuat
model prediksi akurat yang dapat digunakan untuk: memprediksi keberadaan penghuni
di rumah. Berdasakan hasil pemodelan prediktif dengan Data Science diharapkan dapat
memberikan wawasan bagi pemilik rumah untuk mengatur suhu yang optimal agar saat
penghuni di dalam rumah dapat hidup dengan nyaman.
• Objectifitas Bisnis:
Diantara alternatif solusi yang dikembangkan adalah metode Data Science yang
menerapkan sebuah framework yang telah dipergunakan secara luas baik pada bidang
industry maupun rumah tangga yaitu CRISP-DM framework. Dari hasil permodelan
prediktir dengan Data Science diharapkan dapat memberikan dan mengatur otomatis suhu
di dalam rumah saat penghuni berada di dalam rumah.
• Resiko dan Alternatif Pelaksanaan:

Resiko Mitigasi
Dataset belum memenuhi tujuan Membersihkan data
bisnis
Tim data science kurang perform Membentuk tim cadangan
Waktu pelaksanaan terlambat Melakukan estimasi pekerjaan dengan
cermat
Komunikasi buruk Memperbanyak saluran komunikasi

• Analisis biaya dan keuntungan:


• Jadwal:

• Tujuan Teknis Data Science:


Tujuan pemanfaatan metode Data Science yang utama didalam kasus ini adalah
menghasilkan model prediktif yang akurat yang dapat dipergunakan untuk: (1)
mengidentifikasi variable kunci yang mempengaruhi penghuni berada di dalam rumah,
dan (2) memprediksi penghuni berada atau tidak di dalam rumah. Dari hasil permodelan
prediktif dengan Data Science diharapkan dapat memberikan kenyamanan pada penghuni
rumah saat penghuni berada atau tidak di dalam rumah.
• Kriteria Kesuksesan Proyek
a) Proyek data science ontime dan on budget
b) Permodelan data science menjawab permasalahan bisnis model regresi
c) Performance model dengan nilai akurasi, presisi, dan recall dengan nilai optimal

• Roles and Responsibilities:

Name and Signature Role Position Contact Information


I Putu Gede Abdi Project
Sudiatmika Manager
S.Pd.,M.Kom

Rifky Lana Ahli DS


Rahardian, S.Kom.,
M.
Made Meita Ahli Olah
Puspadewi Data
2. Penyiapan Data
• Langkah pertama : mengunduh data dari website. File yang diunduh dalam bentuk
format.csv
• Langkah kedua : meload data dengan read csv, jangan lupa pada baris pertama,
merupakan data bukan merupakan informasi fitur maka first row di unlock.

Menjadi

• Langkah ketiga: buka statistic, maka akan terlihat dataset sudah terdeteksi
• Langkah keempat: memberikan nama pada fitur kolom dengan isian sebagai berikut:
a) Date : tanggal pengambilan data sensor
b) Temperature : suhu di dalam rumah
c) Humidity : kelembaban di dalam rumah
d) Light : tingkat cahaya (terang) di dalam rumah
e) CO2 : kadar CO2 di dalam rumah
f) HumidityRatio: Rasio Kelembaban di dalam rumah
g) Occupancy : kehadiran penghuni di dalam rumah

Maka dipilij rename column (operator name: rename)


Maka data akan berubah menjadi

• Langkah kelima : untuk menentukan label, maka pilih set role, dan pilih Occupancy
2.1 Hasil Telaah Data
Hasil analisis tipe dan relasi data adalah terdapat 20.560 record dan 7 fitur dengan
deskripsi pada gambar berikut:

Tidak ada data yang hilang pada masing-masing fitur.


2.1.1 Analisis Karakteristik Data
Analisis label adalah sebagai berikut:
Dari histogram class dapat dilihat bahwa distribusi class unbalanced (tidak
seimbang). Dengan occupancy 0 (tidak ada penghuni) memiliki frekuensi sebesar
15.810. Sedangkan occupancy 1 (ada penghuni) memiliki frekuensi sebesar 4.750.
Saat melakukan pengamatan, fitur banyak yang sudah dalam bentuk numerik dapat
dilihat pada table berikut.
Tabel 1. Hasil analisis Data

Fitur Hasil analisis karakteristik data Tindak lanjut


Occupancy • Type: Integer • Digunakan sebagai
• Pola distribusi data: variable dependent
unbalanced
• Missing value: 0
Tanggal • Type: Date Time • Tidak akan digunakan
• Pola distribusi data: nanti akan dihapus
multimodal
• Missing value: 0
Temperature • Type: Real • Digunakan sebagai
• Pola distribusi data: positif variable independen
skew
• Missing value: 0
Humidity • Type: Real • Digunakan sebagai
• Pola distribusi data: normal variable independen
Fitur Hasil analisis karakteristik data Tindak lanjut
• Missing value: 0
Light • Type: Real • Digunakan sebagai
• Pola distribusi data: positif variable independen
skew
• Missing value: 0
CO2 • Type: Real • Digunakan sebagai
• Pola distribusi data: positif variable independen
skew
• Missing value: 0
HumidityRatio • Type: Real • Digunakan sebagai
• Pola distribusi data: variable independen
multimodal
• Missing value: 0
Karena seluruh fitur sudah dalam bentuk numerical maka tidak perlu melakukan
pengubahan type data.
2.1.2 Identifikasi Data Pencilan (Outlier)
Pada Tahap awal ini, dicek outlier.
Berdasarkan hasil telaah data, maka hipotesis disusun dengan menggunakan atribut
Occupancy sebagai fitur target dan fitu predictor meliputi:
• Temperatur
• Humidity
• Light
• CO2
• HumidityRatio

2.2 Hasil Validasi Data


Berdasarkan hasil telaah data pada poin 2.1, maka dapat disimpulkan sebagai berikut:
• Penilaian kualitas data sesuai dengan tujuan teknis data science dengan sajian
sebagaimana hail analisis karakteristik data.
• Penilaian tingkat kecukupan data sesuai dengan tujuan teknis data science, dengan
sajian sebagaimana hasil analisis karakteristik data.
2.3 Hasil Penentuan Object Data

Fitur/Atribut Jenis Keterangan


Occupancy Label
Temperature Atribut
Humidity Atribut
Light Atribut
CO2 Atribut
Humidity Ratio Atribut

2.4 Menghapus Duplikasi Data


Pada keseluruhan data dicek terlebih dahulu apakah terdapat data yang terduplikasi
(ganda). Perlu dilakukan penghapusan data yang terduplikasi. Ilustrsinya sebagai berikut:
3. Permodelan
3.1 Membangun Skenario Model (J.62DMI00.012.1)
• Teknik permodelan yang dimungkinkan dengan karakteristik data yaitu Model
Decision Tree, Naïve Bayes dan KNN. Alasannya ingin mengetahui model
machine learning dan parameter optimal mana yang sesuai dengan dataset kita.
• Untuk melihat performa, kita akan menggunakan akurasi, presisi dan recall.
3.2 Membangun Model (J.62DMI00.013.1)
3.2.1 Menyiapkan Parameter Model
Pada dataset ini, ditentukan bahwa label sebagai class. Kemudian cek kembali tipe
data class

Dari gambar diatas, dapat dilihat bahwa tipe data integer. Khusus untuk
RAPIDMINER, label harus dalam bentuk polynominal. Maka perlu merubah tipe
data class tersebut dengan cara menggunakan operator “numerical to polynominal”.

3.2.2 Menggunakan Tools Pemodelan


Pemodelan menggunakan rapidminer dan algoritma Decision Tree untuk menguji
data testing. Berikut rangkaian pemodelan yang dilakukan.
• Memasukkan preprocessing ke dalam subprocess
• Diagram pemodelan

Keterangan:
• Rasio data dibagi menjadi 70:30

• Algoritma decision tree menggunakan gain ratio


• Apply model digunakan untuk menerapkan model
• Performance yang dipilih adalah accuracy, precision, recall

3.3 Mengavaluasi Hasil Permodelan (J.62DMI00.014.1)


3.3.1 Menggunakan model data real
3.3.2 Menilai hasil permodelan
Dari data ini dapat melihat performa dari decision tree

Interpretasi:
Nilai akurasi 98.81% berarti bahwa machine learning decision tree yang kita pakai,
berhasil memprediksi tidak ada penghuni (0), dan ada penghuni (1) sebesar 98.81%
Nilai recall 98.88% pada true ada penghuni (1) menunjukkan yang ada penghuni (1)
dengan benar diklasifikasikan sebagai tidak ada penghuni sebesar 98.88%
Nilai recall 98.79% pada TRUE tidak ada penghuni (0) menunjukkan yang tidak ada
penghuni (0) dengan benar diklasifikasikan sebagai kepleset sebesar 98.79%
Nilai weighted Recall 98.84% berarti bahwa (TP / TP + FN) menunjukkan yang ada
penghuni (1) dengan benar diklasifikasikan sebagai ada penghuni (1) sebesar 98.84%
Nilai weighted Precision 98.03% berarti bahwa (TP/TP + FP) menunjukkan yang
diprediksi ada penghuni (1) ternyata memang ada penghuni (1) sebesar 98.03%
3.4 Melakukan Proses Review Pemodelan (J.62DMI00.015.1)
Sebelum pengambilan keputusan, mari kita review beberapa hal:
• Untuk pembagian data, dari 70:30 dicoba menjadi 80:20

Kesimpulan: saat pembagian data 80:20 memiliki akurasi yang lebih kecil
daripada pembagian data 70:30. Maka hasil yang maskimal dan optimal adalah
saat pembagian data 70:30.
• Namun, untuk poin diatas ada sedikit kendala, bagaimana tingkat kehandalan dari
machine learning decision tree yang terbentuk. Maka kita bisa menggunakan
Cross Validation.
• Kemudian kita akan mencari parameter terbaik dari dataset tersebut
Skema dari permodelan menjadi seperti ini:
Dimana didalam optimize parameter mempunyai skema sebagai berikut:

Didalam cross validation, dapat kita taruh skema berikut:

Setelah selesai. Maka kembali ke menu utama, klik “optimize parameter” dan set
parameter berikut:

Klik edit parameter settings:


Setelah itu kembali jalankan.
Mendapatkan performa sebagai berikut:

Dengan detail sebagai berikut:


Dapat dilihat bahwa criterion terbaik berada pada gain ratio dan perlu menggunakan
pruning.
Hasil treenya sebagai berikut:

Dapat dilihat bahwa masih ada leaf tree yang belum pure tapi lebih sedikit daripada
sebelumnya. Dapat dikatakan bahwa tree ini adalah hasil yang maksimal.
3.4.1 Menilai Kesesuaian proses pemodelan
Proses pemodelan sudah sesuai dengan tahapan yang ditentukan mulai dari
menentukan tujuan bisnis, tujuan teknis data science, penyiapan data dan pemodelan
3.4.2 Menilai Kulitas Proses Pemodelan
Rangkaian validasi pemodelan digambarkan sebagai berikut:

3.4.3 Hasil Performance Model Decision Tree


Kita coba menggunakan model klasifikasi lain yaitu Naïve Bayes dan K-NN

Dan subprocess dapat dilihat seperti ini:

Menghasilkan summary untuk Naïve Bayes sebagai berikut:


Serta summary untuk K-NN sebagai berikut:
3.4.4 Interpretasi

Dari hasil pemodelan menggunakan Decision Tree, Naïve Bayes dan K-NN memiliki
nilai akurasi yang berbeda. Akurasi DT adalah 99.22%; Akurasi NB adalah 97.07%;
dan akurasi K-NN adalah 99.16%. Dengan membandingkan ketiga model klasifikasi
tersebut paling maksimal pada model DT. Dapat disimpulkan metode preprocessing
yang membuat performa menjadi maksimal dengan nilai pembagian training dan
testing sebesar 70:30 dengan model klasifikasi Decission Tree.

Anda mungkin juga menyukai