Nama : Ardy Andhika Haydar
Nim : 20210801084
Prodi : Teknik Informatika
Matkul : Data Mining
Tugas
1. Data yang saya gunakan adalah data riil dari web resmi Kaggle yang berhubungan dengan
industry perbankan, https://www.kaggle.com/datasets/brmil07/bank-stock-price Berikut
adalah link resmi dari data yang saya gunakan
2. Saya tidak melakukan “cleansing” dikarenakan data yang saya gunakan ternyata sudah
bersih atau sudah siap untuk digunakan, jadi setelah saya memasukan file ke aplikasi
RapidMiner saya langsung melakukan proses Algoritma dengan metode K-Means dan
Naive Bayes
3. K-Means
- Langkah pertama saya memasukan operator berupa Read CSV yang saya gunakan
untuk memasukan data yang ingin saya gunakan,
- Langkah kedua saya menggunakan Set Role untuk menentukan bagian mana yang ingin
di jadikan Label,
- Langkah ketiga kita masukan operator KNNnya,
- Langkah keempat karna ini sifatnya pengujian maka saya memasukan operator Apply
Model,
- Langkah kelima saya memasukan operator Performance, saya menggunakan
Performance karena KNN merupakan bagian dari klasifikasi,
- Langkah keenam lalu saya menambahkan lagi operator Read CSV dan Set Role karena
ini bersifat Pengujian
- Langkah ketujuh saya menjalankan Process dengan melakukan Run,
- Dibawah ini adalah Hasil dari Run Process tersebut
Dari hasil Run bisa kita simpulkan Bahwa :
- Prediksi TRUE : data true TRUE memiliki 2408 data, dan true FALSE memiliki 43
data,
- Prediksi FALSE : data true TRUE memiliki 4 data, dan true FALSE memiliki 28 data,
- Class Precision : Prediksi TRUE = 98.25% dan Prediksi FALSE = 87.50%
- Class Recall : true TRUE = 99.83% dan true FALSE = 39.44%
4. Naive Bayes
- Langkah pertama saya memasukan operator Read CSV ke dalam Process untuk
memasukan data yang ingin kita analisis,
- Langkah kedua saya memasukan operator Naive Bayes untuk jalur analisisnya,
- Langkah Ketiga saya memasukan operator Validation
- Langkah Kempat kita masuk ke Validation untuk memasukan beberapa operator lagi
- Langkah kelima saya memasukan operator Naive Bayes di dalam validation di kotak
Training,
- Langkah keenam saya memasukan operator Apply Model dan Performance di dalam
validation di kotak Testing
- Langkah ketujuh saya menyambungkan semua operator agar terhubung di dalam
process untuk saya Run
- Dibawah ini adalah hasil Runnya
- Prediksi TRUE : Data true TRUE memiliki 724 data, dan true FALSE 0 data
- Prediksi FALSE : Data true TRUE memiliki 0 data, dan true FALSE 21 data
- Class Precision : Prediksi TRUE = 100.00% dan Prediksi FALSE = 100.00%
- Class Recall : true TRUE = 100.00% dan true FALSE = 100.00%
5. A.) Hasil Interpretasi dari analisa hasil K-Means
- Prediksi TRUE: Model memprediksi kelas TRUE sebanyak 2451 kali. Dari prediksi
tersebut, 2408 di antaranya benar-benar merupakan data yang memiliki label TRUE,
sementara 43 lainnya adalah data yang seharusnya memiliki label FALSE tetapi salah
diprediksi sebagai TRUE oleh model.
- Prediksi FALSE: Model memprediksi kelas FALSE sebanyak 32 kali. Dari prediksi
tersebut, hanya 4 data yang sebenarnya adalah data TRUE yang salah diprediksi
sebagai FALSE, sedangkan 28 data lainnya adalah data yang benar-benar memiliki
label FALSE.
- Precision: Presisi mengukur seberapa akurat model dalam memprediksi suatu kelas.
Presisi untuk kelas TRUE adalah 98.25%, yang berarti dari semua prediksi yang
dilakukan oleh model sebagai TRUE, 98.25% di antaranya benar-benar benar.
Sedangkan presisi untuk kelas FALSE adalah 87.50%, yang berarti dari semua prediksi
yang dilakukan oleh model sebagai FALSE, 87.50% di antaranya benar-benar benar.
- Recall: Recall mengukur seberapa baik model dalam menemukan semua contoh kelas
yang benar. Recall untuk kelas TRUE adalah 99.83%, yang berarti model berhasil
menemukan 99.83% dari semua contoh yang sebenarnya TRUE. Namun, recall untuk
kelas FALSE adalah 39.44%, yang berarti model hanya berhasil menemukan 39.44%
dari semua contoh yang sebenarnya FALSE.
Dengan demikian, model tampaknya memiliki kinerja yang baik dalam memprediksi
kelas TRUE, terlihat dari presisi yang tinggi dan recall yang sangat tinggi. Namun, kinerja
model dalam memprediksi kelas FALSE dapat ditingkatkan karena presisi dan recallnya
lebih rendah dibandingkan dengan kelas TRUE.
B.) Hasil Interpretasi dari analisa hasil Naive Bayers
- Prediksi TRUE: Model memprediksi kelas TRUE sebanyak 724 kali. Dari prediksi
tersebut, semua data (100%) yang sebenarnya memiliki label TRUE berhasil diprediksi
dengan benar. Tidak ada satupun dari data yang seharusnya memiliki label FALSE
yang salah diprediksi sebagai TRUE oleh model.
- Prediksi FALSE: Model memprediksi kelas FALSE sebanyak 21 kali. Dari prediksi
tersebut, semua data (100%) yang sebenarnya memiliki label FALSE berhasil
diprediksi dengan benar. Tidak ada satupun dari data yang seharusnya memiliki label
TRUE yang salah diprediksi sebagai FALSE oleh model.
- Precision: Presisi untuk kedua kelas, baik TRUE maupun FALSE, adalah 100%. Ini
berarti bahwa dari semua prediksi yang dilakukan oleh model sebagai TRUE atau
FALSE, tidak ada yang salah.
- Recall: Recall untuk kedua kelas, TRUE dan FALSE, juga adalah 100%. Ini berarti
model berhasil menemukan semua contoh yang sebenarnya merupakan TRUE dan
FALSE.
Dari hasil ini, dapat disimpulkan bahwa model memiliki kinerja yang sangat baik dalam
memprediksi kelas baik TRUE maupun FALSE. Dengan presisi dan recall mencapai 100%
untuk kedua kelas, model ini tampaknya sangat akurat dalam mengidentifikasi data sesuai
dengan kelasnya.