Cross Validation
Kelompok :3
Nama Kelompok : - Rajab Sapta Hadi (203510019)
- Nur Maya Sari (203510189)
- Mocmd Sauki (203510078)
- Miska Arina (203510054)
Kelas : 7A
Mata Kuliah : Ilmu Data
Melakukan import dataset “chat_dataset.csv” dan tiap datanya dipisahkan dengan tanda
koma.
Dataset ini berisi kumpulan pesan obrolan (message) yang dapat digunakan untuk
mengembangkan model pembelajaran mesin analisis sentimen untuk mengklasifikasikan
pesan ke dalam 3 kelas sentimen yaitu positif, negatif dan netral. Pesan-pesan pada dataset
bersifat beragam, tidak hanya berisi teks sederhana tetapi juga karakter khusus, angka, emoji,
dan juga alamat URL. Dataset terdiri dari 584 baris dan 2 kolom yaitu kolom message yang
berisi pesan obrolan dan kolom sentiment yang berisi sentimen dari pesan obrolan yang dapat
bersifat positif, negatif ataupun netral. Pada foto dilakukan perintah untuk menampilkan
dataset “chat_dataset.csv” yang sudah di import sebelumnya.
Membagi dataset menjadi dua bagian, yaitu training set dan test set.
Melatih model klasifikasi Naive Bayes pada training set menggunakan metode Gaussian
Naive Bayes.
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Membuat confusion matrix, kemudian melakukan perhitungan akurasi model untuk
menunjukkan seberapa baik model memprediksi kelas-kelas tertentu. Pada model Regresi
Logistik ini, nilai akurasi mencapai hingga 82,9%.
3. K-NN Model
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Membuat confusion matrix, kemudian melakukan perhitungan akurasi model untuk
menunjukkan seberapa baik model memprediksi kelas-kelas tertentu. Pada model K-NN ini,
nilai akurasi mencapai hingga 58,1%.
4. SVM Model
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Membuat confusion matrix, kemudian melakukan perhitungan akurasi model untuk
menunjukkan seberapa baik model memprediksi kelas-kelas tertentu. Pada model SVM ini,
nilai akurasi mencapai hingga 80,3%.
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Membuat confusion matrix, kemudian melakukan perhitungan akurasi model untuk
menunjukkan seberapa baik model memprediksi kelas-kelas tertentu. Pada model Kernel
SVM ini, nilai akurasi mencapai hingga 79,4%.
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Membuat confusion matrix, kemudian melakukan perhitungan akurasi model untuk
menunjukkan seberapa baik model memprediksi kelas-kelas tertentu. Pada model Decision
Tree ini, nilai akurasi mencapai hingga 73,5%.
Melakukan prediksi pada test set menggunakan model yang telah dilatih, dan mengubah
bentuk dari y_pred menjadi array 2D.
Membuat confusion matrix, kemudian melakukan perhitungan akurasi model untuk
menunjukkan seberapa baik model memprediksi kelas-kelas tertentu. Pada model Random
Forest ini, nilai akurasi mencapai hingga 76,0%.
Menampilkan hasil dari perhitungan evaluasi nilai accuracy, precision, recall dan f1
Menampilkan hasil perhitungan nilai accuracy, precision, recall dan f1dalam bentuk diagram
Melakukan perhituangan akurasi dengan metode validasi silang dimana data uji secara acak
berdasarkan pembagian jumlah blok
Hasil perhitungan prediksi akurasi tertinggi dengan metode cross validation pada tujuh model
mesin learning.