NIM : 20051214021
Kelas/Angkatan : A/2020
(https://archive.ics.uci.edu/ml/datasets/car+evaluation)
(https://www.kaggle.com/datasets/elikplim/car-evaluation-data-set)
Keterangan Dataset : Dataset tersebut berisi tentang kumpulan data mobil yang sedang diuji
coba terkait keamanan mobil dan beberapa sifat keamanan rendah, sedang, dan tinggi.
buying
maint
doors
persons
lug_boot
safety
Google Colab :
https://colab.research.google.com/drive/1mLQKZ5cIFM4vM9TUtEtnTJC8Bjnk5p0Q#scroll
To=qj10EcbCROKR
Pembahasan :
Dalam analisa data pasti dibutuhkan data yang mudah dipahami dan teratur sehingga untuk
mendapatkan data yang seperti itu harus dilakukan preprocessing data. Berikut adalah tahapan
dalam.
Preprocessing Data :
1. Data Cleaning
Dalam melakukan preprocessing inilah tahap pertama yaitu membersihkan data. Data yang
pertama kali didapatkan harus diseleksi kembali. Kemudian hapus data yang tidak sesuai,
tidak relevan, dan tidak akurat.
2. Data Integration
Data preprocessing adalah beberapa data yang akan menggabungkan beberapa data dalam
suatu dataset, maka harus dicek data-data yang datang dari berbagai sumber tersebut supaya
memiliki format yang sama.
3. Data Transformation
Data yang akan dianalisis diambil dari berbagai sumber yang kemungkinan memiliki
perbedaan format. Pada tahap ini data harus disamakan semuanya yang terkumpul supaya
dapat mempermudah proses analisis data. Contoh seperti mengubah isi data yang bertipe
string menjadi tipe float (numerik), kecuali pada kolom safety.
4. Mengurangi Data
Tahap ini harus mengurangi sampel data yang diambil, tetapi dengan catatan, tidak akan
mengubah hasil analisis data.
Hasil akurasi metode cross validation yang didapatkan ketika menggunakan algoritma KNN
untuk train sebesar 0.85 dan untuk test sebesar 0.72. Selanjutnya, dilakukan tuning
hyperparameter menggunakan GridSearchCV dan mendapatkan score sebesar 0.754.
Kesimpulan :
Hasil dari analisis dataset diagnosis Car Evaluation Dataset menggunakan jenis analisis
Classification, algoritma KNN, dan metode cross validation menghasilkan tingkat akurasi
untuk training scorenya sebesar 0.85 dan untuk testing scorenya sebesar 0.72. Selanjutnya
dilakukan tuning hyperparameter menggunakan GridSearchCV pada model KNN untuk
mendapatkan hasil nilai akurasi yang lebih optimal. Hasil score dari tuning adalah sebesar
0.754 dengan parameter ‘weights: distance’ dan ‘n_neighbors: 10’.
Hasil perbandingan dari ketiga algoritma yaitu Decision Tree, Naive Bayes, dan K-Nearest
Neighbors dengan teknik Classification dan metode cross-validation, menggunakan dataset
Car Evaluation :
1. Decision Tree
2. Naive Bayes
3. K-Nearest Neighbors
Kesimpulan dari data nilai akurasi yang didapatkan dari hasil praktikum adalah algoritma
dengan teknik classification dan metode cross-validation memiliki nilai akurasi yang berbeda.
Algoritma Decision Tree hasil akurasi terbaiknya adalah 0.77. Algoritma Naive Bayes hasil
akurasi terbaiknya adalah 0.74. Algoritma K-Nearest Neighbors hasil akurasi terbaiknya
adalah 0.754.