Anda di halaman 1dari 3

PRAKTIKUM DATA MINING

Nama : Deva Agustina

NIM : 20051214021

Kelas/Angkatan : A/2020

Algoritma : K-Nearest Neighbors (KNN)

Jenis Analisis : Classification (Classifier)

Dataset : Car Evaluation

(https://archive.ics.uci.edu/ml/datasets/car+evaluation)

(https://www.kaggle.com/datasets/elikplim/car-evaluation-data-set)

Keterangan Dataset : Dataset tersebut berisi tentang kumpulan data mobil yang sedang diuji
coba terkait keamanan mobil dan beberapa sifat keamanan rendah, sedang, dan tinggi.

Dalam dataset tersebut terdapat kolom :

buying

maint

doors

persons

lug_boot

safety

Google Colab :

https://colab.research.google.com/drive/1mLQKZ5cIFM4vM9TUtEtnTJC8Bjnk5p0Q#scroll
To=qj10EcbCROKR
Pembahasan :

Dalam analisa data pasti dibutuhkan data yang mudah dipahami dan teratur sehingga untuk
mendapatkan data yang seperti itu harus dilakukan preprocessing data. Berikut adalah tahapan
dalam.

Preprocessing Data :

1. Data Cleaning

Dalam melakukan preprocessing inilah tahap pertama yaitu membersihkan data. Data yang
pertama kali didapatkan harus diseleksi kembali. Kemudian hapus data yang tidak sesuai,
tidak relevan, dan tidak akurat.

2. Data Integration

Data preprocessing adalah beberapa data yang akan menggabungkan beberapa data dalam
suatu dataset, maka harus dicek data-data yang datang dari berbagai sumber tersebut supaya
memiliki format yang sama.

3. Data Transformation

Data yang akan dianalisis diambil dari berbagai sumber yang kemungkinan memiliki
perbedaan format. Pada tahap ini data harus disamakan semuanya yang terkumpul supaya
dapat mempermudah proses analisis data. Contoh seperti mengubah isi data yang bertipe
string menjadi tipe float (numerik), kecuali pada kolom safety.

4. Mengurangi Data

Tahap ini harus mengurangi sampel data yang diambil, tetapi dengan catatan, tidak akan
mengubah hasil analisis data.

Metode Evaluasi Model :

Praktikum kali menggunakan metode cross validation.


Hasil Evaluasi :

Hasil akurasi metode cross validation yang didapatkan ketika menggunakan algoritma KNN
untuk train sebesar 0.85 dan untuk test sebesar 0.72. Selanjutnya, dilakukan tuning
hyperparameter menggunakan GridSearchCV dan mendapatkan score sebesar 0.754.

Kesimpulan :

Hasil dari analisis dataset diagnosis Car Evaluation Dataset menggunakan jenis analisis
Classification, algoritma KNN, dan metode cross validation menghasilkan tingkat akurasi
untuk training scorenya sebesar 0.85 dan untuk testing scorenya sebesar 0.72. Selanjutnya
dilakukan tuning hyperparameter menggunakan GridSearchCV pada model KNN untuk
mendapatkan hasil nilai akurasi yang lebih optimal. Hasil score dari tuning adalah sebesar
0.754 dengan parameter ‘weights: distance’ dan ‘n_neighbors: 10’.

Hasil perbandingan dari ketiga algoritma yaitu Decision Tree, Naive Bayes, dan K-Nearest
Neighbors dengan teknik Classification dan metode cross-validation, menggunakan dataset
Car Evaluation :

1. Decision Tree

Hasil akurasi terbaik : 0.772

2. Naive Bayes

Hasil akurasi terbaik : 0.74

3. K-Nearest Neighbors

Hasil akurasi terbaik : 0.754

Kesimpulan dari data nilai akurasi yang didapatkan dari hasil praktikum adalah algoritma
dengan teknik classification dan metode cross-validation memiliki nilai akurasi yang berbeda.
Algoritma Decision Tree hasil akurasi terbaiknya adalah 0.77. Algoritma Naive Bayes hasil
akurasi terbaiknya adalah 0.74. Algoritma K-Nearest Neighbors hasil akurasi terbaiknya
adalah 0.754.

Anda mungkin juga menyukai