16.
17.
18.
V. HASIL PERCOBAAN
1. Tampilan Dataset
2. Tampilan Info Data
VI. ANALISIS
Berdasarkan percobaan diatas, dapat dianalisis bahwa algoritma
K-Nearest Neighbor merupakan algoritma yang melakukan
klasifikasi terhadap obyek berdasarkan data pembelajaran yang
jaraknya paling dekat dengan obyek tersebut. Pengimporan library
pandas digunakan untuk mengelola dataframe dan library numpy
berfungsi untuk mempermudah dalam memproses data vector.
Ditambahkan perintah untuk membaca data dengan memasukkan
nama file dataset dengan kode program “buah =
pd.read_table(‘fruit_data_with-colors.txt)”, lalu dipanggil perintah
untuk menampilkan 100 data pertama dari dataset tersebut dengan
perintah “buah.head(100)”. Perintah “buah.info()” digunakan untuk
menampilkan info buah dari dataset berupa tipe data, index dan lain
sebagainya. Dalam tahap pencocokan data digunakan label_mapping
dengan kode “label_mappingn= dict (zip (buah.fruit_label.unique
(), buah.fruit_name.unique()))”. Pencocokan kembali data dilakukan
pada kolom fruit label dan fruit name. Kode
“buah[‘fruit_name’].value_counts()” untuk melihat jumlah masing-
masing buah dari dataset.
Pengimporan seaborn berfungsi untuk membuat grafik, kode
“g = sns.PairGrid (buah,hue = "fruit_name")” berfungsi untuk
menampilkan data dalam bentuk grid yang memiliki warna. Kode
program “g.map_diag(sns.histplot” merupakan perintah yang
digunakan untuk menampilkan data dalam bentuk grafik diagram
dan perintah “g.map_offdiag(sns.scatterplot)” digunakan untuk
menampilkan nilai variable data dalam bentuk titik-titik. Selanjutnya
digunakan perintah “buah = buah.drop (["fruit_name",
"fruit_subtype"], axis=1) buah.head(100)” untuk menghilangkan
kolom nama buah dan tipe buah, hal ini dikarenakan data yang
diolah hanya data dengan tipe numerik.
Pada tahap selanjutnya dilakukan pembagian data, dengan
perintah “x = buah [["mass", "width", "height", "color_score"]]”
dan “y = buah['fruit_label']”. Selanjutnya pada library sklearn
dilakukan proses MinMaxScaler data dengan menentukan nilai
minimal dan maksimal dari data. Selanjutnya dilkakukan pemisahan
data dengan perintah “from.sklearn.model_selection import
train_test_split”. Kemudian dilakukan pengimporan algoritma KNN
dengan perintah “from sklearn.neighbors import
KNeighborsClassifier” Perintah “m1 =KNeighborsClassifier
(n_neighbors=3).fit(x_train, y_train)” untuk menginisialisai data
perbandingan pertama. Untuk melihat tingkat akurasi dari data
digunakan perintah “acc1 = m1.score(x_test, y_test)”. Selanjutnya
pada kode “m2 = KNeighborsClassifier (n_neighbors=3).
fit(x_train_scaled, y_train)” digunakan perbandingan data kedua.
Pada perbandingan ini digunakan scaling sehingga data lebih akurat.
Kemudian dilakukan penentuan K data terbaik dengan sintaks
“K = np.arange(2,30)” untuk mencari data terbaik dari data ke - 2
hingga data ke - 30. Pada penentuan data K terbaik digunakan
perbandingan data kedua dikarenakan data lebih akurat..
Pengimporan matplotlib berfungsi untuk menampilkan grafik dari
data akurasi K terbaik.
VII. KESIMPULAN
Dari percobaan yang telah dilakukan dapat disimpulkan bahwa
K-Nearest Neighbor merupakan tahap pengklasifian data yang
jaraknya paling dekat dengan obyek tersebut. Pada algoritma KKN,
dapat diterapkan pengklasifian dengan tipe data numerik sehingga
diperoleh keakurasian data yang tepat.