Anda di halaman 1dari 14

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

Lihat diskusi, statistik, dan profil penulis untuk publikasi ini di: https://www.researchgate.net/publication/357235411

Studi Kasus Pendekatan Klasifikasi Data Menggunakan K-Nearest Neighbor

Makalah Konferensi - Oktober 2021


DOI: 10.1109/APSIT52773.2021.9641209

KUTIPAN MEMBACA

4 1,046

3 penulis:

Jogeswar Tripathy Rasmita Dash


Institut Pendidikan dan Penelitian Teknik Universitas Siksha O Anusandhan
10 PUBLIKASI 63 KUTIPAN 42 PUBLIKASI 247 KUTIPAN

LIHAT PROFIL LIHAT PROFIL

Binod Kumar Pattanayak


Universitas Siksha O Anusandhan
178 PUBLIKASI 1.428 KUTIPAN

LIHAT PROFIL
Semua konten yang mengikuti halaman ini diunggah oleh Jogeswar Tripathy pada 02 Februari 2022.

Pengguna telah meminta peningkatan file yang diunduh.


Studi Kasus Pendekatan Klasifikasi Data
Menggunakan k-Nearest Neighbor
Jogeswar Tripathy Rasmita Dash Binod Kumar Pattanayak
Departemen Ilmu Komputer dan Teknik ITER, Departemen Ilmu Komputer dan Teknik ITER, Departemen Ilmu Komputer dan Teknik ITER,
Siksha 'O' Anusandhan Diangkat menjadi Siksha 'O' Anusandhan Diangkat menjadi Siksha 'O' Anusandhan Diangkat menjadi
Universitas, Universitas, Universitas,
Bhubaneswar, Odisha, India Bhubaneswar, Odisha, India Bhubaneswar, Odisha, India
jogeswar.tripathy@gmail.com rasmitadash@soa.ac.in binodpattanayak@soa.ac.in

Abstract- Data mining adalah proses mendapatkan basis data, gudang data. Di sini, entah bagaimana server
pengetahuan dan informasi dari data dalam jumlah yang bertanggung jawab untuk mengambil data pengguna sesuai
sangat besar. Data mining sebagian besar digunakan dengan basis pengetahuan permintaan data mining
untuk analisis data. Dalam Data Mining, berbagai teknik pengguna.
digunakan seperti association mining, regresi, prediksi, Dalam pembelajaran mesin, akurasi prediksi
klasifikasi, pengelompokan, dll. Klasifikasi algoritma kategorisasi yang berasal dari data empiris
dideskripsikan sebagai proses mengidentifikasi (contoh) dinilai terlebih dahulu. Namun, dalam praktiknya,
kumpulan model (atau fungsi) yang menjelaskan dan kemampuan interpretasi atau transparansi pengklasifikasi
membedakan kelas data dan ide, untuk menggunakan sering kali menjadi hal yang krusial. Penelitian ini
model tersebut untuk mendeteksi kelas objek atau pola menyelidiki keakuratan pengklasifikasi k-nearest neighbor
yang tidak diketahui, yang penunjukan kelasnya tidak dalam mengklasifikasikan dataset. Banyak jenis algoritma
jelas. Klasifikasi adalah masalah pembelajaran yang pembelajaran klasifikasi yang luar biasa dan beragam,
diawasi. Artinya dalam machine learning, Klasifikasi seperti Support Vector Machine (SVM), k tetangga terdekat,
adalah masalah mengidentifikasi pola data dari dan Naive Bayes Classifier (NBC), merupakan algoritma
kelompok pola sesuai dengan karakteristiknya dan yang berhubungan dengan klasifikasi karena signifikansi
mendefinisikan pola mana yang berasal dari kelas mana. utama mereka dalam analisis pola eksplorasi.
Klasifikasi pola dapat dilakukan dengan menggunakan
berbagai macam classifier. Pengklasifikasi adalah Berikut ini adalah berbagai jenis strategi penggalian data:
program yang memasukkan vektor fitur dari sebuah Klasifikasi:
pola atau titik data dan menugaskannya ke salah satu Pada langkah ini, contoh data yang diberikan harus
dari sekumpulan kelas yang telah ditentukan. diklasifikasikan ke dalam salah satu kelas target yang telah
Pengklasifikasi seperti Jaringan Syaraf Tiruan (JST), diidentifikasi. Salah satu contohnya adalah menentukan
pengklasifikasi k-Nearest Neighbor (k-NN), Support apakah konsumen dalam database transaksi kartu kredit
Vector Machine (SVM), dan lain-lain digunakan untuk harus dikategorikan sebagai pelanggan yang dapat dipercaya
tujuan klasifikasi pola. Berfokus pada teknik klasifikasi atau mangkir berdasarkan berbagai kriteria demografis dan
data mining, dalam penelitian ini disajikan akurasi k- pembelian sebelumnya.
NN menggunakan tiga dataset dari perpustakaan
pembelajaran mesin UCI. Tujuan utama dari penelitian Perkiraan:
ini adalah untuk memberikan tinjauan untuk Model estimasi, seperti model klasifikasi, digunakan untuk
mengetahui keakuratan teknik klasifikasi k-NN menentukan nilai untuk atribut keluaran yang tidak
menggunakan dataset yang berbeda dalam data mining. diketahui. Berbeda dengan klasifikasi, atribut keluaran dari
Pengklasifikasi k-NN merupakan pendekatan yang masalah estimasi berupa angka, bukan kategorikal.
sederhana namun efisien yang digunakan untuk Pertimbangkan skenario berikut: Hitunglah gaji seseorang.
klasifikasi dalam penelitian.

Kata Kunci- Klasifikasi, SVM, k-NN, Pembelajaran


Terawasi, Normalisasi.
dari sistem data mining yang membantu mengimprovisasi
I. PENDAHULUAN arsitektur yang sama adalah:
Data mining tidak lain adalah tempat penyimpanan
informasi di mana sejumlah besar data dapat
disimpan/diperoleh dalam/dari database dan gudang data.
Dengan cara lain, data mining dapat dikenali sebagai
Penemuan Pengetahuan dalam Basis Data (KDD), karena
berhubungan dengan berbagai teknik integrasi dari beberapa
disiplin ilmu seperti pembelajaran, komputasi berkinerja
tinggi, teknologi basis data, pembelajaran mesin,
pengenalan pola, statistik, jaringan syaraf tiruan, pencarian
informasi, visualisasi data, dll. Beberapa komponen utama
Prediksi:
Sulit untuk membedakan antara prediksi dan
kategorisasi atau perkiraan. Satu-satunya perbedaan
adalah bahwa model prediktif memprediksi
konsekuensi di masa depan daripada mempengaruhi
perilaku saat ini. Atribut keluaran dapat berupa
kategori atau angka.

Penambangan aturan asosiasi:


Ini adalah proses mengekstraksi aturan tersembunyi
yang menarik yang dikenal sebagai aturan asosiasi dari
kumpulan data transaksional yang besar. Sebagai
contoh, aturan susu, mentega, biskuit menetapkan
bahwa kapan pun susu dan mentega dibeli bersamaan,
biskuit juga
yang dibeli, memungkinkan barang-barang ini dijual topik proyek dalam domain data mining. Tantangan
bersama untuk meningkatkan penjualan keseluruhan setiap klasifikasi dalam berbagai dataset juga telah menarik
barang. perhatian komunitas data mining dalam beberapa dekade
terakhir. Hal ini dapat dikaitkan dengan popularitas
Pengelompokan: pengklasifikasi tetangga terdekat dan variasinya, seperti
Ini adalah metode klasifikasi di mana kelas target tidak pengklasifikasi k-Nearest Neighbor (k-NN).
diketahui. Sebagai contoh, diberikan 100 konsumen, mereka B. Tujuan
harus dikategorikan berdasarkan kriteria kemiripan tertentu,
Mayoritas percobaan klasifikasi di bidang data mining
dan kelas-kelas di mana konsumen pada akhirnya harus telah dilakukan pada berbagai dataset. Tujuan dari makalah
ditempatkan tidak ditentukan sebelumnya. Pendekatan data ini adalah untuk memberikan teknik klasifikasi yang
mining klasifikasi sebagian besar digunakan dalam membutuhkan waktu lebih sedikit untuk mengklasifikasikan
pekerjaan tesis. menggunakan tiga dataset yang berbeda untuk nilai k yang
Tujuan dari penelitian ini adalah untuk berbeda tanpa menurunkan kinerja pengklasifikasi. Tujuan
meningkatkan kinerja pendekatan k-NN. Tujuan dari k-NN utamanya adalah untuk melakukan studi analitik terhadap
adalah untuk menghitung tetangga terdekat berdasarkan teknologi data mining.
berbagai nilai k, yang mendefinisikan berapa banyak
tetangga terdekat yang harus dipertimbangkan ketika C. Organisasi
mendefinisikan sebuah nilai. Konsep umum k-NN adalah Berikut ini adalah rincian struktur makalah ini: Maksud
menghitung metrik jarak untuk menghitung jarak antara titik dan tujuan dari penelitian ini dimasukkan dalam Bagian I,
data. Setelah itu, algoritme mencoba untuk menemukan K yang memberikan pengantar singkat tentang masalah ini.
jawaban yang paling dekat atau paling mendekati dalam Penelitian terkait dijelaskan pada Bagian II. Bagian III
kumpulan data. Berikut ini adalah beberapa contoh metrik menjelaskan kerangka kerja yang disarankan dengan
jarak: Jarak Euclidean adalah istilah yang digunakan untuk menggunakan diagram blok. Pendekatan yang digunakan
disajikan pada Bagian IV. Bagian V berisi kumpulan data
menggambarkan jarak antara dua titik dalam ruang.
yang digunakan dalam penelitian ini, serta teknik kerangka
Langkah awal dalam k-NN adalah menghitung semua 'jarak' kerja yang disarankan, rincian implementasi, dan analisis
antara setiap titik data dan setiap titik referensi dari hasil eksperimen. Terakhir, bagian VI menutup studi ini
kumpulan data. Pada langkah kedua, jarak-jarak ini dengan membahas ruang lingkup proposal di masa depan.
diurutkan dan kemudian memilih k objek terdekat untuk
melakukan kategorisasi tahap ketiga dan terakhir. Akhirnya, II. PEKERJAAN TERKAIT
dari ruang fitur d-dimensi, k-NN mengidentifikasi k titik Bagian ini memberikan ringkasan tinjauan literatur, yang
terdekat (atau yang paling mirip) dengan titik data di antara mencakup ulasan makalah teknis tentang pendekatan
N titik. k adalah jumlah tetangga yang dipertimbangkan dari klasifikasi k-Nearest Neighbor yang diterapkan pada
kumpulan data. beragam aplikasi. Bagian ini juga memberikan gambaran
Salah satu teknik data mining yang paling penting umum mengenai penelitian data mining yang sedang
adalah klasifikasi. Hal ini memerlukan penerapan model dilakukan pada beragam aplikasi. Selanjutnya ditemukan
yang dipelajari dari titik data dataset untuk menghasilkan temuan dan keterbatasan dari beberapa makalah berikut ini:
prediksi tentang label kelas dari data/observasi baru. Proses
Dalam penelitian ini [1], penulis berfokus pada pendekatan
pengembangan kumpulan model yang menjelaskan dan
k-Nearest Neighbor untuk klasifikasi. Dalam hal parameter
mengidentifikasi kelas data, untuk menggunakan model
k, peneliti mencoba metode ini dengan berbagai jarak dan
tersebut dalam memprediksi kelas objek atau pola yang
kriteria klasifikasi (mayoritas, konsensus, dan acak).
label kelasnya tidak diketahui, dikenal sebagai klasifikasi.
Hasilnya menunjukkan bahwa teknik k-NN dapat digunakan
Mendeteksi spam dalam komunikasi email berdasarkan
dengan kedua jenis jarak Euclidean dan Manhattan. Jarak-
header dan isi pesan, mendeteksi kanker berdasarkan
jarak ini berguna untuk kategorisasi dan kinerja, tetapi
temuan pemindaian MRI, mengelompokkan galaksi
membutuhkan waktu. Hasilnya, mereka mengembangkan
berdasarkan lokasi dan morfologinya adalah beberapa
dua jenis jarak yang memberikan hasil terbaik (98,70 dan
contohnya. Mempelajari sebuah fungsi target seperti yang
98,70,
ditunjukkan pada Gbr.1 yang menerjemahkan setiap
kumpulan atribut x ke salah satu label kelas y yang telah
ditentukan adalah masalah klasifikasi. Model klasifikasi
adalah nama lain dari fungsi target.
masing-masing).
Masukan Keluaran
Eksperimen dataset WBC [2] menunjukkan bahwa
menggabungkan Machine Learning Process (MLP) dan
Kumpulan Model Tingkat pengklasifikasi J48 dengan pemilihan fitur Principal
Atribut Klasifikas kelas Component Analysis (PCA) mengalahkan pengklasifikasi
(x) i (y) lainnya. Di sisi lain, dataset Wisconsin Diagnostic Breast
Cancer (WDBC) mengungkapkan bahwa dengan
Gbr. 1. Model Klasifikasi untuk suatu Tugas menggunakan pengklasifikasi tunggal, seperti Specific
Efficient Optimization Algorithm (SMO) atau perpaduan
antara SMO dan MLP
A. Motivasi Motivasi dalam penelitian ini adalah untuk menemukan nilai
akurasi dari pengklasifikasi k-NN. Di sini ditemukan bahwa atau SMO dan IBK, lebih baik daripada menggunakan
banyak pekerjaan yang telah dilakukan di berbagai bidang beberapa pengklasifikasi. Akhirnya, perpaduan MLP, J48,
penambangan data tentang dataset yang berbeda ketika SMO, dan IBK memiliki kinerja yang lebih baik daripada
bekerja untuk mengidentifikasi pengklasifikasi lain dalam kumpulan data Wisconsin
Prognostic Breast Cancer (WPBC).
Untuk mengatasi masalah efisiensi yang buruk dan dari kueri k-NN, seperti yang dijelaskan dalam artikel ini [8],
ketergantungan pada k, mereka memilih beberapa adalah bahwa pengguna menawarkan pilihan jenis kueri, termasuk
perwakilan dari dataset pelatihan dengan beberapa informasi kueri titik multidimensi dan metrik jarak untuk menghitung jarak
tambahan untuk mewakili seluruh dataset pelatihan dalam
makalah ini [3]. Mereka telah menggunakan k yang optimal
tetapi bervariasi yang dipilih oleh dataset itu sendiri untuk
menghilangkan ketergantungan pada k tanpa interaksi
pengguna dalam pemilihan setiap perwakilan. Batasan yang
ditemukan dari penelitian ini adalah bahwa peneliti perlu
fokus pada bagaimana meningkatkan akurasi klasifikasi data
marjinal yang berada di luar area umum. Pada dataset WPBC,
perpaduan antara MLP, J48, SMO, dan IBK mengungguli
pengklasifikasi lainnya.

Di sini peneliti memperhatikan dan fokus pada pilihan nilai


k dalam makalah ini[4], dan pada akhirnya, hasil percobaan
menunjukkan bahwa pendekatan yang diusulkan secara
konsisten mengalahkan pengklasifikasi lain di berbagai
macam k, dan keampuhannya telah ditunjukkan dengan
kinerja yang baik.

Dalam karya [5] pengenalan pola, pengklasifikasi KNN


adalah salah satu pengklasifikasi ketetanggaan yang paling
sering digunakan. Namun, ia memiliki kekurangan yang
signifikan, termasuk kompleksitas komputasi yang tinggi,
ketergantungan penuh pada set pelatihan, dan tidak ada
variasi bobot di seluruh kelas. Untuk mengatasi hal ini,
penelitian ini mengusulkan pendekatan unik untuk
meningkatkan kinerja klasifikasi KNN dengan
menggunakan Algoritma Genetika (GA).

Dalam makalah ini [6], alih-alih menghitung kesamaan


antara semua sampel pelatihan dan pengujian dan kemudian
memilih k-tetangga untuk klasifikasi, GA hanya memilih k-
tetangga pada setiap iterasi, menghitung kesamaan,
mengklasifikasikan sampel uji menggunakan tetangga ini,
dan menentukan akurasi. kompleksitas komputasi k-NN
menurun dalam kasus ini. Kinerja pengklasifikasi Gk-NN
dibandingkan dengan k-NN konvensional, CART, dan SVM
menggunakan lima dataset medis yang berbeda dari
pengumpulan data UCI. Uji coba dan temuan telah
menunjukkan bahwa teknik yang disarankan tidak hanya
mengurangi kompleksitas k-NN tetapi juga meningkatkan
akurasi pengklasifikasian k-NN.

Dalam karya ini [7], sebuah metode baru yang disebut


Modified k-Nearest Neighbor, Mk-NN disajikan untuk
meningkatkan performa pengklasifikasi KNN. Teka-teki
Wine, Isodata, Iris, Bupa, Ionosfer, dan tiga teka-teki Monks
termasuk di antara sembilan tugas tolok ukur yang menjadi
bahan penilaian teknik ini. Temuan-temuan tersebut dengan
suara bulat mendukung klaim penulis tentang ketangguhan
dan keakuratannya. Sebagai hasilnya, pendekatan kami
seharusnya berkinerja lebih baik pada set data yang berisik
dan dengan pencilan. k-Nearest Neighbor (k-NN) adalah
sebuah teknik untuk menentukan tetangga terdekat
berdasarkan jumlah k, yang menentukan berapa banyak
tetangga terdekat yang harus dipertimbangkan ketika
menetapkan kelas titik data sampel.

Akan tetapi, masalah utama akan selalu menjadi


kompleksitas komputasi dan batasan memori. Gagasan inti
antar titik. Sistem mencari di database untuk K balasan Operasi penambangan data apa pun tidak dapat dilakukan
yang paling dekat atau paling dekat dengan kueri yang pada set data asli secara langsung. Untuk mempersiapkan
prosedur ini, sebuah set data adalah
diberikan (yaitu titik kueri). Jarak Euclidean, jarak
Manhattan, dan ukuran jarak lainnya adalah
contohnya. Pendekatan pembelajaran terawasi yang
dikenal sebagai metode k-nearest neighbour (k-NN)
telah digunakan dalam sejumlah aplikasi. Jarak
Euclidean umumnya digunakan.
III. KERANGKA KERJA YANG DIUSULKAN
Penelitian ini berfokus pada konsep klasifikasi data
dengan menggunakan k-NN. Model tersebut disajikan
pada Gambar 2. Setelah menormalkan semua data
antara 0 dan 1 dari dataset, teknik klasifikasi k-NN
akan digunakan dimana jarak antara setiap baris
dihitung sesuai dengan nilai k. Kemudian pada
langkah berikutnya, label kelas yang diprediksi dari
setiap baris dataset akan diprediksi. Pada langkah
selanjutnya dengan menggunakan label kelas aktual
dan label kelas prediksi, confusion matrix akan
dilakukan [9]. Dengan menggunakan confusion matrix
True Positive (TP), True Negative (TN), False Positive
(FP), False Negative (FN), akan dihitung nilainya
sesuai dengan rumus. Terakhir, perbandingan antara
akurasi dataset akan dilakukan. Sebagai set data
percobaan, beberapa jenis dataset dua kelas seperti
BCW, Pima, dan kebun binatang digunakan untuk
menentukan bagaimana perbedaan kinerja berdasarkan
data. Di sini data dikumpulkan dengan berbagai
ukuran dan jenis, kemudian digunakan untuk data
nominal dan numerik untuk menilai hasilnya.
Implementasi lengkap dan analisis keakuratan dataset
menggunakan algoritma k-Nearest Neighbor
dijelaskan pada model berikut dengan menggunakan
tool MATLAB [10,11].

Terap
Datas Mengidenti Menormalk kan k-
et fikasi an data NN
Masuk tingkat algoritma
Perbandinga kelas Menghitung
an
n akurasi akurasi

Gunakan
kebingun
matriks
gan

Gbr. 2. Kerangka Kerja yang Diusulkan

Dalam pendekatan ini, model k-Nearest Neighbor


telah diambil dengan sebuah algoritma dan tiga dataset
untuk menganalisis bagaimana algoritma ini
membantu memprediksi nilai kelas yang tidak
diketahui dan mengamati akurasinya dengan
menggunakan matriks kebingungan [12]. Jadi pertama-
tama dianalisis akurasi dari dataset yang berbeda dan
kemudian membandingkan akurasinya, dataset mana
yang memberikan akurasi lebih tinggi dengan
menggunakan algoritma tersebut [13]. Berikut ini
adalah algoritma yang lebih cepat yang diterapkan
pada tiga dataset yang akan dipertimbangkan dataset
mana yang memberikan waktu klasifikasi yang lebih
sedikit dan lebih akurat dibandingkan dengan dataset
lain menggunakan k-Nearest Neighbor Classifier yang
telah diusulkan.
IV. METODOLOGI
yang diperlukan. Pengotor dalam data yang diperoleh dari
berbagai sumber termasuk angka yang tidak terduga, nilai Pendekatan normalisasi yang paling sederhana adalah
yang hilang, dan dimensi data yang terlalu tinggi dengan penskalaan desimal, di mana nilai data diperkecil dengan
properti atau fitur yang tidak diinginkan [14]. menggeser titik desimal nilai atribut A. Jumlah titik
Kontaminan ini harus dihilangkan, dan data harus desimal yang diubah ditentukan oleh nilai absolut
diproses terlebih dahulu sebelum digunakan. Beberapa maksimum atribut. Hal ini dapat dihitung dengan rumus
teknik pra-pemrosesan yang disebutkan dalam bab ini berikut:
telah digunakan dalam penelitian ini.
Sistem yang diusulkan t e r d i r i d a r i 𝑣
𝑣𝑖 = (3)
modul-modul berikut: 10𝑗

A. Normalisasi Diman
a:
B. Klasifikasi k-Tetangga Terdekat adalah deviasi standar dari atribut.
A. Normalisasi
Nilai dari beberapa atribut dalam kumpulan data dapat
memiliki rentang angka yang lebih tinggi, sementara
beberapa atribut lainnya mungkin memiliki rentang yang
lebih kecil [15]. Untuk menerapkan beberapa algoritma
klasifikasi seperti jaringan syaraf dan variannya, ukuran
jarak, mereka membutuhkan nilai dari semua atribut yang
kecil dalam suatu rentang [16]. Sebagai contoh, nilai input
untuk jaringan syaraf tiruan atau k-NN dapat berupa
-1, 0, atau +1.
i. Normalisasi Min-Maks
Dalam kasus di mana kita mengetahui kisaran nilai
dalam data input kita, kita menggunakan normalisasi min-
max. Pendekatan ini digunakan ketika menggunakan
jaringan saraf sebagai mesin pembelajaran atau ketika
menggunakan pengklasifikasi bayesian naif yang
mengharuskan semua fitur memiliki varians dalam kelas 0
hingga 1 [17]. Rentang minimum dan maksimum masing-
masing diatur ke 0 dan 1, dalam penelitian ini. Ini diberikan
oleh rumus :
𝑣′ = (𝑣 - min 𝐴)/(max 𝐴 - 𝑚𝑖𝑛𝐴) (1)
Dimana:
v adalah nilai asli untuk contoh atribut 'A'. v adalah
nilai baru.
minA adalah nilai minimum atribut dalam set data
asli (A).
max A adalah nilai maksimum atribut dalam set data
asli (A).
ii. Normalisasi Skor-Z
Teknik normalisasi ini didasarkan pada rata-rata dan
standar deviasi dari atribut tertentu 'A' dalam kumpulan data
[18]. Oleh karena itu, teknik ini disebut juga sebagai
normalisasi deviasi standar atau normalisasi rata-rata nol.
Pertama, rata-rata dan standar deviasi perlu dihitung secara
matematis seperti biasa dan kemudian rumusnya adalah
sebagai berikut:
𝑧 = (𝑥 - 𝐴)/𝐴 (2)
Dimana:
x adalah nilai asli untuk contoh atribut 'A'. Z adalah
nilai yang telah diubah.
adalah rata-rata dari atribut 'A'.
j adalah bilangan bulat
terkecil sehingga
max(|v′|) < 1
B. Klasifikasi k-Tetangga Terdekat
Titik data dapat diklasifikasikan berdasarkan
jaraknya dari titik-titik dalam dataset pelatihan, yang
merupakan metode dasar namun efektif untuk
melakukannya, untuk menghitung jarak, kita dapat
menggunakan berbagai ukuran, yang akan dibahas
selanjutnya.
Metrik Jarak
Berikut ini adalah jarak yang bervariasi antara
komponen xs dan yt: Diberikan sebuah matriks data
mx-by-n X, yang dapat diwakili oleh mx (1-by-n)
vektor baris x1, x2,..., xmx, dan matriks data my-by-n
Y, yang dapat diwakili oleh vektor baris y1, y2,...,
ymy.

TABEL I. PENDEKATAN UNTUK MENENTUKAN JARAK ANTAR INSTANCE


(X DAN Y)
𝑚 2
Makowsky: 𝐷(𝑥, 𝑦) = (∑ 𝑖=1 |𝑥𝑖 - 𝑦𝑖 | )𝑟
Manhattan: 𝐷(𝑥, 𝑦) = | - 𝑥𝑖 - 𝑦𝑖 |
𝑚
Chebychev: 𝐷(𝑥, 𝑦) = 𝑚𝑎𝑥 ∑𝑖=1 |𝑥𝑖 - 𝑦𝑖 |
Euclidean: 𝐷(𝑥, 𝑦) = ∑𝑖=1 (|𝑥𝑖 - 𝑦𝑖 |2 ) (1/2)
𝑚
𝑚
Canberra: 𝐷(𝑥, 𝑦) = ∑ 𝑖=1 (|𝑥𝑖 - 𝑦𝑖 |)/(|𝑥𝑖| + |𝑦𝑖 |)

V. SET DATA YANG DIGUNAKAN


Kumpulan data sering kali merupakan isi dari satu
tabel basis data atau matriks data statistik, dengan
setiap kolom tabel mewakili variabel yang berbeda dan
setiap baris mewakili anggota tertentu dari kumpulan
data yang dimaksud. Sebuah set data terdiri dari
matriks data dengan m baris (mewakili item) dan k
kolom (sesuai dengan pengukuran). Kolom-kolom
tersebut biasanya disebut sebagai fitur, tetapi mereka
juga dapat memiliki latar belakang yang berbeda,
seperti yang ditunjukkan pada Tabel II. Dataset adalah
versi yang disempurnakan dari matriks data dalam hal
ini. Dataset ini memiliki ukuran m*k dan dapat
digunakan dengan berbagai operasi matriks Matlab.
A. Kumpulan data BCW (Kanker Payudara Wisconsin)
Dataset Kanker Payudara Wisconsin dari UCI
Machine Learning Repository digunakan untuk
membedakan sampel ganas (kanker) dan sampel jinak
(non-kanker).
W. Nick Street, University of Wisconsin, Computer
Sciences Dept, 1210 West Dayton St., Madison, WI
53706 street at cs.wisc.edu 608-262-6619, dan Olvi L.
Mangasarian, Computer Sciences Dept.
ringkasan dari semua dataset [19]. Setiap dataset berisi TABEL III. KINERJA KNN DENGAN NILAI K YANG BERBEDA
DALAM PERSENTASE
kumpulan karakteristik atau atribut numerik serta
kategorisasi pola tertentu.
KUMPULAN K=3 K=5 K=7
TABEL II. DESKRIPSI DATASET BCW, PIMA DAN KEBUN DATA
BINATANG
KEB 95.4612 95.3148 91.3616
Nama Jumlah Tidak. Jumlah
d contoh dar tingkat kelas UN 71.0938 67.0573 65.1042
ari Dataset i
Atribut BINA 84.1584 86.1386 78.2178
Kanker 699 10 2
Payudara TAN
Wisconsin
G
Pima 768 9 2
BCW
Kebun 101 17 2
Binatang
PIMA
B. Kumpulan data PIMA
Untuk membuat prediksi bernilai nyata antara 0 dan 1,
dataset Pima Indian Diabetes dari UCI Machine Learning
Repository digunakan seperti yang ditunjukkan pada Tabel 100
II. Dengan ambang batas 0,448, ini diubah menjadi pilihan 80
biner. "Diuji positif diabetes" adalah arti dari nilai kelas 1.
Institut Nasional Diabetes dan Penyakit Pencernaan dan 60
Ginjal menciptakannya. 40
C. Kumpulan data kebun binatang 20
Tabel II menjelaskan tentang dataset ini dimana atribut kelas
0
tampaknya diwakili oleh atribut "jenis". Tujuan dari dataset
k=3 k=5 k=7
ini adalah untuk dapat memprediksi klasifikasi hewan,
berdasarkan variabel-variabel yang ada. BCW PIMA
KEBUN
VI. DETAIL IMPLEMENTASI & HASIL PERCOBAAN BINATANG
Pengumpulan data eksperimental mencakup berbagai
kumpulan data tingkat dua kelas seperti BCW, Pima, dan
kebun binatang. Performa berfluktuasi atau tidak bervariasi, GBR. 3 PERFORMA K-NN DENGAN NILAI K YANG BERBEDA DALAM
PERSENTASE
tergantung pada data. Di sini data yang dikumpulkan dengan
berbagai ukuran dan jenis, menggunakan data nominal dan Seperti yang ditunjukkan pada Tabel III, diamati bahwa
numerik untuk mengevaluasi hasil. Menggunakan teknik k- jika nilai k bervariasi, tingkat akurasi untuk k-NN juga
Nearest Neighbor untuk mengakses kebenaran dataset. Alat bervariasi. Pada dataset BCW ketika nilai k meningkat maka
MATLAB digunakan untuk menyelesaikan implementasi. akurasi dari dataset ini menurun dengan nilai k tersebut. Dan
Dalam metode ini, model k-Nearest Neighbor digunakan juga dengan menggunakan dataset Pima pada pengklasifikasi
dengan tiga dataset untuk menyelidiki bagaimana teknik ini k-NN ini tanpa menggunakan training dan testing instance
membantu dalam prediksi nilai kelas yang tidak diketahui dengan nilai k yang meningkat, akurasinya menurun. Tetapi
dan menemukan keakuratan prediksi dengan menggunakan dengan menggunakan dataset kebun binatang dengan
confusion matrix. menggunakan nilai k yang berbeda, akurasi dari classifier ini
pertama kali meningkat, kemudian menurun, dan seterusnya.
Beberapa kumpulan data dua kelas, seperti bcw, Pima,
dan kebun binatang, termasuk dalam kumpulan data Tingkat akurasi untuk KNN meningkat pada awalnya,
eksperimental. Bergantung pada data, kinerja berubah atau kemudian menurun seiring bertambahnya nilai k. Hal ini
tidak berubah, di sini data yang dikumpulkan memiliki dikarenakan nilai k yang lebih besar meminimalkan pengaruh
berbagai ukuran dan jenis; misalnya, hasil yang diakses noise pada klasifikasi, tetapi membuat batas kelas menjadi
menggunakan data nominal dan numerik. Di sini diselidiki kurang jelas. Ketika dibandingkan ketiga dataset dengan
bagaimana strategi ini membantu dalam prediksi nilai kelas nilai k yang berbeda, ditemukan bahwa BCW memiliki
yang tidak diketahui dan keakuratan prediksi menggunakan tingkat akurasi klasifikasi KNN yang lebih baik daripada
matriks kerancuan dengan model klasifikasi k-Nearest dua dataset lainnya. Akurasi maksimum diperoleh dengan
Neighbor [20]. cepat ketika k masih dalam jumlah kecil (k=5) dan
kemudian secara bertahap diturunkan, tetapi akurasi
tertinggi dicapai secara perlahan untuk nilai k yang berbeda
untuk Pima dan kebun binatang. Hal ini kemungkinan besar
disebabkan karena vektor fitur BCW lebih padat dalam
ruang multidimensi dibandingkan dua fitur lainnya.
VII. KESIMPULAN & PEKERJAAN DI MASA DEPAN
Dalam penggalian data dan pengenalan pola,
pengklasifikasi k-NN adalah salah satu pengklasifikasi
ketetanggaan yang paling sering digunakan. Namun
metode ini memiliki beberapa kekurangan, seperti
kompleksitas komputasi yang tinggi, ketergantungan
penuh pada set pelatihan, dan tidak ada variasi bobot di
seluruh kelas. Fokus dari metode ini adalah pada
akurasi dari berbagai pilihan k untuk meningkatkan
kinerja klasifikasi. Namun dengan nilai k yang
berbeda dengan angka ganjil, metode
Akurasi setiap dataset pada awalnya meningkat, kemudian Pengenalan Pola: Sebuah Tinjauan, Transaksi IEEE tentang
turun, dan kemudian meningkat lagi. Hasil dari implementasi Analisis Pola dan Kecerdasan Mesin, 22(1) hal.4-37, (2000).
[17] E. Acuna, C. Rodriguez, Perlakuan terhadap nilai yang hilang
ini adalah bahwa k-NN adalah pengklasifikasi yang sangat dan pengaruhnya terhadap akurasi pengklasifikasi, dalam: D.
baik. Ketika ukuran kumpulan data semakin besar, ia Banks, L. House,
menghasilkan hasil yang baik. Pekerjaan di masa depan F.R. McMorris, P. Arabie, W. Gaul (Eds.), Classification,
dapat dilakukan dengan menggunakan dataset yang berbeda Clustering and Data Mining Applications, Springer, Berlin,
dengan beberapa teknik pemilihan fitur untuk meningkatkan pp. 639648 (2004).
[18] Vijaya, P., Murty, MN, Subramanian, DK: Pemimpin-
kinerja pengklasifikasi. pemimpin: Algoritma pengelompokan hirarkis yang efisien
untuk kumpulan data yang besar. Pattern Recognition Letters
REFERENSI 25, 505513 (2004).
[1] N. K. Thanushkodi, Klasifikasi k-Nearest Neighbor yang [19] A. Frank, A. Asuncion, UCI Machine Learning Repository,
Ditingkatkan Menggunakan Algoritma Genetika IJCSI http://www.archive.ics.uci.edu/ml,(2011).
International Journal of Computer Science Issues, Vol. 7, [20] https://archive.ics.uci.edu/ml/datasets.html.
Issue 4, No 2, (2018).
[2] Gouda I. Salama, M. B. Abdelhalim, dan Magdy Abd-
elghany Zeid, Perbandingan Eksperimental Pengklasifikasi
untuk Diagnosis Kanker Payudara, IEEE Transactions,
pp.978-1-4673-2961 (2016).
[3] Gongde Guo, Hui Wang, David Bell, Yaxin Bi, dan Kieran
Greer, Pendekatan Berbasis Model KNN dalam Klasifikasi,
Spinger (2012).
[4] Gou, J., Du, L. Zhang, Y. dan Xiong, T. "Pengklasifikasi k-
tetangga terdekat dengan p e m b o b o t jarak yang baru",
Journal of Information and Computational Science, 9 (6)
pp.1429-1436 (2012).
[5] S. C. Bagui, S. Bagui, K. Pal, Deteksi Kanker Payudara
menggunakan Aturan Klasifikasi Tetangga Terdekat,
Pengenalan Pola 36, hal 25-34, (2003).
[6] Hamid Parvin, Hoseinali Alizadeh, Behrouz Minati, A
Modification on K-Nearest Neighbor Classifier, Global
Journal of Computer Science and Technology, Vol.10, Issue
14 (Ver.1.0), November (2010).
[7] Agrawal, R., Imielinski, T., Swami, A., Database Mining: A
Performance Perspective, IEEE Transactions on Knowledge
and Data Engineering, pp. 914-925, Desember 1993.
[8] Nitin Bhatia, Vandana, "Survei Teknik Tetangga Terdekat"
Jurnal Internasional Ilmu Komputer dan Keamanan
Informasi, Vol. 8, No. 2, (2010).
[9] Angeline Christobel. Y, Dr Sivaprakasam (2011).
Perbandingan Empiris Metode Klasifikasi Data Mining.
Jurnal Internasional Sistem Informasi Komputer, Vol. 3, No.
2, (2011).
[10] V. Suresh Babu dan P. Viswanath. Weighted k-nearest leader
classier untuk set data yang besar. Dalam PReMI, hal. 1724
(2007).
[11] Aman Kataria, M. D. Singh, Tinjauan Klasifikasi Data
Menggunakan Algoritma K-Nearest Neighbor, Jurnal
Internasional Teknologi Berkembang dan Teknik Lanjutan ,
Volume (3), Edisi (6), Juni (2013).
[12] J. Tripathy, R. Dash, B. K. Pattanayak dan B. Mohnty,
"Penambangan Frasa Otomatis Menggunakan Post:
Pendekatan Terbaik," Konferensi Internasional Odisha ke-1
tentang Teknik Tenaga Listrik, Komunikasi dan Teknologi
Komputasi (ODICON), 2021, hal. 1-6, doi:
10.1109/ODICON50556.2021.9429014.
[13] Panda, Smruti Rekha, dan Jogeswar Tripathy. "Pengenalan
karakter tulisan tangan offline Odia menggunakan
pencocokan template dengan pemetaan unicode." Simposium
internasional 2015 tentang komputasi dan komunikasi tingkat
lanjut (ISACC), hlm. 109- 115, IEEE, 2015.
[14] D. Mohapatra, J. Tripathy, K. K. Mohanty dan D. S. K.
Nayak, "Interpretasi Parameter Hiper yang Dioptimalkan
dalam Pembelajaran Aturan Asosiatif menggunakan Eclat
dan Apriori," Konferensi Internasional ke-5 tentang
Metodologi dan Komunikasi Komputasi (ICCMC) 2021,
2021, hal. 879-882, doi:
10.1109/ICCMC51019.2021.9418049.
[15] Mohapatra D., Tripathy J., Patra T.K. (2021) Deteksi dan
Pemantauan Penyakit Padi Menggunakan Klasifikasi CNN
dan Naive Bayes. In: Borah S., Pradhan R., Dey N., Gupta P.
(eds) Teknik dan Aplikasi Komputasi Cerdas. Kemajuan
dalam Sistem dan Komputasi Cerdas, vol 1248. Springer,
Singapore. https://doi.org/10.1007/978-981-15-7394-1_2.
[16] Anil K. Jain , Robert P. W. Duin , Jianchang Mao, Statistik
Lihat statistik publikasi

Anda mungkin juga menyukai