Rumus KNN

2.12.
1 KNN Classifier
klasifikasi tetangga terdekat, juga dikenal sebagai K-nearest neighbors (KNN) adalah
didasarkan bahwa ide dari KKN adalah pola terdekat terhadap pola target x, KNN
memberikan kelas label mayoritas pola K-terdekat di ruang data. Oleh karena itu, kita harus
dapat menentukan ukuran kesamaan dalam ruang data. Di Rq, itu adalah untuk menggunakan
metrik Minkowski (p-norm)
x
' p
( x i ) ( i) j
q

i=1

p
=
x ' x j
yang sesuai dengan jarak Euclidean untuk p = 2. Dalam ruang data lain, fungsi jarak yang
cukup harus dipilih, misalnya, jarak Hamming di Bq. Dalam kasus klasifikasi biner, label di
set Y = {1, -1} digunakan, dan KNN dengan ukuran tetangga K dan dengan set indeks N K (x)
dari pola K-terdekat. didefinisikan sebagai berikut :
{
1 if yi 0
f KNN ( x )' = i NK (x' ) (2.2)
1if yi<0
i NK (x ')
Pilihan K mendefinisikan lokalitas KNN. Untuk K = 1, lingkungan kecil muncul di

daerah-daerah, di mana pola dari kelas yang berbeda yang tersebar. Untuk ukuran lingkungan
yang lebih besar, misalnya K = 20, pola dengan label minoritas diabaikan. Gambar 2.7
menggambarkan perbedaan dalam klasifikasi antara KNN dengan K = 1 dan K = 20 pada set
data sederhana 2 dimensi yang terdiri dari dua awan data yang tumpang tindih terdapat 50
Gaussian sampel merah dan biru. Lokasi ruang data yang akan diklasifikasikan sebagai biru
ditampilkan warna biru cerah, sementara daerah diklasifikasikan sebagai merah ditunjukkan
dalam putih. Untuk K = 1, prediksi lokal. Misalnya, titik biru yang merupakan outlier dari
kelas biru terletak di pusat awan merah. Untuk K besar, classifier generalisasi mengabaikan
pola kecil aglomerasi. KNN menginduksi Voronoi tessellation di ruang data. Dalam kasus set
data yang besar, KNN harus mencari K-terdekat pola di seluruh ruang, tapi sudah dapat
menghasilkan pendekatan yang baik berdasarkan pada K-tetangga terdekat dalam subset yang
discan.
Gambar 2.7 Perbandingan klasifikasi KNN
Gambar 2.1 Perbandingan klasifikasi KNN pada dua awan berbasis data Gaussian untuk
dua jenis tetangga ((a) K = 1 dan (b) K = 20). Untuk nilai K yang kecil, KNN cenderung
overfit menjadi lokal, sementara KNN untuk mengabaikan generalisasi, nilai K lebih besar.
Pertanyaannya muncul, bagaimana memilih nilai K terbaik, yaitu, yang ukuran

lingkungan mencapai hasil klasifikasi terbaik. Masalah ini juga dikenal sebagai model seleksi,
dan berbagai teknik seperti cross-validasi dapat digunakan untuk memilih model terbaik dan
parameter.
2.12.2 Multi-class K-Nearest Neighbors

KNN juga dapat diterapkan untuk masalah klasifikasi multi kelas. Untuk pola yang tidak
diketahui x, KNN untuk klasifikasi multi-kelas memprediksi label kelas mayoritas pola K-
terdekat di ruang data. dengan fungsi indikator I () yang mengembalikan satu, jika argumen
benar 1 dan nol sebaliknya. Definisi ini juga akan digunakan untuk classifier ensemble.
argmax
f KNN ( x ' ) = y I ( y i= y ) (2.3)
i N K (x')
2.12.3 Nearest Neighbor Variants

KNN adalah teknik dengan prnghitungan panjang. Pertama kali disebutkan oleh Fix
dan Hodges pada tahun lima puluhan di sekolah Angkatan Udara AS tidak dipublikasikan dari
laporan Aviation Medicine sebagai teknik klasifikasi non-parametrik. Cover dan Hart
investigasi pendekatan eksperimental pada tahun enam puluhan. Hal menarik telah
ditemukan, misalnya :
Bahwa nilai K = 1 dan N , KNN mengalami dua kali tingkat kesalahan Bayes. Banyak
varian KNN telah disajikan di masa lalu. Dua varian disajikan berikut ini, dan modifikasi
semi-diawasi KNN sebagai berikut :
2.12.3.1 Model dasar KNN
Ide KNN berbasis model untuk menggantikan pelatihan yang ditetapkan oleh satu set
titik referensi (atau vektor codebook) yang mencapai hasil prediksi yang sama. Koleksi
landmark poin disebut Model. Pemilihan satu set landmark sebagai masalah optimasi, yaitu,
kita harus mencari subset optimal landmark vektor yang mencapai hasil tetangga sama
terdekat seperti KNN pada set lengkap pola. Pertama, matriks kesamaan dari kumpulan data
dihitung. Semua label yi ditetapkan untuk dikelompokkan. Kemudian kita mencari tetangga
yang meliputi jumlah terbesar dari tetangga dengan label yang sama. label mereka diatur
untuk dikelompokkan. Langkah terakhir diulang sampai semua label ditetapkan untuk
dikelompokkan. Model yang dihasilkan berisi pilihan untuk vektor penting yang dapat
digunakan sebagai pengganti untuk model KNN asli.
2.12.3.2 Distance-Weighted KNN

KNN menginduksi output lokal konstan. Dari perspektif optimasi, ini berarti kita
mendapatkan output dengan plato tinggi: untuk ukuran dari tetangga K dan pola N dalam
regresi KNN, ( KN ) nilai output yang berbeda yang mungkin. Plato dapat menghambat
metode optimasi dari perkiraan cepat dari solusi optimal, karena tidak banyak informasi
tentang arah pencarian dapat diperoleh selama optimasi. Bailey dan Jain memperkenalkan
aturan KNN distance-weighted di akhir tahun tujuh puluhan untuk kelancaran fungsi prediksi
pembobotan prediksi dengan persamaan ( x' , x i ) dari pola terdekat xi dengan
i N K (x ' ) untuk target x'
x' , x j

j N K (x ' )
'
( x , x i)

f w KNN ( x ' )=
'
i NK ( x )
Pola dekat dengan target harus memberikan kontribusi lebih untuk prediksi dari pola
yang lebih jauh. Kesamaan dapat didefinisikan dengan jarak antara pola, misalnya :
2
1
( x ' , x i )= (2.5)
x xi
'
Model fwKNN memperkenalkan output yang berkesinambungan. Gambar 2.8

menunjukkan KNN prediksi berdasarkan regresi KNN di varian bobot pada fungsi
trigonometri. Bobot KNN regresi interpolates antara titik-titik berbeda dengan varian yang
sama.
(a) (b)
Gambar 2.8 Illustration of weighted KNN regression for (a) K = 2 and (b) K = 5
f w KNN K =N ( x )=
'
N
x' x i y i (2.6)
N
i=1 2
x x j
'
j=1
Bobot KNN untuk sejumlah diskrit solusi. akurasi mesin dapat membatasi ruang
output sampai 264 dalam kasus 64 bit yang digunakan. Kesamaan KNN membatasi
jumlah kemungkinan nilai output ( NK ) . Sebagai catatan terakhir, kami menyatakan
bahwa untuk K = N kita mengambil setiap pola dan menghitungnya menghasilkan

penyederhanaan yang tidak mampu dihitung jarak antara tetangga terdekat.

Rumus KNN

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Rumus KNN

Diunggah oleh

Hak Cipta:

Format Tersedia

2.12.

Pilihan K mendefinisikan lokalitas KNN. Untuk K = 1, lingkungan kecil muncul di

Gambar 2.7 Perbandingan klasifikasi KNN

Pertanyaannya muncul, bagaimana memilih nilai K terbaik, yaitu, yang ukuran

2.12.2 Multi-class K-Nearest Neighbors

2.12.3 Nearest Neighbor Variants

2.12.3.2 Distance-Weighted KNN

pembobotan prediksi dengan persamaan ( x' , x i ) dari pola terdekat xi dengan

i N K (x ' ) untuk target x'

Model fwKNN memperkenalkan output yang berkesinambungan. Gambar 2.8

jumlah kemungkinan nilai output ( NK ) . Sebagai catatan terakhir, kami menyatakan

bahwa untuk K = N kita mengambil setiap pola dan menghitungnya menghasilkan

Anda mungkin juga menyukai