1 KNN Classifier
klasifikasi tetangga terdekat, juga dikenal sebagai K-nearest neighbors (KNN) adalah
didasarkan bahwa ide dari KKN adalah pola terdekat terhadap pola target x, KNN
memberikan kelas label mayoritas pola K-terdekat di ruang data. Oleh karena itu, kita harus
dapat menentukan ukuran kesamaan dalam ruang data. Di Rq, itu adalah untuk menggunakan
metrik Minkowski (p-norm)
x
' p
( x i ) ( i) j
q
i=1
p
=
x ' x j
yang sesuai dengan jarak Euclidean untuk p = 2. Dalam ruang data lain, fungsi jarak yang
cukup harus dipilih, misalnya, jarak Hamming di Bq. Dalam kasus klasifikasi biner, label di
set Y = {1, -1} digunakan, dan KNN dengan ukuran tetangga K dan dengan set indeks N K (x)
dari pola K-terdekat. didefinisikan sebagai berikut :
{
1 if yi 0
f KNN ( x )' = i NK (x' ) (2.2)
1if yi<0
i NK (x ')
Gambar 2.1 Perbandingan klasifikasi KNN pada dua awan berbasis data Gaussian untuk
dua jenis tetangga ((a) K = 1 dan (b) K = 20). Untuk nilai K yang kecil, KNN cenderung
overfit menjadi lokal, sementara KNN untuk mengabaikan generalisasi, nilai K lebih besar.
argmax
f KNN ( x ' ) = y I ( y i= y ) (2.3)
i N K (x')
regresi KNN, ( KN ) nilai output yang berbeda yang mungkin. Plato dapat menghambat
metode optimasi dari perkiraan cepat dari solusi optimal, karena tidak banyak informasi
tentang arah pencarian dapat diperoleh selama optimasi. Bailey dan Jain memperkenalkan
aturan KNN distance-weighted di akhir tahun tujuh puluhan untuk kelancaran fungsi prediksi
x' , x j
j N K (x ' )
'
( x , x i)
f w KNN ( x ' )=
'
i NK ( x )
Pola dekat dengan target harus memberikan kontribusi lebih untuk prediksi dari pola
yang lebih jauh. Kesamaan dapat didefinisikan dengan jarak antara pola, misalnya :
2
1
( x ' , x i )= (2.5)
x xi
'
(a) (b)
Gambar 2.8 Illustration of weighted KNN regression for (a) K = 2 and (b) K = 5
f w KNN K =N ( x )=
'
N
x' x i y i (2.6)
N
i=1 2
x x j
'
j=1
Bobot KNN untuk sejumlah diskrit solusi. akurasi mesin dapat membatasi ruang
output sampai 264 dalam kasus 64 bit yang digunakan. Kesamaan KNN membatasi