Anda di halaman 1dari 15

Klasifikasi Dokumen dengan K-NN

Sistem Temu Kembali Informasi A11.4708


RAHARDYANTO ARIF NUGROHO (A11.2016.09678)
WISNU AGASTYA (A11.2016.09996)
WIRANDA FARHADY (A11.2016.09998)
Pengertian

K-NN (K-Nearest Neighbor) ->


Klasifikasi Dokumen/Objek dengan
menghitung jumlah tetangga
terdekat.
Langkah - Langkah

 Kelompokan dok/objek tetangga terdekat sesuai masing- masing class-nya


 Tentukan jarak objek ke masing-masing tetangga
 Urutkan semua tetangga berdasarkan jarak terdekat
 Tentukan jumlah K
 Class tetangga terbanyak dalam K akan menentukan class objek tsb.
 Apabila ada jumlah class tetangga yang sama, maka akan dibandingkan
jumlah jarak yang paling dekat.
Penentuan Jarak Tetangga

Penentuan jarak dokumen bisa menggunakan


 Euclidean Distance
 Cosine Similarity
 Dll.
Euclidean Distance
Cosine Similarity
Kelebihan

 Membutuhkan waktu yang relatif cepat (tidak peduli dengan nilai jaraknya,
kecuali ada jumlah class yang sama).
 Efektif untuk data besar
Kekurangan

 Harus melakukan uji coba untuk menentukan jumlah K yang tepat (karena
tiap K dapat memunculkan hasil berbeda).
Klasifikasi Dokumen K-NN (Cosine Similarity)

Teks Class
Training D1 Sepakbola PSIS tahun ini semakin indah Olahraga
D2 Presiden Indonesia menaikan harga BBM Politik
D3 Partai politik Indonesia berburu suara Politik
D4 MU diharapkan juara Liga Inggris 2016 Olahraga
D5 Timnas Indonesia gagal juara AFC Olahraga
Testing D6 PSIS berburu suara Liga Indonesia ?
Hasil Pre-processing

Teks Class
Training D1 sepakbola psis tahun indah Olahraga
D2 presiden indonesia naik harga bbm Politik
D3 partai politik indonesia buru suara Politik
D4 mu harap juara liga inggris 2016 Olahraga
D5 timnas indonesia gagal juara afc Olahraga
Testing D6 psis buru suara liga indonesia ?
tf idf Wdt = tf.idf
Term D1 D2 D3 D4 D5 D6 df log(n/df) D1 D2 D3 D4 D5 D6
sepakbola 1 0 0 0 0 0 1 0,77815125 0,778151 0 0 0 0 0
psis 1 0 0 0 0 1 2 0,477121255 0,477121 0 0 0 0 0,477121
tahun 1 0 0 0 0 0 1 0,77815125 0,778151 0 0 0 0 0
indah 1 0 0 0 0 0 1 0,77815125 0,778151 0 0 0 0 0
presiden 0 1 0 0 0 0 1 0,77815125 0 0,778151 0 0 0 0
indonesia 0 1 1 0 1 1 4 0,176091259 0 0,176091 0,176091 0 0,176091 0,176091
naik 0 1 0 0 0 0 1 0,77815125 0 0,778151 0 0 0 0
harga 0 1 0 0 0 0 1 0,77815125 0 0,778151 0 0 0 0
bbm 0 1 0 0 0 0 1 0,77815125 0 0,778151 0 0 0 0
partai 0 0 1 0 0 0 1 0,77815125 0 0 0,778151 0 0 0
politik 0 0 1 0 0 0 1 0,77815125 0 0 0,778151 0 0 0
buru 0 0 1 0 0 1 2 0,477121255 0 0 0,477121 0 0 0,477121
suara 0 0 1 0 0 1 2 0,477121255 0 0 0,477121 0 0 0,477121
mu 0 0 0 1 0 0 1 0,77815125 0 0 0 0,778151 0 0
harap 0 0 0 1 0 0 1 0,77815125 0 0 0 0,778151 0 0
juara 0 0 0 1 0 0 1 0,77815125 0 0 0 0,778151 0 0
liga 0 0 0 1 0 1 2 0,477121255 0 0 0 0,477121 0 0,477121
inggris 0 0 0 1 0 0 1 0,77815125 0 0 0 0,778151 0 0
2016 0 0 0 1 0 0 1 0,77815125 0 0 0 0,778151 0 0
timnas 0 0 0 0 1 0 1 0,77815125 0 0 0 0 0,778151 0
gagal 0 0 0 0 1 0 1 0,77815125 0 0 0 0 0,778151 0
afc 0 0 0 0 1 0 1 0,77815125 0 0 0 0 0,778151 0
2,811575 3,288696 2,686636 4,367878 2,510545 2,084576
WD6 . WDi Panjang Vektor
D1 D2 D3 D4 D5 D1 D2 D3 D4 D5 D6
0 0 0 0 0 0,605519 0 0 0 0 0
0,227645 0 0 0 0 0,227645 0 0 0 0 0,227645
0 0 0 0 0 0,605519 0 0 0 0 0
0 0 0 0 0 0,605519 0 0 0 0 0
0 0 0 0 0 0 0,605519 0 0 0 0
0 0,031008 0,031008 0 0,031008 0 0,031008 0,031008 0 0,031008 0,031008
0 0 0 0 0 0 0,605519 0 0 0 0
0 0 0 0 0 0 0,605519 0 0 0 0
0 0 0 0 0 0 0,605519 0 0 0 0
0 0 0 0 0 0 0 0,605519 0 0 0
0 0 0 0 0 0 0 0,605519 0 0 0
0 0 0,227645 0 0 0 0 0,227645 0 0 0,227645
0 0 0,227645 0 0 0 0 0,227645 0 0 0,227645
0 0 0 0 0 0 0 0 0,605519 0 0
0 0 0 0 0 0 0 0 0,605519 0 0
0 0 0 0 0 0 0 0 0,605519 0 0
0 0 0 0,227645 0 0 0 0 0,227645 0 0,227645
0 0 0 0 0 0 0 0 0,605519 0 0
0 0 0 0 0 0 0 0 0,605519 0 0
0 0 0 0 0 0 0 0 0 0,605519 0
0 0 0 0 0 0 0 0 0 0,605519 0
0 0 0 0 0 0 0 0 0 0,605519 0
0,227645 0,031008 0,486298 0,227645 0,031008 2,044203 2,453086 1,697336 3,255242 1,847566 0,941587
1,429756 1,566233 1,302819 1,804229 1,359252 0,970354
Hasil Cos(D6, Di) Class Dokumen Class

Cos(D6, D1) 0,16408366 Olahraga D3 0,384669633 Politik


D1 0,16408366 Olahraga
Cos(D6, D2) 0,020402766 Politik
D4 0,13002765 Olahraga
Cos(D6, D3) 0,384669633 Politik
D5 0,023509608 Olahraga
Cos(D6, D4) 0,13002765 Olahraga
D2 0,020402766 Politik
Cos(D6, D5) 0,023509608 Olahraga

Ditentukan nilai K = 4
Class Olahraga = 3
Class Politik = 1

Maka dokumen tsb masuk dalam class olahraga, walaupun jarak D3 (politik) yang paling dekat.
Contoh Kasus Lain
Dokumen Class
D3 0,384669633 Politik
D1 0,16408366 Olahraga
D4 0,13002765 Olahraga
D2 0,020402766 Politik

Class Olahraga = D1 + D4 = 0,164 + 0,130 = 0,294


Class Politik = D2 + D4 = 0,020 + 0,384 = 0,404

Olahraga < Politik


Maka dokumen tsb masuk dalam class politik.
Sekian.

Anda mungkin juga menyukai