2570 800 1 PB

Muniar, Penerapan Algoritma K-Nearest Neighbor pada Pengklasifikasian Dokumen Berita Online
PENERAPAN ALGORITMA K-NEAREST NEIGHBOR PADA

PENGKLASIFIKASIAN DOKUMEN BERITA ONLINE
Andi Yulia Muniar1, Pasnur2, Kiki Ria Lestari3

Program Studi Sistem Informasi, STMIK AKBA
Jl. P. Kemerdekaan Km. 9 No. 75 Makassar, telp/fax : 0411-588371
email: andiyulia@akba.ac.id1, pasnur@akba.ac.id2, kiki14@mhs.akba.ac.id3
ABSTRAK
Jumlah dokumen berita online meningkat dengan pesat. Dokumen-dokumen tersebut perlu
dikelompokkan agar memudahkan menemukan berita pada topik terkait. Pengelompokan
secara manual menggunakan bantuan manusia tidak efisien, terutama dengan kondisi jumlah
dokumen yang sangat banyak. Pada penelitian ini diusulkan metode pengelompokan atau
pengklasifikasian dokumen berita secara otomatis. Penelitian ini bertujuan untuk membuat
suatu sistem yang mampu mengklasifikasikan dokumen berita online secara otomatis
menggunakan metode k-Nearest Neighbour (KNN) dan diterapkan menggunakan bahasa
pemrograman PHP Hypertext Preprocessor (PHP) serta database MySQL. Hasil pengujian
pada dokumen berita yang dikumpulkan dari situs berita online TribunNews menujukkan nilai
akurasi rata-rata 89,9% pada nilai k=7. Hasil penilitian menunjukkan bahwa metode KNN
memiliki tingkat akurasi yang baik dalam melakukan pengklasifikasian dokumen berita secara
otomatis.
Kata Kunci: Dokumen Berita, Klasifikasi, k-Nearest Neighbor
ABSTRACT
The number of online news documents is increasing rapidly. These documents need to
classified to make it easier to find news on related topics. Manual classification by using human
assistance is not efficient, especially with the large number of documents. This research
proposes an automatic classification method for news documents. This study aims to create a
system capable of automatically classifying online news documents using the k-Nearest
Neighbor (KNN) method and implemented using the PHP Hypertext Preprocessor (PHP)
programming language and the MySQL database. The experimental results on news documents
collected from the online news site TribunNews showed an average accuracy value of 89.9%
at a value of k = 7. The results show that the KNN method has a good level of accuracy in
automatic news documents classification.
Keywords: news documents, classification, k-nearest neighbor
1. Pendahuluan mengelompokkan berita sesuai kategori

berita dengan menggunakan text mining.
Teknologi informasi merupakan salah Pada umumnya, berita yang disampaikan
satu hal yang tidak akan lepas dari dalam website terdiri dari beberapa
kehidupan manusia. Tanpa adanya kategori seperti berita politik, olahraga,
teknologi, manusia akan kesulitan dalam ekonomi, kesehatan, dan lain-lain (sebagai
berkomunikasi dan menyampaikan contoh pada website kompas.com,
informasi. Perlu adanya sistem yang detik.com, dan vivanews.com). Sejauh ini,
secara otomatis yang dapat mengelompokkan berita dalam beberapa
kategori tersebut dilakukan oleh editor
137
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 2, Desember 2020 : 137 – 144 E-ISSN : 2621-5608
secara manual. Prosesnya, sebelum Klasifikasi dokumen bertujuan untuk

diunggah harus terlebih dahulu diketahui mengklasifikasikan dokumen tidak
isi berita secara keseluruhan, Hal ini terstruktur ke dalam kelompok yang
membutuhkan ketelitian dan waktu yang menggambarkan isi dari dokumen.
tidak sebentar dalam sistem Dokumen dapat berupa teks dokumen
pengelompokkan. Oleh karena itu, perlu seperti artikel berita (Efendi & Malik,
adanya sistem yang secara otomatis dapat 2012).
mengelompokkan berita sesuai dengan Klasifikasi data terdiri dari 2 langkah
kategori berita dengan menggunakan text proses. Pertama adalah learning (fase
mining. Dokumen berita akan diproses training), dimana algoritma klasifikasi
menggunakan teks preprocessing dan
dibuat untuk menganalisa data training lalu
kemudian akan dilakukan proses
direpresentasikan dalam bentuk rule
klasifikasi menggunakan metode k-
klasifikasi. Proses kedua adalah klasifikasi,
Nearest Neighbour berdasarkan nilai k
terdekat. dimana data tes digunakan untuk
memperkirakan akurasi dari rule
2. Kajian Literatur klasifikasi (Rohman, 2012).
2.1 Dokumen Berita 2.3 k-Nearest Neighbor (kNN)

Dokumen merupakan sumber data k-Nearest Neighbor (kNN) adalah suatu
yang digunakan untuk melengkapi metode yang menggunakan algoritma
penelitian, baik berupa sumber tertulis, supervised dimana data testing yang baru
film, gambar (foto), dan karya-karya diklasifikasikan berdasarkan mayoritas
monumental, yang semuanya itu kelas pada kNN (Fauzi, 2017). Tujuan dari
memberikan informasi bagi proses algoritma ini adalah mengklasifikasi objek
penelitian (Gharuty, 2009). Menurut baru berdasarkan atribut dan data training.
Kamus Besar Bahasa Indonesia (KBBI), Pengklasifikasian tidak menggunakan
Berita adalah cerita atau keterangan model apapun untuk dicocokkan dan
mengenai kejadian atau peristiwa yang hanya berdasarkan pada memori. Prinsip
hangat; kabar, Laporan, Pemberitahuan; dari kNN adalah menemukan k objek dari
pengumuman. Berita memiliki aliran data training yang paling dekat dengan
yang dinamis dimana informasi yang data testing. Algoritma kNN sangat
terkandung didalamnya memungkin-kan sederhana, bekerja berdasarkan pada jarak
sebuah informasi baru yang tidak ada terdekat dari data testing dengan data
dalam dokumen sebelumnya (Widodo, training untuk menentukan k-tetangga
2016). terdekat (kNN), kemudian diambil
mayoritas dari kNN untuk dijadikan
prediksi dari data testing.
2.2 Klasifikasi
KNN memiliki beberapa kelebihan
Klasifikasi merupakan suatu metode
yaitu ketangguhan terhadap training
untuk mengelompokkan sebuah objek ke
data yang memiliki banyak noise dan
dalam kelompok atau kelas tertentu.
efektif apabila training data-nya besar.
Klasifikasi dokumen adalah bidang
Sedangkan, kelemahan KNN adalah
penelitian dalam perolehan informasi KNN perlu menentukan nilai dari
dengan mengembangkan metode untuk parameter k (jumlah dari tetangga
menentukan atau mengkategorikan terdekat), training berdasarkan jarak
dokumen ke dalam satu atau lebih tidak jelas mengenai jenis jarak apa yang
kelompok yang sebelumnya telah diakui harus digunakan dan atribut mana yang
secara otomatis berdasarkan isi dokumen.
138
harus digunakan untuk mendapatkan text mining, sumber data yang

hasil terbaik, dan biaya komputasi cukup dipergunakan adalah kumpulan atau
tinggi karena diperlukan perhitungan koleksi dokumen tidak terstuktur dan
jarak dari tiap query instance pada memerlukan adanya pengelompokan
keseluruhan training sample. untuk diketahui informasi sejenis
Pada fase klasifikasi, fitur-fitur yang (Lestari, 2014).
sama dihitung untuk testing data (yang Seperti data mining, aplikasi text
klasifikasinya tidak diketahui). Jarak mining pada suatu studi kasus, harus
dari vektor baru yang ini terhadap dilakukan sesuai prosedur analisis.
seluruh vektor training sample dihitung Langkah awal sebelum suatu data teks
dan sejumlah k buah yang paling dekat dianalisis menggunakan metode dalam
diambil. Riset terhadap algoritma ini text mining adalah melakukan
sebagian besar membahas bagaimana preprocessing teks (case folding,
memilih dan memberi bobot terhadap tokenizing, filtering, stemming).
fitur, agar performa klasifikasi menjadi Selanjutnya, setelah didapatkan data
lebih baik. cara kerja dari algoritma kNN yang siap diolah, analisis text mining
dimulai dengan Input data testing dapat dilakukan.
kemudian menetapkan nilai k setelah itu
menghitung jarak kedekatan
Mulai
menggunakan rumus cosine similarity,
selanjutnya mengurutkan jarak dan
memilih kelas mayoritas sebagai hasil Pilih Dokumen
Ganti dengan String Ganti dengan String
akhir dari klasifikasi dokumen berita. Kosong Kosong
Simpan
Menghitung jarak kedekatan
Baca Isi Dokumen
menggunakan Cosine Similarity Karena YA YA
dalam memperhitungkan jarak selain Selesai
pada data uji dan data sampel, sudut Lakukan Case Apakah terdaoat Apakah Terdapat
Folding karakter non-huruf ? Stopword?
yang dibentuk antar 2 data tersebut juga Tidak Tidak
diperhitungkan dalam penentuan data

yang termasuk dalam Nearest
Neighbors. Saat nilai similarity Gambar 1. Tahapan Persiapan
ditemukan, maka akan ditentukan data dokumen Berita (preprocessing)
yang merupakan Nearest Neighbours
dari data uji sebanyak nilai K. Nilai K 2.5 Pembobotan Kata (Term
yang dimaksud adalah banyaknya Weighting)
tetangga terdekat atau data yang Hal yang perlu diperhatikan dalam
memiliki kemiripan tertinggi di antara pencarian informasi dari koleksi
semua data yang ada. dokumen yang heterogen adalah
pembobotan term. Term dapat berupa
2.4 Teks mining kata, frase atau unit hasil indexing
Teks mining secara umum adalah lainnya dalam suatu dokumen yang
teori tentang pengolahan koleksi dapat digunakan untuk mengetahui
dokumen dalam jumlah besar yang ada konteks dari dokumen tersebut. Karena
dari waktu ke waktu dengan setiap kata memiliki tingkat kepentingan
menggunakan beberapa analisis, tujuan yang berbeda dalam dokumen, maka
pengolahan teks adalah mengetahui dan untuk setiap kata tersebut diberikan
mengekstrak informasi yang berguna sebuah indikator, yaitu term weight. Term
dari sumber data dengan identifikasi dan
eksplorasi pola menarik. Dalam kasus
139
weighting atau pembobotan term sangat 2.5 Cosine Similarity

dipengaruhi oleh hal-hal berikut ini : Cosine similarity berfungsi untuk
1. Term Frequency (tf), yaitu faktor yang membandingkan kemiripan antar
menentukan bobot term pada suatu dokumen, dalam hal ini yang
dokumen berdasarkan jumlah dibandingkan adalah query dengan
kemunculannya dalam dokumen dokumen latih . Dalam menghitung
tersebut. Nilai jumlah kemunculan cosine similarity pertama yaitu
suatu kata (term frequency) melakukan perkalian skalar antara query
diperhitungkan dalam pemberian bobot dengan dokumen kemudian
terhadap suatu kata. Semakin besar dijumlahkan, setelah itu melakukan
jumlah kemunculan suatu term (tf perkalian antara panjang dokumen
tinggi) dalam dokumen, maka akan dengan panjang query yang telah
semakin besar pula bobotnya dalam dikuadratkan, setelah itu dihitung akar
dokumen atau akan memberikan nilai pangkat dua. Selanjutnya hasil perkalian
kesesuian yang semakin besar. skalar tersebut di bagi dengan hasil
2. Inverse Document Frequency (idf) , perkalian panjang dokumen dan query.
yaitu pengurangan dominansi term Rumus dapat dilihat sebagai berikut :
yang sering muncul di berbagai
dokumen. Hal ini diperlukan karena
term yang banyak muncul di
berbagai dokumen, dapat dianggap di mana :
sebagai term umum (common term) ccosSim(dj, qk) : tingkat kesamaan
sehingga tidak penting nilainya. dokumen dengan query tertentu
Sebaliknya faktor kejarangmunculan tdij : term ke-I vector untuk dokumen ke-
kata (term scarcity) dalam koleksi j
dokumen harus diperhatikan dalam tqik : term ke-I vector untuk dokumen ke-
pemberian bobot. ‘Kata yang muncul k
pada sedikit dokumen harus dipandang n : jumlah term yang unik dalam data
sebagai kata yang lebih penting set
(uncommon tems) disbanding dengan
kata yang muncul pada banyak 3. Metode Penelitian
dokumen. Pembobotan akan
memperhitungkan faktor kebalikan Pengolahan data diawali dengan
frekuensi dokumen yang mengumpulkan berita yang didapatkan
mengandung suatu kata (inverse dari situs Tribunnews.com kemudian
document frequency). mengubahnya menjadi dokumen plaint
Metode TF-IDF merupakan metode text (TXT). Dokumen uji coba yang
pembobotan term yang banyak digunakan digunakan berjumlah 60 data yang
sebagai metode pembanding terhadap merupakan kumpulan dari beberapa
metode pembobotan baru. Pada metode ini, kategori seperti : Sport, Kesehatan, dan
perhitungan bobot term t dalam sebuah Techno dengan 6 data testing (uji) dan
dokumen dilakukan dengan mengalikan sebanyak 54 data training (latih) yang
nilai Term Frequency dengan Inverse akan di proses dalam tahap
Document Frequency. preprocessing (case folding, tokenizing,
filtering, stemming).
140
Sistem Klasifikasi Berita
INPUT DATA
Data Training Data Testing
Login
<<include>> Tambah
Data
Tokenizing d>>
x ten
<<e
Edit Data
Manajemen nd >>
<<exte
Data Berita
Case Folding <<extend>> Hapus
Data
PREPROCESSING
Klasifikasi Berita
Filtering
TEXT
(Stopword Removal) Baru
Stemming Editor Laporan Pembaca Berita
T.Index Kata Grafik

PEMBOBOTAN
Klasifikasi knn
Pembobotan TF
KATA
Pembobotan IDF
(TF.IDF)
Gambar 3. Use Case Diagram

K-Nearest Neighbour
Cosine Similarity
3.3 Perancangan Basis Data

Perancangan basis data ini untuk
K-Nearest
Neighbour menggambarkan data yang digunakan dan
direlasikan dalam pengaplikasian sistem
Hasil Klasifikasi
Klasifikasi
Dokumen Berita
klasifikasi ini.Terdapat beberapa bagian
data base yang terhubung yaitu database
login, database kategori, database berita,
database vektor, database stemming,
Gambar 2. Blok Diagram sebagai gambaran
database index, database cach, database
umum sistem
query table stemming, query index, table
3.2 Use Case dictionary, table evaluasi, table pengujian,
Use case diagram dapat dilihat pada dan database evaluasi. Perancangan ini
gambar 3, dimana terdapat 2 aktor yang menunjukkan adanya editor dan pembaca
terlibat dalam sistem ini, yaitu selaku admin berita yang dihungkan oleh table klasifikasi
(editor) dan user (pembaca berita). dokumen berita. Untuk melihat hubungan
Admin adalah aktor yang memiliki hak antar masing – masing entitas pada sistem
akses dalam mengelola keseluruhan sistem, ini dapat dilihat pada gambar 4.
termaksud didalamnya manajemen data
berita meliputi penambahan, mengedit atau 4. Hasil dan Pembahasan
menghapus berita. Admin memiliki hak
untuk dapat melihat dan mengetahui hasil Hasil penelitian dari penerapan KNN
klasifikasi berita serta hak untuk mengakses dalam pengklasifikasian dokumen berita
pengujian terhadap metode yang digunakan. online. Aktifitas akan dimulai oleh
User adalah pengguna sistem yang memiliki admin (editor) terlebih dahulu dengan
hak untuk melihat klasifikasi berita, mengakses menu Login seperti yang
melakukan klasifikasi berita baru terlihat pada gambar 5.
141
tb_login
dictionary Dalam menu manajemen data terbagi
Username : varchar(25) *
Password : varchar(35)
M Id_word
word
: int (11) *
: varchar (70)
menjadi dua sub menu, kategori berita
stopword
category
: enum (‘Ya’,’Bukan’,’’,’’)
: enum (‘kapabilitas’,’integritas’,’’,’’) dan dokumen berita dalam sub menu
sentiment : enum (‘positif’,’negatif’,’netral’,’’,’’)
tbvektor
1
dokumen berita ini berisi dua sub-sub
DocId : varchar (11) **
tb_berita
menu yaitu, menu berita yang berisi
Panjang : float
Id_berita : char (11) *

pengujian keseluruhan data dokumen berita yang
Id_kategori : char (11) ** M M
tb_kategori
1 M Judul : varchar (100)
pengujian : smallint (11)
id_data : varchar (11) *
digunakan dan sub-sub menu data
Id_kategori: char (11) * Isi_berita : longtext
1
Kategori : varchar (25) Tgl_berita : date
Status : enum (‘0’,’1’)
M pengujian yang menampilan ID dari
tbstem evaluasi berita yang akan menjadi berita latih
1 query_tbstem
Id : int (11) * 1 Id : int (11) ** M
Id
Id_data
: int (11) *
: varchar (11) **
(training) dan ID berita yang digunakan
DocId : varchar (11) **
1
Term
stem
: varchar (30)
: varchar (30)
Term
Stem
: varchar (30)
: varchar (30)
nilai_k
hasil_knn
: smallint (10)
: varchar (10)
sebagai berita test (testing). Seperti
stopword : varchar (5) hasil_real : varchar (10)
stopword : varchar (5)
status : char (1) yang terlihat pada gambar 7.
1 tbindex
query_index
1 Id : int (11) * 1
tbcache
Id : int (11) Term : varchar (31)
Term : varchar (30) ** 1 DocId : varchar (11) Id : int (11)
Query : longtext
Bobot : float Count : int (11) 1 1 DocId : varchar (11) **
Bobot : float
value : float
Ket :
* : Primary Key
** : Foreign Key
Gambar 4. Relasi Tabel Database
Gambar 7. Form Manajemen data
selanjutnya pada menu Klasifikasi KNN

terdapat empat sub menu berupa, KNN,
Klasifikasi Berita Baru, Laporan, Grafik.
Menu ini akan menampilkan 2 tabel utama
yang akan menunjukkan jarak dari semua
data yang dekat dengan data testing serta
Gambar 5. Form Login Admin (editor) tabel jarak dengan semua data yang dekat
dengan data testing yang sudah diurutkan
Setelah Admin login maka akan dihadapkan
sesuai dengan jarak yang paling dekat dan
pada tampilan halaman utama yang terdiri
akan menampilkan hasil klasifikasi berita
dari 3 menu utama yaitu menu Dashboard,
baru seperti yang terlihat pada Gambar 8
manajemen data, dan klasifikasi KNN yang
dan Gambar 9.
dapat dilihat pada Gambar 6.
Gambar 8. Form klasifikasi KNN

Gambar 6. Form Halaman Utama
142
Gambar 10. Form Menu Laporan
Didalam pengujian ini menggunakan

60 dokumen berita dengan tiga
kategori dari media elektronik yaitu,
sport, kesehatan dan techno. Dokumen
Gambar 9. Form Hasil Klasifikasi Berita berita yang digunakan terdiri dari dua
Baru bagian, diantaranya dokumen
pelatihan dan dokumen pengujian.
Pada menu laporan seperti yang terlihat Dokumen pelatihan berperan sebagai
pada Gambar 10 berisi tampilan data contoh yang akan digunakan
keseluruhan dari hasil klasifikasi, terdapat dalam proses pelatihan. Sedangkan
empat button utama yakni 1) Hasil dokumen pengujian digunakan
Klasifikasi, laporan yang berisi informasi sebagai data pengujian untuk melihat
hasil dari 10 pengujian, kategori
tingkat akurasi. Dalam pengujian ini,
sebenarnya, serta kategori dari hasil
digunakan sebanyak 54 dokumen
klasifikasi yg telah dilakukan oleh sistem.
pelatihan dan 6 dokumen pengujian,
2) Evaluasi K, Laporan mendetail dari nilai
precision, recall, F1-Measure serta hal ini dilakukan setiap pengujian.
akurasi di sepuluh kali pengujian sesuai Rata–rata jumlah kata yang
dengan inputan nilai k yang yang telah terkandung didalam dokumen berita
dipilih. 3) Rekap Per K-Pengujian, laporan yang digunakan sebanyak ±295 kata.
ini akan menyatukan keseluruhan nilai dari Pada setiap proses klasifikasi ataupun
10 pengujian dimulai dari k=1,3,5,7,9. 4) pelatihan, semua dokumen yang
Rekap Per K, jenis laporan ini hanya akan digunakan harus melewati proses text
menampilkan nilai per nilai k pengujian mining terlebih dahulu, yaitu proses
tanpa menampilkan detail dari isi 10 nilai case folding (mengubah teks menjadi
pengujian seperti dilaporan rekap per k- karakter, membuang karakter selain a-
pengujian sebelumnya. z, menghilangkan symbol, tanda baca
dan numerik) tokenizing (pemecahan
4.1 Pengujian Akurasi Algoritma
kata), filtering (penyaringan kata),
KNN
stemming (penghilangan imbuhan
Pengujian keakuratan dalam melakukan
klasifikasi dokumen berita menggunakan menjadikan kata dasar). Dalam
artikel dalam bentuk file teks. melakukan pengujian terhadap hasil
keluaran sistem menggunakan empat
143
jenis pengujian precision, recall, f- yang menjadi penyebab kesalahan

measure, dan accuracy. Hasil akurasi dalam pengklasifikasian.
dari masing-masing nilai k dapat
dilihat grafik yang ditampilkan pada Daftar Pustaka
Gambar 10
Efendi, R., Malik, R. F., & U Mila Sari,
J. ; (2012). Klasifikasi Dokumen
Berbahasa Indonesia Menggunakan
Naive Bayes Classifier. Research in
Computer Science and Applications,
I(I), 7–13.
Fauzi, A. M. 2017. Text Mining.
http://malifauzi.lecture.ub.ac.id/201
7/09/text-mining-20172018/,
diakses 4 April 2020.
Gharuty, F. (2009). Studi Dokumen
Gambar 10. Grafik akurasi KNN Dalam Penelitian Kualitatif.
https://adzelgar.wordpress.com/200
Hasil grafik akurasi knn didapatkan 9/02/02/studi-dokumen-dalam-
bahwa pada k=1 sebesar 88.8, k=3 penelitian-kualitatif/ diakses tanggal
sebesar 87.6, k=5 sebesar 88.8, k=7 20 April 2019
sebesar 89.9, sedangkan k=9 sebesar Lestari, M. E. I. (2014). Penerapan
85.5. maka dari hasil tingkat akurasi Algoritma Klasifikasi Nearest
tertinggi didapatkan dari nilai k=7 Neighbor (K-NN) untuk Mendeteksi
yakni 89.9. Penyakit Jantung. Faktor Exacta,
7(4), 366–371. Jakarta Selatan
5. Kesimpulan Universitas Indraprasta
Rohman, A. (2012). Model Algoritma
K-Nearest Neighbor (K-NN) Untuk
Berdasarkan hasil penelitian yang
Prediksi Kelulusan Mahasiswa.
dilakukan dalam proses klasifikasi
Semarang : Fakultas Teknik
dokumen k=7 merupakan nilai dengan
Universitas Pandanaran Semarang
tingkat akurasi terbaik sebesar 89.9% Widodo, P., et al. (2016). Klasifikasi
dengan menggunakan 60 dokumen Kategori Dokumen Berita
yang terdiri dari 6 data uji dan 54 data Berbahasa Indonesia Dengan
latih dari 3 kategori yaitu, sport, Metode Kategorisasi Multi-Label
kesehatan dan techno. Dari 60 dokumen Berbasis Domain Specific Ontology,
uji hasil klasifikasi yang dilakukan oleh II(2), 126–137. Surabaya : Institut
sistem bahwa sebanyak 44 dokumen uji Teknologi Sepuluh Nopember (ITS)
memiliki nilai yang benar yang artinya
hasil klasifikasi dan kategori kelas
sebenarnya telah sesuai sedangkan 16
dokumen sisanya diklasifikasikan
dalam kategori yang berbeda, hal ini
dikarenakan kurangnya kata-kata yang
penting yang mencerminkan suatu
dokumen dan juga terdapat kata-kata
yang dominan ke kategori lain, inilah
144

2570 800 1 PB

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

2570 800 1 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

Muniar, Penerapan Algoritma K-Nearest Neighbor pada Pengklasifikasian Dokumen Berita Online

PENERAPAN ALGORITMA K-NEAREST NEIGHBOR PADA

Andi Yulia Muniar1, Pasnur2, Kiki Ria Lestari3

1. Pendahuluan mengelompokkan berita sesuai kategori

secara manual. Prosesnya, sebelum Klasifikasi dokumen bertujuan untuk

2.1 Dokumen Berita 2.3 k-Nearest Neighbor (kNN)

harus digunakan untuk mendapatkan text mining, sumber data yang

dalam memperhitungkan jarak selain Selesai

diperhitungkan dalam penentuan data

weighting atau pembobotan term sangat 2.5 Cosine Similarity

Sistem Klasifikasi Berita

Stemming Editor Laporan Pembaca Berita

T.Index Kata Grafik

Gambar 3. Use Case Diagram

3.3 Perancangan Basis Data

Id_berita : char (11) *

Gambar 4. Relasi Tabel Database

Gambar 7. Form Manajemen data

selanjutnya pada menu Klasifikasi KNN

Gambar 8. Form klasifikasi KNN

Gambar 10. Form Menu Laporan

Didalam pengujian ini menggunakan

jenis pengujian precision, recall, f- yang menjadi penyebab kesalahan

Anda mungkin juga menyukai