ABSTRAK
Jumlah dokumen berita online meningkat dengan pesat. Dokumen-dokumen tersebut perlu
dikelompokkan agar memudahkan menemukan berita pada topik terkait. Pengelompokan
secara manual menggunakan bantuan manusia tidak efisien, terutama dengan kondisi jumlah
dokumen yang sangat banyak. Pada penelitian ini diusulkan metode pengelompokan atau
pengklasifikasian dokumen berita secara otomatis. Penelitian ini bertujuan untuk membuat
suatu sistem yang mampu mengklasifikasikan dokumen berita online secara otomatis
menggunakan metode k-Nearest Neighbour (KNN) dan diterapkan menggunakan bahasa
pemrograman PHP Hypertext Preprocessor (PHP) serta database MySQL. Hasil pengujian
pada dokumen berita yang dikumpulkan dari situs berita online TribunNews menujukkan nilai
akurasi rata-rata 89,9% pada nilai k=7. Hasil penilitian menunjukkan bahwa metode KNN
memiliki tingkat akurasi yang baik dalam melakukan pengklasifikasian dokumen berita secara
otomatis.
Kata Kunci: Dokumen Berita, Klasifikasi, k-Nearest Neighbor
ABSTRACT
The number of online news documents is increasing rapidly. These documents need to
classified to make it easier to find news on related topics. Manual classification by using human
assistance is not efficient, especially with the large number of documents. This research
proposes an automatic classification method for news documents. This study aims to create a
system capable of automatically classifying online news documents using the k-Nearest
Neighbor (KNN) method and implemented using the PHP Hypertext Preprocessor (PHP)
programming language and the MySQL database. The experimental results on news documents
collected from the online news site TribunNews showed an average accuracy value of 89.9%
at a value of k = 7. The results show that the KNN method has a good level of accuracy in
automatic news documents classification.
Keywords: news documents, classification, k-nearest neighbor
137
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 2, Desember 2020 : 137 – 144 E-ISSN : 2621-5608
138
Muniar, Penerapan Algoritma K-Nearest Neighbor pada Pengklasifikasian Dokumen Berita Online
pada data uji dan data sampel, sudut Lakukan Case Apakah terdaoat Apakah Terdapat
Folding karakter non-huruf ? Stopword?
yang dibentuk antar 2 data tersebut juga Tidak Tidak
139
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 2, Desember 2020 : 137 – 144 E-ISSN : 2621-5608
140
Muniar, Penerapan Algoritma K-Nearest Neighbor pada Pengklasifikasian Dokumen Berita Online
INPUT DATA
Data Training Data Testing
Login
<<include>> Tambah
Data
Tokenizing d>>
x ten
<<e
Edit Data
Manajemen nd >>
<<exte
Data Berita
Case Folding <<extend>> Hapus
Data
PREPROCESSING
Klasifikasi Berita
Filtering
TEXT
(Stopword Removal) Baru
Klasifikasi knn
Pembobotan TF
KATA
Pembobotan IDF
(TF.IDF)
Cosine Similarity
Klasifikasi
Dokumen Berita
klasifikasi ini.Terdapat beberapa bagian
data base yang terhubung yaitu database
login, database kategori, database berita,
database vektor, database stemming,
Gambar 2. Blok Diagram sebagai gambaran
database index, database cach, database
umum sistem
query table stemming, query index, table
3.2 Use Case dictionary, table evaluasi, table pengujian,
Use case diagram dapat dilihat pada dan database evaluasi. Perancangan ini
gambar 3, dimana terdapat 2 aktor yang menunjukkan adanya editor dan pembaca
terlibat dalam sistem ini, yaitu selaku admin berita yang dihungkan oleh table klasifikasi
(editor) dan user (pembaca berita). dokumen berita. Untuk melihat hubungan
Admin adalah aktor yang memiliki hak antar masing – masing entitas pada sistem
akses dalam mengelola keseluruhan sistem, ini dapat dilihat pada gambar 4.
termaksud didalamnya manajemen data
berita meliputi penambahan, mengedit atau 4. Hasil dan Pembahasan
menghapus berita. Admin memiliki hak
untuk dapat melihat dan mengetahui hasil Hasil penelitian dari penerapan KNN
klasifikasi berita serta hak untuk mengakses dalam pengklasifikasian dokumen berita
pengujian terhadap metode yang digunakan. online. Aktifitas akan dimulai oleh
User adalah pengguna sistem yang memiliki admin (editor) terlebih dahulu dengan
hak untuk melihat klasifikasi berita, mengakses menu Login seperti yang
melakukan klasifikasi berita baru terlihat pada gambar 5.
141
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 2, Desember 2020 : 137 – 144 E-ISSN : 2621-5608
tb_login
dictionary Dalam menu manajemen data terbagi
Username : varchar(25) *
Password : varchar(35)
M Id_word
word
: int (11) *
: varchar (70)
menjadi dua sub menu, kategori berita
stopword
category
: enum (‘Ya’,’Bukan’,’’,’’)
: enum (‘kapabilitas’,’integritas’,’’,’’) dan dokumen berita dalam sub menu
sentiment : enum (‘positif’,’negatif’,’netral’,’’,’’)
tbvektor
1
dokumen berita ini berisi dua sub-sub
DocId : varchar (11) **
tb_berita
menu yaitu, menu berita yang berisi
Panjang : float
Ket :
* : Primary Key
** : Foreign Key
142
Muniar, Penerapan Algoritma K-Nearest Neighbor pada Pengklasifikasian Dokumen Berita Online
143
Inspiration : Jurnal Teknologi Informasi dan Komunikasi P-ISSN : 2088-6705
Volume 10, Nomor 2, Desember 2020 : 137 – 144 E-ISSN : 2621-5608
144