Anda di halaman 1dari 15

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN

ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY


DAN VECTOR SPACE MODEL



MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE
OFFICE OF TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY
AND VECTOR SPACE MODEL




Herman
1
, Andani Achmad
2
, Amil Ahmad Ilham
2

1
Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar,
Kementerian Komunikasi dan Informatika
2
Jurusan Elektro, Prodi Informatika, Fakultas Teknik, Universitas Hasanuddin

















Alamat Korespondensi:

Herman, S.Kom
Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar,
Kementerian Komunikasi dan Informatika
Makassar. Sulawesi Selatan.
HP: 08219200121
Email: mrman.roma@gmail.com


ABSTRAK
Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem klasifikasi dokumen naskah dinas
dengan banyak kategori sehingga dapat mempermudah dalam penyimpanan dan pencarian dokumen naskah
dinas. Penelitian ini menerapkan metode text mining dengan supervised learning menggunakan algoritma term
frequency inverse document frequency (TF-IDF) dan vector space model. Metode text mining menggunakan
teks di dokumen untuk menentukan kata kunci. Algoritma TF-IDF melakukan pemberian bobot pada setiap kata
kunci disetiap kategori dan vector space model untuk mencari kemiripan kata kunci dengan kategori yang
tersedia. Implementasi sistem ini melakukan pembelajaran untuk mendapatkan model dari setiap kategori
sehingga pada saat klasifikasi menggunakan model tersebut untuk dibandingkan dengan data uji. Hasil
penelitian ini menunjukkan bahwa perbedaan jumlah data training mempengaruhi akurasi klasifikasi dokumen.
Faktor fisik dokumen dan hasil pembacaan optical character recognition (OCR) juga menjadi factor yang dapat
mempengaruhi akurasi klasifikasi dokumen.

Kata kunci : Klasifikasi dokumen, naskah dinas, TF-IDF, vector space model.


ABSTRACT
The aims of the study were to design and implement a classification system of documents with many categories
of services to facilitate storage and retrieval of documents in the office script. The method of study was a text
mining a supervised leraning algorithm of the term frequency - inverse document frequency (TF-IDF) and the
vector space model. Text mining method used the text in the document to determine the key word. TF-IDF
algorithm to assigned weighting on every keyword on every category and vector space model to seek similarities
of keywords with in the available category.The implementation of the system is the learning process of finding
such a model in every category so that during classification, the model is used to compare with the compare
data. These results of the research indicated that the differences of training data number influenced document
classification accuracy. Document physical factor and the result of optical character recognition (OCR) was
also a factor which can influence the document classification accuracy.

Key words: Documents classification, official script, TF-IDF, vector space model.









PENDAHULUAN
Dalam puluhan tahun terakhir, jumlah dokumen semakin lama semakin bertambah
banyak dan beragam. Jika jumlah dokumen semakin bertambah banyak maka proses
pencarian dan penyajian dokumen menjadi lebih sukar / sulit, sehingga akan lebih mudah jika
dokumen tersebut sudah tersedia sesuai dengan kategorinya masing-masing. Sebagai
konsekuensi, sangatlah penting untuk bisa mengorganisir dan mengklasifikasi dokumen
secara otomatis.
Klasifikasi dokumen teks adalah permasalahan yang mendasar dan penting. Didalam
dokumen teks, tulisan yang terkandung adalah bahasa alami manusia, yang merupakan
bahasa dengan struktur yang kompleks dan jumlah kata yang sangat banyak. Oleh karena itu,
permasalahan ini merupakan masalah yang cukup kompleks dikarenakan penggunaan bahasa
alami tersebut. Salah satu dari beberapa metode yang dapat digunakan dalam tujuan untuk
mengklasifikasikan dokumen, dimulai dari pengelolaan dokumen teks dengan menggunakan
metode text mining dan mengklasifikasikan dokumen menggunakan algoritma Term
Frequency Inversed Document Frequency (TF-IDF) serta Vector Space Model.
Kenyataan masih banyaknya instansi pemerintah baik lembaga negara, pemerintah
pusat dan daerah, perguruan tinggi negeri serta BUMN/D yang belum sepenuhnya
melaksanakan pedoman tata naskah dinas khususnya dalam mengklasifikasikan naskah dinas
sesuai dengan kategori yang secara umum telah diatur pada Peraturan Menteri Negara
Pemberdayaan Aparatur Negara (PERMENPAN) nomor 22 tahun 2008 tentang Pedoman
Umum Tata Naskah Dinas.
Berdasarkan hal tersebut, penulis akan melakukan penelitian dokumen naskah dinas
secara otomatis.
Tujuan dari penelitian ini adalah untuk implementasi sistem klasifikasi dokumen
naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam pencarian
dokumen naskah dinas dan mengetahui tingkat akurasi hasil klasifikasi dengan metode TF-
IDF dan Vector Space Model dalam mengklasifikasikan dokumen naskah dinas

METODE PENELITIAN
Rancangan Sistem
Pada penelitian ini berfokus pada bagaimana mengimplementasikan sistem klasifikasi
secara otomatis. Sistem secara umum dapat dilihat pada gambar 1 berikut yaitu sistem ini
bekerja dimulai dari dokumen yang masih dalam bentuk fisik (kertas) di scan menggunakan
media scanner untuk di konversi ke dalam bentuk file berbasis teks (*.txt) ataupun
mengekstrak file yang telah di digitalkan dalam bentuk image menggunakan teknik OCR
(Optical Character Recognizing), kemudian hasilnya dilakukan proses text mining, yang
meliputi proses case folding, tokenizing dan filtering menggunakan stoplist. Setelah itu term
yang dihasilkan dilakukan proses pembobotan atas frekuensi kemunculannya dengan
algoritma TF IDF, yang selanjutnya akan dilakukan pencarian kemiripan dengan algoritma
Vector Space Model. Ketika hasil similiarity / kemiripan diperoleh maka akan dilakukan
pemeringkatan berdasarkan bobotnya, dimana bobot yang tertinggi adalah yang diasumsikan
sebagai hasil klasifikasi.
Pemodelan Sistem
Use Case Diagram
Pada sistem ini terdapat dua aktor yaitu user. Ketika pertama kali menjalankan sistem,
user melakukan login sesuai dengan hak yang diperolehnya. Kemudian user dapat
mengupload dokumen dalam bentuk image yang telah diketahui kategorinya dan melakukan
proses pembelajaran. Selanjutnya user dapat melakukan klasifikasi dokumen yang belum
diketahui kategorinya dan sistem mengklasifikasikan secara otomatis berdasarkan kategori
yang ada. User juga dapat mencari dan melihat hasil klasifikasi dokumen yang telah
tersimpan seperti yang terlihat pada gambar 2,3,4,5. ,Pressman, R (2002), Suhendar.,Gunadi,
H. (2002), Sommerville, I. (2003).
Activity Diagram
Pada gambar 5, Pressman, R (2002), Suhendar.,Gunadi, H. (2002) activity diagram
diperlihatkan aktivitas yang dilakukan user yaitu proses desain diawali memilih menu
training untuk melakukan pelatihan pada sistem, menu klasifikasi untuk menguji sistem
dalam mengklasifikasikan dokumen naskah dinas dan menu searching untuk melakukan
pencarian sesuai dengan kata kunci untuk menemukan dokumen yang relevan.
Rancangan Interface
Pada rancangan interface, untuk menu training dan klasifikasi semua dimulai dari
mengupload file image yang akan dikonversi menjadi teks dan dilakukan proses untuk
memperoleh kata kunci, dimana kata kunci tersebut yang menjadi dasar dalam perhitungan
untuk mengklasifikasikan dokumen naskah dinas seperti yang terlihat pada gambar 6,7,8,9.
HASIL
Hasil implementasi metode text klasifikasi dokumen naskah dinas terdiri dari 2 (dua)
tugas utama yaitu klasifikasi dokumen dan retrival dokumen. Pada bagian klasifikasi terdapat
2 (dua) proses baik training maupun klasifikasi dengan menggunakan metode text mining,
TF-IDF dan Vector Space Model.
Hasil pengujian klasifikasi terhadap dokumen yang telah sebelumnya dilakukan telah
dilakukan proses training ternyata mampu mengklasifikasikan semua dokumen dengan benar.
Namun untuk hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan
training sebelumnya hanya mampu menghasilkan tingkat akurasi dalam klasifikasi dokumen
di kisaran 70 80%. Pengujian yang dilakukan mencoba mengukur tingkat akurasi
berdasarkan jumlah data training. Hasil pengujian klasifikasi dokumen menunjukkan bahwa
jumlah data training mempengaruhi tingkat akurasi klasifikasi dokumen. Jumlah dokumen
yang dilatih / training berpengaruh terhadap akurasi ketepatan klasifikasi dokumen. Bentuk
fisik dokumen dan sistem OCR berpengaruh terhadap data training maupun hasil klasifikasi,
hal ini dapat terlihat pada tabel 1,2,3,4.
Pengujian Tingkat Akurasi Algoritma
Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori
masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen
yang masing-masing kategori terdiri dari 10 dokumen yang telah digunakan untuk dilatih
sepenuhnya adalah seluruh klasifikasi 100% benar, seperti pada tabel 1.
Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori
masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen
yang masing-masing kategori terdiri dari 10 dokumen yang belum pernah dilatih
sebelumnya,dapat dilihat pada tabel 2.
Pada skenario ini, penulis melakukan pengujian klasifikasi seperti pada skenario 2
tetapi dengan meningkatkan jumlah data pembelajaran / latih., dapat dilihat pada tabel. 3
Hasil pengujian terhadap 20 dokumen uji dengan jumlah data latih yang berbeda,
dimana jumlah data latih terus ditambah menghasilkan adanya peningkatan hasil klasifikasi
dari 70% menjadi 75%, dapat dilihat pada tabel 4.
Namun disamping itu juga terdapat faktor lain yang turut mempengaruhi hasil
klasifikasi yaitu dokumen fisik naskah dinas yang dapat menghasilkan karakter-karakter yang
tidak jelas setelah proses ekstraksi teks sehingga bukan hanya menghilangkan kata kunci
yang dibutuhkan untuk proses klasifikasi tetapi menambah kata kunci baru yang tidak
dibutuhkan yang hanya menambah panjang waktu komputasi / perhitungan, seperti pada



PEMBAHASAN
Rancangan dari sistem klasifikasi terdiri dari 5 form utama yaitu form training,
klasifikasi, stoplist, searching dan print.
Tahapan-tahapan yang dilakukan dalam klasifikasi adalah proses ekstraksi dokumen,
melakukan proses text mining dimana diantaranya proses case folding, tokenizing dan
filtering. Setelah itu dilakukan proses pembobotan menggunakan algoritma term frequency
dan menghitung inversed document frequency.
Perbedaan pada tahap training dan klasifikasi terletak pada perhitungan cosine. Pada
tahap training proses dilakukan dari ekstraksi gambar ke teks kemudian pengolahan teks
menjadi kata kunci kemudian menghitung nilai setiap kata kunci sampai dengan pembobotan
setiap kata kunci pada setiap kategori setelah itu dismpan kedalam database yang dijadikan
sebagai model pembelajaran.
Kemudian pada proses klasifikasi, pada tahap preprocessing baik ekstraksi gambar ke
teks dan proses text mining diperlakukan sama dengan tahap training namun setelah
memperoleh kata kunci dari dokumen tersebut maka proses penentuan kategorinya dimulai
dengan mencari kata kunci yang sama yang tersimpan pada database, untuk kemudian
dihitung bobot antara jumlah dari bobot semua kata kunci pada suatu kategori dengan jumlah
bobot dari kata kunci yang ada pada database, ini dapat terlihat seperti pada tabel 6 dan 7.

KESIMPULAN DAN SARAN
Berdasarkan hasil penelitian maka dapat disimpulkan bahwa Klasifikasi dokumen
menggunakan algoritma TF-IDF dan vector space model mampu mengklasifikasikan
dokumen naskah dinas dengan banyak kategori. Hasil pengujian klasifikasi terhadap
dokumen yang telah dilakukan training sebelumnya mampu mengklasifikasikan dokumen
dengan akurat. Hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan
training sebelumnya menghasilkan tingkat akurasi di kisaran 70 80%. Hasil pengujian
klasifikasi dokumen menunjukkan bahwa jumlah data training mempengaruhi tingkat akurasi
klasifikasi dokumen. Jumlah dokumen yang dilatih / training berpengaruh terhadap akurasi
ketepatan klasifikasi dokumen. Bentuk fisik dokumen dan sistem OCR berpengaruh terhadap
data training maupun hasil klasifikasi. Hasil dari proyek akhir ini belum sempurna, oleh
karenanya untuk meningkatkan hasil yang dicapai dapat dilakukan diharapkan untuk
menggunakan sistem ekstraksi teks (OCR ) yang yang lebih lengkap dalam mendeteksi hasil
karakter baik hasil ketikan maupun tulisan tangan sehingga didapatkan hasil pembacaan yang
lebih baik dalam pengklasifikasian dokumen naskah dinas. Perlunya dikembangkan suatu
sistem untuk perbaikan hasil pembacaan secara otomatis yang dapat diintegrasikan dengan
sistem ini sehingga dapat menghasilkan tingkat akurasi klasifikasi yang lebih baik.


DAFTAR PUSTAKA
Arief, Achmad Fauzi. (2010). Perangkat Lunak Pengkonversi Teks Tulisan Tangan Menjadi
Teks Digital.
Aunurokhman, Ahmad Hatta (2010). Digital Documents Management System Using Text
mining.
Basnur, P. W., & Sensuse, D. I. (April 2010). Pengklasifikasian Otomatis Berbasis Ontologi
Untuk Artikel Berita Berbahasa Indonesia. Makara, Teknologi, Vol. 14, No.2 , 29-35.
Chenometh, Megan, Song, Min (2009) Text Categorization, dalam Encyclopedia of Data
Warehouse & Data Mining, IGI Global, hal. 1936-1941
Hariyanto, Bambang. (2000) Pengarsipan dan Akses pada Sistem Berkas. Februari Bandung :
Informatika.
Hasibuan, Z. A. (2007). Metodologi Penelitian Pada Bidang Ilmu Komputer dan Teknologi
Informasi. Makassar.
Kurniadi, Adi. (2002). Pemrograman Microsoft Visual Basic 6.0. Jakarta: Elex Media.
Koswara Eko. (2011), Visual Basic 6 Beginner Guide, Mediakom, Yokyakarta.
Kristanto, A. (2003). Perancangan Sistem Informasi dan Aplikasinya. Gava Media,
Yogyakarta.
M. Nazir. (1988) Metode Penelitian. Jakarta: PT. Ghalia Indonesia.
Oktanty, Rhizzajian. (2010). Design Structure Of Information System Decree In Faculty Of
Information Techonology.
Umar, Husein. (2008) Metode Penelitian untuk Skripsi dan Tesis Bisnis. PT. Rajagrafindo
Persada.











Tabel 1. Hasil Klasifikasi menggunakan Dokumen yang telah dilatih sebelumnya.
DATA UJI
KLASIFIKASI
BENAR
PERSENTASE
20 20 100 %


Tabel 2. Hasil Klasifikasi menggunakan Dokumen yang belum dilatih sebelumnya.

DATA UJI
KLASIFIKASI
BENAR
PERSENTASE
20 14 70 %


Tabel 3. Jumlah data latih yang akan digunakan untuk skenario 3.
KATEGORI
JUMLAH DATA
LATIH (P1)
JUMLAH DATA
LATIH (P2)
JUMLAH DATA
LATIH (P3)
Surat Edaran 10 15 20
Surat Perintah / Tugas 10 15 20
Surat Pengantar 10 15 20
Nota Dinas 10 15 20
Berita Acara 10 15 20
JUMLAH 50 75 100


Tabel 4. Hasil Rekapitulasi Pengujian Klasifikasi dokumen
DATA
LATIH
DATA UJI
KLASIFIKASI
BENAR
PERSENTASE
50 20 14
70 %
75 20 15
75 %
100
20 15 75 %






Tabel 6. Perhitungan TF, IDF dan W
K1 K2 K3 K4 K5 K1 K2 K3 K4 K5
berita 1 1 2 1 2 5 0 0 0 0 0 0
acara 1 2 1 1 0 4 0.097 0.097 0.194 0.097 0.097 0
seminar 2 1 1 2 1 5 0 0 0 0 0 0
usulan 2 0 2 2 2 4 0.097 0.194 0 0.194 0.194 0.194
penelitian 2 2 2 2 2 5 0 0 0 0 0 0
bertempat 1 1 1 1 1 5 0 0 0 0 0 0
ruang 2 1 2 2 2 5 0 0 0 0 0 0
sidang 1 0 1 0 1 3 0.222 0.222 0 0.222 0 0.222
jurusan 1 2 0 1 0 3 0.222 0.222 0.444 0 0.222 0
fak 1 0 0 0 0 1 0.699 0.699 0 0 0 0
teknik 1 1 1 1 0 4 0.097 0.097 0.097 0.097 0.097 0
diadakan 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0
evaluasi 1 1 1 0 2 4 0.097 0.097 0.097 0.097 0 0.194
nilai 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0
diberlakukan 1 1 0 1 0 3 0.222 0.222 0.222 0 0.222 0
mengikuti 0 1 1 2 1 4 0.097 0 0.097 0.097 0.194 0.097
peraturan 0 1 2 1 2 4 0.097 0 0.097 0.194 0.097 0.194
pemerintah 0 1 0 2 1 3 0.222 0 0.222 0 0.444 0.222
pegawai 0 1 1 1 1 4 0.097 0 0.097 0.097 0.097 0.097
TERM
TF
DF IDF
W = tf * idf


Tabel 7. Perhitungan Cosine Measure
K1
2
K2
2
K3
2
K4
2
K5
2
Q x K1 Q x K2 Q x K3 Q x K4 Q x K5
berita 0 0 0 0 0 0 0 0 0 0 0
acara 0 0.01 0.04 0.01 0.01 0 0 0 0 0 0
seminar 0 0 0 0 0 0 0 0 0 0 0
usulan 0 0.04 0 0.04 0.04 0.04 0 0 0 0 0
penelitian 0 0 0 0 0 0 0 0 0 0 0
bertempat 0 0 0 0 0 0 0 0 0 0 0
ruang 0 0 0 0 0 0 0 0 0 0 0
sidang 0 0.05 0 0.05 0 0.05 0 0 0 0 0
jurusan 0 0.05 0.2 0 0.05 0 0 0 0 0 0
fak 0 0.49 0 0 0 0 0 0 0 0 0
teknik 0 0.01 0.01 0.01 0.01 0 0 0 0 0 0
diadakan 0 0.16 0.16 0 0 0 0 0 0 0 0
evaluasi 0 0.01 0.01 0.01 0 0.04 0 0 0 0 0
nilai 0 0.16 0.16 0 0 0 0 0 0 0 0
diberlakukan 0.049 0.05 0.05 0 0.05 0 0.0024 0.002 0 0.0024 0
mengikuti 0 0 0.01 0.01 0.04 0.01 0 0 0 0 0
peraturan 0.009 0 0.01 0.04 0.01 0.04 0 9E-05 0.0004 9E-05 0.0004
pemerintah 0.049 0 0.05 0 0.2 0.05 0 0.002 0 0.0097 0.0024
pegawai 0.009 0 0.01 0.01 0.01 0.01 0 9E-05 9E-05 9E-05 9E-05
SUM 0.117 1.019 0.697 0.171 0.408 0.230 0.002 0.005 0.000 0.012 0.003
SQRT 0.342 1.009 0.835 0.414 0.639 0.479 0.049 0.071 0.021 0.111 0.054
0.002 0.007 0.003 0.030 0.012 Cosine
TERM
W = tf * idf
Q
2
QK

Character
Recognizing
Image File
Preprocessing
Extract Text From Image
Scanning
Document
Document Paper
Text Result
Tokenizing
Filtering
PreProcessing
Text Mining
N
e
w

D
o
c
T
r
a
i
n
in
g
Training Data
Document
Value
Metadata
Information
Vektor - Space
Model
Information
Needed
Database
Information
Image
Documnet
Text Query
(Searching)
Management Database
DOCUMENT CLASSIFICATION
PROCESS
Database
Case Folding
StopList
Term
Frequency -
Inverse
Document
Frequency (TF-
IDF)

Gambar 1. Gambaran sistem secara umum


Gambar 2. Use Case Diagram Sistem





Gambar 3 Use Case Pelatihan / Training


Gambar 4. Use Case Klasifikasi






Gambar 5. Activity Diagram


Gambar 6. Menu Utama


Gambar 7. Form Training Dokumen

Gambar 8. Form Klasifikasi Dokumen


Gambar 9. Form Pencarian Kembali Dokumen

Anda mungkin juga menyukai