ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY
DAN VECTOR SPACE MODEL
MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY AND VECTOR SPACE MODEL
Herman 1 , Andani Achmad 2 , Amil Ahmad Ilham 2
1 Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar, Kementerian Komunikasi dan Informatika 2 Jurusan Elektro, Prodi Informatika, Fakultas Teknik, Universitas Hasanuddin
Alamat Korespondensi:
Herman, S.Kom Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar, Kementerian Komunikasi dan Informatika Makassar. Sulawesi Selatan. HP: 08219200121 Email: mrman.roma@gmail.com
ABSTRAK Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem klasifikasi dokumen naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam penyimpanan dan pencarian dokumen naskah dinas. Penelitian ini menerapkan metode text mining dengan supervised learning menggunakan algoritma term frequency inverse document frequency (TF-IDF) dan vector space model. Metode text mining menggunakan teks di dokumen untuk menentukan kata kunci. Algoritma TF-IDF melakukan pemberian bobot pada setiap kata kunci disetiap kategori dan vector space model untuk mencari kemiripan kata kunci dengan kategori yang tersedia. Implementasi sistem ini melakukan pembelajaran untuk mendapatkan model dari setiap kategori sehingga pada saat klasifikasi menggunakan model tersebut untuk dibandingkan dengan data uji. Hasil penelitian ini menunjukkan bahwa perbedaan jumlah data training mempengaruhi akurasi klasifikasi dokumen. Faktor fisik dokumen dan hasil pembacaan optical character recognition (OCR) juga menjadi factor yang dapat mempengaruhi akurasi klasifikasi dokumen.
Kata kunci : Klasifikasi dokumen, naskah dinas, TF-IDF, vector space model.
ABSTRACT The aims of the study were to design and implement a classification system of documents with many categories of services to facilitate storage and retrieval of documents in the office script. The method of study was a text mining a supervised leraning algorithm of the term frequency - inverse document frequency (TF-IDF) and the vector space model. Text mining method used the text in the document to determine the key word. TF-IDF algorithm to assigned weighting on every keyword on every category and vector space model to seek similarities of keywords with in the available category.The implementation of the system is the learning process of finding such a model in every category so that during classification, the model is used to compare with the compare data. These results of the research indicated that the differences of training data number influenced document classification accuracy. Document physical factor and the result of optical character recognition (OCR) was also a factor which can influence the document classification accuracy.
Key words: Documents classification, official script, TF-IDF, vector space model.
PENDAHULUAN Dalam puluhan tahun terakhir, jumlah dokumen semakin lama semakin bertambah banyak dan beragam. Jika jumlah dokumen semakin bertambah banyak maka proses pencarian dan penyajian dokumen menjadi lebih sukar / sulit, sehingga akan lebih mudah jika dokumen tersebut sudah tersedia sesuai dengan kategorinya masing-masing. Sebagai konsekuensi, sangatlah penting untuk bisa mengorganisir dan mengklasifikasi dokumen secara otomatis. Klasifikasi dokumen teks adalah permasalahan yang mendasar dan penting. Didalam dokumen teks, tulisan yang terkandung adalah bahasa alami manusia, yang merupakan bahasa dengan struktur yang kompleks dan jumlah kata yang sangat banyak. Oleh karena itu, permasalahan ini merupakan masalah yang cukup kompleks dikarenakan penggunaan bahasa alami tersebut. Salah satu dari beberapa metode yang dapat digunakan dalam tujuan untuk mengklasifikasikan dokumen, dimulai dari pengelolaan dokumen teks dengan menggunakan metode text mining dan mengklasifikasikan dokumen menggunakan algoritma Term Frequency Inversed Document Frequency (TF-IDF) serta Vector Space Model. Kenyataan masih banyaknya instansi pemerintah baik lembaga negara, pemerintah pusat dan daerah, perguruan tinggi negeri serta BUMN/D yang belum sepenuhnya melaksanakan pedoman tata naskah dinas khususnya dalam mengklasifikasikan naskah dinas sesuai dengan kategori yang secara umum telah diatur pada Peraturan Menteri Negara Pemberdayaan Aparatur Negara (PERMENPAN) nomor 22 tahun 2008 tentang Pedoman Umum Tata Naskah Dinas. Berdasarkan hal tersebut, penulis akan melakukan penelitian dokumen naskah dinas secara otomatis. Tujuan dari penelitian ini adalah untuk implementasi sistem klasifikasi dokumen naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam pencarian dokumen naskah dinas dan mengetahui tingkat akurasi hasil klasifikasi dengan metode TF- IDF dan Vector Space Model dalam mengklasifikasikan dokumen naskah dinas
METODE PENELITIAN Rancangan Sistem Pada penelitian ini berfokus pada bagaimana mengimplementasikan sistem klasifikasi secara otomatis. Sistem secara umum dapat dilihat pada gambar 1 berikut yaitu sistem ini bekerja dimulai dari dokumen yang masih dalam bentuk fisik (kertas) di scan menggunakan media scanner untuk di konversi ke dalam bentuk file berbasis teks (*.txt) ataupun mengekstrak file yang telah di digitalkan dalam bentuk image menggunakan teknik OCR (Optical Character Recognizing), kemudian hasilnya dilakukan proses text mining, yang meliputi proses case folding, tokenizing dan filtering menggunakan stoplist. Setelah itu term yang dihasilkan dilakukan proses pembobotan atas frekuensi kemunculannya dengan algoritma TF IDF, yang selanjutnya akan dilakukan pencarian kemiripan dengan algoritma Vector Space Model. Ketika hasil similiarity / kemiripan diperoleh maka akan dilakukan pemeringkatan berdasarkan bobotnya, dimana bobot yang tertinggi adalah yang diasumsikan sebagai hasil klasifikasi. Pemodelan Sistem Use Case Diagram Pada sistem ini terdapat dua aktor yaitu user. Ketika pertama kali menjalankan sistem, user melakukan login sesuai dengan hak yang diperolehnya. Kemudian user dapat mengupload dokumen dalam bentuk image yang telah diketahui kategorinya dan melakukan proses pembelajaran. Selanjutnya user dapat melakukan klasifikasi dokumen yang belum diketahui kategorinya dan sistem mengklasifikasikan secara otomatis berdasarkan kategori yang ada. User juga dapat mencari dan melihat hasil klasifikasi dokumen yang telah tersimpan seperti yang terlihat pada gambar 2,3,4,5. ,Pressman, R (2002), Suhendar.,Gunadi, H. (2002), Sommerville, I. (2003). Activity Diagram Pada gambar 5, Pressman, R (2002), Suhendar.,Gunadi, H. (2002) activity diagram diperlihatkan aktivitas yang dilakukan user yaitu proses desain diawali memilih menu training untuk melakukan pelatihan pada sistem, menu klasifikasi untuk menguji sistem dalam mengklasifikasikan dokumen naskah dinas dan menu searching untuk melakukan pencarian sesuai dengan kata kunci untuk menemukan dokumen yang relevan. Rancangan Interface Pada rancangan interface, untuk menu training dan klasifikasi semua dimulai dari mengupload file image yang akan dikonversi menjadi teks dan dilakukan proses untuk memperoleh kata kunci, dimana kata kunci tersebut yang menjadi dasar dalam perhitungan untuk mengklasifikasikan dokumen naskah dinas seperti yang terlihat pada gambar 6,7,8,9. HASIL Hasil implementasi metode text klasifikasi dokumen naskah dinas terdiri dari 2 (dua) tugas utama yaitu klasifikasi dokumen dan retrival dokumen. Pada bagian klasifikasi terdapat 2 (dua) proses baik training maupun klasifikasi dengan menggunakan metode text mining, TF-IDF dan Vector Space Model. Hasil pengujian klasifikasi terhadap dokumen yang telah sebelumnya dilakukan telah dilakukan proses training ternyata mampu mengklasifikasikan semua dokumen dengan benar. Namun untuk hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan training sebelumnya hanya mampu menghasilkan tingkat akurasi dalam klasifikasi dokumen di kisaran 70 80%. Pengujian yang dilakukan mencoba mengukur tingkat akurasi berdasarkan jumlah data training. Hasil pengujian klasifikasi dokumen menunjukkan bahwa jumlah data training mempengaruhi tingkat akurasi klasifikasi dokumen. Jumlah dokumen yang dilatih / training berpengaruh terhadap akurasi ketepatan klasifikasi dokumen. Bentuk fisik dokumen dan sistem OCR berpengaruh terhadap data training maupun hasil klasifikasi, hal ini dapat terlihat pada tabel 1,2,3,4. Pengujian Tingkat Akurasi Algoritma Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen yang masing-masing kategori terdiri dari 10 dokumen yang telah digunakan untuk dilatih sepenuhnya adalah seluruh klasifikasi 100% benar, seperti pada tabel 1. Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen yang masing-masing kategori terdiri dari 10 dokumen yang belum pernah dilatih sebelumnya,dapat dilihat pada tabel 2. Pada skenario ini, penulis melakukan pengujian klasifikasi seperti pada skenario 2 tetapi dengan meningkatkan jumlah data pembelajaran / latih., dapat dilihat pada tabel. 3 Hasil pengujian terhadap 20 dokumen uji dengan jumlah data latih yang berbeda, dimana jumlah data latih terus ditambah menghasilkan adanya peningkatan hasil klasifikasi dari 70% menjadi 75%, dapat dilihat pada tabel 4. Namun disamping itu juga terdapat faktor lain yang turut mempengaruhi hasil klasifikasi yaitu dokumen fisik naskah dinas yang dapat menghasilkan karakter-karakter yang tidak jelas setelah proses ekstraksi teks sehingga bukan hanya menghilangkan kata kunci yang dibutuhkan untuk proses klasifikasi tetapi menambah kata kunci baru yang tidak dibutuhkan yang hanya menambah panjang waktu komputasi / perhitungan, seperti pada
PEMBAHASAN Rancangan dari sistem klasifikasi terdiri dari 5 form utama yaitu form training, klasifikasi, stoplist, searching dan print. Tahapan-tahapan yang dilakukan dalam klasifikasi adalah proses ekstraksi dokumen, melakukan proses text mining dimana diantaranya proses case folding, tokenizing dan filtering. Setelah itu dilakukan proses pembobotan menggunakan algoritma term frequency dan menghitung inversed document frequency. Perbedaan pada tahap training dan klasifikasi terletak pada perhitungan cosine. Pada tahap training proses dilakukan dari ekstraksi gambar ke teks kemudian pengolahan teks menjadi kata kunci kemudian menghitung nilai setiap kata kunci sampai dengan pembobotan setiap kata kunci pada setiap kategori setelah itu dismpan kedalam database yang dijadikan sebagai model pembelajaran. Kemudian pada proses klasifikasi, pada tahap preprocessing baik ekstraksi gambar ke teks dan proses text mining diperlakukan sama dengan tahap training namun setelah memperoleh kata kunci dari dokumen tersebut maka proses penentuan kategorinya dimulai dengan mencari kata kunci yang sama yang tersimpan pada database, untuk kemudian dihitung bobot antara jumlah dari bobot semua kata kunci pada suatu kategori dengan jumlah bobot dari kata kunci yang ada pada database, ini dapat terlihat seperti pada tabel 6 dan 7.
KESIMPULAN DAN SARAN Berdasarkan hasil penelitian maka dapat disimpulkan bahwa Klasifikasi dokumen menggunakan algoritma TF-IDF dan vector space model mampu mengklasifikasikan dokumen naskah dinas dengan banyak kategori. Hasil pengujian klasifikasi terhadap dokumen yang telah dilakukan training sebelumnya mampu mengklasifikasikan dokumen dengan akurat. Hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan training sebelumnya menghasilkan tingkat akurasi di kisaran 70 80%. Hasil pengujian klasifikasi dokumen menunjukkan bahwa jumlah data training mempengaruhi tingkat akurasi klasifikasi dokumen. Jumlah dokumen yang dilatih / training berpengaruh terhadap akurasi ketepatan klasifikasi dokumen. Bentuk fisik dokumen dan sistem OCR berpengaruh terhadap data training maupun hasil klasifikasi. Hasil dari proyek akhir ini belum sempurna, oleh karenanya untuk meningkatkan hasil yang dicapai dapat dilakukan diharapkan untuk menggunakan sistem ekstraksi teks (OCR ) yang yang lebih lengkap dalam mendeteksi hasil karakter baik hasil ketikan maupun tulisan tangan sehingga didapatkan hasil pembacaan yang lebih baik dalam pengklasifikasian dokumen naskah dinas. Perlunya dikembangkan suatu sistem untuk perbaikan hasil pembacaan secara otomatis yang dapat diintegrasikan dengan sistem ini sehingga dapat menghasilkan tingkat akurasi klasifikasi yang lebih baik.
DAFTAR PUSTAKA Arief, Achmad Fauzi. (2010). Perangkat Lunak Pengkonversi Teks Tulisan Tangan Menjadi Teks Digital. Aunurokhman, Ahmad Hatta (2010). Digital Documents Management System Using Text mining. Basnur, P. W., & Sensuse, D. I. (April 2010). Pengklasifikasian Otomatis Berbasis Ontologi Untuk Artikel Berita Berbahasa Indonesia. Makara, Teknologi, Vol. 14, No.2 , 29-35. Chenometh, Megan, Song, Min (2009) Text Categorization, dalam Encyclopedia of Data Warehouse & Data Mining, IGI Global, hal. 1936-1941 Hariyanto, Bambang. (2000) Pengarsipan dan Akses pada Sistem Berkas. Februari Bandung : Informatika. Hasibuan, Z. A. (2007). Metodologi Penelitian Pada Bidang Ilmu Komputer dan Teknologi Informasi. Makassar. Kurniadi, Adi. (2002). Pemrograman Microsoft Visual Basic 6.0. Jakarta: Elex Media. Koswara Eko. (2011), Visual Basic 6 Beginner Guide, Mediakom, Yokyakarta. Kristanto, A. (2003). Perancangan Sistem Informasi dan Aplikasinya. Gava Media, Yogyakarta. M. Nazir. (1988) Metode Penelitian. Jakarta: PT. Ghalia Indonesia. Oktanty, Rhizzajian. (2010). Design Structure Of Information System Decree In Faculty Of Information Techonology. Umar, Husein. (2008) Metode Penelitian untuk Skripsi dan Tesis Bisnis. PT. Rajagrafindo Persada.
Tabel 1. Hasil Klasifikasi menggunakan Dokumen yang telah dilatih sebelumnya. DATA UJI KLASIFIKASI BENAR PERSENTASE 20 20 100 %
Tabel 2. Hasil Klasifikasi menggunakan Dokumen yang belum dilatih sebelumnya.
DATA UJI KLASIFIKASI BENAR PERSENTASE 20 14 70 %
Tabel 3. Jumlah data latih yang akan digunakan untuk skenario 3. KATEGORI JUMLAH DATA LATIH (P1) JUMLAH DATA LATIH (P2) JUMLAH DATA LATIH (P3) Surat Edaran 10 15 20 Surat Perintah / Tugas 10 15 20 Surat Pengantar 10 15 20 Nota Dinas 10 15 20 Berita Acara 10 15 20 JUMLAH 50 75 100
Tabel 4. Hasil Rekapitulasi Pengujian Klasifikasi dokumen DATA LATIH DATA UJI KLASIFIKASI BENAR PERSENTASE 50 20 14 70 % 75 20 15 75 % 100 20 15 75 %
Character Recognizing Image File Preprocessing Extract Text From Image Scanning Document Document Paper Text Result Tokenizing Filtering PreProcessing Text Mining N e w
D o c T r a i n in g Training Data Document Value Metadata Information Vektor - Space Model Information Needed Database Information Image Documnet Text Query (Searching) Management Database DOCUMENT CLASSIFICATION PROCESS Database Case Folding StopList Term Frequency - Inverse Document Frequency (TF- IDF)