JURNAL TEKNIK INFORMATIKA VOL.10 NO.
2, 2017 | 109
IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER
PADA SISTEM KLASIFIKASI SURAT KELUAR
(Studi Kasus : DISKOMINFO Kabupaten Tangerang)
Dea Herwinda Kalokasari1, Dr. Imam Marzuki Shofi2, Anif Hanifa Setyaningrum3
Program Studi S1 Teknik Informatika, Fakultas Sains dan Teknologi
UIN Syarif Hidayatullah Jakarta
E-mail: dewinka42ti@mhs.uinjkt.ac.id1, imam@uinjkt.ac.id2, anifhanifa@yahoo.com3
ABSTRAK
Informasi diperkirakan lebih dari 80% tersimpan dalam bentuk teks tidak terstruktur. Oleh karena itu,
dibutuhkan sistem pengelolaan teks yaitu dengan metode text mining yang diyakini memiliki potensial
nilai komersial tinggi. Salah satu implementasi dari text mining yaitu klasifikasi teks. Tidak hanya
dokumen, pemanfaatan klasifikasi juga digunakan pada surat. Peneliti mengkaji Multinomial Naive
Bayes Classifier untuk mengklasifikasi surat keluar sehingga dapat menentukan nomor surat secara
otomatis. Sistem klasifikasi didukung dengan confix-stripping stemmer untuk menemukan kata dasar
dan TF-IDF untuk pembobotan kata. Pengujian diukur dengan menggunakan confusion matrix. Dari
hasil pengujian menunjukkan bahwa implementasi Multinomial Naive Bayes Classifier pada sistem
klasifikasi surat memiliki tingkat accuracy, precision, recall, dan F-measure berturut-turut sebesar
89,58%, 79,17%, 78,72%, dan 77,05%.
Kata kunci: Surat Keluar, Klasifikasi, Text Mining, Multinomial Naive Bayes Classifier, Confix-
stripping Stemmer, TF-IDF
ABSTRACT
The information estimated that more than 80% is stored in the form of unstructured text. Therefore, it
takes a text management system, namely text mining method is believed to have high potential
commercial. One of text mining implementation is text classification. Not only documents, the use of
classification is also used in official letter. Researcher examined Multinomial Naive Bayes Classifier to
classify the letter so it can determine the letters classification code automatically. The classification
system is supported by confix-stripping stemmer to find root and TF-IDF for term weighting. The test
used by confusion matrix of a classified as a measure of its quality. The test results showed that the
implementation of Multinomial Naive Bayes Classifier on letter classification system has a level of
accuracy, precision, recall, and F-measure respectively for 89.58%, 79.17%, 78.72% and 77.05%.
Keywords: Letter; Classification; Text Mining; Multinomial Naive Bayes Classifier; Confix-stripping
Stemmer; TF-IDF
DOI: 10.15408/jti.v10i2.6822
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
110 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017
I. PENDAHULUAN c) Pengambilan sampel berupa surat keluar
yang terdiri dari 4 kategori yaitu cuti,
Semakin banyaknya kumpulan data yang undangan, perintah, dan peminjaman ruang
berisi informasi-informasi penunjang kegiatan dengan format word berekstensi (.doc) atau
mengakibatkan kesulitan dalam pengolahannya. (.docx) atau (.txt).
Menurut Clara Bridge (2011), dikarenakan d) Pengujian dilakukan dengan
banyaknya informasi (perkiraan umum memperhitungkan accuracy, recall,
mengatakan lebih dari 80%) saat ini disimpan precision, dan F-measure pada setiap
sebagai teks, text mining diyakini memiliki klasifikasi.
potensi nilai komersial tinggi [1]. Hal yang lebih
menyulitkan dalam analisis adalah bahwa sekitar II. TINJAUAN PUSTAKA
80% sampai 85% bentuk informasi tersebut
dalam format tidak terstruktur (unstructured 2.1 Studi Literatur
data). Berikut studi literatur sejenis dengan
Salah satu implementasi dari text mining sistem klasifikasi surat dari proceeding
yaitu klasifikasi. Tanpa adanya klasifikasi maupun jurnal.
dokumen, proses pencarian dokumen akan a.) Penelitian yang dilakukan oleh
melakukan pencarian menyeluruh terhadap Bambang Kurniawan, Syahril Effendi,
semua dokumen yang ada, sehingga memakan dan Opim Salim Sitompul mengenai
waktu yang lama dan memberikan peluang hasil “Klasifikasi Konten Berita dengan
temu data yang meluas dari hasil topik yang Metode Text Mining” (2012).
dibutuhkan. b.) Penelitian tentang “Klasifikasi
Penentuan klasifikasi surat dalam lembaga Dokument Teks Menggunakan
nasional memiliki aturan yang diatur dalam Algoritma Naive Bayes dengan Bahasa
PERKA ANRI nomor 19 tahun 2012 tentang Pemrograman Java“ (2013) yang
pedoman penyusunan klasifikasi arsip yang telah dilakukan oleh Silfia Andini.
ditetapkan pada Undang-Undang nomor 43 c.) Penelitian mengenai“KNN based
Tahun 2009 tentang Kearsipan. Klasifikasi surat Machine Learning Approach for Text
digunakan sebagai dasar penomoran surat and Document Mining” (2014) oleh
dengan kode klasifikasi berjumlah 681 buah. Vishwanath Bijalwan, Vinay Kumar,
Penelitian yang sama dilakukan oleh Pinki Kumari, dan Jordan Pascual
Akhmad Pandhu Wijaya dan Heru Agus Santoso d.) Acmad Nurhadi meneliti tentang
melakukan penelitian dengan judul “Naive “Klasifikasi Konten Berita Digital
Bayes Classification pada Klasifikasi Dokumen Bahasa Indonesia Menggunakan
Untuk Identifikasi Konten E-Government” Support Vector Machines ( SVM )
menghasilkan akurasi keseluruhan klasifikasi Berbasis Particle Swarm Optimization
sebesar 85% [2]. Oleh karena itu, penulis ( PSO )” (2015)
mengkaji algoritma Multinomial Naive Bayes e.) Akhmad Pandhu Wijaya melakukan
Classifier (NBC) untuk kinerja sistem klasifikasi penelitian dengan judul “Naïve Bayes
terhadap dokumen surat. Classification Pada Klasifikasi
Rumusan masalah yang diangkat dalam Dokumen Untuk Identifikasi Konten
sistem ini adalah “Bagaimana E-Government” (2016)
mengimplementasikan algoritma Multinomial f.) Peneliti : “Implementasi Algoritma
Naive Bayes Classifier pada sistem klasifikasi Multinomial Naive Bayes
surat keluar?” Classification (MNBC) pada Sistem
Batasan masalah dari penelitian ini Klasifikasi Surat Keluar” (2017)
diantaranya adalah
a) Sistem klasifikasi surat yang dibangun
berbasis desktop dengan bahasa
pemrograman Java dan basis data MySQL.
b) Metode yang digunakan dalam klasifikasi
dokumen adalah dengan algoritma
Multinomial Naive Bayes Classifier
(MNBC).
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 111
Tabel 1. Kesimpulan hasil evaluasi studi literatur sejenis
Algoritma Algoritma
No. Text Mininng TF-IDF Pengujian Objek Tool
Stemming Klasifikasi
Tokenizing,
Tolowercase
Confix- Naïve dokumen
, PHP dan
a.) stripping Bayes berita
Stopword MySQL
stemmer Classifier 4 kategori
removal,
Stemming
Tokenizing,
Folding
Naïve Dokumen
(tolowercase
b.) Bayes teks Java
),
Classifier 2 kategori
Removal
Stopword
K-Nearest
Neighbors,
Bag of word,
Naive Dokumen
Stopword
c.) Bayes Accuracy teks Java
removal,
Classifier, 5 kategori
Case folding Term-
Graph
Support Recall, Konten RapidMine
Tokenizing,
d.) Vector Precision, berita r
Tolowercase Machine Accuracy 3 kategori 5.3
Tokenizing,
tidak
Stopword Naive
dijelaskan Dokumen tidak
e.) Removal, Bayes Accuracy
penggunaa 2 kategori dijelaskan
Filtering, Classifier
n algoritma
Stemming
Tolowercase
Multinomia Recall, Surat
, Confix-
l Naive Precision, keluar Java dan
f.) Tokenizing, stripping
Bayes Accuracy, dinas MySQL
Stopword stemmer
Classifier F1-measure 4 kategori
removal,
Stemming
2.2 Klasifikasi Surat kelas, 100 divisi, dan 1000 seksi, dan masih
Surat adalah suatu media komunikasi ada kemungkinan pembagian lebih lanjut.
yang berisi pernyataan tertulis mengenai data
atau informasi yang ingin disampaikan atau 2.3 Text Mining
ditanyakan kepada penerima surat [3]. Dalam Menurut Ronen Feldman dan James
klasifikasi surat suatu instansi, aturan sistem Sanger (2007), Text mining dapat
klasifikasi yang digunakan adalah Dewey didefinisikan sebagai proses pengetahuan
Decimal Classification (DDC). intensif di mana pengguna berhubungan
DDC diciptakan oleh Melvil Dewey sekumpulan dokumen dari waktu ke waktu
pada tahun 1873 dan diterbitkan pada tahun dengan menggunakan seperangkat tool
1876. DDC membagi ilmu pengetahuan analisis [4]. Tujuan utama text mining adalah
manusia menjadi 10 kelas utama, masing- untuk menganalisis dan menemukan pola
masing kelas utama dibagi menjadi 10 divisi yang menarik termasuk tren, outlier dan
dan masing-masing divisi dibagi lagi menjadi gagasan query yang tidak memiliki
10 seksi, sehingga DDC mempunyai 10 kandungan atau bahkan yang relevan [5].
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
112 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017
Proses Text Mining dibagi menjadi 3 Berikut merupakan tabel aturan
tahap utama, diantaranya : [6] peluruhan imbuhan pada algoritma confix-
a) Text Preprocessing merupakan tahapan stripping stemmer.
yang dilakukan proses tokenizing, dan
case folding. Tabel 3. Aturan peluruhan kata dasar [7]
b) Text Transformation disebut juga proses Aturan Bentuk Awalan Peluruhan
filtering. Pada tahap ini tindakan yang 1 berV… ber-V… | be-rV…
dilakukan adalah menghilangkan 2 belajar… bel-ajar
3 beC1erC2… be-C1erC2 …
stopword (stopword removal) dan
dimana
stemming terhadap kata yang C1!={'r'|'l'}
berimbuhan. 4 terV… ter-V…|te-rV…
c) Pattern Discovery merupakan tahapan 5 terCer… ter-Cer … dimana
berusaha menemukan pola atau C!='r'
pengetahuan dari keseluruhan teks. 6 teC1erC2 te-C1erC2…
dimana C1!='r'
2.4 Confix Stripping Stemmer 7 me{l|r|w|y}V… me-{l|r|w|y}V…
Algoritma confix-stripping stemmer 8 mem{b|f|v}… mem-{b|f|v}…
adalah algoritma yang digunakan untuk 9 mempe… mem-pe…
10 mem{rV|V}… me-m{rV|V} …
melakukan proses stemming terhadap kata-
|me-p{rV|V}…
kata berimbuhan [7]. Algoritma Confix- 11 men{c|d|j|z}… men-{c|d|j|z}…
stripping stemmer mempunyai aturan 12 menV… me-nV…|me-
imbuhan sendiri dengan model sebagai tV…
berikut : 13 meng{g|h|q|k} meng-{g|h|q|k}…
[[[AW + ] AW +] AW +] Kata-Dasar …
[[+AK][+KK][+P]] 14 mengV… meng-V…|meng-
kV…
Gambar 1. Aturan Algoritma Confix-stripping 15 mengeC menge-C
stemmer [8] 16 menyV… me-ny…| meny-
sV…
Keterangan : AW : Awalan
17 mempV… mem-pV…
AK : Akhiran 18 pe{w|y}V… pe-{w|y}V…
KK : Kata ganti kepunyaan 19 perV… per-V…|pe-rV…
P : Partikel 20 pem{b|f|v}… pem-{b|f|v}…
21 pem{rV|V}… pe-
Tidak semua kombinasi dari prefiks dan m{rV|V}…|pe-
sufiks dapat bergabung bersama untuk p{rV|V}
membentuk konfiks a. Ada beberapa 22 pen{c|d|j|z}… pen-{c|d|j|z}…
kombinasi awalan dan akhiran yang tidak 23 penV… pe-nV…|pe-tV…
diizinkan. Algoritma Confix-stripping 24 peng{g|h|q} peng-{g|h|q}
25 pengV peng-V|peng-kV
stemmer biasa dilakukan dengan
26 penyV… pe-nya|peny-sV
penghapusan imbuhan awalan. Namun pada 27 pelV.. pe-lV…; kecuali
kombinasi tersebut merupakan pengecualian untuk kata
terhadap prefiks dan sufiks tertentu untuk "pelajar" menjadi
menghapus akhiran terlebih dahulu. "ajar"
28 peCP pe-CP…dimana
Tabel 2. Kombinasi Prefiks dan Sufiks yang tidak C!={r|w|y|l|m|n}
diperbolehkan [7] dan P!='er'
Awalan ( Prefiks) Akhiran (Suffiks) 29 perCerV Per-CerV…
be- -i dimana
di- -an C!={r|w|y|l|m|n}
ke- -i –kan
me- -an 2.5 Term Weighting
se- -i –kan Algoritma TF-DF adalah suatu
te- -an algoritma yang berdasarkan nilai statistik
menunjukkan kemunculan suatu kata di
dalam dokumen [2]. TF (Term Frequency)
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 113
menyatakan banyaknya suatu kata muncul
dalam sebuah dokumen. DF (Document
Frequency) menyatakan banyaknya
dokumen yang mengandung suatu kata dalam
satu segmen publikasi. Pengukuran utama adalah klasifikasi
𝑁
𝐼𝐷𝐹 = log ( ) accuracy, yang merupakan jumlah kasus
𝐷𝐹(𝑤) diklasifikasikan dengan benar di test set
𝑇𝐹 − 𝐼𝐷𝐹(𝑤, 𝑑) = 𝑇𝐹(𝑤, 𝑑) × 𝐼𝐷𝐹(𝑤) dibagi dengan jumlah total kasus dalam test
Keterangan: set. Precision dan recall mengukur seberapa
TF-lDF(w,d) : bobot suatu kata dalam tepat dan seberapa lengkap klasifikasi ini
keseluruhan dokumen pada kelas yang positif. [11]
w : suatu kata (word)
d : suatu dokumen (document)
TF(w,d) : frekuensi kemunculan
𝑇𝑃 + 𝑇𝑁
sebuah kata w dalam 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
dokumen d 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
IDF(w) : inverse DF dari kata w
Precision (p) adalah rasio terjadinya
N : jumlah keseluruhan
secara aktual diklasifikasikan sebagai positif
dokumen
untuk semua ketentuan yang diklasifikasikan
DF(w) : jumlah dokumen yang
sebagai positif. Recall (r) adalah rasio
mengandung kata w
terjadinya secara aktual diklasifikasikan
sebagai positif untuk semua ketentuan positif.
2.6 Multinomial Naive Bayes Classifier
F-measure yang didefinisikan sebagai rata-
Multinomial NBC merupakan model
rata harmonik dari precision dan recall. [12]
pengembangan dari algoritma bayes yang
2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
cocok dalam pengklasifikasian teks atau 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
dokumen. Pada formula Multinomial Naive 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Bayes Classifier, kelas dokumen tidak hanya
ditentukan dengan kata yang muncul tetapi III. PEMBAHASAN
juga jumlah kemunculannya [9].
𝐶𝑀𝐴𝑃 = arg max 𝑃(𝑐|𝑑) Penelitian ini menggunakan pendekatan
𝑐𝜖{𝑐𝑙 ,𝑐𝑠 } Rapid Application Development (RAD) sebagai
𝑚
metode pengembangan sistem. Dalam
= arg max 𝑃(𝑐) ∏ 𝑃(𝑡𝑘 |𝑐) pengembangan sistem, metode ini dapat
𝑐𝜖{𝑐𝑙 ,𝑐𝑠 }
𝑘=1 mempersingkat waktu pemrosesan dan
Parameter P(tk|c) (probability menghasilkan sistem aplikasi secara akurat dan
likelihood) diestimasikan dengan cepat. Proses RAD hanya melibatkan tiga tahap,
menghitung kejadian tk pada semua dokumen meliputi: requirement planning, workshop
training di c, menggunakan Laplacean prior: design, dan implementasi.
[10]
1+𝑁
P(t 𝑘 |c) = |𝑉|+𝑁𝑘 ,
dimana Nk adalah jumlah kemunculan tk
dalam dokumen pelatihan di c dan N adalah
jumlah total kejadian kata dalam c.
2.7 Confusion Matrix
Confusion matrix berisikan informasi
mengenai aktual dan prediksi yang diberikan
oleh classifier. [11]
Tabel 4. Confusion matrix dari classifier [11]
Actual Positive Negative
Classified
Positive TP FN
Negative FP TN
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
114 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017
Gambar 2. Kerangka penelitian
3.1 Pengumpulan Data Tahapan pembelajaran atau training
Dokumen yang dijadikan sampel merupakan proses mengekstraksi surat yang
penelitian yaitu surat keluar dinas dengan telah diketahui kategorinya. Proses ini
kategori undangan, cuti, perintah, dan pinjam dilakukan dengan penentuan dan
ruang. Surat yang terkumpul sejumlah 6 pembentukan bag of word pada setiap
sampel untuk masing-masing kategori dokumen training. Setiap kata yang disimpan
sehingga total keseluruhan yaitu 24 dokumen dianalisis nilai weighting terhadap semua
surat dan ditambah 1 dokumen surat untuk dokumen pada setiap klasifikasi sehingga
implementasi. dapat menghitung probabilitas kata yang
nantinya akan digunakan pada tahap testing.
3.2 Requirement Planning
Proses klasifikasi dilakukan melalui 2
tahap, di antaranya tahap training dan testing.
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 115
Gambar 3. Alur proses training
Tahapan testing merupakan proses kategori dengan mengimplementasikan
pengklasifikasian terhadap surat yang belum algoritma Multinomial Naive Bayes
diketahui kategorinya. Perhitungan Classifier.
probabilitas sebuah dokumen terhadap
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
116 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017
Gambar 4. Alur proses testing
3.3 Workshop Design dokumen lainnya. Berikut adalah hasil
Sistem desain dilaksanakan dengan klasifikasi dari setiap dokumen testing.
menggunakan metode object-oriented
dengan UML (Unified Modeling Language).
Sistem desain dibuat dengan beberapa
diagram pemodelan termasuk use case
diagram, class diagram, sequence diagram,
dan activity diagram.
3.4 Pengujian
Pengujian ini dilakukan pada salah satu
dokumen testing dan sisanya sebagai
dokumen training. Oleh karena itu, pengujian
24 dokumen yang tersedia masing-masing
diuji dengan dokumen training dari 23
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 117
Tabel 5. Hasil klasifikasi setiap dokumen Recall, dan F-measure secara berurutan sebesar
No. Dokumen Hasil Klasifikasi 89,58%, 79,17%, 78,72%, dan 77,05%. Untuk
1. Undangan1 Cuti mengembangkan sistem ini pada penelitian lebih
2. Undangan2 Pinjam Ruang lanjut, dapat dilakukan dengan memperluas
3. Undangan3 Undangan objek klasifikasi, baik surat keluar maupun surat
4. Undangan4 Pinjam Ruang masuk. Sistem juga perlu menambahkan lebih
5. Undangan5 Undangan banyak bag of words karena semakin banyak
6. Undangan6 Pinjam Ruang kamus kata, semakin lebih tepat proses stemming
7. Perintah1 Perintah dilakukan. Sistem dapat juga diimplementasikan
8. Perintah2 Perintah menggunakan metode lainnya.
9. Perintah3 Perintah
10. Perintah4 Perintah DAFTAR PUSTAKA
11. Perintah5 Perintah
12. Perintah6 Perintah [1] C. Bridge. 2011. "Unstructured Data and
13. Cuti1 Cuti the 80 Percent Rule.," [Online]. Available:
14. Cuti2 Cuti https://breakthroughanalysis.com/2008/0
15. Cuti3 Cuti 8/01/unstructured-data-and-the-80-
16. Cuti4 Cuti percent-rule/. [Accessed 20 April 2016].
17. Cuti5 Cuti [2] A. P. Wijaya. 2016. "Klasifikasi
18. Cuti6 Cuti Dokumen dengan Naive Bayes Classifier
19. PinjamRuang1 Pinjam Ruang (NBC) untuk Mengetahui Konten E-
20. PinjamRuang2 Cuti Goverment," Journal of Applied
21. PinjamRuang3 Pinjam Ruang Intelligent System, Vol.1, No. 1, pp. 48-55,
22. PinjamRuang4 Pinjam Ruang
23. PinjamRuang5 Pinjam Ruang [3] S. Wijaya. 2009. Surat-Surat
24. PinjamRuang6 Pinjam Ruang Kesekretariatan, Jakarta: Pustaka
Grahatama
Berikut hasil analisa pengujian sistem [4] R. Feldman and J. Sanger. 2007. The Text
secara keseluruhan. Mining Handbook: Advanced
Approaches in Analyzing Unstructured
Tabel 6. Rata-rata tingkat recall, precision, Data, New York: Cambridge University
accuracy, dan f-measure Press.
Klasifikasi Accuracy Precision Recall F-measure [5] C. C. Aggarwal and C. Zhai. 2012. An
Undangan 83,33% 33,33% 100% 50% Introduction to text mining, New York:
Perintah 100% 100% 100% 100%
Springer
Cuti 91,67% 100% 75% 85,71%
Pinjam [6] S. Andini. 2013. "Klasifikasi Dokumen
Ruang 83,33% 83,33% 62,5% 71,43% Teks menggunakan Algoritma Naive
Rata-rata 89,58% 79,17% 84,38% 76,79% Bayes dengan Bahasa Pemograman Java,"
Jurnal Teknologi Informasi dan
Pendidikan, Vol 6 no.2, pp. 140 - 147,
IV. KESIMPULAN [7] M. Adriani, J. Asian, B. Nazief, S.
Tahaghoghi and H. Williams. 2007.
Sistem klasifikasi surat yang dibentuk "Stemming Indonesian : A Confix-
berbasis dekstop dengan bahasa pemrograman Stripping Approach.," Transactions on
Java dan basis data mySQL dengan pembatasan Asian Language Information Processing,
data input yaitu berupa surat keluar dengan Vol. 6, No.4
format word berekstensi (.docx), (.doc), dan [8] B. Kurniawan, S. Effendi and O. S.
(.txt). Sistem klasifikasi surat keluar didukung Sitompul. 2012. "Klasifikasi Konten
dengan penerapan Confix-Stripping Stemmer Berita dengan Metode Text Mining,"
pada proses stemming dan TF-IDF untuk Jurnal Dunia Teknologi Informasi, Vol. 1,
pembobotan setiap kata yang terkandung pada pp. 14-19
dokumen (term weighting).
Hasil evaluasi sistem klasifikasi surat [9] I. H. Witten, F. Eibe and M. A. Hall. 2011.
keluar didapatkan nilai Accuracy, Precision, Data mining : Practical Machine Learning
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
118 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017
Tools and Techniques. Third Edition,
USA: Elsevier
[10] M. W. Berry and J. Kogan. 2010. Text
Mining Application and Theory, United
Kingdom: John Wiley and Sons
[11] B. Liu. 2011. Web Data Mining:
Exploring Hyperlinks, Contents, and
Usage Data, Second Edition, New York:
Spinger
[12] P. Cichosz. 2014. Data Mining
Algorithms: Explained Using R,
Chichester: John Wiley & Sons
Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901