0% menganggap dokumen ini bermanfaat (0 suara)

166 tayangan10 halaman

Implementasi Multinomial Naive Bayes

Dokumen tersebut membahas implementasi algoritma Multinomial Naive Bayes Classifier pada sistem klasifikasi surat keluar untuk menentukan nomor surat secara otomatis berdasarkan empat kategori surat. Pengujian menunjukkan tingkat akurasi, presisi, recall, dan F-measure masing-masing sebesar 89,58%, 79,17%, 78,72%, dan 77,05%.

Diunggah oleh

REG.B/0617103034/FERNANDO MENDONCA

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

0% menganggap dokumen ini bermanfaat (0 suara)

166 tayangan10 halaman

Implementasi Multinomial Naive Bayes

Diunggah oleh

REG.B/0617103034/FERNANDO MENDONCA

Hak Cipta

Kami menangani hak cipta konten dengan serius. Jika Anda merasa konten ini milik Anda, ajukan klaim di sini.

Format Tersedia

Unduh sebagai PDF, TXT atau baca online di Scribd

JURNAL TEKNIK INFORMATIKA VOL.10 NO.

2, 2017 | 109

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER

PADA SISTEM KLASIFIKASI SURAT KELUAR
(Studi Kasus : DISKOMINFO Kabupaten Tangerang)

Dea Herwinda Kalokasari1, Dr. Imam Marzuki Shofi2, Anif Hanifa Setyaningrum3

Program Studi S1 Teknik Informatika, Fakultas Sains dan Teknologi

UIN Syarif Hidayatullah Jakarta
E-mail: dewinka42ti@mhs.uinjkt.ac.id1, imam@uinjkt.ac.id2, anifhanifa@yahoo.com3

ABSTRAK

Informasi diperkirakan lebih dari 80% tersimpan dalam bentuk teks tidak terstruktur. Oleh karena itu,
dibutuhkan sistem pengelolaan teks yaitu dengan metode text mining yang diyakini memiliki potensial
nilai komersial tinggi. Salah satu implementasi dari text mining yaitu klasifikasi teks. Tidak hanya
dokumen, pemanfaatan klasifikasi juga digunakan pada surat. Peneliti mengkaji Multinomial Naive
Bayes Classifier untuk mengklasifikasi surat keluar sehingga dapat menentukan nomor surat secara
otomatis. Sistem klasifikasi didukung dengan confix-stripping stemmer untuk menemukan kata dasar
dan TF-IDF untuk pembobotan kata. Pengujian diukur dengan menggunakan confusion matrix. Dari
hasil pengujian menunjukkan bahwa implementasi Multinomial Naive Bayes Classifier pada sistem
klasifikasi surat memiliki tingkat accuracy, precision, recall, dan F-measure berturut-turut sebesar
89,58%, 79,17%, 78,72%, dan 77,05%.

Kata kunci: Surat Keluar, Klasifikasi, Text Mining, Multinomial Naive Bayes Classifier, Confix-
stripping Stemmer, TF-IDF

ABSTRACT

The information estimated that more than 80% is stored in the form of unstructured text. Therefore, it
takes a text management system, namely text mining method is believed to have high potential
commercial. One of text mining implementation is text classification. Not only documents, the use of
classification is also used in official letter. Researcher examined Multinomial Naive Bayes Classifier to
classify the letter so it can determine the letters classification code automatically. The classification
system is supported by confix-stripping stemmer to find root and TF-IDF for term weighting. The test
used by confusion matrix of a classified as a measure of its quality. The test results showed that the
implementation of Multinomial Naive Bayes Classifier on letter classification system has a level of
accuracy, precision, recall, and F-measure respectively for 89.58%, 79.17%, 78.72% and 77.05%.

Keywords: Letter; Classification; Text Mining; Multinomial Naive Bayes Classifier; Confix-stripping
Stemmer; TF-IDF

DOI: 10.15408/jti.v10i2.6822

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
110 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017

I. PENDAHULUAN c) Pengambilan sampel berupa surat keluar

yang terdiri dari 4 kategori yaitu cuti,
Semakin banyaknya kumpulan data yang undangan, perintah, dan peminjaman ruang
berisi informasi-informasi penunjang kegiatan dengan format word berekstensi (.doc) atau
mengakibatkan kesulitan dalam pengolahannya. (.docx) atau (.txt).
Menurut Clara Bridge (2011), dikarenakan d) Pengujian dilakukan dengan
banyaknya informasi (perkiraan umum memperhitungkan accuracy, recall,
mengatakan lebih dari 80%) saat ini disimpan precision, dan F-measure pada setiap
sebagai teks, text mining diyakini memiliki klasifikasi.
potensi nilai komersial tinggi [1]. Hal yang lebih
menyulitkan dalam analisis adalah bahwa sekitar II. TINJAUAN PUSTAKA
80% sampai 85% bentuk informasi tersebut
dalam format tidak terstruktur (unstructured 2.1 Studi Literatur
data). Berikut studi literatur sejenis dengan
Salah satu implementasi dari text mining sistem klasifikasi surat dari proceeding
yaitu klasifikasi. Tanpa adanya klasifikasi maupun jurnal.
dokumen, proses pencarian dokumen akan a.) Penelitian yang dilakukan oleh
melakukan pencarian menyeluruh terhadap Bambang Kurniawan, Syahril Effendi,
semua dokumen yang ada, sehingga memakan dan Opim Salim Sitompul mengenai
waktu yang lama dan memberikan peluang hasil “Klasifikasi Konten Berita dengan
temu data yang meluas dari hasil topik yang Metode Text Mining” (2012).
dibutuhkan. b.) Penelitian tentang “Klasifikasi
Penentuan klasifikasi surat dalam lembaga Dokument Teks Menggunakan
nasional memiliki aturan yang diatur dalam Algoritma Naive Bayes dengan Bahasa
PERKA ANRI nomor 19 tahun 2012 tentang Pemrograman Java“ (2013) yang
pedoman penyusunan klasifikasi arsip yang telah dilakukan oleh Silfia Andini.
ditetapkan pada Undang-Undang nomor 43 c.) Penelitian mengenai“KNN based
Tahun 2009 tentang Kearsipan. Klasifikasi surat Machine Learning Approach for Text
digunakan sebagai dasar penomoran surat and Document Mining” (2014) oleh
dengan kode klasifikasi berjumlah 681 buah. Vishwanath Bijalwan, Vinay Kumar,
Penelitian yang sama dilakukan oleh Pinki Kumari, dan Jordan Pascual
Akhmad Pandhu Wijaya dan Heru Agus Santoso d.) Acmad Nurhadi meneliti tentang
melakukan penelitian dengan judul “Naive “Klasifikasi Konten Berita Digital
Bayes Classification pada Klasifikasi Dokumen Bahasa Indonesia Menggunakan
Untuk Identifikasi Konten E-Government” Support Vector Machines ( SVM )
menghasilkan akurasi keseluruhan klasifikasi Berbasis Particle Swarm Optimization
sebesar 85% [2]. Oleh karena itu, penulis ( PSO )” (2015)
mengkaji algoritma Multinomial Naive Bayes e.) Akhmad Pandhu Wijaya melakukan
Classifier (NBC) untuk kinerja sistem klasifikasi penelitian dengan judul “Naïve Bayes
terhadap dokumen surat. Classification Pada Klasifikasi
Rumusan masalah yang diangkat dalam Dokumen Untuk Identifikasi Konten
sistem ini adalah “Bagaimana E-Government” (2016)
mengimplementasikan algoritma Multinomial f.) Peneliti : “Implementasi Algoritma
Naive Bayes Classifier pada sistem klasifikasi Multinomial Naive Bayes
surat keluar?” Classification (MNBC) pada Sistem
Batasan masalah dari penelitian ini Klasifikasi Surat Keluar” (2017)
diantaranya adalah
a) Sistem klasifikasi surat yang dibangun
berbasis desktop dengan bahasa
pemrograman Java dan basis data MySQL.
b) Metode yang digunakan dalam klasifikasi
dokumen adalah dengan algoritma
Multinomial Naive Bayes Classifier
(MNBC).

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 111

Tabel 1. Kesimpulan hasil evaluasi studi literatur sejenis

Algoritma Algoritma
No. Text Mininng TF-IDF Pengujian Objek Tool
Stemming Klasifikasi
 Tokenizing,
 Tolowercase
Confix- Naïve dokumen
, PHP dan
a.) stripping Bayes   berita
 Stopword MySQL
stemmer Classifier 4 kategori
removal,
 Stemming
 Tokenizing,
 Folding
Naïve Dokumen
(tolowercase
b.)  Bayes   teks Java
),
Classifier 2 kategori
 Removal
Stopword
K-Nearest
Neighbors,
 Bag of word,
Naive Dokumen
 Stopword
c.)  Bayes  Accuracy teks Java
removal,
Classifier, 5 kategori
 Case folding Term-
Graph
Support Recall, Konten RapidMine
 Tokenizing,
d.)  Vector  Precision, berita r
 Tolowercase Machine Accuracy 3 kategori 5.3
 Tokenizing,
tidak
 Stopword Naive
dijelaskan Dokumen tidak
e.) Removal, Bayes  Accuracy
penggunaa 2 kategori dijelaskan
 Filtering, Classifier
n algoritma
 Stemming

Tolowercase
Multinomia Recall, Surat
, Confix-
l Naive Precision, keluar Java dan
f.)  Tokenizing, stripping 
Bayes Accuracy, dinas MySQL
 Stopword stemmer
Classifier F1-measure 4 kategori
removal,
 Stemming

2.2 Klasifikasi Surat kelas, 100 divisi, dan 1000 seksi, dan masih
Surat adalah suatu media komunikasi ada kemungkinan pembagian lebih lanjut.
yang berisi pernyataan tertulis mengenai data
atau informasi yang ingin disampaikan atau 2.3 Text Mining
ditanyakan kepada penerima surat [3]. Dalam Menurut Ronen Feldman dan James
klasifikasi surat suatu instansi, aturan sistem Sanger (2007), Text mining dapat
klasifikasi yang digunakan adalah Dewey didefinisikan sebagai proses pengetahuan
Decimal Classification (DDC). intensif di mana pengguna berhubungan
DDC diciptakan oleh Melvil Dewey sekumpulan dokumen dari waktu ke waktu
pada tahun 1873 dan diterbitkan pada tahun dengan menggunakan seperangkat tool
1876. DDC membagi ilmu pengetahuan analisis [4]. Tujuan utama text mining adalah
manusia menjadi 10 kelas utama, masing- untuk menganalisis dan menemukan pola
masing kelas utama dibagi menjadi 10 divisi yang menarik termasuk tren, outlier dan
dan masing-masing divisi dibagi lagi menjadi gagasan query yang tidak memiliki
10 seksi, sehingga DDC mempunyai 10 kandungan atau bahkan yang relevan [5].

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
112 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017

Proses Text Mining dibagi menjadi 3 Berikut merupakan tabel aturan

tahap utama, diantaranya : [6] peluruhan imbuhan pada algoritma confix-
a) Text Preprocessing merupakan tahapan stripping stemmer.
yang dilakukan proses tokenizing, dan
case folding. Tabel 3. Aturan peluruhan kata dasar [7]
b) Text Transformation disebut juga proses Aturan Bentuk Awalan Peluruhan
filtering. Pada tahap ini tindakan yang 1 berV… ber-V… | be-rV…
dilakukan adalah menghilangkan 2 belajar… bel-ajar
3 beC1erC2… be-C1erC2 …
stopword (stopword removal) dan
dimana
stemming terhadap kata yang C1!={'r'|'l'}
berimbuhan. 4 terV… ter-V…|te-rV…
c) Pattern Discovery merupakan tahapan 5 terCer… ter-Cer … dimana
berusaha menemukan pola atau C!='r'
pengetahuan dari keseluruhan teks. 6 teC1erC2 te-C1erC2…
dimana C1!='r'
2.4 Confix Stripping Stemmer 7 me{l|r|w|y}V… me-{l|r|w|y}V…
Algoritma confix-stripping stemmer 8 mem{b|f|v}… mem-{b|f|v}…
adalah algoritma yang digunakan untuk 9 mempe… mem-pe…
10 mem{rV|V}… me-m{rV|V} …
melakukan proses stemming terhadap kata-
|me-p{rV|V}…
kata berimbuhan [7]. Algoritma Confix- 11 men{c|d|j|z}… men-{c|d|j|z}…
stripping stemmer mempunyai aturan 12 menV… me-nV…|me-
imbuhan sendiri dengan model sebagai tV…
berikut : 13 meng{g|h|q|k} meng-{g|h|q|k}…
[[[AW + ] AW +] AW +] Kata-Dasar …
[[+AK][+KK][+P]] 14 mengV… meng-V…|meng-
kV…
Gambar 1. Aturan Algoritma Confix-stripping 15 mengeC menge-C
stemmer [8] 16 menyV… me-ny…| meny-
sV…
Keterangan : AW : Awalan
17 mempV… mem-pV…
AK : Akhiran 18 pe{w|y}V… pe-{w|y}V…
KK : Kata ganti kepunyaan 19 perV… per-V…|pe-rV…
P : Partikel 20 pem{b|f|v}… pem-{b|f|v}…
21 pem{rV|V}… pe-
Tidak semua kombinasi dari prefiks dan m{rV|V}…|pe-
sufiks dapat bergabung bersama untuk p{rV|V}
membentuk konfiks a. Ada beberapa 22 pen{c|d|j|z}… pen-{c|d|j|z}…
kombinasi awalan dan akhiran yang tidak 23 penV… pe-nV…|pe-tV…
diizinkan. Algoritma Confix-stripping 24 peng{g|h|q} peng-{g|h|q}
25 pengV peng-V|peng-kV
stemmer biasa dilakukan dengan
26 penyV… pe-nya|peny-sV
penghapusan imbuhan awalan. Namun pada 27 pelV.. pe-lV…; kecuali
kombinasi tersebut merupakan pengecualian untuk kata
terhadap prefiks dan sufiks tertentu untuk "pelajar" menjadi
menghapus akhiran terlebih dahulu. "ajar"
28 peCP pe-CP…dimana
Tabel 2. Kombinasi Prefiks dan Sufiks yang tidak C!={r|w|y|l|m|n}
diperbolehkan [7] dan P!='er'
Awalan ( Prefiks) Akhiran (Suffiks) 29 perCerV Per-CerV…
be- -i dimana
di- -an C!={r|w|y|l|m|n}
ke- -i –kan
me- -an 2.5 Term Weighting
se- -i –kan Algoritma TF-DF adalah suatu
te- -an algoritma yang berdasarkan nilai statistik
menunjukkan kemunculan suatu kata di
dalam dokumen [2]. TF (Term Frequency)

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 113

menyatakan banyaknya suatu kata muncul

dalam sebuah dokumen. DF (Document
Frequency) menyatakan banyaknya
dokumen yang mengandung suatu kata dalam
satu segmen publikasi. Pengukuran utama adalah klasifikasi
𝑁
𝐼𝐷𝐹 = log ( ) accuracy, yang merupakan jumlah kasus
𝐷𝐹(𝑤) diklasifikasikan dengan benar di test set
𝑇𝐹 − 𝐼𝐷𝐹(𝑤, 𝑑) = 𝑇𝐹(𝑤, 𝑑) × 𝐼𝐷𝐹(𝑤) dibagi dengan jumlah total kasus dalam test
Keterangan: set. Precision dan recall mengukur seberapa
TF-lDF(w,d) : bobot suatu kata dalam tepat dan seberapa lengkap klasifikasi ini
keseluruhan dokumen pada kelas yang positif. [11]
w : suatu kata (word)
d : suatu dokumen (document)
TF(w,d) : frekuensi kemunculan
𝑇𝑃 + 𝑇𝑁
sebuah kata w dalam 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
dokumen d 𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁 + 𝑇𝑁
IDF(w) : inverse DF dari kata w
Precision (p) adalah rasio terjadinya
N : jumlah keseluruhan
secara aktual diklasifikasikan sebagai positif
dokumen
untuk semua ketentuan yang diklasifikasikan
DF(w) : jumlah dokumen yang
sebagai positif. Recall (r) adalah rasio
mengandung kata w
terjadinya secara aktual diklasifikasikan
sebagai positif untuk semua ketentuan positif.
2.6 Multinomial Naive Bayes Classifier
F-measure yang didefinisikan sebagai rata-
Multinomial NBC merupakan model
rata harmonik dari precision dan recall. [12]
pengembangan dari algoritma bayes yang
2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
cocok dalam pengklasifikasian teks atau 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
dokumen. Pada formula Multinomial Naive 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙
Bayes Classifier, kelas dokumen tidak hanya
ditentukan dengan kata yang muncul tetapi III. PEMBAHASAN
juga jumlah kemunculannya [9].
𝐶𝑀𝐴𝑃 = arg max 𝑃(𝑐|𝑑) Penelitian ini menggunakan pendekatan
𝑐𝜖{𝑐𝑙 ,𝑐𝑠 } Rapid Application Development (RAD) sebagai
𝑚
metode pengembangan sistem. Dalam
= arg max 𝑃(𝑐) ∏ 𝑃(𝑡𝑘 |𝑐) pengembangan sistem, metode ini dapat
𝑐𝜖{𝑐𝑙 ,𝑐𝑠 }
𝑘=1 mempersingkat waktu pemrosesan dan
Parameter P(tk|c) (probability menghasilkan sistem aplikasi secara akurat dan
likelihood) diestimasikan dengan cepat. Proses RAD hanya melibatkan tiga tahap,
menghitung kejadian tk pada semua dokumen meliputi: requirement planning, workshop
training di c, menggunakan Laplacean prior: design, dan implementasi.
[10]
1+𝑁
P(t 𝑘 |c) = |𝑉|+𝑁𝑘 ,
dimana Nk adalah jumlah kemunculan tk
dalam dokumen pelatihan di c dan N adalah
jumlah total kejadian kata dalam c.

2.7 Confusion Matrix

Confusion matrix berisikan informasi
mengenai aktual dan prediksi yang diberikan
oleh classifier. [11]
Tabel 4. Confusion matrix dari classifier [11]

Actual Positive Negative

Classified
Positive TP FN
Negative FP TN

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
114 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017

Gambar 2. Kerangka penelitian

3.1 Pengumpulan Data Tahapan pembelajaran atau training

Dokumen yang dijadikan sampel merupakan proses mengekstraksi surat yang
penelitian yaitu surat keluar dinas dengan telah diketahui kategorinya. Proses ini
kategori undangan, cuti, perintah, dan pinjam dilakukan dengan penentuan dan
ruang. Surat yang terkumpul sejumlah 6 pembentukan bag of word pada setiap
sampel untuk masing-masing kategori dokumen training. Setiap kata yang disimpan
sehingga total keseluruhan yaitu 24 dokumen dianalisis nilai weighting terhadap semua
surat dan ditambah 1 dokumen surat untuk dokumen pada setiap klasifikasi sehingga
implementasi. dapat menghitung probabilitas kata yang
nantinya akan digunakan pada tahap testing.
3.2 Requirement Planning
Proses klasifikasi dilakukan melalui 2
tahap, di antaranya tahap training dan testing.

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 115

Gambar 3. Alur proses training

Tahapan testing merupakan proses kategori dengan mengimplementasikan

pengklasifikasian terhadap surat yang belum algoritma Multinomial Naive Bayes
diketahui kategorinya. Perhitungan Classifier.
probabilitas sebuah dokumen terhadap

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
116 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017

Gambar 4. Alur proses testing

3.3 Workshop Design dokumen lainnya. Berikut adalah hasil

Sistem desain dilaksanakan dengan klasifikasi dari setiap dokumen testing.
menggunakan metode object-oriented
dengan UML (Unified Modeling Language).
Sistem desain dibuat dengan beberapa
diagram pemodelan termasuk use case
diagram, class diagram, sequence diagram,
dan activity diagram.

3.4 Pengujian
Pengujian ini dilakukan pada salah satu
dokumen testing dan sisanya sebagai
dokumen training. Oleh karena itu, pengujian
24 dokumen yang tersedia masing-masing
diuji dengan dokumen training dari 23

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 | 117

Tabel 5. Hasil klasifikasi setiap dokumen Recall, dan F-measure secara berurutan sebesar
No. Dokumen Hasil Klasifikasi 89,58%, 79,17%, 78,72%, dan 77,05%. Untuk
1. Undangan1 Cuti mengembangkan sistem ini pada penelitian lebih
2. Undangan2 Pinjam Ruang lanjut, dapat dilakukan dengan memperluas
3. Undangan3 Undangan objek klasifikasi, baik surat keluar maupun surat
4. Undangan4 Pinjam Ruang masuk. Sistem juga perlu menambahkan lebih
5. Undangan5 Undangan banyak bag of words karena semakin banyak
6. Undangan6 Pinjam Ruang kamus kata, semakin lebih tepat proses stemming
7. Perintah1 Perintah dilakukan. Sistem dapat juga diimplementasikan
8. Perintah2 Perintah menggunakan metode lainnya.
9. Perintah3 Perintah
10. Perintah4 Perintah DAFTAR PUSTAKA
11. Perintah5 Perintah
12. Perintah6 Perintah [1] C. Bridge. 2011. "Unstructured Data and
13. Cuti1 Cuti the 80 Percent Rule.," [Online]. Available:
14. Cuti2 Cuti https://breakthroughanalysis.com/2008/0
15. Cuti3 Cuti 8/01/unstructured-data-and-the-80-
16. Cuti4 Cuti percent-rule/. [Accessed 20 April 2016].
17. Cuti5 Cuti [2] A. P. Wijaya. 2016. "Klasifikasi
18. Cuti6 Cuti Dokumen dengan Naive Bayes Classifier
19. PinjamRuang1 Pinjam Ruang (NBC) untuk Mengetahui Konten E-
20. PinjamRuang2 Cuti Goverment," Journal of Applied
21. PinjamRuang3 Pinjam Ruang Intelligent System, Vol.1, No. 1, pp. 48-55,
22. PinjamRuang4 Pinjam Ruang
23. PinjamRuang5 Pinjam Ruang [3] S. Wijaya. 2009. Surat-Surat
24. PinjamRuang6 Pinjam Ruang Kesekretariatan, Jakarta: Pustaka
Grahatama
Berikut hasil analisa pengujian sistem [4] R. Feldman and J. Sanger. 2007. The Text
secara keseluruhan. Mining Handbook: Advanced
Approaches in Analyzing Unstructured
Tabel 6. Rata-rata tingkat recall, precision, Data, New York: Cambridge University
accuracy, dan f-measure Press.
Klasifikasi Accuracy Precision Recall F-measure [5] C. C. Aggarwal and C. Zhai. 2012. An
Undangan 83,33% 33,33% 100% 50% Introduction to text mining, New York:
Perintah 100% 100% 100% 100%
Springer
Cuti 91,67% 100% 75% 85,71%
Pinjam [6] S. Andini. 2013. "Klasifikasi Dokumen
Ruang 83,33% 83,33% 62,5% 71,43% Teks menggunakan Algoritma Naive
Rata-rata 89,58% 79,17% 84,38% 76,79% Bayes dengan Bahasa Pemograman Java,"
Jurnal Teknologi Informasi dan
Pendidikan, Vol 6 no.2, pp. 140 - 147,
IV. KESIMPULAN [7] M. Adriani, J. Asian, B. Nazief, S.
Tahaghoghi and H. Williams. 2007.
Sistem klasifikasi surat yang dibentuk "Stemming Indonesian : A Confix-
berbasis dekstop dengan bahasa pemrograman Stripping Approach.," Transactions on
Java dan basis data mySQL dengan pembatasan Asian Language Information Processing,
data input yaitu berupa surat keluar dengan Vol. 6, No.4
format word berekstensi (.docx), (.doc), dan [8] B. Kurniawan, S. Effendi and O. S.
(.txt). Sistem klasifikasi surat keluar didukung Sitompul. 2012. "Klasifikasi Konten
dengan penerapan Confix-Stripping Stemmer Berita dengan Metode Text Mining,"
pada proses stemming dan TF-IDF untuk Jurnal Dunia Teknologi Informasi, Vol. 1,
pembobotan setiap kata yang terkandung pada pp. 14-19
dokumen (term weighting).
Hasil evaluasi sistem klasifikasi surat [9] I. H. Witten, F. Eibe and M. A. Hall. 2011.
keluar didapatkan nilai Accuracy, Precision, Data mining : Practical Machine Learning

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901
118 | JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017

Tools and Techniques. Third Edition,

USA: Elsevier
[10] M. W. Berry and J. Kogan. 2010. Text
Mining Application and Theory, United
Kingdom: John Wiley and Sons
[11] B. Liu. 2011. Web Data Mining:
Exploring Hyperlinks, Contents, and
Usage Data, Second Edition, New York:
Spinger
[12] P. Cichosz. 2014. Data Mining
Algorithms: Explained Using R,
Chichester: John Wiley & Sons

Dea Herwida Kalokasari, dkk : Automatic… 109-118 p-ISSN 1979-9160 | e-ISSN 2549-7901

Anda mungkin juga menyukai

Jurnal 10 - Klasifikasi Daun Mangrove (SSD)
Belum ada peringkat
Jurnal 10 - Klasifikasi Daun Mangrove (SSD)
82 halaman
Teknik Pencarian
Belum ada peringkat
Teknik Pencarian
37 halaman
Pembobotan Kata dalam Text Mining
Belum ada peringkat
Pembobotan Kata dalam Text Mining
26 halaman
Panduan Lengkap Pemrosesan Teks
Belum ada peringkat
Panduan Lengkap Pemrosesan Teks
62 halaman
Implementasi Teknologi Progressif Web Application (Pwa) Menggunakan Framework Angular Pada Sistem Monitoring Energi Listrik Berbasis Web
Belum ada peringkat
Implementasi Teknologi Progressif Web Application (Pwa) Menggunakan Framework Angular Pada Sistem Monitoring Energi Listrik Berbasis Web
131 halaman
Konsep Pencarian Heuristik dalam AI
Belum ada peringkat
Konsep Pencarian Heuristik dalam AI
23 halaman
Sistem Penilaian Kinerja Karyawan Naive Bayes
Belum ada peringkat
Sistem Penilaian Kinerja Karyawan Naive Bayes
14 halaman
Panduan Lengkap Clustering Data Mining
Belum ada peringkat
Panduan Lengkap Clustering Data Mining
42 halaman
Pemeriksaan Persediaan Barang Poso 2019
Belum ada peringkat
Pemeriksaan Persediaan Barang Poso 2019
12 halaman
Strategi Segmentasi dan Targeting Pemasaran
Belum ada peringkat
Strategi Segmentasi dan Targeting Pemasaran
11 halaman
Membangun Persepsi Harga Produk Efektif
Belum ada peringkat
Membangun Persepsi Harga Produk Efektif
14 halaman
Proses Pre-Processing Teks
Belum ada peringkat
Proses Pre-Processing Teks
75 halaman
Kerangka Kerja Data Warehouse Berkualitas
Belum ada peringkat
Kerangka Kerja Data Warehouse Berkualitas
13 halaman
Klasifikasi Data Mining dengan C4.5
Belum ada peringkat
Klasifikasi Data Mining dengan C4.5
7 halaman
Pilih MBR atau GPT untuk SSD?
Belum ada peringkat
Pilih MBR atau GPT untuk SSD?
10 halaman
Data Warehouse RSUD Palembang Bari
Belum ada peringkat
Data Warehouse RSUD Palembang Bari
95 halaman
Optimalkan Keuangan Desa dengan SISKEUDES
Belum ada peringkat
Optimalkan Keuangan Desa dengan SISKEUDES
10 halaman
Metoda Inversi Pada Problem Pencitraan G
Belum ada peringkat
Metoda Inversi Pada Problem Pencitraan G
183 halaman
Pemodelan Retrieval Informasi Boolean
Belum ada peringkat
Pemodelan Retrieval Informasi Boolean
42 halaman
Panduan Pemrosesan Teks Efektif
Belum ada peringkat
Panduan Pemrosesan Teks Efektif
82 halaman
Deep Learning untuk Deteksi Penyakit Pencernaan
Belum ada peringkat
Deep Learning untuk Deteksi Penyakit Pencernaan
104 halaman
Panduan Dasar Analisis Regresi
Belum ada peringkat
Panduan Dasar Analisis Regresi
12 halaman
Kecerdasan Buatan 20140113N2
Belum ada peringkat
Kecerdasan Buatan 20140113N2
194 halaman
Motivasi Kerja dan Kesiapan Siswa SMK
Belum ada peringkat
Motivasi Kerja dan Kesiapan Siswa SMK
4 halaman
Evaluasi Stasiun Hujan di Banyuwangi
Belum ada peringkat
Evaluasi Stasiun Hujan di Banyuwangi
10 halaman
Akreditasi Teknik UNY 2017
Belum ada peringkat
Akreditasi Teknik UNY 2017
131 halaman
RTL Listrik Baru
Belum ada peringkat
RTL Listrik Baru
18 halaman
Representasi Pengetahuan dalam AI
Belum ada peringkat
Representasi Pengetahuan dalam AI
49 halaman
Belajar Data Mining Dengan RapidMiner PDF
Belum ada peringkat
Belajar Data Mining Dengan RapidMiner PDF
139 halaman
Instalasi RapidMiner di Windows
Belum ada peringkat
Instalasi RapidMiner di Windows
16 halaman
Irigasi Otomatis Bawang Merah Berbasis IoT
Belum ada peringkat
Irigasi Otomatis Bawang Merah Berbasis IoT
109 halaman
Pertemuan Ke 9 Kompresi Citra
Belum ada peringkat
Pertemuan Ke 9 Kompresi Citra
38 halaman
Modul 4 - Representasi Pengetahuan
Belum ada peringkat
Modul 4 - Representasi Pengetahuan
47 halaman
Evaluasi Diri Program Studi Teknik Elektro
Belum ada peringkat
Evaluasi Diri Program Studi Teknik Elektro
341 halaman
Algoritma Machine Learning Populer
Belum ada peringkat
Algoritma Machine Learning Populer
8 halaman
Program Profesi Insinyur FT UGM 2023
Belum ada peringkat
Program Profesi Insinyur FT UGM 2023
100 halaman
Teknik Kompresi Gambar Digital
Belum ada peringkat
Teknik Kompresi Gambar Digital
10 halaman
Pengenalan Kecerdasan Buatan
100% (6)
Pengenalan Kecerdasan Buatan
10 halaman
Komputasi Matlab 4
Belum ada peringkat
Komputasi Matlab 4
277 halaman
Pengembangan Aplikasi P3K Berbasis PDF
Belum ada peringkat
Pengembangan Aplikasi P3K Berbasis PDF
163 halaman
Data Mining
Belum ada peringkat
Data Mining
106 halaman
Simulasi Orbit Bumi dengan JavaScript
Belum ada peringkat
Simulasi Orbit Bumi dengan JavaScript
354 halaman
Manfaat dan Kelemahan Sistem Pakar
Belum ada peringkat
Manfaat dan Kelemahan Sistem Pakar
17 halaman
Deteksi Kelengkapan APD Pekerja Konstruksi Menggunakan Metode CNN Dan YOLOv5
Belum ada peringkat
Deteksi Kelengkapan APD Pekerja Konstruksi Menggunakan Metode CNN Dan YOLOv5
128 halaman
Thesis Network (CNN) Untuk Klasidikasi Jenis Dan Kesegaran Buah Pada Neraca Buah-2020
Belum ada peringkat
Thesis Network (CNN) Untuk Klasidikasi Jenis Dan Kesegaran Buah Pada Neraca Buah-2020
120 halaman
Panduan Lengkap Persiapan Data EDA
Belum ada peringkat
Panduan Lengkap Persiapan Data EDA
38 halaman
RDTR Kota Tangerang
Belum ada peringkat
RDTR Kota Tangerang
916 halaman
Naïve Bayes: Teori dan Studi Kasus
Belum ada peringkat
Naïve Bayes: Teori dan Studi Kasus
23 halaman
Algoritma C45
Belum ada peringkat
Algoritma C45
8 halaman
DeepLearning CNN Kasus4
100% (1)
DeepLearning CNN Kasus4
79 halaman
Klasifikasi Berita Indonesia dengan Naive Bayes
Belum ada peringkat
Klasifikasi Berita Indonesia dengan Naive Bayes
7 halaman
Klasifikasi Teks Otomatis dengan Naive Bayes
Belum ada peringkat
Klasifikasi Teks Otomatis dengan Naive Bayes
6 halaman
Klasifikasi Berita Online dengan Naive Bayes
Belum ada peringkat
Klasifikasi Berita Online dengan Naive Bayes
15 halaman
4) 859-Article Text-926-1-10-20200304
Belum ada peringkat
4) 859-Article Text-926-1-10-20200304
18 halaman
Laporan Praktikum 5 Naive Bayes
Belum ada peringkat
Laporan Praktikum 5 Naive Bayes
46 halaman
Naive Bayes Classification Pada Klasifikasi Dokumen Untuk Identifikasi Konten E-Government
Belum ada peringkat
Naive Bayes Classification Pada Klasifikasi Dokumen Untuk Identifikasi Konten E-Government
8 halaman
18.+Panji+Sofyan+Zakaria 124+ (126-131)
Belum ada peringkat
18.+Panji+Sofyan+Zakaria 124+ (126-131)
6 halaman
Pengelolaan Email dan Naïve Bayes dalam Data
Belum ada peringkat
Pengelolaan Email dan Naïve Bayes dalam Data
13 halaman
Unikom - Adam Sulaiman - Jurnal Dalam Bahasa Indonesia
Belum ada peringkat
Unikom - Adam Sulaiman - Jurnal Dalam Bahasa Indonesia
8 halaman
AHP untuk Pemilihan Peserta Cerdas Cermat
Belum ada peringkat
AHP untuk Pemilihan Peserta Cerdas Cermat
10 halaman
DMS untuk Pengarsipan di Fakultas Teknik UGM
Belum ada peringkat
DMS untuk Pengarsipan di Fakultas Teknik UGM
13 halaman
Evaluasi Kualifikasi Lulusan Fuzzy C-Means
Belum ada peringkat
Evaluasi Kualifikasi Lulusan Fuzzy C-Means
8 halaman
Prediksi Usia Kertas dengan ANFIS
Belum ada peringkat
Prediksi Usia Kertas dengan ANFIS
10 halaman
Desain Interaksi Pengguna UCD
Belum ada peringkat
Desain Interaksi Pengguna UCD
6 halaman
Simulasi VLAN dengan Pox Controller
Belum ada peringkat
Simulasi VLAN dengan Pox Controller
6 halaman
Fitur Downtime Reporting pada eCRM
Belum ada peringkat
Fitur Downtime Reporting pada eCRM
8 halaman
Teori Chaos dalam Kriptografi dan Keamanannya
Belum ada peringkat
Teori Chaos dalam Kriptografi dan Keamanannya
6 halaman
Implementasi Teknik Dynamic Time Warping (DTW) Pada Aplikasi Speech To Text
Belum ada peringkat
Implementasi Teknik Dynamic Time Warping (DTW) Pada Aplikasi Speech To Text
10 halaman
Penjadwalan Kuliah dengan PSO UIN Suska
Belum ada peringkat
Penjadwalan Kuliah dengan PSO UIN Suska
8 halaman