(11) /
(16)
Berdasarkan pada hipotesis Bayesian yang / (17)
menyebutkan bahwa setiap kata atau fitur w1, wj ,
wmdari di = w1, wj , wm adalah tidak saling terkait, III. METODE PENELITIAN
maka distribusi probabilitas total merupakan hasil
perkalian (product) dari distribusi probabilitas tiap fitur A. Data
atau kata, seperti ditunjukkan pada persamaan (12). Pada penelitian ini digunakan data sekunder, yaitu
,, ,, data yang berasal dari referensi atau penelitian
sebelumnya. Data sekunder yang digunakan dalam
(12) penelitian ini sebagai berikut:
1
Dengan memasukkan persamaan (12) ke persamaan (11), 1) Data kelas kata (tag)
maka persamaan (11) menjadi, Data ini digunakan sebagai acuan tag atau kelas kata
yang akan digunakan dalam proses POS Tagging. Data
(13) kelas kata (tag) ini diperoleh dari hasil penelitian yang
1 telah dilakukan sebelumnya [7].
Persamaan (13) ini yang disebut sebagai Formula
Pengklasifikasi. Nilai dapat dihitung dengan cara 2) Data training POS Tagging
membagi jumlah dokumen training yang masuk ke Data training POS Tagging ini berupa tagged corpus
dalam kategori dengan jumlah total semua dokumen yang di dalamnya terdapat kumpulan kalimat, dimana
training ( = , dimana adalah jumlah masing-masing kata yang menyusun kalimat tersebut
telah diberikan tag atau kelas kata. Data ini digunakan
dokumen yang masuk kedalam kategori dan
dalam proses training Hidden Markov Model (HMM)
adalah jumlah total dokumen). Sedangkan untuk
dalam proses POS Tagging. Data ini didapatkan dari
menghitung nilai , cara yang paling mudah hasil penelitian yang telah dilakukan oleh Universitas
adalah , dimana jumlah kata Indonesia (UI) sebagai salah satu wakil dari Indonesia
yang ada dalam dokumen training yang masuk ke dalam dalam proyek Pan Localization (PANL10N) [10].
kategori , adalah jumlah semua kata yang ada Tagged Corpus berbahasa Indonesia untuk proses POS
Tagging yang disediakan dari PANL10N merupakan
dalam dokumen training yang masuk kedalam kategori
hasil adaptasi dari tagged corpus Penn Treebank yang
(tanpa menghiraukan ada kata yang sama atau tidak),
berbahasa Inggris.
V adalah jumlah total jenis kata yang ada dalam Selain menggunakan tagged corpus UI, pada
dokumen training (kata yang sama hanya dihitung 1). penelitian ini juga digunakan tagged corpus hasil
Untuk menghindari nilai 0 maka pembilang ditambahkan
modifikasi peneliti terhadap tagged corpus yang
1, ini yang disebut Laplace Smoothing [13]. digunakan pada penelitian tahun 2010 [7].
C. Precission dan Recall
3) Data training POS Tagging
Precision adalah rasio jumlah dokumen relefan yang
ditemukan dengan total jumlah dokumen yang Data training yang digunakan dalam proses klasifikasi
ditemukan oleh sistem. Recall adalah rasio jumlah opini merupakan corpus opini yang telah dikategorikan
dokumen relefan yang ditemukan kembali dengan total dalam opini positif maupun negatif. Data ini didapatkan
jumlah dokumen dalam kumpulan dokumen yang dengan mengumpulkan data opini melalui media online.
dianggap relefan. Nilai keduanya biasanya ditunjukkan Data tersebut kemudian dikategorikan ke dalam kategori
dalam satuan persen (%). Persamaan untuk precision opini negatif atau positif secara manual. Data ini
ditunjukkan pada persamaan (14) dan recall pada digunakan dalam proses training Nave Bayes Classifier
persamaan (15) [11]. (NBC).
TABEL I B. Metode Pengolahan Data
VARIABEL UNTUK PERHITUNGAN PRECISION DAN RECALL
Sistem yang akan dikembangkan terdiri dari tiga
Relevan Tidak Relevan subproses yaitu document subjectivity, opinion
orientation dan target detection.
Ditemukan True positives (tp) False positives (fp)
Tidak ditemukan False negatives (fn) False negatives (tn) 1) Document Subjectivity
# Untuk mengetahui apakah suatu kalimat termasuk
# kalimat opini atau bukan, pertama kali dilakukan POS
| (14) Tagging untuk menentukan tag atau kelas kata pada
setiap kata yang menyusun suatu kalimat. Kemudian
# hasil POS Tagging akan dianalisis menggunakanaturan
#
kebahasaan (rule) untuk mengetahui susunan kata dalam
| (15)
kalimat yang mencerminkan opini. Proses POS Tagging
Dengan memperhatikan Tabel I, persamaan (14) dan (15) dilakukan dengan menggunakan metode HMM.
dapat disederhanakan menjadi,
2) Opinion Orientation
Penentuan apakah suatu kalimat termasuk kedalam
opini positif atau negatif bisa digolongkan sebagai proses Proses inti di dalam sistem ini adalah POS Tagging
pengklasifikasian. Dalam hal ini adalah menggunakan HMM dan klasifikasi orientasi opini
pengklasifikasian suatu dokumen termasuk kedalam menggunakan NBC. Baik HMM based POS Tagging
kelas positif atau kelas negatif. Dalam penelitian ini maupun NBC, keduanya diawali oleh proses training
digunakan salah satu metode dari supervised machine menggunakan training dataset.
learning yaitu NBC. TABEL II
POS TAG
3) Target Detection
Pada subproses ini digunakan metode POS Tagging POS Tag Arti Contoh
dan rule seperti pada subproses document subjectivity. OP Kurung Buka ({[
Perbedaanya terletak pada susunan rule yang digunakan, CP Kurung Tutup )}]
yaitu aturan kebahasaan untuk menentukan objek yang GM Garis Miring /
menjadi target opini. ; Titik Koma ;
: Titik Dua :
C. Metode Pengujian Tanda Kutip " dan '
. Tanda Titik .
Skenario pengujian dalam penelitian ini diantaranya: , Tanda Koma ,
Pengujian subproses : pengujian ini diterapkan - Garis -
Tanda Pengganti
pada masing-masing subproses analisis sentimen,
JJ Kata Sifat Baik, Bagus
yaitu document subjectivity, opinion orientation RB Kata Keterangan Sementara, Nanti
dan target detection. NN Kata Benda Kursi, Kulkas
Pengujian integrasi: pengujian ini dilakukan pada NNP Benda Bernama Toyota, Sony
NNG Benda Berpemilik Motornya
hasil penggabungan subproses document VBI Kata Kerja Intransitif Pergi
subjectivity, opinion orientation dan target VBT Kata Kerja Transitif Membeli
detection. IN Preposisi Di, Dari, Ke
Pengujian ditujukan untuk mendapatkan nilai MD Modal Bisa
CC Kata Sambung Setara Dan, Atau, tetapi
precision dan recall. Baik pada pengujian SC Kata Sambung Tidak Jika, Ketika
subproses maupun pengujian integrasi, keduanya Setara
akan dicari nilai precission dan recall. DT Determiner Para, Ini, Itu
UH Interjection Wah, Aduh, Oi
CDO Kata Bilangan Berurut Pertama, Kedua, Ketiga
IV. PERANCANGAN CDC Kata Bilangan Kolektif Berdua
CDP Kata Bilangan Pokok Satu, Dua, Tiga
A. Perancangan Diagram Alir Sistem CDI Kata Bilangan Tidak Beberapa
Alur proses sistem secara global ditunjukkan pada Biasa
Gambar 1. PRP Kata Ganti Orang Saya, Mereka
WP Kata tanya Apa, Siapa, Dimana
PRN Kata Ganti Bilangan Kedua-duanya
PRL Kata Ganti Lokasi Sini, Situ
NEG Negasi Bukan, Tidak
SYM Simbol #,%,^,&,*
RP Particle Pun, Kah
FW Kata Asing Word
hasil modifikasi peneliti ditunjukkan pada Tabel VII. opini jika terdapat urutan tag RB VBT dan RB JJ. Oleh
Dan Hasil pengujian target detection menggunakan karena itu, hasil tagging yang menggunakan dataset UI
dataset UI ditunjukkan pada Tabel VIII. Dari Tabel VII untuk kalimat yang bersangkutan tidak dideteksi sebagai
nilai precission dan recall sebagai berikut: kalimat opini.
Precission = 219 / (219+1) = 0.99 Pengaruh dataset yang digunakan juga ditunjukkan
Recall = 219/ (219+5) = 0.97 dari hasil pengujian subproses target detection.
Dari Tabel VIII nilai precission dan recall sebagai Perhitungan nilai recall dan precission dari Tabel VII,
berikut: dan VIII menjadi indikasi pengaruh penggunaan dataset.
Precission = 209 / (209+18) = 0.92 Nilai precission dan recall untuk Tabel VII masing-
Recall = 209 / (209+15) = 0.93 masing adalah 0.99 dan 0.97. Sedangkan nilai precission
Pengujian opinion orientation dilakukan dengan dan recall untuk Tabel VIII masing-masing adalah 0.92
menggunakan 87 data yang dikumpulkan melalui dan 0.93. Sebagai contoh, dengan menggunakan dataset
kuisioner online. Dataset yang digunakan dalam proses hasil modifikasi didapatkan menurut/VBT saya/PRP
training berasal dari data opini yang juga dikumpulkan wifi/NN di/IN polinema/NN itu/DT agak/JJ
menggunakan kuisioner online sejumlah 575 data. Hasil lambat/JJ, sedangkan menggunakan dataset UI
pengujian ditunjukkan pada Tabel IX. didapatkan menurut/nn saya/prp wifi/NN di/in
polinema/nn itu/dt agak/rb lambat/nn. Dari hasil
TABEL IX
HASIL PENGUJIAN OPINION ORIENTATION
yang didapatkan dengan menggunakan dataset UI, kata
Dikenali memiliki target Sarana benda (NN) yang didapatkan pertama adalah menurut,
dan Prasarana (ekspektasi pakar) dan setelah itu dideteksi munculnya tag PRP. Karena
True False dalam rule target, jika terdapat urutan tag NN PRP,
Dideteksi True 60 (a) 3 (b) maka jika setelah tag PRP masih terdapat tag NN, maka
memiliki target False 4 (c) 30 (d)
Sarana dan
tag tersebut tidak akan diambil. Jadi yang diambil
Prasarana sebagai target adalah tag NN sebelum PRP yaitu kata
(hasil observasi menurut. Dan kata menurut ini tidak termasuk ke
sistem) dalam kata kunci untuk kategori Sarana dan Prasarana.
Dari hasil pengujian opinion orientation pada Tabel
Dari Tabel IX nilai precission dan recall sebagai berikut:
IX didapatkan nilai precission dan recall yang tinggi. Ini
Precission = 60 / (60+3) = 0.95
menunjukkan bahwa NBC sebagai metode
Recall = 60 / (60+4) = 0.94
pengklasifikasi dapat berfungsi dengan baik untuk
B. Pembahasan menyelesaikan masalah opinion orientation pada opinion
Tagged dataset digunakan dalam proses training atau mining terutama pada kasus dataset yang digunakan
learning pada HMM. HMM sendiri digunakan sebagai dalam proses training dan testing NBC pada penilitian
algoritma dalam proses POS (Part-of-Speech) Tagging. ini.
Pada sistem yang dikembangkan dalam penelitian ini,
POS Tagging digunakan pada subproses document VI. PENUTUP
subjectivity dan target detection. A. Kesimpulan
Dari hasil yang didapatkan dari proses pengujian
subproses document subjectivity, nilai precission dari Dari proses pengujian dan analisis yang telah
Tabel V sama dengan precission Tabel VI sedangkan dilakukan, kesimpulan yang dapat diambil antara lain:
recall dari Tabel V berbeda dengan recall dari Tabel VI. 1. Implementasi HMM pada proses POS Tagging yang
Tabel V merupakan data hasil pengujian document digunakan dalam subproses document subjectivity
subjectivity menggunakan dataset yang pernah dan target detection dapat berfungsi dengan baik.
digunakan sebelumnya [7], yang telah dimodifikasi oleh Nilai precission dan recall untuk proses document
peneliti, sedangkan Tabel VI merupakan data hasil subjectivity adalah 0.99 dan 0.88. Sedangkan nilai
pengujian menggunakan dataset dari Universitas precission dan recall untuk proses target detection
Indonesia. Penggunaan 2 dataset tersebut berakibat pada adalah 0.92 dan 0.93.
perbedaan nilai recall. Recall Tabel V (0.88) lebih besar 2. Nilai precission dan recall tertinggi didapatkan pada
daripada recall Tabel VI (0.72). Hal ini menunjukkan saat tagged dataset yang digunakan dalam proses
bahwa akurasi sistem akan lebih baik jika menggunakan learning HMM adalah dataset hasil modifikasi yang
dataset hasil modifikasi peneliti. Meskipun dataset yang dilakukan sendiri oleh peneliti. Sehingga
didapatkan dari hasil penelitian Universitas Indonesia penggunaan tagged dataset yang baik dan
berisi lebih banyak data daripada dataset hasil representatif berperan penting pada akurasi hasil
modifikasi peneliti, tetapi akurasi tag yang dihasilkan POS Tagging.
lebih kecil. 3. NBC dapat berfungsi dengan baik pada subproses
Sebagai contoh, dari penggunaan dataset UI opinion orientation. Akurasi NBC dalam
didapatkan hasil tagging terlalu/rb berbelit/nn dan/cc mengklasifikasikan opini ke dalam opini negatif dan
kurang/rb transparan/nn sedangkan dengan positif sangat baik. Hal ini bisa dilihat dari nilai
menggunakan dataset hasil modifikasi peneliti precission dan recall yang didapatkan yaitu 0.95 dan
didapatkan terlalu/RB berbelit/VBT dan/CC 0.94.
kurang/RB transparan/JJ. Perbedaan terjadi pada tag 4. Rule yang diterapkan pada subproses document
kata berbelit dan transparan. Dari rule opini yang subjectivity dan target detection memiliki peran
digunakan, suatu frasa akan dideteksi sebagai indikator yang sangat penting. Pada dua subproses tersebut,