164 282 1 PB PDF

37
Implementasi Opinion Mining (Analisis

Sentimen) untuk Ekstraksi Data Opini Publik
pada Perguruan Tinggi
Imam Fahrur Rozi, Sholeh Hadi Pramono dan Erfan Achmad Dahlan
dan aplikasi berbasis analisis sentimen berkembang

AbstrakSentiment analysis atau opinion mining pesat. Bahkan di Amerika terdapat sekitar 20-30
merupakan topik riset yang penting dan sedang marak perusahaan yang memfokuskan pada layanan analisis
dilakukan saat ini. Opinion mining merupakan cabang sentimen [1].
penelitian dari text mining. Fokus dari opinion mining Penelitian di bidang opinion mining mulai marak pada
adalah melakukan analisis opini dari suatu dokumen teks.
Terdapat tiga buah subproses dari opinion mining yaitu, tahun 2002. Turney pada tahun 2002 melakukan
document subjectivity, opinion orientation dan target penelitian dengan tema opinion mining dengan
detection. Dalam dunia bisnis, opinion mining banyak menggunakan data berupa data review konsumen atas
digunakan untuk menganalisis secara otomatis opini suatu produk. Metode yang digunakan adalah Semantic
pelanggan tentang produk dan pelayanannya. Orientation (Orirentasi Semantik) menggunakan
Pada penelitian ini dikembangkan sistem opinion mining Pointwise Mutual Information (SO-PMI). Hasil terbaik
untuk menganalisis opini publik pada perguruan tinggi.
yang dicapai adalah 84% akurasinya terhadap data
Pada subproses document subjectivity dan target detection
digunakan Part-of-Speech (POS) Tagging menggunakan review kendaraan bermotor dan 66% untuk data review
Hidden Makov Model (HMM). Pada hasil proses POS film [2]. Pang et.al. pada tahun 2002
Tagging kemudian diterapkan rule untuk mengetahui mengklasifikasikan review dari film pada level
apakah suatu dokumen termasuk opini atau bukan, serta dokumen yang memiliki pendapat positif atau negatif
untuk mengetahui bagian kalimat mana yang merupakan dengan menggunakan teknik supervised learning.
objek yang menjadi target opini. Dokumen yang dikenali
Sekumpulan dari review film yang sebelumnya telah
sebagai opini selanjutnya diklasifikasikan ke dalam opini
negatif dan positif (subproses opinion orientation) ditentukan menjadi baik positif ataupun negatif
menggunakan Nave Bayes Classifier (NBC). Dari pengujian digunakan sebagai data latihan untuk beberapa algoritma
didapatkan nilai precission dan recall untuk subproses machine learning yang sudah ada. Akurasi yang
document subjectivity adalah 0.99 dan 0.88, untuk subproses didapatkan berkisar antara 72% sampai 83% [3].
target detection adalah 0.92 dan 0.93, serta untuk subproses Opinion mining bisa dianggap sebagai kombinasi
opinion orientation adalah 0.95 dan 0.94.
antara text mining dan natural language processing.
Kata KunciAnalisis Sentimen, Opinion Mining, POS
Salah satu metode dari text mining yang bisa digunakan
Tagging, Hidden Markov Model, Nave Bayes Classifier. untuk menyelsaikan masalah opinion mining adalah
Nave Bayes Classifier (NBC). NBC bisa digunakan
I. PENDAHULUAN untuk mengklasifikasikan opini ke dalam opini positif
dan negatif. NBC bisa berfungsi dengan baik sebagai
A NALISIS sentimen atau opinion mining merupakan
proses memahami, mengekstrak dan mengolah data
tekstual secara otomatis untuk mendapatkan informasi
metode pengklasifikasi teks. Penelitian tentang
penggunaan NBC sebagai metode pengklasifikasi teks
telah dilakukan oleh SM Kamaruzzaman dan Chowdury
sentimen yang terkandung dalam suatu kalimat opini.
Mofizur Rahman [4] serta Ashraf M Kibriya et.al. [5]
Analisis sentimen dilakukan untuk melihat pendapat atau
pada tahun 2004. Dari proses pengujian secara kualitatif
kecenderungan opini terhadap sebuah masalah atau objek
disebutkan bahwa teks bisa diklasifikasikan dengan
oleh seseorang, apakah cenderung berpandangan atau
akurasi yang tinggi.
beropini negatif atau positif. Salah satu contoh
Sedangkan dari natural language processing, salah
penggunaan analisis sentimen dalam dunia nyata adalah
satu metode yang bisa digunakan untuk menyelesaikan
identifikasi kecenderungan pasar dan opini pasar
masalah opinion mining adalah Part-of-Speech (POS)
terhadap suatu objek barang. Besarnya pengaruh dan
Tagging. POS Tagging digunakan untuk memberikan
manfaat dari analisis sentimen menyebabkan penelitian
kelas kata (tag) secara gramatikal ke setiap kata dalam
suatu kalimat teks. Beberapa penelitian yang ditujukan
Imam Fahrur Rozi adalah Mahasiswa Program Magister dan Doktor untuk mengembangkan sistem POS Tagging dalam
Teknik Elektro Universitas Brawijaya, Malang, Indonesi (email
imam.rozi@gmail.com)
bahasa Indonesia, diantaranya dilakukan oleh Femphy
Sholeh Hadi Pramono adalah dosen di Teknik Elektro Universitas Pisceldo et.al. pada tahun 2009 [6] menggunakan
Brawijaya, Malang, Indonesia (Telp.0341-665144; email Maximum Entropy dan Alfan Farizki et.al. [7] pada
sholehpramono@gmail.com)
Erfan Achmad Dahlan adalah dosen Teknik Elektro Universitas
tahun 2010 menggunakan Hidden Markov Model.
Brawijaya, Malang, Indonesia (Telp.0341-665144; email Akurasi yang didapatkan berkisar antara 85% hingga
erfanad@yahoo.co.id)
Jurnal EECCIS Vol. 6, No. 1, Juni 2012

38
96%. Setelah penyebut dihilangkan, maka persamaan (3)

Penelitian ini ditujukan untuk mengembangkan sistem menjadi,
opinion mining untuk mengolah data opini berbahasa argmax | (4)
Indonesia pada suatu perguruan tinggi. Sistem dirancang Dari persamaan (4) bisa dikatakan bahwa rangkaian tag
memiliki tiga subproses yaitu, subroses document yang paling mungkin untuk suatu string
subjectivity, opinion orientation dan target detection. merupakan hasil perkalian antara dua buah nilai
Subproses document subjectivity ditujukan untuk probabilitas. Probabilitas yang pertama adalah prior
mengenali subyektifitas suatu dokumen teks (dokumen probability yang merupakan nilai probabilitas
teks mana yang termasuk opini dan tidak termasuk transisi suatu state dari state sebelumnya. Probabilitas
opini). Subproses opinion orientation digunakan untuk yang kedua adalah words likelihood | , yang
menentukan orientasi suatu kalimat opini, apakah menunjukkan nilai kemiripan atau kemungkinan suatu
termasuk ke dalam orientasi positif atau negatif. kata sebagai suatu state.
Subrpses target detection digunakan untuk mengenali Untuk memudahkan perhitungan, HMM POS Tagger
objek yang menjadi target opini dalam suatu dokumen. menggunakan dua buah asumsi. Asumsi yang pertama
Dalam subproses document subjectivity dan target adalah probabilitas kemunculan suatu kata hanya
detection digunakan Hidden Markov Model (HMM) tergantung pada tag nya, dan tidak tergantung dengan
based POS Tagging. Hasil dari POS Tagging akan kata lain di sekitarnya atau tag lain di sekitarnya
selanjutya akan dianalisis menggunakan rule untuk (persamaan (5)).
| | (5)
menentukan dokumen mana yang termasuk opini dan
untuk menentukan objek yang menjadi target opini.
Asumsi yang kedua adalah probabilitas suatu
Dalam subproses target detection digunakan Nave
kemunculan tag hanya bergantung dari tag sebelumnya
Bayes Classifier (NBC).
(persamaan (6)).Asumsi yang disebut sebagai bigram.
| (6)
II. DASAR TEORI
A. Hidden Markov Model (HMM) based Part-of-Speech Dengan menggunakan dua buah asumsi pada persamaan
(POS) Tagging (5) dan (6) maka persamaan (4) akan menjadi,
Dalam proses POS Tagging ini, data yang akan argmax | | (7)
diobservasi adalah kumpulan kata atau kalimat, dan dari
kalimat tersebut akan ditentukan tiap kata penyusunnya Untuk melakukan perhitungan probabilitas transisi tag
akan masuk ke dalam klas kata atau tag apa yang tepat. | dan probabilitas kemiripan kata (word
Untuk ilustrasi proses HMM dalam POS Tagging, likelihood) | diperlukan koleksi data teks yang
diberikan contoh kalimat Secretariat is expected to race telah diberikan tag sebelumnya (corpus). Untuk
tomorrow. Dari kalimat tersebut akan ditentukan menghitungnya bisa digunakan persamaan(8) dan (9).
,
rangkaian tag yang paling tepat. Dengan menggunakan | (8)
teori Bayessian interpretation, proses dimulai dengan ,
mempertimbangkan semua urutan tag yang mungkin | (9)
untuk kalimat tersebut. Dari semua kemungkinan urutan
tersebut, kemudian akan dipilih urutan tag yang paling B. Nave Bayes Classifier (NBC)
mungkin berdasar data observasi yang diberikan, dalam NBC merupakan algoritma pengklasifikasi yang sering
hal ini data observasi adalah kata (words) sejumlah n digunakan permasalahan klasifikasi teks. Sebagai
( ). Dengan kata lain, dari semua kemungkinan urutan ilustrasi, misal data training dikategorikan menjadi
tag sejumlah n ( ), dipilih sebuah urutan tag yang beberapa k kategori , , ,, , dan prior
menghasilkan | yang tertinggi. Seperti probability untuk masing-masing kategori adalah ,
ditunjukkan dalam persamaan (1). dimana j = 1,2,3,,k.
argmax | (1) Koleksi data disimbolkan ,, ,, ,
Dari persamaan (1) dengan diberikan rangkaian tag dan kata atau fitur yang ada dalam dokumen adalah ,
( ) dan rangkaian kata ( ), nilai | masih dimana j = 1,2,3,m, akan masuk ke dalam kategori .
belum bisa dihitung secara langsung. Dengan Untuk mengklasifikasikan dokumen , dilakukan
menggunakan teorema Bayes dengan menghitung nilai probabilitas dari semua
|
| (2) dokumen (posterior probability). Posterior probability
maka persamaan (1) menjadi, suatu dokumen pada suatu kategori dapat dihitung
| dengan menggunakan persamaan,
argmax (3)
(10)
Penyebut dari persamaan (3) yaitu bisa
dihilangkan. Hal ini dikarenakan dalam proses pencarian Klasifikasi teks menggunakan NBC dilakukan dengan
sebuah rangkaian tag yang paling sesuai dari semua memaksimalkan nilai dari persamaan (10). Karena untuk
| semua kategori yang diberikan, nilai penyebut
kemungkinan rangkaian tag, perhitungan
bernilai sama atau konstan, maka bisa dihilangkan.
akan dilakukan pada setiap rangkaian tag. Dan nilai Sehingga persamaan untuk menghitung nilai maksimal
akan bernilai tetap untuk setiap rangkaian tag. dari persamaan (10) menjadi,

39
(11) /
(16)
Berdasarkan pada hipotesis Bayesian yang / (17)
menyebutkan bahwa setiap kata atau fitur w1, wj ,
wmdari di = w1, wj , wm adalah tidak saling terkait, III. METODE PENELITIAN
maka distribusi probabilitas total merupakan hasil
perkalian (product) dari distribusi probabilitas tiap fitur A. Data
atau kata, seperti ditunjukkan pada persamaan (12). Pada penelitian ini digunakan data sekunder, yaitu
,, ,, data yang berasal dari referensi atau penelitian
sebelumnya. Data sekunder yang digunakan dalam
(12) penelitian ini sebagai berikut:
1
Dengan memasukkan persamaan (12) ke persamaan (11), 1) Data kelas kata (tag)
maka persamaan (11) menjadi, Data ini digunakan sebagai acuan tag atau kelas kata
yang akan digunakan dalam proses POS Tagging. Data

(13) kelas kata (tag) ini diperoleh dari hasil penelitian yang
1 telah dilakukan sebelumnya [7].
Persamaan (13) ini yang disebut sebagai Formula
Pengklasifikasi. Nilai dapat dihitung dengan cara 2) Data training POS Tagging
membagi jumlah dokumen training yang masuk ke Data training POS Tagging ini berupa tagged corpus
dalam kategori dengan jumlah total semua dokumen yang di dalamnya terdapat kumpulan kalimat, dimana
training ( = , dimana adalah jumlah masing-masing kata yang menyusun kalimat tersebut
telah diberikan tag atau kelas kata. Data ini digunakan
dokumen yang masuk kedalam kategori dan
dalam proses training Hidden Markov Model (HMM)
adalah jumlah total dokumen). Sedangkan untuk
dalam proses POS Tagging. Data ini didapatkan dari
menghitung nilai , cara yang paling mudah hasil penelitian yang telah dilakukan oleh Universitas
adalah , dimana jumlah kata Indonesia (UI) sebagai salah satu wakil dari Indonesia
yang ada dalam dokumen training yang masuk ke dalam dalam proyek Pan Localization (PANL10N) [10].
kategori , adalah jumlah semua kata yang ada Tagged Corpus berbahasa Indonesia untuk proses POS
Tagging yang disediakan dari PANL10N merupakan
dalam dokumen training yang masuk kedalam kategori
hasil adaptasi dari tagged corpus Penn Treebank yang
(tanpa menghiraukan ada kata yang sama atau tidak),
berbahasa Inggris.
V adalah jumlah total jenis kata yang ada dalam Selain menggunakan tagged corpus UI, pada
dokumen training (kata yang sama hanya dihitung 1). penelitian ini juga digunakan tagged corpus hasil
Untuk menghindari nilai 0 maka pembilang ditambahkan
modifikasi peneliti terhadap tagged corpus yang
1, ini yang disebut Laplace Smoothing [13]. digunakan pada penelitian tahun 2010 [7].
C. Precission dan Recall
3) Data training POS Tagging
Precision adalah rasio jumlah dokumen relefan yang
ditemukan dengan total jumlah dokumen yang Data training yang digunakan dalam proses klasifikasi
ditemukan oleh sistem. Recall adalah rasio jumlah opini merupakan corpus opini yang telah dikategorikan
dokumen relefan yang ditemukan kembali dengan total dalam opini positif maupun negatif. Data ini didapatkan
jumlah dokumen dalam kumpulan dokumen yang dengan mengumpulkan data opini melalui media online.
dianggap relefan. Nilai keduanya biasanya ditunjukkan Data tersebut kemudian dikategorikan ke dalam kategori
dalam satuan persen (%). Persamaan untuk precision opini negatif atau positif secara manual. Data ini
ditunjukkan pada persamaan (14) dan recall pada digunakan dalam proses training Nave Bayes Classifier
persamaan (15) [11]. (NBC).
TABEL I B. Metode Pengolahan Data
VARIABEL UNTUK PERHITUNGAN PRECISION DAN RECALL
Sistem yang akan dikembangkan terdiri dari tiga
Relevan Tidak Relevan subproses yaitu document subjectivity, opinion
orientation dan target detection.
Ditemukan True positives (tp) False positives (fp)
Tidak ditemukan False negatives (fn) False negatives (tn) 1) Document Subjectivity
# Untuk mengetahui apakah suatu kalimat termasuk
# kalimat opini atau bukan, pertama kali dilakukan POS
| (14) Tagging untuk menentukan tag atau kelas kata pada
setiap kata yang menyusun suatu kalimat. Kemudian
# hasil POS Tagging akan dianalisis menggunakanaturan
#
kebahasaan (rule) untuk mengetahui susunan kata dalam
| (15)
kalimat yang mencerminkan opini. Proses POS Tagging
Dengan memperhatikan Tabel I, persamaan (14) dan (15) dilakukan dengan menggunakan metode HMM.
dapat disederhanakan menjadi,
2) Opinion Orientation
Penentuan apakah suatu kalimat termasuk kedalam

40
opini positif atau negatif bisa digolongkan sebagai proses Proses inti di dalam sistem ini adalah POS Tagging
pengklasifikasian. Dalam hal ini adalah menggunakan HMM dan klasifikasi orientasi opini
pengklasifikasian suatu dokumen termasuk kedalam menggunakan NBC. Baik HMM based POS Tagging
kelas positif atau kelas negatif. Dalam penelitian ini maupun NBC, keduanya diawali oleh proses training
digunakan salah satu metode dari supervised machine menggunakan training dataset.
learning yaitu NBC. TABEL II
POS TAG
3) Target Detection
Pada subproses ini digunakan metode POS Tagging POS Tag Arti Contoh
dan rule seperti pada subproses document subjectivity. OP Kurung Buka ({[
Perbedaanya terletak pada susunan rule yang digunakan, CP Kurung Tutup )}]
yaitu aturan kebahasaan untuk menentukan objek yang GM Garis Miring /
menjadi target opini. ; Titik Koma ;
: Titik Dua :
C. Metode Pengujian Tanda Kutip " dan '
. Tanda Titik .
Skenario pengujian dalam penelitian ini diantaranya: , Tanda Koma ,
Pengujian subproses : pengujian ini diterapkan - Garis -
Tanda Pengganti
pada masing-masing subproses analisis sentimen,
JJ Kata Sifat Baik, Bagus
yaitu document subjectivity, opinion orientation RB Kata Keterangan Sementara, Nanti
dan target detection. NN Kata Benda Kursi, Kulkas
Pengujian integrasi: pengujian ini dilakukan pada NNP Benda Bernama Toyota, Sony
NNG Benda Berpemilik Motornya
hasil penggabungan subproses document VBI Kata Kerja Intransitif Pergi
subjectivity, opinion orientation dan target VBT Kata Kerja Transitif Membeli
detection. IN Preposisi Di, Dari, Ke
Pengujian ditujukan untuk mendapatkan nilai MD Modal Bisa
CC Kata Sambung Setara Dan, Atau, tetapi
precision dan recall. Baik pada pengujian SC Kata Sambung Tidak Jika, Ketika
subproses maupun pengujian integrasi, keduanya Setara
akan dicari nilai precission dan recall. DT Determiner Para, Ini, Itu
UH Interjection Wah, Aduh, Oi
CDO Kata Bilangan Berurut Pertama, Kedua, Ketiga
IV. PERANCANGAN CDC Kata Bilangan Kolektif Berdua
CDP Kata Bilangan Pokok Satu, Dua, Tiga
A. Perancangan Diagram Alir Sistem CDI Kata Bilangan Tidak Beberapa
Alur proses sistem secara global ditunjukkan pada Biasa
Gambar 1. PRP Kata Ganti Orang Saya, Mereka
WP Kata tanya Apa, Siapa, Dimana
PRN Kata Ganti Bilangan Kedua-duanya
PRL Kata Ganti Lokasi Sini, Situ
NEG Negasi Bukan, Tidak
SYM Simbol #,%,^,&,*
RP Particle Pun, Kah
FW Kata Asing Word
Proses training pada HMM based POS Tagging

dilakukan dengan menghitung nilai emission probability
dan transition probability. Hasil perhitungan dari proses
training tersebut yang digunakan sebagai model acuan
untuk menentukan tag atas suatu kata dalam suatu
kalimat dari data testing. Untuk menentukan hasil akhir
subproses document subjectivity dan target detection,
hasil dari proses POS Tagging selanjutnya akan diproses
menggunakan rule untuk mendeteksi struktur kalimat
opini dan mendeteksi objek yang menjadi target dari
suatu kalimat opini.
Proses training pada NBC dilakukan dengan
menghitung nilai prior probability dan posterior
probability. Hasil tersebut yang dijadikan model acuan
pada saat proses klasifikasi suatu data testing.
B. Perancangan Tag (Kelas Kata)
Gambar 1. Diagram alir proses sistem Tag yang digunakan dalam penelitian ini ditunjukkan
pada Tabel II.Tag tersebut mengacu pada daftar tag yang
Sistem akan menyimpan data training POS Tagging telah digunakan pada penelitian sebelumnya [7].
dan data training klasifikasi opini di dalam basisdata.

41
C. Perancangan Rule digunakan dalam pengujian ini yaitu:

Untuk menentukan kalimat mana yang termasuk Dataset yang dikeluarkan oleh Universitas
opini atau bukan, diperlukan rule untuk mengolah data Indonesia yang pernah digunakan pada penelitian
hasil proses POS Tagging. Rule opini yang digunakan tahun 2009 [6].
dalam penelitian ini ditunjukkan pada Tabel III. Dataset yang dirumuskan sendiri oleh peneliti,
yang merupakan hasil modifikasi dataset yang telah
TABEL III
digunakan pada penelitian tahun 2010 [7].
RULE OPINI
Hasil pengujian document subjectivity menggunakan
No Rule Contoh dataset hasil modifikasi yang dilakukan oleh peneliti
1 RB JJ sangat bagus, dengan bagus, benar-benar ditunjukkan pada Tabel V.
bagus, seperti jelek, begitu bagus, TABEL V
demikian bagus, agak bagus, amat bagus, HASIL PENGUJIAN DOCUMENT SUBJECTIVITY DENGAN DATASET
sungguh bagus, terlampau bagus, tentu HASIL MODIFIKASI PENELITI
jelek, pasti lambat, selalu lambat,kadang-
Dikenali sebagai opini oleh
kadang buruk,terkadang sulit, memang
pakar (ekspektasi pakar)
benar, semoga lebih baik
True False
2 RB VB semoga berjalan, semoga membawa
hikmah, seandainya datang, jika memilih Dideteksi sebagaiTrue 501 (a) 2 (b)
3 NN JJ bukunya bagus, pakaiannya rapi, opini oleh sistemFalse 70 (c) 2 (d)
perkataannya halus, jalannya jelek (hasil observasi
4 NN VB Pelajarannya membosankan, sistem)
perakataannya menjengkelkan
5 JJ VB mudah difahami, gampang dimaafkan,
cepat beradaptasi
6 CK JJ bagus atau baik, tetapi malas TABEL VI
7 JJ BB sama bagus HASIL PENGUJIAN DOCUMENT SUBJECTIVITY DENGAN
8 VB VB membuat merinding, membikin pusing DATASET UI
9 JJ RB indah sekali, bagus sekali Dikenali sebagai opini oleh
10 VB JJ membikin bingung pakar (ekspektasi pakar)
11 NEG JJ tidak seindah, tidak semudah True False
12 NEG VB tidak mengerti, tidak memahami, bukan Dideteksi sebagaiTrue 411 (a) 2 (b)
mengajar opini oleh sistemFalse 160 (c) 2 (d)
13 PRP VBI saya menyukai, kita suka (hasil observasi
14 PRP VBT kita suka sistem)
15 VBT NN memiliki kedekatan, memiliki kepekaan
16 MD VBT Perlu mengambil referensi Tabel VI merupakan hasil pengujian menggunakan
17 MD VBI Perlu dikembangkan
dataset dari UI.
Dari Tabel V nilai precission dan recall sebagai berikut:
Sedangkan rule untuk mendeteksi kata atau frasa Precission = 501 / (501+2) = 0.99
yang menjadi objek dari suatu kalimat opini ditunjukkan Recall = 501/ (501+70) = 0.88
pada Tabel IV. Dari Tabel VI nilai precission dan recall sebagai berikut:
Kedua rule tersebut dirancang berdasarkan hasil Precission = 411 / (411+2) = 0.99
observasi yang dilakukan oleh peneliti. Recall = 411/ (411+160) = 0.72
TABEL IV TABEL VII
RULE OBJEK TARGET OPINI HASIL PENGUJIAN TARGET DETECTION DENGAN DATASET HASIL
MODIFIKASI PENELITI
No Rule Contoh Dikenali memiliki target Sarana
dan Prasarana (ekspektasi pakar)
1 NN meja, komputer True False
2 NNG laboratoriumnya Dideteksi True 219 (a) 1(b)
3 NN (kata benda) yang kebutuhan, kedekatan memiliki target False 5 (c) 350 (d)
berimbuhan, tetapi kata (bukan) Sarana dan
dasarnya bukan kata Prasarana
sifat (JJ) (hasil observasi
4 NN NN kantin kampus sistem)
5 Frasa kata benda yang kantin dan musholla,
dihubungkan oleh kata komputer di lab
sambung (CC) atau
preposisi (IN)
TABEL VIII
HASIL PENGUJIAN TARGET DETECTION DENGAN DATASET UI
Dikenali memiliki target Sarana
V. PENGUJIANDAN PEMBAHASAN dan Prasarana (ekspektasi pakar)
True False
A. Pengujian Dideteksi True 209 (a) 18 (b)
Pengujian subproses document subjectivity dan target memiliki target False 15 (c) 333 (d)
Sarana dan
detection dilakukan dengan menggunakan 575 data teks Prasarana
dan 2 macam tagged dataset (dataset POS Tagging). (hasil observasi
Data teks yang digunakan dalam pengujian document sistem)
subjectivity dan target detection dikumpulkan dengan
mengunakan kuisioner online. Tagged dataset yang Hasil pengujian target detection menggunakan dataset

42
hasil modifikasi peneliti ditunjukkan pada Tabel VII. opini jika terdapat urutan tag RB VBT dan RB JJ. Oleh
Dan Hasil pengujian target detection menggunakan karena itu, hasil tagging yang menggunakan dataset UI
dataset UI ditunjukkan pada Tabel VIII. Dari Tabel VII untuk kalimat yang bersangkutan tidak dideteksi sebagai
nilai precission dan recall sebagai berikut: kalimat opini.
Precission = 219 / (219+1) = 0.99 Pengaruh dataset yang digunakan juga ditunjukkan
Recall = 219/ (219+5) = 0.97 dari hasil pengujian subproses target detection.
Dari Tabel VIII nilai precission dan recall sebagai Perhitungan nilai recall dan precission dari Tabel VII,
berikut: dan VIII menjadi indikasi pengaruh penggunaan dataset.
Precission = 209 / (209+18) = 0.92 Nilai precission dan recall untuk Tabel VII masing-
Recall = 209 / (209+15) = 0.93 masing adalah 0.99 dan 0.97. Sedangkan nilai precission
Pengujian opinion orientation dilakukan dengan dan recall untuk Tabel VIII masing-masing adalah 0.92
menggunakan 87 data yang dikumpulkan melalui dan 0.93. Sebagai contoh, dengan menggunakan dataset
kuisioner online. Dataset yang digunakan dalam proses hasil modifikasi didapatkan menurut/VBT saya/PRP
training berasal dari data opini yang juga dikumpulkan wifi/NN di/IN polinema/NN itu/DT agak/JJ
menggunakan kuisioner online sejumlah 575 data. Hasil lambat/JJ, sedangkan menggunakan dataset UI
pengujian ditunjukkan pada Tabel IX. didapatkan menurut/nn saya/prp wifi/NN di/in
polinema/nn itu/dt agak/rb lambat/nn. Dari hasil
TABEL IX
HASIL PENGUJIAN OPINION ORIENTATION
yang didapatkan dengan menggunakan dataset UI, kata
Dikenali memiliki target Sarana benda (NN) yang didapatkan pertama adalah menurut,
dan Prasarana (ekspektasi pakar) dan setelah itu dideteksi munculnya tag PRP. Karena
True False dalam rule target, jika terdapat urutan tag NN PRP,
Dideteksi True 60 (a) 3 (b) maka jika setelah tag PRP masih terdapat tag NN, maka
memiliki target False 4 (c) 30 (d)
Sarana dan
tag tersebut tidak akan diambil. Jadi yang diambil
Prasarana sebagai target adalah tag NN sebelum PRP yaitu kata
(hasil observasi menurut. Dan kata menurut ini tidak termasuk ke
sistem) dalam kata kunci untuk kategori Sarana dan Prasarana.
Dari hasil pengujian opinion orientation pada Tabel
Dari Tabel IX nilai precission dan recall sebagai berikut:
IX didapatkan nilai precission dan recall yang tinggi. Ini
Precission = 60 / (60+3) = 0.95
menunjukkan bahwa NBC sebagai metode
Recall = 60 / (60+4) = 0.94
pengklasifikasi dapat berfungsi dengan baik untuk
B. Pembahasan menyelesaikan masalah opinion orientation pada opinion
Tagged dataset digunakan dalam proses training atau mining terutama pada kasus dataset yang digunakan
learning pada HMM. HMM sendiri digunakan sebagai dalam proses training dan testing NBC pada penilitian
algoritma dalam proses POS (Part-of-Speech) Tagging. ini.
Pada sistem yang dikembangkan dalam penelitian ini,
POS Tagging digunakan pada subproses document VI. PENUTUP
subjectivity dan target detection. A. Kesimpulan
Dari hasil yang didapatkan dari proses pengujian
subproses document subjectivity, nilai precission dari Dari proses pengujian dan analisis yang telah
Tabel V sama dengan precission Tabel VI sedangkan dilakukan, kesimpulan yang dapat diambil antara lain:
recall dari Tabel V berbeda dengan recall dari Tabel VI. 1. Implementasi HMM pada proses POS Tagging yang
Tabel V merupakan data hasil pengujian document digunakan dalam subproses document subjectivity
subjectivity menggunakan dataset yang pernah dan target detection dapat berfungsi dengan baik.
digunakan sebelumnya [7], yang telah dimodifikasi oleh Nilai precission dan recall untuk proses document
peneliti, sedangkan Tabel VI merupakan data hasil subjectivity adalah 0.99 dan 0.88. Sedangkan nilai
pengujian menggunakan dataset dari Universitas precission dan recall untuk proses target detection
Indonesia. Penggunaan 2 dataset tersebut berakibat pada adalah 0.92 dan 0.93.
perbedaan nilai recall. Recall Tabel V (0.88) lebih besar 2. Nilai precission dan recall tertinggi didapatkan pada
daripada recall Tabel VI (0.72). Hal ini menunjukkan saat tagged dataset yang digunakan dalam proses
bahwa akurasi sistem akan lebih baik jika menggunakan learning HMM adalah dataset hasil modifikasi yang
dataset hasil modifikasi peneliti. Meskipun dataset yang dilakukan sendiri oleh peneliti. Sehingga
didapatkan dari hasil penelitian Universitas Indonesia penggunaan tagged dataset yang baik dan
berisi lebih banyak data daripada dataset hasil representatif berperan penting pada akurasi hasil
modifikasi peneliti, tetapi akurasi tag yang dihasilkan POS Tagging.
lebih kecil. 3. NBC dapat berfungsi dengan baik pada subproses
Sebagai contoh, dari penggunaan dataset UI opinion orientation. Akurasi NBC dalam
didapatkan hasil tagging terlalu/rb berbelit/nn dan/cc mengklasifikasikan opini ke dalam opini negatif dan
kurang/rb transparan/nn sedangkan dengan positif sangat baik. Hal ini bisa dilihat dari nilai
menggunakan dataset hasil modifikasi peneliti precission dan recall yang didapatkan yaitu 0.95 dan
didapatkan terlalu/RB berbelit/VBT dan/CC 0.94.
kurang/RB transparan/JJ. Perbedaan terjadi pada tag 4. Rule yang diterapkan pada subproses document
kata berbelit dan transparan. Dari rule opini yang subjectivity dan target detection memiliki peran
digunakan, suatu frasa akan dideteksi sebagai indikator yang sangat penting. Pada dua subproses tersebut,

43
rule digunakan untuk mengolah data hasil POS

[3] Pang, Bo. Lee, L dan Vaithyanathan, S. 2002. Thumbs up?
Tagging. Pada subproses document subjectivity Sentiment classification using machine learning techniques.
misalnya, jika rule yang digunakan tidak Proceedings of the 7th Conference on Empirical Methods in
representatif, maka akan berpengaruh pada akurasi Natural Language Processing (EMNLP-02).
opini yang terdeteksi. [4] Kamaruzaman, S.M., Chowdhury M.R. 2004. Text
Categorization using Association Rule and Naive Bayes
B. Saran Classifier. Asian Journal of Information Technology, Vol. 3, No.
9, pp 657-665, Sep. 2004
Dari hasil pengujian, analisis dan kesimpulan yang [5] Kibriya Ashraf M., Frank Eibe, Pfahringer Bernhard,
telah dirumuskan, terdapat beberapa hal yang disarankan Holmes Geoffrey . 2004. Multinomial Nave Bayes for Text
untuk penelitian selanjutnya. Saran tersebut diantaranya: Categorization Revisited. Australian joint conference on artificial
intelligence No 17.
1. Pada subproses opinion orientation bisa digunakan
[6] Femphy Pisceldo, Manurung, R., Adriani, Mirna. 2009.
metode selain NBC seperti Support Vector Machine Probabilistic Part-of-Speech Tagging for bahasa Indonesia.
(SVM) sebagai metode pengklasifikasi. SVM Third International MALINDO Workshop, colocated event ACL-
dianggap sebagai metode pengklasifikasi yang IJCNLP 2009, Singapore, August 1, 2009.
[7] Wicaksono, Alfan F dan Purwarianti, Ayu. 2010. HMM Based
memiliki akurasi lebih baik daripada NBC,
Part-of-Speech Tagger for Bahasa Indonesia. Proceeding of the
meskipun lebih kompleks dari segi implementasi. Fourth International MALINDO Workshop (MALINDO2010).
2. Perlu dilakukan pengamatan lebih lanjut terhadap Agustus 2010. Jakarta, Indonesia
struktur kalimat yang memiliki nuansa sentimen [8] Jurafsky, Daniel dan Martin, H. James. 2007. Speech and
Language Processing: An Introduction to Natural Language
atau opini. Hasil pengamatan tersebut digunakan
Processing, Computational Lingustics, and Speech Recognition.
sebagai referensi untuk merumuskan rule yang akan Prentice-Hall.
digunakan pada subproses document subjectivity. [9] Liu, B. 2010. Handbook of Natural Language Processing,
3. Perlu ditambahkan dataset baik dataset yang chapter Sentiment Analysis and Analysis, 2nd Edition. Chapman
& Hall / CRC Press.
digunakan pada proses learning HMM (tagged
[10] PAN Localization Project. http://www.panl10n.net, diakses pada
dataset) maupun dataset yang digunakan pada 10 Desember 2011.
proses learning NBC (dataset yang berisi kalimat [11] Manning, D. Cristopher, Prabakhar Raghavan dan Hinrich
opini yang telah diklasifikasikan). Schutze. 2009. An Introduction to Information Retrieval.
Cambridge University Press
[12] Fink, R. Clayton. 2011. Coarse- and Fine-Grained Sentiment
DAFTAR PUSTAKA Analysis of Social Media Text. Johns Hopkins APL Technical
[1] Liu, B. 2010. Handbook of Natural Language Processing, Digest, Vol. 30 No. 1.
chapter Sentiment Analysis and Analysis, 2nd Edition. Chapman [13] Liu, B. 2010. Handbook of Natural Language Processing,
& Hall / CRC Press chapter Sentiment Analysis and Analysis, 2nd Edition. Chapman
[2] Turney, Peter D. 2002. Thumbs Up or Thumbs Down? Semantic & Hall / CRC Press.
Orientation Applied to Unsupervised Classification of
Reviews. presented at the Association for Computational
Linguistics 40 Anniversary Meeting, New Brunswick, N.J.

164 282 1 PB PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

164 282 1 PB PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

37

Implementasi Opinion Mining (Analisis

dan aplikasi berbasis analisis sentimen berkembang

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

96%. Setelah penyebut dihilangkan, maka persamaan (3)

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

Proses training pada HMM based POS Tagging

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

C. Perancangan Rule digunakan dalam pengujian ini yaitu:

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

rule digunakan untuk mengolah data hasil POS

Jurnal EECCIS Vol. 6, No. 1, Juni 2012

Anda mungkin juga menyukai