Anda di halaman 1dari 4

Komparasi Algoritma K-Means Dan K-Medoids Untuk Analisis Sentimen Movie Review

BAB I
PENDAU!UAN
"e#site merupakan sala$ satu media %ang tepat se#agai pusat la%anan in&ormasi glo#al untuk
#er#agai in&ormasi '()* Dengan media we#site+ pengguna dimuda$kan dan di#erikan ke#e#asan
untuk men%ampaikan in&ormasi atau pendapat+ %ang selan,utn%a in&ormasi atau pendapat terse#ut
tersimpan didalam kumpulan dokumen* Dalam kurun waktu %ang lama kumpulan dokumen akan
semakin #ertam#a$ #esar+ $ingga ak$irn%a ada pemikiran untuk melakukan te-t mining*
Penam#angan dokumen dari we#site %ang #erisi komentar+ pendapat+ &eed#a.k+ kritik dan review
merupakan $al penting+ karena dokumen terse#ut #erisi in&ormasi %ang sangat #erman&aat untuk
mem#antu individu atau organisasi didalam pengam#ilan keputusan '/)+ .onto$n%a antara lain
review se#ua$ produk dapat mem#antu perusa$aan untuk mempromosikan produk mereka+ opini
ke#i,akan politik dapat mem#antu politisi untuk memper,elas strategi politik mereka dan dengan
review twitter dapat digunakan untuk mengidenti&ikasi sentimen tentang pariwisata di 0$ailand
selama kerusu$an di awal ta$un /1(1 '2)* Namun kumpulan dokumen %ang #erasal dari we#site
masi$ din%atakan dalam #a$asa alami atau natural+ se$ingga #agi %ang mem#utu$kan
memungkinkan untuk mem#a.a dan menganalisis kem#ali semua review atau kumpulan dokumen
%ang ada '/)*
Saat ini+ teknik %ang #erkem#ang untuk menganalisis kumpulan dokumen adala$ sentiment
analis%s atau opinion mining* Sentiment anal%sis merupakan suatu proses mema$ami+
mengekstrak+ dan mengola$ in&ormasi tekstual se.ara otomatis '3)* 0eknik ini menga.u pada
#idang pengola$an #a$asa alami+ komputasi linguistik dan te-t mining dari opini-opini orang+
appraisal dan emosi melalui entitas+ ke,adian dan atri#ut %ang dimiliki '3)* Pentingn%a analisis
sentimen sekarang sangat terasa #agi manusia atau organisasi+ $al itu ditandai dengan #an%akn%a
penelitian dan pesatn%a perkem#angan analisis sentimen+ ter#ukti di Amerika Serikat kurang le#i$
/1-21 perusa$aan men&okuskan pada la%anan analisis sentimen+ ini mem#uktikan #a$wa
mengumpulkan in&ormasi dan selalu men.ari ta$u tentang $al apa %ang orang lain pikirkan
merupakan sesuatu $al %ang penting '3) #aik melalui review situs online dan #log pri#adi*
Ada dua ara$ penelitian dalam analisis sentimen+ %ang pertama adala$ untuk mengklasi&ikasikan
polaritas suatu teks %ang di#erikan+ apaka$ %ang diungkapkan merupakan opini positi&+ negati&
atau netral+ penelitian ini se#elumn%a dipelopori ole$ Pang et al* '4) dan 0urne% et al* '5)* Ara$
penelitian %ang kedua adala$ identi&ikasi su#,ektivitas atau o#,ekti&itas+ penelitian ini umumn%a
mengklasi&ikasikan se#ua$ teks kedalam satu dari dua kelas %aitu tu,uan atau su#%ekti&*
Selain analisis sentimen review se#ua$ produk+ review twitter dan analisis sentimen opini
ter$adap partai politik+ analisis sentimen review se#ua$ &ilm ,uga diperlukan+ karena review
se#ua$ &ilm dapat digunakan se#agai #a$an untuk menganalisa laku tidakn%a &ilm terse#ut
dipasaran+ se$ingga diketa$ui pendapatan dari pemutaran suatu movie '4)* Disamping itu #agi
penggemar &ilm sendiri dapat diman&aatkan untuk mengam#il keputusan+ &ilm apa %ang akan
mereka tonton* Dari #an%akn%a opini ter$adap se#ua$ &ilm dapat diman&aatkan untuk mengeta$ui
penilaian %ang di#erikan ole$ para penggemar &ilm tentang &ilm-&ilm %ang paling #an%ak dikritik
dan %ang paling #an%ak disukai penonton* 0entu sa,a $al ini di#utu$kan analisis %ang #aik dan
metode %ang tepat untuk mengekstrak opini-opini dari penggemar &ilm* 0etapi sampai saat ini
#elum ada teknik supervised learning atau unsupervised learning %ang paling akurat untuk analisis
sentimen review se#ua$ &ilm+ $al ini seperti %ang disampaikan ole$ Ku.uktun. et al* '6) dalam A
!arge-S.ale Sentiment Anal%sis &or 7a$oo8 Answers*
Dalam perkem#angann%a+ #an%ak penelitian dengan menggunakan metode atau algoritma %ang
#er#eda+ $al ini dise#a#kan karena masing-masing metode atau algoritma mempun%ai per#edaan+
#aik tingkat akurasi maupun tingkat ke.epatann%a dalam melakukan proses .lustering atau
klasi&ikasi se#ua$ dokumen* Pada penelitian se#elumn%a #an%ak digunakan teknik supervised
learning seperti algoritma S9M ':) ';) '(1) '(() '(/) '(2) dan algoritma Naive Ba%es ':) '4) '(3)
'(2)+ algoritma ini digunakan untuk klasi&ikasi dokumen* Sedangkan teknik unsupervised learning
dengan metode .lustering+ seperti penelitian %ang dilakukan ole$ <ang !i dan =ei !iu '/) %aitu
suatu metode dimana didalam mengelompokkan dokumen dengan menggunakan persamaan topik
%ang dimiliki ole$ masing-masing dokumen '(4) dengan tu,uan untuk memuda$kan pengguna
dalam menemukan dokumen %ang diinginkan* Adapun penelitian-penelitian terda$ulu %ang
terkait tentang analisis sentimen #aik menggunakan teknik supervised learning maupun
unsupervised learning adala$ Pang et al* '4) melakukan penelitian untuk mengeta$ui rating &ilm
dengan .ara meli$at dan mengklasi&ikasikan review ke la#el positi& atau negati&+ dataset diam#il
dari Internet Movie Data#ase >IMD#?+ menggunakan metode Na@ve Ba%es Alasi&ier >NBA?+
Ma-imum Entrop% >ME? dan Suport 9e.tor Ma.$ine >S9M? serta menggunakan pemili$an &itur
Unigram+ N-<ram dan Part-o&-Spee.$ >PBS?+ $asil penelitian ini men%atakan #a$wa algoritma
ter#aik dan e&ekti& untuk klasi&ikasi teks adala$ S9M sedangkan algoritma ter#uruk untuk
klasi&ikasi adala$ NBA*
Song#o 0an dan C$ang Din '(5)+ melakukan penelitian tentang sentimen .orpus #a$asa .$ina
se#an%ak (*1/( dokumen+ menggunakan 3 metode &eature sele.tion tradisional D=+ AI+ MI+ I<
dan 4 metode ma.$ine learning Aentroid Alassi&ier+ K-Nearest Neig$#or >K-NN?+ Na@ve Ba%es+
"innow Alassi&ier+ S9M .lassi&ier+ $asil penelitian ini menun,ukkan #a$wa In&ormation <ain
>I<? melakukan %ang ter#aik dalam seleksi &itur dan S9M menun,ukkan kiner,a ter#aik untuk
klasi&ikasi sentimen*
A$med A##asi et al* ';)melakukan penelitian tentang sentiment anal%sis untuk klasi&ikasi konten
opini se#ua$ &orum di we#site dalam #er#a#agi #a$asa+ metode %ang digunakan Entrop%
"eig$ted <eneti. Algorit$m > E"<A? dan S9M+ $asil penelitian ini menun,ukkan #a$wa
akurasi algoritma E"<A dan S9M le#i$ dari ;(E pada dataset #en.$mark untuk opini se#ua$
&orum Amerika Serikat dan 0imur 0enga$*
A$ristop$er et al* '(6) melakukan penelitian untuk menganalisis klasi&ikasi review opini pem#eli
produk di we#site+ metode %ang digunakan adala$ Alass Asso.iation Rule+ NBA In&ormation <ain
dan NBA A$i SFuare+ dengan $asil penelitian #a$wa akurasi Alass Asso.iation Rules adala$
62E+ NBA dan In&ormation <ain adala$ 65+(/E sedangkan NBA A$i SFuare tingkat akurasin%a
adala$ 56+53 E*
9ivek Kumar Sing$ et al* '(:)+ melakukan eksperimen tentang analisis sentimen dari #e#erapa
posting di #log untuk penelitian sosial politik* Dataset diam#il dari 41 we##log+ metode %ang
digunakan adala$ Na@ve Ba%es >NB? dan Semanti. Brientation Using Pointwise Mutual
In&ormation >SB-PMI?+ dengan $asil eksperimen #a$wa tingkat akurasi Naive Ba%es antara 56E-
5;E*
<ang !i dan =ei !i '/)+ melakukan penelitian menggunakan algoritma K-Means dengan
menerapkan metode pem#o#otan 0=-ID=+ 9oting Me.$anism dan Importing 0erm S.ore* Dataset
%ang digunakan adala$ movie review se#an%ak 511 dokumen %ang ter#agi men,adi 211 dokumen
positi& dan 211 dokumen negati&* Dalam penelitian ini $asil %ang diperole$ adala$ #a$wa
.lustering dokumen dengan menggunakan algoritma K-Means memiliki keunggulan le#i$ #aik
di#anding ,enis pendekatan s%m#oli. te.$niFues dan metode supervised learning+ dengan akurasi
66*(6E - 6:*22E*
Berdasarkan penelitian-penelitian se#elumn%a #an%ak metode atau algoritma %ang digunakan
untuk analisis sentimen+ namun #elum diketa$ui algoritma %ang paling akurat untuk analisis
sentimen+ maka dalam penelitian ini akan melakukan analisis dan komparasi algoritma
.lustering %aitu algoritma K-Means dan K-Medoids* Dengan tu,uan #a$wa algoritma %ang
didapat merupakan algoritma %ang paling akurat+ se$ingga dapat melakukan .lustering dengan
tepat*
Rumusan Masala$
Dari uraian latar #elakang diatas maka rumusan masala$ dalam penelitian ini adala$ #elum
diketa$uin%a metode .lustering %ang paling akurat untuk analisis sentimen movie review*
0u,uan Penelitian
Berdasarkan latar #elakang dan rumusan masala$ diatas+ maka tu,uan penelitian ini adala$ untuk
mengevaluasi dan mem#andingkan algoritma .lustering %ang paling akurat untuk analisis
sentimen movie review* Algoritma %ang digunakan adala$ algoritma K-Means dan algoritma K-
Medoids*
Man&aat Penelitian
Man&aat dari penelitian ini adala$ se#agai #erikutG
(* Di$arapkan dapat #erman&aat #agi penelitian selan,utn%a tentang .lustering dokumen
dalam mem#andingkan atau mengkomparasi algoritma .lustering untuk analisis sentimen*
/* Di$arapkan dapat mem#erikan sum#angan pengeta$uan %ang #erkaitan dengan .lustering
dokumen tentang analisis sentimen*
Batasan Masala$
Batasan masala$ dalam penelitian ini adala$ se#agai #erikut G
H Konsentrasi pada penelitian analisis sentimen movie review untuk mengeta$ui kiner,a
algoritma K-Means dan K-Medoids pada proses .lustering dokumen*
H Dataset %ang digunakan adala$ dalam #entuk dokumen inggris*
H Menggunakan dataset movie review dalam #a$asa inggris+ %ang terdiri dari 211 dokumen
#erkategori positi& dan 211 #erkategori dokumen negati& %ang diundu$ dari
$ttpGIIwww*.s*.ornell*eduIpeopleIpa#oImovie-review-dataI*
(*4 Sistematika Penulisan
Sistematika penulisan dalam penelitian ini adala$ se#agai #erikut G
BAB I PENDAU!UAN
Ba# ini men.akup su##a# latar #elakang+ rumusan masala$+ tu,uan penelitian+ man&aat penelitian+
#atasan masala$ dan sistematika penulisan*
BAB II 0INDAUAN PUS0AKA
Ba# ini men.akup tin,auan studi dan landasan teori %ang digunakan se#agai a.uan penelitian*
Didalam tin,auan studi di,elaskan tentang $asil penelitian-penelitian %ang se#elumn%a tela$
dilakukan dan #er$u#ungan dengan penelitian ini* Di didalam #a# ini di,elaskan pula landasan
teori %ang men,elaskan tentang sum#er a.uan ter#aru dari pustaka seperti #uku+ artikel+ ,urnal+
prosiding dan tulisan asli lainn%a untuk mengeta$ui perkem#angan penelitian %ang sesuai dengan
pokok penelitian %ang dilakukan*
Selain itu di #a# ini ,uga diuraikan tentang kerangka pemikiran %ang merupakan gam#aran
singkat tentang .ara meme.a$kan masala$ %ang sedang diteliti+ termasuk menguraikan o#,ek
penelitian*
BAB III ME0BDE PENE!I0IAN
Ba# III merupakan pen,elasan tentang $ardware dan so&tware %ang digunakan+ metode penelitian+
model %ang diusulkan dan visualisasi algoritma %ang di komparasi*
BAB I9 EKSPERIMEN DAN ASI! PENE!I0IAN
Ba# I9 men,elaskan tentang $asil eksperimen dan pem#a$asan penelitian ter$adap model %ang
dilakukan* Analisis dan evaluasi metode+ komparasi metode dan pengu,ian metode+ se$ingga
diketa$ui a..ura.%+ pre.ision+ re.all dan waktu %ang di#utu$kan algoritma dalam proses .lustering
%ang di$asilkan dari penerapan model*
BAB 9 PENU0UP
Ba# 9 #erisi ringkasan temuan+ rangkuman kesimpulan dan saran* Kesimpulan merupakan
pern%ataan se.ara umum atau spesi&ik %ang #erisi $al-$al penting dan men,adi temuan penelitian
%ang #ersum#er pada $asil dan pem#a$asan*
Saran merupakan pern%ataan atau rekomendasi peneliti %ang #erisi $al-$al penting se#agaimana
%ang tela$ disampaikan*
BAB I9
EKSPERIMEN DAN ASI! PENE!I0IAN
Eksperimen dan Pengu,ian Model
asil ak$ir %ang men,adi tu,uan penelitian ini adala$ mengeta$ui kiner,a algoritma .lustering
untuk analisis sentimen movie review* Dataset %ang digunakan adala$ movie review %ang diam#il
dari $ttpGIIwww*.s*.ornell*eduIPeopleIpa#oImovie-review-dataI* !angka$-langka$ %ang dilakukan
adala$ terle#i$ da$ulu dataset di prepro.essing+ kemudian proses .lustering dan selan,utn%a
meng$itung per&orman.e algoritma terse#ut* Masing-masing algoritma diu,i dengan ukuran kJ/+
pem#o#otan term %ang digunakan mulai dari (1E+/1E+21E+31E+41E+51E+61E+ :1E dan ;1E+
ini meru,uk pada penelitian '(3) dengan menggunakan seleksi &itur In&ormation <ain %ang paling
#erkualitas '36)* Dalam penentuan term %ang digunakan untuk proses .lustering adala$ term %ang
ada pada seluru$ dokumen atau dataset %ang ada #erdasarkan dari #o#ot tertinggi dan &rekuensi
kemun.ulan term dari masing-masing term didalam dokumen* Penelitian ini menggunakan
&rameworks RapidMiner untuk mengu,i algoritma K-Means dan K-Medoids* Dalam
menentukan tingkat akurasi algoritma+ $asil dari masing-masing analisis dengan pendekatan
algoritma K-Means dan K-Medoids di#andingkan atau dikomparasikan*