KARYA AKHIR
KARYA AKHIR
NPM : 1106042246
Tanda tangan :
ii
DEWAN PENGUJI
Ditetapkan di : Jakarta
Tanggal : 19 Januari 2013
iii
Penulis
iv
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti Non-
ekskutif ini Universitas Indonesia berhak menyimpan, mengalihmedia/formatkan,
mengelola dalam bentuk pangkalan data (database), merawat, dan
mempublikasikan karya akhir saya tanpa meminta izin dari saya selama tetap
mencantumkan saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta.
Dibuat di : Jakarta
Pada tanggal : 14 Januari 2013
Yang menyatakan
Media sosial kini tak hanya dimanfaatkan untuk kepentingan pribadi, tapi telah
marak dipakai untuk kepentingan bisnis. Analisis sentimen merupakan penelitian
komputasional dari ekspresi sentimen secara tekstual. Twitter adalah salah satu
media sosial populer, keterbatasan karakter memberikan kesulitan tersendiri
dalam menganalisis sentimen dibanding media sosial lainnya. Semua data yang
dipakai dalam penelitian ini merupakan tweet yang disampaikan dalam Bahasa
Indonesia. Hasil analisis sentimen di twitter memakai aplikasi yang ada
menunjukkan tingkat akurasi yang kecil. Penelitian ini bertujuan untuk
membandingkan metode pengklasifikasian sentimen yang lebih akurat antara 2
metode klasifikasi populer. Akurasi yang dihasilkan oleh Metoda SVM lebih
bagus daripada Metode NBC.
Kata kunci : Twitter, Analisis Sentimen, Media Sosial, Support Vector
Machine, Nave Bayes.
xiii + 88 halaman; 27 gambar; 18 tabel;
vi Universitas Indonesia
Social media is now not used for personal purposes only, but also adopted for
business purposes. Sentiment analysis is a computational research of sentiments
expressed textually. Twitter is a popular social media in Indonesia, its character
limitations make it more challenging to be analyzed than the other social media.
All data used in this research is tweets delivered in Bahasa Indonesia. The results
of sentiment analysis in twitter using existing applications show low accuracy.
This research aims to compare the sentiment classification method that more
accurately between two popular classification methods. Accuracy produced by the
SVM is better than NBC.
Keywords : Twitter, Sentiment Analysis, Social Media, Support Vector
Machine, Nave Bayes.
xiii + 88 pages; 27 figures; 18 tables;
x Universitas Indonesia
xi Universitas Indonesia
Sekarang, media sosial internet sudah berkembang dengan pesat. Salah satu
media sosial yang marak dipakai merupakan Twitter (Pak, 2010). Twitter
merupakan sebuah media sosial yang memberikan layanan micro blogging dengan
batasan 140 karakter per pesan yang biasa disebut tweet, dikirim oleh pengguna
kepada pembacanya yang disebut follower. Twitter dapat diakses melalui web,
pesan singkat (SMS), atau third party applications, seperti UberSocial.
Menurut data Semiocast.com bulan Juni 2012, Indonesia merupakan negara
kelima dengan pengguna Twitter terbanyak di dunia, dengan jumlah total
pengguna mencapai 29,4 juta. Pertumbuhan ini membuat orang-orang menikmati
berbagi kegiatan mereka di media sosial, termasuk mengeluh tentang produk atau
layanan dari perusahaan tertentu. Perilaku ini menjadi kesempatan besar bagi
perusahaan-perusahaan untuk mengetahui sentimen konsumen terhadap produk
atau layanan perusahaan mereka, namun kemampuan teknologi informasi untuk
mengumpulkan dan menyimpan berbagai jenis data sudah jauh meninggalkan
kemampuan untuk menganalisis isi dari data itu sendiri. Analisis sentimen adalah
upaya untuk menbisakan sentimen positif maupun negatif mengenai suatu hal
berdasarkan teks tweet yang dibisa sesuai dengan topik yang dicari.
Proses pengklasifikasian sentimen dari pesan dalam media sosial pun
mempunyai beberapa tantangan. Pertama, bahasa yang dipakai di media sosial
sering tak mempunyai struktur formal dalam kalimat mereka, seperti pemakaian
singkatan, perubahan dari huruf ke angka, kurangnya tanda baca, dll. Kedua,
kalimat di media sosial mempunyai domain (sosial, politik, ekonomi, teknologi,
dll) yang independen sehingga orang dapat bicara tentang apa saja dengan domain
yang berbeda dan membuatnya sulit untuk mengklasifikasikan sentimen.
Penelitian yang pernah dilakukan oleh Pang & Lee (2008) terhadap lebih
dari 2000 warga Amerika dewasa antara lain menunjukkan bahwa 81% pengguna
internet melakukan penelitian terhadap suatu produk/layanan secara online
1 Universitas Indonesia
minimal sekali, dan 20% melakukan penelitian tersebut setiap hari. Dari data
pemakaian Internet di Indoneisa yang dirilis oleh MarkPlus Insight
(makrplusinsight.com, 2012) disebutkan bahwa jumlah pengguna Internet di
Indonesia per akhir tahun 2012 mencapai 61,08 juta, naik sekitar 10% ketimbang
tahun 2011. Temuan yang layak untuk ditelaah lebih lanjut antara lain:
40% dari pengguna Internet di Indonesia (24,2 juta orang) mengakses
Internet lebih dari 3 jam setiap harinya.
58 juta orang (95%) mengakses Internet dari notebook, netbook, tablet, dan
perangkat seluler.
Komunitas pengguna Internet kebanyakan didominasi oleh kalangan kelas
menengah.
Kebanyakan pengguna Internet di Indonesia berada di usia antara 15-35
tahun.
56,4% termasuk bargain hunter -- yang rela berjam-jam berselancar di
Internet untuk mencari informasi dan penawaran terbagus dari
kebutuhannya.
Hal yang lebih penting merupakan bagaimana memanfaatkan jumlah
pengguna yang masif di Indonesia untuk memeberikan hasil yang produktif. Hal
ini mendorong perlunya dilakukan penelitian analisis sentimen terhadap layanan
media sosial twitter sebagai salah satu layanan media sosial online.
Penelitian-penelitian mengenai analisis sentimen telah banyak dilakukan,
namun sebagian besar memakai data dalam bahasa Inggris, sedangkan penelitian
dalam bahasa Indonesia masih belum banyak dilakukan.
Universitas Indonesia
Universitas Indonesia
Manfaat yang dapat dibisa dari hasil penelitian ini antara lain :
1. Dari sisi bisnis, hasil penelitian ini bisa menjadi alat bantu dalam
pengambilan keputusan strategi pengembangan layanan maupun produk
Universitas Indonesia
yang dimiliki suatu perusahaan. Hasil penelitian ini juga dapat untuk
melakukan proyeksi penjualan dan pemasaran.
2. Dari segi akademis, dengan dibisakannya hasil pengukuran performansi
metode Nave Bayes Classifier (NBC) dan Support Vector Machine
(SVM) dalam mengklasifikasikan sentimen di twitter, maka akan dibisa
metode yang lebih unggul sehingga akan memperkaya penelitian terhadap
analisis sentimen, sebab penelitian dengan topik tersebut masih jarang
ditemukan.
Universitas Indonesia
2.2 Twitter
6 Universitas Indonesia
pada twitter berupa data yang mengikuti model data stream. Dalam model ini, data
terkumpul secara cepat dan dibutuhkan algoritma pengolahan data yang real time.
Data stream menyajikan tantangan desain algoritma, algoritma harus bisa beroperasi
dengan sumber daya terbatas, termasuk waktu dan memori.
2.3 Crawler
Universitas Indonesia
Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi
pada windows/tab browser yang baru, demikian proses terus berulang. Sebuah
crawler akan mengotomatisasikan pekerjaan itu.
Kesimpulannya, dua fungsi utama web crawler merupakan:
1. Mengidentifikasikan Hyperlink.
Hyperlink yang ditemui pada konten web akan ditambahkan pada daftar
kunjungan, disebut juga dengan istilah frontier.
2. Melakukan proses kunjungan secara rekursif.
Dari setiap hyperlink, crawler akan menjelajahinya dan melakukan proses
berulang, dengan ketentuan yang disesuaikan dengan keperluan aplikasi.
Khusus untuk proses perulangan hyperlink pengunjung, dapat terjadi
spider trap, yaitu proses berulang tanpa akhir sebab crawler terperangkap untuk
terus melakukan pencarian dalam jumlah tak terbatas. Hal ini bisa terjadi bagus
secara sengaja maupun tak sengaja.
Kesengajaan dapat saja terjadi apabila website memang dirancang untuk
melumpuhkan crawler, misalnya dengan membuat halaman dinamis dengan
angka tak terhingga.
Sedangkan ketidaksengajaan dapat terjadi sebab terbisa kesalahan pada
desain program crawler sehingga membaca ulang hyperlink yang telah diakses,
atau sebuah website secara tak sengaja mempunyai halaman dinamis yang tak
terbatas, contohnya halaman dinamis yang tercipta berdasarkan tanggal kalender.
Text mining, seperti dikutip oleh Indrawati (2008) bisa diartikan sebagai
cara untuk menemukan informasi yang baru dan tak diketahui sebelumnya oleh
komputer, dengan cara mengekstrak informasi dari sumber-sumber yang berbeda.
Proses ini bertujuan untuk menggabungkan informasi yang berhasil diekstraksi
dari berbagai sumber (Hearst, 2003), sedangkan menurut Milkha Harlian (2006),
text mining mempunyai definisi penambangan data berupa teks, di mana sumber
data biasanya dibisakan dari dokumen dan bertujuan untuk mencari kata-kata
yang bisa mewakili isi dari dokumen sehingga bisa dilakukan analisis
Universitas Indonesia
Universitas Indonesia
struktur yang terus berubah, dimensi yang tinggi, dan data yang tak bersih.
Perbedaan antara text mining dan data mining merupakan pada data yang dipakai.
Data yang dipakai pada data mining merupakan data terstruktur, sedangkan pada text
mining, data yang dipakai pada umumnya merupakan data tak terstruktur, atau
minimal semi terstruktur. Hal ini menyebabkan adanya tantangan tambahan pada
text mining yaitu struktur teks yang kompleks dan tak lengkap, arti yang tak jelas dan
tak standar, dan bahasa yang berbeda ditambah translasi yang tak akurat.
Meskipun inti dari suatu sistem klasifikasi merupakan tahap penemuan pola
(Pattern Discovery) namun secara lengkap proses text mining dibagi menjadi 3
tahap utama, yaitu pra-proses teks, transformasi teks atau pemilihan fitur, dan
penemuan pola (Even dan Zohar, 2002). Masukan mula dari proses ini merupakan
suatu data teks dan menghasilkan keluaran berupa pola sebagai hasil interpretasi.
Menurut Even dan Zohar (2002), tahapan mula dari text mining merupakan
pra-proses teks yang bertujuan untuk mempersiapkan teks menjadi data siap untuk
diolah pada tahap berikutnya. Beberapa contoh tindakan yang bisa dilakukan pada
tahap ini, mulai dari tindakan yang bersifat kompleks seperti part-of-speech (pos)
tagging, parse tree, hingga tindakan yang bersifat sederhana seperti proses
parsing pada teks (memecah suatu kalimat menjadi sekumpulan kata). Selain itu
pada tahapan ini biasanya juga dilakukan Case folding, yaitu pengubahan karakter
huruf menjadi huruf rendah.
Proses part-of-speech melakukan parsing terhadap seluruh kalimat dalam
teks kemudian memberikan peran kepada setiap kata, misalnya : petani (subyek)
pergi (predikat) ke (kata hubung) sawah (keterangan). Hasil dari part-of-speech
tagging bisa dipakai untuk parse tree, di mana masing-masing kalimat berdiri
sebagai sebuah pohon mandiri.
Untuk proses parsing sederhana tak dibangun parse tree seperti cara
sebelumnya. Pada proses parsing sederhana sistem akan memecah teks menjadi
Universitas Indonesia
sekumpulan kata-kata, yang kemudian akan dibawa sebagai input untuk tahap
berikutnya pada proses text mining.
Pada tahap ini hasil yang didapat dari pra-proses teks akan mengalami
proses tranformasi. Adapun proses transformasi ini dilakukan dengan mengurangi
jumlah kata-kata yang ada dengan penghilangan stopword dan juga dengan
mengubah kata-kata sesuai kata dasarnya (stemming) (Even dan Zohar, 2002).
Stopword merupakan kata-kata yang bukan adalah ciri (kata unik) dari suatu
dokumen seperti kata sambung, kata kepunyaan. Memperhitungkan stopword
pada transformasi teks akan membuat keseluruhan sistem text mining bergantung
kepada faktor bahasa. Hal ini menjadi kelemahan dari proses penghilangan
stopword, namun proses penghilangan stopword tetap dipakai sebab proses ini
akan sangat mengurangi beban kerja sistem. Dengan menghilangkan stopword
dari suatu teks maka sistem hanya akan memperhitungkan kata-kata yang
dianggap penting.
Stemming merupakan contoh tindakan lain yang bisa dilakukan pada tahap
transformasi teks. Stemming merupakan proses untuk mereduksi kata ke bentuk
dasarnya, sedangkan menurut Tala (2003) Stemming merupakan suatu proses yang
menyediakan suatu pemetaan antara berbagai kata dengan morfologi yang berbeda
menjadi satu bentuk dasar (stem). Kata yang mempunyai bentuk dasar sama
meskipun imbuhannya berbeda seharusnya mempunyai kedekatan arti. Disamping
itu juga, proses Stemming akan sangat mengurangi jumlah dan beban database.
apabila setiap kata disimpan tanpa melalui proses Stemming, maka satu macam
kata dasar saja akan disimpan dengan berbagai macam bentuk yang berbeda
sesuai dengan imbuhan yang mungkin melekatinya. Hal ini sangat berbeda apabila
menerapkan proses Stemming pada tahap ini, satu kata dasar hanya akan disimpan
sekali meskipun mungkin kata dasar tersebut pada sumber data telah berubah dari
bentuk aslinya dan menbisakan berbagai macam imbuhan.
Proses stemming dan penghilangan stopword bisa dipakai secara terpisah
atau bersamaan, di mana dilakukan proses penghilangan stopword terlebih dulu
Universitas Indonesia
yang diikuti dengan proses stemming. Hal ini dilakukan untuk menemukan pola
dari teks dalam data tersebut.
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
bentuk dasar dari kata berimbuhan (Tala, 2003). Dengan kata lain, tak ada
penghilangan atau peleburan kata dasar pada kata berimbuhan.
Struktur derivasional dalam bahasa Indonesia terdiri dari prefiks, sufiks, dan
kombinasi dari keduanya. Prefiks yang sering dipakai merupakan ber-, di-, ke-,
meng-, per-, ter-, dan peng-. Contoh pemakaian prefiks merupakan:
ber + lari berlari
di + ketik diketik
ke + kasih kekasih
meng + antar mengantar
peng + atur pengatur
per + tebal pertebal
ter + baca terbaca
Beberapa prefiks seperti ber-, meng-, peng-, per-, ter- mungkin akan
berubah menjadi beberapa bentuk yang berbeda. Bentuk dari setiap prefiks
bergantung pada karakter pertama dari kata dasar yang dilekatinya. tak seperti
struktur infleksional, pengucapan kata pada struktur infleksional mungkin berubah
setelah adanya penambahan prefiks, seperti contoh kata menyapu yang terdiri
dari prefiks meng- dan kata dasar sapu. Prefiks meng- berubah menjadi meny-
dan huruf pertama dari kata dasar mengalami peleburan.
Sufiks derivasional merupakan -i, -kan, -an (Tala, 2003). Contoh pemakaian
sufiks derivasional merupakan :
gula + i gulai
minum + an minuman
sampai + kan sampaikan
Berbeda dengan pemakaian prefiks, penambahan sufiks tak akan mengubah
bentuk dasar dari suatu kata. Struktur derivasional juga terdiri dari konfliks, yaitu
gabungan sebelumnya, struktur derivasional juga terdiri dari konfiks, yang adalah
gabungan dari prefiks dan sufiks yang melekat secara bersama-sama pada suatu
kata. Misalnya:
per + main + an permainan
ker + kalah + an kekalahan
ber + jatuh + an berjatuhan
Universitas Indonesia
Prefiks atau konfiks bisa ditambahkan pada suatu kata yang sudah terbisa
konfiks atau prefiks, sehingga menghasilkan struktur prefiks ganda. Seperti halnya
pembentukan konfiks, tak semua prefiks atau konfiks bisa ditambahkan pada kata
yang sudah menbisakan prefiks atau konfiks pada pembentukan prefiks ganda ini.
Ada beberapa aturan dalam urutan pembentukan prefiks ganda. Aturan-aturan
tersebut merupakan:
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
kata. Oleh sebab itu, kondisi ukuran dalam proses stemming bahasa Indonesia
merupakan dua. Adapun suku kata didefinisikan mempunyai satu vokal.
Universitas Indonesia
Universitas Indonesia
bahasa. Menurut Liu (2010) dengan adanya bahasa maka bisa terjadi ambigu
dalam pemakaian kata, tak adanya intonasi dalam sebuah data tekstual, serta
perkembangan dari bahasa itu sendiri.
Menurut hasil klasifikasinya, analisis sentimen bisa dibagi dua:
a. Klasifikasi dokumen ke dalam kelas fakta atau opini, atau lebih dikenal
dengan klasifikasi subjektivitas.
b. Klasifikasi dokumen ke dalam kelas sentimen positif atau negatif, yang lebih
dikenal dengan analisis sentimen. Dalam klasifikasi ini, terbisa dua proses
penting yaitu memastikan bahwa dokumen yang dilakukan klasifikasi
merupakan adalah opini dan mengandung sentimen didalamnya, serta
mengetahui topik dari dokumen tersebut sehingga bisa ditentukan obyek dan
fitur apakah positif atau negatif.
Berdasarkan penelitian Liu (2010), kelas sentimen yang dipakai terdiri atas
tiga, yaitu:
1. Sentimen negatif, adalah sentimen untuk tweet yang menjelekkan atau
menghina brand.
2. Sentimen positif, adalah sentimen untuk tweet yang memuji brand.
3. sentimen netral, adalah sentimen untuk tweet yang berisikan kalimat tanya,
tweet promo, atau tweet berita.
Dalam hal ini analisis sentimen dilakukan dengan menentukan terlebih dulu
domain dari dokumen yang akan diproses, hal ini dimaksudkan sebab sentimen
kata dapat berbeda-beda tiap domain. Proses analisis sentimen yang dilakukan
dalam hal ini merupakan:
Identifikasi fitur dari objek yang akan diklasifikasikan.
Contohnya pada kalimat Koneksi 3G operator selular ini kencang sekali,
fitur objek dalam hal ini merupakan koneksi 3G.
Menentukan kelas sentimen dari dokumen berdasarkan fitur yang didapat.
Dari contoh tersebut, fitur yang digunakan untuk identifikasi merupakan
koneksi 3G, selanjutnya dicari opini dalam dokumen yang menyatakan
Universitas Indonesia
Universitas Indonesia
classifier dan Support Vector Machine. Setiap teknik memakai sebuah algoritma
pembelajaran untuk mengidentifikasi model paling sesuai dengan hubungan
antara set atribut dan kelas label dari masukan data.
Untuk mengevaluasi performansi sebuah model yang dibangun oleh
algoritm klasifikasi bisa dilakukan dengan menghitung jumlah dari test record
yang diprediksi secara benar (akurasi) atau salah (error rate) oleh model tersebut.
Akurasi dan error rate didefinisikan sebagai berikut:
Universitas Indonesia
sedikit lebih bagus dengan akurasi 92,5% dibandingkan metode NBC dengan
akurasi 90% padahal metode NBC merupakan metode yang jauh lebih
konvensional dan lebih sederhana. Berdasarkan penelitian tersebut maka penulis
ingin meneliti metode mana yang mempunyai performansi lebih bagus untuk
diimplementasikan dalam analisis sentimen tweet berbahasa Indonesia.
Universitas Indonesia
(2,1)
Persamaan berikut merupakan persamaan akhir yang dipakai dalam
klasifikasi Bayes.
(2,2)
Keterangan:
Universitas Indonesia
(2,3)
Keterangan:
Universitas Indonesia
memisahkan dua buah kelas pada input space. Prinsip dasar SVM merupakan
klasifikasi linear yang selanjutnya dikembangkan supaya bisa bekerja pada
problem non-linear dengan memasukkan konsep kernel trick pada ruang kerja
berdimensi tinggi.
Universitas Indonesia
(2,4)
Di mana dan
Diasumsikan dokumen tersebut dipisahkan secara sempurna ke dalam kelas
-1 dan +1 oleh hyperplane berdimensi d, hal ini bisa didefinisikan:
(2,5)
(2,6)
(2,7)
(2,8)
Universitas Indonesia
2.10 Hermeneutika
Universitas Indonesia
Universitas Indonesia
pengarangnya dan muatan apa yang masuk dan ingin dimasukkan oleh pengarang
ke dalam teks, juga berusaha melahirkan kembali makna tersebut sesuai dengan
situasi saat teks tersebut dibaca atau dimengerti.
Teks yang sama dalam waktu yang sama bisa mempunyai makna yang
berbeda di mata penafsir yang berbeda, bahkan seorang penafsir yang sama
sekalipun bisa memberikan pemaknaan teks yang sama secara berbeda-beda
ketika ia berada dalam ruang dan waktu yang berbeda. Fokus perhatian
hermeneutika di sini sebagai metode penafsiran teks.
Hermeneutika menempatkan bahasa sebagai bagian sangat penting dalam
kajiannya, sebab bahasa dipandang sebagai bagian tak terpisahkan dari kehidupan
manusia. Manusia berpikir, berbicara, menulis, mengapresiasi karya seni dan
sebagainya melalui bahasa (Habermas) sebagaimana dikutip Wolff (1975)
menyatakan bahwa untuk memahami makna hanya dapat didapat melalui
pemahaman bahasa, sedangkan Gadamer dengan jelas dan tegas menyatakan
peran penting bahasa sebagai pusat untuk memahami dan pemahaman manusia,
seperti yang dikutip oleh Ricour (1991).
Dalam perkembangan terkini, hermeneutika dianggap sebagai sebuah
teori, metodologi dan penafsiran praktis, yang digerakkan ke arah penangkapan
makna dari sebuah teks atau sebuah teks analog, yang secara sementara atau
dikaburkan oleh ideologi dan kesadaran palsu, atau secara kultural berjarak jauh.
(Maulidin, 2003). Apapun definisi yang dipakai, upaya hermeneutika bermuara
pada perolehan makna suatu teks atau analog teks.
Pada dasarnya semua objek itu netral, sebab objek merupakan objek.
Makna atau arti diberikan oleh subjek kepada objek, sesuai dengan cara pandang
subjek (Rahardjo, 2008).
Untuk bisa membuat interpretasi, lebih dahulu harus bisa memahami.
Mengerti dan interpretasi menimbulkan lingkaran hermeneutik. Mengerti dengan
Universitas Indonesia
Rapid Miner adalah aplikasi open source untuk data mining dan machine
learning. Apliksi ini bisa dipakai untuk mengambil makna dari kumpulan data.
Ada ratusan operator machine learning yang bisa dipilih, pra pembantu dan
operator pengolahan pasca, visualisasi grafis deskriptif, dan banyak fitur lainnya.
Menurut Bowo Prasetyo, aplikasi ini mempunyai kurva belajar yang curam,
terutama bagi seseorang yang tak mempunyai latar belakang dalam data mining.
Rapid Miner tersedia sebagai aplikasi yang berdiri sendiri untuk analisis
data dan sebagai mesin data mining untuk integrasi ke dalam produk sendiri. telah
Universitas Indonesia
ada ribuan aplikasi Rapid Miner di lebih dari 40 negara yang mampu memberikan
keunggulan kompetitif ke pengguna mereka.
Solusi yang diusung antara lain :
Integrasi data, Data Analisis, Analitis ETL, dan Pelaporan dalam satu suite
tunggal.
Handal namun tetap mempunyai antarmuka pengguna grafis yang intuitif
untuk desain analisis proses.
Repositori untuk proses, data dan penanganan meta data
Sebab metode ini masih tergolong baru maka masih jarang yang
mengimplementasikannya, dan keefektifannya masih belum bisa dibandingkan.
Dari Tabel 2.8 terlihat tingginya nilai akurasi metode NBC yang tinggi,
utamanya apabila contoh data yang dipakai besar (400 dokumen). Hal yang
menarik merupakan akurasi tak menunjukkan peningkatan yang signifikan
meskipun dokumen contoh sudah meningkat banyak dari 70% menjadi 90% serta
akurasi masih relatif tinggi meskipun dokumen contoh secara ekstrim dikurangi
hanya 58 dokumen (10%).
Universitas Indonesia
database terdistribusi baru seperti Hbase atau Cassandra (yang masih belum
tercakup dalam penelitian ini).
Kekurangan lainnya yaitu seputar metode analisis yang dipakai, penelitian
lebih fokus menganalisis bahasa Portugis, tak mendeteksi konten dari tiap tweet.
2.12.5 Text Classification Using Support Vector Machine for Webmining Based
Spation Temporal Analysis of the Spread of Tropical Diseases
Tabel 2.9 tersebut menunjukkan performa yang tak berbeda jauh antara
metode SVM dan NBC meskipun metode NBC merupakan metode yang lebih
konvensional dan lebih sederhana.
Universitas Indonesia
jauh lebih pendek oleh metode NBC dan KNN. Waktu komputasi SVM
berkembang secara kuadratik seiring dengan perkembangan jumlah data latih.
Universitas Indonesia
Universitas Indonesia
penelitian sebab tak ada satu metode yang dapat cocok untuk semua tujuan. Selain
itu pemakaian lebih dari satu metode juga sering dilakukan.
Dari beberapa penelitian di atas belum ditemukan penelitian yang
mengungkap bagaimana analisis sentimen diselesaikan dengan metode SVM.
Untuk perbandingan performansi maka dipakai metode NBC dengan beberapa
variasi jumlah data latih dan data uji. Beberapa penelitian teks mining dalam
bidang kategorisasi teks untuk data berbahasa Indonesia sudah dibahas namun
untuk teks mining dalam bidang sentiment analysis data berbahasa Indonesia
belum dilakukan.
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
Analisis sentimen yang dilakukan pada penelitian ini dibatasi pada topik
mengenai brand teknologi, sehingga pada saat melakukan crawling data memakai
kata kunci berkaitan dengan brand teknologi, antara lain:
telkomsel
esia
axis
smartfren
indosat
xl axiata
Untuk mengakses API twitter, URL yang dipakai merupakan sebagai
berikut: http://search.twitter.com/search.atom?q=katakunci. Data hasil kembalian
dari query tersebut dalam format XML, selanjutnya disimpan data akun dan tweet
ke dalam database.
Adapun kata kunci yang dipakai dalam query merupakan:
a. Positif
telkomsel :), esia :), axis :), smartfren :), indosat :), xl axiata :).
b. Negatif
telkomsel :(, esia :(, axis :(, smartfren :(, indosat :(, xl axiata :(.
Di bawah ini merupakan contoh pemakaian twitter API dengan kata kunci
telkomsel .
URL API yang dimasukkan:
http;//search.twitter.com/search.atom?q=telkomsel+;(
Universitas Indonesia
Kembalian XML:
<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns;google="http;//base.google.com/ns/1.0" xml;lang="en-US"
xmlns;openSearch="http;//a9.com/-/spec/opensearch/1.1/"
xmlns="http;//www.w3.org/2005/Atom"
xmlns;twitter="http;//api.twitter.com/"
xmlns;georss="http;//www.georss.org/georss">
<id>tag;search.twitter.com,2005;search/telkomsel ;(</id>
<link type="text/html"
href="http;//search.twitter.com/search?q=telkomsel+%3A%28"
rel="alternate"/><link type="application/atom+xml"
href="http;//search.twitter.com/search.atom?q=telkomsel+%3A%28"
rel="self"/><title>telkomsel ;( - Twitter Search</title>
<link type="application/opensearchdescription+xml"
href="http;//twitter.com/opensearch.xml" rel="search"/>
<link type="application/atom+xml"
href="http;//search.twitter.com/search.atom?since_id=29194039350594355
2&,q=telkomsel%20%3A%28" rel="refresh"/>
<updated>2013-01-
17T16;09;48Z</updated><openSearch;itemsPerPage>15</openSearch;itemsPer
Page>
<link type="application/atom+xml"
href="http;//search.twitter.com/search.atom?page=2&,max_id=29194039
3505943552&,q=telkomsel%20%3A%28"
rel="next"/><entry><id>tag;search.twitter.com,2005;291940393505943552<
/id><published>2013-01-17T16;09;48Z</published>
<link type="text/html"
href="http;//twitter.com/bibindarawijaya/statuses/291940393505943552"
rel="alternate"/>
<title>@Telkomsel sinyalnya dong please kakak ;(</title><content
type="html">@<,em>,Telkomsel<,/em>, sinyalnya dong please
kakak ;(</content>
<updated>2013-01-17T16;09;48Z</updated><link type="image/png"
href="http;//a0.twimg.com/profile_images/3119657705/9f2ab6350bc1b85736
b66af8831e8af2_normal.jpeg"
rel="image"/><twitter;geo></twitter;geo><twitter;metadata><twitter;res
ult_type>recent</twitter;result_type></twitter;metadata>
<twitter;source><,a
href="http;//twitter.com/download/android">,Twitter for
Android<,/a>,</twitter;source><twitter;lang>tl</twitter;lang>
<author><name>bibindarawijaya (Bintang
Darawijaya)</name><uri>http;//twitter.com/bibindarawijaya</uri></autho
r></entry></feed>
Universitas Indonesia
Dari XML hasil kembalian query tersebut, data yang disimpan ke dalam file
hanyalah data id, title, dan sentiment. Bisa dilihat pada data dibawah ini:
ID ; 291940393505943552
Text ; @Telkomsel sinyalnya dong please kakak ;(
Sentiment ; -1 (negatif)
ini seperti yang dilakukan oleh Ranti (2008). Data yang dikumpulkan dikaji secara
kualitatif berdasarkan metode hermeneutika oleh lebih dari satu orang supaya
dapat dibandingkan.
Data Tweet
Pra-proses
Model
Klasifikasi
Sentimen Sentimen
Positif Negatif
Data yang dibutuhkan untuk proses klasifikasi ini terdiri dari data
pembelajaran dan data validasi. Sebelum dilakukan proses pembelajaran,
dilakukan pra-proses pada data korpus (tweet).
Universitas Indonesia
3.2.1 Pra-Proses
1) Cleansing
Proses Cleansing merupakan proses membersihkan tweet dari kata-kata
yang tak diperlukan untuk mengurangi noise pada proses klasifikasi. Adapun kata-
kata yang dihilangkan antara lain:
Username twitter (@username)
Hashtag twitter (#)
Kata kunci pencarian (telkomsel, indosat, dll)
Ikon emosi (:), :( )
HTML karakter (<, >, dll)
Alamat situs (url) (http://situs.com)
Alamat email (nama@situs.com)
2) Stopwords
Stopwords merupakan kata-kata yang sangat umum yang biasanya hanya
sedikit pengaruhnya di dalam suatu teks, seperti dan, tetapi, dll. Kata-kata
yang terkandung pada daftar stopwords dihilangkan. Daftar stopwords terlampir
pada lampiran.
Universitas Indonesia
3) Singkatan
Singkatan seperti lmbt diubah menjadi lambat, kualitas data hasil
klasifikasi sangat tergantung pada jumlah singkatan yang dimasukkan pada daftar
singkatan.
4) Case folding
Case folding merupakan proses pengubahan semua huruf dalam tweet
menjadi huruf rendah (huruf 'a' sampai dengan huruf 'z). Karakter selain huruf
akan dihilangkan sebab dianggap sebagai delimiter.
Universitas Indonesia
2) Stemming
Proses stemming merupakan proses mengembalikan kata-kata yang sudah
diproses pada tahap sebelumnya menjadi kata dasar. Proses ini akan mengurangi
variasi kata yang sebenarnya mempunyai variasi sama. Adapun variasi imbuhan
dalam hal ini antara lain :
a) Prefiks (awalan)
b) Sufiks (akhiran)
c) Infiks (sisipan)
d) Konfiks (kombinasi mulaan dan akhiran)
Secara umum dibawah ini merupakan urutan penggunaan imbuhan sebagai
inflections dan derivations.
Seperti pada proses POS Taggger, proses stemming dilakukan dengan
memakai bantuan Kamus Besar Bahasa Indonesia (KBBI).
3.2.3 Pembobotan
Universitas Indonesia
Universitas Indonesia
Proses klasifikasi memakai metode SVM dan NBC. SVM adalah salah satu
metode learning untuk melakukan klasifikasi ke dalam dua kelas. Pada penelitian
ini input yang dipakai merupakan data latih, dinyatakan dengan S.
(3,1)
Di mana:
Tweet
Sentimen
Keluaran yang diharapkan merupakan:
Pengklasifikasian f:X -> {-1,1}
3.2.5 Evaluasi
Dari data confusion matrix di atas terlihat bahwa proses klasifikasi dari
dilakukan terhadap 200 data, terdiri dari 100 data sentimen positif dan 100 data
sentimen negatif. Dari hasil klasifikasi dibisa bahwa dari 100 sentimen positif
diklasifikasikan oleh SVM menjadi 65 data sentimen negatif dan 35 sentimen
positif. Dari 100 sentimen negatif diklasifikasikan oleh SVM menjadi 40 sentimen
negatif dan 60 sentimen positif, total terbisa 75 data yang salah dari proses
klasifikasi, sehingga persentase kebenaran dari SVM sebesar 62.5%.
Universitas Indonesia
Universitas Indonesia
Sudah lebih dari 400.000 tweet dikirimkan per kuartal pada tahun 2007.
Kemudian pada tahun 2008 berkembang menjadi 100 juta tweet per kuartal. Pada
akhir tahun 2009, 2 miliar tweet per kuartal sudah terkirimkan. Pada kuartal
pertama tahun 2010, 4 miliar tweet yang dikirimkan. Pada bulan Februari 2010
pengguna Twitter mengirimkan 50 juta per hari. Pada Juni 2010, sekitar 65 juta
tweet yang dikirimkan setiap hari, setara dengan sekitar 750 tweet dikirim setiap
detik, menurut Twitter.com.
Pengguna Twitter akan menjadi lebih aktif ketika ada kejadian-kejadian
penting. Contohnya, rekor diciptakan pada Piala Dunia 2010, ketika penggemar
menulis 2940 tweet per detik di kedua periode 30 setelah Jepang mencetak gol
melawan Kamerun pada tanggal 14 Juni 2010. Rekor dipatahkan lagi ketika
penyanyi Michael Jackson meninggal dunia pada tanggal 25 Juni 2009, server
57 Universitas Indonesia
Universitas Indonesia
sebagai wadah berkumpulnya para fans artis. Dengan begitu para pengikut akun
selebritis tersebut dapat memantau berita terbaru dari sang artis.
Universitas Indonesia
Selain melihat jumlah pengguna Twitter yang unik di seluruh dunia, penulis
juga menjelajahi geografis break-down berdasarkan jumlah tweet untuk
menentukan apakah ada perbedaan antara keduanya.
Gambar 4.4 di bawah ini menunjukkan kota-kota terkemuka dengan jumlah
tweet-
Universitas Indonesia
nya.
Universitas Indonesia
63 Universitas Indonesia
import java.util.ArrayList,
import com.cybozu.labs.langdetect.Detector,
import com.cybozu.labs.langdetect.DetectorFactory,
import com.cybozu.labs.langdetect.Language,
class LangDetectSample {
public void init(String profileDirectory) throws
LangDetectException {
DetectorFactory.loadProfile(profileDirectory),
}
public String detect(String text) throws
LangDetectException {
Detector detector = DetectorFactory.create(),
detector.append(text),
return detector.detect(),
}
public ArrayList<Language> detectLangs(String text) throws
LangDetectException {
Detector detector = DetectorFactory.create(),
detector.append(text),
return detector.getProbabilities(), }
Menurut Trauth (2001), pandangan interpretasi dan analisis dari suatu data
kualitatif merupakan mengerti kenapa suatu informasi diceritakan dan bagaimana
mekanisme untuk mengklasifikasikan konteks tersebut.
Oleh sebab itu proses klasifikasi manual dilakukan lebih dari sekali oleh 2
orang untuk meningkatkan kualitas hasil pengklasifikasian, yaitu penulis sendiri
dan seorang rekan yang bekerja di sebuah perusahaan telekomunikasi bernama
Andika Rahmawati (andika.rahmawati@axisworld.co.id).
Hasil dari klasifikasi manual ini nantinya dipakai untuk proses evaluasi
sehingga dibisa hasil berupa tingkat akurasi memakai metode klasifikasi machine
learning (SVM dan NBC).
Universitas Indonesia
5.2.1 Pra-Proses
Twitter adalah aplikasi micro-blogging yang terbatas pada 140 karakter saja,
namun seringkali tweet yang ditulis adalah padanan dari kata-kata tak baku,
penggabungan dengan bahasa asing, karakter angka dan huruf atau terbisa
kesalahan penulisan kata. Hal ini mempengaruhi dimensi vector space model dan
membuat isi tweet tak dipahami oleh sistem.
Oleh sebabnya tahapan selanjutnya merupakan melakukan pra-proses
terhadap data tweet yang telah dibisa. Pra-proses memakai aplikasi java, dengan
kegiatan cleansing, case folding.
Universitas Indonesia
label yang dipakai untuk tiap-tiap kumpulan data dan deskripsinya. Sesuai dengan
penelitian Bing Liu (2010), jenis kata yang akan dipakai meliputi kata benda, kata
kerja, kata sifat, dan kata keterangan, sebab keempat jenis kata ini adalah jenis
kata yang paling banyak mengandung sentimen
Data berikut merupakan contoh data dari tiap-tiap kumpulan data yang
dipakai.
1) Kumpulan data: TwAsl
Universitas Indonesia
adj adj n v n
n adj p v p adj
v n
adv adj adv v
v v adj p n
adj adj n v n
n adj p v p adj
v n
adv adj adv v
v v adj p n
4) Kumpulan data:
TwKmsKls
adj adj n v n
n adj v adj
v n
adv adj adv v
v v adj n
Universitas Indonesia
adj adj n v n
n adj v adj
v n
adv adj adv v
v v adj n
5.2.3 Pembobotan
TwAsl 1.54
TwKms 1.37
TwKmsDsr 1.28
TwKmsKls 1.15
TwKmsKlsDsr 1.12
Universitas Indonesia
merupakan dengan memakai metode Nave Bayes classifier dan metode Support
Vector Machine.
Pada pengujian ini, data yang dipakai merupakan data tweet hasil crawling
yang tersimpan dalam file XML, kemudian dilakukan pra-proses oleh sistem yang
dikembangkan antara lain Stopwords, POS Tagger, dan Stemming. Kemudian
proses selanjutnya merupakan mengkonversi data menjadi dokumen dengan
proses document from data. Proses selanjutnya merupakan menentukan field mana
yang akan dijadikan sebagai kelas dengan memakai proses set role. Selanjutnya,
tahap akhir merupakan tahap pengujian dengan memakai proses validation. Untuk
lebih jelas, keseluruhan proses pengujian dengan perangkat lunak Rapid Miner
bisa dilihat di Gambar 5.1.
Universitas Indonesia
Data hasil klasifikasi memakai SVM dengan 2 kali iterasi bisa dilihat pada
tabel berikut:
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
Hasil dari klasifikasi SVM dengan polykernel di mana e=1 dibisa hasil
klasifikasi bahwa pemakaian kumpulan data TwKmsKlsDsr mempunyai
presentase rata-rata kebenaran yang lebih bagus dibandingkan kumpulan data
lainnya, yaitu sebesar 77.09% (bisa dilihat pada Gambar 5.4).
Untuk klasifikasi SVM dengan memakai polykernel dimana e=2, nilai rata-
rata persentase kebenaran klasifikasi paling bagus merupakan memakai kumpulan
data TwKmsDsr, yaitu sebesar 72,59% (bisa dilihat pada Gambar 5.5).
Universitas Indonesia
Universitas Indonesia
Tabel 5.8 adalah rata-rata hasil klasifikasi memakai SVM dari beberapa
macam kernel yang dipakai dan sebagai pembanding klasifikasi memakai metode
Nave Bayes.
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
Universitas Indonesia
Kedua pengujian menunjukkan hasil akurasi yang kurang lebih sama, hal ini
dikarenakan sebab selisih beda hasil pengklasifikasian manual yang terjadi hanya
sedikit (kurang dari 1%).
Dari kesemua hasil klasifikasi rata-rata presentase benar bisa dilihat pada
Gambar 5.13. Kumpulan data TwKmsDsr dengan memakai klasifikasi SVM
mempunyai nilai rata-rata persentase benar paling besar, sejumlah 74,80%,
sedangkan klasifikasi dengan memakai Nave Bayes, kumpulan data TwAsl
mempunyai rata-rata persentase benar paling besar sebesar 68,34%. Nilai tersebut
masih kalah dibanding dengan presentase benar tekecil untuk klasifikasi
menggunaikan SVM, yaitu dengan kumpulan data TwAsl sebesar 73,05%.
Hal ini menunjukkan bahwa metode SVM mampu menjanjikan nilai
kebenaran yang lebih bagus dalam melakukan analisis sentimen untuk tweet
berbahasa Indonesia dibandingkan dengan Nave Bayes.
Pada dasarnya, hasil analisis sentimen dengan memakai isi tweet ini bisa
dilakukan pada semua jenis produk/layanan.
Universitas Indonesia
6.1 Kesimpulan
81 Universitas Indonesia
sebesar 66,31% dan menghasilkan nilai akurasi tertinggi sebesar 68,34% pada
proses pengujian dengan memakai sampel sebesar 200.
Hasil pengujian akurasi dengan memakai perangkat lunak Rapid Miner
dengan metode Support Vector Machine menghasilkan nilai akurasi terrendah
sebesar 73,05% dan menghasilkan nilai akurasi tertinggi sebesar 74,80% pada
proses pengujian dengan memakai sampel sebesar 200.
Pada klasifikasi dengan memakai perangkat lunak Rapid Miner maka bisa
disimpulkan bahwa nilai akurasi metode Support Vector Machine lebih bagus
daripada nilai akurasi metode Nave Bayes Classifier.
6.2 Saran
Universitas Indonesia
Ahkter, Kane Julie and Soria, Steven. (2010). Sentiment Analysis: Facebook
Status Messages.
Andreas Kaplin M and Michael Haenlein. (2009). Users of the world, unite! The
challenges and opportunities of social media, Elsevier Inc.
83 Universitas Indonesia
Han, Jia Wei and Micheline Kamber. (2006). Data mining Concepts and
Techniques, 2nd ed. San Francisco, California, USA: Morgan Kauffman.
Johan Bollen, Alberto Pepe, Huina Mao. (2009). Modeling public mood and
emotion: Twitter sentiment and socioeconomic phenomena.
Lei Zhang, Riddhiman Ghosh, Mohamed Dekhil, Meichun Hsu, and Bing Liu.
(2010). Combining Lexicon-based and Learning-based Methods for Twitter
Sentiment.
Milstei, Sarah and Tim OReilly. (2009). The Twitter Book. USA: OReilly
Media Inc.
Universitas Indonesia
Pang, B., Lee, L., Vaithyanathan, S. (2002). Thumbs up? Sentiment classification
using machine learning techniques. In: Proceedings of the 2001 Conference on
Empirical Methods in Natural Language Processing (EMNLP).
Taras Zagibalov and John Caroll. (2008). Automatic Seed Word for Unsupervised
Sentiment Classification of Chinese Text, International Conference on
Computational Linguistics (COLING).
Universitas Indonesia
Yessenov, Kuat and Misailovic, Sasa. (2009). Sentiment Analysis of Movie Review
Comments. 6863 Spring final project.
Universitas Indonesia
sebab, tersebut, dapat, ada, mereka, lebih, kata, tahun, sudah, atau, saat, oleh,
yang, di, dan, itu, dengan, untuk, ini, dari, dalam, akan, pada, juga, saya, ke,
menjadi, orang, ia, telah, merupakan, seperti, sebagai, bahwa, bisa, para, harus,
namun, kita, masih, hari, hanya, mengatakan, kepada, kami, setelah, melakukan,
lalu, belum, lain, dia, kalau, terjadi, banyak, menurut, anda, hingga, tak, baru,
beberapa, ketika, saja, jalan, sekitar, secara, dilakukan, sementara, tapi, sangat,
hal, sehingga, seorang, bagi, besar, lagi, selama, antara, waktu, sebuah, jika,
sampai, jadi, terhadap, tiga, serta, pun, salah, adalah, atas, sejak, membuat, bagus,
mempunyai, kembali, selain, tetapi, memang, pernah, apa, mulai, sama, tentang,
supaya, semua, sedang, kali, kemudian, hasil, sejumlah, juta, persen, sendiri,
katanya, demikian, masalah, mungkin, umum, setiap, bulan, bagian, bila, lainnya,
terus, luar, cukup, termasuk, sebelumnya, bahkan, wib, tempat, perlu, memakai,
memberikan, sedangkan, langsung, apakah, pihak, melalui, diri, mencapai, aku,
berada, tinggi, ingin, sebelum, tengah, kini, tahu, bersama, depan, begitu, merasa,
berbagai, mengenai, maka, jumlah, masuk, katanya, mengalami, sering, ujar,
kondisi, akibat, hubungan, paling, menbisakan, selalu, meminta, melihat, saat ini,
mengaku, mau, kerja, acara, menyatakan, masa, proses, tanpa, selatan, sempat,
adanya, hidup, datang, rasa, maupun, seluruh, mantan, lama, jenis, segera,
misalnya, menbisa, bawah, jangan, walau, terlihat, akhirnya, punya, yakni,
terakhir, rendah, panjang, badan, jelas, jauh, tentu, semakin, tinggal, kurang,
mampu, posisi, asal, sekali, sesuai, sebesar, berat, dirinya, memberi, pagi,
ternyata, mencari, sumber, ruang, menunjukkan, biasanya, nama, sebesar, utara,
berlangsung, barat, kemungkinan, yaitu, berdasarkan, sebenarnya, cara, utama,
pekan, terlalu, kebutuhan, suatu, menerima, penting, tanggal, bagaimana,
terutama, tingkat, mula, sedikit, nanti, pasti, muncul, dekat, lanjut, biasa, dulu,
kesempatan, ribu, akhir, membantu, terkait, karena, menyebabkan, khusus,
bentuk, ditemukan, diduga, mana, ya, kegiatan, sebagian, tampil, hampir, bertemu,
usai, berarti, keluar, pula, dipakai, justru, padahal, menyebutkan, apalagi,
program, milik, teman, keputusan, sumber, upaya, mengetahui, benar, lewat,
belakang, ikut, barang, kejadian, kehidupan, keterangan, pemakaian, masing-
masing
87 Universitas Indonesia
88 Universitas Indonesia