Analisa Sentimen Pada Twitter Terhadap Transjakarta

ANALISA SENTIMEN PADA TWITTER
TERHADAP TRANSJAKARTA
Sylviana Nur Azizah 1260056
Fithrotin Maulidiyah 12650059
Aldilla Qurrota Ayun 12650090
Latar Belakang
Transportasi umum merupakan salah satu media yang digunakan

masyarakat secara bersama-sama untuk mencapai tempat tujuan.
Transportasi umum khususnya transportasi darat masih banyak
digunakan oleh masyarakat baik di kota kecil maupun kota besar
terutama transportasi darat.Salah satu transportasi darat yang sering
digunakan di Indonesia adalah bus.
Transjakarta merupakan salah satu transportasi umum darat yang

tersedia di Jakarta. Transjakarta umumnya disebutBuswayadalah
sebuah sistem transportasiBus Rapid Transit (BRT)pertama diAsia
Tenggaradan
Selatan,
yang
beroperasi
sejak
tahun2004diJakarta,Indonesia.
Twitter adalah situs web dimiliki dan dioperasikan oleh Twitter, Inc.,
yang menawarkan jaringan sosial berupa microblog. Disebut
microblog karena situs ini memungkinkan penggunanya mengirim dan
membaca pesan blog seperti pada umumnya namun terbatas hanya
sejumlah 140 karakter yang ditampilkan pada halaman profil
pengguna.
Analisis sentimen, yang disebut juga dengan opinion mining,

merupakan salah satu cabang ilmu dari data mining yang bertujuan
untuk menganalisis, memahami, mengolah, dan mengekstrak data
tekstual yang berupa opini terhadap entitas seperti produk, servis,
organisasi, individu, dan topik tertentu
Identifikasi Masalah
Apakah sistem yang dibangun dapat sentiment positif dan negative dari masyarakat?
Seberapa besar tingkat keakurasian sistem yang dibangun?
Tujuan
Mengetahui sentiment positif dan negative dari masyarakat terhadap Transjakarta.
Mengetahui tingkat keakurasian sistem yang akan dibangun
Manfaat Penelitian
Dapat mengetahui opini dan sentiment masyarakat terhadap Transjakarta.
Dapat membantu pemerintah untuk memperbaiki masalah yang ada pada

Transjakarta melalui opini masyarakat.
Batasan Masalah
Nilai klasifikasi hanya berfokus pada klasifikasi positif dan negative dari masyarakat
terhadap Transjakarta.
Metode
Teknik relevance feedback ditemukan pertama kali oleh Rocchio.

Rocchio memandang feedback sebagai permasalahan mencari sebuah
query optimal, yaitu query yang memaksimalkan selisih antara
dokumen relevan dengan dokumen tak relevan. Relevance feedback
berguna untuk mendekatkan query ke rataan dokumen relevan dan
menjauhkan dari rataan dokumen tak relevan. Ini bisa dilakukan
melalui penambahan istilah query dan penyesuaian bobot istilah
query sehingga sesuai dengan kegunaan istilah tersebut dalam
fungsinya membedakan dokumen relevan dan tak relevan
Skema Aplikasi
Tahapan text preprocessing pada penelitian ini diantaranya :
1. Menghapus URL
URL (http://www.situs.com) dan email (nama@situs.com) dihapus di

tahapan ini.
2. Mengganti Emoticon
Proses convert emoticon mengganti emoticon yang terdapat pada

tweet dengan kata yang mencerminkan emoticon.
3. Cleansing
Proses ini dilakukan dengan menghapus karakter khusus Twitter seperti

hashtag (#hashtag), username (@username), dan karakter khusus
(misal : RT, yang menunjukkan bahwa user melakukan retweet).
4. Case Folding
Proses case folding menyeragamkan bentuk huruf menjadi huruf besar

atau huruf kecil.
5. Mengganti Kata Tidak Baku (Slangword)
Proses ini mengganti kata-kata dalam tweet yang tidak baku menjadi
kata baku yang telah dikenal dalam bahasa Indonesia.
6. Tokenisasi
Tokenisasi yaitu tahap pemotongan string input berdasarkan kata yang

menyusunnya (Nugroho, 2011).
7. Convert Negasi
Proses ini dilakukan untuk mendeteksi negasi yang terdapat dalam

tweet.
8. Stopword Removal
Stopword merupakan kata-kata yang tidak berpengaruh terhadap proses

klasifikasi.
9. Stemming
Stemming adalah tahap mencari akar kata dengan menghilangkan

imb
Proses selanjutnya adalah Pembobotan. Proses ini bertujuan

untuk mengetahui jumlah kemunculan kata dalam dokumen, sehingga
dokumen dapat direpresentasikan dalam vektor.uhan pada sebuah
kata. Fitur pembobotan yang digunakan yaitu metode pembobotan
Term Frequency-Inverse Document Frequency (TF-IDF).
Term Frequency (TF)

Jika suatu term terdapat dalam suatu dokumen sebanyak 5
kali maka diperoleh bobot = 1 + log (5) =1.699. Tetapi jika
term tidak terdapat dalam dokumen tersebut, bobotnya
adalah nol.
Inverse Document Frequency (Idf)

Idf berfungsi mengurangi bobot suatu term jika kemunculannya banyak
tersebar di seluruh koleksi dokumen kita. Rumusnya adalah dengan
inverse document frequency. Document frequency adalah seberapa
banyak suatu term muncul di seluruh document yang diselidiki.
Keterangan:
idf : nilai inverse document frequency ;
n : jumlah dokumen di dalam koleksi;
df: nilai document frequency
TF-IDF
Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan
menggunakan perkalian nilai tf dan idf menunjukkan bahwa deskripsi
terbaik dari dokumen adalah term yang banyak muncul dalam dokumen
tersebut dan sangat sedikit muncul pada dokumen yang lain. Perhitungan
bobot term adalah sebagai berikut
Keterangan:
: nilai bobot term ;
tf : nilai term frequency
idf : nilai inverse document frequency.
Proses selanjutnya menghitung tingkat kemiripan term pada dokumen

yang dicari dapat dituliskan pada persamaan Rocchio relevance
feedback berikut ini:
Keterangan :
R : Tingkat kemiripan term ;
N : Jumlah term tiap dokumen ;
: nilai bobot term ;
Dp : Term dari dokumen relevan ;
Np : Jumlah dokumen relevan ;
Dn : Term dari dokumen tak relevan ;
Nn : Jumlah dokumen tak relevan.
Komponen Aplikasi
Perangkat keras seperti komputer diperlukan untuk menjalankan

perangkat-perangkat lunak yang mendukung pengembangan aplikasi
Perangkat lunak menggunakan Ms Excel.
Program menggunakan bahasa Python dalam crawling dan Java dalam

pembuatan aplikasi
Data, yang terdiri atas libraries dari media sosial yaitu twitter
Hasil dan Pembahasan
Crawling
Hasil crawling disimpan

dalam bentuk csv sebagai
data uji
Pemasukan data latih

pada database
Preprocessing data latih

dan data uji
Data uji
relevan data
latih?
Menghitung tingkat
kemiripan data uji pada
semua data latih
Pembobotan data latih

dan data uji
Tidak
Data uji = negatif
Ya
Data uji = Positif
Contoh Query data uji: Transjakarta banyak yang rusak

Setelah dilakukan preprocessing maka menjadi:
Transjakarta | rusak
TF
IDF
Term
ahok
D1(Dokumen 1)
1
D2
0
D3
1
D4
0
Term
ahok
DF
2
guna
guna
transjakart
a
sarana
transjakart
a
sarana
citra
citra
IDF
0.30103
0.60206
0
1
0.60206
0.60206
baru
baru
tabrak
tabrak
kopaja
kopaja
mampang
mampang
rubah
direksi
0
0
0
0
1
1
0
0
rubah
direksi
1
1
tahun
tahun
depan
depan
bus
bus
rusak
rusak
0.60206
0.60206
0.60206
0.60206
0.6026
0.60206
0.60206
0.60206
0.60206
0.60206
sebal
sebal
lewat
lewat
0.60206
0.60206
TF.IDF
Term
D1
D2
D3
D4
IDF
D1
D2
D3
D4
ahok
0.30103
0.30103
0.30103
guna
0.60206
0.60206
transjakarta
sarana
0.60206
0.60206
citra
0.60206
0.60206
baru
0.6026
0.6026
tabrak
0.60206
0.60206
kopaja
0.60206
0.60206
mampang
0.60206
0.60206
rubah
0.60206
0.60206
direksi
0.60206
0.60206
tahun
0.60206
0.60206
depan
0.60206
0.60206
bus
0.60206
0.60206
rusak
0.60206
0.60206
0.60206
sebal
0.60206
0.60206
lewat
0.60206
0.60206
SUM
2.10721
2.40878
2.70927
2.40824
Teknik Rocchio Reelevance Feedback
R1=4+2.10721((1/5)-(4/16))= 3.894
R2=4+2.40878((1/5)-(4/16))=3.879
R3=4+2.70927((1/5)-(5/16))=3.695
R4=4+2.40824((2/5)-(3/16))=4.511
Jadi, dokumen 4 adalah yang paling mirip dengan query data uji. Dimana dalam
data latih tersebut telah diketahui sentimen masing-masing dokumen. Sehingga
hasil data uji yang paling mirip dengan data latih tersebut akan bernilai sama
dengan sentimen pada data latih. Pada contoh tersebut, dokumen 4 adalah
merupakan data latih yang mempunyai klasifikasi sentimen negative. Sehingga
query tersebut dikelompokkan menjadi sentimen negative.
Menguji Tingkat Akurasi Sistem
Tabel berikut menunjukkan keakurasian aplikasi yang dibangun dengan jumlah

data latih negative, data latih positif, dan data uji yang berbeda. Rumus yang
digunakan untuk menghitung keakurasian aplikasi ini adalah sebagai berikut:
Akurasi = (Jumlah data benar/Jumlah data )* 100%

Data Latih
Negatif
Data Latih Positif
Data Uji
Akurasi
15
100%
24
11
100%
24
11
23
83%
No
Nilai keakurasian aplikasi didasarkan pada banyaknya jumlah data latih

negative, data latih positif, dan data uji.
Kesimpulan
Berdasarkan hasil penelitian dapat disimpulkan bahwa aplikasi yang
dibangun dapat mengetahui sentimen positif dan negative dari
masyarakat. Namun dari beberapa kali pengujian dapat disimpulkan
bahwa semakin banyak data uji maka klasifikasi sentiment yang
dihasilkan semakin tidak akurat dikarenakan jumlah data latih yang
masih terbatas.
Saran
Diharapkan adanya penelitian lebih lanjut tentang analisa
sentimen twitter dengan mengembangkan Proses Stemming
serta menambah kamus slang dan menambah data latih pada
aplikasi. Serta diharapkan adanya pengklasifikasian dengan
menunjukkan factor opini pada data tweet sehingga dapat
memudahkan pemerintah dalam memperbaiki kinerja
Transjakarta.

Analisa Sentimen Pada Twitter Terhadap Transjakarta

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisa Sentimen Pada Twitter Terhadap Transjakarta

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISA SENTIMEN PADA TWITTER

Transportasi umum merupakan salah satu media yang digunakan

Transjakarta merupakan salah satu transportasi umum darat yang

Analisis sentimen, yang disebut juga dengan opinion mining,

Seberapa besar tingkat keakurasian sistem yang dibangun?

Mengetahui sentiment positif dan negative dari masyarakat terhadap Transjakarta.

Mengetahui tingkat keakurasian sistem yang akan dibangun

Dapat mengetahui opini dan sentiment masyarakat terhadap Transjakarta.

Dapat membantu pemerintah untuk memperbaiki masalah yang ada pada

Teknik relevance feedback ditemukan pertama kali oleh Rocchio.

Tahapan text preprocessing pada penelitian ini diantaranya :

URL (http://www.situs.com) dan email (nama@situs.com) dihapus di

Proses convert emoticon mengganti emoticon yang terdapat pada

Proses ini dilakukan dengan menghapus karakter khusus Twitter seperti

Proses case folding menyeragamkan bentuk huruf menjadi huruf besar

5. Mengganti Kata Tidak Baku (Slangword)

Tokenisasi yaitu tahap pemotongan string input berdasarkan kata yang

Proses ini dilakukan untuk mendeteksi negasi yang terdapat dalam

Stopword merupakan kata-kata yang tidak berpengaruh terhadap proses

Stemming adalah tahap mencari akar kata dengan menghilangkan

Proses selanjutnya adalah Pembobotan. Proses ini bertujuan

Term Frequency (TF)

Inverse Document Frequency (Idf)

idf : nilai inverse document frequency ;

n : jumlah dokumen di dalam koleksi;

df: nilai document frequency

: nilai bobot term ;

tf : nilai term frequency

idf : nilai inverse document frequency.

Proses selanjutnya menghitung tingkat kemiripan term pada dokumen

R : Tingkat kemiripan term ;

N : Jumlah term tiap dokumen ;

: nilai bobot term ;

Dp : Term dari dokumen relevan ;

Np : Jumlah dokumen relevan ;

Dn : Term dari dokumen tak relevan ;

Nn : Jumlah dokumen tak relevan.

Perangkat keras seperti komputer diperlukan untuk menjalankan

Perangkat lunak menggunakan Ms Excel.

Program menggunakan bahasa Python dalam crawling dan Java dalam

Hasil dan Pembahasan

Hasil crawling disimpan

Pemasukan data latih

Preprocessing data latih

Pembobotan data latih

Data uji = Positif

Contoh Query data uji: Transjakarta banyak yang rusak

Teknik Rocchio Reelevance Feedback

Menguji Tingkat Akurasi Sistem

Tabel berikut menunjukkan keakurasian aplikasi yang dibangun dengan jumlah

Akurasi = (Jumlah data benar/Jumlah data )* 100%

Data Latih Positif

Nilai keakurasian aplikasi didasarkan pada banyaknya jumlah data latih

Anda mungkin juga menyukai