Anda di halaman 1dari 24

ANALISA SENTIMEN PADA TWITTER

TERHADAP TRANSJAKARTA
Sylviana Nur Azizah 1260056
Fithrotin Maulidiyah 12650059
Aldilla Qurrota Ayun 12650090

Latar Belakang

Transportasi umum merupakan salah satu media yang digunakan


masyarakat secara bersama-sama untuk mencapai tempat tujuan.
Transportasi umum khususnya transportasi darat masih banyak
digunakan oleh masyarakat baik di kota kecil maupun kota besar
terutama transportasi darat.Salah satu transportasi darat yang sering
digunakan di Indonesia adalah bus.

Transjakarta merupakan salah satu transportasi umum darat yang


tersedia di Jakarta. Transjakarta umumnya disebutBuswayadalah
sebuah sistem transportasiBus Rapid Transit (BRT)pertama diAsia
Tenggaradan
Selatan,
yang
beroperasi
sejak
tahun2004diJakarta,Indonesia.

Twitter adalah situs web dimiliki dan dioperasikan oleh Twitter, Inc.,
yang menawarkan jaringan sosial berupa microblog. Disebut
microblog karena situs ini memungkinkan penggunanya mengirim dan
membaca pesan blog seperti pada umumnya namun terbatas hanya
sejumlah 140 karakter yang ditampilkan pada halaman profil
pengguna.

Analisis sentimen, yang disebut juga dengan opinion mining,


merupakan salah satu cabang ilmu dari data mining yang bertujuan
untuk menganalisis, memahami, mengolah, dan mengekstrak data
tekstual yang berupa opini terhadap entitas seperti produk, servis,
organisasi, individu, dan topik tertentu

Identifikasi Masalah

Apakah sistem yang dibangun dapat sentiment positif dan negative dari masyarakat?

Seberapa besar tingkat keakurasian sistem yang dibangun?

Tujuan

Mengetahui sentiment positif dan negative dari masyarakat terhadap Transjakarta.

Mengetahui tingkat keakurasian sistem yang akan dibangun

Manfaat Penelitian

Dapat mengetahui opini dan sentiment masyarakat terhadap Transjakarta.

Dapat membantu pemerintah untuk memperbaiki masalah yang ada pada


Transjakarta melalui opini masyarakat.

Batasan Masalah

Nilai klasifikasi hanya berfokus pada klasifikasi positif dan negative dari masyarakat
terhadap Transjakarta.

Metode

Teknik relevance feedback ditemukan pertama kali oleh Rocchio.


Rocchio memandang feedback sebagai permasalahan mencari sebuah
query optimal, yaitu query yang memaksimalkan selisih antara
dokumen relevan dengan dokumen tak relevan. Relevance feedback
berguna untuk mendekatkan query ke rataan dokumen relevan dan
menjauhkan dari rataan dokumen tak relevan. Ini bisa dilakukan
melalui penambahan istilah query dan penyesuaian bobot istilah
query sehingga sesuai dengan kegunaan istilah tersebut dalam
fungsinya membedakan dokumen relevan dan tak relevan

Skema Aplikasi

Tahapan text preprocessing pada penelitian ini diantaranya :

1. Menghapus URL

URL (http://www.situs.com) dan email (nama@situs.com) dihapus di


tahapan ini.

2. Mengganti Emoticon

Proses convert emoticon mengganti emoticon yang terdapat pada


tweet dengan kata yang mencerminkan emoticon.

3. Cleansing

Proses ini dilakukan dengan menghapus karakter khusus Twitter seperti


hashtag (#hashtag), username (@username), dan karakter khusus
(misal : RT, yang menunjukkan bahwa user melakukan retweet).

4. Case Folding

Proses case folding menyeragamkan bentuk huruf menjadi huruf besar


atau huruf kecil.

5. Mengganti Kata Tidak Baku (Slangword)

Proses ini mengganti kata-kata dalam tweet yang tidak baku menjadi
kata baku yang telah dikenal dalam bahasa Indonesia.

6. Tokenisasi

Tokenisasi yaitu tahap pemotongan string input berdasarkan kata yang


menyusunnya (Nugroho, 2011).

7. Convert Negasi

Proses ini dilakukan untuk mendeteksi negasi yang terdapat dalam


tweet.

8. Stopword Removal

Stopword merupakan kata-kata yang tidak berpengaruh terhadap proses


klasifikasi.

9. Stemming

Stemming adalah tahap mencari akar kata dengan menghilangkan


imb

Proses selanjutnya adalah Pembobotan. Proses ini bertujuan


untuk mengetahui jumlah kemunculan kata dalam dokumen, sehingga
dokumen dapat direpresentasikan dalam vektor.uhan pada sebuah
kata. Fitur pembobotan yang digunakan yaitu metode pembobotan
Term Frequency-Inverse Document Frequency (TF-IDF).

Term Frequency (TF)


Jika suatu term terdapat dalam suatu dokumen sebanyak 5
kali maka diperoleh bobot = 1 + log (5) =1.699. Tetapi jika
term tidak terdapat dalam dokumen tersebut, bobotnya
adalah nol.

Inverse Document Frequency (Idf)


Idf berfungsi mengurangi bobot suatu term jika kemunculannya banyak
tersebar di seluruh koleksi dokumen kita. Rumusnya adalah dengan
inverse document frequency. Document frequency adalah seberapa
banyak suatu term muncul di seluruh document yang diselidiki.
Keterangan:

idf : nilai inverse document frequency ;

n : jumlah dokumen di dalam koleksi;

df: nilai document frequency

TF-IDF
Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan
menggunakan perkalian nilai tf dan idf menunjukkan bahwa deskripsi
terbaik dari dokumen adalah term yang banyak muncul dalam dokumen
tersebut dan sangat sedikit muncul pada dokumen yang lain. Perhitungan
bobot term adalah sebagai berikut
Keterangan:

: nilai bobot term ;

tf : nilai term frequency

idf : nilai inverse document frequency.

Proses selanjutnya menghitung tingkat kemiripan term pada dokumen


yang dicari dapat dituliskan pada persamaan Rocchio relevance
feedback berikut ini:
Keterangan :

R : Tingkat kemiripan term ;

N : Jumlah term tiap dokumen ;

: nilai bobot term ;

Dp : Term dari dokumen relevan ;

Np : Jumlah dokumen relevan ;

Dn : Term dari dokumen tak relevan ;

Nn : Jumlah dokumen tak relevan.

Komponen Aplikasi

Perangkat keras seperti komputer diperlukan untuk menjalankan


perangkat-perangkat lunak yang mendukung pengembangan aplikasi

Perangkat lunak menggunakan Ms Excel.

Program menggunakan bahasa Python dalam crawling dan Java dalam


pembuatan aplikasi

Data, yang terdiri atas libraries dari media sosial yaitu twitter

Hasil dan Pembahasan

Crawling

Hasil crawling disimpan


dalam bentuk csv sebagai
data uji

Pemasukan data latih


pada database

Preprocessing data latih


dan data uji

Data uji
relevan data
latih?

Menghitung tingkat
kemiripan data uji pada
semua data latih

Pembobotan data latih


dan data uji

Tidak
Data uji = negatif

Ya

Data uji = Positif

Contoh Query data uji: Transjakarta banyak yang rusak


Setelah dilakukan preprocessing maka menjadi:
Transjakarta | rusak

TF

IDF

Term
ahok

D1(Dokumen 1)
1

D2
0

D3
1

D4
0

Term
ahok

DF
2

guna

guna

transjakart
a
sarana

transjakart
a
sarana

citra

citra

IDF
0.30103
0.60206
0

1
0.60206
0.60206

baru

baru

tabrak

tabrak

kopaja

kopaja

mampang

mampang

rubah
direksi

0
0

0
0

1
1

0
0

rubah
direksi

1
1

tahun

tahun

depan

depan

bus

bus

rusak

rusak

0.60206
0.60206
0.60206
0.60206
0.6026
0.60206
0.60206
0.60206
0.60206
0.60206
sebal

sebal

lewat

lewat

0.60206
0.60206

TF.IDF
Term

D1

D2

D3

D4

IDF

D1

D2

D3

D4

ahok

0.30103

0.30103

0.30103

guna

0.60206

0.60206

transjakarta

sarana

0.60206

0.60206

citra

0.60206

0.60206

baru

0.6026

0.6026

tabrak

0.60206

0.60206

kopaja

0.60206

0.60206

mampang

0.60206

0.60206

rubah

0.60206

0.60206

direksi

0.60206

0.60206

tahun

0.60206

0.60206

depan

0.60206

0.60206

bus

0.60206

0.60206

rusak

0.60206

0.60206

0.60206

sebal

0.60206

0.60206

lewat

0.60206

0.60206

SUM

2.10721

2.40878

2.70927

2.40824

Teknik Rocchio Reelevance Feedback

R1=4+2.10721((1/5)-(4/16))= 3.894

R2=4+2.40878((1/5)-(4/16))=3.879

R3=4+2.70927((1/5)-(5/16))=3.695

R4=4+2.40824((2/5)-(3/16))=4.511

Jadi, dokumen 4 adalah yang paling mirip dengan query data uji. Dimana dalam
data latih tersebut telah diketahui sentimen masing-masing dokumen. Sehingga
hasil data uji yang paling mirip dengan data latih tersebut akan bernilai sama
dengan sentimen pada data latih. Pada contoh tersebut, dokumen 4 adalah
merupakan data latih yang mempunyai klasifikasi sentimen negative. Sehingga
query tersebut dikelompokkan menjadi sentimen negative.

Menguji Tingkat Akurasi Sistem

Tabel berikut menunjukkan keakurasian aplikasi yang dibangun dengan jumlah


data latih negative, data latih positif, dan data uji yang berbeda. Rumus yang
digunakan untuk menghitung keakurasian aplikasi ini adalah sebagai berikut:

Akurasi = (Jumlah data benar/Jumlah data )* 100%


Data Latih
Negatif

Data Latih Positif

Data Uji

Akurasi

15

100%

24

11

100%

24

11

23

83%

No

Nilai keakurasian aplikasi didasarkan pada banyaknya jumlah data latih


negative, data latih positif, dan data uji.

Kesimpulan
Berdasarkan hasil penelitian dapat disimpulkan bahwa aplikasi yang
dibangun dapat mengetahui sentimen positif dan negative dari
masyarakat. Namun dari beberapa kali pengujian dapat disimpulkan
bahwa semakin banyak data uji maka klasifikasi sentiment yang
dihasilkan semakin tidak akurat dikarenakan jumlah data latih yang
masih terbatas.

Saran
Diharapkan adanya penelitian lebih lanjut tentang analisa
sentimen twitter dengan mengembangkan Proses Stemming
serta menambah kamus slang dan menambah data latih pada
aplikasi. Serta diharapkan adanya pengklasifikasian dengan
menunjukkan factor opini pada data tweet sehingga dapat
memudahkan pemerintah dalam memperbaiki kinerja
Transjakarta.

Anda mungkin juga menyukai