TERHADAP TRANSJAKARTA
Sylviana Nur Azizah 1260056
Fithrotin Maulidiyah 12650059
Aldilla Qurrota Ayun 12650090
Latar Belakang
Twitter adalah situs web dimiliki dan dioperasikan oleh Twitter, Inc.,
yang menawarkan jaringan sosial berupa microblog. Disebut
microblog karena situs ini memungkinkan penggunanya mengirim dan
membaca pesan blog seperti pada umumnya namun terbatas hanya
sejumlah 140 karakter yang ditampilkan pada halaman profil
pengguna.
Identifikasi Masalah
Apakah sistem yang dibangun dapat sentiment positif dan negative dari masyarakat?
Tujuan
Manfaat Penelitian
Batasan Masalah
Nilai klasifikasi hanya berfokus pada klasifikasi positif dan negative dari masyarakat
terhadap Transjakarta.
Metode
Skema Aplikasi
1. Menghapus URL
2. Mengganti Emoticon
3. Cleansing
4. Case Folding
Proses ini mengganti kata-kata dalam tweet yang tidak baku menjadi
kata baku yang telah dikenal dalam bahasa Indonesia.
6. Tokenisasi
7. Convert Negasi
8. Stopword Removal
9. Stemming
TF-IDF
Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan
menggunakan perkalian nilai tf dan idf menunjukkan bahwa deskripsi
terbaik dari dokumen adalah term yang banyak muncul dalam dokumen
tersebut dan sangat sedikit muncul pada dokumen yang lain. Perhitungan
bobot term adalah sebagai berikut
Keterangan:
Komponen Aplikasi
Data, yang terdiri atas libraries dari media sosial yaitu twitter
Crawling
Data uji
relevan data
latih?
Menghitung tingkat
kemiripan data uji pada
semua data latih
Tidak
Data uji = negatif
Ya
TF
IDF
Term
ahok
D1(Dokumen 1)
1
D2
0
D3
1
D4
0
Term
ahok
DF
2
guna
guna
transjakart
a
sarana
transjakart
a
sarana
citra
citra
IDF
0.30103
0.60206
0
1
0.60206
0.60206
baru
baru
tabrak
tabrak
kopaja
kopaja
mampang
mampang
rubah
direksi
0
0
0
0
1
1
0
0
rubah
direksi
1
1
tahun
tahun
depan
depan
bus
bus
rusak
rusak
0.60206
0.60206
0.60206
0.60206
0.6026
0.60206
0.60206
0.60206
0.60206
0.60206
sebal
sebal
lewat
lewat
0.60206
0.60206
TF.IDF
Term
D1
D2
D3
D4
IDF
D1
D2
D3
D4
ahok
0.30103
0.30103
0.30103
guna
0.60206
0.60206
transjakarta
sarana
0.60206
0.60206
citra
0.60206
0.60206
baru
0.6026
0.6026
tabrak
0.60206
0.60206
kopaja
0.60206
0.60206
mampang
0.60206
0.60206
rubah
0.60206
0.60206
direksi
0.60206
0.60206
tahun
0.60206
0.60206
depan
0.60206
0.60206
bus
0.60206
0.60206
rusak
0.60206
0.60206
0.60206
sebal
0.60206
0.60206
lewat
0.60206
0.60206
SUM
2.10721
2.40878
2.70927
2.40824
R1=4+2.10721((1/5)-(4/16))= 3.894
R2=4+2.40878((1/5)-(4/16))=3.879
R3=4+2.70927((1/5)-(5/16))=3.695
R4=4+2.40824((2/5)-(3/16))=4.511
Jadi, dokumen 4 adalah yang paling mirip dengan query data uji. Dimana dalam
data latih tersebut telah diketahui sentimen masing-masing dokumen. Sehingga
hasil data uji yang paling mirip dengan data latih tersebut akan bernilai sama
dengan sentimen pada data latih. Pada contoh tersebut, dokumen 4 adalah
merupakan data latih yang mempunyai klasifikasi sentimen negative. Sehingga
query tersebut dikelompokkan menjadi sentimen negative.
Data Uji
Akurasi
15
100%
24
11
100%
24
11
23
83%
No
Kesimpulan
Berdasarkan hasil penelitian dapat disimpulkan bahwa aplikasi yang
dibangun dapat mengetahui sentimen positif dan negative dari
masyarakat. Namun dari beberapa kali pengujian dapat disimpulkan
bahwa semakin banyak data uji maka klasifikasi sentiment yang
dihasilkan semakin tidak akurat dikarenakan jumlah data latih yang
masih terbatas.
Saran
Diharapkan adanya penelitian lebih lanjut tentang analisa
sentimen twitter dengan mengembangkan Proses Stemming
serta menambah kamus slang dan menambah data latih pada
aplikasi. Serta diharapkan adanya pengklasifikasian dengan
menunjukkan factor opini pada data tweet sehingga dapat
memudahkan pemerintah dalam memperbaiki kinerja
Transjakarta.