MB-40-08
Annisa Dinandya Shafira (1401161457)
Dinda Dewi Rachmayuliawanti (1401164416)
Ravalia Putri Adela (1401160547)
Silvia Anggraini (1401164293)
Yayang Ridha Nanda Suryo (1401164632)
1. Tugas dikerjakan secara kelompok,
menggunakan kelompok praktikum
2. Pilih dua akun twitter bisnis yang saling
bersaing
3. Lakukan text mining akun twitter tersebut
SOAL? 4.
dengan orange
Analisis sentimen (emosi) tweet dari dua akun
tersebut
5. Buat Word Cloud (Word Frequency),
kemudian analisis
6. Buat Topik Clustering (Toping Tracking /
Modelling), kemudian analisis
7. Buat laporan hasil analisis dalam bentuk
power point
Data API yang digunakan dalam analisis ini hanya API Key
dan Api Secret sedangkan Access Token & Access Token
API
https://developer.twitter.com/en/apps
Secret tidak dipergunakan
API KEY:
tPbQdSV281GWU8H3rSfCkVdG6
API SECRET:
hk4FbTWEtFbJaSf0Gy7MNq3eIedZAwF3rXglxXi28b5trOc35x
2 Twitter Bisnis yang Saling Bersaing:
@Indomaret @alfamart
TEXT MINING
Open orange -> Text mining
Setelah melakukan
search dengan query
yang di input maka
keluarlah hasil dalam
bentuk tabel seperti
gambar disamping
yang berisi data
mention atau retweet
sesuai keyword
CORPUS PREVIEW
Data / tweet yang diambil
dapat dilihat detailnya
melalui menu Corpus
Viewer. Menu tsb dapat
menampilkan info
mengenai author, konten/
isi tweet, tanggal tweet,
dsb seperti pada gambar
di samping.
untuk melakukan preprocessing
Process Text dalam membuat data menjadi
lebih berkualitas sebelum diolah
menggunakan klasifikasi dengan
beberapa ketentuan
- Lower case bertujuan untuk
menyamaratakan huruf menjadi huruf kecil
sehingga tidak ada perbedaan misal antara
“Aku” dan “aku” dengan harapan
mendapatkan data yang lebih bersih dan
berkualitas.
- Remove Accents bertujuan untuk
menghapus aksen yang tertera di huruf.
- Remove Urls bertujuan untuk menghapus
link-link yang tersedia di twitter.
- Regexp bertujuan untuk menghapus tanda
baca sesuai yang diminta.
- Stopwords merupakan sebuah kamus
untuk menghilangkan kata dan
mendapatkan data yang berkualitas. Pada
tahap ini, stopwords bisa di download di
dropbox modul lab big data.
Masukkan data stopword untuk menghilangkan
data yang tidak perlu dan mendapatkan yang
berkualitas
Topic Modelling
Berikut merupakan tampilan Box Plot dengan subgroups Emotion untuk menganalisis bagaimana
sentimen seseorang ketika menulis sesuatu di twitter. Dapat dilihat bahwa tweet dibagi ke dalam 5
emotion yaitu Disgust, Fear, Joy, Sadness, dan Surprise. Diketahui bahwa tweet pada kedua akun
perusahaan memiliki sangat sedikit emosi disgust yaitu hanya dari 4 akun saja, diikuti kata-kata yang
menunjukkan emosi fear, lalu diikuti emosi kata-kata beremosi joy, lalu kata-kata beremosi sedih dan
kata-kata paling banyak pada tweet kedua akun ini menunjukkan emosi terkejut ditunjukkan dari
kerapatan bar garis yang tergambarkan pada insgiht diatas
Berikut merupakan tampilan Word Cloud yang menampilkan identifikasi kata-kata yang banyak dibicarakan oleh pengguna Twitter
mengenai Alfamart dan Indomaret. Terdapat 1953 kata-kata yang terkumpul dari 500 tweets. Dari kata-kata tersebut, dapat diketahui
bahwa kata-kata yang paling banyak digunakan adalah Alfamart (365 kata) dan Indomaret (264 kata) disusul dengan kata-kata
lainnya. Pada cloud tergambarkan bahwa semakin banyak suatu kata digunakan pada tweet semakin besar ukuran fontnya dan
penempatannya pun akan semakin terpusat berada di tengah begitu pula dengan sebaliknya dengan kata kata pendamping yang
paling sering hingga sangat jarang sekali digunakan dalam memberikan tweet.
Topic Clustering/Modelling.
Data-data hasil crawling sebelumnya dikelompokkan menjadi 10 cluster dimana data pada tiap cluster
memiliki tingkat kemiripan karakteristik yang erat. Hal ini digunakan agar dapat mempermudah mesin dalam
melakukan analisa sentimen, seperti pada gambar diatas dengan memiliki topic modelling dengan latent
semantic indexing, kata-kata pada tiap kelompok memiliki dua warna yang berbeda yaitu orange dan hijau
yang menunjukkan keberadaan kata bersifat negatif atau positif pada tiap cluster.
T K .