TF Idf
TF Idf
Abstrak
Twitter merupakan situs web layanan jejaring sosial yang banyak diminati pengguna internet sebagai
media komunikasi dan mendapatkan informasi. Informasi yang terdapat pada Twitter berupa
pertanyaan, opini atau komentar, baik yang bersifat positif maupun negatif. Analisis sentimen
merupakan salah satu cabang penelitian dari Text Mining yang melakukan proses klasifikasi pada
dokumen teks. Metode yang digunakan adalah K-Nearest Neighbor, dengan menambahkan fitur
pembobotan jumlah retweet (non-tekstual). Pembobotan tekstual hasil dari klasifikasi K-Nearest
Neighbor dan pembobotan non-tekstual dari pembobotan jumlah retweet akan digabungkan
menggunakan nilai konstanta tertentu (α dan β) untuk menghasilkan sentimen positif dan negatif. Data
yang digunakan berupa opini masyarakat terhadap tayangan televisi pada twitter sejumlah 400. Dari
hasil pengujian akurasi menggunakan pembobotan tekstual diperoleh 82,50%, menggunakan
pembobotan non-tekstual 60%, dan menggunakan penggabungan keduanya 83,33% dengan nilai k=3
dan konstanta perkalian yang tepat α=0,8 dan β=0,2.
Kata Kunci: analisis sentimen, Twitter, K-Nearest Neighbor, pembobotan jumlah Retweet.
Abstract
Twitter is a social media that attracts many internet users as a media for communication and getting
information. The information covered on Twitter in the form of questions, opinions or comments,
whether it is positive or negative. Sentiment analysis is a part of research from Text Mining that
conducted the classification process on text documents. K-Nearest Neighbor was used as method of this
research, by adding the quality of retweet (non-textual). The result of textual quality of the K-Nearest
Neighbor classification and the non-textual quality from the sum of retweets would be combined using
certain constants (α and β) to generate positive and negative sentiments. The data was used in the form
of public opinion on the television show on twitter showed 400. From the test results of accuracy using
non-textual quality obtained 82.50%, using 60% non-textual quality, and use the combination of both
was 83.33% with the score k=3 and the exact multiplication constant α=0,8 and β=0.2.
Keywords: sentiment analysis, Twitter, K-Nearest Neighbor, weighting the number of Retweets.
tidak menjamin tayangan televisi tersebut opini masyarakat pada media sosial Twitter
memiliki kualitas yang tinggi (Tiara, Sabariah, menggunakan metode K-Nearest Neighbor dan
& Effendy, 2015). Sering kali pemirsa tayangan pembobotan jumlah Retweet diawali dengan
televisi memberikan opini atau komentar proses menghitung pembobotan tekstual,
terhadap tayangan televisi melalui media sosial dimulai dari praproses, yang mana dalam proses
salah satunya Twitter. Opini tersebut berupa ini ada beberapa proses yaitu tokenisasi,
tweet yang nantinya akan menjadi sebuah berita cleansing, case folding, filterisasi dan stemming.
yang tersebar pada timeline Twitter. Opini Tahapan selanjutnya yaitu pembobotan kata,
masyarakat pada Twitter terhadap tayangan dalam proses ini ada beberapa proses yaitu TF,
televisi memiliki peranan yang penting, karena DF, Wtf, IDF, dan TF-IDF. Setelah dilakukan
dapat digunakan untuk melakukan analisis proses pembobotan kata, maka akan dihitung
sentimen dalam memprediksi penilaian tingkat kemiripan dokumen menggunakan
masyarakat terhadap suatu tayangan televisi, cosine similarity, kemudian masuk pada proses
apakah bersifat positif atau negatif. klasifikasi teks menggunakan metode K-Nearest
Analisis sentimen merupakan bidang studi Neighbor. Tahap selanjutnya dilakukan
yang menganalisis pendapat, sentimen, pembobotan jumlah Retweet (non-tekstual).
penilaian, evaluasi, sikap, dan emosi seseorang Pada tahapan ini, jumlah Retweet pada dokumen
terkait suatu topik, layanan, produk, individu, tweet akan diberikan bobot sesuai dengan jumlah
organisasi, atau kegiatan tertentu (Liu, 2012). retweet yang ada pada dokumen tersebut dengan
Analisis sentimen dilakukan untuk menentukan proses normalisasi min-max. Normalisasi jumlah
apakah opini atau komentar terhadap suatu retweet dilakukan untuk setiap jumlah retweet
permasalahan, memiliki kecenderungan positif pada data uji yang dibandingkan dengan jumlah
atau negatif dan dapat dijadikan sebagai acuan retweet pada data latih tetangganya. Selanjutnya
dalam meningkatkan suatu pelayanan, ataupun hasil pembobotan tekstual akan digabungkan
meningkatkan kualitas produk. dengan pembobotan jumlah retweet (non-
Algoritme yang digunakan untuk proses tekstual) yang sebelumnya telah dilakukan
klasifikasi yaitu K-Nearest Neighbor dan normalisasi min-max. Hasil dari penggabungan
dilakukan penambahan fitur pembobotan jumlah tersebut akan menghasilkan suatu nilai, sehingga
retweet. Algoritme tersebut dipilih karena dari dapat diketahui dokumen yang telah dilakukan
penelitian sebelumnya yang dilakukan oleh proses klasifikasi bernilai positif atau negatif.
Samuel, Delima dan Rachmat (2014), membahas Alur dari proses sistem dapat ditampilkan dalam
tentang klasifikasi subtopik berita, menunjukkan Gambar 1.
akurasi yang baik, dengan nilai k=3, menunjukan
hasil persentase 88,29% (Samuel, Delima, & 2.1. Pembobotan Kata
Rachmat, 2014). Penelitian lainnya dilakukan Pembobotan kata (term) bertujuan untuk
oleh Perdana dan Pinandito (2016), membahas memberikan bobot pada setiap kata (term) yang
tentang kombinasi Likes-Retweet dan Näive terdapat pada dokumen teks yang akan diproses.
Bayes Classifier dalam Twitter untuk proses Tahapan pada pembobotan kata yaitu sebagai
analisis sentimen. Kombinasi kedua fitur berikut:
tersebut menghasilkan nilai F-measure sebesar
0,838 (Perdana & Pinandito, 2017). 1. Term Frequency (TF)
Penggabungan algoritme K-Nearest Neighbor Term Frequency merupakan frekuensi
dan penambahan fitur pembobotan jumlah kemunculan kata pada suatu dokumen teks.
retweet diharapkan mampu meningkatkan hasil Term Frequency (tft,d) didefinisikan jumlah
akurasi dan dapat melakukan klasifikasi dengan kemunculan term t pada dokumen d.
hasil yang tepat, sehingga hasil keluaran sistem Persamaan dari Term Frequency (tft,d)
mampu menjadi acuan serta pertimbangan bagi ditunjukkan pada Persamaan 1.
pemirsa tayangan televisi dan dalam memilih
1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0
tayangan yang banyak disukai oleh masyarakat 𝑊 ={ (1)
tft ,d 0, 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
umum.
Keterangan :
2. METODE USULAN tf t .d adalah jumlah kemunculan term t pada
Tahapan proses pada sistem analisis dokumen d.
sentimen terhadap tayangan televisi berdasarkan
(Junaedi, Budianto, Maryati, & Melani, 2011). pembanding untuk pembobotan non-
Proses normalisasi tersebut akan tekstual.
memudahkan penelitian, karena data asli akan 𝑁𝑜𝑛𝑇𝑒𝑘𝑠𝐶𝑗 : Nilai pembobotan jumlah Retweet.
diganti ke dalam bentuk lain dengan skala yang
sama (Maulana, Saepudin, & Rohmawati, Gambar 1. merupakan diagram alur dari sistem
21016). Metode Min-max merupakan metode yang dibuat.
yang paling sederhana dalam proses
transformasi linier terhadap data asli. Setelah Masukan : Dok. Mulai
dilakukan proses normalisasi Min-max, dapat latih dan uji
76,31%, nilai recall tidak mencapai 100%, Tabel 4. Hasil Pengujian Akurasi Sistem
hanya mencapai 96,67%, dan f-measure Penggabungan
Pembobotan
mencapai 85,29%. Pembobotan
Non-
Pembobotan
Tekstual Tekstual dan
2. Pembobotan jumlah retweet terbukti Tekstual
Non-Tekstual
memiliki pengaruh pada hasil klasifikasi Accurac
82,50% 60% 83,33%
dan tingkat akurasi sistem dengan nilai y
Precisio
konstanta α dan β yang tepat yaitu n
77,46% 55,55% 76,31%
perbandingan antara keduanya harus lebih Recall 91,66% 100% 96,66%
F-
tinggi nilai konstanta α daripada konstanta Measure
83,96% 71,42% 85,29%
β. Kondisi tersebut membuktikan bahwa
pembobotan teks lebih berperan daripada Dari hasil pengujian tersebut dapat dilihat
pembobotan jumlah retweet. Penambahan grafik pengujian akurasi sistem yang
pembobotan jumlah retweet dapat ditampilkan dalam Gambar 2.
meningkatkan nilai accuracy, precision,
recall, dan f-measure meskipun hasilnya
tidak terlalu signifikan. Hasil Pengujian
3.3. Pengujian Akurasi Sistem Akurasi Sistem
Pada pengujian akurasi sistem ini 100%
95%
perbandingan data latih dan data uji yang 90%
85%
digunakan yaitu 70% untuk data latih dan 30% 80%
75%
70%
untuk data uji (Faradhillah, Kusumawardani, & 65%
60%
Hafidz, 2016). Jumlah data latih dan data uji 55%
50%
yang digunakan yaitu 280 dan 120 (Samuel,
Delima, & Rachmat, 2014). Kemudian pada
pengujian ini akan membandingkan tingkat
akurasi sistem hanya menggunakan pembobotan
tekstual, hanya menggunakan pembobotan non- Pembobotan Tekstual
tekstual, dan penggabungan pembobotan
tekstual dan non-tekstual. Nilai k yang Pembobotan Non-Tekstual
digunakan untuk melakukan pengujian akurasi
sistem adalah k=3, dan nilai konstanta yang
Penggabungan Tekstual dan
digunakan α=0,8 dan β=0,2. Parameter
Non-Tekstual
pengujian yang digunakan yaitu Accuracy,
Precision, Recall, dan F-Measure. Confusion Gambar 2. Grafik Pengujian Akurasi Sistem
Matrix dan hasil dari pengujian akurasi sistem
terdapat pada Tabel 3 dan Tabel 4. Berdasarkan pada Gambar 2, maka dapat
dilakukan analisis :
Tabel 3. Confusion Matrix Pengujian Akurasi 1. Pada pengujian yang dilakukan hanya
Sistem menggunakan pembobotan tekstual saja,
Pembobotan
Pembobotan Penggabungan menghasilkan nilai accuracy mencapai
Non- Pembobotan
Tekstual
Tekstual Tekstual dan
82,50%. Tingkat akurasi cukup tinggi
Non-Tekstua meskipun tidak ditambahkan pembobotan
True 55 60 58 non-tekstual. Namun pada pengujian ini
Positif
False 16 48 18
terdapat false negatif sebanyak 5. False
Positif negatif merupakan dokumen uji yang
True 44 12 42
Negatif
seharusnya masuk pada kategori positif,
False 5 0 2 namun hasil analisis sistem menghasilkan
Negatif keluaran negatif. Agar jumlah false negatif
berkurang, sebaiknya ditambahkan
pembobotan non-tekstual agar memperkuat
nilai positif pada dokumen uji tersebut,
sehingga dapat meningkatkan nilai akurasi.
2. Pada pengujian yang dilakukan hanya
menggunakan pembobotan non-tekstual