533 947 1 SM
533 947 1 SM
4, November 2019
ISSN 2301 – 4156 Ridi Ferdiana: Dataset Indonesia untuk Analisis ...
JNTETI, Vol. 8, No. 4, November 2019 335
Ridi Ferdiana: Dataset Indonesia untuk Analisis ... ISSN 2301 – 4156
336 JNTETI, Vol. 8, No. 4, November 2019
“RT @atrenal: kita lanjut saja diam ini, hingga kau dan
aku erti. tidak semua sama, harus libat hati.”
ISSN 2301 – 4156 Ridi Ferdiana: Dataset Indonesia untuk Analisis ...
JNTETI, Vol. 8, No. 4, November 2019 337
Kemudian, data atau tweet ini masih diseleksi lagi yang berhubungan dengan label pada data itu sendiri.
kelayakannya untuk digunakan sebagai dataset analisis Sedangkan dari sisi ekstraksi fitur, penerapan TF-IDF dapat
sentimen bahasa Indonesia. Kriteria kelayakan yang dipilih meningkatkan akurasi model analisis sentimen, karena dengan
adalah berbahasa Indonesia (baik bahasa Indonesia baku menggunakan TF-IDF, semua fitur akan diberi bobot yang
maupun bahasa daerah) dan memiliki penulisan yang baku berbeda satu sama lain. Dengan bobot yang diberikan ini,
(tidak ada huruf yang diubah menjadi angka atau simbol). algoritme pemodelan analisis sentimen dapat menemukan fitur
Proses penyaringan ini dilakukan secara manual dengan cara yang paling berpengaruh pada data yang digunakan.
pembacaan sepintas sampai titik tertentu, baru selanjutnya data Jika akurasi yang dihasilkan pada model analisis sentimen
dibaca secara lebih dalam lagi pada proses pelabelan data. mengalami peningkatan dan memiliki nilai yang seimbang
Pada sisi proses pelabelan data, diputuskan untuk antara dataset utama (Indonesian-General-Sentiment-Analysis-
mengategorikan data menjadi tiga kategori, yaitu positif, Dataset) dengan dataset pembanding (dataset SemEval-2018),
negatif, dan netral. Kategori positif digunakan untuk emosi maka dapat diambil kesimpulan bahwa Indonesian-General-
seperti senang, ceria, rileks, santai, dan emosi yang secara garis Sentiment-Analysis-Dataset ini layak untuk digunakan pada
besar berhubungan dengan kebajikan. Sedangkan kategori pemodelan analisis sentimen.
negatif digunakan untuk untuk emosi seperti sedih, marah,
tertekan, takut, dan emosi-emosi lain yang mengakibatkan C. Algoritme Analisis Sentimen
penderitaan. Lalu, tweet-tweet yang memenuhi kriteria Pada percobaan ini, algoritme analisis sentimen yang
penyaringan tetapi tidak dapat dikategorikan ke dalam dua digunakan adalah Support Vector Machine (SVM), K-Nearest
kategori ini diberi label sebagai kategori netral. Proses Neighbors (KNN), dan Stochastic Gradient Descent (SGD).
pengategorian ini dilakukan secara manual dan subjektif. Model algoritme ini dijalankan menggunakan library scikit-
Setelah itu, didapatkan data akhir berjumlah 10.806 baris tweet. learn pada bahasa pemrograman Python.
Metode klasifikasi SVM bekerja dengan cara meletakkan
B. Tahap Pre-processing fitur-fitur yang diperoleh dari data latihan pada sebuah bidang
Proses perbandingan data dilakukan dengan membanding- vektor. Fitur-fitur ini nantinya akan dikelompokkan antara satu
kan akurasi model analisis sentimen yang dihasilkan saat dengan yang lain berdasarkan label yang ada pada data
menggunakan masing-masing dataset pada tahap pelatihan pelatihan ini. Dengan demikian, data-data baru dapat diukur
model. Selain itu, pada data yang diuji juga diberikan beberapa nilainya berdasarkan letak data tersebut dibandingkan dengan
parameter tertentu dari sisi pre-processing dan sisi ekstraksi data-data latihan sebelumnya.
fitur. Pada sisi pre-processing, pada masing-masing data, yaitu Metode klasifikasi KNN bekerja dengan prinsip yang sama
data Indonesian-General-Sentiment-Analysis-Dataset dan data dengan metode klasifikasi SVM, yaitu dengan pertama-tama
pembanding, yaitu dataset SemEval-2018 akan diterapkan dua meletakkan semua fitur pada sebuah bidang vektor.
macam teknik pre-processing: yang pertama adalah penerapan Perbedaannya adalah metode klasifikasi KNN mengukur nilai
pembersihan elemen-elemen pengganggu (noise) dan yang data baru berdasarkan jarak antara data baru tersebut dengan
kedua adalah gabungan penerapan pembersihan noise, data latihan yang sudah ditempatkan terlebih dahulu.
stemming, dan penghilangan stopwords (kata sambung). Sedangkan metode klasifikasi SGD adalah metode
Selanjutnya, tahap ekstraksi fitur dilakukan dengan klasifikasi yang menerapkan fungsi gradient descent pada
menerapkan teknik perubahan kata menjadi vektor (word2vec) sebuah model standard linear untuk membuat model tersebut
menjadi lebih optimal. SGD melakukan iterasi untuk
dan Term Frequency – Inverse Document Frequency (TF-IDF).
menemukan titik terendah dalam sebuah gradien (dalam kasus
TF-IDF adalah proses ekstraksi fitur berbasis word2vec yang ini, titik terendah merupakan akurasi tertinggi yang dihasilkan
menerapkan pemberian nilai pada fitur-fitur berdasarkan oleh model).
frekuensi kemunculan fitur tersebut pada sebuah data (dalam Algoritme pemodelan SVM dan KNN adalah dua algoritme
kasus ini tweet) dan dibagi dengan frekuensi kemunculan fitur yang paling sering digunakan untuk model analisis sentimen
tersebut pada dataset secara keseluruhan. TF-IDF digunakan pada penelitian-penelitian yang sudah dipublikasi. Hal ini
agar fitur-fitur yang sering muncul pada dataset berupa kata- karena (terutama pada SVM) model algoritme ini dapat
kata yang sering digunakan dalam percakapan tidak menganalisis data yang memiliki jumlah fitur yang banyak
mengurangi pengaruh dari fitur lainnya dalam pemodelan (data teks) dengan optimal [10]. Dalam melakukan proses
analisis sentimen. pelatihan model, pertama-tama, masing-masing dataset dibagi
Secara teori, kedua data yang diuji mengalami peningkatan, menjadi dua bagian, yaitu data pelatihan dan data pengujian.
baik dari sisi pre-processing, dengan menambahkan stemming Pada sebuah proses pelatihan model machine learning,
dan penghilangan stopwords, maupun dari sisi ekstraksi fitur, pembagian data menjadi data pelatihan dan pengujian biasanya
dengan mengubah teknik ekstraksi fitur dari word2vec standar dilakukan dengan menggunakan rasio 8:2 atau 80% untuk data
menjadi TF-IDF [9]. pelatihan dan 20% untuk data pengujian.
Dari segi pre-processing, akurasi pada model analisis Selanjutnya, model analisis sentimen yang sudah dilatih
sentimen dapat meningkat, karena teknik-teknik pre- diukur akurasinya menggunakan data pengujian yang telah
processing yang diterapkan pada dataset dapat mengurangi disiapkan tadi. Selain menggunakan akurasi, perbandingan
jumlah fitur pada data. Dengan mengurangi jumlah fitur, kedua model analisis sentimen ini juga dilakukan dengan
algoritme yang digunakan untuk pelatihan model analisis melihat nilai-F pada masing-masing model. Akurasi dan nilai-
sentimen akan semakin mudah menemukan pola-pola pada data F dapat diukur menggunakan (1) sampai (4).
Ridi Ferdiana: Dataset Indonesia untuk Analisis ... ISSN 2301 – 4156
338 JNTETI, Vol. 8, No. 4, November 2019
TABEL IV
TABEL CONFUSION MATRIX
Dataset
TF- Dataset utama
Algoritme pembanding
IDF
Data 1 Data 2 Data 1 Data 2
no 0,596 0,598 0,522 0,586
SVM
yes 0,614 0,629 0,531 0,607
no 0,487 0,508 0,375 0,396
KNN Gbr. 2 Perbandingan antara dataset utama dan dataset pembanding untuk
yes 0,523 0,527 0,531 0,543 paremeter data 2 dengan TF-IDF.
no 0,578 0,592 0,531 0,561
SGD tersebut kurang lebih seimbang satu sama lain. Pada ketiga
yes 0,621 0,627 0,544 0,573
algoritme, dataset utama memiliki nilai akurasi yang sedikit
TABEL VI lebih tinggi dibandingkan dataset pembanding, dengan
PERBANDINGAN NILAI-F ANTARA DATASET UTAMA DENGAN DATASET perbedaan akurasi antara 4% sampai 12%.
PEMBANDING
Selanjutnya, jika dilihat pada penerapan teknik pre-
Dataset processing dan TF-IDF, secara konsisten akurasi dan nilai-F
Dataset utama
Algoritme TF-IDF pembanding telah meningkat pada semua algoritme, yaitu sebesar 0,5%
Data 1 Data 2 Data 1 Data 2 sampai 5% pada bagian penerapan pre-processing dan sebesar
no 0,594 0,596 0,521 0,584 5% sampai 15% pada bagian penerapan TF-IDF. Peningkatan
SVM akurasi dan nilai-F ini dialami baik pada dataset utama maupun
yes 0,605 0,613 0,551 0,597
dataset pembanding. Hal ini konsisten dengan peningkatan
no 0,465 0,477 0,343 0,394 akurasi yang terjadi pada penelitian-penelitian analisis
KNN
yes 0,519 0,520 0,520 0,536 sentimen yang sudah dilakukan dan dipublikasi.
no 0,565 0,587 0,525 0,555 Dengan melihat bahwa dataset utama dan dataset
SGD
yes 0,606 0,617 0,537 0,566 pembanding memiliki akurasi dan nilai-F yang relatif setara,
serta melihat peningkatan yang konsisten saat diterapkan teknik
𝑇𝑇𝑇𝑇+𝑇𝑇𝑇𝑇
𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 = (1) pre-processing dan TF-IDF, dapat disimpulkan bahwa
𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹+𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹
Indonesian-General-Sentiment-Analysis-Dataset ini sudah
𝑇𝑇𝑇𝑇
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = (2) layak untuk digunakan dalam pelatihan pemodelan analisis
𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹
sentimen secara umum.
𝑇𝑇𝑇𝑇
𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = (3)
𝑇𝑇𝑇𝑇+𝐹𝐹𝐹𝐹 IV. KESIMPULAN
2×𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝×𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 − 𝐹𝐹 = . (4) Pada makalah ini, dipublikasikan sebuah dataset berbahasa
𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝+𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟
Indonesia, yaitu Indonesian-General-Sentiment-Analysis-
Sedangkan nilai True Positive (TP), True Negative (TN), Dataset, yang merupakan dataset berupa tweet-tweet dari
False Positve (FP), dan False Negative (FN) sendiri dapat media sosial Twitter untuk analisis sentimen. Data yang
diketahui dengan merujuk pada Tabel IV. diberikan ini berjumlah 10.806 tweet dan telah diberi label
Hasil akurasi dan nilai-F dari model analisis sentimennya dengan tiga polaritas sentimen, yaitu positif, negatif, dan netral.
ditunjukkan pada Tabel V dan Tabel VI. Pada tabel-tabel Selain itu, juga dipublikasikan hasil pengukuran berupa
tersebut, dataset utama mengacu pada dataset makalah ini, perbandingan data Indonesian-General-Sentiment-Analysis-
yaitu Indonesian-General-Sentiment-Analysis-Dataset, dan Dataset dengan dataset SemEval-2018 yang dapat digunakan
dataset pembanding mengacu pada dataset SemEval-2018. sebagai patokan dasar untuk penelitian-penelitian analisis
Sedangkan data 1 mengacu pada penerapan pembersihan sentimen di waktu yang akan datang. Beberapa hal yang dapat
elemen-elemen penganggu (noise) pada data dan data 2 diambil dari dataset ini, serta percobaan yang telah dilakukan
mengacu pada penerapan gabungan antara pembersihan noise, adalah sebagai berikut.
stemming, dan penghilangan stopwords. Gbr. 2 memperlihat- Indonesian-General-Sentiment-Analyisis-Dataset memiliki
kan perbandingan dataset utama dan pembanding untuk rasio sebesar 2:1:1 antara data yang memiliki label netral
parameter data 2 dengan TF-IDF dibanding dengan label positif dan negatif. Dataset ini diambil
Berdasarkan Tabel V dan Tabel VI, dapat dilihat bahwa rata- dari media sosial Twitter secara acak, sehingga dapat digunakan
rata akurasi dan nilai-F yang dihasilkan dari kedua dataset pada pemodelan analisis sentimen yang topiknya bersifat
ISSN 2301 – 4156 Ridi Ferdiana: Dataset Indonesia untuk Analisis ...
JNTETI, Vol. 8, No. 4, November 2019 339
Ridi Ferdiana: Dataset Indonesia untuk Analisis ... ISSN 2301 – 4156