Anda di halaman 1dari 8

Jurnal Informatika Universitas Pamulang ISSN: 2541-1004

Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

Analisis Sentiment Tweets Berbahasa Sunda Menggunakan Naive Bayes


Classifier dengan Seleksi Feature Chi Squared Statistic
Yono Cahyono1, Saprudin2

Teknik Informatika Universitas Pamulang


e-mail : 1dosen00843@unpam.com, 2dosen00845@unpam.ac.id

Submitted Date: September 3rd, 2019 Reviewed Date: September 6th, 2019
Revised Date: September 16th, 2019 Accepted Date: October 4th, 2019

Abstract

At present the development of the use of social media in Indonesia is very rapid, in Indonesia there
are a variety of regional languages, one of which is the Sundanese language, where some people
especially those living in West Java use Sundanese language to express comments, opinions, suggestions,
criticisms and others in social media. This information can be used as valuable data for individuals or
organizations in decision making. The huge amount of data makes it impossible for humans to read and
analyze it manually. Sentiment analysis is the process of classifying opinions, analyzing, understanding,
evaluating, emotions and attitudes towards a particular entity such as individuals, organizations,
products or services, topics, events, in order to obtain information. The purpose of this research is the
Naїve Bayes Classifier (NBC) classification algorithm and Feature Chi Squared Statistics selection
method can be used in Sundanese-language tweets sentiment analysis on Twitter social media into
positive, negative and neutral categories. Chi Square Statistic feature test results can reduce irrelevant
features in the Naïve Bayes Classifier classification process on Sundanese-language tweets with an
accuracy of 78.48%.

Keywords: Sentiment Analysis, Sundanese, Twitter, Naїve Bayes Classifier (NBC), Chi Squared Statistic

Abstrak

Saat ini perkembangan penggunaan media sosial di Indonesia sangat pesat, di Indonesia terdapat
berbagai bahasa daerah, salah satunya adalah bahasa Sunda, di mana sebagian orang terutama yang
tinggal di Jawa Barat menggunakan bahasa Sunda untuk menyampaikan komentar, opini, saran, kritik dan
lain-lain di media sosial. Informasi ini dapat digunakan sebagai data berharga bagi individu atau
organisasi dalam pengambilan keputusan. Jumlah data yang sangat besar membuat manusia tidak dapat
membaca dan menganalisisnya secara manual. Analisis sentimen adalah proses mengklasifikasikan
pendapat, menganalisis, memahami, mengevaluasi, emosi dan sikap terhadap entitas tertentu seperti
individu, organisasi, produk atau layanan, topik, peristiwa, untuk mendapatkan informasi. Tujuan dari
penelitian ini adalah algoritma klasifikasi Naїve Bayes Classifier (NBC) dan metode pemilihan Fitur Chi
Squared Statistics dapat digunakan dalam analisis sentimen tweets berbahasa Sunda di media sosial
Twitter ke dalam kategori positif, negatif dan netral. Hasil uji fitur Chi Square Statistic dapat mengurangi
fitur yang tidak relevan dalam proses klasifikasi Naïve Bayes Classifier pada tweets berbahasa Sunda
dengan akurasi 78,48%.

Kata kunci: Analisis Sentiment, Bahasa Sunda, Twitter, Naїve Bayes Classifier (NBC), Chi Squared
Statistic

1. Pendahuluan penggunaan bahasa daerah seperti di daerah Jawa


Saat ini pengguna media sosial Twitter sangat Barat menggunakan bahasa sunda. Perkembangan
banyak. Indonesia terdapat berbagai pulau dengan media online seperti media sosial Twitter dengan
beragam bahasa, pengguna media sosial Twitter informasi yang tidak terbatas, menyebabkan
di Indonesia tidak hanya penggunaan bahasa kebutuhan untuk menggali informasi yang ada
Indonesia untuk komunikasi, tapi juga didalamnya. Pada Twitter terdapat istilah tweet

http://openjournal.unpam.ac.id/index.php/informatika 87
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

yang merupakan sebuah pesan atau status yang sentiment analysis dapat mengungkapkan
dibuat oleh penggunanya. Sebuah tweet dapat emosional gembira, sedih, marah dan lain-lain.
mengekspresikan sebuah perasaan atau keadaan Kita juga dapat mengetahui misalnya seperti
dari pengguna Twiter. Tweet dapat mengandung merek, produk-produk dan orang-orang dengan
sebuah opini dari penggunanya terhadap kejadian menentukan apakah mereka menilai positif atau
yang dialaminya. Opini tersebut dapat negatif. Dengan ini memungkinkan bisnis dalam
dimanfaatkan sebagai penilaian baik bagi melacak:
perorangan atau bagi perusahaan atau instansi. a. Persepsi produk baru.
Twitter banyak digunakan oleh instansi b. Deteksi Flame (rants buruk)
pemerintahan atau perusahaan sebagai media c. Persepsi Merek.
komunikasi dengan konsumen. Namun d. Reputasi manajemen.
menentukan dan memilah apakah suatu tweet
berbahasa sunda dapat mengandung sebuah opini Memungkinkan juga individu untuk
positif, negatif atau netral tentu tidak mudah jika memperoleh mengenai suatu pandangan (review)
tweet yang diteliti jumlahnya sangat banyak. Maka pada skala global (Jenkins, 2011).
dengan permasalahan tersebut dapat di bangun Sentiment atau ekspresi fokus mengacu pada
sebuah sistem yang dapat melakukan analisis topik tertentu, pernyataan pada sesuatu topik
sentimen. mungkin saja akan berbeda arti/makna dengan
Dari beberapa teknik klasifikasi yang sering pernyataan yang sama pada subjek yang berbeda.
digunakan dalam proses klasifikasi data yaitu Sebagai contoh, misalnya pernyataan yang baik
metode Naïve Bayes atau sering disebut dengan untuk mengatakan “alur film tidak terprediksi”,
Naïve Bayes Classifier (NBC). Algoritma Naïve tapi lain halnya pernyataan tidak baik jika ‘tidak
Bayes dipilih dikarenakan algoritma ini sangat terprediksi’ dinyatakan pada “kemudi dari
cocok untuk short data text. Kelebihan dari Naïve kendaraan tidak terprediksi”. Bahkan pada produk
Bayes Classifier adalah metode ini sederhana tertentu, kata-kata yang sama dapat
tetapi memiliki akurasi dan performansi yang menggambarkan makna sebaliknya. Oleh karena
tinggi dalam proses klasifikasi teks (Routray, itu beberapa penelitian, terutama mengenai review
2013). produk, pekerjaan dimulai dengan menentukan
Sedangkan seleksi fitur adalah proses elemen dari suatu produk yang sedang dibicarakan
optimasi untuk mengurangi suatu set besar fitur sebelum dimulai proses opinion mining.
dari sumber aslinya, agar diperoleh sejumlah Hal utama yang dilakukan dalam pemrosesan
subset fitur yang relatif kecil dan signifikan untuk dokumen adalah memisahkan kumpulan karakter
meningkatkan akurasi dalam proses klasifikasi. ke dalam kata (token) atau biasa disebut sebagai
Untuk itu dalam penelitian ini menggunakan tokenizing. Tokenizing adalah merupakan hal yang
penggabungan metode pemilihan fitur Chi sangat kompleks dalam sistem komputerisasi
Squared Statistic dan Naїve Bayes Classifier karena beberapa karakter dapat ditemukan sebagai
(NBC) untuk analisis sentiment tweets berbahasa token delimiters. Delimiter adalah karakter tab,
sunda. spasi dan baris baru/newline, sedangkan seperti
karakter “! ? ( ) < >” kadangkala dijadikan
2. Landasan Teori delimiter namun kadangkala bukan tergantung
2.1 Sentiment Analysis pada lingkungannya (Wulandini & Nugroho,
Sentiment analysis atau disebut opinion 2009).
mining dalam pengertian secara luas mengacu
pada bidang komputasi linguistik, pengolahan 2.2 Naïve Bayes Classifier
bahasa alami dan text mining. Secara umum, Algoritma Naive Bayes Classifier merupakan
tujuannya adalah untuk menentukan attitude dari algoritma yang digunakan dalam mencari nilai
pembicara ataupun penulis yang berhubungan probabilitas tertinggi untuk mengklasifikasikan
dengan topik tertentu. data uji pada kategori yang paling tepat (Feldman
Pengelompokkan polaritas dari teks yang ada & Sanger, 2007).
dalam kalimat, dokumen, atau fitur entitas. Pada algoritma Naïve Bayes Classifier setiap
Bagaimana pendapat yang disampaikan dalam dokumen direpresentasikan dengan pasangan
kalimat, dokumen atau fitur entitas bersifat positif, atribut “x1, x2, x3,...xn” di mana x1 adalah kata
negatif atau netral merupakan tugas dasar dalam pertama, x2 adalah kata kedua dan seterusnya.
analisis sentimen (Dehaff, 2010). Lebih luas lagi Sedangkan V merupakan himpunan pada kategori
tweet. Pada saat proses klasifikasi algoritma akan

http://openjournal.unpam.ac.id/index.php/informatika 88
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

mencari probabilitas tertinggi dari semua kategori sosial yang populer dan banyak digunakan dalam
dokumen yang diujikan (VMAP), di mana mengungkapkan pendapat atau opini mengenai
persamaannya adalah sebagai berikut: sesuatu hal.

𝑉𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑃(𝑋1, 𝑋2 , 𝑋3, … … . . 𝑋𝑛 |𝑉𝑗 )𝑃(𝑉𝑗) (2.1) 3.2 Pre-Processing


𝑃(𝑋1,𝑋2 ,𝑋3, ……..𝑋𝑛) Pre-processing (pemrosesan awal dokumen)
VjeV merupakan tahapan awal yang berfungsi dalam
mentransformasikan dokumen ke dalam bentuk
Untuk P(x1, x2, x3,...xn) nilainya konstan representasi yang lain. Tujuan dari tahap ini
untuk semua kategori (Vj) sehingga persamaannya adalah untuk mempermudah untuk proses
dapat ditulis sebagai berikut: pencarian query ke dalam dokumen, mempercepat
dalam pemrosesan terhadap dokumen, dan
𝑉𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥
𝑉𝑗𝑒𝑉
𝑃(𝑥1 , 𝑥2 , 𝑥3 , … 𝑥𝑛|𝑉𝑗 )𝑃(𝑉𝑗 ) (2.2) mempermudah dalam proses mengurutkan
dokumen-dokumen yang diambil (retrieved).
Persamaan di atas dapat disederhanakan lagi Tahapan proses yang dilakukan dalam pre-
menjadi sebagai berikut: processing adalah casefolding, tokenize dan
stopword removal (Berry & Kogan, 2010).
𝑉𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥
𝑉𝑗𝑒𝑉
∏𝑛𝑖−1 𝑃(𝑥𝑖 |𝑉𝑗 )𝑃( 𝑉𝑗 ) (2.3) a. Case folding
Pada tahapan ini dilakukan untuk pengubah
Keterangan : huruf dalam dokumen menjadi huruf kecil.
Vj = Kategori tweet j =1, 2, 3,n. Di mana Yang diterima hanya huruf ‘a’ sampai dengan
dalam penelitian ini j1 = kategori ‘z’. Sedangkan karakter selain huruf
tweet sentimen negatif, j2 = dianggap sebagai delimiter dan dihilangkan.
kategori tweet sentimen positif, dan b. Tokenizing
j3 = kategori tweet sentiment netral Tahapan ini dilakukan setelah input data uji
P(xi|Vj)=Probabilitas xi pada kategori Vj melewati tahap Case Folding. Di mana
P(Vj) = Probabilitas dari Vj Tokenizing merupakan proses pemotongan
string input berdasarkan tiap kata yang
Untuk P(Vj) dan P(xi|Vj) dihitung pada saat menyusunya, serta membedakan karakter-
pelatihan di mana persamaannya adalah sebagai karakter tertentu yang dapat diperlakukan
berikut: sebagai pemisah kata atau bukan.
c. Stopwords removal
|𝑑𝑜𝑐𝑠 𝑗| Selanjutnya untuk tahap filter stopwords
𝑃(𝑉𝑗 ) = |𝑐𝑜𝑛𝑡𝑜ℎ| (2.4)
(dictionary) adalah akan menghilangkan
𝑛𝑘+1
𝑃(𝑋𝑖 |𝑉𝑗 ) = (2.5) kata-kata pada daftar stopwords yang tidak
𝑛+|𝑘𝑜𝑠𝑎𝑘𝑎𝑡𝑎|
memiliki arti.
Keterangan:
|docs j| = merupakan jumlah dokumen pada 3.3 Seleksi fitur Chi Square Statistic
setiap kategori j Pada penelitian ini menggunakan seleksi fitur
|contoh| = merupakan jumlah dokumen dari Chi Square Statistic. Dengan cara menghitung
semua kategori nilai seleksi fitur Chi Square Statistic dengan
nk = merupakan jumlah frekuensi persamaan sebagai berikut (Yang & Pedersen,
kemunculan setiap kata 1997):
n = merupakan jumlah frekuensi kemunculan
X2(t,c) = N x (AD – CB) 2 (3.1)
kata dari setiap kategori (A+C)x(B+D)x(A+B)x(C+D)
|kosakata| = merupakan jumlah semua kata
dari semua kategori Keterangan:
A : Banyaknya dokumen dalam kategori c
3. Metode Penelitian yang mengandung term t
3.1 Pengumpulan Data (Dataset) B : Banyaknya dokumen yang bukan
Data yang digunakan untuk proses sentiment kategori c tetapi mengandung term t
analysis ini didapatkan dengan cara crawl C : Banyaknya dokumen dalam katgori c
(mengumpulkan) data dari media sosial Twitter. tetapi tidak mengandung term t
Media sosial Twitter dipilih mengingat media
sosial Twitter saat ini merupakan salah satu media

http://openjournal.unpam.ac.id/index.php/informatika 89
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

D : Banyaknya dokumen yang bukan Confussion Matrix untuk perhitungan tingkat


kategori c dan tidak mengandung akurasinya,
term t Pada Tabel 1, untuk True Positif (TP)
N : Total keseluruhan dokumen merupakan tupel positif di dataset yang
diklasifikasikan positif, sedangkan False Positif
Seleksi fitur Chi Square Statistic digunakan (FP) adalah tupel positif di dataset yang
untuk melakukan kesesuaian pegamatan diklasifikasikan negatif atau netral. Untuk True
(goodness of fit) dari kategori dengan terms. Uji Negatif (TN) merupakan tupel negatif di dataset
Chi Square Statistic dalam statistika diterapkan yang diklasifikasikan negatif, sedangkan False
untuk menguji independensi dari dua peristiwa. Negatif (FN) merupakan jumlah tupel negatif di
Sedangkan dalam seleksi fitur berdasarkan teori dataset yang diklasfikasikan positif atau netral.
statistika, dua peristiwa tersebut di antaranya Untuk True Netral (TNet) merupakan tupel netral
adalah kemunculan fitur dan kemunculan kategori. di dataset yang diklasifikasikan netral, sedangkan
False Netral (FNet) adalah tupel netral di dataset
3.4 Tahap Cross Validation yang diklasifikasikan positif atau negatif.
Dalam tahap cross-validation, setiap record
akan digunakan beberapa kali yaitu untuk data Tabel 1 Confussion Matrix
training dan untuk data testing. Untuk dapat true true true
mengilustrasikan pada metode ini, anggaplah data Negatif Positif Netral
akan dipartisi ke dalam dua subset. Yang pertama pred. Negatif TN FP FNet
dipilih satu subset tersebut untuk training dan satu pred. Positif FN TP FNet
lagi untuk testing. Kemudian akan dilakukan pred. Netral FN FP TNet
pertukaran fungsi dari subset sehingga subset yang
sebelumnya sebagai training set akan menjadi Selanjutnya untuk menghitung accuracy,
testing set demikian sebaliknya. Recall Positives, Recall Negatives, Recall
10-fold cross-validation akan melakukan Neutral, Positives Predicted Value (PPV),
mengulang pengujian sebanyak 10 kali dan hasil Negatives Predicted Value (NPV), Neutral
pengukuran adalah nilai rata-rata dari 10 kali Predicted Value (NetPV).
pengujian. Metode ini merupakan evaluasi standar
yaitu stratified 10-fold cross-validation karena 𝑇𝑃+𝑇𝑁+𝑇𝑁𝑒𝑡
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁+𝐹𝑁𝑒𝑡+𝑇𝑁𝑒𝑡 (3.2)
menunjukkan bahwa 10-fold cross-validation
adalah merupakan pilihan terbaik untuk 𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 = (3.3)
mendapatkan hasil validasi yang lebih akurat. 𝑇𝑃 + 𝐹𝑁 + 𝐹𝑁𝑒𝑡
Keuntungan dari metode ini adalah menghindari 𝑇𝑁
𝑅𝑒𝑐𝑎𝑙𝑙 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠 = 𝑇𝑁+𝐹𝑃+𝐹𝑁𝑒𝑡 (3.4)
overlapping pada data testing. Test set bersifat
mutually exclusive dan secara efektif mencakup 𝑅𝑒𝑐𝑎𝑙𝑙 𝑁𝑒𝑢𝑡𝑟𝑎𝑙 = 𝑇𝑁𝑒𝑡+𝐹𝑃+𝐹𝑁
𝑇𝑁𝑒𝑡
(3.5)
keseluruhan data set. Namun kekurangan dari
pendekatan ini ialah banyaknya proses komputasi 𝑃𝑃𝑉 =
𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠
(3.6)
𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠 + 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠
untuk melakuan pengulangan prosedur sebanyak
N kali. (Gorunescu, 2011). 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠
𝑁𝑃𝑉 = 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑇𝑟𝑢𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠 + 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒𝑠 (3.7)

3.5 Tahap Klasifikasi 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑇𝑟𝑢𝑒 𝑁𝑒𝑢𝑡𝑟𝑎𝑙


𝑁𝑒𝑡𝑃𝑉 = 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑇𝑟𝑢𝑒 𝑁𝑒𝑢𝑡𝑟𝑎𝑙 + 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑢𝑡𝑟𝑎𝑙 (3.8)
Pada tahap klasifikasi menggunakan
algoritma Naive Bayes Classifier yang merupakan
Recall Positives (perolehan positif) adalah
proses klasifikasi dengan metode probabilitas,
jumlah kasus dengan perolehan positif, Recall
yaitu memprediksi peluang pada masa yang akan
Negatives (perolehan negatif) adalah jumlah kasus
datang, berdasarkan pengalaman pada masa lalu
dengan perolehan negaitif, dan Recall Neutral
sehingga dikenal sebagai teorema Bayes.
(perolehan netral) adalah jumlah kasus dengan
perolehan netral. , NPV (nilai prediktif negatif)
3.6 Evaluasi
adalah jumlah kasus dengan hasil diagnosa
Evaluasi performansi dilakukan untuk
negatif, PPV (nilai prediktif positif) adalah jumlah
menguji hasil dari proses klasifikasi dengan cara
kasus dengan hasil diagnosa positif dan NetPV
mengukur nilai performansi dari sistem yang telah
(nilai prediktif netral) adalah jumlah kasus dengan
dibuat. Parameter pengujian yang digunakan
hasil diagnosa netral.
untuk evaluasi adalah diperoleh dari tabel

http://openjournal.unpam.ac.id/index.php/informatika 90
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

4. Hasil Penelitian b. Proses Klasifikasi Pada RapidMiner


4.1 Implementasi Menggunakan RapidMiner Proses klasifikasi diawali dengan penentuan
Penelitian ini dilakukan dengan dataset yang disimpan di dalam file excel.
menggunakan tool rapidminer versi 5.3. Penelitian Ditujukan pada Gambar 1 Penentuan Dataset.
dilakukan dengan kombinasi metode atau
melakukan penentuan jumlah fitur pada proses Tabel 2 Tweets Berbahasa Sunda
seleksi fitur. Harapan dari proses seleksi fitur ini persib Sakitu kituna butut, lini tukang
Negatif
adalah semakin sedikit jumlah fitur yang lapuk weuh harepan
digunakan, semakin rendah waktu komputasi dan 13 x main 3 x menang sisanya draw
semakin tinggi akurasi yang dicapai. jeung eleh. 2019 kemunduran persib Negatif
Tahapan-tahapan dalam penelitian ini dapat pisan
diuraikan sebagai berikut: Tetep masih dukung persib, Erek
a. Persiapan Dataset Positif
susah erek seneng tetep persib
Tahap persiapan Dataset ini data yang persib Teu ngaruh oge Netral
digunakan sebanyak 316 tweets, yang Jauh ti dulur Jauh ti lembur Aink tetep
disimpan dalam file excel, di mana pada Positif
PERSIB
setiap record berisi sebuah kalimat yang kamari abi hente lalajo persib Netral
mengandung bahasa sunda, namun dari data Da urang mah orang Sunda nya wajib
tweets yang diperoleh terdapat campuran Positif
we ngadukung Persib mah
bahasa sunda dan Indonesia. Berikut contoh
tweets untuk dataset dalam penelitian ini
ditunjukkan pada Tabel 2.

Gambar 1 Penentuan Dataset

Untuk text preprocessing ditunjukkan pada tahapan menggunakan transform case,


Gambar 2 Text Preprocessing yaitu dengan tokenize, dan filter stopwords (dictionary).

http://openjournal.unpam.ac.id/index.php/informatika 91
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

Gambar 2 Text Preprocessing

Tabel 3 Kata-kata Stopwords Bahasa Indonesia arti, di mana kata-kata tersebut terdapat pada
dan Bahasa Sunda daftar stopwords bahasa Indonesia dan
ada berapa anu ayeuna bahasa sunda terdiri dari 999 kata-kata.
adalah berapakah anyar badag Contoh kata-kata stopwords bahasa Indonesia
adanya berapalah apa bade dan bahasa sunda ditunjukkan pada Tabel 3.
adapun berapapun aranjeun bagean
agak berarti arek baheula c. Seleksi fitur menggunakan Chi Square
agaknya berawal asa bakal Statistic
agar berbagai atanapi baruk Pada tahap berikutnya seleksi fitur Chi
Square Statistic dilakukan Optimize Selection
Tahap transform case dilakukan untuk dengan menggunakan forward selection.
merubah huruf dalam dokumen menjadi Tahap penyeleksian fitur ini menggunakan
huruf kecil dan menghapus karakter simbol. Chi Square Statistic di mana proses ini adalah
Setelah melalui tahap transform case untuk memilih kata atau term apa saja yang
selanjutnya untuk tahap tokenize yaitu dapat dijadikan sebagai wakil penting untuk
memotong setiap kata dalam teks. kumpulan dokumen yang akan dianalisis.
Selanjutnya untuk tahap filter stopwords Untuk proses klasifikasi dengan seleksi fitur
(dictionary) adalah akan menghilangkan atau Chi Square Statistic ditunjukkan pada
menghapus kata-kata yang tidak memiliki Gambar 3.

Gambar 3 Proses klasifikasi dengan seleksi fitur Chi Square Statistic

Read Excel dipakai untuk membaca dataset persatu fitur, sampai tidak ada lagi fitur yang
yang disimpan di dalam file excel. Process mungkin dapat menurunkan error secara
Documents merupakan tahap Text Preprocessing signifikan.
yaitu terdiri dari tahapan transform case, tokenize, Cross-validation disini membagi data ke
dan filter stopwords (dictionary).Weight by Chi dalam dua subset, satu untuk data training dan
merupakan tahap penyeleksian fitur menggunakan satu lagi untuk data testing. Lalu akan dilakukan
Chi Square Statistic. Dan Optimize Selection pertukaran fungsi dari dua subset tersebut,
dengan memilih parameter forward selection. sehingga subset yang sebelumnya sebagai data
Forward selection dimulai dengan tidak adanya training akan menjadi data testing demikian
fitur dan akan memulai menambahkan satu sebaliknya. 10-fold cross-validation akan

http://openjournal.unpam.ac.id/index.php/informatika 92
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

melakukan mengulang pengujian sebanyak 10 kali tabel Confussion Matrix. Ditunjukkan pada tabel 4
dan hasil pengukuran adalah nilai rata-rata dari 10 Confussion Matrix Chi Square Statistic dan Naïve
kali pengujian. Proses 10-fold validation Bayes.
dilakukan untuk meningkatkan akurasi klasifikasi. Pada Tabel 4 diperoleh untuk jumlah True
Proses ini diletakan didalam proses optimize Netral (TNet) adalah 119, True Negatif (TN)
selection. Didalam proses 10-fold validation adalah 98, True Positif (TP) adalah 31, False
terdapat proses klasifikasi yang dilakukan oleh Netral (FNet) adalah 9, False Negatif (FN) adalah
algoritma naïve bayes seperti ditunjukkan pada 47 dan False Positive (FP) adalah 12. Berdasarkan
Gambar 4 10-fold validation. perhitungan tingkat akurasi dari data yang
diperoleh pada tabel 4, menunjukkan bahwa
penggunaan seleksi fitur Chi Square Statistic dan
algoritma klasifikasi Naïve Bayes Classifier
mendapatkan akurasi sebesar 78.48%.
Accuracy = TP+TN+TNet (4.1)
TP+TN+FN+FP+FNet+TNet
= 31+ 98 + 119
31 + 98 + 47 + 12 + 9 + 119
Gambar 4 10-Fold Validation = 248 x 100 % = 78,48 %
316
Proses klasifikasi di sini adalah untuk
menentukan sebuah kalimat terklasifikasi ke 5. Kesimpulan
dalam kategori positif, negatif dan netral, Dapat disimpulkan berdasarkan hasil analisis
berdasarkan nilai perhitungan probabilitas naïve yang dilakukan pada penelitian ini adalah sebagai
bayes yang lebih besar. Misal jika hasil dari berikut:
probabilitas kalimat untuk kategori negatif lebih a. Metode seleksi fitur Chi Square Statistic dan
besar daripada kategori positif dan netral maka algoritma klasifikasi Naïve Bayes Classifier
kalimat tersebut termasuk ke dalam kategori dapat digunakan dalam proses menganalisis
negatif. Begitu juga sebaliknya dengan kategori sentiment tweets berbahasa sunda.
positif dan netral. b. Hasil pengujian yang dilakukan penggunaan
seleksi fitur Chi Square Statistic dapat
mengurangi fitur-fitur yang tidak relevan
pada proses klasifikasi Naïve Bayes Classifier
dengan akurasi sebesar 78.48 %.

6. Saran
Saran-saran setelah dilakukan penelitian ini
adalah sebagai berikut:
a. Penelitian selanjutnya memperbaiki
pengolahan dokumen, identifikasi dokumen
Gambar 5 Klasifikasi Naïve Bayes serta mengembangkan tahap preprocessing
pada dataset berbahasa sunda seperti
4.2 Hasil Pengujian Chi Square Statistic dan emoticon, singkatan dan lain-lain, untuk
Naïve Bayes. meningkatkan proses klasifikasi dokumen.
b. Menggunakan metode pemilihan fitur lain,
Tabel 4 Confussion Matrix Chi Square seperti Term Frequency x Inverse Document
Statistic dan Naïve Bayes Frequency, Information gain, Mutual
true true true Information, Genetic Algorithm dan lain-lain,
Netral Negatif Positif agar dapat dibandingkan hasilnya.
pred. Netral 119 47 11 c. Pada penelitian berikutnya dapat
pred. Negatif 6 98 1 dikembangkan dengan metode algoritma
pred. Positif 3 0 31 klasifikasi lainnya seperti Neural Network,
Support Vector Machine, K-Nearest
Untuk dapat mengetahui tingkat akurasi dari Neighbor (K-NN) dan lain-lain.
penggunaan seleksi fitur Chi Square Statistic
dilakukan pengujian dengan perhitungan pada

http://openjournal.unpam.ac.id/index.php/informatika 93
Jurnal Informatika Universitas Pamulang ISSN: 2541-1004
Vol. 4, No. 3, September 2019 (87-94) e-ISSN: 2622-4615

Daftar Pustaka Ling, J., Kencana, I. P. E. N., & Oka, T. B. (2014).


Berry, M.W. & Kogan, J. 2010. “Text Mining “Analisis Sentimen Menggunakan Metode Naïve
Aplication and theory”. WILEY : United Bayes Classifier Dengan Seleksi Fitur Chi
Kingdom. Square”. E-Jurnal Matematika, 3(3), 92-99.
Chandani, V., & Wahono, R. S. (2015). “Komparasi Putranti, N. D., & Winarko, E. (2014). “Analisis
Algoritma Klasifikasi Machine Learning Dan sentimen twitter untuk teks berbahasa Indonesia
Feature Selection pada Analisis Sentimen Review dengan maximum entropy dan support vector
Film”. Journal of Intelligent Systems,1(1), 56-60. machine”. IJCCS (Indonesian Journal of
Dehaff, M. 2010. “Sentiment Analysis, Hard But Worth Computing and Cybernetics Systems), 8(1), 91-
It!”. 100.
Feldman, R & Sanger, J. 2007. “The Text Mining Routray, P., Swain, C. K. & Mishra, S.P., 2013. “A
Handbook : Advanced Approaches in Analyzing Survey on Sentiment Analysis. International
Unstructured Data”. Cambridge University Press Journal of Computer Applications”, Agustus,
: New York. 70(10), pp. 1-8
Ginting, H. S., Lhaksmana, K. M., & Murdiansyah, D. Saputra, N., Adji, T. B., & Permanasari, A. E. (2015).
T. (2018). “Klasifikasi Sentimen Terhadap Bakal “Analisis sentimen data presiden Jokowi dengan
Calon Gubernur Jawa Barat 2018 Di Twitter preprocessing normalisasi dan stemming
Menggunakan Naive Bayes”. eProceedings of menggunakan metode naive bayes dan
Engineering, 5(1). SVM”. Jurnal Dinamika Informatika, 5(1).
Gorunescu, F. 2011. “Data Mining Concepts, Model Wulandini, F. & Nugroho, A. N. 2009. “Text
and Techniques”. Berlin: Springer. Classification Using Support Vector Machine for
Jenkins, M. C. 2011. “How Sentiment Analysis works in Webmining Based Spation Temporal Analysis of
machines”. the Spread of Tropical Diseases”. International
Lidya, S. K., Sitompul, O. S., & Efendi, S. (2015). Conference on Rural Information and
“Sentiment Analysis Pada Teks Bahasa Indonesia Communication Technology 2009.
Menggunakan Support Vector Machine (SVM) Yang, Y., & Pedersen, J. O. 1997. “A comparative
Dan K-Nearest Neighbor (K-NN). InSeminar study on feature selection in text categorization”.
Nasional Teknologi Informasi dan Komunikasi”. ICML, (hal. 412--420).

http://openjournal.unpam.ac.id/index.php/informatika 94

Anda mungkin juga menyukai