Anda di halaman 1dari 12

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Diterima 4 Desember 2019, diterima 22 Desember 2019, tanggal publikasi 30 Desember 2019, tanggal versi saat ini 7 Januari 2020.
Pengenal Objek Digital 10.1109/ACCESS.2019.2963020

Teknik Kategorisasi Polaritas Sentimen untuk


Ulasan Produk Online
SAMINA KAUSAR1,2, XU HUAHU1, WAQAS AHMAD2, MUHAMMAD YASIR SHABIR2, DAN
WAQAS AHMAD3
1Sekolah Teknik Komputer dan Sains, Universitas Shanghai, Shanghai 200444, Cina
2Departemen CS & TI, Universitas Kotli Azad Jammu dan Kashmir, Kotli 11100, Pakistan
3Sekolah Tinggi Ilmu Pengetahuan dan Teknologi Informasi, Universitas Normal Beijing, Beijing 100875, Tiongkok

Penulis korespondensi: Muhammad Yasir Shabir ( yasir.shabir14@gmail.com )

Pekerjaan ini didukung sebagian oleh National Science Foundation of China di bawah Grant 61572434 dan Grant 91630206, dan sebagian
oleh Komite Sains dan Teknologi Shanghai di bawah Grant 16DZ2293600.

ABSTRAKAnalisis sentimen juga dikenal sebagai opinion mining yang menunjukkan pendapat dan emosi masyarakat tentang produk atau layanan tertentu. Masalah utama dalam

analisis sentimen adalah kategorisasi polaritas sentimen yang menentukan apakah sebuah ulasan positif, negatif atau netral. Studi sebelumnya mengusulkan teknik yang berbeda,

tetapi masih ada beberapa kesenjangan penelitian, i) beberapa studi hanya memasukkan 3 kelas sentimen: positif, netral dan negatif, tetapi tidak satupun dari mereka dianggap

lebih dari 3 kelas ii) fitur polaritas sentimen dipertimbangkan secara individual tetapi tidak satupun dari mereka dipertimbangkan secara individual dan gabungan iii) Tidak ada teknik

sebelumnya yang mempertimbangkan lima kelas sentimen dengan 3 fitur polaritas sentimen seperti kata kerja, kata keterangan, kata sifat dan kombinasinya. Dalam studi ini, kami

mengusulkan teknik kategorisasi polaritas sentimen untuk kumpulan data besar ulasan online Video Instan. Kumpulan data komprehensif yang terdiri dari lima ratus ribu ulasan

online digunakan dalam penelitian kami. Ada lima kelas (Sangat Negatif, Negatif, Netral, Positif dan Sangat Positif). Kami juga mempertimbangkan tiga fitur polaritas Verb, Adverb,

Adjective dan kombinasinya dengan pengertian yang berbeda dalam kategorisasi tingkat ulasan. Eksperimen kami untuk kategorisasi tingkat ulasan menunjukkan hasil yang

menjanjikan karena akurasi hasil kami adalah 81 persen yang 3 persen lebih baik daripada banyak teknik sebelumnya yang akurasi rata-ratanya adalah 78 persen. Negatif, Netral,

Positif dan Sangat Positif). Kami juga mempertimbangkan tiga fitur polaritas Verb, Adverb, Adjective dan kombinasinya dengan pengertian yang berbeda dalam kategorisasi tingkat

ulasan. Eksperimen kami untuk kategorisasi tingkat ulasan menunjukkan hasil yang menjanjikan karena akurasi hasil kami adalah 81 persen yang 3 persen lebih baik daripada

banyak teknik sebelumnya yang akurasi rata-ratanya adalah 78 persen. Negatif, Netral, Positif dan Sangat Positif). Kami juga mempertimbangkan tiga fitur polaritas Verb, Adverb,

Adjective dan kombinasinya dengan pengertian yang berbeda dalam kategorisasi tingkat ulasan. Eksperimen kami untuk kategorisasi tingkat ulasan menunjukkan hasil yang

menjanjikan karena akurasi hasil kami adalah 81 persen yang 3 persen lebih baik daripada banyak teknik sebelumnya yang akurasi rata-ratanya adalah 78 persen.

PERSYARATAN INDEKSSentimen, penggalian opini, media sosial, pemrosesan bahasa alami.

I. PENDAHULUAN emosi halus yang diekspresikan.'' Analisis sentimen adalah studi tentang
Pentingnya sentimen pengguna telah disadari oleh sektor bisnis pendapat orang tentang produk tertentu, orang, teks, dll. Pendapat
dalam dekade terakhir. Sejak itu platform media sosial dan situs web mereka yang menggambarkan suasana hati mereka untuk entitas
lain digunakan untuk mengekstrak opini pengguna tentang produk. tertentu apakah kita suka atau tidak. Ini adalah proses komputasi
Fenomena seperti ini disebut analisis sentimen atau opinion mining. mengidentifikasi dan mengkategorikan pendapat yang diberikan dalam
Opinion mining adalah mengidentifikasi, mengekstraksi, dan ulasan untuk menentukan apakah itu positif, negatif atau netral. Saat ini
memahami sikap atau pendapat pengguna dengan menganalisis internet menyediakan banyak platform yang berbeda bagi pengguna
teks. Proses ini biasanya melibatkan pemrosesan bahasa alami, untuk berbagi sentimen mereka dalam bentuk tekstual untuk produk
analisis statistik, dan teknik pembelajaran mesin untuk analisis yang berbeda. Banyak organisasi besar dapat meningkatkan pendapatan
sentimen. Berbagai nama lain juga digunakan antara lain review jika mereka memperhatikan apa yang dikatakan orang tentang produk
mining, analisis emosional, ekstraksi opini, dan analisis subjektivitas mereka karena orang adalah penilaian terbaik. Berdasarkan ulasan,
[1]. Analisis sentimen telah didefinisikan oleh Smith [2] sebagai, organisasi besar dapat meningkatkan produk mereka sesuai dengan
''Analisis Sentimen adalah evaluasi komputasi dokumen untuk kebutuhan pelanggan. Jadi, karena sangat dibutuhkan menjadi
menentukan tantangan paling penting di era saat ini untuk NLP (Natural language
processing). Oleh karena itu untuk ekstraksi informasi subjektif dari
Editor asosiasi yang mengoordinasikan tinjauan naskah ini dan bahan sumber seperti ulasan produk, teknik analisis sentimen banyak
menyetujuinya untuk diterbitkan adalah Seok-Bum Ko. digunakan.

Karya ini dilisensikan di bawah Lisensi Creative Commons Attribution 4.0. Untuk informasi lebih lanjut, lihat http://creativecommons.org/licenses/by/4.0/
3594 JILID 8, 2020
S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

A. ANALISIS TINGKAT SENTIMEN YANG BERBEDA pengguna meninjau kumpulan data dan kemudian memperkirakan pentingnya
Analisis sentimen dilakukan pada tiga level yaitu, a) level dokumen, mereka dalam klasifikasi otomatis ulasan dalam tiga kelas sentimen yaitu
b) level kalimat dan level frase [3]. Analisis sentimen level dokumen positif, negatif atau netral. Untuk klasifikasi otomatis pengklasifikasi yang
berfokus pada pengklasifikasian seluruh dokumen sebagai positif berbeda telah digunakan dalam komunitas penelitian. Masih belum ditentukan
atau negatif. Dalam klasifikasi tingkat dokumen, tinjauan tunggal pengklasifikasi mana yang terbaik untuk mengklasifikasikan ulasan ke dalam
dari satu topik dipertimbangkan. Tetapi dalam kasus forum dan kelas berdasarkan fitur kata keterangan. Pengklasifikasi bekerja pada
blog, kalimat perbandingan mungkin muncul. Ada dua jenis metode beberapa set fitur. Dalam studi ini kami mengeksplorasi beberapa fitur yang
yang digunakan dalam analisis sentimen tingkat dokumen, i) satu sangat penting dalam konten (teks) ulasan. Fitur-fitur ini adalah kata
adalah pembelajaran terawasi dan lainnya adalah ii) metode keterangan. Kami mengeksplorasi berbagai jenis kata kerja yang dapat
pembelajaran tanpa pengawasan. Dalam metode pembelajaran digunakan untuk mengklasifikasikan ulasan ke dalam kelas positif atau negatif.
terawasi, algoritma tradisional seperti nave Bayesian dan Support
Vector Machine dapat digunakan untuk melatih sistem. Untuk Dalam hal pengklasifikasi, kami tertarik untuk menentukan
melatih dan menguji data, peringkat ulasan (1-5 bintang) dapat kinerja pengklasifikasi berbeda yang digunakan oleh komunitas riset
digunakan. Sementara dalam metode pembelajaran tanpa untuk klasifikasi. Kami menyelidiki bagaimana pengklasifikasi ini
pengawasan kami hanya mengekstrak kata-kata di dalam dokumen. bekerja pada set fitur yang diekstraksi dan yang mana dari mereka
Orang membandingkan satu produk dengan produk serupa lainnya yang mencapai kinerja tinggi.
dan karenanya analisis sentimen tingkat dokumen tidak efisien di
forum dan blog. Persoalan utamanya adalah tidak semua kalimat C. PERNYATAAN MASALAH
dalam sebuah dokumen memiliki relevansi dalam mengungkapkan Peneliti sebelumnya mengusulkan metode luar biasa untuk
opini tentang suatu entitas. Oleh karena itu, klasifikasi subjektivitas menentukan polaritas teks. Biasanya mereka mengklasifikasikan
dan objektivitas sangat penting dalam klasifikasi jenis ini [4]. teks menjadi tiga kelas polaritas yaitu Positif, Negatif dan Netral di
Dalam analisis sentimen tingkat kalimat, polaritas setiap mana kelas positif berisi dokumen-dokumen yang menggunakan
kalimat dihitung dalam [5], [6]. Metode klasifikasi tingkat bahasa positif, sedangkan kelas negatif berisi dokumen-dokumen di
dokumen yang sama dapat diterapkan pada masalah mana pengguna memiliki pengalaman buruk dengan produk dan
klasifikasi tingkat kalimat. Ini membantu untuk mengetahui akhirnya kelas netral menyajikan dokumen-dokumen itu yang tidak
kalimat objektif dan subjektif. Kalimat subjektif berisi kata- positif maupun negatif. Dalam penelitian ini kami memperkenalkan
kata opini yang membantu dalam menentukan sentimen lima kelas polaritas: Sangat negatif, Negatif, Netral, Positif, dan
tentang suatu entitas setelah klasifikasi polaritas dilakukan Sangat Positif. Selain itu, ada juga kebutuhan untuk menyelidiki
ke dalam kelas positif dan negatif [7]. bagaimana bagian-bagian ucapan seperti kata keterangan dapat
Klasifikasi sentimen tingkat frase adalah pendekatan yang digunakan untuk menetapkan polaritas pada teks. Untuk tujuan
lebih spesifik untuk penambangan opini. Frase yang seperti itu, kami menggunakan ulasan produk alih-alih tweet twitter
mengandung kata opini ditemukan dan klasifikasi tingkat frase yang panjangnya pendek.
dilakukan. Klasifikasi ini dapat memiliki kelebihan dan
kekurangan. Dalam beberapa kasus, pendapat yang tepat dari D. PERTANYAAN PENELITIAN
suatu entitas dapat diekstraksi dengan benar (keuntungan). Pertanyaan penelitian berikut telah diidentifikasi selama
Dalam kasus lain di mana polaritas kontekstual penting, tinjauan pustaka;
hasilnya mungkin tidak akurat (kerugian) [8]. RQ1.Apa dampak part of speech (kata keterangan) pada
analisis sentimen pada ulasan produk?
RQ2.Apa dampak dari kombinasi yang berbeda dari kata
B. TUJUAN PENELITIAN keterangan pada klasifikasi?
Melakukan analisis sentimen pada ulasan produk, ulasan ini RQ3.Apa pengklasifikasi terbaik untuk klasifikasi ulasan
mewakili pendapat pengguna untuk produk tertentu. Pengguna produk?
normal suatu produk memposting ulasan mereka dalam bentuk teks
pendek biasanya berisi beberapa kalimat. Kalimat-kalimat ini terdiri E. METODOLOGI PENELITIAN
dari beberapa kata penting. Seperti yang kita ketahui bahwa dalam Metodologi penelitian kami telah disajikan pada Gambar1. Pertama kami
part of speech bahasa Inggris, sebuah kata dapat memiliki arti yang memilih analisis sentimen sebagai domain penelitian dari penelitian ini.
berbeda tergantung pada struktur kalimatnya. Mengidentifikasi Setelah memilih domain penelitian, kami melakukan tinjauan literatur
bagian-bagian dari pidato yang dapat menyajikan arti sebenarnya ekstensif dari domain penelitian. Setelah tahap tinjauan pustaka, kami
dari kalimat adalah tugas yang menantang. Part of speech mengidentifikasi beberapa pertanyaan penelitian yang kami anggap
digunakan untuk memperkirakan sentimen dari komentar perlu dijawab. Kemudian kami mengusulkan metodologi yang menjawab
pengguna. Kata keterangan adalah bagian penting dari setiap pertanyaan penelitian kami. Kami menerapkan metodologi kami dan
kalimat dan karenanya perlu dianalisis perannya dalam menentukan melakukan eksperimen untuk menjawab pertanyaan penelitian kami
sentimen pengguna yang sebenarnya. Berbagai jenis kata yang teridentifikasi selama tinjauan pustaka. Setelah menyelesaikan
keterangan harus diidentifikasi dan dianalisis untuk menentukan percobaan kami, kami telah mengevaluasi hasil kami.
sentimen kalimat.

JILID 8, 2020 3595


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

pada analisis sentimen situs micro blogging seperti twitter. Das


dan Chen [14], mempresentasikan pendekatan untuk
mengekstraksi sentimen dari papan pesan saham di mana
penulis menyarankan bahwa aktivitas pasar dapat berpengaruh
pada sentimen investor median dan kisaran kecil. Studi lain
yang dilakukan oleh Nasukawa dan Yi [15], berfokus pada aspek
subject centric dari analisis sentimen. Teknik yang diusulkan
mengembangkan mekanisme yang menentukan skor polaritas
(yaitu skor sentimen negatif dan positif) yang terkait dengan
subjek tertentu daripada menentukan atau menghitung
sentimen untuk dokumen lengkap. Teknik yang diusulkan telah
dievaluasi menggunakan kumpulan data dari domain yang
berbeda, seperti berita dan halaman web lainnya. Teknik yang
diusulkan mencapai skor presisi keseluruhan 75 hingga 76
persen, tergantung pada berbagai jenis dataset yang digunakan
dalam evaluasi. Teknik pemrosesan bahasa alami telah
digunakan untuk melakukan analisis sentimen. Secara
konvensional, analisis sentimen dapat dilakukan dengan
menggunakan tiga jenis pendekatan utama, pendekatan
GAMBAR 1.Pendekatan analisis sentimen. tersebut adalah a) Pendekatan pembelajaran mesin, b)
Pendekatan berbasis leksikon dan c) Pendekatan hybrid [16].
II. TINJAUAN LITERATUR R.Xia.dkk.[17], mengembangkan teknik hibrida untuk analisis
Teknik yang tersedia untuk melakukan analisis sentimen dapat sentimen. Teknik yang diusulkan menggabungkan pendekatan
diklasifikasikan ke dalam tiga kategori utama. Seperti (a) pendekatan berbasis leksikon dan pembelajaran mesin untuk analisis sentimen.
berbasis pengetahuan, (b) teknik berbasis statistik dan (c) metode POS bersama dengan fitur terkait dan terkait kata dipilih dari
hybrid, teknik atau metode hybrid merupakan kombinasi dari dua leksikon dan kemudian pengklasifikasi pembelajaran mesin (yaitu
pendekatan sebelumnya. Pendekatan berbasis Pengetahuan Naiv Bayes, ME dan SVM) diterapkan untuk menentukan sentimen
Leksikal biasanya berfokus pada kata-kata univokal seperti senang, kata. Untuk mencapai hasil klasifikasi yang lebih baik, percobaan
sedih, takut, dll., sedangkan metode statistik menggunakan teknik dilakukan pada dataset menggunakan kombinasi yang berbeda,
otomatis untuk menilai sentimen berdasarkan analisis pembelajaran seperti pembobotan tetap, pengklasifikasi meta dan teknik
mesin dan pendekatan hibrida menggunakan kedua teknik secara kombinasi ensemble. Beberapa variasi Naive Bayes disajikan oleh
kolektif untuk menganalisis hasil ulasan yang tidak dinyatakan Gamallodkk.[18], berbagai variasi pengklasifikasi Naive Bayes
dengan jelas tetapi memiliki beberapa hubungan dengan produk. diterapkan untuk mengklasifikasikan opini ke dalam kelas yang
berbeda. Fitur seperti Valence Shifters, Polarity Lexicon, Lemmas
Beberapa penelitian sangat terkait dengan pendekatan kami seperti dan Multiword digunakan dalam eksperimen. Nandi dan Agrawal
Fang dan Zhan [9], mengusulkan sebuah proses yang digunakan untuk [19], mempresentasikan teknik hybrid berlapis untuk analisis
mengkategorikan polaritas berdasarkan part of speech (POS). sentimen. Pendekatan yang diusulkan memiliki dua lapisan; lapisan
Pendekatan lain yang dikemukakan oleh Hu dan Liu [10] memberikan pertama adalah pendekatan berbasis leksikon sedangkan lapisan
daftar kata-kata yang berbeda (yaitu kata-kata Positif dan Negatif). Daftar kedua adalah pendekatan pembelajaran mesin. Pengklasifikasi
kata-kata yang diusulkan masing-masing terdiri dari tahun 2006 positif pembelajaran mesin digunakan untuk mengklasifikasikan sentimen
dan 4783 kata-kata negatif. Kata-kata ini didasarkan pada ulasan online opini ke dalam kelas yang berbeda, seperti kelas positif, negatif, dan
yang digunakan untuk mengekstrak subyektif netral. Rajganeshdkk.[20], menyajikan pendekatan hibrida untuk
informasi untuk penelitian ini. Selain itu, dalam teknik teks berpose analisis sentimen. Pendekatannya adalah sistem rekomendasi
kategorisasi pro, Pang dan Lee [11], propo menghapus sed bagaimana caranya berbasis umpan balik yang menggunakan analisis sentimen.
kalimat objektif dengan mengekstrak subjek karena terutamayang aktif
kita harus fokus pada konten subjektif dan tidak membuang dan harus
waktu untuk materi yang tidak relevan. AKU AKU AKU. METODOLOGI YANG DIUSULKAN

Dalam teknik lain yang diusulkan oleh Gann dan Hari (12), A. PENGUMPULAN DATA
penulis menerapkan pendekatan berbasis token pada t data witter Dataset yang digunakan dalam penelitian ini sedang di-crawl
karena mereka menetapkan skor sentimental tertentu ery token menggunakan python crawler. Perayap kumpulan data mengambil
untuk ev yang digunakan untuk menganalisis apakah n pendapat ulasan dari dua produk yang sifatnya berbeda. Oleh karena itu,
suatu positif, negatif atau netral. Beberapa teknologi lainbarang bekas adalah dataset yang telah di-crawl berisi review dari dua produk.
juga berguna seperti pemodelan topik [13] di mana t dia penulis Pertama adalah produk perkantoran yang meliputi Microsoft
mengusulkan proses mengidentifikasi secara otomatis th e fitur Word, Microsoft PowerPoint, Microsoft Excel dan Microsoft
atau aspek suatu produk. Mempersempit komunitas risetion, dalam Access Database. Produk lainnya adalah DVD musik yang berisi
opini beberapa pendekatan telah diajukan dua album utama yaitu pop track dan slow track.

3596 JILID 8, 2020


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

G. TINJAUAN
Saya terkejut ketika menyadari bahwa kantor baru dapat diperbarui setiap
tahundan sebagai akuhanyamembutuhkan kantor dasar dan akanbukan
keuntungan dari program kantor yang ditingkatkan. Aku melihatsekitardan
menemukan 2013 yang akan membantu saya selama komputer saya hidup dan
memikirkan sayademikian juga.Bandingkan tetapi masuk akal untuk
digunakan di rumah - apakah Anda memerlukan fitur tambahan dan apakah
Anda bersedia membayarsetiap tahununtuk mereka. Saya tidak dan saya
senang. Sayasudahharus melakukan pembayaran tahunan pada perangkat
lunak lain yang saya perlukansebagaiperlindungan tetapi biaya tahunan
segeranaik. Gunakan akal sehat Anda. saya bersediatidakpikir banyak
pengguna kantor tahubagaimanauntuk mendapatkanpalingdari itu sebagai
pengguna rumahan kecuali mereka belajar atau mencari nafkah dari program
atau menggunakannyasecara profesional.
Dalam ulasan ini, masing-masing kata keterangan yang muncul dalam
ulasan digarisbawahi dan dicetak tebal tetapi masalahnya adalah untuk
memahami bagaimana kata keterangan ini menceritakan kisah setiap

GAMBAR 2.Metodologi yang diusulkan. pengguna dan untuk sentimen bagaimana itu akan diklasifikasikan. Berbagai
bentuk kata keterangan seperti tahunan, hanya, juga, sudah, secara
profesional adalah beberapa kata keterangan umum (RB) dan sebagian besar
adalah kata keterangan superlatif umum (RBS).
B. PEMROSESAN PRA
Pada langkah pra-pemrosesan, pada fase pertama batas kalimat
akan ditentukan dan setelah memverifikasi batas kalimat, fase
H. FITUR SKOR
selanjutnya adalah tokenize teks menjadi kata-kata tunggal. Senti Word Net 3.0, sumber leksikal yang dirancang secara eksplisit

Langkah pra-pemrosesan juga mencakup penghapusan kata untuk mendukung klasifikasi sentimen dan aplikasi penambangan

henti, spasi, tag baris baru, tag html, emosi, dan simbol khusus. opini. Senti Word Net 3.0 adalah versi perbaikan dari Senti Word Net
1.0, sumber leksikal yang tersedia untuk umum untuk tujuan
penelitian. Senti Word Net adalah salah satu dari leksikon ini yang
menetapkan untuk setiap synset Word Net, tiga skor numerik
C. PENGHAPIAN STOP WORDS
sentimen, positif, negatif, dan objektivitas. Oleh karena itu, basis
Stopword biasanya merupakan kata tambahan yang tidak diperlukan untuk
pengetahuan yang dapat digunakan untuk menetapkan skor. Total
kategorisasi polaritas sentimen. Kami menghapus semua kata berhenti di
kata positif yang ada di dalamnya adalah 3.076.708 dan kata negatif
kumpulan data kami yang bermanfaat untuk akurasi yang lebih baik.
sebanyak 151.044. Setiap fitur yang ada dalam dokumen, ulasan,
atau teks apa pun diberi skor positif dan negatif (Salehan, M., & Kim,
D. TOKENISASI
DJ (2016)) [21].
Kami menetapkan setiap kata dengan token dan berdasarkan token itu
kami mendapatkan skor kata dari perpustakaan Senti Word Net.
I. PENILAIAN KALIMAT
Skor kalimat dihitung dengan skor indi-
E. STEMMING
kata-kata individu hadir dalam kalimat tertentu.
Kami melakukan stemming dari kumpulan data lengkap untuk

memastikan bahwa kata-kata identik dalam ulasan harus dihapus Skor Sen(s)1/n= (saya=0)^n Pi (1)
karena ini tidak menyebabkan pengulangan kata-kata yang identik.
di mana,

• Sen Score(s) adalah skor untuk sebuah kalimat dalam dokumen atau
F. BAGIAN DARI SPEED TAGGING (POS TAGGING) review.

Ulasan terdiri dari bagian yang berbeda dari kata sifat suc; kata h sebagai kata benda,
• n adalah jumlah total kata yang ada dalam sebuah kalimat.
kerja dan kata keterangan diberi tag menggunakan Natura tool aku bahasa • (Pi) kata polaritas hadir dalam kalimat di mana i adalah
kit (NLTK). Ketertarikan utama pada adverbia penelitian ini dan ch bersama batas kata
bentuknya sehingga semua bentuk adverbia berasal dari review. diekstraksi Mari kita perhatikan contoh untuk menghitung skor tingkat
NLTK menandai beberapa kata keterangan suc memiliki: kalimat.
Kata keterangan superlatif (RRS):yang memodifikasi gen kata keterangan ral Kalimat 1:''Kantor Microsoft versi 2013 adalahsangat bagus,
dengan superior misalnya terbaik, terpanjang dan termudah dll. dan banyak hal yang ditingkatkankhususnyagaya baru.
Kata keterangan komparatif (RBR):yang memodifikasi v kata keterangan erb bersama Penjelasan:Kata ''sangat'' dan khususnya adalah kata keterangan
lain dengan perbandingan misalnya lebih banyak, lebih sedikit dan d sedikit dll. umum. Sekarang dua kata keterangan yang berbeda ini akan
Kata keterangan (RB):yang memodifikasi kata kerja menggunakan anot kata keterangannya mendapatkan skor dari perpustakaan Senti Word Net dan rata-rata
misalnya sangat, diam-diam, banyak dll. dihitung untuk kalimat ini.

JILID 8, 2020 3597


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

Skor kalimat:Skor kalimat positif karena kedua adverbia TABEL 1.Peringkat bintang.

memiliki skor polaritas positif yang disetel ulang oleh leksikon


polaritas ''Senti Word Net''.
Mari kita perhatikan contoh lain di mana negasi terjadi. Kalimat 2:''aksesnya
adalahbukanitu bagussebagaidibandingkan dengan SQL tetapi yang lain
seperti Excel, Word adalahjauh lebih baikdaripada sebelumnya''
Penjelasan:Kalimat ini mengandung ''not''&''as'' adalah kata
keterangan umum dan ''banyak'' &'' lebih baik'' adalah kata keterangan
superlatif. Sekarang kata keterangan ini akan mendapatkan skor dan
untuk menemukan polaritas kalimat ini di mana negasi terjadi terlebih
dahulu negativitas dihitung dengan rumus sebagai

Skor Neg=1(Skor positif+Skor negatif


Kemudian, perhitungan total akan dibangun untuk memahami
sentimen dari sebuah kalimat. peringkat kelas [30], [31]. Dataset Tinjauan Amazon Besar berisi 308.420
Skor kalimat:Dengan demikian, semua kalimat diberi skor dan ulasan yang sangat polar (baik atau buruk) untuk pelatihan dan
akhirnya diambil rata-rata untuk penilaian ulasan suatu produk. pengujian. Masalahnya adalah untuk menentukan apakah ulasan yang
diberikan memiliki sentimen yang berbeda tergantung pada polaritas
J. TINJAUAN SKOR fitur kata keterangan. Berbagai metodologi telah dipraktikkan oleh
Skor ulasan dihitung dengan skor kalimat berbagai penelitian selama bertahun-tahun mulai dari pengklasifikasi
hadir dalam ulasan. berbasis pohon hingga pendekatan berbasis jaringan saraf. Kami telah
∑ memilih Naive Bayes, Decision Tree, Random Forest, Sup-
Skor Rev(r)1/n= (saya=0)^n Si
(2) Port Vector Machine, Gradient Boosting dan Sequence to
di mana, Urutan Jaringan Saraf Berulang.
• Skor Rev (r) adalah skor dari sebuah dokumen atau review.
• n adalah jumlah total kalimat dalam ulasan. 1) NAIVE BAYES CLASSIFIER
• (Si) kalimat hadir dalam ulasan di mana i adalah batas Naive Byes adalah algoritma klasifikasi berbasis probabilitas yang banyak
kalimat. digunakan oleh komunitas riset berdasarkan Teorema Bayes.

Untuk mengklasifikasikan ulasan menggunakan kata keterangan Pengklasifikasi Naive Byes didasarkan pada asumsi bahwa penampilan

dan bentuknya yang berbeda, masing-masing ulasan diberi tag. atribut tertentu dalam suatu kelas tidak terkait dengan penampilan

Setelah menandai ulasan, berbagai bentuk kata keterangan atribut lainnya. Model Naive Bayes berguna untuk kumpulan data yang

diekstraksi. Setelah mengekstrak formulir ini, mereka digabungkan sangat besar. Seiring dengan kesederhanaan, Naive Bayes dikenal

bersama untuk skor menggunakan Senti Word Net. Pertama, pada mengungguli bahkan metode klasifikasi yang sangat canggih. Saat ini

level kalimat kemudian pada level review diberikan skor skor akhir Google menggunakannya, untuk menandai email sebagai spam, atau

review dan akan diklasifikasikan dengan kelas rating bintang 5 (Hu, bukan spam. Ini juga digunakan oleh beberapa agensi baru untuk

YH, Chen, K., & Lee, PJ (2017) [22] mengklasifikasikan berita ke dalam kategori yang berbeda seperti
teknologi, hiburan, politik, dan olahraga, dll.
K. PERINGKAT BINTANG

Untuk setiap ulasan selalu ada peringkat bintang yang diberikan 2) KLASIFIKASI POHON KEPUTUSAN

oleh pengguna berdasarkan pengalamannya untuk produk tertentu. Pohon keputusan adalah algoritma klasifikasi yang banyak digunakan
Dengan demikian, Amazon juga berisi peringkat bintang setiap kali oleh komunitas riset untuk tujuan klasifikasi. Pohon keputusan juga
pelanggan berbagi pendapat. Untuk mengevaluasi peringkat digunakan dalam klasifikasi teks ke dalam polaritas sentimen. Itu
bintang 5 dari ulasan, langkah pertama adalah mencari tahu kisaran termasuk dalam kategori pembelajaran mesin. Seperti yang kita bahas
dari peringkat tertinggi hingga terendah. Untuk menghitung tingkat dalam bab kerja terkait, banyak penelitian memanfaatkan pohon
bintang ini, berkisar dari 0 hingga 1, peneliti yang berbeda keputusan untuk klasifikasi tweet menjadi tweet positif, negatif dan
berkontribusi seperti Pappas & Popescu-Belis [23], Lak & Turetken netral.
[24], Boondkk.[25] dan Lee dan Pang [26] yang menunjukkan kisaran
sangat positif dan sangat negatif yaitu 1 hingga 1 masing-masing. 3) KLASIFIKASI HUTAN RANDOM
Tabel 1 menunjukkan peringkat bintang bersama dengan nilai Random Forest adalah metode pembelajaran mesin serbaguna yang mampu
polaritas dan klasifikasi yang diambil dari literatur melakukan tugas regresi dan klasifikasi. Itu juga melakukan metode
masa depan Kinc akudkk.[27], Zhang dkk.[28], dan Sti eglitz dan pengurangan dimensi, memperlakukan nilai yang hilang, nilai outlier dan
n [29]
Dang-Xu sebuah langkah-langkah penting lainnya dari eksplorasi data, dan melakukan
pekerjaan yang cukup baik. Ini adalah jenis metode pembelajaran ensemble, di
KELAS L IFIKASI mana sekelompok model yang lemah bergabung untuk membentuk model
Setiap revisi ew adalah barisan variabel nce dari kata-kata dan sentimen yang kuat. Untuk mengklasifikasikan objek baru berdasarkan atribut, setiap
dari setiap re tampilan harus berkelas fied ke dalam ment di atas bintang terionisasi pohon memberikan klasifikasi dan kami menyebutnya pohon

3598 JILID 8, 2020


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

''suara'' untuk kelas itu. Hutan memilih klasifikasi yang memiliki masyarakat. Masih belum ditentukan pengklasifikasi mana yang paling baik
suara terbanyak (di atas semua pohon di hutan) dan mengambil mengklasifikasikan ulasan ke dalam kelas berdasarkan fitur kata keterangan.
rata-rata output dari pohon yang berbeda. Pengklasifikasi bekerja pada beberapa set fitur. Dalam studi ini kami
mengeksplorasi beberapa fitur yang sangat penting dalam konten (teks)
4) MESIN VEKTOR DUKUNGAN ulasan. Fitur-fitur ini adalah kata keterangan. Kami mengeksplorasi berbagai
Support Vector Machines mungkin merupakan salah satu algoritma jenis kata kerja yang dapat digunakan untuk mengklasifikasikan ulasan ke
pembelajaran mesin yang paling terkenal dan didiskusikan. Itu tetap dalam kelas positif atau negatif.
menjadi arus utama sekitar waktu mereka dibuat pada 1990-an dan Dalam hal pengklasifikasi, kami tertarik untuk menentukan
terus menjadi teknik masuk untuk algoritme berperforma tinggi kinerja pengklasifikasi berbeda yang digunakan oleh komunitas riset
dengan sedikit penyetelan. Ini adalah pengklasifikasi diskriminatif, untuk klasifikasi. Kami menyelidiki bagaimana pengklasifikasi ini
diberikan data pelatihan berlabel (pembelajaran yang diawasi), bekerja pada set fitur yang diekstraksi dan yang mana dari mereka
algoritme menghasilkan bidang hiper optimal yang yang mencapai kinerja tinggi.
mengkategorikan contoh baru. Atas dasar pelatihan ini, algoritma Kami membandingkan hasil dengan analisis sentimen menggunakan
mampu memprediksi input yang tidak diketahui. data ulasan produk di mana penulis (''Xing Fang & Justin Zhan 2015'')
diterbitkan di jurnal terbuka Springer pada tahun 2015. Alasan untuk
5) GRADIENT BOOSTING CLASSIFIER membandingkan dengan pekerjaan penelitian tersebut adalah bahwa
Teknik peningkatan gradien digunakan oleh perusahaan mesin pencari kedua penelitian (kami dan basis paper) menangani masalah yang sama
besar, yaitu Google, Bing, Yandex dan Yahoo. Mereka menggunakannya tetapi pendekatan kami untuk memecahkan masalah analisis sentimen
untuk peringkat halaman web, tetapi sebenarnya tidak terbatas pada berbeda karena kami menggunakan fitur polaritas (Kata keterangan dan
domain aplikasi dan dapat digunakan untuk berbagai masalah (Viola dan bentuknya yang berbeda) baik secara individual maupun kombinasi
Jones 2001) [32]. Gradient boosting classifiers adalah model yang dibuat karena tidak ada teknik sebelumnya yang mempertimbangkan lima kelas
dari berbagai model yang lebih lemah yang dilatih secara individual dan sentimen ditambah tiga fitur polaritas. Perbedaan tersebut adalah inti
setiap prediksi model digabungkan. Ini adalah strategi yang efektif dan kebaruan dari pekerjaan kami. Tiga ukuran evaluasi seperti Precision,
karenanya sangat terkenal. Recall, dan F-Measures digunakan dengan menggunakan pengklasifikasi
yang berbeda pertama menggunakan fitur tunggal dan kemudian fitur
6) URUTAN KE MODEL URUTAN biner dan mencari tahu mana dari mereka yang mencapai kinerja tinggi.
Salah satu jaringan syaraf tiruan yang kuat adalah jaringan model jangka
pendek panjang atau disebut juga LSTM. Dalam metode yang kami Untuk mengevaluasi atau mengusulkan metodologi, kami
usulkan, kami akan menguraikan tinjauan ke dalam ruang vektor nyata, menggunakan tiga langkah evaluasi. Ini termasuk Precision,
metode utama saat bekerja dengan teks yang disebut penyisipan kata. Ini Recall dan F-Measure (Tripathy, A., Agrawal, A., & Rath, SK
adalah prosedur di mana istilah dikodekan sebagai vektor bernilai nyata 2016) [33]. Metode evaluasi ini disajikan dalam rumus
dalam ruang dimensi tinggi, di mana kemiripan antara istilah berikut,
menggambarkan kedekatan dalam ruang vektor. Keras adalah presisi:Presisi adalah rasio contoh yang diidentifikasi dengan
perpustakaan sumber terbuka yang memberikan pendekatan yang benar dengan total contoh dalam data. Ini dapat direpresentasikan
menguntungkan untuk mengubah representasi bilangan bulat positif sebagai,
dari kata-kata menjadi penyisipan kata oleh lapisan Embedding.
presisi=Tp/(Tp + FP)
IV. EVALUASI
Lakukan analisis sentimen pada ulasan produk, ulasan ini mewakili pendapat Mengingat:Recall adalah ukuran evaluasi kedua yang kami gunakan
pengguna tentang produk tertentu. Pengguna normal suatu produk untuk mengevaluasi kinerja pengklasifikasi. Ini dapat direpresentasikan
memposting ulasan mereka dalam bentuk teks pendek biasanya berisi sebagai,
beberapa kalimat. Kalimat ini terdiri dari beberapa kata penting. Seperti yang
kita ketahui bahwa dalam part of speech bahasa Inggris, sebuah kata dapat Mengingat=Tp/(Tp + TN)
memberikan arti yang berbeda tergantung pada struktur kalimatnya.
Mengidentifikasi bagian dari pidato yang dapat menyajikan arti sebenarnya
F-Ukuran:Akhirnya, kami juga menghitung skor F-Measure dari

dari kalimat adalah tugas yang menantang. Part of speech digunakan untuk
pengklasifikasi yang dapat ditampilkan sebagai

memperkirakan sentimen pengguna. Kata keterangan adalah bagian penting


dari setiap kalimat dan karenanya perlu dianalisis perannya dalam
F−Ukuran=2× PresisiRecall/(presisi+ Mengingat)
menentukan sentimen pengguna yang sebenarnya. Berbagai jenis kata
keterangan harus diidentifikasi dan dianalisis untuk menentukan sentimen A. ALAT DAN TEKNIK
kalimat. Jadi dalam pekerjaan ini kami akan mengidentifikasi dan mengekstrak 1) Kit Alat Bahasa Alami untuk penandaan bagian ucapan menggunakan

berbagai jenis kata keterangan dari kumpulan data ulasan pengguna dan kumpulan tag tertentu.

kemudian memperkirakan pentingnya mereka dalam klasifikasi ulasan 2) Microsoft Excel untuk pra-pengolahan data dan setelah
otomatis dalam tiga kelas sentimen yaitu positif, negatif atau netral. Untuk pengolahan data untuk hasil.
klasifikasi otomatis, pengklasifikasi yang berbeda telah digunakan dalam 3) platform pemrograman Python
penelitian 4) Senti-Word Net digunakan untuk mencetak fitur

JILID 8, 2020 3599


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

GAMBAR 3.Skor evaluasi Precision, Recall dan F-Measure untuk


GAMBAR 4.Skor evaluasi Precision, Recall dan F-Measure untuk
Random Forest Algorithm saat menggunakan Single Feature Set.
Algoritma Decision Tree saat menggunakan Single Feature Set.

V. HASIL
A. AKUISISI SET DATA
Dataset diperoleh dengan menggunakan crawler yang
dikembangkan dalam bahasa pemrograman python dari Amazon.
Metodologi yang diusulkan menggunakan dataset yang beragam.
Dataset berisi ulasan dari dua produk.
• Produk kantor
• DVD musik
Ulasan ini menyimpan ID produk, ulasan produk, bintang peringkat
produk, dan ringkasan keseluruhan ulasan bersama dengan beberapa
metadata. Ada 30.842 ulasan untuk menguji upaya penelitian secara
menyeluruh. Kumpulan data yang dikumpulkan cukup beragam dan
termasuk produk yang berbeda untuk menguji upaya penelitian secara GAMBAR 5.Skor evaluasi Precision, Recall dan F-Measure untuk Algoritma
Naïve Bayes saat menggunakan Single Feature Set.
komprehensif.

B. FITUR TUNGGAL
Bagian ini membahas hasil pengklasifikasi ketika kita hanya menggunakan fitur
tunggal. Ini berarti ketika setiap fitur digunakan oleh pengklasifikasi yang
berbeda, pengklasifikasi mana yang berkinerja terbaik.

1) KLASIFIKASI HUTAN RANDOM


Pertama kami menerapkan pengklasifikasi hutan Acak pada set
fitur 1. Telah diamati bahwa skor ukuran-F RBR melakukan yang
terbaik dengan mengamankan ukuran-F 0,96. Demikian pula
bentuk-bentuk berikut dapat mencapai ukuran F lebih banyak
dari atau sama dengan 0,80: RB dan RBS. Namun, kata keterangan umum
memperoleh F-ukuran terendah sebesar 0,81 as Hai
c dibandingkan dengan orang lain.

2) KLASIFIKASI POHON KEPUTUSAN


Kali ini kita menerapkan Decision Tree set saya
fieh di Feature med GAMBAR 6.Skor evaluasi Precision, Recall dan F-Measure untuk Algoritma
kelas 1. Dapat diamati bahwa RBR per fatau
yang terbaik oleh SVM saat menggunakan Single Feature Set.

mengamankan F-measure sebesar 0,96. aku


kamubentuk berikut
Serupa mampu mencapai F-ukuran 0,78: RBmbijih dari atau sama eb
r
dan RBS. Namun, ukuran F- adv est umum memperoleh e rendah 3) NAVE BAYES CLASSIFIER
sebesar 0,78. Ini menunjukkan dibandingkan
sebagai dengan Kami menerapkan pengklasifikasi Naive Bayes pada set Fitur 1.
Pengklasifikasi Hutan Acak decr. Dalam hal skor F-Measure, RBR & RBS berkinerja terbaik

3600 JILID 8, 2020


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

GAMBAR 7.Skor evaluasi Precision, Recall dan F-Measure untuk


Algoritma Gradient Boosting saat menggunakan Single Feature Set.
GAMBAR 10.Skor evaluasi Precision, Recall dan F-Measure untuk
Algoritma Decision Tree saat menggunakan Binary Feature Set.

GAMBAR 11.Skor evaluasi Precision, Recall dan F-Measure untuk Algoritma


Naive Bayes saat menggunakan Binary Feature Set.

ANGKA 8.Skor evaluasi Precision, Recall dan F-Measure untuk Model


Sequence to Sequence saat menggunakan Single Feature Set.
4) MESIN VEKTOR DUKUNGAN
Kami menerapkan classifier Support Vector Machine pada set
Feature 1. Jika kita mengamati F-measure dengan cermat, maka
performanya sama dengan Random Forest Classifier. RBR
melakukan yang terbaik dengan mengamankan F-measure 0,96.
Demikian pula bentuk-bentuk berikut mampu mencapai ukuran F
lebih dari atau sama dengan 0,85: RB dan RBS.

5) GRADIENT BOOSTING CLASSIFIER


Kami menerapkan pengklasifikasi Peningkat Gradien pada set Fitur
1. Ini bekerja sama dengan Pengklasifikasi Hutan Acak dan Mesin
Vektor Dukungan. RBR melakukan yang terbaik dengan
mengamankan F-measure 0,96. Demikian pula bentuk-bentuk
berikut mampu mencapai ukuran F lebih dari atau sama dengan

GAMBAR 9.Skor evaluasi Presisi, Ingat Algoritma d F-Ukur e untuk


0,76: RB dan RBS. Namun, kata keterangan umum memperoleh F-
Hutan Acak saat menggunakan Binary Feat kamu
mengatur ulang. ukuran terendah sebesar 0,76.

6) URUTAN KE MODEL URUTAN


rly mengikutibentuk sayap
dengan mengamankan F-ukuran 0,87.sebuah Kami menerapkan model Sequence to Sequence pada set Fitur 1. Ini
Simil mampu mencapai ukuran F mHai kembali itu n atau sama melakukan yang terbaik untuk fitur RBS di antara semua
sebesar 0,76: RB. Namun, general b obtains t dia terendah pengklasifikasi. RBS melakukan yang terbaik dengan mengamankan
adver F-ukuran 0,76. F-measure dari 0,91. Fitur RB tidak berkinerja baik dan mencapai

JILID 8, 2020 3601


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

skor terendah 0,53. Namun, kata keterangan umum memperoleh F-


ukuran terendah sebesar 0,84.

C. FITUR BINER
Bagian ini akan membahas analisis Bi Feature (kombinasi
yang terdiri dari kombinasi dua fitur) dari tiga bentuk kata
keterangan yang berbeda. Ketika tiga bentuk kata
keterangan digabungkan. Ada total 7 kombinasi. Dalam
kombinasi ini, ada tiga Fitur Bi. Kami menerapkan
pengklasifikasi yang berbeda & memperoleh hasil.

1) KLASIFIKASI HUTAN RANDOM


Pertama, kami menerapkan pengklasifikasi hutan Acak pada set Fitur 2.
Kata keterangan komparatif (RBR) + Kata keterangan superlatif (RRS)
GAMBAR 12.Skor evaluasi Precision, Recall dan F-Measure untuk Algoritma
melakukan yang terbaik dengan mengamankan ukuran-F 0,95. Demikian SVM saat menggunakan Binary Feature Set.
pula bentuk-bentuk berikut mampu mencapai ukuran F lebih dari atau
sama dengan 0,81: Kata keterangan (RB) + Kata keterangan komparatif
(RBR) dan Kata keterangan (RB) + Kata keterangan superlatif (RRS).
Namun, General Adverb (RB) + Comparative Adverbs (RBR) memperoleh
F- measure terendah sebesar 0,81.

2) KLASIFIKASI POHON KEPUTUSAN


Kali ini kami menerapkan pengklasifikasi Pohon Keputusan pada set Fitur
2. Jika kami mengamati ukuran-F dengan cermat Kata keterangan
komparatif (RBR) + Kata keterangan superlatif (RRS) tampil paling baik
dengan mengamankan ukuran-F 0,95. Demikian pula bentuk-bentuk
berikut mampu mencapai ukuran F lebih dari atau sama dengan 0,78:
Kata keterangan (RB) + Kata keterangan komparatif (RBR) dan Kata
keterangan (RB) + Kata keterangan superlatif (RRS).

3) NAIVE BAYES CLASSIFIER GAMBAR 13.Skor evaluasi Precision, Recall dan F-Measure untuk
Gradient Boosting Algorithm saat menggunakan Binary Feature Set.
Kami menerapkan pengklasifikasi Naive Bayes pada set Fitur 2. Jika kami
mengamati ukuran-F dengan cermat. Kata keterangan komparatif (RBR)
+ Superlative adverbs (RRS) melakukan yang terbaik dengan
bentuk lain mampu mencapai ukuran F lebih dari atau sama
mengamankan F-measure dari 0,91. Demikian pula bentuk-bentuk
dengan 0,79: Adverb (RB) + Comparative adverbs (RBR) dan
berikut mampu mencapai ukuran F lebih dari atau sama dengan 0,77:
Adverb (RB) + Superlative adverbs (RRS).
Kata keterangan (RB) + Kata keterangan komparatif (RBR) dan Kata
keterangan (RB) + Kata keterangan superlatif (RRS). Namun, Adverb (RB)+
Comparative adverbs (RBR) memperoleh F-ukuran terendah sebesar 0,77. 6) URUTAN KE MODEL URUTAN
Kami menerapkan model Sequence to Sequence pada Feature set 2.
Ini melakukan yang terbaik untuk fitur Comparative adverbs (RBR) +
4) MESIN VEKTOR DUKUNGAN Superlative adverbs (RRS) di antara semua pengklasifikasi.
Kami menerapkan pengklasifikasi Mesin Vektor Dukungan pada Comparative adverbs (RBR) + Superlative adverbs (RRS)
set Fitur 2. Ini bekerja sama dengan Pengklasifikasi Hutan Acak. menunjukkan performa terbaik dengan mengamankan F-measure
Comparative adverbs (RBR) + Superlative adverbs (RRS) sebesar 0,91. Fitur Adverb (RB) + Comparative adverbs (RBR) dan
menunjukkan performa terbaik dengan mengamankan F- Adverb (RB) + Superlative adverbs (RRS) tidak berjalan dengan baik
measure sebesar 0,94. Demikian pula bentuk lain mampu dan mencapai skor terendah 0,53.
mencapai ukuran F lebih dari atau sama dengan 0,82: Adverbia
(RB) + Comparative adverbs (RBR) dan Adverb (RB) + Superlative D. DISKUSI
adverbs (RRS) Kami mengevaluasi kinerja 6 pengklasifikasi, menggunakan tiga
kombinasi fitur. Fitur-fitur ini terdiri dari tiga jenis kata
5) GRADIENT BOOSTING CLASSIFIER keterangan. Pada run pertama setiap classifier kami
Kami menerapkan Gradient Boosting Classifier pada set Fitur 2. Ini menggunakan jenis adverbia tunggal, kemudian pada run
bekerja sama dengan Random Forest Classifier. Comparative adverbs kedua kami menggabungkan dua jenis adverbia dan total 6
(RBR) + Superlative adverbs (RRS) menunjukkan performa terbaik dengan atribut biner telah diuji sementara pada run ketiga kami
mengamankan F-measure sebesar 0,95. Demikian pula menguji semuanya bersama-sama.

3602 JILID 8, 2020


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

GAMBAR 16.Skor presisi dari semua 6 pengklasifikasi di Fitur Biner.

GAMBAR 14.Skor evaluasi Precision, Recall dan F-Measure untuk Model


Sequence to Sequence saat menggunakan Binary Feature Set.

GAMBAR 17.Skor F-Score dari semua 6 pengklasifikasi di Fitur Tunggal.

GAMBAR 15.Skor presisi dari semua 6 pengklasifikasi di Fitur Tunggal.

1) PRESISI PADA FITUR TUNGGAL


GAMBAR 18.Skor presisi dari semua 6 pengklasifikasi di Fitur Biner.
Seperti yang dapat ditunjukkan pada gambar di atas bahwa LSTM
berkinerja sangat buruk dalam hal presisi saat menggunakan fitur
RB dan RBR. Sedangkan LSTM memiliki nilai presisi yang baik saat
menggunakan fitur RBS. Di sisi lain Naive Bayes adalah algoritma
kinerja terburuk kedua yang menggunakan ketiga jenis kata
keterangan. Random Forest, Decision tree, SVM dan Gradient
Boosting mencapai presisi tinggi pada fitur RBR.

2) INGAT PADA FITUR TUNGGAL


Lagi-lagi algoritma LSTM (neural networks) gagal mencapai
recall yang tinggi pada atribut RB dan RBR. Sedangkan atribut GAMBAR 19.Ingat skor dari semua 6 pengklasifikasi di Fitur Biner.
RBR terbukti efisien untuk semua classifier kecuali Naïve Bayes
dan LSTM.
4) PRESISI PADA FITUR BINER
3) F –UKUR PADA FITUR TUNGGAL Algoritma LSTM berkinerja buruk dalam hal presisi ketika kami
LSTM mencapai F-score yang tinggi saat menggunakan fitur RBS, sementara menggabungkan tiga jenis kata keterangan. Kombinasi RBR dan
memiliki recall yang rendah saat menggunakan fitur RB dan RBR. Algoritma RBS terbukti efisien karena mencapai presisi tinggi pada semua
Random Forest, Decision Tree, SVM dan Gradient Boosting mencapai skor F- pengklasifikasi yang diharapkan dari algoritma LSTM. Dua
measure yang tinggi sementara Random Forest mencapai skor F-measure yang kombinasi RB-RBR dan RB-RBS lainnya memiliki presisi rendah
tinggi di RB. Tapi secara keseluruhan RBR memiliki skor F-measure yang tinggi untuk semua pengklasifikasi yang disajikan pada Gambar IV.
dibanding yang lainnya

JILID 8, 2020 3603


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

[4] M. Devika, C. Sunitha, dan A. Ganesh, ''Analisis sentimen: Sebuah studi


komparatif pada pendekatan yang berbeda,''Komputer Procedia. Sci., jilid. 87,
hlm. 44–49, Januari 2016.
[5] K. Schouten dan F. Frasincar, ''Survei pada analisis sentimen tingkat aspek,'' IEEE
Trans. tahu. Data Eng., jilid. 28, tidak. 3, hlm. 813–830, Maret 2016.
[6] R. Arulmurugan, KR Sabarmathi, dan H. Anandakumar, ''Klasifikasi analisis
sentimen tingkat kalimat menggunakan teknik cloud machine learning,''
Komputasi Klaster, jilid. 22, tidak. S1, hlm. 1199–1209, Januari 2019, doi:
10.1007/s10586-017-1200-1.
[7] P. Burnap, R. Gibson, L. Sloan, R. Southern, dan M. Williams, ''140 karakter
menuju kemenangan?: Menggunakan Twitter untuk memprediksi pemilihan
umum Inggris 2015''Pejantan Pemilu., jilid. 41, hlm. 230–233, Maret 2016, doi:
10.1016/j.electstud.2015.11.017.
GAMBAR 20.Skor F-Measure dari semua 6 pengklasifikasi di Fitur Biner. [8] AS Manek, PD Shenoy, MC Mohan, dan VK R, ''Ekstraksi istilah aspek untuk
analisis sentimen dalam ulasan film besar menggunakan metode pemilihan
fitur Indeks Gini dan pengklasifikasi SVM,''World Wide Web, jilid. 20, tidak. 2,
hlm. 135-154, Maret 2017, doi:10.1007/s11280-015-0381-x.
[9] X. Fang dan J. Zhan, ''Analisis sentimen menggunakan data ulasan produk,''
5) INGAT DI FITUR BINARY
J. BigData, jilid. 2, tidak. 1, hal. 5 Desember 2015, doi:10.1186/s40537-015-0015-2.
Perilaku yang sama seperti yang telah kita lihat dalam kasus Presisi di mana LSTM [10] M. Hu dan B. Liu, ''Menambang dan meringkas ulasan pelanggan,'' diProk. ACM
berkinerja buruk sementara semua pengklasifikasi lainnya mencapai penarikan yang SIGKDD Int. Kon. tahu. Penambangan Data Penemuan (KDD), 2004.

baik menggunakan kombinasi kata keterangan RBR-RBS.


[11] B. Pang dan L. Lee, ''Penambangan opini dan analisis sentimen,''
Ditemukan. Tren Inf. Retr., jilid. 1, tidak. 1–2, hlm. 1-135, 2008, doi:
10.1561/1500000011.
6) F-MEASURE PADA FITUR BINER [12] W.-JK Gann, J. Day, dan S. Zhou, ''Analisis Twitter untuk sistem deteksi penipuan
perdagangan orang dalam,'' diProk. 2nd ASE Int. Kon. Data besar, 2014.
Gambar 20 menunjukkan perbandingan antara skor F-Measure
[13] Y. Liu, ''Alat media sosial sebagai sumber belajar,''J. Pendidikan. teknologi.
untuk masing-masing classifier dan dapat ditunjukkan bahwa LSTM Mengembangkan. Menukarkan, jilid. 3, tidak. 1, hlm. 101–114, Maret 2017.
dan Naive Bayes memiliki F-score paling kecil dibandingkan classifier [14] SR Das dan MY Chen, ''Yahoo! Untuk Amazon: Penguraian sentimen dari obrolan
ringan di Web,'' Inst. Operasi Res. Mengelola. Sci., Catonsville, MD, AS, Tek.
lainnya. Lagi-lagi kombinasi RBR-RBS terbukti lebih efisien.
Rep., Sep. 2007, vol. 53, tidak. 9, hlm. 1–16.
[15] T. Nasukawa dan J. Yi, ''Analisis sentimen: Menangkap kesukaan menggunakan
E. KETERBATASAN DAN PENELITIAN MASA DEPAN pemrosesan bahasa alami,'' diProk. Int. Kon. tahu. Tangkap (K-CAP), 2003, hlm.
70–77.
Seperti halnya penelitian lain, penelitian ini memiliki keterbatasan.
[16] A. Cambero, ''Sebuah studi perbandingan metode analisis sentimen Twitter untuk
Analisis sentimen otomatis sangat membantu untuk menganalisis aplikasi langsung,'' B. Thomas Golisano College Comput. Inf. Sci., Rochester
informasi tekstual besar, masih memiliki keterbatasan. Perangkat lunak Inst. Technol., Rochester, NY, AS, Teknologi. Rep.8, 2016.
[17] R. Xia, C. Zong, dan S. Li, ''Ensemble set fitur dan algoritma klasifikasi
yang kami gunakan dalam penelitian ini memiliki kemampuan untuk
untuk klasifikasi sentimen,''Inf. Sci., jilid. 181, tidak. 6, hlm. 1138–
memproses berbagai jenis informasi tekstual. Tetapi memiliki kelemahan 1152, Maret 2011, doi:10.1016/j.ins.2010.11.023.
dalam memproses gaya yang berbeda seperti sarkasme. Sebaliknya ada [18] P. Gamallo dan M. Garcia, ''Citius: Strategi naif–Bayes untuk analisis sentimen
pada tweet bahasa Inggris,'' diProk. 8th Int. Evaluasi Semantik Lokakarya.
area lebih lanjut untuk perbaikan di bidang pemrosesan bahasa alami.
(SemEval), 2014, hlm. 171–175.
Pekerjaan penelitian di masa depan dapat memberikan wawasan yang [19] V. Nandi dan S. Agrawal, ''Analisis sentimen politik menggunakan pendekatan
lebih baik mengenai informasi yang terkandung dalam ulasan online hibrida,''Int. Res. J. Eng. teknologi., jilid. 3, tidak. 5, hlm. 1621–1627, 2016.

menggunakan teknologi yang lebih maju. Penelitian selanjutnya juga [20] N. Rajganesh, C. Asha, AT Keerthana, dan K. Suriya, ''Sistem rekomendasi buku
berbasis umpan balik hibrida menggunakan analisis sentimen,''Int. J.Sci. Res.
dapat melihat bagaimana penjelasan dari berbagai aspek review Hitung. Sci., Eng. Inf. teknologi., jilid. 3, tidak. 3, hlm. 2456–3307, 2018.
pelanggan terhadap kualitas produk, pengaruh strategi pemasaran di [21] M. Salehan dan DJ Kim, ''Memprediksi kinerja ulasan konsumen online:
bidang data mining. Pendekatan penambangan sentimen,'' diProk. ICIS, 2014.
[22] Y.-H. Hu, K. Chen, dan P.-J. Lee, ''Pengaruh filter yang dapat dikontrol pengguna
pada prediksi ulasan hotel online,''Inf. Mengelola., jilid. 54, tidak. 6, hlm. 728–
CATATAN AKHIR 744, September 2017.
Meskipun ada makalah yang berbicara tentang spam di [23] N. Pappas dan A. Popescu-Belis, ''Pemodelan dokumen eksplisit melalui
pembelajaran multiple-instance berbobot,''J. Arti. Intel. Res., jilid. 58, hlm.
Amazon.com, kami masih berpendapat bahwa ini adalah situs web 591–626, Juli 2018.
yang relatif bebas spam dalam hal ulasan karena penegakan proses [24] P. Lak dan O. Turetken, ''Peringkat bintang versus analisis sentimen
pemeriksaan ulasannya. —Perbandingan ukuran opini yang eksplisit dan implisit,'' di Prok.
47 Hawaii Int. Kon. Sistem Sci., Januari 2014, hlm. 796–805, doi:
Data review produk yang digunakan untuk penelitian ini 10.1109/HICSS.2014.106.
dapat diunduh di: http://www.ilabsite.org /? ID halaman=1091. [25] C. Boon, C. Hawkins, K. Bisht, SJ Coombes, B. Bakrania, K.-H. Wagner, dan
A. Bulmer, ''The king's speech metalanguage of nation, man and class in
anecdots about George III,''Anugerah, jilid. 16, tidak. 2, hlm. 281–299, Juli
REFERENSI 2012.
[1] B. Liu, ''Analisis sentimen dan penggalian opini,''Synth. Kuliah Hum. Lang. [26] B. Pang dan L. Lee, ''Melihat bintang: Memanfaatkan hubungan kelas untuk
teknologi., jilid. 5, tidak. 1, hlm. 1-167, 2012. kategorisasi sentimen sehubungan dengan skala penilaian,'' diProk. Tahun
[2] P. Smith, ''Analisis sentimen: Di luar proposal tesis polaritas,'' School ke-43. Rapat Assoc. Hitung. Linguistik (ACL), 2005, hlm. 115–124.
Comput. Sci. Univ. Birmingham, Birmingham, Inggris, Teknologi. Rep., [27] T. Kincl, M. Novák, dan P. trach, ''Sebuah studi lintas budaya pemasaran online
Oktober 2011, hlm. 1–42. dalam pendidikan tinggi internasional—Analisis kata kunci,''Pendidikan Baru.
[3] RS Jagdale, VS Shirsat, dan SN Deshmukh, ''Analisis sentimen pada ulasan Putaran., jilid. 32, tidak. 2, hlm. 49–65, 2013.
produk menggunakan teknik pembelajaran mesin,'' diInformatika [28] JQ Zhang, G. Craciun, dan D. Shin, ''Kapan kata elektronik penting? Sebuah
Kognitif dan Komputasi Lunak. Singapura: Springer, 2018, hlm. 639–647, studi review produk konsumen,''J. Bis. Res., jilid. 63, tidak. 12, hlm. 1336–
doi:10.1007/978-981-13-0617-4_61. 1341, Desember 2010.

3604 JILID 8, 2020


S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online

[29] S. Stieglitz dan L. Dang-Xuan, ''Emosi dan penyebaran informasi di media WAQAS AHMADmenerima gelar BSIT dari
sosial—Sentimen mikroblog dan perilaku berbagi,''J. Kelola. Inf. Sistem, Universitas Azad Jammu dan Kashmir. Dia
jilid. 29, tidak. 4, hlm. 217–248, April 2013. saat ini sedang mengejar gelar MSCS di
[30] F. Ali, D. Kwak, P. Khan, SR Islam, KH Kim, dan K. Kwak, ''Analisis sentimen Universitas Kotli Azad Jammu dan Kashmir,
berbasis ontologi fuzzy dari ulasan fitur transportasi dan kota untuk Pakistan. Minat penelitiannya meliputi
perjalanan yang aman,''terjemahan Res. C, Muncul. teknologi., jilid. 77, penambangan data, Internet of Things, dan
hlm. 33–48, April 2017.
jaringan komputer.
[31] F. Ali, K.-S. Kwak, dan Y.-G. Kim, ''Penambangan opini berdasarkan ontologi
domain fuzzy dan mesin vektor dukungan: Sebuah proposal untuk
mengotomatisasi klasifikasi ulasan online,''aplikasi Komputer Lunak., jilid. 47,
hlm. 235–250, Oktober 2016.
[32] P. Viola dan M. Jones, ''Deteksi objek cepat menggunakan kaskade fitur
sederhana yang ditingkatkan,'' diProk. Komputer IEEE. Soc. Kon. Hitung.
melihat Pengenalan Pola. (CVPR), jilid. 1, Agustus 2005, hlm. 511–518.
[33] A. Tripathy, A. Agrawal, dan SK Rath, ''Klasifikasi ulasan sentimen menggunakan
pendekatan pembelajaran mesin n-gram,''Sistem Pakar. aplikasi, jilid. 57, hlm. MUHAMMAD YASIR SABIRlahir di Kotli, Azad
117–126, Sep. 2016, doi:10.1016/j.eswa.2016.03.028. Jammu dan Kashmir, Pakistan. Ia menerima
gelar BSIT dari Universitas Azad Jammu dan
Kashmir, dan gelar MS dalam ilmu komputer
SAMINA KAUSARmenerima gelar MS dalam ilmu dari Universitas Islam Internasional Islamabad,
komputer dari Universitas Islam Internasional Pakistan. Dia saat ini menjadi Dosen di
Islamabad, Pakistan, pada tahun 2007. Saat ini ia Universitas Kotli Azad Jammu dan Kashmir, AJ&K.
adalah Peneliti dan juga Ph.D. Sarjana dengan Bidang penelitian utamanya adalah jaringan dan
Sekolah Teknik Komputer dan Sains, Universitas keamanan komputer, komputasi awan, data
Shanghai, Cina. Dia telah menjadi Asisten besar, algoritme pembelajaran mesin, dan IoT.
Profesor di Universitas Kotli Azad Jammu dan
Kashmir, Pakistan. Minat penelitiannya adalah di
bidang big data, bioinformatika, jaringan
komputer, komputasi awan, data
penambangan, dan algoritma pembelajaran mesin.

WAQAS AHMADmenerima gelar MS dalam ilmu


XU HUAHUsaat ini adalah Doktor Superviso komputer dari Universitas Islam Internasional di
dan Profesor di Sekolah Teknik Komputer Islamabad, Islamabad, Pakistan, pada tahun 2012. Saat
dan Sains, Universitas Shanghai, di mana ia ini sedang mengejar gelar Ph.D. gelar dengan Beijing
juga Direktur Kantor Informasi. Dia adalah Normal University, Beijing, Cina. Dari 2013 hingga 2015,
Ketua Asosiasi Keamanan dan Teknologi ia adalah Anggota Fakultas Tamu di berbagai institusi,
Shanghai. Minat penelitiannya meliputi Pakistan. Bidang minatnya adalah teori permainan,
teknologi multimedia, CIMS, dan teknologi desain mekanisme, sumber kerumunan, pelestarian
jaringan komputer. privasi dalam komputasi awan seluler, penambangan
data, dan penginderaan kerumunan seluler.

JILID 8, 2020 3605

Anda mungkin juga menyukai