com
Diterima 4 Desember 2019, diterima 22 Desember 2019, tanggal publikasi 30 Desember 2019, tanggal versi saat ini 7 Januari 2020.
Pengenal Objek Digital 10.1109/ACCESS.2019.2963020
Pekerjaan ini didukung sebagian oleh National Science Foundation of China di bawah Grant 61572434 dan Grant 91630206, dan sebagian
oleh Komite Sains dan Teknologi Shanghai di bawah Grant 16DZ2293600.
ABSTRAKAnalisis sentimen juga dikenal sebagai opinion mining yang menunjukkan pendapat dan emosi masyarakat tentang produk atau layanan tertentu. Masalah utama dalam
analisis sentimen adalah kategorisasi polaritas sentimen yang menentukan apakah sebuah ulasan positif, negatif atau netral. Studi sebelumnya mengusulkan teknik yang berbeda,
tetapi masih ada beberapa kesenjangan penelitian, i) beberapa studi hanya memasukkan 3 kelas sentimen: positif, netral dan negatif, tetapi tidak satupun dari mereka dianggap
lebih dari 3 kelas ii) fitur polaritas sentimen dipertimbangkan secara individual tetapi tidak satupun dari mereka dipertimbangkan secara individual dan gabungan iii) Tidak ada teknik
sebelumnya yang mempertimbangkan lima kelas sentimen dengan 3 fitur polaritas sentimen seperti kata kerja, kata keterangan, kata sifat dan kombinasinya. Dalam studi ini, kami
mengusulkan teknik kategorisasi polaritas sentimen untuk kumpulan data besar ulasan online Video Instan. Kumpulan data komprehensif yang terdiri dari lima ratus ribu ulasan
online digunakan dalam penelitian kami. Ada lima kelas (Sangat Negatif, Negatif, Netral, Positif dan Sangat Positif). Kami juga mempertimbangkan tiga fitur polaritas Verb, Adverb,
Adjective dan kombinasinya dengan pengertian yang berbeda dalam kategorisasi tingkat ulasan. Eksperimen kami untuk kategorisasi tingkat ulasan menunjukkan hasil yang
menjanjikan karena akurasi hasil kami adalah 81 persen yang 3 persen lebih baik daripada banyak teknik sebelumnya yang akurasi rata-ratanya adalah 78 persen. Negatif, Netral,
Positif dan Sangat Positif). Kami juga mempertimbangkan tiga fitur polaritas Verb, Adverb, Adjective dan kombinasinya dengan pengertian yang berbeda dalam kategorisasi tingkat
ulasan. Eksperimen kami untuk kategorisasi tingkat ulasan menunjukkan hasil yang menjanjikan karena akurasi hasil kami adalah 81 persen yang 3 persen lebih baik daripada
banyak teknik sebelumnya yang akurasi rata-ratanya adalah 78 persen. Negatif, Netral, Positif dan Sangat Positif). Kami juga mempertimbangkan tiga fitur polaritas Verb, Adverb,
Adjective dan kombinasinya dengan pengertian yang berbeda dalam kategorisasi tingkat ulasan. Eksperimen kami untuk kategorisasi tingkat ulasan menunjukkan hasil yang
menjanjikan karena akurasi hasil kami adalah 81 persen yang 3 persen lebih baik daripada banyak teknik sebelumnya yang akurasi rata-ratanya adalah 78 persen.
I. PENDAHULUAN emosi halus yang diekspresikan.'' Analisis sentimen adalah studi tentang
Pentingnya sentimen pengguna telah disadari oleh sektor bisnis pendapat orang tentang produk tertentu, orang, teks, dll. Pendapat
dalam dekade terakhir. Sejak itu platform media sosial dan situs web mereka yang menggambarkan suasana hati mereka untuk entitas
lain digunakan untuk mengekstrak opini pengguna tentang produk. tertentu apakah kita suka atau tidak. Ini adalah proses komputasi
Fenomena seperti ini disebut analisis sentimen atau opinion mining. mengidentifikasi dan mengkategorikan pendapat yang diberikan dalam
Opinion mining adalah mengidentifikasi, mengekstraksi, dan ulasan untuk menentukan apakah itu positif, negatif atau netral. Saat ini
memahami sikap atau pendapat pengguna dengan menganalisis internet menyediakan banyak platform yang berbeda bagi pengguna
teks. Proses ini biasanya melibatkan pemrosesan bahasa alami, untuk berbagi sentimen mereka dalam bentuk tekstual untuk produk
analisis statistik, dan teknik pembelajaran mesin untuk analisis yang berbeda. Banyak organisasi besar dapat meningkatkan pendapatan
sentimen. Berbagai nama lain juga digunakan antara lain review jika mereka memperhatikan apa yang dikatakan orang tentang produk
mining, analisis emosional, ekstraksi opini, dan analisis subjektivitas mereka karena orang adalah penilaian terbaik. Berdasarkan ulasan,
[1]. Analisis sentimen telah didefinisikan oleh Smith [2] sebagai, organisasi besar dapat meningkatkan produk mereka sesuai dengan
''Analisis Sentimen adalah evaluasi komputasi dokumen untuk kebutuhan pelanggan. Jadi, karena sangat dibutuhkan menjadi
menentukan tantangan paling penting di era saat ini untuk NLP (Natural language
processing). Oleh karena itu untuk ekstraksi informasi subjektif dari
Editor asosiasi yang mengoordinasikan tinjauan naskah ini dan bahan sumber seperti ulasan produk, teknik analisis sentimen banyak
menyetujuinya untuk diterbitkan adalah Seok-Bum Ko. digunakan.
Karya ini dilisensikan di bawah Lisensi Creative Commons Attribution 4.0. Untuk informasi lebih lanjut, lihat http://creativecommons.org/licenses/by/4.0/
3594 JILID 8, 2020
S. Kausardkk.: Teknik Kategorisasi Polaritas Sentimen untuk Ulasan Produk Online
A. ANALISIS TINGKAT SENTIMEN YANG BERBEDA pengguna meninjau kumpulan data dan kemudian memperkirakan pentingnya
Analisis sentimen dilakukan pada tiga level yaitu, a) level dokumen, mereka dalam klasifikasi otomatis ulasan dalam tiga kelas sentimen yaitu
b) level kalimat dan level frase [3]. Analisis sentimen level dokumen positif, negatif atau netral. Untuk klasifikasi otomatis pengklasifikasi yang
berfokus pada pengklasifikasian seluruh dokumen sebagai positif berbeda telah digunakan dalam komunitas penelitian. Masih belum ditentukan
atau negatif. Dalam klasifikasi tingkat dokumen, tinjauan tunggal pengklasifikasi mana yang terbaik untuk mengklasifikasikan ulasan ke dalam
dari satu topik dipertimbangkan. Tetapi dalam kasus forum dan kelas berdasarkan fitur kata keterangan. Pengklasifikasi bekerja pada
blog, kalimat perbandingan mungkin muncul. Ada dua jenis metode beberapa set fitur. Dalam studi ini kami mengeksplorasi beberapa fitur yang
yang digunakan dalam analisis sentimen tingkat dokumen, i) satu sangat penting dalam konten (teks) ulasan. Fitur-fitur ini adalah kata
adalah pembelajaran terawasi dan lainnya adalah ii) metode keterangan. Kami mengeksplorasi berbagai jenis kata kerja yang dapat
pembelajaran tanpa pengawasan. Dalam metode pembelajaran digunakan untuk mengklasifikasikan ulasan ke dalam kelas positif atau negatif.
terawasi, algoritma tradisional seperti nave Bayesian dan Support
Vector Machine dapat digunakan untuk melatih sistem. Untuk Dalam hal pengklasifikasi, kami tertarik untuk menentukan
melatih dan menguji data, peringkat ulasan (1-5 bintang) dapat kinerja pengklasifikasi berbeda yang digunakan oleh komunitas riset
digunakan. Sementara dalam metode pembelajaran tanpa untuk klasifikasi. Kami menyelidiki bagaimana pengklasifikasi ini
pengawasan kami hanya mengekstrak kata-kata di dalam dokumen. bekerja pada set fitur yang diekstraksi dan yang mana dari mereka
Orang membandingkan satu produk dengan produk serupa lainnya yang mencapai kinerja tinggi.
dan karenanya analisis sentimen tingkat dokumen tidak efisien di
forum dan blog. Persoalan utamanya adalah tidak semua kalimat C. PERNYATAAN MASALAH
dalam sebuah dokumen memiliki relevansi dalam mengungkapkan Peneliti sebelumnya mengusulkan metode luar biasa untuk
opini tentang suatu entitas. Oleh karena itu, klasifikasi subjektivitas menentukan polaritas teks. Biasanya mereka mengklasifikasikan
dan objektivitas sangat penting dalam klasifikasi jenis ini [4]. teks menjadi tiga kelas polaritas yaitu Positif, Negatif dan Netral di
Dalam analisis sentimen tingkat kalimat, polaritas setiap mana kelas positif berisi dokumen-dokumen yang menggunakan
kalimat dihitung dalam [5], [6]. Metode klasifikasi tingkat bahasa positif, sedangkan kelas negatif berisi dokumen-dokumen di
dokumen yang sama dapat diterapkan pada masalah mana pengguna memiliki pengalaman buruk dengan produk dan
klasifikasi tingkat kalimat. Ini membantu untuk mengetahui akhirnya kelas netral menyajikan dokumen-dokumen itu yang tidak
kalimat objektif dan subjektif. Kalimat subjektif berisi kata- positif maupun negatif. Dalam penelitian ini kami memperkenalkan
kata opini yang membantu dalam menentukan sentimen lima kelas polaritas: Sangat negatif, Negatif, Netral, Positif, dan
tentang suatu entitas setelah klasifikasi polaritas dilakukan Sangat Positif. Selain itu, ada juga kebutuhan untuk menyelidiki
ke dalam kelas positif dan negatif [7]. bagaimana bagian-bagian ucapan seperti kata keterangan dapat
Klasifikasi sentimen tingkat frase adalah pendekatan yang digunakan untuk menetapkan polaritas pada teks. Untuk tujuan
lebih spesifik untuk penambangan opini. Frase yang seperti itu, kami menggunakan ulasan produk alih-alih tweet twitter
mengandung kata opini ditemukan dan klasifikasi tingkat frase yang panjangnya pendek.
dilakukan. Klasifikasi ini dapat memiliki kelebihan dan
kekurangan. Dalam beberapa kasus, pendapat yang tepat dari D. PERTANYAAN PENELITIAN
suatu entitas dapat diekstraksi dengan benar (keuntungan). Pertanyaan penelitian berikut telah diidentifikasi selama
Dalam kasus lain di mana polaritas kontekstual penting, tinjauan pustaka;
hasilnya mungkin tidak akurat (kerugian) [8]. RQ1.Apa dampak part of speech (kata keterangan) pada
analisis sentimen pada ulasan produk?
RQ2.Apa dampak dari kombinasi yang berbeda dari kata
B. TUJUAN PENELITIAN keterangan pada klasifikasi?
Melakukan analisis sentimen pada ulasan produk, ulasan ini RQ3.Apa pengklasifikasi terbaik untuk klasifikasi ulasan
mewakili pendapat pengguna untuk produk tertentu. Pengguna produk?
normal suatu produk memposting ulasan mereka dalam bentuk teks
pendek biasanya berisi beberapa kalimat. Kalimat-kalimat ini terdiri E. METODOLOGI PENELITIAN
dari beberapa kata penting. Seperti yang kita ketahui bahwa dalam Metodologi penelitian kami telah disajikan pada Gambar1. Pertama kami
part of speech bahasa Inggris, sebuah kata dapat memiliki arti yang memilih analisis sentimen sebagai domain penelitian dari penelitian ini.
berbeda tergantung pada struktur kalimatnya. Mengidentifikasi Setelah memilih domain penelitian, kami melakukan tinjauan literatur
bagian-bagian dari pidato yang dapat menyajikan arti sebenarnya ekstensif dari domain penelitian. Setelah tahap tinjauan pustaka, kami
dari kalimat adalah tugas yang menantang. Part of speech mengidentifikasi beberapa pertanyaan penelitian yang kami anggap
digunakan untuk memperkirakan sentimen dari komentar perlu dijawab. Kemudian kami mengusulkan metodologi yang menjawab
pengguna. Kata keterangan adalah bagian penting dari setiap pertanyaan penelitian kami. Kami menerapkan metodologi kami dan
kalimat dan karenanya perlu dianalisis perannya dalam menentukan melakukan eksperimen untuk menjawab pertanyaan penelitian kami
sentimen pengguna yang sebenarnya. Berbagai jenis kata yang teridentifikasi selama tinjauan pustaka. Setelah menyelesaikan
keterangan harus diidentifikasi dan dianalisis untuk menentukan percobaan kami, kami telah mengevaluasi hasil kami.
sentimen kalimat.
Dalam teknik lain yang diusulkan oleh Gann dan Hari (12), A. PENGUMPULAN DATA
penulis menerapkan pendekatan berbasis token pada t data witter Dataset yang digunakan dalam penelitian ini sedang di-crawl
karena mereka menetapkan skor sentimental tertentu ery token menggunakan python crawler. Perayap kumpulan data mengambil
untuk ev yang digunakan untuk menganalisis apakah n pendapat ulasan dari dua produk yang sifatnya berbeda. Oleh karena itu,
suatu positif, negatif atau netral. Beberapa teknologi lainbarang bekas adalah dataset yang telah di-crawl berisi review dari dua produk.
juga berguna seperti pemodelan topik [13] di mana t dia penulis Pertama adalah produk perkantoran yang meliputi Microsoft
mengusulkan proses mengidentifikasi secara otomatis th e fitur Word, Microsoft PowerPoint, Microsoft Excel dan Microsoft
atau aspek suatu produk. Mempersempit komunitas risetion, dalam Access Database. Produk lainnya adalah DVD musik yang berisi
opini beberapa pendekatan telah diajukan dua album utama yaitu pop track dan slow track.
G. TINJAUAN
Saya terkejut ketika menyadari bahwa kantor baru dapat diperbarui setiap
tahundan sebagai akuhanyamembutuhkan kantor dasar dan akanbukan
keuntungan dari program kantor yang ditingkatkan. Aku melihatsekitardan
menemukan 2013 yang akan membantu saya selama komputer saya hidup dan
memikirkan sayademikian juga.Bandingkan tetapi masuk akal untuk
digunakan di rumah - apakah Anda memerlukan fitur tambahan dan apakah
Anda bersedia membayarsetiap tahununtuk mereka. Saya tidak dan saya
senang. Sayasudahharus melakukan pembayaran tahunan pada perangkat
lunak lain yang saya perlukansebagaiperlindungan tetapi biaya tahunan
segeranaik. Gunakan akal sehat Anda. saya bersediatidakpikir banyak
pengguna kantor tahubagaimanauntuk mendapatkanpalingdari itu sebagai
pengguna rumahan kecuali mereka belajar atau mencari nafkah dari program
atau menggunakannyasecara profesional.
Dalam ulasan ini, masing-masing kata keterangan yang muncul dalam
ulasan digarisbawahi dan dicetak tebal tetapi masalahnya adalah untuk
memahami bagaimana kata keterangan ini menceritakan kisah setiap
GAMBAR 2.Metodologi yang diusulkan. pengguna dan untuk sentimen bagaimana itu akan diklasifikasikan. Berbagai
bentuk kata keterangan seperti tahunan, hanya, juga, sudah, secara
profesional adalah beberapa kata keterangan umum (RB) dan sebagian besar
adalah kata keterangan superlatif umum (RBS).
B. PEMROSESAN PRA
Pada langkah pra-pemrosesan, pada fase pertama batas kalimat
akan ditentukan dan setelah memverifikasi batas kalimat, fase
H. FITUR SKOR
selanjutnya adalah tokenize teks menjadi kata-kata tunggal. Senti Word Net 3.0, sumber leksikal yang dirancang secara eksplisit
Langkah pra-pemrosesan juga mencakup penghapusan kata untuk mendukung klasifikasi sentimen dan aplikasi penambangan
henti, spasi, tag baris baru, tag html, emosi, dan simbol khusus. opini. Senti Word Net 3.0 adalah versi perbaikan dari Senti Word Net
1.0, sumber leksikal yang tersedia untuk umum untuk tujuan
penelitian. Senti Word Net adalah salah satu dari leksikon ini yang
menetapkan untuk setiap synset Word Net, tiga skor numerik
C. PENGHAPIAN STOP WORDS
sentimen, positif, negatif, dan objektivitas. Oleh karena itu, basis
Stopword biasanya merupakan kata tambahan yang tidak diperlukan untuk
pengetahuan yang dapat digunakan untuk menetapkan skor. Total
kategorisasi polaritas sentimen. Kami menghapus semua kata berhenti di
kata positif yang ada di dalamnya adalah 3.076.708 dan kata negatif
kumpulan data kami yang bermanfaat untuk akurasi yang lebih baik.
sebanyak 151.044. Setiap fitur yang ada dalam dokumen, ulasan,
atau teks apa pun diberi skor positif dan negatif (Salehan, M., & Kim,
D. TOKENISASI
DJ (2016)) [21].
Kami menetapkan setiap kata dengan token dan berdasarkan token itu
kami mendapatkan skor kata dari perpustakaan Senti Word Net.
I. PENILAIAN KALIMAT
Skor kalimat dihitung dengan skor indi-
E. STEMMING
kata-kata individu hadir dalam kalimat tertentu.
Kami melakukan stemming dari kumpulan data lengkap untuk
∑
memastikan bahwa kata-kata identik dalam ulasan harus dihapus Skor Sen(s)1/n= (saya=0)^n Pi (1)
karena ini tidak menyebabkan pengulangan kata-kata yang identik.
di mana,
• Sen Score(s) adalah skor untuk sebuah kalimat dalam dokumen atau
F. BAGIAN DARI SPEED TAGGING (POS TAGGING) review.
Ulasan terdiri dari bagian yang berbeda dari kata sifat suc; kata h sebagai kata benda,
• n adalah jumlah total kata yang ada dalam sebuah kalimat.
kerja dan kata keterangan diberi tag menggunakan Natura tool aku bahasa • (Pi) kata polaritas hadir dalam kalimat di mana i adalah
kit (NLTK). Ketertarikan utama pada adverbia penelitian ini dan ch bersama batas kata
bentuknya sehingga semua bentuk adverbia berasal dari review. diekstraksi Mari kita perhatikan contoh untuk menghitung skor tingkat
NLTK menandai beberapa kata keterangan suc memiliki: kalimat.
Kata keterangan superlatif (RRS):yang memodifikasi gen kata keterangan ral Kalimat 1:''Kantor Microsoft versi 2013 adalahsangat bagus,
dengan superior misalnya terbaik, terpanjang dan termudah dll. dan banyak hal yang ditingkatkankhususnyagaya baru.
Kata keterangan komparatif (RBR):yang memodifikasi v kata keterangan erb bersama Penjelasan:Kata ''sangat'' dan khususnya adalah kata keterangan
lain dengan perbandingan misalnya lebih banyak, lebih sedikit dan d sedikit dll. umum. Sekarang dua kata keterangan yang berbeda ini akan
Kata keterangan (RB):yang memodifikasi kata kerja menggunakan anot kata keterangannya mendapatkan skor dari perpustakaan Senti Word Net dan rata-rata
misalnya sangat, diam-diam, banyak dll. dihitung untuk kalimat ini.
Skor kalimat:Skor kalimat positif karena kedua adverbia TABEL 1.Peringkat bintang.
Untuk mengklasifikasikan ulasan menggunakan kata keterangan Pengklasifikasi Naive Byes didasarkan pada asumsi bahwa penampilan
dan bentuknya yang berbeda, masing-masing ulasan diberi tag. atribut tertentu dalam suatu kelas tidak terkait dengan penampilan
Setelah menandai ulasan, berbagai bentuk kata keterangan atribut lainnya. Model Naive Bayes berguna untuk kumpulan data yang
diekstraksi. Setelah mengekstrak formulir ini, mereka digabungkan sangat besar. Seiring dengan kesederhanaan, Naive Bayes dikenal
bersama untuk skor menggunakan Senti Word Net. Pertama, pada mengungguli bahkan metode klasifikasi yang sangat canggih. Saat ini
level kalimat kemudian pada level review diberikan skor skor akhir Google menggunakannya, untuk menandai email sebagai spam, atau
review dan akan diklasifikasikan dengan kelas rating bintang 5 (Hu, bukan spam. Ini juga digunakan oleh beberapa agensi baru untuk
YH, Chen, K., & Lee, PJ (2017) [22] mengklasifikasikan berita ke dalam kategori yang berbeda seperti
teknologi, hiburan, politik, dan olahraga, dll.
K. PERINGKAT BINTANG
Untuk setiap ulasan selalu ada peringkat bintang yang diberikan 2) KLASIFIKASI POHON KEPUTUSAN
oleh pengguna berdasarkan pengalamannya untuk produk tertentu. Pohon keputusan adalah algoritma klasifikasi yang banyak digunakan
Dengan demikian, Amazon juga berisi peringkat bintang setiap kali oleh komunitas riset untuk tujuan klasifikasi. Pohon keputusan juga
pelanggan berbagi pendapat. Untuk mengevaluasi peringkat digunakan dalam klasifikasi teks ke dalam polaritas sentimen. Itu
bintang 5 dari ulasan, langkah pertama adalah mencari tahu kisaran termasuk dalam kategori pembelajaran mesin. Seperti yang kita bahas
dari peringkat tertinggi hingga terendah. Untuk menghitung tingkat dalam bab kerja terkait, banyak penelitian memanfaatkan pohon
bintang ini, berkisar dari 0 hingga 1, peneliti yang berbeda keputusan untuk klasifikasi tweet menjadi tweet positif, negatif dan
berkontribusi seperti Pappas & Popescu-Belis [23], Lak & Turetken netral.
[24], Boondkk.[25] dan Lee dan Pang [26] yang menunjukkan kisaran
sangat positif dan sangat negatif yaitu 1 hingga 1 masing-masing. 3) KLASIFIKASI HUTAN RANDOM
Tabel 1 menunjukkan peringkat bintang bersama dengan nilai Random Forest adalah metode pembelajaran mesin serbaguna yang mampu
polaritas dan klasifikasi yang diambil dari literatur melakukan tugas regresi dan klasifikasi. Itu juga melakukan metode
masa depan Kinc akudkk.[27], Zhang dkk.[28], dan Sti eglitz dan pengurangan dimensi, memperlakukan nilai yang hilang, nilai outlier dan
n [29]
Dang-Xu sebuah langkah-langkah penting lainnya dari eksplorasi data, dan melakukan
pekerjaan yang cukup baik. Ini adalah jenis metode pembelajaran ensemble, di
KELAS L IFIKASI mana sekelompok model yang lemah bergabung untuk membentuk model
Setiap revisi ew adalah barisan variabel nce dari kata-kata dan sentimen yang kuat. Untuk mengklasifikasikan objek baru berdasarkan atribut, setiap
dari setiap re tampilan harus berkelas fied ke dalam ment di atas bintang terionisasi pohon memberikan klasifikasi dan kami menyebutnya pohon
''suara'' untuk kelas itu. Hutan memilih klasifikasi yang memiliki masyarakat. Masih belum ditentukan pengklasifikasi mana yang paling baik
suara terbanyak (di atas semua pohon di hutan) dan mengambil mengklasifikasikan ulasan ke dalam kelas berdasarkan fitur kata keterangan.
rata-rata output dari pohon yang berbeda. Pengklasifikasi bekerja pada beberapa set fitur. Dalam studi ini kami
mengeksplorasi beberapa fitur yang sangat penting dalam konten (teks)
4) MESIN VEKTOR DUKUNGAN ulasan. Fitur-fitur ini adalah kata keterangan. Kami mengeksplorasi berbagai
Support Vector Machines mungkin merupakan salah satu algoritma jenis kata kerja yang dapat digunakan untuk mengklasifikasikan ulasan ke
pembelajaran mesin yang paling terkenal dan didiskusikan. Itu tetap dalam kelas positif atau negatif.
menjadi arus utama sekitar waktu mereka dibuat pada 1990-an dan Dalam hal pengklasifikasi, kami tertarik untuk menentukan
terus menjadi teknik masuk untuk algoritme berperforma tinggi kinerja pengklasifikasi berbeda yang digunakan oleh komunitas riset
dengan sedikit penyetelan. Ini adalah pengklasifikasi diskriminatif, untuk klasifikasi. Kami menyelidiki bagaimana pengklasifikasi ini
diberikan data pelatihan berlabel (pembelajaran yang diawasi), bekerja pada set fitur yang diekstraksi dan yang mana dari mereka
algoritme menghasilkan bidang hiper optimal yang yang mencapai kinerja tinggi.
mengkategorikan contoh baru. Atas dasar pelatihan ini, algoritma Kami membandingkan hasil dengan analisis sentimen menggunakan
mampu memprediksi input yang tidak diketahui. data ulasan produk di mana penulis (''Xing Fang & Justin Zhan 2015'')
diterbitkan di jurnal terbuka Springer pada tahun 2015. Alasan untuk
5) GRADIENT BOOSTING CLASSIFIER membandingkan dengan pekerjaan penelitian tersebut adalah bahwa
Teknik peningkatan gradien digunakan oleh perusahaan mesin pencari kedua penelitian (kami dan basis paper) menangani masalah yang sama
besar, yaitu Google, Bing, Yandex dan Yahoo. Mereka menggunakannya tetapi pendekatan kami untuk memecahkan masalah analisis sentimen
untuk peringkat halaman web, tetapi sebenarnya tidak terbatas pada berbeda karena kami menggunakan fitur polaritas (Kata keterangan dan
domain aplikasi dan dapat digunakan untuk berbagai masalah (Viola dan bentuknya yang berbeda) baik secara individual maupun kombinasi
Jones 2001) [32]. Gradient boosting classifiers adalah model yang dibuat karena tidak ada teknik sebelumnya yang mempertimbangkan lima kelas
dari berbagai model yang lebih lemah yang dilatih secara individual dan sentimen ditambah tiga fitur polaritas. Perbedaan tersebut adalah inti
setiap prediksi model digabungkan. Ini adalah strategi yang efektif dan kebaruan dari pekerjaan kami. Tiga ukuran evaluasi seperti Precision,
karenanya sangat terkenal. Recall, dan F-Measures digunakan dengan menggunakan pengklasifikasi
yang berbeda pertama menggunakan fitur tunggal dan kemudian fitur
6) URUTAN KE MODEL URUTAN biner dan mencari tahu mana dari mereka yang mencapai kinerja tinggi.
Salah satu jaringan syaraf tiruan yang kuat adalah jaringan model jangka
pendek panjang atau disebut juga LSTM. Dalam metode yang kami Untuk mengevaluasi atau mengusulkan metodologi, kami
usulkan, kami akan menguraikan tinjauan ke dalam ruang vektor nyata, menggunakan tiga langkah evaluasi. Ini termasuk Precision,
metode utama saat bekerja dengan teks yang disebut penyisipan kata. Ini Recall dan F-Measure (Tripathy, A., Agrawal, A., & Rath, SK
adalah prosedur di mana istilah dikodekan sebagai vektor bernilai nyata 2016) [33]. Metode evaluasi ini disajikan dalam rumus
dalam ruang dimensi tinggi, di mana kemiripan antara istilah berikut,
menggambarkan kedekatan dalam ruang vektor. Keras adalah presisi:Presisi adalah rasio contoh yang diidentifikasi dengan
perpustakaan sumber terbuka yang memberikan pendekatan yang benar dengan total contoh dalam data. Ini dapat direpresentasikan
menguntungkan untuk mengubah representasi bilangan bulat positif sebagai,
dari kata-kata menjadi penyisipan kata oleh lapisan Embedding.
presisi=Tp/(Tp + FP)
IV. EVALUASI
Lakukan analisis sentimen pada ulasan produk, ulasan ini mewakili pendapat Mengingat:Recall adalah ukuran evaluasi kedua yang kami gunakan
pengguna tentang produk tertentu. Pengguna normal suatu produk untuk mengevaluasi kinerja pengklasifikasi. Ini dapat direpresentasikan
memposting ulasan mereka dalam bentuk teks pendek biasanya berisi sebagai,
beberapa kalimat. Kalimat ini terdiri dari beberapa kata penting. Seperti yang
kita ketahui bahwa dalam part of speech bahasa Inggris, sebuah kata dapat Mengingat=Tp/(Tp + TN)
memberikan arti yang berbeda tergantung pada struktur kalimatnya.
Mengidentifikasi bagian dari pidato yang dapat menyajikan arti sebenarnya
F-Ukuran:Akhirnya, kami juga menghitung skor F-Measure dari
dari kalimat adalah tugas yang menantang. Part of speech digunakan untuk
pengklasifikasi yang dapat ditampilkan sebagai
berbagai jenis kata keterangan dari kumpulan data ulasan pengguna dan kumpulan tag tertentu.
kemudian memperkirakan pentingnya mereka dalam klasifikasi ulasan 2) Microsoft Excel untuk pra-pengolahan data dan setelah
otomatis dalam tiga kelas sentimen yaitu positif, negatif atau netral. Untuk pengolahan data untuk hasil.
klasifikasi otomatis, pengklasifikasi yang berbeda telah digunakan dalam 3) platform pemrograman Python
penelitian 4) Senti-Word Net digunakan untuk mencetak fitur
V. HASIL
A. AKUISISI SET DATA
Dataset diperoleh dengan menggunakan crawler yang
dikembangkan dalam bahasa pemrograman python dari Amazon.
Metodologi yang diusulkan menggunakan dataset yang beragam.
Dataset berisi ulasan dari dua produk.
• Produk kantor
• DVD musik
Ulasan ini menyimpan ID produk, ulasan produk, bintang peringkat
produk, dan ringkasan keseluruhan ulasan bersama dengan beberapa
metadata. Ada 30.842 ulasan untuk menguji upaya penelitian secara
menyeluruh. Kumpulan data yang dikumpulkan cukup beragam dan
termasuk produk yang berbeda untuk menguji upaya penelitian secara GAMBAR 5.Skor evaluasi Precision, Recall dan F-Measure untuk Algoritma
Naïve Bayes saat menggunakan Single Feature Set.
komprehensif.
B. FITUR TUNGGAL
Bagian ini membahas hasil pengklasifikasi ketika kita hanya menggunakan fitur
tunggal. Ini berarti ketika setiap fitur digunakan oleh pengklasifikasi yang
berbeda, pengklasifikasi mana yang berkinerja terbaik.
C. FITUR BINER
Bagian ini akan membahas analisis Bi Feature (kombinasi
yang terdiri dari kombinasi dua fitur) dari tiga bentuk kata
keterangan yang berbeda. Ketika tiga bentuk kata
keterangan digabungkan. Ada total 7 kombinasi. Dalam
kombinasi ini, ada tiga Fitur Bi. Kami menerapkan
pengklasifikasi yang berbeda & memperoleh hasil.
3) NAIVE BAYES CLASSIFIER GAMBAR 13.Skor evaluasi Precision, Recall dan F-Measure untuk
Gradient Boosting Algorithm saat menggunakan Binary Feature Set.
Kami menerapkan pengklasifikasi Naive Bayes pada set Fitur 2. Jika kami
mengamati ukuran-F dengan cermat. Kata keterangan komparatif (RBR)
+ Superlative adverbs (RRS) melakukan yang terbaik dengan
bentuk lain mampu mencapai ukuran F lebih dari atau sama
mengamankan F-measure dari 0,91. Demikian pula bentuk-bentuk
dengan 0,79: Adverb (RB) + Comparative adverbs (RBR) dan
berikut mampu mencapai ukuran F lebih dari atau sama dengan 0,77:
Adverb (RB) + Superlative adverbs (RRS).
Kata keterangan (RB) + Kata keterangan komparatif (RBR) dan Kata
keterangan (RB) + Kata keterangan superlatif (RRS). Namun, Adverb (RB)+
Comparative adverbs (RBR) memperoleh F-ukuran terendah sebesar 0,77. 6) URUTAN KE MODEL URUTAN
Kami menerapkan model Sequence to Sequence pada Feature set 2.
Ini melakukan yang terbaik untuk fitur Comparative adverbs (RBR) +
4) MESIN VEKTOR DUKUNGAN Superlative adverbs (RRS) di antara semua pengklasifikasi.
Kami menerapkan pengklasifikasi Mesin Vektor Dukungan pada Comparative adverbs (RBR) + Superlative adverbs (RRS)
set Fitur 2. Ini bekerja sama dengan Pengklasifikasi Hutan Acak. menunjukkan performa terbaik dengan mengamankan F-measure
Comparative adverbs (RBR) + Superlative adverbs (RRS) sebesar 0,91. Fitur Adverb (RB) + Comparative adverbs (RBR) dan
menunjukkan performa terbaik dengan mengamankan F- Adverb (RB) + Superlative adverbs (RRS) tidak berjalan dengan baik
measure sebesar 0,94. Demikian pula bentuk lain mampu dan mencapai skor terendah 0,53.
mencapai ukuran F lebih dari atau sama dengan 0,82: Adverbia
(RB) + Comparative adverbs (RBR) dan Adverb (RB) + Superlative D. DISKUSI
adverbs (RRS) Kami mengevaluasi kinerja 6 pengklasifikasi, menggunakan tiga
kombinasi fitur. Fitur-fitur ini terdiri dari tiga jenis kata
5) GRADIENT BOOSTING CLASSIFIER keterangan. Pada run pertama setiap classifier kami
Kami menerapkan Gradient Boosting Classifier pada set Fitur 2. Ini menggunakan jenis adverbia tunggal, kemudian pada run
bekerja sama dengan Random Forest Classifier. Comparative adverbs kedua kami menggabungkan dua jenis adverbia dan total 6
(RBR) + Superlative adverbs (RRS) menunjukkan performa terbaik dengan atribut biner telah diuji sementara pada run ketiga kami
mengamankan F-measure sebesar 0,95. Demikian pula menguji semuanya bersama-sama.
menggunakan teknologi yang lebih maju. Penelitian selanjutnya juga [20] N. Rajganesh, C. Asha, AT Keerthana, dan K. Suriya, ''Sistem rekomendasi buku
berbasis umpan balik hibrida menggunakan analisis sentimen,''Int. J.Sci. Res.
dapat melihat bagaimana penjelasan dari berbagai aspek review Hitung. Sci., Eng. Inf. teknologi., jilid. 3, tidak. 3, hlm. 2456–3307, 2018.
pelanggan terhadap kualitas produk, pengaruh strategi pemasaran di [21] M. Salehan dan DJ Kim, ''Memprediksi kinerja ulasan konsumen online:
bidang data mining. Pendekatan penambangan sentimen,'' diProk. ICIS, 2014.
[22] Y.-H. Hu, K. Chen, dan P.-J. Lee, ''Pengaruh filter yang dapat dikontrol pengguna
pada prediksi ulasan hotel online,''Inf. Mengelola., jilid. 54, tidak. 6, hlm. 728–
CATATAN AKHIR 744, September 2017.
Meskipun ada makalah yang berbicara tentang spam di [23] N. Pappas dan A. Popescu-Belis, ''Pemodelan dokumen eksplisit melalui
pembelajaran multiple-instance berbobot,''J. Arti. Intel. Res., jilid. 58, hlm.
Amazon.com, kami masih berpendapat bahwa ini adalah situs web 591–626, Juli 2018.
yang relatif bebas spam dalam hal ulasan karena penegakan proses [24] P. Lak dan O. Turetken, ''Peringkat bintang versus analisis sentimen
pemeriksaan ulasannya. —Perbandingan ukuran opini yang eksplisit dan implisit,'' di Prok.
47 Hawaii Int. Kon. Sistem Sci., Januari 2014, hlm. 796–805, doi:
Data review produk yang digunakan untuk penelitian ini 10.1109/HICSS.2014.106.
dapat diunduh di: http://www.ilabsite.org /? ID halaman=1091. [25] C. Boon, C. Hawkins, K. Bisht, SJ Coombes, B. Bakrania, K.-H. Wagner, dan
A. Bulmer, ''The king's speech metalanguage of nation, man and class in
anecdots about George III,''Anugerah, jilid. 16, tidak. 2, hlm. 281–299, Juli
REFERENSI 2012.
[1] B. Liu, ''Analisis sentimen dan penggalian opini,''Synth. Kuliah Hum. Lang. [26] B. Pang dan L. Lee, ''Melihat bintang: Memanfaatkan hubungan kelas untuk
teknologi., jilid. 5, tidak. 1, hlm. 1-167, 2012. kategorisasi sentimen sehubungan dengan skala penilaian,'' diProk. Tahun
[2] P. Smith, ''Analisis sentimen: Di luar proposal tesis polaritas,'' School ke-43. Rapat Assoc. Hitung. Linguistik (ACL), 2005, hlm. 115–124.
Comput. Sci. Univ. Birmingham, Birmingham, Inggris, Teknologi. Rep., [27] T. Kincl, M. Novák, dan P. trach, ''Sebuah studi lintas budaya pemasaran online
Oktober 2011, hlm. 1–42. dalam pendidikan tinggi internasional—Analisis kata kunci,''Pendidikan Baru.
[3] RS Jagdale, VS Shirsat, dan SN Deshmukh, ''Analisis sentimen pada ulasan Putaran., jilid. 32, tidak. 2, hlm. 49–65, 2013.
produk menggunakan teknik pembelajaran mesin,'' diInformatika [28] JQ Zhang, G. Craciun, dan D. Shin, ''Kapan kata elektronik penting? Sebuah
Kognitif dan Komputasi Lunak. Singapura: Springer, 2018, hlm. 639–647, studi review produk konsumen,''J. Bis. Res., jilid. 63, tidak. 12, hlm. 1336–
doi:10.1007/978-981-13-0617-4_61. 1341, Desember 2010.
[29] S. Stieglitz dan L. Dang-Xuan, ''Emosi dan penyebaran informasi di media WAQAS AHMADmenerima gelar BSIT dari
sosial—Sentimen mikroblog dan perilaku berbagi,''J. Kelola. Inf. Sistem, Universitas Azad Jammu dan Kashmir. Dia
jilid. 29, tidak. 4, hlm. 217–248, April 2013. saat ini sedang mengejar gelar MSCS di
[30] F. Ali, D. Kwak, P. Khan, SR Islam, KH Kim, dan K. Kwak, ''Analisis sentimen Universitas Kotli Azad Jammu dan Kashmir,
berbasis ontologi fuzzy dari ulasan fitur transportasi dan kota untuk Pakistan. Minat penelitiannya meliputi
perjalanan yang aman,''terjemahan Res. C, Muncul. teknologi., jilid. 77, penambangan data, Internet of Things, dan
hlm. 33–48, April 2017.
jaringan komputer.
[31] F. Ali, K.-S. Kwak, dan Y.-G. Kim, ''Penambangan opini berdasarkan ontologi
domain fuzzy dan mesin vektor dukungan: Sebuah proposal untuk
mengotomatisasi klasifikasi ulasan online,''aplikasi Komputer Lunak., jilid. 47,
hlm. 235–250, Oktober 2016.
[32] P. Viola dan M. Jones, ''Deteksi objek cepat menggunakan kaskade fitur
sederhana yang ditingkatkan,'' diProk. Komputer IEEE. Soc. Kon. Hitung.
melihat Pengenalan Pola. (CVPR), jilid. 1, Agustus 2005, hlm. 511–518.
[33] A. Tripathy, A. Agrawal, dan SK Rath, ''Klasifikasi ulasan sentimen menggunakan
pendekatan pembelajaran mesin n-gram,''Sistem Pakar. aplikasi, jilid. 57, hlm. MUHAMMAD YASIR SABIRlahir di Kotli, Azad
117–126, Sep. 2016, doi:10.1016/j.eswa.2016.03.028. Jammu dan Kashmir, Pakistan. Ia menerima
gelar BSIT dari Universitas Azad Jammu dan
Kashmir, dan gelar MS dalam ilmu komputer
SAMINA KAUSARmenerima gelar MS dalam ilmu dari Universitas Islam Internasional Islamabad,
komputer dari Universitas Islam Internasional Pakistan. Dia saat ini menjadi Dosen di
Islamabad, Pakistan, pada tahun 2007. Saat ini ia Universitas Kotli Azad Jammu dan Kashmir, AJ&K.
adalah Peneliti dan juga Ph.D. Sarjana dengan Bidang penelitian utamanya adalah jaringan dan
Sekolah Teknik Komputer dan Sains, Universitas keamanan komputer, komputasi awan, data
Shanghai, Cina. Dia telah menjadi Asisten besar, algoritme pembelajaran mesin, dan IoT.
Profesor di Universitas Kotli Azad Jammu dan
Kashmir, Pakistan. Minat penelitiannya adalah di
bidang big data, bioinformatika, jaringan
komputer, komputasi awan, data
penambangan, dan algoritma pembelajaran mesin.