com
Lihat diskusi, statistik, dan profil penulis untuk publikasi ini di:https://www.researchgate.net/publication/317058859
KUTIPAN BACA
65 8.946
5 penulis, termasuk:
LIHAT PROFIL
Priyanka Badhani
Institut Teknologi Nasional Motilal Nehru
1PUBLIKASI65KUTIPAN
LIHAT PROFIL
Semua konten yang mengikuti halaman ini diunggah olehPriyanka Badhanipada 24 Juli 2021.
Oleh karena itu dibenarkan untuk menyebut bahasa Twitter sebagai tidak yang mengusulkan metode untuk melatih model dan kemudian mengujinya
Untuk mengekstrak sentimen dari tweet, digunakan analisis Melakukan analisis sentimen merupakan tantangan pada data Twitter, seperti
sentimen. Hasil dari ini dapat digunakan di banyak bidang seperti yang kami sebutkan sebelumnya. Berikut kami jelaskan alasannya:
29
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017
Semua masalah ini harus dihadapi di bagian - Stemming: Mengganti kata dengan akarnya,
preprocessing. mengurangi jenis kata yang berbeda dengan arti yang
sama [3]. Ini membantu dalam mengurangi dimensi set
Selain itu, kami menghadapi masalah dalam ekstraksi fitur
fitur.
dengan lebih sedikit fitur di tangan dan mengurangi
dimensi fitur. - Karakter khusus dan penghapusan digit:Digit dan
karakter khusus tidak menyampaikan sentimen apa pun.
3. METODOLOGI Terkadang mereka dicampur dengan kata-kata, sehingga
Untuk melakukan analisis sentimen, kami diharuskan penghapusannya dapat membantu menghubungkan dua
mengumpulkan data dari sumber yang diinginkan (di sini Twitter). kata yang dianggap berbeda.
Data ini mengalami berbagai langkah pra-pemrosesan yang - Membuat kamus untuk menghilangkan kata dan tanda
membuatnya lebih masuk akal daripada bentuk sebelumnya. baca yang tidak diinginkan dari teks [5].
- Perluasan bahasa gaul dan singkatan
- [5]. Koreksi ejaan [5].
- Membuat kamus untuk kata-kata yang penting
[7] atau untuk emoticon [2].
- Penandaan bagian dari pidato (POS):Ini memberikan tag ke
setiap kata dalam teks dan mengklasifikasikan kata ke kategori
tertentu seperti kata benda, kata kerja, kata sifat, dll. Penanda
POS efisien untuk ekstraksi fitur eksplisit.
3.1 Koleksi Tweet Pemilihan kata yang berguna dari tweet adalah ekstraksi fitur.
Pengumpulan Tweet melibatkan pengumpulan tweet yang
relevan tentang bidang minat tertentu. Tweet dikumpulkan
- Fitur Unigram –satu kata dipertimbangkan pada satu
waktu dan memutuskan apakah itu mampu menjadi
menggunakan API streaming Twitter [1], [3], atau alat
fitur.
penambangan lainnya (misalnya WEKA [2]), untuk jangka waktu
analisis yang diinginkan. Format teks yang diambil diubah - Fitur N-gram-lebih dari satu kata dianggap
sesuai kenyamanan (misalnya JSON dalam kasus [3], [5]). pada suatu waktu.
- leksikon eksternal –penggunaan daftar kata-kata dengan
Kumpulan data yang dikumpulkan sangat penting untuk sentimen positif atau negatif yang telah ditentukan.
efisiensi model. Pembagian set data menjadi set pelatihan dan
pengujian juga merupakan faktor penentu efisiensi model. Set Analisis frekuensi merupakan metode untuk mengumpulkan fitur dengan
pelatihan adalah aspek utama di mana hasil tergantung. frekuensi tertinggi yang digunakan pada [1]. Selanjutnya, mereka
menghapus beberapa dari mereka karena adanya kata-kata dengan
3.2 Pra-pemrosesan tweet sentimen yang sama (misalnya senang, gembira, gembira dll) dan
Pra-pemrosesan data merupakan langkah yang sangat penting karena membuat kelompok kata-kata ini. Bersamaan dengan itu dilakukan
menentukan efisiensi langkah-langkah lain yang sejalan. Ini melibatkan analisis afinitas, yang berfokus pada n-gram orde tinggi dalam
koreksi sintaksis dari tweet yang diinginkan. Langkah-langkah yang representasi fitur tweet.
terlibat harus bertujuan untuk membuat data lebih dapat dibaca mesin
Barnaghi et al [3], menggunakan unigram dan bigram dan menerapkan
untuk mengurangi ambiguitas dalam ekstraksi fitur. Berikut adalah
Term Frequency Inverse Document Frequency (TF-IDF) untuk menemukan
beberapa langkah yang digunakan untuk pra-pemrosesan tweet -
bobot fitur tertentu dalam teks dan karenanya menyaring fitur yang
memiliki bobot maksimum. TF-IDF adalah pendekatan yang sangat efisien
- Penghapusan re-tweet.
dan banyak digunakan dalam klasifikasi teks dan penambangan data.
- Mengubah huruf besar menjadi huruf kecil:Jika kita
menggunakan analisis case-sensitive, kita mungkin
Bouazizi et al [4], mengusulkan suatu pendekatan yang tidak hanya
menganggap dua kemunculan kata yang sama berbeda karena
mengandalkan kosa kata yang digunakan tetapi juga ekspresi dan
kasus kalimatnya. Penting untuk analisis yang efektif untuk tidak
struktur kalimat yang digunakan dalam kondisi yang berbeda. Mereka
memberikan keraguan seperti itu pada model.
mengklasifikasikan fitur ke dalam empat kelas: fitur berbasis sentimen,
- Hentikan penghapusan kata:Kata-kata stop yang tidak fitur berbasis tanda baca dan sintaks, fitur berbasis unigram dan fitur
mempengaruhi arti tweet akan dihapus (misalnya dan, berbasis pola.
atau, diam, dll.). [3] menggunakan paket pembelajaran
mesin WEKA untuk tujuan ini, yang memeriksa setiap Karya [5] sedikit berbeda karena mereka tidak fokus pada topik atau
kata dari teks terhadap kamus ([3], [5]). peristiwa tertentu tetapi mengusulkan untuk menemukan topik yang
sedang hangat di suatu wilayah. Fitur yang diekstraksi dibagi dalam dua
- Penghapusan fitur Twitter:Nama pengguna dan URL
kategori: Fitur Umum dan Fitur Khusus Tweet. Yang pertama adalah
tidak penting dari perspektif pemrosesan di masa
kombinasi dari kata-kata sentimen umum sedangkan yang kedua
mendatang, oleh karena itu kehadirannya sia-sia.
mencakup fitur @-jaringan, fitur sentimen pengguna, dan emotikon.
Semua nama pengguna dan URL dikonversi ke tag
Berdasarkan waktu posting setiap pengguna, vektor fitur dibangun.
umum [3] atau dihapus [5].
30
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017
- Jaringan Saraf Buatan:model JST yang digunakan Python menyediakan perpustakaan standar besar yang dapat
untuk pembelajaran terawasi adalah Multi-Layer digunakan untuk berbagai aplikasi misalnya pemrosesan bahasa
Perceptron, yang merupakan model umpan maju alami, pembelajaran mesin, analisis data, dll.
yang memetakan data ke satu set keluaran terkait.
Data pelatihan yang diberikan ke lapisan input Ini disukai untuk proyek yang kompleks, karena
diproses oleh lapisan perantara tersembunyi dan data kesederhanaannya, beragam fitur dan sifatnya yang dinamis.
masuk ke lapisan output. Jumlah lapisan tersembunyi
adalah metrik yang sangat penting untuk kinerja 4.2 Pemrosesan Bahasa Alami (NLTK)
model. Ada dua langkah kerja MLP NN- feed forward Natural Language toolkit (NLTK) adalah pustaka dalam python,
propagation, yang melibatkan fitur pembelajaran dari yang menyediakan dasar untuk pemrosesan dan klasifikasi teks.
algoritma feed forward propagation dan back Operasi seperti tokenization, tagging, filtering, manipulasi teks
propagation, untuk cost function [5], [10]. dapat dilakukan dengan menggunakan NLTK.
Zimbra dkk [1]mengusulkan pendekatan untuk Pustaka NLTK juga mewujudkan berbagai pengklasifikasi yang dapat
menggunakan Arsitektur Dinamis untuk Jaringan Saraf Tiruan dilatih (contoh – Pengklasifikasi Naïve Bayes).
(DAN2) yang merupakan model pembelajaran mesin dengan Pustaka NLTK digunakan untuk membuat model bag-of-words, yang
sensitivitas yang cukup terhadap ekspresi ringan dalam tweet. merupakan jenis model unigram untuk teks. Dalam model ini,
Mereka menargetkan untuk menganalisis sentimen terkait jumlah kemunculan setiap kata dihitung. Data yang diperoleh dapat
merek di mana sering terjadi kalimat ringan. digunakan untuk melatih model classifier. Sentimen dari seluruh
DAN2 berbeda dari jaringan saraf sederhana karena tweet dihitung dengan menetapkan skor subjektivitas untuk setiap
jumlah lapisan tersembunyi tidak tetap sebelum kata menggunakan leksikon sentimen.
menggunakan model. Saat input diberikan, akumulasi
31
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017
- Unduh dan instal NumPy. Unduh dan Scikit-learn menyediakan vectorizers yang menerjemahkan dokumen
input ke dalam vektor fitur. Kita dapat menggunakan fungsi library
- instal pustaka NLTK. Unduh dan instal
TfidfVectorizer(), yang dengannya kita dapat menyediakan
- perpustakaan Scikit-learn. parameter untuk jenis fitur yang ingin kita pertahankan dengan
menyebutkan frekuensi minimum fitur yang dapat diterima.
4.6 Pengumpulan Data
Kami memiliki dua opsi untuk mengumpulkan data untuk analisis 4.9 PELATIHAN MODEL
sentimen. Pertama adalah menggunakan Tweepy - klien untuk Antarmuka scikit-library menyediakan berbagai model pembelajaran mesin yang
Pemrograman Aplikasi Twitter (API). implementasinya dalam kode sangat mudah. Misalnya seseorang dapat
dengan mudah membuat instance Support Vector Machine dalam satu
Itu dapat diinstal menggunakan perintah pip: pip install tweepy
baris –
Untuk mengambil tweet dari Twitter API, seseorang perlu mendaftarkan
Aplikasi melalui akun Twitter mereka. Setelah itu dilakukan langkah-
classifier_poly=svm.SVC()
langkah berikut: Untuk menggunakan model pembelajaran mesin, seseorang harus
ingat untuk menginstal NumPy dengan benar dan mengimpor dari
- Buka https://apps.twitter.com/ dan klik tombol – 'Buat
scikit-belajar model yang diinginkan.
Aplikasi Baru'.
Setelah melatih model kita, gunakan instance yang sama untuk menguji
- Isi detail yang diminta.
model dan simpan hasil yang diperoleh.
- Saat Aplikasi dibuat, halaman akan dimuat
secara otomatis.
32
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017
5. EKSPERIMENTASI VALIDASI MODEL Tabel 1: Akurasi rata-rata dari model yang berbeda
S. Penggolong Ketepatan
Setelah langkah-langkah pra-pemrosesan dan ekstraksi fitur
tidak.
dilakukan, kami bekerja untuk melatih dan memvalidasi kinerja
model. Dataset yang terkumpul dibagi menjadi dua set pelatihan 1. DAN2 86,06%
dan set pengujian. Set pelatihan digunakan untuk melatih
pengklasifikasi (model yang dipelajari mesin) sedangkan set 2. SVM 85,0%
pengujian adalah tempat eksperimen dilakukan. Rasio dataset
3. Regresi Logistik Bayesian 74,84%
pelatihan dan pengujian dapat bervariasi sesuai dengan aplikasi. [1]
membagi dataset sebagai 70% pelatihan dan pengujian sisanya, 4. Naif Bayes 66,24%
sedangkan [3] yang menggunakan validasi silang pada dataset
dengan membaginya menjadi 10 bagian. Metode ini memilih 90%
5. Pengklasifikasi Hutan Acak 87,5%
untuk set pelatihan dan 10 untuk pengujian. 6. Jaringan syaraf 89,93%
[4] membagi set sebagai set pelatihan yang berisi 21000 tweet sedangkan set 7. Entropi Maksimum 90,0%
pengujian 1400 tweet (sekitar 93% dan 7%) sedangkan [5] menggunakan 75%
data untuk set pelatihan dan [9] menggunakan sekitar. 83% untuk pelatihan. 8. Pengklasifikasi ansambel 90,0%
6. KESIMPULAN
Analisis sentimen Twitter termasuk dalam kategori penambangan teks
dan opini. Ini berfokus pada menganalisis sentimen tweet dan
memasukkan data ke model pembelajaran mesin untuk melatihnya dan
kemudian memeriksa keakuratannya, sehingga kami dapat menggunakan
model ini untuk penggunaan di masa mendatang sesuai dengan hasilnya.
Ini terdiri dari langkah-langkah seperti pengumpulan data, pra-
pemrosesan teks, deteksi sentimen, klasifikasi sentimen, pelatihan dan
pengujian model. Topik penelitian ini telah berkembang selama dekade
terakhir dengan model mencapai efisiensi hampir 85% -90%. Namun
masih kekurangan dimensi keragaman dalam data. Seiring dengan ini, ia
memiliki banyak masalah aplikasi dengan bahasa gaul yang digunakan
dan bentuk kata yang pendek. Banyak penganalisis tidak bekerja dengan
baik ketika jumlah kelas ditingkatkan. Juga masih belum diuji seberapa
akurat modelnya untuk topik selain yang sedang dipertimbangkan. Oleh
karena itu, analisis sentimen memiliki cakupan pengembangan yang
sangat cerah di masa depan.
33
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017
IJCATM: www.ijcaonline.org 34