Anda di halaman 1dari 7

Diterjemahkan dari bahasa Inggris ke bahasa Indonesia - www.onlinedoctranslator.

com

Lihat diskusi, statistik, dan profil penulis untuk publikasi ini di:https://www.researchgate.net/publication/317058859

Kajian Analisis Sentimen Twitter Menggunakan Algoritma Machine Learning di


Python

ArtikeldiJurnal Internasional Aplikasi Komputer · Mei 2017


DOI: 10.5120/ijca2017914022

KUTIPAN BACA
65 8.946

5 penulis, termasuk:

Bhumika Gupta Monica Negi


Sekolah Bisnis Telekomunikasi
3PUBLIKASI69KUTIPAN
20PUBLIKASI341KUTIPAN
LIHAT PROFIL

LIHAT PROFIL

Priyanka Badhani
Institut Teknologi Nasional Motilal Nehru
1PUBLIKASI65KUTIPAN

LIHAT PROFIL

Semua konten yang mengikuti halaman ini diunggah olehPriyanka Badhanipada 24 Juli 2021.

Pengguna telah meminta peningkatan file yang diunduh.


Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017

Studi Analisis Sentimen Twitter Menggunakan Mesin


Belajar Algoritma di Python
Bhumika Gupta, PhD Monika Negi, Kanika Vishwakarma, Goldi
Asisten Profesor, CSED Rawat, Priyanka Badhani
GBPEC, Pauri, Uttarakhand, India B.Tech, CSED
GBPEC Uttarakhand, India

ABSTRAK 2. TENTANG ANALISIS SENTIMEN


Twitter adalah platform yang banyak digunakan oleh orang-orang Analisis sentimen adalah proses menurunkan sentimen dari
untuk mengekspresikan pendapat mereka dan menampilkan pernyataan atau kalimat tertentu. Ini adalah teknik
sentimen di berbagai kesempatan. Analisis sentimen adalah klasifikasi yang memperoleh opini dari tweet dan
pendekatan untuk menganalisis data dan mengambil sentimen yang merumuskan sentimen dan berdasarkan itu, klasifikasi
terkandung di dalamnya. Analisis sentimen Twitter adalah aplikasi sentimen dilakukan.
analisis sentimen pada data dari Twitter (tweet), untuk mengekstrak
Sentimen bersifat subjektif terhadap topik yang diminati. Kami diminta untuk
sentimen yang disampaikan oleh pengguna. Dalam beberapa
merumuskan bahwa fitur seperti apa yang akan menentukan sentimen yang
dekade terakhir, penelitian di bidang ini terus berkembang. Alasan di
terkandung di dalamnya.
balik ini adalah format tweet yang menantang yang membuat
pemrosesan menjadi sulit. Format tweet sangat kecil yang Dalam model pemrograman, sentimen yang kami rujuk, adalah kelas
menghasilkan dimensi masalah yang sama sekali baru seperti entitas yang ingin ditemukan oleh orang yang melakukan analisis
penggunaan bahasa gaul, singkatan, dll. Dalam makalah ini, kami sentimen dalam tweet. Dimensi kelas sentimen merupakan faktor
bertujuan untuk meninjau beberapa makalah mengenai penelitian penting dalam menentukan efisiensi model.
dalam analisis sentimen di Twitter, menjelaskan metodologi yang
diadopsi dan model yang diterapkan, Sebagai contoh, kita dapat memiliki klasifikasi sentimen
tweet dua kelas (positif dan negatif) atau klasifikasi
Kata kunci sentimen tweet tiga kelas (positif, negatif dan netral).
Analisis sentimen, Pembelajaran Mesin, Pemrosesan Bahasa
Pendekatan analisis sentimen dapat dikategorikan secara luas dalam dua
Alami, Python.
kelas – berbasis leksikon dan berbasis pembelajaran mesin. Pendekatan

1. PERKENALAN berbasis leksikon tidak diawasi karena mengusulkan untuk melakukan


analisis menggunakan leksikon dan metode penilaian untuk
Twitter telah muncul sebagai situs mikro-blogging utama, memiliki
mengevaluasi pendapat. Sedangkan pendekatan pembelajaran mesin
lebih dari 100 juta pengguna yang menghasilkan lebih dari 500 juta
melibatkan penggunaan ekstraksi fitur dan pelatihan model
tweet setiap hari. Dengan audiens yang begitu besar, Twitter secara
menggunakan kumpulan fitur dan beberapa kumpulan data.
konsisten menarik pengguna untuk menyampaikan pendapat dan
perspektif mereka tentang masalah, merek, perusahaan, atau topik Langkah-langkah dasar untuk melakukan analisis sentimen
menarik lainnya. Karena alasan ini, Twitter digunakan sebagai meliputi pengumpulan data, pra-pemrosesan data, ekstraksi
sumber informasi oleh banyak organisasi, institusi, dan perusahaan. fitur, pemilihan fitur dasar, deteksi sentimen, dan melakukan
klasifikasi baik menggunakan komputasi sederhana atau
pendekatan pembelajaran mesin lainnya.
Di Twitter, pengguna diperbolehkan untuk berbagi pendapat dalam bentuk tweet,
hanya menggunakan 140 karakter. Hal ini menyebabkan orang memadatkan
2.1 Analisis Sentimen Twitter
pernyataan mereka dengan menggunakan bahasa gaul, singkatan, emoticon, bentuk
Tujuan saat melakukan analisis sentimen pada tweet pada dasarnya adalah
pendek dll. Seiring dengan ini, orang menyampaikan pendapat mereka dengan
untuk mengklasifikasikan tweet dalam kelas sentimen yang berbeda secara
menggunakan sarkasme dan polisemi.
akurat. Dalam bidang penelitian ini, berbagai pendekatan telah berkembang,

Oleh karena itu dibenarkan untuk menyebut bahasa Twitter sebagai tidak yang mengusulkan metode untuk melatih model dan kemudian mengujinya

terstruktur. untuk memeriksa efisiensinya.

Untuk mengekstrak sentimen dari tweet, digunakan analisis Melakukan analisis sentimen merupakan tantangan pada data Twitter, seperti

sentimen. Hasil dari ini dapat digunakan di banyak bidang seperti yang kami sebutkan sebelumnya. Berikut kami jelaskan alasannya:

menganalisis dan memantau perubahan sentimen dengan suatu


- Ukuran tweet terbatas:dengan hanya 140 karakter di
peristiwa, sentimen mengenai merek tertentu atau rilis produk
tangan, pernyataan ringkas dihasilkan, yang menghasilkan
tertentu, menganalisis pandangan publik terhadap kebijakan
serangkaian fitur yang jarang.
pemerintah, dll.
- Penggunaan bahasa gaul:kata-kata ini berbeda dari kata-kata
Banyak penelitian telah dilakukan pada data Twitter untuk bahasa Inggris dan dapat membuat pendekatan menjadi
mengklasifikasikan tweet dan menganalisis hasilnya. Dalam makalah ketinggalan zaman karena penggunaan bahasa gaul yang
ini kami bertujuan untuk meninjau beberapa penelitian di domain ini - evolusioner. Fitur Twitter:itu memungkinkan penggunaan tagar,
dan mempelajari bagaimana melakukan analisis sentimen pada data referensi pengguna, dan URL. Ini membutuhkan pemrosesan yang
Twitter menggunakan Python. Ruang lingkup makalah ini terbatas berbeda dari kata-kata lain.
pada model pembelajaran mesin dan kami menunjukkan - Variasi pengguna:pengguna mengekspresikan pendapat mereka dalam
perbandingan efisiensi model ini satu sama lain. berbagai cara, beberapa menggunakan bahasa yang berbeda di
antaranya, sementara yang lain menggunakan kata atau simbol yang
diulang untuk menyampaikan emosi.

29
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017

Semua masalah ini harus dihadapi di bagian - Stemming: Mengganti kata dengan akarnya,
preprocessing. mengurangi jenis kata yang berbeda dengan arti yang
sama [3]. Ini membantu dalam mengurangi dimensi set
Selain itu, kami menghadapi masalah dalam ekstraksi fitur
fitur.
dengan lebih sedikit fitur di tangan dan mengurangi
dimensi fitur. - Karakter khusus dan penghapusan digit:Digit dan
karakter khusus tidak menyampaikan sentimen apa pun.
3. METODOLOGI Terkadang mereka dicampur dengan kata-kata, sehingga
Untuk melakukan analisis sentimen, kami diharuskan penghapusannya dapat membantu menghubungkan dua
mengumpulkan data dari sumber yang diinginkan (di sini Twitter). kata yang dianggap berbeda.
Data ini mengalami berbagai langkah pra-pemrosesan yang - Membuat kamus untuk menghilangkan kata dan tanda
membuatnya lebih masuk akal daripada bentuk sebelumnya. baca yang tidak diinginkan dari teks [5].
- Perluasan bahasa gaul dan singkatan
- [5]. Koreksi ejaan [5].
- Membuat kamus untuk kata-kata yang penting
[7] atau untuk emoticon [2].
- Penandaan bagian dari pidato (POS):Ini memberikan tag ke
setiap kata dalam teks dan mengklasifikasikan kata ke kategori
tertentu seperti kata benda, kata kerja, kata sifat, dll. Penanda
POS efisien untuk ekstraksi fitur eksplisit.

3.3 Ekstraksi Fitur


Fitur adalah bagian dari informasi yang dapat digunakan sebagai
karakteristik yang dapat membantu dalam memecahkan suatu
masalah (seperti prediksi [11]). Kualitas dan kuantitas fitur sangat
penting karena penting untuk hasil yang dihasilkan oleh model yang
Gambar 1 – Metodologi Umum untuk Analisis Sentimen dipilih.

3.1 Koleksi Tweet Pemilihan kata yang berguna dari tweet adalah ekstraksi fitur.
Pengumpulan Tweet melibatkan pengumpulan tweet yang
relevan tentang bidang minat tertentu. Tweet dikumpulkan
- Fitur Unigram –satu kata dipertimbangkan pada satu
waktu dan memutuskan apakah itu mampu menjadi
menggunakan API streaming Twitter [1], [3], atau alat
fitur.
penambangan lainnya (misalnya WEKA [2]), untuk jangka waktu
analisis yang diinginkan. Format teks yang diambil diubah - Fitur N-gram-lebih dari satu kata dianggap
sesuai kenyamanan (misalnya JSON dalam kasus [3], [5]). pada suatu waktu.
- leksikon eksternal –penggunaan daftar kata-kata dengan
Kumpulan data yang dikumpulkan sangat penting untuk sentimen positif atau negatif yang telah ditentukan.
efisiensi model. Pembagian set data menjadi set pelatihan dan
pengujian juga merupakan faktor penentu efisiensi model. Set Analisis frekuensi merupakan metode untuk mengumpulkan fitur dengan

pelatihan adalah aspek utama di mana hasil tergantung. frekuensi tertinggi yang digunakan pada [1]. Selanjutnya, mereka
menghapus beberapa dari mereka karena adanya kata-kata dengan
3.2 Pra-pemrosesan tweet sentimen yang sama (misalnya senang, gembira, gembira dll) dan
Pra-pemrosesan data merupakan langkah yang sangat penting karena membuat kelompok kata-kata ini. Bersamaan dengan itu dilakukan
menentukan efisiensi langkah-langkah lain yang sejalan. Ini melibatkan analisis afinitas, yang berfokus pada n-gram orde tinggi dalam
koreksi sintaksis dari tweet yang diinginkan. Langkah-langkah yang representasi fitur tweet.
terlibat harus bertujuan untuk membuat data lebih dapat dibaca mesin
Barnaghi et al [3], menggunakan unigram dan bigram dan menerapkan
untuk mengurangi ambiguitas dalam ekstraksi fitur. Berikut adalah
Term Frequency Inverse Document Frequency (TF-IDF) untuk menemukan
beberapa langkah yang digunakan untuk pra-pemrosesan tweet -
bobot fitur tertentu dalam teks dan karenanya menyaring fitur yang
memiliki bobot maksimum. TF-IDF adalah pendekatan yang sangat efisien
- Penghapusan re-tweet.
dan banyak digunakan dalam klasifikasi teks dan penambangan data.
- Mengubah huruf besar menjadi huruf kecil:Jika kita
menggunakan analisis case-sensitive, kita mungkin
Bouazizi et al [4], mengusulkan suatu pendekatan yang tidak hanya
menganggap dua kemunculan kata yang sama berbeda karena
mengandalkan kosa kata yang digunakan tetapi juga ekspresi dan
kasus kalimatnya. Penting untuk analisis yang efektif untuk tidak
struktur kalimat yang digunakan dalam kondisi yang berbeda. Mereka
memberikan keraguan seperti itu pada model.
mengklasifikasikan fitur ke dalam empat kelas: fitur berbasis sentimen,
- Hentikan penghapusan kata:Kata-kata stop yang tidak fitur berbasis tanda baca dan sintaks, fitur berbasis unigram dan fitur
mempengaruhi arti tweet akan dihapus (misalnya dan, berbasis pola.
atau, diam, dll.). [3] menggunakan paket pembelajaran
mesin WEKA untuk tujuan ini, yang memeriksa setiap Karya [5] sedikit berbeda karena mereka tidak fokus pada topik atau
kata dari teks terhadap kamus ([3], [5]). peristiwa tertentu tetapi mengusulkan untuk menemukan topik yang
sedang hangat di suatu wilayah. Fitur yang diekstraksi dibagi dalam dua
- Penghapusan fitur Twitter:Nama pengguna dan URL
kategori: Fitur Umum dan Fitur Khusus Tweet. Yang pertama adalah
tidak penting dari perspektif pemrosesan di masa
kombinasi dari kata-kata sentimen umum sedangkan yang kedua
mendatang, oleh karena itu kehadirannya sia-sia.
mencakup fitur @-jaringan, fitur sentimen pengguna, dan emotikon.
Semua nama pengguna dan URL dikonversi ke tag
Berdasarkan waktu posting setiap pengguna, vektor fitur dibangun.
umum [3] atau dihapus [5].

30
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017

3.4 Pengklasifikasi sentimen pengetahuan dan pembelajaran berlangsung pada setiap


tingkat dan diteruskan ke tingkat berikutnya. Lapisan
- Regresi logistik Bayesian:memilih fitur dan
tersembunyi dihasilkan secara dinamis sampai tingkat kinerja
menyediakan pengoptimalan untuk melakukan
yang diinginkan tercapai.
kategorisasi teks. Ini menggunakan Laplace sebelum
untuk menghindari overfitting dan menghasilkan model
prediksi yang jarang untuk data teks. Estimasi Regresi
- Penalaran Dasar Kasus:Dalam teknik ini, masalah
Logistik memiliki bentuk parametrik:
yang berhasil dipecahkan di masa lalu diakses dan
solusinya diambil dan digunakan lebih lanjut [10]. Itu
tidak memerlukan model domain eksplisit, membuat
elisitasi tugas mengumpulkan sejarah kasus dan
sistem CBR dapat memperoleh pengetahuan baru
Di mana fungsi normalisasi, adalah vektor sebagai kasus. Hal ini membuat pemeliharaan kolom
parameter bobot untuk set fitur dan fungsi bineradalah besar informasi lebih mudah.
yang mengambil sebagai input fitur dan label
kelas. Ini dipicu ketika fitur tertentu ada dan - Pengklasifikasi Entropi Maksimum:Pengklasifikasi ini
sentimen dihipotesiskan dengan cara tertentu [3]. tidak mengambil asumsi mengenai hubungan antara
fitur; itu selalu mencoba untuk memaksimalkan entropi
suatu sistem dengan menghitung distribusi bersyarat
- Teluk Naif:Ini adalah pengklasifikasi probabilistik dari label kelasnya [9].
dengan asumsi independensi bersyarat kuat yang
optimal untuk mengklasifikasikan kelas dengan fitur
yang sangat bergantung. Kepatuhan terhadap kelas
sentimen dihitung menggunakan teorema Bayes.
'X' adalah vektor fitur dan 'y' adalah label kelas. Z(X)
adalah faktor normalisasi dan merupakan koefisien
X adalah vektor fitur yang didefinisikan sebagai X = { , dan …. } bobot yang merupakan fungsi fitur
merupakan label kelas. yang didefinisikan sebagai

Naïve Bayes adalah pengklasifikasi yang sangat sederhana dengan


hasil yang dapat diterima tetapi tidak sebagus pengklasifikasi - Pengklasifikasi ansambel:Pengklasifikasi ini mencoba
lainnya. memanfaatkan fitur dari semua pengklasifikasi dasar untuk
melakukan klasifikasi terbaik. Base classifier yang digunakan oleh
- Mendukung Algoritma Mesin Vektor:Dukungan mesin
[9] adalah Naïve Bayes, SVM dan Maximum Entropy. Pengklasifikasi
vektor adalah model terawasi dengan algoritma
mengklasifikasikan berdasarkan output dari mayoritas
pembelajaran terkait yang menganalisis data yang
pengklasifikasi (aturan pemungutan suara).
digunakan untuk klasifikasi dan analisis regresi [6], [9]. Itu
memanfaatkan konsep bidang keputusan yang
4. ANALISIS SENTIMEN TWITTER
mendefinisikan batas-batas keputusan.
DENGAN PYTHON
4.1 Python
Xadalah vektor fitur, 'w' adalah bobot vektor dan 'b' Python adalah bahasa pemrograman tingkat tinggi yang
adalah vektor bias. adalah pemetaan non-linier dari diinterpretasikan, dibuat oleh Guido van Rossum. Bahasa ini sangat
ruang input ke ruang fitur berdimensi tinggi. SVM populer karena keterbacaan kode dan baris kode yang ringkas. Ini
dapat digunakan untuk pengenalan pola [2]. menggunakan genangan ruang putih untuk membatasi blok.

- Jaringan Saraf Buatan:model JST yang digunakan Python menyediakan perpustakaan standar besar yang dapat
untuk pembelajaran terawasi adalah Multi-Layer digunakan untuk berbagai aplikasi misalnya pemrosesan bahasa
Perceptron, yang merupakan model umpan maju alami, pembelajaran mesin, analisis data, dll.
yang memetakan data ke satu set keluaran terkait.
Data pelatihan yang diberikan ke lapisan input Ini disukai untuk proyek yang kompleks, karena
diproses oleh lapisan perantara tersembunyi dan data kesederhanaannya, beragam fitur dan sifatnya yang dinamis.
masuk ke lapisan output. Jumlah lapisan tersembunyi
adalah metrik yang sangat penting untuk kinerja 4.2 Pemrosesan Bahasa Alami (NLTK)
model. Ada dua langkah kerja MLP NN- feed forward Natural Language toolkit (NLTK) adalah pustaka dalam python,
propagation, yang melibatkan fitur pembelajaran dari yang menyediakan dasar untuk pemrosesan dan klasifikasi teks.
algoritma feed forward propagation dan back Operasi seperti tokenization, tagging, filtering, manipulasi teks
propagation, untuk cost function [5], [10]. dapat dilakukan dengan menggunakan NLTK.

Zimbra dkk [1]mengusulkan pendekatan untuk Pustaka NLTK juga mewujudkan berbagai pengklasifikasi yang dapat

menggunakan Arsitektur Dinamis untuk Jaringan Saraf Tiruan dilatih (contoh – Pengklasifikasi Naïve Bayes).

(DAN2) yang merupakan model pembelajaran mesin dengan Pustaka NLTK digunakan untuk membuat model bag-of-words, yang
sensitivitas yang cukup terhadap ekspresi ringan dalam tweet. merupakan jenis model unigram untuk teks. Dalam model ini,
Mereka menargetkan untuk menganalisis sentimen terkait jumlah kemunculan setiap kata dihitung. Data yang diperoleh dapat
merek di mana sering terjadi kalimat ringan. digunakan untuk melatih model classifier. Sentimen dari seluruh
DAN2 berbeda dari jaringan saraf sederhana karena tweet dihitung dengan menetapkan skor subjektivitas untuk setiap
jumlah lapisan tersembunyi tidak tetap sebelum kata menggunakan leksikon sentimen.
menggunakan model. Saat input diberikan, akumulasi

31
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017

4.3 SCIKIT-PELAJARI - Buka tab 'Kunci dan Token Akses'.


Proyek Scikit-learn dimulai sebagai scikits.learn, sebuah proyek Google
- Salin 'Kunci Konsumen', 'Rahasia Konsumen', 'Token
Summer Code oleh David Cournapeau. Ini adalah perpustakaan yang kuat
Akses', dan 'Rahasia Token Akses'.
yang menyediakan banyak algoritma klasifikasi pembelajaran mesin, alat
yang efisien untuk penambangan data dan analisis data. Di bawah ini Kunci yang disalin kemudian dimasukkan ke dalam kode, yang membantu dalam
adalah berbagai fungsi yang dapat dilakukan menggunakan pengumpulan tweet yang dinamis setiap kali kita menjalankannya.
perpustakaan ini:
Opsi lainnya adalah mengumpulkan data secara non-dinamis menggunakan
- Klasifikasi:Mengidentifikasi kategori yang data yang ada yang disediakan oleh situs web (seperti kaggle.com) dan
dimiliki objek tertentu. menyimpan data ke dalam format apa pun yang kami butuhkan (misalnya JSON,

- Regresi: Memprediksi sebuah bernilai terus menerus csv, dll.).

atribut yang terkait dengan suatu objek. Kekelompokan:


Metode sebelumnya bersifat lambat karena melakukan
- Pengelompokan otomatis objek serupa ke dalam set.
pengumpulan tweet setiap kali kita memulai program. Pendekatan
terakhir mungkin tidak memberi kami kualitas tweet yang kami
- Pengurangan Dimensi:Mengurangi jumlah butuhkan.
variabel acak yang dipertimbangkan.
- Pemilihan model:Membandingkan, memvalidasi dan Untuk mengatasi ini kita dapat menempatkan kode untuk koleksi tweet di
memilih parameter dan model. modul yang berbeda dengan cara yang tidak beroperasi setiap kali kita

- Prapemrosesan: Fitur ekstraksi dan menjalankan proyek.

normalisasi untuk mengubah data input untuk digunakan


4.7 Pra-pemrosesan dengan Python
dengan algoritma pembelajaran mesin.
Pra-pemrosesan dengan Python mudah dilakukan karena fungsi
Untuk bekerja dengan scikit-learn, kita diharuskan untuk menginstal yang disediakan oleh pustaka standar. Beberapa langkah diberikan
NumPy pada sistem. di bawah ini:

4.4 NumPy - Mengubah semua huruf besar menjadi huruf


NumPy adalah paket dasar untuk komputasi ilmiah - kecil. Menghapus URL:Pemfilteran URL dapat
dengan Python. Ini menyediakan objek array dilakukan dengan bantuan ekspresi reguler (http|
multidimensi berkinerja tinggi, dan alat untuk bekerja https|ftp)://[a-zA-Z0-9\\./]+.
dengan array ini. Isinya antara lain: - Menghapus Pegangan (Referensi Pengguna):Pegangan
dapat dihapus menggunakan ekspresi reguler - @(\w+) .
- Sebuah objek array N-dimensi yang kuat Fungsi - Menghapus hashtag:Tagar dapat dihapus menggunakan
- canggih (penyiaran) Alat untuk mengintegrasikan ekspresi reguler - #(\w+).
- kode C/C++ dan Fortran Aljabar linier yang berguna, - Menghapus emotikon:Kita dapat menggunakan
- transformasi Fourier, dan kemampuan angka acak. kamus emotikon untuk menyaring emotikon atau
menyimpan kemunculannya di file lain.
- Menghapus karakter berulang.
4.5 Menyiapkan Lingkungan untuk Analisis
Sentimen Menggunakan Python 4.8 Ekstraksi Fitur
Berbagai metodologi untuk mengekstraksi fitur tersedia saat ini.
Komponen berikut ini harus diunduh dan diinstal Term frekuensi-Inverse Frekuensi dokumen merupakan
dengan benar. pendekatan yang efisien. TF-IDF adalah statistik numerik yang
- Unduh dan instal Python 2.6 atau lebih tinggi di lokasi mencerminkan nilai sebuah kata untuk seluruh dokumen (di
yang diinginkan. sini, tweet).

- Unduh dan instal NumPy. Unduh dan Scikit-learn menyediakan vectorizers yang menerjemahkan dokumen
input ke dalam vektor fitur. Kita dapat menggunakan fungsi library
- instal pustaka NLTK. Unduh dan instal
TfidfVectorizer(), yang dengannya kita dapat menyediakan
- perpustakaan Scikit-learn. parameter untuk jenis fitur yang ingin kita pertahankan dengan
menyebutkan frekuensi minimum fitur yang dapat diterima.
4.6 Pengumpulan Data
Kami memiliki dua opsi untuk mengumpulkan data untuk analisis 4.9 PELATIHAN MODEL
sentimen. Pertama adalah menggunakan Tweepy - klien untuk Antarmuka scikit-library menyediakan berbagai model pembelajaran mesin yang
Pemrograman Aplikasi Twitter (API). implementasinya dalam kode sangat mudah. Misalnya seseorang dapat
dengan mudah membuat instance Support Vector Machine dalam satu
Itu dapat diinstal menggunakan perintah pip: pip install tweepy
baris –
Untuk mengambil tweet dari Twitter API, seseorang perlu mendaftarkan
Aplikasi melalui akun Twitter mereka. Setelah itu dilakukan langkah-
classifier_poly=svm.SVC()
langkah berikut: Untuk menggunakan model pembelajaran mesin, seseorang harus
ingat untuk menginstal NumPy dengan benar dan mengimpor dari
- Buka https://apps.twitter.com/ dan klik tombol – 'Buat
scikit-belajar model yang diinginkan.
Aplikasi Baru'.
Setelah melatih model kita, gunakan instance yang sama untuk menguji
- Isi detail yang diminta.
model dan simpan hasil yang diperoleh.
- Saat Aplikasi dibuat, halaman akan dimuat
secara otomatis.

32
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017

5. EKSPERIMENTASI VALIDASI MODEL Tabel 1: Akurasi rata-rata dari model yang berbeda

S. Penggolong Ketepatan
Setelah langkah-langkah pra-pemrosesan dan ekstraksi fitur
tidak.
dilakukan, kami bekerja untuk melatih dan memvalidasi kinerja
model. Dataset yang terkumpul dibagi menjadi dua set pelatihan 1. DAN2 86,06%
dan set pengujian. Set pelatihan digunakan untuk melatih
pengklasifikasi (model yang dipelajari mesin) sedangkan set 2. SVM 85,0%
pengujian adalah tempat eksperimen dilakukan. Rasio dataset
3. Regresi Logistik Bayesian 74,84%
pelatihan dan pengujian dapat bervariasi sesuai dengan aplikasi. [1]
membagi dataset sebagai 70% pelatihan dan pengujian sisanya, 4. Naif Bayes 66,24%
sedangkan [3] yang menggunakan validasi silang pada dataset
dengan membaginya menjadi 10 bagian. Metode ini memilih 90%
5. Pengklasifikasi Hutan Acak 87,5%
untuk set pelatihan dan 10 untuk pengujian. 6. Jaringan syaraf 89,93%
[4] membagi set sebagai set pelatihan yang berisi 21000 tweet sedangkan set 7. Entropi Maksimum 90,0%
pengujian 1400 tweet (sekitar 93% dan 7%) sedangkan [5] menggunakan 75%
data untuk set pelatihan dan [9] menggunakan sekitar. 83% untuk pelatihan. 8. Pengklasifikasi ansambel 90,0%

Karena pekerjaan klasifikasi di [6] berbasis topik dan bersifat adaptif,


5.1 Aplikasi
maka pelabelan manual yang berlebihan dihindari yang mengurangi - Perdagangan:Perusahaan dapat memanfaatkan
ukuran set pelatihan. penelitian ini untuk mengumpulkan opini publik terkait
dengan merek dan produk mereka. Dari sudut pandang
Model yang dipilih untuk eksperimen dilatih menggunakan data training
perusahaan, survei audiens target sangat penting untuk
set. Kemudian model terlatih yang sama ini digunakan untuk
mengetahui peringkat produk mereka. Oleh karena itu
mengklasifikasikan data baru, yang dengannya kita dapat memeriksa
Twitter dapat berfungsi sebagai platform yang baik untuk
keakuratannya.
pengumpulan dan analisis data untuk menentukan
Karena pekerjaan klasifikasi di [6] berbasis topik dan bersifat adaptif, kepuasan pelanggan.
maka pelabelan manual yang berlebihan dihindari yang mengurangi
ukuran set pelatihan. - Politik:Mayoritas tweet di Twitter terkait dengan politik. Karena
penggunaan Twitter yang meluas, banyak politisi juga bertujuan
Karya yang diusulkan dari [3] sedikit berbeda karena mereka mengkorelasikan untuk terhubung dengan orang-orang melaluinya. Orang-orang
peristiwa dan sentimen dengan menggunakan stempel waktu. Dengan memposting dukungan atau ketidaksetujuan mereka terhadap
menggunakan metode ini untuk peristiwa tertentu, dimungkinkan untuk kebijakan, tindakan, pemilihan umum, debat pemerintah, dll. Oleh
membaginya menjadi sub-peristiwa dan lebih memperdalam studi sentimen karena itu, menganalisis data darinya dapat membantu dalam
pengguna. Pendekatan ini rumit tetapi menghasilkan hasil yang sangat detail menentukan pandangan publik.
ketika kami memilih acara besar dan ingin melihat fluktuasi sentimen pengguna
seiring waktu. - Acara olah raga:Olahraga melibatkan banyak acara,
kejuaraan, pertemuan dan beberapa kontroversi juga. Banyak
Jumlah kelas yang akan dipilih untuk klasifikasi terserah orang adalah pengikut olahraga yang antusias dan mengikuti
pengguna. Seseorang dapat melakukan klasifikasi biner, pemain favorit mereka yang hadir di Twitter. Orang-orang ini
ternary atau multi-kelas berdasarkan jenis aplikasi yang kita sering men-tweet tentang berbagai acara terkait olahraga.
tuju. Tetapi telah diamati bahwa dengan bertambahnya Kami dapat menggunakan data untuk mengumpulkan
jumlah kelas, kinerja pengklasifikasi menurun [1], [3]. pandangan publik tentang tindakan pemain, kinerja tim,
keputusan resmi, dll.

6. KESIMPULAN
Analisis sentimen Twitter termasuk dalam kategori penambangan teks
dan opini. Ini berfokus pada menganalisis sentimen tweet dan
memasukkan data ke model pembelajaran mesin untuk melatihnya dan
kemudian memeriksa keakuratannya, sehingga kami dapat menggunakan
model ini untuk penggunaan di masa mendatang sesuai dengan hasilnya.
Ini terdiri dari langkah-langkah seperti pengumpulan data, pra-
pemrosesan teks, deteksi sentimen, klasifikasi sentimen, pelatihan dan
pengujian model. Topik penelitian ini telah berkembang selama dekade
terakhir dengan model mencapai efisiensi hampir 85% -90%. Namun
masih kekurangan dimensi keragaman dalam data. Seiring dengan ini, ia
memiliki banyak masalah aplikasi dengan bahasa gaul yang digunakan
dan bentuk kata yang pendek. Banyak penganalisis tidak bekerja dengan
baik ketika jumlah kelas ditingkatkan. Juga masih belum diuji seberapa
akurat modelnya untuk topik selain yang sedang dipertimbangkan. Oleh
karena itu, analisis sentimen memiliki cakupan pengembangan yang
sangat cerah di masa depan.

Gambar 2: Akurasi berdasarkan jumlah kelas yang digunakan untuk


klasifikasi perasaan

33
Jurnal Internasional Aplikasi Komputer (0975 – 8887)
Volume 165 – No.9, Mei 2017

7. REFERENSI [6] Halima Banu S dan S Chitrakala, “Trending Topic


[1] David Zimbra, M. Ghiassi dan Sean Lee, “Analisis Analysis Using Novel Sub Topic Detection Model”,
Sentimen Twitter Terkait Merek menggunakan (IEEE) ISBN-978-1-4673-9745-2, 2016.
Rekayasa Fitur dan Arsitektur Dinamis untuk [7] Shi Yuan, Junjie Wu, Lihong Wang dan Qing Wang,
Jaringan Saraf Tiruan”, IEEE 1530-1605, 2016. “Metode Hibrid untuk Analisis Sentimen Multi-kelas dari
[2] Varsha Sahayak, Vijaya Shete dan Apashabi Pathan, Blog Mikro”, ISBN-978-1-5090-2842-9, 2016.
“Analisis Sentimen pada Data Twitter”, (IJIRAE) ISSN: [8] Apoorv Agarwal, Boyi Xie, Ilia Vovsha, Owen Rambow
2349-2163, Januari 2015. dan Rebecca Passonneau, “Analisis Sentimen Data
[3] Peiman Barnaghi, John G. Breslin dan Parsa Ghaffari, Twitter” Prosiding Lokakarya Bahasa di Media Sosial
“Penambangan Opini dan Polaritas Sentimen di Twitter dan (LSM 2011), 2011.
Korelasi antara Peristiwa dan Sentimen”, Konferensi [9] Neethu MS dan Rajasree R, “Analisis Sentimen di Twitter
Internasional Kedua IEEE 2016 tentang Layanan dan Menggunakan Teknik Machine Learning”, IEEE – 31661,
Aplikasi Komputasi Data Besar. 4th ICCCNT 2013.
[4] Mondher Bouazizi dan Tomoaki Ohtsuki, “Analisis [10] Aliza Sarlan, Chayanit Nadam dan Shuib Basri, “Analisis
Sentimen: dari Klasifikasi Biner ke Multi-Kelas”, IEEE Sentimen Twitter”, Konferensi Internasional Teknologi
ICC 2016 SAC Social Networking, ISBN 978-1- Informasi dan Multimedia (ICIMU) 2014 (ICIMU),
4799-6664-6. Putrajaya, Malaysia 18 – 20 November 2014.
[5] Nehal Mamgain, Ekta Mehta, Ankush Mittal dan Gaurav Bhatt, [11] Fitur rekayasa, Wikipedia 2017,
“Analisis Sentimen Perguruan Tinggi Terbaik di India https://en.wikipedia.org/wiki/Feature_engineering
Menggunakan Data Twitter”, (IEEE) ISBN -978-1-5090-0082-1,
2016.

IJCATM: www.ijcaonline.org 34

Lihat statistik publikasi

Anda mungkin juga menyukai