Anda di halaman 1dari 6

DOI: 10.26418/juara.v1i1.

53126
Vol. 01, No. 1, Maret 2022

Perbandingan Algoritma Klasifikasi dalam Pendeteksian


Hoax pada Media Sosial
Antonius Yonathana1, Herry Sujainia2, Enda Esyudha Pratamaa3
a
Program Studi Teknik Informatika, Universitas Tanjungpura
Jl. Prof. Dr. H. Nawawi, Pontianak, Kalimantan Barat 78115
1antonius_yonathan@student.untan.ac.id
2hs@untan.ac.id
3enda@informatika.untan.ac.id

Abstrak
Pada media sosial, hoax atau berita palsu sering beredar. Pendeteksian hoax secara otomatis memerlukan
program ataupun aplikasi yang mengimplementasikan algoritma klasifikasi untuk dapat membedakan konten
hoax dengan konten fakta. Pada penelitian ini, lima algoritma klasifikasi, yaitu Multilayer Perceptron, Naïve Bayes,
Support Vector Machine, Decision Tree, dan Random Forest dibandingkan kemampuannya dalam
mengklasifikasikan data teks Tweet dari media sosial Twitter untuk mengetahui algoritma manakah yang paling
akurat dalam mengklasifikasikan data tersebut. Pengujian yang dilakukan adalah pengujian, precision, recall, f1-
score dan accuracy. Menurut hasil pengujian rata-rata nilai precision, algoritma Random Forest mendapat nilai
tertinggi yaitu 0,8221, sedangkan Support Vector Machine terendah pada 0,7802. Untuk rata-rata nilai recall,
Support Vector Machine mendapat nilai tertinggi dengan skor 1,000 sedangkan Multilayer Perceptron terendah
dengan skor 0,7990. Untuk F1-Score, rata-rata nilai tertinggi terdapat pada algoritma Naive Bayes, yaitu 0,8742,
sementara rata-rata nilai terendah terdapat pada algoritma Multilayer Perceptron dengan nilai 0,7989. Pada rata-
rata nilai accuracy, nilai tertinggi berada pada algoritma Naive Bayes dengan nilai 0,7933 dan nilai terendah
berada pada algoritma Multilayer Perceptron dengan nilai 0,7033.
Kata kunci: Klasifikasi, Hoax, Pembelajaran Mesin, Penggalian Teks

Comparison of Classification Algorithms on Hoax Detection in


Social Media
Abstract
Hoaxes or fake news often circulate on social media. Automatic hoax detection requires a program or application
that implements a classification algorithm to differentiate hoax content from factual content. In this study, five
classification algorithms, namely Multilayer Perceptron, Naïve Bayes, Support Vector Machine, Decision Tree, and
Random Forest were compared for their ability to classify Tweet text data from Twitter social media to determine
which algorithm is the most accurate in classifying the data. Tests are performed in order to calculate the precision,
recall, f1 and accuracy scores. According to the results of testing the average precision value, the Random Forest
algorithm achieves the highest value, which is 0.8221, while the lowest Support Vector Machine at 0.7802. For the
average recall score, Support Vector Machine achieves the highest score with a score of 1,000 while the lowest
Multilayer Perceptron score was 0.7990. For F1-Score, the highest average value is found in the Naive Bayes
algorithm at 0.8742, while the lowest average value is in the Multilayer Perceptron algorithm with a value of
0.7989. For the average accuracy value, the highest value is in the Naive Bayes algorithm with a value of 0.7933
while the lowest value is in the Multilayer Perceptron algorithm with a value of 0.7033.
Keywords: Classification, Social media, Hoax, Machine learning, Text mining

I. PENDAHULUAN ataupun aplikasi yang mengimplementasikan algoritma


Dalam media sosial, hoax atau berita palsu sering klasifikasi untuk dapat membedakan konten hoax dengan
beredar. Keberadaan berita-berita palsu ini dapat konten non-hoax. Dengan adanya informasi mengenai
menimbulkan kesalahpahaman dalam masyarakat. akurasi berbagai algoritma klasifikasi pada sosial media,
Pendeteksian hoax secara otomatis memerlukan program

Submitted 24-09-2020; Revised 01-03-2022; Accepted 01-03-2022 44


JUARA (Jurnal Aplikasi dan Riset Informatika) Vol. 01 , No. 1 , Desember 2022

pengembang aplikasi pendeteksi hoax dapat memilih 4. Pembelajaran Mesin


algoritma klasifikasi yang terbaik untuk studi kasusnya. Pembelajaran mesin atau machine learning (ML)
Tujuan dari penelitian ini adalah untuk merupakan studi tentang algoritma komputer yang
membandingkan dan memilih algoritma terbaik dalam kemampuannya dapat meningkat secara otomatis melalui
pendeteksian hoax pada mesia sosial diantara Multilayer pengalaman [10]. Pembelajaran mesin merupakan bagian
Perceptron, Naive Bayes, Support Vector Machine, dari bidang kecerdasan buatan.
Random Forest, dan Decision Tree dalam pendeteksian Algoritma-algoritma pembelajaran mesin
hoax pada konten media sosial. menghasilkan model matematika berdasarkan data sampel,
Permasalahan yang serupa telah dibahas oleh Putri et yang dikenal sebagai "data pelatihan" (training data) untuk
al. dalam sebuah penelitian yang berjudul Analysis and menghasilkan prediksi atau keputusan tanpa diprogram
Detection of Hoax Contents in Indonesian News Based on secara eksplisit untuk tugas tersebut. Algoritma
Machine Learning [1], algoritma-algoritma klasifikasi pembelajaran mesin digunakan dalam berbagai macam
Multilayer Perceptron, Naive Bayes, Support Vector aplikasi, seperti pemfilteran email dan penglihatan
Machine, Random Forest, dan Decision Tree dibandingkan komputer, dimana algoritma konvensional sulit
akurasinya dalam mengklasifikasikan hoax pada teks-teks dikembangkan untuk melakukan tugas-tugas tersebut [9].
berita bahasa Indonesia. Perbedaan dari penelitian tersebut Pendekatan pembelajaran mesin secara umum dibagi
dengan penelitian ini terletak pada objek penelitian. menjadi tiga kategori besar, yang tergantung pada sifat
Penelitian ini menggunakan teks media sosial dalam "sinyal" atau "umpan balik" yang tersedia untuk sistem
Bahasa Indonesia sebagai data training dan data pengujian, pembelajarannya:
sedangkan penelitian tersebut menggunakan teks berita. Supervised Learning: Komputer disajikan dengan
contoh masukan dan keluaran yang diinginkan, yang
II. METODOLOGI diberikan oleh "pakar", dan tujuannya adalah untuk
A. Tinjauan Pustaka mempelajari aturan umum yang memetakan masukan ke
1. Twitter keluaran.
Twitter merupakan layanan mikroblog dan jejaring Unsupervised Learning: Tidak ada label yang
sosial Amerika Serikat dimana penggunanya dapat diberikan pada algoritma pembelajaran, algorima dibiarkan
memposting dan berinteraksi dengan pesan yang dikenal untuk menemukan dengan sendirinya struktur dalam
sebagai "tweet". Pengguna yang telah terdaftar dapat masukannya. Unsupervised Learning dapat menjadi tujuan
memposting, men-like, dan me-retweet (memposting itu sendiri (menemukan pola tersembunyi dalam data) atau
ulang) tweet, tetapi pengguna yang tidak terdaftar hanya sarana untuk mencapai tujuan (pembelajaran fitur) [4].
dapat membacanya. Pengguna mengakses Twitter melalui 5. Algoritma Klasifikasi
antarmuka situs webnya, melalui SMS atau perangkat Dalam pembelajaran mesin dan statistika, klasifikasi
lunak aplikasi perangkat seluler. merupakan masalah pengidentifikasian sebuah observasi
2. Definisi Hoax baru ke dalam kelompok kategori (sub-populasi),
Menurut definisi dari KBBI, kata “hoax” berarti berdasarkan serangkaian data pelatihan yang berisi
informasi bohong. Kehadiran berita digital telah membawa pengamatan (atau contoh) yang kategori keanggotaannya
kembali dan meningkatkan frekuensi pembuatan atau telah diketahui [1]. Salah satu contohnya adalah
kemunculan hoax, atau "jurnalisme kuning". Berita palsu pengklasifikasian email kedalam kelas "spam" atau "non-
sering tersebar sebagai informasi yang salah di media spam", dan penetapan diagnosis untuk pasien tertentu
sosial, namun kadang-kadang juga muncul di media umum berdasarkan karakteristik yang teramati pada pasien.
[6]. 6. Multilayer Perceptron
3. Definisi Fakta Dalam pembelajaran 4mesin, perceptron merupakan
Menurut KBBI, kata “fakta” memiliki definisi hal suatu algoritma untuk pembelajaran yang diawasi oleh
(keadaan, peristiwa) yang merupakan kenyataan; sesuatu pengklasifikasi biner. Pengklasifikasi biner merupakan
yang benar-benar ada atau terjadi. fungsi yang dapat memutuskan apakah input diwakili oleh
Dalam filsafat, konsep "fakta" merupakan salah atu vektor angka milik kelas tertentu atau tidak [5].
pertimbangan dalam bidang epistemologi dan ontologi. Multilayer perceptron (MLP) merupakan salah satu
Pertanyaan tentang objektivitas dan kebenaran sangat erat jenis jaringan syaraf tiruan feedforward (JST). MLP terdiri
kaitannya dengan pertanyaan tentang fakta. Sebuah "fakta" dari setidaknya tiga lapisan node: lapisan input, lapisan
dapat didefinisikan sebagai sesuatu yang memang terjadi tersembunyi dan lapisan keluaran. Kecuali untuk input
— yaitu, sesuatu yang sesuai dengan keadaan. node, setiap node adalah neuron yang menggunakan fungsi
aktivasi nonlinear. MLP menggunakan teknik

Korespondensi : Antonius Yonathan 45


JUARA (Jurnal Aplikasi dan Riset Informatika) Vol. 01 , No. 1 , Desember 2022

pembelajaran terawasi yang disebut backpropagation masing-masing pohon. Random Forest mengoreksi
untuk pelatihan [13]. kebiasaan Decision Tree yang cenderung melakukan
7. Naïve Bayes 'overfitting' terhadap data pelatihan [7].
Dalam pembelajaran mesin, pengklasifikasi Naïve 11. Python
Bayes adalah keluarga "pengklasifikasi probabilistik" Python merupakan salah satu bahasa pemrograman
sederhana berdasarkan penerapan teorema Bayes dengan interpretatif level tinggi yang dibuat oleh Guido van
asumsi kemandirian yang kuat (naif) di antara fitur-fitur Rossum dan dirilis pertama kali pada tahun 1991. Filosofi
tersebut. desain Python menekankan keterbacaan kode dengan
Pengklasifikasi Naive Bayes memiliki tingkat penggunaan spasi yang signifikan. Konstruk bahasa Python
skalabilitas tinggi dan membutuhkan sejumlah parameter dan pendekatan berorientasi objek bertujuan untuk
linear dalam jumlah variabel (fitur / prediktor) dalam membantu programmer menulis kode yang jelas dan logis
masalah pembelajaran. Pelatihan kemungkinan maksimum untuk proyek skala kecil maupun besar [3].
dapat dilakukan dengan mengevaluasi ekspresi bentuk- 12. Precision, Recall, F-Score, dan Accuracy
tertutup yang membutuhkan waktu linier, dan bukan Rozi [12] menjelaskan bahwa precision merupakan
dengan pendekatan berulang yang lebih tidak efisien rasio jumlah dokumen relevan yang ditemukan dengan
seperti yang digunakan untuk banyak jenis pengklasifikasi total jumlah dokumen yang ditemukan oleh sistem. Recall
lainnya [14]. adalah rasio jumlah dokumen relevan yang ditemukan
8. Support Vector Machine kembali dengan total jumlah dokumen dalam kumpulan
Dalam pembelajaran mesin, Support-Vector Machine dokumen yang dianggap relevan. Recall (perolehan)
(SVM) merupakan model pembelajaran terawasi berhubungan dengan kemampuan sistem untuk memanggil
(supervised) dengan algoritma pembelajaran terkait yang dokumen yang relevan. Sedangkan precision (ketepatan)
menganalisis data yang digunakan untuk klasifikasi dan berkaitan dengan kemampuan sistem untuk tidak
analisis regresi [5]. Dengan serangkaian contoh pelatihan, memanggil dokumen yang tidak relevan.
yang masing-masing telah ditandai sebagai milik satu atau F-1 score adalah nilai pengukuran kinerja dilakukan
yang lain dari dua kategori, algoritma pelatihan SVM untuk melihat hasil perolehan dari proses klasifikasi
membangun model yang memberikan contoh baru untuk berdasarkan pada precision dan nilai recall yang telah
satu kategori atau yang lain, menjadikannya sebagai diperoleh. Dengan kata lain, F-1 score juga disebut rata-rata
pengelompokan linear biner non-probabilistik. Model harmonic dari precision dan recall. Nilai accuracy
SVM merupakan representasi dari contoh-contoh sebagai merupakan ukuran tingkat kedekatan antara nilai prediksi
titik-titik dalam ruang, dipetakan sehingga contoh-contoh dan nilai aktual. Variabel-variabel yang digunakan dalam
kategori yang terpisah dibagi oleh celah yang jelas yang perhitungan precision, recall, f1-score, dan accuracy dapat
selebar mungkin. Contoh-contoh baru kemudian dipetakan dilihat pada tabeldibawah.
ke dalam ruang yang sama dan diprediksi termasuk dalam TABEL I
kategori berdasarkan sisi di mana mereka jatuh. VARIABEL PERHITUNGAN
9. Decision Tree Relevan Tak Relevan
Decision Tree merupakan salah satu pendekatan Ditemukan True positives (tp) False positives (fp)
pemodelan prediktif yang digunakan dalam statistik, data Tidak ditemukan False negatives (fn) True negatives (tn)
mining, dan pembelajaran mesin [11]. Ini menggunakan Persamaan-persamaan untuk masing-masing nilai
pohon keputusan (sebagai model prediksi) untuk beralih precision, recall, f1-score, dan accuracy dapat dilihat pada
dari pengamatan tentang suatu barang (yang di cabang- persamaan dibawah.
𝑡𝑝
cabang) ke kesimpulan tentang nilai target barang (diwakili 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = (1)
𝑡𝑝 + 𝑓𝑝
dalam dedaunan). Model pohon di mana variabel target 𝑡𝑝
dapat mengambil set nilai diskrit disebut pohon klasifikasi; 𝑟𝑒𝑐𝑎𝑙𝑙 = (2)
𝑡𝑝 + 𝑓𝑝
dalam struktur pohon ini, daun mewakili label kelas dan 2 × 𝑟𝑒𝑐𝑎𝑙𝑙 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
cabang mewakili konjungsi fitur yang mengarah ke label 𝐹 = (3)
𝑟𝑒𝑐𝑎𝑙𝑙 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
kelas tersebut. 𝑡𝑝 + 𝑡𝑛
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (4)
10. Random Forest 𝑡𝑝 + 𝑡𝑛 + 𝑓𝑝 + 𝑓𝑛
Random Forest atau Random Decision Forest adalah 13. Validasi Silang
metode pembelajaran ensemble untuk melakukan Validasi silang, estimasi rotasi, atau pengujian di luar
klasifikasi, regresi dan tugas-tugas lain yang beroperasi sampel, adalah salah satu dari berbagai teknik validasi
dengan membangun banyak pohon keputusan pada waktu model untuk menilai suatu hasil statistik [2]. Validasi
pelatihan dan menghasilkan kelas yang merupakan mode silang terutama digunakan dalam situasi di mana tujuannya
kelas (klasifikasi) atau prediksi rata-rata (regresi) dari adalah prediksi, dan dimana seseorang ingin

Korespondensi : Antonius Yonathan 46


JUARA (Jurnal Aplikasi dan Riset Informatika) Vol. 01 , No. 1 , Desember 2022

memperkirakan seberapa akurat model prediksi akan dari tahap, cleaning, case folding, filtering, stop words
bekerja. removal, stemming, dan TF-IDF weighting.
Case folding merupakan suatu proses dimana huruf-
B. Metodologi Penelitian
huruf kapital dalam sebuah teks diubah menjadi huruf
1. Metode Penelitian kecil. Proses ini dilakukan supaya pada tahap TF-IDF
Penelitian dilakukan dengan beberapa langkah-langkah
weighting, token yang sama namun pengkapitalisasiannya
sistematis dari awal hingga akhir [8], berikut langkah
penelitian diperlihatkan pada gambar I. berbeda tetap dianggap sebagai satu token.
Pada proses filtering, tanda baca dihapus dari daftar
token yang ada, sehingga hasil training tidak terpengaruh
oleh data tersebut.
Pada tahapan ini, imbuhan pada setiap token dibuang
dan token dikembalikan ke bentuk kata dasarnya dalam
Bahasa Indonesia.
Di tahapan ini stopwords atau kata-kata yang tidak
relevan terhadap penilaian fakta seperti “yang”, “di” atau
“ke” dibuang dari daftar token.
4. Training
Pada tahap ini data yang telah dikumpulkan akan
ditraining terhadap masing-masing algoritma klasifikasi
Multilayer Perceptron, Naive Bayes, Support Vector
Machine, Decision Tree, dan Random Forest. Data yang
akan digunakan untuk proses training merupakan data hasil
preprocessing yang telah dibagi menjadi 5 bagian menurut
proses validasi silang K-Fold seperti yang diuraikan pada
tabel dibawah.
TABEL III
DATA TRAINING DAN DATA PENGUJIAN
Fold Pengujian Training
Tweet ke 1-
1 Tweet ke 61-300
Gambar. 1 Metode penelitian 60
Tweet ke 61-
2 Tweet ke 1-60 dan 121-300
120
Analisis masalah dilakukan untuk menemukan Tweet ke
3 Tweet ke 1-120 dan 181-300
masalah yang ada pada penelitian. Dalam proses ini 121-180
Tweet ke
ditemukan bahwa belum terdapat penelitian yang 4
181-240
Tweet ke 1-180 dan 241-300
membandingkan akurasi dari algoritma-algoritma Tweet ke
5 Tweet ke 1-241
klasifikasi Multilayer Perceptron, Naive Bayes, Support 241-300

Vector Machine, Decision Tree, dan Random Forest pada


5. Pengujian
data teks media sosial. Pada penelitian ini, tahapan pengujian ditujukan untuk
2. Pengumpulan Data menghasilkan 4 buah nilai pengukuran, yaitu precision,
Pengumpulan data dilakukan dengan mengambil
recall, f-1 score, dan accuracy. Pengujian precision dan
Tweet yang di-post pada situs media sosial Twitter. Tweet
recall merupakan pengujian untuk mendapatkan informasi
yang telah dikumpulkan lalu ditandai sebagai “hoax” atau
hasil pencarian dokumen yang relevan dengan dokumen
“fakta” berdasarkan informasi acuan dari website Cek
asli yang ingin dibandingkan. Precision dapat dianggap
Fakta Tempo (https://cekfakta.tempo.co/) serta website
sebagai ukuran ketepatan atau ketelitian, sedangkan recall
Cek Fakta Liputan 6 (https://www.liputan6.com/cek-
adalah pengulangan kejadian yang sama dengan dokumen
fakta).
asli.
3. Preprocessing
Data yang telah dikumpulkan diproses lebih lanjut III. HASIL DAN PEMBAHASAN
dalam tahapan yang disebut preprocessing. Pada tahapan
ini, data teks Tweet ditransformasikan dengan sedemikian A. Pengumpulan Data
rupa sehingga data tersebut siap untuk melalui tahapan Sebanyak 300 Tweet yang telah dikumpulkan dalam
selanjutnya, yaitu training. Tahap preprocessing terdiri sebuah spreadsheet masing-masing ditandai dengan label
“hoax” atau “fakta” berdasarkan website acuan CekFakta

Korespondensi : Antonius Yonathan 47


JUARA (Jurnal Aplikasi dan Riset Informatika) Vol. 01 , No. 1 , Desember 2022

Tempo dan Liputan6. Contoh sebagian data yang telah TABEL IVV
HASIL PENGUMPULAN DATA
terkumpul dapat dilihat pada tabel dibawah.
Teks Tweet Hoax / Fakta
TABEL IIIII
HASIL PENGUMPULAN DATA turki mah gitu presiden nya di hina ama presiden Hoax
lebanon begitu kena musibah eh turki duluan yg
Teks Tweet Hoax / Fakta
kirim bantu
Turki mah gitu ..presiden nya di hina ama presiden Hoax maruf amin gantiin prabowo prabowo naik jkw Hoax
lebanon, begitu kena musibah eh turki duluan yg turun trus prabowo jd presiden
kirim bantu pagi2 dah bahas politik ae nih bro asal lu tau nanti Hoax
maruf amin gantiin prabowo prabowo naik jkw Hoax kh maruf amin bakal mundur dari wakil presiden
turun trus prabowo jd presiden naaah ntar prabowo yg gantiin
Pagi2 dah bahas politik ae.. Hoax gadai ngga punya akun lelang bisa langsung ke Fakta
"nih bro asal lu tau, nanti KH. Ma'ruf Amin bakal layan cabang kalo mau cek lelang
mundur dari wakil presiden, naaah ntar Prabowo temenku ada yg pernah beli di akun lelang gadai Hoax
yg gantiin" kayak gin beli codan gitu tapi luar kantor soal ga
"pegadaian ngga punya akun lelang, bisa langsung Fakta boleh transaksi di dalam kata
ke pelayanan cabang kalo mau cek lelang" kawan yang kuliah di stan memang papar Hoax
Temenku ada yg pernah beli di akun lelang Hoax radikalisme seperti itu gamblang
pegadaian kayak gini, belinya codan gitu tapi iyaaa gua di awal suruh ke pkn stan kan tapi tutup Hoax
diluar kantor, soalnya ga boleh transaksi di dalam daftar 4 tahun trs gua pen nyari poltek2 duluuuu gua
katanya gatau minat bakat gua anjir
Kawanku yang kuliah di STAN memang terpapar Hoax pkn stan tutup lama 4 tahun sampe 2024 awal ga Hoax
radikalisme... sepertinya itu gamblang percaya sampe akhir tadi denger langsung dari
iyaaa gua di awal disuruh ke pkn stan kan, tapi Hoax adek2 mahasiswa stan dan googling nyata iya moga
tutup pendaftaran 4 tahun. Trs gua pen nyari jangan
poltek2 duluuuu. Gua gatau minat bakat gua anjir gara2 isu radikalisne di kampus stan maka lama 4 Hoax
PKN STAN tutup selama 4 tahun sampe 2024.. Hoax tahun depan kampus itu di tutup dan tidak terima
Awalnya ga percaya sampe akhirnya tadi denger mahasiswa baru rupa sekarang mahasiswa yg rajin
langsung dari adek2 mahasiswa STAN dan shalat dan aji di masjid anggap perintah bagai
googling ternyata iya.. Semoga janganlah.. :'( embrio radikalisme sehingga bahaya aman negara
Gara2 isu Radikalisne di kampus STAN, maka Hoax kata iya kemaren juga ada yg bilang dia ini punya Hoax
selama 4 tahun kedepan kampus itu di tutup dan tante orang dalam kata tante juga stan tutup 4 tahun
tidak menerima mahasiswa baru. Rupanya udah deal udah capek nang mikirin ini
sekarang mahasiswa yg rajin shalat dan pengajian
di Masjid dianggap pemerintah sebagai embrio D. Training
Radikalisme sehingga membahayakan keamanan
negara Pada tahapan ini, data akan digunakan untuk
Katanya iya:( kemaren juga ada yg bilang, "dia" ini Hoax melakukan proses pelatihan (training). Masing-masing
punya tante orang dalam kata tantenya juga stan
tutup 4 tahun udah deal😭, udah capek nangis algoritma Multilayer Perceptron, Naive Bayes, Support
mikirin ini😭 Vector Machine, Random Forest, dan Decision Tree akan
di train menggunakan set data pelatihan sesuai dengan
B. Preprocessing model pengujian validasi silang k-fold pada tabel II.
Pada tahapan ini, data Tweet yang telah dikumpulkan
dalam spreadsheet lalu diproses lebih lanjut melalui E. Pengujian
tahapan case folding, filtering, stemming, stop words Hasil pengujian dapat dilihat pada tabel tabel dibawah:
removal, dan TF-IDF weighting. Tahapan preprocessing TABEL V
ini dilaksanakan dengan bantuan script yang ditulis dalam HASIL PENGUJIAN UNTUK DATA KE 1-60
bahasa pemograman Python. Script tersebut, seperti yang
terlihat pada gambar dibawah, berfungsi untuk membaca Algoritma Precision Recall F1-Score Accuracy
teks Tweet dari spreadsheet yang berisi kumpulan data dan Perceptron 0.9000 0.7660 0.8276 0.7500
melakukan tahap preprocessing untuk setiap teks tersebut. Naive Bayes 0.8545 1.0000 0.9216 0.8667

C. Preprocessing Support Vector Machine 0.7966 1.0000 0.8868 0.8000


Decision Tree 0.9333 0.8936 0.9130 0.8667
Pada tahapan ini, data Tweet yang telah dikumpulkan
Random Forest 0.8750 0.8936 0.8842 0.8167
dalam spreadsheet lalu diproses lebih lanjut melalui
tahapan case folding, filtering, stemming, stop words TABEL VI
HASIL PENGUJIAN UNTUK DATA KE 61-120
removal, dan TF-IDF weighting. Tahapan preprocessing
ini dilaksanakan dengan bantuan script yang ditulis dalam Algoritma Precision Recall F1-Score Accuracy
bahasa pemograman Python. Script tersebut berfungsi Perceptron 1.0000 0.8644 0.9273 0.8667
untuk membaca teks Tweet dari spreadsheet yang berisi Naive Bayes 0.9831 0.9831 0.9831 0.9667
kumpulan data dan melakukan tahap preprocessing untuk Support Vector Machine 0.9833 1.0000 0.9916 0.9833
setiap teks tersebut. Teks yang telah melalui tahapan Decision Tree 0.9773 0.7288 0.8350 0.7167
preprocessing dari case folding, filtering, dan stemming Random Forest 0.9796 0.8136 0.8889 0.8000
dapat dilihat pada Tabel IV.

Korespondensi : Antonius Yonathan 48


JUARA (Jurnal Aplikasi dan Riset Informatika) Vol. 01 , No. 1 , Desember 2022

TABEL VII Nilai rata-rata precision, recall, F1-score, dan


HASIL PENGUJIAN UNTUK DATA KE 121-180
accuracy dari Random Forest yang lebih tinggi daripada
Algoritma Precision Recall F1-Score Accuracy Decision Tree dapat disebabkan oleh tingginya variasi
Perceptron 0.8667 0.7647 0.8125 0.7000 dalam data training. Algoritma Decision Tree memiliki
Naive Bayes 0.8644 1.0000 0.9273 0.8667 kecenderungan untuk memiliki tingkat bias yang tinggi
Support Vector yang dikarenakan oleh sensitivitasnya yang tinggi terhadap
Machine 0.8500 1.0000 0.9189 0.8500
variasi pada data training. Algoritma Random Forest
Decision Tree 0.8182 0.7059 0.7579 0.6167
dirancang sedemikian rupa untuk meminimalisir
Random Forest 0.8889 0.9412 0.9143 0.8500
sensitivitas, tersebut, sehingga nilai performa yang
TABEL VIII
HASIL PENGUJIAN UNTUK DATA KE 181-240
diperoleh dapat menjadi lebih tinggi [5].

F1- IV. KESIMPULAN


Algoritma Precision Recall Score Accuracy
Berdasarkan hasil analisis terhadap data hasil
Perceptron 0.8667 0.7647 0.8125 0.7000
pengujian, maka dapat ditarik kesimpulan bahwa dari
Naive Bayes 0.8644 1.0000 0.9273 0.8667
Support Vector masing-masing algoritma Multilayer Perceptron, Naive
Machine 0.8500 1.0000 0.9189 0.8500 Bayes, Support Vector Machine, Decision Tree, dan
Decision Tree 0.8182 0.7059 0.7579 0.6167 Random Forest, algoritma Naive Bayes merupakan
Random Forest 0.8889 0.9412 0.9143 0.8500 algoritma terbaik untuk melakukan klasifikasi hoax dalam
TABEL IX media sosial Bahasa Indonesia, sedangkan Multilayer
HASIL PENGUJIAN UNTUK DATA KE 241-300 Perceptron merupakan algoritma terburuk untuk tugas
serupa. Kesimpulan tersebut didasarkan dari nilai accuracy
Algoritma Precision Recall F1-Score Accuracy
algoritma tersebut yang diperoleh dari hasil pengujian,
Perceptron 0.6809 0.8000 0.7356 0.6167
dimana Naive Bayes mendapatkan nilai 0,7933 sedangkan
Naive Bayes 0.6780 1.0000 0.8081 0.6833
Support Vector
Multilayer Perceptron 0,7033.
Machine 0.6780 1.0000 0.8081 0.6833
DAFTAR PUSTAKA
Decision Tree 0.7059 0.9000 0.7912 0.6833
[1] Alpaydin, Ethem. Introduction to Machine Learning. MIT Press,
Random Forest 0.7200 0.9000 0.8000 0.7000 Massachusets, 2010.
TABEL X [2] Allen, David M. 1974. The Relationship between Variable
RATA-RATA HASIL PENGUJIAN Selection and Data Agumentation and a Method for Prediction.
[3] Beazley, David. Python Essential Reference, New Riders, San
F1- Francisco, 2002.
Algoritma Precision Recall Score Accuracy [4] Bishop, C. M. 2002. Pattern Recognition and Machine Learning.
[5] Hastie, Trevor, Tibshirani, Robert & Friedman, Jerome. 2008. The
Perceptron 0.8112 0.7990 0.7989 0.7033
Elements of Statistical Learning: Data Mining, Inference, and
Naive Bayes 0.7932 0.9909 0.8742 0.7933 Prediction (Second ed.). New York: Springer
Support Vector [6] Himma-Kadakas, Marju. 2017. Alternative Facts and Fake News
Machine 0.7802 1.0000 0.8700 0.7833 Entering Journalistic Content Production Cycle". Cosmopolitan
Decision Tree 0.8203 0.8171 0.8094 0.7100 Civil Societies: An Interdisciplinary Journal.
[7] Ho, Tin Kam. 1995. Random Decision Forests. Proceedings of the
Random Forest 0.8221 0.8982 0.8510 0.7667 3rd International Conference on Document Analysis and
Recognition, Montreal
[8] Jogiyanto, H. M. 2005. Analisis dan Desain Sistem Informasi.
F. Analisis Hasil Pengujian Yogyakarta, Andi Offset.
[9] Manning, C. D., Schütze, Hinrich & Raghavan, Prabhakar. 2009.
Dari data yang diperoleh, dapat dilihat bahwa dari rata- An Introduction to Information Retrieval. Cambridge Univeristy
rata nilai precision, algoritma Random Forest mendapat Press, Cambridge.
[10] Mitchell. 1997. Machine Learning. McGraw Hill.
nilai tertinggi yaitu 0,8221, sedangkan Support Vector [11] Rokach, Lior, Maimon, O. 2008. Data Mining with Decision Trees:
Machine terendah pada 0,7802. Untuk rata-rata nilai recall, Theory and Applications. World Scientific Pub Co Inc.
[12] Rozi, I. F. 2012. Implementasi Opinion Mining (Analisis Sentimen)
Support Vector Machine mendapat nilai tertinggi dengan untuk Ekstraksi Data Opini Publik Pada Perguruan Tinggi. Jurnal
skor 1,000 sedangkan Multilayer Perceptron terendah Teknik Elektro Universitas Brawijaya.
dengan skor 0,7990. Untuk F1-Score, rata-rata nilai [13] Rumelhart, David E., Geoffrey E. Hinton, dan R. J. Williams. 1986.
Learning Internal Representations by Error Propagation.
tertinggi terdapat pada algoritma Naive Bayes, yaitu [14] Russell, Stuart dan Norvig, Peter. 2003. Artificial Intelligence: A
0,8742, sementara rata-rata nilai terendah terdapat pada Modern Approach (2nd ed.). Prentice Hall.
[15] Suyanto, M. 2004. Analisa dan Desain Aplikasi Multimedia Untuk
algoritma Multilayer Perceptron dengan nilai 0,7989. Pada Pemasaran. Yogyakarta, Andi.
rata-rata nilai accuracy, nilai tertinggi berada pada
algoritma Naive Bayes dengan nilai 0,7933 dan nilai
terendah berada pada algoritma Multilayer Perceptron
dengan nilai 0,7033.

Korespondensi : Antonius Yonathan 49

Anda mungkin juga menyukai