53126
Vol. 01, No. 1, Maret 2022
Abstrak
Pada media sosial, hoax atau berita palsu sering beredar. Pendeteksian hoax secara otomatis memerlukan
program ataupun aplikasi yang mengimplementasikan algoritma klasifikasi untuk dapat membedakan konten
hoax dengan konten fakta. Pada penelitian ini, lima algoritma klasifikasi, yaitu Multilayer Perceptron, Naïve Bayes,
Support Vector Machine, Decision Tree, dan Random Forest dibandingkan kemampuannya dalam
mengklasifikasikan data teks Tweet dari media sosial Twitter untuk mengetahui algoritma manakah yang paling
akurat dalam mengklasifikasikan data tersebut. Pengujian yang dilakukan adalah pengujian, precision, recall, f1-
score dan accuracy. Menurut hasil pengujian rata-rata nilai precision, algoritma Random Forest mendapat nilai
tertinggi yaitu 0,8221, sedangkan Support Vector Machine terendah pada 0,7802. Untuk rata-rata nilai recall,
Support Vector Machine mendapat nilai tertinggi dengan skor 1,000 sedangkan Multilayer Perceptron terendah
dengan skor 0,7990. Untuk F1-Score, rata-rata nilai tertinggi terdapat pada algoritma Naive Bayes, yaitu 0,8742,
sementara rata-rata nilai terendah terdapat pada algoritma Multilayer Perceptron dengan nilai 0,7989. Pada rata-
rata nilai accuracy, nilai tertinggi berada pada algoritma Naive Bayes dengan nilai 0,7933 dan nilai terendah
berada pada algoritma Multilayer Perceptron dengan nilai 0,7033.
Kata kunci: Klasifikasi, Hoax, Pembelajaran Mesin, Penggalian Teks
pembelajaran terawasi yang disebut backpropagation masing-masing pohon. Random Forest mengoreksi
untuk pelatihan [13]. kebiasaan Decision Tree yang cenderung melakukan
7. Naïve Bayes 'overfitting' terhadap data pelatihan [7].
Dalam pembelajaran mesin, pengklasifikasi Naïve 11. Python
Bayes adalah keluarga "pengklasifikasi probabilistik" Python merupakan salah satu bahasa pemrograman
sederhana berdasarkan penerapan teorema Bayes dengan interpretatif level tinggi yang dibuat oleh Guido van
asumsi kemandirian yang kuat (naif) di antara fitur-fitur Rossum dan dirilis pertama kali pada tahun 1991. Filosofi
tersebut. desain Python menekankan keterbacaan kode dengan
Pengklasifikasi Naive Bayes memiliki tingkat penggunaan spasi yang signifikan. Konstruk bahasa Python
skalabilitas tinggi dan membutuhkan sejumlah parameter dan pendekatan berorientasi objek bertujuan untuk
linear dalam jumlah variabel (fitur / prediktor) dalam membantu programmer menulis kode yang jelas dan logis
masalah pembelajaran. Pelatihan kemungkinan maksimum untuk proyek skala kecil maupun besar [3].
dapat dilakukan dengan mengevaluasi ekspresi bentuk- 12. Precision, Recall, F-Score, dan Accuracy
tertutup yang membutuhkan waktu linier, dan bukan Rozi [12] menjelaskan bahwa precision merupakan
dengan pendekatan berulang yang lebih tidak efisien rasio jumlah dokumen relevan yang ditemukan dengan
seperti yang digunakan untuk banyak jenis pengklasifikasi total jumlah dokumen yang ditemukan oleh sistem. Recall
lainnya [14]. adalah rasio jumlah dokumen relevan yang ditemukan
8. Support Vector Machine kembali dengan total jumlah dokumen dalam kumpulan
Dalam pembelajaran mesin, Support-Vector Machine dokumen yang dianggap relevan. Recall (perolehan)
(SVM) merupakan model pembelajaran terawasi berhubungan dengan kemampuan sistem untuk memanggil
(supervised) dengan algoritma pembelajaran terkait yang dokumen yang relevan. Sedangkan precision (ketepatan)
menganalisis data yang digunakan untuk klasifikasi dan berkaitan dengan kemampuan sistem untuk tidak
analisis regresi [5]. Dengan serangkaian contoh pelatihan, memanggil dokumen yang tidak relevan.
yang masing-masing telah ditandai sebagai milik satu atau F-1 score adalah nilai pengukuran kinerja dilakukan
yang lain dari dua kategori, algoritma pelatihan SVM untuk melihat hasil perolehan dari proses klasifikasi
membangun model yang memberikan contoh baru untuk berdasarkan pada precision dan nilai recall yang telah
satu kategori atau yang lain, menjadikannya sebagai diperoleh. Dengan kata lain, F-1 score juga disebut rata-rata
pengelompokan linear biner non-probabilistik. Model harmonic dari precision dan recall. Nilai accuracy
SVM merupakan representasi dari contoh-contoh sebagai merupakan ukuran tingkat kedekatan antara nilai prediksi
titik-titik dalam ruang, dipetakan sehingga contoh-contoh dan nilai aktual. Variabel-variabel yang digunakan dalam
kategori yang terpisah dibagi oleh celah yang jelas yang perhitungan precision, recall, f1-score, dan accuracy dapat
selebar mungkin. Contoh-contoh baru kemudian dipetakan dilihat pada tabeldibawah.
ke dalam ruang yang sama dan diprediksi termasuk dalam TABEL I
kategori berdasarkan sisi di mana mereka jatuh. VARIABEL PERHITUNGAN
9. Decision Tree Relevan Tak Relevan
Decision Tree merupakan salah satu pendekatan Ditemukan True positives (tp) False positives (fp)
pemodelan prediktif yang digunakan dalam statistik, data Tidak ditemukan False negatives (fn) True negatives (tn)
mining, dan pembelajaran mesin [11]. Ini menggunakan Persamaan-persamaan untuk masing-masing nilai
pohon keputusan (sebagai model prediksi) untuk beralih precision, recall, f1-score, dan accuracy dapat dilihat pada
dari pengamatan tentang suatu barang (yang di cabang- persamaan dibawah.
𝑡𝑝
cabang) ke kesimpulan tentang nilai target barang (diwakili 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = (1)
𝑡𝑝 + 𝑓𝑝
dalam dedaunan). Model pohon di mana variabel target 𝑡𝑝
dapat mengambil set nilai diskrit disebut pohon klasifikasi; 𝑟𝑒𝑐𝑎𝑙𝑙 = (2)
𝑡𝑝 + 𝑓𝑝
dalam struktur pohon ini, daun mewakili label kelas dan 2 × 𝑟𝑒𝑐𝑎𝑙𝑙 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
cabang mewakili konjungsi fitur yang mengarah ke label 𝐹 = (3)
𝑟𝑒𝑐𝑎𝑙𝑙 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
kelas tersebut. 𝑡𝑝 + 𝑡𝑛
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (4)
10. Random Forest 𝑡𝑝 + 𝑡𝑛 + 𝑓𝑝 + 𝑓𝑛
Random Forest atau Random Decision Forest adalah 13. Validasi Silang
metode pembelajaran ensemble untuk melakukan Validasi silang, estimasi rotasi, atau pengujian di luar
klasifikasi, regresi dan tugas-tugas lain yang beroperasi sampel, adalah salah satu dari berbagai teknik validasi
dengan membangun banyak pohon keputusan pada waktu model untuk menilai suatu hasil statistik [2]. Validasi
pelatihan dan menghasilkan kelas yang merupakan mode silang terutama digunakan dalam situasi di mana tujuannya
kelas (klasifikasi) atau prediksi rata-rata (regresi) dari adalah prediksi, dan dimana seseorang ingin
memperkirakan seberapa akurat model prediksi akan dari tahap, cleaning, case folding, filtering, stop words
bekerja. removal, stemming, dan TF-IDF weighting.
Case folding merupakan suatu proses dimana huruf-
B. Metodologi Penelitian
huruf kapital dalam sebuah teks diubah menjadi huruf
1. Metode Penelitian kecil. Proses ini dilakukan supaya pada tahap TF-IDF
Penelitian dilakukan dengan beberapa langkah-langkah
weighting, token yang sama namun pengkapitalisasiannya
sistematis dari awal hingga akhir [8], berikut langkah
penelitian diperlihatkan pada gambar I. berbeda tetap dianggap sebagai satu token.
Pada proses filtering, tanda baca dihapus dari daftar
token yang ada, sehingga hasil training tidak terpengaruh
oleh data tersebut.
Pada tahapan ini, imbuhan pada setiap token dibuang
dan token dikembalikan ke bentuk kata dasarnya dalam
Bahasa Indonesia.
Di tahapan ini stopwords atau kata-kata yang tidak
relevan terhadap penilaian fakta seperti “yang”, “di” atau
“ke” dibuang dari daftar token.
4. Training
Pada tahap ini data yang telah dikumpulkan akan
ditraining terhadap masing-masing algoritma klasifikasi
Multilayer Perceptron, Naive Bayes, Support Vector
Machine, Decision Tree, dan Random Forest. Data yang
akan digunakan untuk proses training merupakan data hasil
preprocessing yang telah dibagi menjadi 5 bagian menurut
proses validasi silang K-Fold seperti yang diuraikan pada
tabel dibawah.
TABEL III
DATA TRAINING DAN DATA PENGUJIAN
Fold Pengujian Training
Tweet ke 1-
1 Tweet ke 61-300
Gambar. 1 Metode penelitian 60
Tweet ke 61-
2 Tweet ke 1-60 dan 121-300
120
Analisis masalah dilakukan untuk menemukan Tweet ke
3 Tweet ke 1-120 dan 181-300
masalah yang ada pada penelitian. Dalam proses ini 121-180
Tweet ke
ditemukan bahwa belum terdapat penelitian yang 4
181-240
Tweet ke 1-180 dan 241-300
membandingkan akurasi dari algoritma-algoritma Tweet ke
5 Tweet ke 1-241
klasifikasi Multilayer Perceptron, Naive Bayes, Support 241-300
Tempo dan Liputan6. Contoh sebagian data yang telah TABEL IVV
HASIL PENGUMPULAN DATA
terkumpul dapat dilihat pada tabel dibawah.
Teks Tweet Hoax / Fakta
TABEL IIIII
HASIL PENGUMPULAN DATA turki mah gitu presiden nya di hina ama presiden Hoax
lebanon begitu kena musibah eh turki duluan yg
Teks Tweet Hoax / Fakta
kirim bantu
Turki mah gitu ..presiden nya di hina ama presiden Hoax maruf amin gantiin prabowo prabowo naik jkw Hoax
lebanon, begitu kena musibah eh turki duluan yg turun trus prabowo jd presiden
kirim bantu pagi2 dah bahas politik ae nih bro asal lu tau nanti Hoax
maruf amin gantiin prabowo prabowo naik jkw Hoax kh maruf amin bakal mundur dari wakil presiden
turun trus prabowo jd presiden naaah ntar prabowo yg gantiin
Pagi2 dah bahas politik ae.. Hoax gadai ngga punya akun lelang bisa langsung ke Fakta
"nih bro asal lu tau, nanti KH. Ma'ruf Amin bakal layan cabang kalo mau cek lelang
mundur dari wakil presiden, naaah ntar Prabowo temenku ada yg pernah beli di akun lelang gadai Hoax
yg gantiin" kayak gin beli codan gitu tapi luar kantor soal ga
"pegadaian ngga punya akun lelang, bisa langsung Fakta boleh transaksi di dalam kata
ke pelayanan cabang kalo mau cek lelang" kawan yang kuliah di stan memang papar Hoax
Temenku ada yg pernah beli di akun lelang Hoax radikalisme seperti itu gamblang
pegadaian kayak gini, belinya codan gitu tapi iyaaa gua di awal suruh ke pkn stan kan tapi tutup Hoax
diluar kantor, soalnya ga boleh transaksi di dalam daftar 4 tahun trs gua pen nyari poltek2 duluuuu gua
katanya gatau minat bakat gua anjir
Kawanku yang kuliah di STAN memang terpapar Hoax pkn stan tutup lama 4 tahun sampe 2024 awal ga Hoax
radikalisme... sepertinya itu gamblang percaya sampe akhir tadi denger langsung dari
iyaaa gua di awal disuruh ke pkn stan kan, tapi Hoax adek2 mahasiswa stan dan googling nyata iya moga
tutup pendaftaran 4 tahun. Trs gua pen nyari jangan
poltek2 duluuuu. Gua gatau minat bakat gua anjir gara2 isu radikalisne di kampus stan maka lama 4 Hoax
PKN STAN tutup selama 4 tahun sampe 2024.. Hoax tahun depan kampus itu di tutup dan tidak terima
Awalnya ga percaya sampe akhirnya tadi denger mahasiswa baru rupa sekarang mahasiswa yg rajin
langsung dari adek2 mahasiswa STAN dan shalat dan aji di masjid anggap perintah bagai
googling ternyata iya.. Semoga janganlah.. :'( embrio radikalisme sehingga bahaya aman negara
Gara2 isu Radikalisne di kampus STAN, maka Hoax kata iya kemaren juga ada yg bilang dia ini punya Hoax
selama 4 tahun kedepan kampus itu di tutup dan tante orang dalam kata tante juga stan tutup 4 tahun
tidak menerima mahasiswa baru. Rupanya udah deal udah capek nang mikirin ini
sekarang mahasiswa yg rajin shalat dan pengajian
di Masjid dianggap pemerintah sebagai embrio D. Training
Radikalisme sehingga membahayakan keamanan
negara Pada tahapan ini, data akan digunakan untuk
Katanya iya:( kemaren juga ada yg bilang, "dia" ini Hoax melakukan proses pelatihan (training). Masing-masing
punya tante orang dalam kata tantenya juga stan
tutup 4 tahun udah deal😭, udah capek nangis algoritma Multilayer Perceptron, Naive Bayes, Support
mikirin ini😭 Vector Machine, Random Forest, dan Decision Tree akan
di train menggunakan set data pelatihan sesuai dengan
B. Preprocessing model pengujian validasi silang k-fold pada tabel II.
Pada tahapan ini, data Tweet yang telah dikumpulkan
dalam spreadsheet lalu diproses lebih lanjut melalui E. Pengujian
tahapan case folding, filtering, stemming, stop words Hasil pengujian dapat dilihat pada tabel tabel dibawah:
removal, dan TF-IDF weighting. Tahapan preprocessing TABEL V
ini dilaksanakan dengan bantuan script yang ditulis dalam HASIL PENGUJIAN UNTUK DATA KE 1-60
bahasa pemograman Python. Script tersebut, seperti yang
terlihat pada gambar dibawah, berfungsi untuk membaca Algoritma Precision Recall F1-Score Accuracy
teks Tweet dari spreadsheet yang berisi kumpulan data dan Perceptron 0.9000 0.7660 0.8276 0.7500
melakukan tahap preprocessing untuk setiap teks tersebut. Naive Bayes 0.8545 1.0000 0.9216 0.8667