Anda di halaman 1dari 55

News Hoax Detector using NLP and Deep Learning

Tugas Akhir

Disampaikan Sebagai Bagian Dari Persyaratan Kelulusan


Program Studi Sarjana Teknik Informatika

Oleh :

11S14038 Desi Elfrida Silaban


11S14050 Febry Saputra Manik

Institut Teknologi Del


2017/2018
DAFTAR ISI
DAFTAR ISI ................................................................................................................................................................. 2
DAFTAR GAMBAR ..................................................................................................................................................... 3
DAFTAR TABEL ......................................................................................................................................................... 4
I. Pendahuluan ......................................................................................................................................................... 5
1.1. Latar Belakang .............................................................................................................................................5
1.2. Tujuan .......................................................................................................................................................... 7
1.3. Lingkup ........................................................................................................................................................ 7
1.4. Pendekatan ...................................................................................................................................................8
1.5. Sistematika Penyajian ..................................................................................................................................8
II. Tinjauan Pustaka ................................................................................................................................................ 10
2.1. Fake News .................................................................................................................................................. 10
2.1.1. Hoaxes ............................................................................................................................................... 10
2.2. Machine Learning ...................................................................................................................................... 11
2.2.1. Deep Learning ................................................................................................................................... 14
2.2.2. Neural Network ................................................................................................................................. 18
2.3. Natural Language Processing ..................................................................................................................... 20
2.4. Back Propagation ....................................................................................................................................... 21
2.5. Web Scraping ............................................................................................................................................. 22
2.6. Kesimpulan ................................................................................................................................................ 23
III. Analisis dan Design ........................................................................................................................................... 24
3.1 Domain Analisis ......................................................................................................................................... 24
3.2 Data Analisis .............................................................................................................................................. 26
2.2. .......................................................................................................................................................................... 26
3.2.1 Dataset Profile ................................................................................................................................... 39
3.3 Algoritma ................................................................................................................................................... 40
3.3.1 Deep Belief Network (DBN) ............................................................................................................ 40
3.4 Pre-Processing ............................................................................................................................................ 47
3.5 Experiment ................................................................................................................................................. 49
3.6 Design ........................................................................................................................................................ 50
Referensi ...................................................................................................................................................................... 53

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 2 dari 55

News Hoax Detector using NLP and Deep Learning


DAFTAR GAMBAR
Gambar 1 Teknik Machine learning meliputi supervised dan unsupervised learning ................................................. 13
Gambar 2 Teknik pada Machine Learning .................................................................................................................. 14
Gambar 3 Struktur Deep Belief Network .................................................................................................................... 17
Gambar 4 Struktur Algoritma Restricted Boltzman Machine...................................................................................... 19
Gambar 5 Struktur Algoritma Backpropagation .......................................................................................................... 22
Gambar 6 Design keseluruhan sistem Hoax Detector ................................................................................................. 50
Gambar 7 Design Text Preprocessing ......................................................................................................................... 51
Gambar 8 Tahapan kerja Algoritma DBN ................................................................................................................... 52

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 3 dari 55

News Hoax Detector using NLP and Deep Learning


DAFTAR TABEL

Table 1 Situs Berita Terpopuler di Indonesia versi Alexa tahun 2015-2018 ............................................................... 27
Table 2 Variabel-variabel pada Dataset yang digunakan pada Hoax detector ............................................................. 28
Table 3 Sample Dataset ............................................................................................................................................... 44

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 4 dari 55

News Hoax Detector using NLP and Deep Learning


I. Pendahuluan

1.1. Latar Belakang


Hoax merupakan pernyataan yang tidak benar dimana pernyataan tersebut digunakan untuk
menipu atau mengubah persepsi dan pandangan manusia dengan menyatakan sebuah
pernyataan sebagai pernyataan yang benar[1]. Hoax memang bukanlah suatu hal yang
membahayakan, namun jika seseorang tidak berhati-hati terhadap keadaan kehidupan
nyata, maka hoax dapat menjadi sebuah ancaman yang tidak dapat diabaikan. Saat
seseorang berhasil tertipu oleh hoax, maka pada saat yang sama ia telah membahayakan
organisasi dimana mereka berada yang mana dapat menimbulkan kerugian fiansial dan
substansial[3].

Media sosial merupakan media yang memiliki konten berita yang sangat banyak sehingga
media sosial menjadi media yang sering digunakan oleh manusia untuk mendapatkan
informasi berita sehari-hari. Dengan banyaknya berita yang terdapat pada media sosial
dimana berita faktual bercampur dengan berita hoax membuat pembacanya bingung untuk
menentukan kebenaran dari sebuah berita[2]. Hal ini menyebabkan penyebaran hoax
semakin berkembang dan memberikan dampak yang negatif dalam kehidupan manusia. Di
Indonesia salah satu kasus terkait penyebaran berita hoax adalah sindikat Saracen.,
penyebaran berita hoax yang mengandung SARA mengancam terjadinya perpecahan
diantara masyarakat Inonesia. Pembangunan sebuah sistem news hoax detector yang dapat
mendeteksi keakuratan dari sebuah berita merupakan salah satu solusi untuk mengurangi
penyebaran hoax.

Penelitian terkait hoax detector telah banyak dilakukan. Pada penelitian [4], untuk
mengatasi permasalahan yang ditimbulkan oleh hoax, maka peneliti membangun sebuah
sistem untuk mendeteksi keakuratan dari sebuah berita dengan menggunakan model
hierarchial propagation, dimana untuk mendapatkan penjelasan yang lebih detail tentang
aspek dari sebuah berita maka dilakukan pendeteksian terhadap sub-event dari berita

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 5 dari 55

News Hoax Detector using NLP and Deep Learning


tersebut. Maka untuk itu, sebuah berita akan direpresentasikan jaringan kredibilitas dengan
3 lapis layer yang terdiri dari event, sub-event dan message. Kesimpulan dari penelitian[4],
menyatakan bahwa dengan merumuskan kredibilitas propagasi sebagai permasalahan
optimasi grafik, maka algoritma iteratif merupakan solusi yang optimal secara global .
Penelitian terkait hoax detector juga dilakukan pada penelitian [1], penelitian tersebut
bertujuan untuk membangun sebuah sistem untuk mendeteksi email hoax berbasis teks
dimana sensivitas dan specifitas digunakan untuk menngevaluasi akurasi dari sistem dalam
mengidentifikasi email hoax. Sistem dibangun dengan menggabungkan metode text
matching dan pengukuran Lavenshtein Distance. Sistem yang akan dibangun teridiri dari 3
komponen utama yaitu text pre-processing, hoax detection dan new hoax detection.
Lavenshtein Distance digunakan untuk mengidentifikasi potensi hoax dari konten hoax
dengan membandingkannya dengan sebuah database yang berisi hoax email. Dengan kata
lain, sistem ini dapat melakukan update database hoax secara otomatis saat mendeteksi
hoax. Kesimpulan dari penelitian ini adalah sistem mampu memberikan hasil prediksi
positif yang tinggi yaitu 0.96, namun sistem ini tidak dapat digunakan pada pendeteksian
email hoax dalam kehidupan nyata karena email dikirim tidak hanya dalam format text
namun juga gambar. Untuk penelitian selanjutnya, peneliti pada penelitian [1]
mengusulkan untuk membangun sistem pendeteksi hoax dengan menggunakan algoritma
machine learning untuk mendapatkan hasil pengklasifikasian yang lebih baik.

Pada saat ini, algoritma deep learning yang merupakan cabang dari machine learning
adalah teknologi yang sedang popular yang sedang banyak digunakan. Penelitian
menunjukkan bahwa penggunaan algoritma deep learning lebih unggul dibandingkan
dengan metode tradisional[5]. Pada machine learning, data yang akan diproses adalah
suatu hal yang sangat penting. Maka pada tahap preprocessing, untuk dataset yang berisi
text menggunakan NLP merupakan salah satu solusi untuk mengolah data sebelum data
tersebut diolah dengan menggunakan machine learning. Penelitian yang dilakukan pada
[6] merupakan sebuah penelitian yang membahas tentang toolkit NLP untuk text formal
dan text media sosial dalam Bahasa Indonesia yang disebut InaNLP. Pada penelitian

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 6 dari 55

News Hoax Detector using NLP and Deep Learning


tersebut modul-modul NLP dibangun dengan menggunakan 2 pendekatan yaitu pendekatan
rule based dan pendekatan statistical based. Modul-modul NLP yang dibangun pada
InaNLP adalah Sentence Splitter, Tokenization, Morphological Analyzer, POS(Past of
Speech) Tagger, Name Entity(NE) Tagger, Phrase Tagger, Syntatic Parser, Semantic
Analyzer.

Pada penelitian ini, peneliti mengusulkan untuk melakukan penelitian tentang news hoax
detector yang akan digunakan untuk mendeteksi berita hoax Bahasa Indonesia dengan
menggunakan Natural Language Processing (NLP) dalam tahap pre-processing data. Data
yang telah diolah dengan menggunakan NLP akan menjadi data input pada algoritma yang
digunakan untuk mengklasifikasikan berita yaitu Deep Belief Network (DBN) yang
merupakan salah satu algoritma yang menerapkan konsep deep learning. Pada algoritma
DBN terdapat beberapa layer yaitu input layer, hidden layer, dan output layer dimana
layer- layer pada DBN merupakan kumpulan dari Restricted Bolzmann Machine (RBM).
Pada penelitian ini, penulis menggunakan 2 jenis dataset yaitu dataset yang berisi berita
hoax dan dataset yang berisi berita non-hoax.

1.2. Tujuan
Melakukan research tentang penerapan salah satu metode Deep Learning yaitu Deep
Belief Network dalam mendeteksi kebenaran dari sebuah berita dengan menggunakan
Natural Language Processing pada tahap pre-processing data.
1.3. Lingkup
Yang akan dibahas dalam tugas akhir ini adalah:
1. Dataset hoax dan non-hoax yang akan digunakan pada penelitian ini adalah adalah
berita yang dikumpulkan dari beberapa situs berita yang ada di Indonesia dengan
menggunakan teknik scraping.
2. Pada penelitian ini, Domain berita yang digunakan pada research ini mencakup 5
domain yaitu sport, kesehatan, politik, hiburan, dan teknologi.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 7 dari 55

News Hoax Detector using NLP and Deep Learning


1.4. Pendekatan
Pendekatan yang dilakukan dalam pengerjaan Tugas Akhir ini adalah sebagai berikut:
1. Studi literatur
Studi literatur dilakukan dengan cara mengumpulkan data dari berbagai sumber yaitu
internet, paper, journal, dan buku yang berhubungan dengan hoax detector dan
penggunaan Algoritma Deep Belief Network.
2. Eksplorasi
Eksplorasi dilakukan terhadap perkembangan hoax detector serta dengan metode-
metode yang telah diterapkan pada penelitian-penelitian yang telah dilakukan terkait
hoax detector.
3. Analisis
Menganalisis hasil eksplorasi yang didapatkan dan kemudian mencoba untuk
menemukan peluang dalam pengembangan hoax detector dengan metode yang
berhubungan dengan Algoritma Belief Network.
4. Implementasi
Melakukan pengujian terhadap model yang dihasilkan dengan menggunakan Algoritma
Belief Network.

1.5. Sistematika Penyajian


Secara garis besar laporan tugas akhir ini dibagi dalam beberapa bab yaitu sebagai berikut:
1. Bab II Pendahuluan
Pada bab ini dijelaskan tentang latar belakang, tujuan, lingkup, pendekatan dan system
penyajian dalam pengerjaan Tugan Akhir.
2. Bab II Tinjauan Pustaka
Pada bab ini dijelaskan tentang informasi dan dasar-dasar teori yang berkaitan dengan
topik Tugas Akhir.
3. Bab III Analisis dan Desain

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 8 dari 55

News Hoax Detector using NLP and Deep Learning


Pada bab ini dijelaskan secara singkat tentang algoritma yang digunakan dalam
pengerjaan Tugas Akhir.
4. Bab IV Implementasi
Pada bab ini dijelaskan tentang kegiatan yang dilakukan dalam implementasi system.
5. Bab V Hasil dan Pembahasan
Pada bab ini dijelaskan tentang hasil yang diperoleh dari hasil penelitian yang
dilakukan pada pengerjaan Tugas Akhir.
6. Bab VI kesimpulan dan Saran
Pada bab ini berisi kesimpulan dan saran dari pengerjaan Tugas Akhir yang dilakukan.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 9 dari 55

News Hoax Detector using NLP and Deep Learning


II. Tinjauan Pustaka

2.1. Fake News


Fake news merupakan artikel yang yang sengaja disalahkan dimana berita tersebut dapat
menimbulkan kesalahpahaman oleh pembaca [16]. Pendeteksian fake news bertujuan
untuk membantu para pembaca untuk mendeteksi dan menyaring berita yang memiliki
potensi untuk menipu pembaca [15]. Pendeteksian Fake news merupakan sebuah
kegiatan untuk mengelompokkan berita dalam serangkaian veracity dengan ukuran
kepastian yang telah disepakati. Veracity merupakan penipuan yang disengaja[14]. Pada
penelitian yang dilakukan pada [15], dinyatakan bahwa terdapat 3 sub-task yang berbeda
dalam pendeteksian fake news, yaitu pendeteksian fabrication (berita yang dilaporkan
tidak ditemukan dalam media apapun), hoax (pemalsuan berita), dan satire.

Berdasarkan hasil review dan penelitian pada [15] dinyatakan bahwa untuk dapat
mendeteksi fake news maka sebuah data R&D seharusnya memenuhi 9 kondisi yaitu,
ketersediaan berita yang benar dan berita yang menipu, adanya aksesibilitas format teks
digital, adanya verifikasi “kebenaran dasar”, memiliki variasi panjang teks, memiliki
variasi penulisan, jangka waktu yang telah ditentukan, cara penyampaian berita, hal
pragmatis (meliputi biaya copy-right, ketersediaan publik, kemudahan dalam
memperoleh berita, kesesuaian antara volume data, tingkat pengungkapan dan privasi
penulis), serta bahasa dan budaya.

2.1.1. Hoaxes
Hoax merupakan pernyataan yang tidak benar dimana pernyataan tersebut digunakan
untuk menipu atau mengubah persepsi dan pandangan pembaca dengan menyatakan
pernyataan tersebut sebagai sebuah pernyataan yang benar [1]. Hoax merupakan jenis
fabrikasi atau pemalsuan berita yang disengaja pada media sosial yang berupaya untuk
menipu pembaca [15]. Jika seseorang tidak hati-hati terhadap penyebabaran hoax atau
terpengaruh oleh berita hoax, maka seseorang tersebut dapat membahayakan diri sendiri

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 10 dari 55

News Hoax Detector using NLP and Deep Learning


ataupun organisasinya. Salah satu contoh kerugian yang dialami adalah kerugian
finansial[3]. Pada dokumen berita hoax, tidak terdapat pola yang dapat diidentifikasi
karena berita hoax memiliki gaya penulisan yang bebas dan tidak kaku. Hal ini
menyebabkan pembaca sulit membedakan berita hoax dan berita bukan hoax. Salah satu
cara yang dapat dilakukan untuk memeriksa apakah sebuah berita adalah hoax adalah
dengan melakukan klarifikasi dengan berita sebenarnya.

2.2. Machine Learning


Machine learning merupakan sebuah studi yang bertujuan untuk meningkatkan kinerja
dari komputer dengan cara melakukan simulasi pada komputer untuk mendapatkan
pengetahuan atau keterampilan baru dan kemudian membentuk struktur dari pengetahuan
yang ada dan machine learning merupakan inti dari artificial intelligent[8]. Machine
learning merupakan suatu metode untuk menganalisis data yang secara otomatis dapat
menciptakan dan mengembangkan sebuah model. Machine learning menggunakan
algoritma tertentu untuk dapat mengetahui wawasan tersembunyi dari sebuah data karena
machine learning memiliki sifat iteratif yang memungkinkan machine learning untuk
menyesuaikan metode dengan keluaran berdasarkan situasi dan data baru[10]. Machine
learning telah banyak digunakan dalam berbagai aspek kehidupan manusia baik dalam
bidang industri maupun penelitian seperti pada bidang kesehatan[9], pendeteksian
hoax[1][2], pendeteksian review palsu[16], pendeteksian keakuratan berita pada social
media[4] dan lain-lain.

Pendekatan utama pada machine learning dibagi menjadi supervised learning dan
unsupervised learning. Sekitar 70 % machine learning adalah supervised learning. Dan
mesin yang unsupervised learning adalah sekitar 10-20%. Teknologi lain yang juga
digunakan dalam machine learning adalah semi-supervised dan reinforcement
learning.[9]

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 11 dari 55

News Hoax Detector using NLP and Deep Learning


 Supervised Learning
Pada supervised learning, pembelajaran dilakukan berdasarkan pelatihan terhadap
sampel data dan penentuan output yang benar[10]. Algoritma supervised learning
menggunakan sekumpulan data input dan data output yang telah ditentukan untuk
menciptakan sebuah model yang masuk akal dan kemudian melatih model tersebut
untuk menghasilkan prediksi terhadap data baru[17]. Pada penelitian yang dilakukan
pada [11] dinyatakan bahwa untuk menyesuaikan parameter jaringan, supervised
learning melakukan perbandingan langsung antara output jaringan yang sebenarnya
dengan output yang diinginkan. Pengukuran error yang menunjukkan perbedaan
antara output dari jaringan dengan output dari data pelatihan digunakan untuk
memandu proses pembelajaran. Pengukuran error pada supervised learning biasanya
didefenisikan dengan Mean Square Error (MSE):

dimana N adalah jumlah pasangan pola dari kumpulan sampel data, yp merupakan
bagian output dari pasangan pola yang ke p dan ˆyp merupakan output jaringan yang
sesuai dengan pasangan pola p.
Supervised learning menggunakan teknik klasifikasi dan regresi untuk
mengembangkan model prediktif. Model klasifikasi bertujuan melakukan
pengklasifikasian terhadap data masukan ke kategori yang telah ditentukan sedangkan
model regresi bertujuan untuk memprediksi respon yang terus-menerus seperti
perubahan suhu[17].
 Unsupervised Learning
Unsupervised learning merujuk pada kemampuan mesin dalam mengolah informasi
yang telah disediakan untuk menemukan solusi yang sesuai tanpa adanya sinyal
error[10]. Unsupervised learning tidak melibatkan nilai target dalam prosesnya
pembelajarannya. Unsupervised learning didasarkan pada korelasi antara data input-
an dan digunakan untuk menemukan pola penting dari data tersebut tanpa bantuan

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 12 dari 55

News Hoax Detector using NLP and Deep Learning


seorang guru[11]. Pada umumnya, teknik yang digunakan pada unsupervised learning
adalah clustering. Teknik clustering digunakan untuk menganalisis data yang
bertujan untuk menemukan pola atau pengelompokan data. Aplikasi yang termasuk
dalam teknik clustering adalah gene sequence analysis, riset pasar, dan pengenalan
objek[17].

Supervised dan unsupervised learning memiliki banyak algoritma pembelajaran, dan


setiap algoritma memiliki pendekatan pembelajaran yang berbeda-beda. Ukuran dan jenis
data yang digunakan, pengetahuan yang hendak diperoleh dan bagaimana pengetahuan
tersebut akan digunakan merupakan faktor-faktor yang menjadi pertimbangan dalam
memilih algoritma yang sesuai[17].

Gambar 1 menunjukkan bagan teknik machine learning yang meliputi supervised dan
unsupervised learning.

Gambar 1 Teknik Machine learning meliputi supervised dan unsupervised learning

Gambar 2 menunjukkan teknik pada machine learning yang dapat memberikan


pemahaman tentang penerapan algoritma-algoritma machine learning untuk memilih
algoritma yang sesuai dengan kebutuhan kita.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 13 dari 55

News Hoax Detector using NLP and Deep Learning


Gambar 2 Teknik pada Machine Learning

2.2.1. Deep Learning


Deep learning merupakan hal baru dalam machine learning dimana pada dasarnya deep
learning merupakan sebuah multi-layer neural network. Dengan mensimulasikan
karakteristik dari biometrik sel saraf pada penglihatan otak hewan dimana terdapat
kumpulan jaringan saraf yang digunakan untuk mengelola dan memahami data.

Berdasarkan deskripsi-deskripsi tentang deep learning , maka dinyatakan bahwa pada


deep learning terdapat 2 aspek utama, yaitu 1) model deep learning terdiri dari banyak
layer atau stage pada proses pengolahan informasi nonlinear; 2) metode representasi fitur
pada supervised dan unsupervised learning memiliki layer yang lebih abstrak pada
lapisan paling tinggi. Tiga hal yang menjadi alasan mengapa deep learning sangat
popular pada saat ini adalah kemampuan pemrosesan chip yang meningkat secara drastis,
peningkatan jumlah data yang signifikan yang digunakan pada pelatihan dan kemajuan

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 14 dari 55

News Hoax Detector using NLP and Deep Learning


pada machine learning dan penelitian tentang pengolahan sinyal/informasi[12]. Menurut
penelitian yang dilakukan pada [12], Deep learning dibagi ke dalam 3 kelas besar yaitu
Deep networks for unsupervised or generative learning, Deep networks for supervised
learning, Hybrid deep networks. Deep networks for unsupervised or generative learning
merupakan kelas dimana deep learning tidak menggunakan informasi pengawasan atau
pemandu seperti data label target dalam hal mempelajari dan mengelola data. Deep
networks for supervised learning merupakan sebuah kelas yang memiliki kekuatan
diskriminatif dalam pengklasifikasian pola. Hybrid deep networks adalah sebuah kelas
yang tujuannya melakukan diskriminasi yang dilakukan dengan cara menggunakan hasil
dari Deep networks for unsupervised or generative learning atau Deep networks for
supervised learning. Istilah "Hybrid" untuk kelas ketiga ini mengacu pada arsitektur yang
menggunakan komponen model generatif dan diskriminatif. Dalam arsitektur hybrid pada
penilitan-penilitian yang telah ada, komponen generatif sebagian besar dieksploitasi
untuk membantu membentuk model diskriminasi, yang merupakan tujuan akhir dari
arsitektur hybrid[12].

2.2.1.1. Deep Belief Network


Deeep Belief Network (DBN) merupakan salah satu algoritma dari Deep Learning. Layer-
layer yang terdapat pada DBN adalah susunan dari beberapa algrortima Restricted
Bolzmann Machine (RBM). Algoritma RBM terdiri dari 2 layer yaitu input layer dan
output layer. Setiap output dari sebuah RBM akan menjadi inputan bagi RBM yang
selanjutnya [20]. DBN menggunakan teknik pemodelan multiple processing layers untuk
membentuk sebuah model dengan level abstraksi yang tinggi pada data yang diberikan
dengan struktur yang kompleks. [18]. Berdasarkan pemodelan tersebut, DBN termasuk
algortima pemodelan Probalistic Generative dikarenakan mengandung banyak layer
hidden variables dimana setiap layer tersebut memiliki korelasi atau hubungan yang kuat
satu sama lain dalam melakukan sebuah interaksi antar hidden layers tersebut. Fitur
utama algoritma DBN terdapat pada proses training yang dilakukan yaitu greedy training
yang dilakukan secara berulang untuk mempelajari model hirarki yang lebih dalam. Pada
proses pembelajaran DBN ini juga dibekali dengan cara yang lebih efisien dalam hal

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 15 dari 55

News Hoax Detector using NLP and Deep Learning


penggunaan waktu eksekusi dimana hanya memerlukan satu jalur yaitu bottom-up(feed-
forward) untuk menentukan sebuah nilai dari hidden variables paling atas.[12][21].
Setiap layer pada DBN (RBM) bergantung pada bergantung pada metode Constrastive
Divergence (CD) untuk melakukan rekonstruksi pada input-an yang akan untuk
meningkatkan kinerja dari jaringan. Constrastive Divergence merupakan metode yang
bergantung pada aproksimasi gradien (arah perubahan parameter yang baik) dari log-
likelihood berdasarkan short Markov chain yang dimulai dari sampel terakhir.
Dalam proses pembelajaran Deep Belief Network tedapat dua tahapan utama, yaitu
tahapan pre-training dan fine-tuning.
 Pada tahapan Pre-training merupakan tahap pembelajaran dengan menggunakan
teknik unsupervised learning. Teknik unsupervised learning digunakan pada saat
melakukan training pada algoritma RBM yang merupakan algoritma penyusun
dari DBN. Sesuai dengan teknik yang digunakan, input-an pada RBM pertama
merupakan data yang tidak memiliki label. RBM pada tumpukan pertama akan
diberikan inputan yang telah diproses sebelumnya tanpa label. Hasil dari training
RBM pertama akan menjadi inputan untuk RBM selanjutnya. Hal ini akan
dilakukan hingga RBM terakhir . Hasil pada tahapan pre-training merupakan
hasil yang diperoleh dari pembelajaran yang menggunakan Greedy unsupervised
training algorithm. Pada tahapan ini akan menghasilkan bentuk DBN dengan
parameter berupa weight, bias sebagai nilai awal pada network yang dapat
mengolah data inputan.
 Pada tahapan Fine-tuning yaitu tahapan dalam hal proses penyesuaian parameter
yang didapat dari hasil pre-training seperti weigth dan bias. Tahapan ini
menggunakan teknik supervised learning dengan kata lain memerlukan label pada
data yang akan diolah. Label yang dimaksud pada tahap ini adalah hasil
pembobotan dari tahap pre-training. Beberapa algoritma yang digunakan pada
tahap ini adalah Algortima Back propogation dan Softmax Classification. Pada
tahapan ini digunakan jika Deep Belief Network digunakan untuk melakukan
klasifikasi pada objek tertentu. Algoritma backpropogation ataupun softamax

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 16 dari 55

News Hoax Detector using NLP and Deep Learning


classification dapat membantu mengolah hasil akhir dari DBN untuk memberikan
klasifikasi yang lebih baik dibandingkan hanya dengan menggunakan DBN saja
[18][19][20][22].

Berdasarkan tahapan-tahapan yang dimilikinya, DBN termasuk ke dalam kelas Hybrid


deep networks dimana DBN menggunakan teknik unsupervised learning pada tahap pre-
training untuk membuat model berupa model diskriminatif yang efektif dan
menggunakan supervised learning pada tahapan fine-tuning[12]. Gambar 3 merupakan
gambar yang menunjukkan struktur algoritma DBN yang terdiri dari susunan algoritma
DBN.

Gambar 3 Struktur Deep Belief Network

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 17 dari 55

News Hoax Detector using NLP and Deep Learning


2.2.2. Neural Network
Neural Network adalah sistem komputasi paralel yang terdiri dari sejumlah prosesor
sederhana yang memiliki banyak hubungan interkoneksi antar neuron yang dibentuk [23].
Neural Network juga dapat disebut dengan Artificial Neural Network (ANN) yang secara
umum di definisikan sebagai bentuk sistem dengan proses seperti proses biologis kerja
otak. ANN secara tradisional juga dipandang sebagai model pengolahan saraf yang
disederhanakan di otak, walaupun hubungan antara model yang telah dibuat dan
arsitektur otak masih diperdebatkan. Hal ini dikarenakan kinerja ANN dan kinerja otak
tidak dapat didefinisikan tingkat kemiripannya hingga sekarang[24]. Pada dasarnya,
sistem dari ANN terdiri dari input seperti sinapsis saraf yang dikalikan dengan bobot
yang telah ditentukan. Bobot tersebut memiliki arus informasi yang berjalan diantara
neuron. Bobot tersebut kemudian dihitung dengan fungsi matematis untuk mengaktifkan
neuron pada jaringan [23].

2.2.2.1. Restricted Boltzman Machines


Restricted Boltzmann Machines (RBM) merupakan salah satu teknik dari Stokastik
Neural Network yang terdiri dari dua lapisan yaitu hidden layer dan visible layer. Visible
layer merupakan layer jalur masuk input data yang tidak memiliki label untuk
pemrosesan pola fitur dari data tanpa label, sedangkan hidden layer merupakan layer
yang menerima data dari visible layer berupa data dalam bentuk binary dimana layer ini
dapat merekonstruksinya kembali [18]. RBM merupakan sebuah keadaan khusus dari
Boltzmann machines. Boltzmann machines adalah sebuah model parameter yang
merepresentasikan distribusi probabilitas yang dapat digunakan untuk mempelajari
aspek-aspek penting dari target distribusi yang tidak diketahui berdasarkan target
distribusi itu sendiri. Pembelajaran pada boltzman machine menuntut komputasional
yang tinggi. Maka RBM merupakan solusi untuk permasalahan tersebut dimana
pembelajaran komputasional yang tinggi pada boltzman machine disederhanakan dengan
menerapkan batasan pada topologi jaringan [25].

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 18 dari 55

News Hoax Detector using NLP and Deep Learning


RBM merupakan undirected graphical model dimana setiap neuron pada jaringan hanya
terhubung dari satu layer ke layer lainnya. Berdasarkan hubungan antara hidden layer
dan visible layer dapat dikatakan bahwa hidden layer bersifat independent pada visible
layer, dan sebaliknya visible layer dependent pada hidden layer [25]. RBM memiliki tiga
bobot (variabel) penting yaitu connection weights, visible bias, hidden bias. RBM
merupakan salah satu algortima dengan teknik pembelajaran supervised learning yang
membutuhkan label dalam proses komputasinya[26].

Aliran perhitungan RBM tediri dari dua tahapan yang dilakukan secara berulang. Pada
tahap ertama, data masuk ke visible layer dan nilai bobot untuk hidden layer dihitung
dengan menggunakan nilai visible layer sebagai input-an. Pada titik ini, semua lapisan
terlihat dan kombinasi lapisan hidden layer dihitung. Pada tahap kedua, nilai pada visible
layer dihitung menggunakan hasil sampling dari hidden layer. Dengan melakukan
perulangan ini, akan dimungkinkan dapat memberikan pembaharuan pada algoritma.
Penggunaan teknik ini dapat diterapkan pada DBN yang merupakan susunan dari RBM,
dimana data input-an untuk RBM kedua berasal dari output layer RBM pertama, dan
seterusnya hingga ke semua RBM pada layer terakhir. Gambar 4 merupakan gambar
yang menunjukkan struktur dari algoritma RBM.

Gambar 4 Struktur Algoritma Restricted Boltzman Machine

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 19 dari 55

News Hoax Detector using NLP and Deep Learning


2.3. Natural Language Processing
Natural Language Processing (NLP) merupakan ilmu komputer yang bergerak dalam
persoalan pengolahan Bahasa manusia baik dalam teks dan pidato [6]. NLP memiliki
komputasi modern dan metode menganalisa serta mengevaluasi Bahasa manusia itu
sendiri. (Natural Language Processing For Content Analysis in Social Networking).
Secara khususnya, penggunaan NLP ini ditujukan untuk pengolahan Bahasa manusia
untuk dapat dimengerti oleh komputer untuk memproses bahasa tulisan dan lisan untuk
beberapa kepentingan seperti dalam menerjemahkan bahasa oleh komputer , untuk
mendapatkan informasi dari web dalam hal mencari jawaban dari pertanyaan, melakukan
percakapan dengan mesin, sehingga bisa mendapatkan prediksi, saran dan sebagainya
demi membantu manusia dalam kehidupan sehari-harinya seperti dalam hal bisnis .
Penulis menggunakan NLP ini sebagai bahan dalam hal pengolahan dataset sebelum
masuk dalam pengolahan dataset oleh machine learning. Pengolahan data sebelum
digunakan sebagai data inputan pada machine learning sangatlah dibutuhkan. Salah satu
modul dari NLP adalah normalisasi data.Dalam hal penggunaan algoritma, normalisasi
data akan mengoptimalkan penggunaan neuron. Normalisasi data dapat mengurangi
jumlah neuron sehingga akan mengurangi komputasi yang ada, dengan demikian akan
mengurangi cost yang akan dibayar selama pengolahan data[3].
InaNLP merupakan sebuah toolkit yang dikembangkan untuk meproses data dalam
Bahasa Indonesia. Arsitektur dari InaNLP terdiri dari beberapa modul NLP yang
terintegrasi yaitu Sentence splitter, tokenization, word normalization, morphologically
analyzer, POS tagger, phrase tagger, named entity tagger, syntactic parser, semantic
analyzer [1].
 Sentence Splitter
Modul ini berfungsi untuk membagi teks input ke dalam beberapa kalimat. Modul
ini mengimplementasikan rule based system untuk menentukan kemungkinan
pembatas sebuah kalimat dan pengecualian utuk setiap pembatas tersebut.
 Tokenization

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 20 dari 55

News Hoax Detector using NLP and Deep Learning


Modul ini berfungsi untuk membagi teks input menjadi sebuah array token.
Dalam hal ini token adalah sebuah kata. Sebuah token dan token lainnya ditandai
dengan adanya spasi.
 Word Normalization
Modul ini biasanya digunakan untuk mengolah teks dari social media dimana
orang-orang cenderung menggunakan singkatan penulisan dan kata yang
informal. Maka modul ini merupakan modul yang digunakan untuk merubah kata
yang informal menjadi kata yang formal hal ini lah yang disebut menormalkan
sebuah kata.
 Morphlogical Analyzer
Modul ini berfungsi untuk melakukan lemmatisasi pada input kata dimana output
yang dihasilkan adalah bentuk dasar dari sebuah kata beserta dengan imbuhannya.
 POS (Part of Speech) Tagger
Modul ini berfungsi untuk memberikan tag of speech pada input kalimat yang
diberikan.
 Named Entity (NE) Tagger
Modul ini berfungsi untuk mmeberikan pada pada entitas yang terdapat pada
kalimat input seperti orang, organisasi, lokasi, dan tanggal.
 Phrase Tagger
Modul ini berfungsi untuk mengembalikan urutan frase terkecil dari kalimat
input. Modul ini mengimplementasikan rule based system.

2.4. Back Propagation


Backpropagation merupakan sebuah arsitektur Neural Network yang digunakan untuk
mempelajari dan menganalisis data pada masa lalu dengan cepat sehingga output yang
diberikan akan memiliki nilai error yang minimum.[28]. Metode backpropagation sering
digunakan pada jaringan multi-layer dengan tujuan untuk mengurangi error dari hasil
teknik perhitungan jaringan tersebut. Tahap pelatihan dengan menggunakan
backpropagation terdiri dari 3 fase yaitu tahap input data ke dalam jaringan input

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 21 dari 55

News Hoax Detector using NLP and Deep Learning


(feedforward), kemudian tahap pehitungan dan propagasi balik dari error
(backpropagation) dan kemudian tahap pembaharuan bobot dan bias (adjustment) [30].
Gambar 5 merupakan gambar yang menunjukkan struktur dari algoritma
backpropagation.

Gambar 5 Struktur Algoritma Backpropagation

2.5. Web Scraping


Web Scraping (web harvesting atau web data extraction) adalah teknik perangkat lunak
komputer untuk mengekstrak informasi dari situs web. Program perangkat lunak dalam
teknik ini merupakan eksplorasi manusia dari World Wide Web dengan menerapkan
Protokol Transfer Hiperteks Tingkat Tinggi (HTTP) tingkat rendah, atau menyematkan
browser web lengkap, seperti Internet Explorer atau Mozilla Firefox. Web Scraping
terkait erat dengan pengindeksan web yang mengindeks informasi di web menggunakan
bot web crawler dimana teknik tersebut merupakan teknik universal yang diadopsi oleh
kebanyakan search engine. Sebaliknya, Web Scraping lebih berfokus pada transformasi
data yang tidak terstruktur dalam web, biasanya dalam format HTML serta mengubahnya

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 22 dari 55

News Hoax Detector using NLP and Deep Learning


menjadi data terstruktur yang dapat disimpan dan dianalisis dalam database atau
spreadsheet. Web Scraping juga terkait dengan otomasi web yang mensimulasikan
penjelajahan user dengan menggunakan perangkat lunak komputer. Penggunaan
scraping Web dapat dimanfaatkan dalam hal perbandingan harga online, penghitungan
kontak, pemantauan data cuaca, deteksi perubahan situs web, penelitian, mashup web dan
integrasi data web.
Terdapat beberapa teknik dari web scraping seperti teknik tradisional copy and paste, text
grapping and regular expression, Hypertext Transfer Protocol (HTTP) Programming,
Hyper Text Markup Language(HTML)Parsing, Document Object Model (DOM) Parsing,
Web Scraping Software, vertical aggregation platforms, Semantic annotation recognizing
dan Computer vision web-page analysers[27].

2.6. Kesimpulan
Berdasarkan penjelasan metode deep learning, dapat disimpulkan bahwa deep learning
memiliki komputasi yang lebih baik daripada neural network di karenakan pada deep
learning menggunakan layer lebih banyak dibandingkan dengan neural network. Deep
Belief Network (DBN) merupakan salah satu algoritma deep learning dimana layer pada
algoritma DBN merupakan susunan dari algoritma Restricted Boltzman Machine
(RBM). Algoritma RBM memiliki ekstraksi fitur yang baik karena pada RBM setiap
layer saling independen dalam menentukan nilai atau bobot. BDN dibantu oleh back
propagation pada tahap fine-tuning dalam proses revise di setiap parameter yang dimiliki
oleh setiap layer. Parameter tersebut adalah weight dan bias. Penelitian ini menggunakan
web scraping dalam hal membuat sebuah dataset yang berasal dari website berita
terpercaya.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 23 dari 55

News Hoax Detector using NLP and Deep Learning


III. Analisis dan Design

Pada bab ini akan dijelaskan mengenai domain analisis, data analisis, algoritma yang
digunakan, serta experiment yang dilakukan dalam kajian Hoax detector.

3.1 Domain Analisis


Pada subbab ini akan dijelaskan tentang analisis terhadap domain yang dilakukan pada
kajian ini dan domain yang memiliki kesamaan dengan kajian yang dilakukan oleh
peneliti.

1. Ekperimen pada Sistem Klasifikasi Hoax Berbahasa Indonesia Berbasis


Pembelajaran Mesin
Mengelompokkan berita hoax merupakan salah satu aplikasi kategorisasi teks. Kategori
teks berbasis pembelajaran mesin memiliki beberapa tahapan proses yaitu praproses,
ekstraksi fitur, seleksi fitur dan klasifikasi. Penelitian yang dilakukan oleh Errissya
Rasywir dan Ayu Purwarianti pada tahun 2015 dalam artikel yang berjudul Eksperimen
pada Sistem Klasifikasi Hoax Berbahasa Indonesia Berbasis Pembelajaran Mesin
bertujuan untuk memilih teknik terbaik dari setiap tahapan proses kategorisasi teks
berbasis pembelajaran mesin yang dapat diimplementasikan pada klasifikasi berita hoax
dalam menemukan fitur penciri dari berita hoax.

Dalam penelitian ini, peneliti menggunakan 220 artikel berbahasa Indonesia yang terdiri
dari 22 topik. Dari 220 artikel yang digunakan 89 artikel merupakan artikel yang berisi
berita hoax dan 131 artikel adalah artikel yang berisi berita bukan hoax. Tahapan-tahapan
dari klasifikasi teks yang dilakukan dalam penelitian ini adalah:
 Data Pre-processing
Tahapan-tahapan yang dilakukan dalam pre-processing data adalah case folding,
tokenisasi, penghapusan stopword, dan stemming.
 Ekstraksi Fitur Berita Hoax

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 24 dari 55

News Hoax Detector using NLP and Deep Learning


Ekstraksi fitur merupakan proses ekstraksi seluruh fitur kata yang terdapat pada
dokumen. Dari penelitian yang dilakukan, ekstraksi fitur kata menghasilkan 3
modul fitur yaitu Unigram, Bigram, dan gabungan antara Unigram dan Bigram.
 Seleksi Fitur Berita Hoax
Dalam tahapan ini peneliti menggunakan beberapa teknik untuk selesksi fitur
yaitu Information Gain(IG), Mutual Information(MI), Chi-Square(CS), Term
Frequency(TF) dan TFxIDF
 Pelatihan dengan menggunakan Algoritma Machine Learning
Peneliti membandingkan 3 algoritma machine learning dalam penelitian ini.
Ketiga algoritma tersebut adalah Naïve Bayes, Support Vector Machine(SVM)
dan Algoritma C4.5.

Pada tahap pengujian, seluruh klasifikasi pengujian yang dilakukan meliputi pengujian
pre-processing yaitu stemming dan stopward elimination dengan 3 jenis classifier yaitu
Naïve Bayes, Support Vector Machine(SVM) dan Algoritma C4.5. Dan secara umum
terdapat 2 jenis klasifikasi utama yaitu klasifikasi dengan seleksi fitur dan klasifikasi
dengan tanpa seleksi fitur. Klasifikasi dengan seleksi fitur dibagagi menjadi seleksi
dengan fitur tunggal dan klasifikasi dengan seleksi fitur menggunakan intersection dan
union. Maka hasil dari eksperimen yang dilakukan diperoleh kesimpulan yang
menyatakan bahwa hasil pengujian terbaik adalah dengan menngunakan algoritma Naïve
Bayes dengan fitur unigram dan seleksi fitur menggunakan operasi union antara
information gain dan mutual information.

2. Hoax Analyzer

Hoax analyzer merupakan sebuah aplikasi web yang di bangun oleh tim CIMOL ITB yang
terdiri dari Feryandi Nurdiantoro, Tifani Warnita, dan Adinda Budi Kusuma Putra. Pada
system hoax analyzer, algoritma yang digunakan algoritma SVM , multilayer processing
dan pendekatan rule based. Pada tahap preprocessing, hoax analyzer menggunakan NLP
dimana modul-modul NLP yang digunakan adalah Stemming dan Stopword. Dari data

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 25 dari 55

News Hoax Detector using NLP and Deep Learning


train yang digunakan, akan dilakukan pengekstrakan kata untuk menemukan kata kunci
dari dataset baik dari dataset hoax maupun dari dataset non-hoax. Kemudian berdasarkan
kata-kata kunci tersebut akan diperiksa terhadap artikel ataupun berita yang akan diuji
untuk menentukan persentasi nilai hoax ataupun tidak berdsarkan jumlah kemunculan kata
kunci pada artikel ataupun berita tersebut. Kemudian, untuk berita yang ingin dicari
kebenarannya, maka system hoax analyzer akan mencari artikel-artikel terkait berita
tersebut dari media online. Maka hasil akhir yang diberikan dari sistem hoax analyzer
adalah persentase yang menyatakan tingkat kebenaran dari sebuah berita.

3.2 Data Analisis


Pada subbab ini dijelaskan analisis terhadap dataset yang digunakan dalam penelitian ini.
Terdapat 2 jenis dataset yang akan digunakan pada penelitian ini, yaitu dataset yang berisi
berita hoax dan dataset yang berisi berita non-hoax. Berita-berita yang terdapat pada
dataset merupakan data yang dikumpulkan dari situs berita.

Keakuratan berita yang disediakan oleh sebuah situs berita dapat dilihat dari jumlah
pengguna situs berita tersebut. Jumlah pembaca yang mengunjungi sebuah situs berita
menununjukkan kualitas dari sebuah situs berita. Semakin besar jumlah pengunjung dari
sebuah situs berita maka semakin bagus kualitas situs berita tersebut. Pada penelitian ini
penulis menyadari bahwa membuktikan bahwa sebuah berita adalah hoax atau bukan
merupakan suatu hal yang sangat sulit. Namun dalam penelitian ini, parameter yang
digunakan untuk menentukan sebuah berita adalah hoax atau bukan adalah berdasarkan
tingkat kepercayaan pembaca terhadap berita tersebut. Semakin banyak pembaca yang
percaya terhadap sebuah berita, maka semakin besar persentasi bahwa berita tersebut
adalah benar.
 Dataset Non-hoax

Kepopuleran dari sebuah situs berita dapat ditunjukkan dari jumlah pengunjung atau
pembaca yang mempercayai berita-berita yang disediakan oleh situs berita tersebut. Pada

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 26 dari 55

News Hoax Detector using NLP and Deep Learning


tabel di bawah ini menunjukkan peringkat kepopuleran situs berita di Indonesia versi
Alexa pada tahun 2015-2018.
Table 1 Situs Berita Terpopuler di Indonesia versi Alexa tahun 2015-2018

Peringkat Tahun 2015 Tahun 2016 Tahun 2017 Tahun 2018


1. Detik.com Detik.com Tribunnews.com Tribunnews.com
2. Kompas.com Tribunnews.com Detik.com Detik.com
3. Liputan6.com Kompas.com Liputan6.com Kompas.com
4. Viva.co.id Liputan6.com Kompas.com Liputan6.com
5. Merdeka.com Kapanlagi.com Merdeka.com Uzone.id
6. Tribunnews.com Merdeka.com IDNTimes.com Kapanlagi.com
7. Jpnn.com Okezone.com Tempo.co Merdeka.com
8. Suara.com Uzone.id Okezone.com Sindonews
9. Kapanlagi.com Suara.com Suara.com Kumparan.com
10. Tempo.com Tempo.co CNNIndonesia.com Okezone.com

Berdasarkan tabel diatas, penulis menentukan 5 situs berita yang dianggap sebagai
trusted media yaitu detik.com, kompas.com, liputan6.com, merdeka.com, dan
Tribunnews.com. Kelima situs berita ini merupakan situs berita yang selalu masuk dalam
10 situs berita terpopuler di Indonesia pada tahun 2015-2018.
 Dataset Hoax

Salah satu situs berita di Indonesia yang telah terbukti menyebarkan berita yang tidak
akurat berdasarkan hasil penyelidikan yang dilakukan oleh pemerintah adalah situs berita
Saracennews.com. Saracennews.com merupakan salah satu situs berita yang
menyediakan berita hoax dan mengandung unsur SARA.
Pada penelitian ini, pengumpulan dataset yang berisi berita hoax dilakukan dengan
mengumpulkan berita yang terdapat pada situs berita Saracennews.com, kemudian
penulis akan menguji persentase berita yang terdapat pada situs berita Saracennews.com

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 27 dari 55

News Hoax Detector using NLP and Deep Learning


dengan menggunakan aplikasi hoax analyzer. Berita dengan persentase hoax >70%
adalah berita yang akan digunakan penulis dalam dataset berita hoax.

 Variabel-variabel yang digunakan pada Dataset

Dalam menentukan bahwa sebuah berita adalah hoax atau bukan terdapat beberapa hal
yang diperhatikan yaitu judul, tanggal berita, situs berita yang menyediakan berita, dan
isi dari berita tersebut. Hal-hal inilah yang digunakan penulis sebagai varibel pada
dataset yang akan digunakan.
Variabel-variabel yang terdapat pada dataset yang digunakan dalam penelitian ini
ditunjukkan pada tabel 1 di bawah ini.
Table 2 Variabel-variabel pada Dataset yang digunakan pada Hoax detector

No. Variabel Tipe Data Keterangan


1 NewsTitle String Judul dari Berita
2 NewsDate String Tanggal kapan berita dipublikasikan
3 NewsPublisher String Media berita online yang
mempublikasikan berita
4 NewsContent String Isi berita
5 Label String Label dari berita (hoax/bukan hoax)

Variabel NewsTitle, NewsDate, NewsPublisher, dan NewsContent merupakan variabel


independent (bebas) yang akan mempengaruhi penentuan variabel dependent (terikat).
Variabel label merupakan variabel dependent atau target klasifikasi berita. Label dari
berita adalah 0 dan 1, dimana 0 adalah label yang menunjukkan bahwa berita
diklasifikasikan sebagai hoax, dan label 1 menunjukkan bahwa berita diklasifikasikan
sebagai non-hoax.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 28 dari 55

News Hoax Detector using NLP and Deep Learning


 Pengumpulan Data

Pengumpulan berita dari situs berita dilakukan dengan menggunakan teknik scraping.
Berikut ini merupakan kode yang digunakan dalam mengumpulkan data dari situs berita
dengan menggunakan teknik scrapping.

Code Scraping Website


import urllib
import urllib.request
from bs4 import BeautifulSoup
import os
alamat = "alamat website"
def create_soup(url):
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page, "html.parser")
return soup
def getLink(link):
data_link = ""
soup = create_soup(link)
for data in soup.find_all(attrs={"class":"desc_idx ml10"}):
for link in data.find_all('a'):
data_link = data_link + "\n" + link.get('href')
print(data_link)
file_link = open("data_link.txt", "w")
file_link.write(data_link)
return data_link
def getData():
links = open("data_link_.txt", "r")
publishers=""

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 29 dari 55

News Hoax Detector using NLP and Deep Learning


titles=""
beritas=""
dates=""
for link in links:
soupLink = create_soup(link)
title = soupLink.find('h1').text
date = soupLink.find(attrs={"class":"date"}).text
publisher = soupLink.find(attrs={"class":"author"}).text
isiBerita=""
for content in soupLink.find_all('p'):
isiBerita = isiBerita+"\n"+content.text
titles= titles+"\n"+title
publishers=publishers +"\n"+ publisher
beritas=beritas+"\n"+isiBerita
dates=dates+"\n"+date
return publishers,titles,beritas,dates
def savePublisher(penulis):
header = "Publisher"+"\n"
file = open(os.path.expanduser("Dataset_Berita_Publisher.csv"), "wb")
file.write(bytes(header, encoding="ascii", errors='ignore' ))
file.write(bytes(penulis, encoding="ascii", errors='ignore'))
def saveDate(tanggal):
header = "Date"+"\n"
file = open(os.path.expanduser("Dataset_Berita_Date.csv"), "wb")
file.write(bytes(header, encoding="ascii", errors='ignore'))
file.write(bytes(tanggal, encoding="ascii", errors='ignore'))
def saveBerita(berita):
header = "Content"+"\n"
file = open(os.path.expanduser("Dataset_Berita_Content.txt"), "wb")

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 30 dari 55

News Hoax Detector using NLP and Deep Learning


file.write(bytes(header, encoding="ascii", errors='ignore'))
file.write(bytes(berita, encoding="ascii", errors='ignore'))
def saveJudulBerita(judul):
header = "Title"+"\n"
file = open(os.path.expanduser("Dataset_Berita_Title.csv"), "wb")
file.write(bytes(header, encoding="ascii", errors='ignore'))
file.write(bytes(judul, encoding="ascii", errors='ignore'))
def main():
getLink(alamat)
dataPublishers,dataTitles,dataBeritas,dataDates = getData()
saveBerita(dataBeritas)
saveDate(dataDates)
saveJudulBerita(dataTitles)
savePublisher(dataPublishers)

Keterangan :
 Create-shoup(url)

Fungsi untuk membentuk sebuah object bentukan dari beutifulshoup yang melakukan
parse page menjadi bentuk html dimana page yang di parse berasal dari page yang di
akses menggunakan library urllib tepatnya menggunakan fungsi
urllib.request.openurl(url).
 getLink(link)

Fungsi untuk mendapatkan link dari list berita yang ada pada link index berita yang
disediakan. Setiap link berita akan di simpan pada sebuah file dalam bentuk ’.txt’ . Pada
fungsi ini akan memanggil fungsi create-shoup(url) yang telah didefenisikan sebelumnya
untuk mendapatkan object beautifulsoup dengan page yang telah parse ke bentuk html .
Pada fungsi ini beautifulsoup akan mencari setiap tag html ‘a’ dari object tersebut untuk

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 31 dari 55

News Hoax Detector using NLP and Deep Learning


mendapatkan setiap link berita yang di inginkan. Setelah link ditemukan, setiap link akan
disimpan ke file data_link.txt yang telah disediakan sebelumnya.
 getData()

Fungsi untuk melakukan akses ke setiap data link yang berada pada file data_link.txt
untuk mendapatkan data utama yaitu author berita, title berita, isi berita, serta tanggal
dari berita tersebut . Pada fungsi ini akan mencari tag html ‘h1’ untuk mendapatkan title
berita, ‘class:date’ untuk tanggal berita, ‘class:author’ untuk mendapatkan author berita
dan setiap tag html ‘p’ untuk content dari berita tersebut.
 savePublisher(penulis)

Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Publisher.csv. Pada fungsi ini akan membentuk file
Dataset_Berita_Publisher.csv menggunakan library OS. Setelah file terbentuk, data
author berita akan di tulis pada file Dataset_Berita_Publisher.csv dengan menggunakan
fungsi write.
 saveDate(tanggal)

Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Date.csv. Pada fungsi ini akan membentuk s menggunakan library OS.
Setelah file terbentuk, data tanggal berita akan di masukan pada file
Dataset_Berita_Date.csv dengan menggunakan fungsi write.
 saveBerita(berita)

Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Content.csv Pada fungsi ini akan membentuk file
Dataset_Berita_Content.csv menggunakan library OS. Setelah file terbentuk, data isi
berita akan di tulis pada file Dataset_Berita_Content.csv dengan menggunakan fungsi
write.
 saveJudulBerita()

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 32 dari 55

News Hoax Detector using NLP and Deep Learning


Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Title.csv. Pada fungsi ini akan membentuk file Dataset_Berita_Title.csv
menggunakan library OS. Setelah file terbentuk, data judul berita akan di tulis pada file
Dataset_Berita_Title.csv dengan menggunakan fungsi write.
 main()

Fungsi untuk memanggil setiap fungsi yang telah di defenisikan sebelumnya untuk
memulai scraping pada alamat website yang di inginkan.

Pada tabel di bawah ini menunjukkan data yang telah dikumpulkan dari web berita online
dengan menggunakan teknik scrapping yang kemudian di olah ke dalam bentuk tabel.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 33 dari 55

News Hoax Detector using NLP and Deep Learning


No. Publisher Title Date Content
1. Veynindia Posting Bernada 01 Jan 2018 19:00 Putra Krisdayanti dan Anang Hermansyah, Azriel, diketahui memposting
Esaloni Kecewa WIB sebuah status di instagram. Potongan postingan tersebut diunggah dan beredar
Pardede - Hubungan Azriel di media sosial lewat sebuah akun gosip.
detikHOT Hermansyah dan Status tersebut menarik perhatian sebab kalimat yang diutarakan di postingan
Suami KD tersebut bernada penuh kekecewaan.
Disebut "Lucu ya om, comment di ig nya ngga cocok sama kenyataan!! IG sy aja
Renggang diblock sampe sekarang. Apa pernah telpon atau wa kita? semua memang
harus dari hati kok," tulis Azriel di postingan tersebut. Status tersebut
memancing tanda tanya besar bagi netizen. Netizen menilai kalimat dalam
postingan tersebut merupakan ungkapan kekecewaan di antara Azriel dengan
Raul Lemos, suami KD.
Sejak postingan tersebut diunggah, berbagai komentar pun muncul.
"Udah kelihatan kok kalau bapak tirinya cuma mau sama ibunya nggak
dengan anaknya. Jadi jangan salahkan si anak kalau nggak respect sama si
ibu. Dari awal ibunya yang nyakitin mereka ditambah sikap ibu mereka yang
kurang perhatian sama si anak. Ini sebuah kekecewaan dan ortulah yang harus
memperbaiki hubungan dengan anaknya," komentar akun @r**es_2tk.
"Banyak yang tersakiti dari awal hubungan KDn si OM, terutama Aurel n

Institut Teknologi Del


Azriel. Jadi wajar ajaAkhir
Tugas kalau sekali Hlmn.
Sarjana, waktu34ada
daripercika
55 nemosi. Karena luka

News Hoax Detector using NLP and Deep Learning


masa kecil kadang terbawa sampai dewasa," tulis netizen lain berakun
@wi**tsoe.
Selama ini hubungan di antara keluarga baru Krisdayanti dengan kedua
anaknya, Aurelie Hermansyah dan Azriel Hermansyah tampak kurang
harmonis. Dalam beberapa kesempatan yang digelar Anang dan Ashanty, KD
juga kerap absen hadir.
Munculnya postingan Azriel dinilai netizen adanya kerenggangan di antara
dirinya dan ayah tirinya tersebut.
2. Veynindia Dekatnya Dimas 01 Jan 2018 18:27 Sudah kesekian kalinya Dimas Anggara dan Nadine Chandrawinata
Esaloni Anggara dan WIB memperlihatkan kedekatan mereka lewat foto di masing-masing akun
Pardede - Nadine instagram mereka.Setelah sebelumnya hanya sebuah foto siluet dan
detikHOT Chandrawinata di memasang pohon natal bersama, Dimas dan Nadine mengunggah
Tengah Kembang kebersamaan mereka saat ledakan kembang api yang menjadi latar
Api kebahagiaan mereka. "Look, there's a fireworks.', I said. She replied, 'I know,
it's beautiful.' It means, we start a new day with smile and let's ring in the new
year with good things in mind. Happy birthday 2018 my lovely earth,' tulis
Dimas dalam caption fotonya yang sedang merangkul Nadine. Tak hanya itu,
Nadine pun mengunggah foto yang sama dengan harapan berbeda namun
hampir sama, seperti yang tertulis dalam captionnya saat sedang bersama
Dimas."Countless times have people asked, why are we here? Remember

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 35 dari 55

News Hoax Detector using NLP and Deep Learning


what's down is up, and what's up is down. Out of the entire universe, yeah,
you were my favorite set of atoms. We are passing the light of peace, love,
prosperity for 2018 to you all. Happy birthday 2018 my lovely earth," tulis
Nadine.Foto keduanya tentu mengundang rasa iseng dari Ringgo Agus
Rahman yang terkenal dengan tingkah lucunya."Harusnya gue juga disana
untuk menghantui kaliaaann," ujarnya bercanda.Dimas pun dikabarkan sudah
memperkenalkan Nadine kepada keluarga besarnya. Nadine bahkan telah
menggandeng Dimas ke acara pernikahan adiknya, Marcell Chandrawinata.
3. Veynindia Manisnya 01 Jan 2018 18:05 Prilly Latuconsina sudah lama dekat dengan pemain sinetron Maxime
Esaloni Hubungan Prilly WIB Bouttier. Hal itu sudah diakui oleh Prilly, begitu juga Maxime.Mereka pun
Pardede - Latuconsina dan tak jarang memperlihatkan kedekatan mereka di berbagai kesempatan. Saat
detikHOT Maxime Bouttier menghadiri suatu gala premiere bersama hingga menonton film seperti yang
terlihat dalam video di akun youtube pribadi Prilly."Doain ya semoga aku
nggak tidur. Kan bukan tipe film aku. Aku nggak terlalu suka," ujar Prilly
dalam akun video tersebut. Tidak mau kalah, Maxime pun membalas
komentar gadis yang pernah menjadi lawan mainnya dalam suatu sinetron
tersebut.
"Bodo yang penting aku nonton. Kita juga mau nonton 'Iron Man', because I
like it," tukas Maxime.Prilly pun membalas komentar Maxime sambil tertawa
puas saat menceritakan siapa saja yang ia sukai."Kalau gitu kamu juga harus

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 36 dari 55

News Hoax Detector using NLP and Deep Learning


suka Justin Bieber, because I like it," ungkap Prilly sambil tertawa.Tak hanya
menonton bersama, Prilly dan Maxime juga menghabiskan malam tahun baru
bersama, terlihat dalam foto yang diunggah Prilly ke akun instagram
pribadinya."HAPPY NEW YEAR! This is my perfect new years celebration,"
tulisnya dalam caption yang berisi foto dirinya dengan Maxime yang sedang
tersenyum.
4. Veynindia Sempat Jalani 01 Jan 2018 15:35 Putra pertama Ahmad Dhani dan Maia Estianty, Al Ghazali sedang
Esaloni LDR Al Ghazali WIB berbahagia menghabiskan waktu berdua bersama kekasihnya, Alyssa Daguise
Pardede - Makin Mesra yang sedang menempuh pendidikan di Perancis.Keduanya sempat putus
detikHOT dengan Kekasih hubungan dikarenakan hubungan jarak jauh yang sulit dilalui oleh pasangan
remaja ini. Al pun mengunggah potret kebersamaannya bersama Alyssa di
kolam renang dalam akun instagram pribadinya saat keduanya tengah
menikmati liburan. "Chillin with my cutie," tulis Al dalam caption tersebut
yang memperlihatkan kemesraan mereka.Kolom tersebut juga dibalas dengan
bentuk tanda hati oleh Alyssa. Tak mau kalah, Alyssa juga mengunggah
fotonya bersmaa Al dengan caption, "Pure bliss.". Mereka pun juga
menghabiskan malam tahun baru bersama di Bali bersama El Rumi dan
Marsha Aruan. Pasangan yang sedang dimabuk asmara ini tampak
menerbangkan lampion bersama.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 37 dari 55

News Hoax Detector using NLP and Deep Learning


5. Veynindia Dunia Hiburan 01 Jan 2018 14:49 Beberapa waktu belakangan lalu Kartika Putri sempat menghilang dari dunia
Esaloni dan Anak WIB hiburan. Ia mengaku sempat beristirahat agar lebih fokus kepada
Pardede - Sumber anaknya.Namun, sejak akhir tahun 2017 ini, presenter ini mulai merasa
detikHOT Kebahagiaan bahwa bidang pekerjaan ini merupakan bagian dari hidupnya yang tidak akan
Kartika Putri pernah bisa hilang. Di tahun 2018 ini ia pun mulai bertekad untuk tetap
bertahan dalam dunia kerja yang digemarinya tersebut. "Pencapaian sih
nggak ada ya, masih bersyukur aja, masih bisa bekerja di dunia entertaint,
sesuai dengan hobi aku," ujar Kartika beberapa waktu lalu.
Di samping itu, kehadirannya anak angkatnya, Arjuna, juga menjadi patokan
utamanya untuk mempertahankan eksistensi dirinya di dunia
entertaint."Bersyukurnya menjadi lebih dewasa. Di tahun ini aku merasa
dapat berkah. Terus juga buat aku, keluarga dan anak-anak banyak berkahnya
sih luar biasa, mudah mudahan dengan rasa bersyukur tahun depan
ditambahin lagi," tukasnya.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 38 dari 55

News Hoax Detector using NLP and Deep Learning


3.2.1 Dataset Profile
Dataset yang digunakan pada kajian ini adalah data yang dikumpulkan dari situs
berita online dengan menggunakan teknik scrapping. Variabel-variabel yang
dianalisis dari sebuah berita adalah NewsTitle, NewsDate, NewsPublisher,
NewsContent, dan label dari setiap berita. Target yang ingin didapatkan adalah
pengklasifikasian berita menjadi berita hoax dan berita non-hoax. Keseluruhan dataset
yang dikumpulkan adalah berita yang dipublikasikan dalam jangka waktu 5 tahun.
Jumlah data yang dikumpulkan adalah 900 berita yang terdiri dari 600 berita non hoax
dan 300 berita hoax.

3.2.1.1 Data Training dan Data Test


Dalam pembuatan model yang akan dilakukan, maka pembagian dataset untuk data
training dan data test adalah 80 dan 20 dari seluruh data secara random. Supaya
pembagian data lebih efektif maka:
 Jumlah Data Training = (80% * JumlahDataset Hoax) + (80% *
Jumlah Dataset Non-hoax)
 Jumlah Data Test = (20% * JumlahDataset Hoax) + (20% * Jumlah
Dataset Non-hoax)

3.2.1.2 Dataset pada Penelitian yang berjudul “News Credibility Evaluation on


Microblog with a Hierarchial Propagation Model”
Pada penelitian yang dilakukan pada [4], peneliti menggunakan 2 jenis dataset.
Dataset yang pertama berisi berita palsu dan berita yang terpercaya dalam satu tahun
secara random, sedangkan dataset yang kedua berisi berita palsu dan berita terpercaya
yang memiliki keterkaitan dalam tahun yang sama juga. Dalam penelitian tersebut
ditunjukkan bahwa penggunaan kedua dataset tersebut dapat meningkatkan
keefektifan dalam menghasilkan sebuah model.

Data set yang pertama SW-2013 merupakan dataset yang berisi topik berita yang
tidak berkaitan terdiri dari 18 berita palsu dan dan 171 berita factual. Dan dataset

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 39 dari 55

News Hoax Detector using NLP and Deep Learning


yang kedua SW-MH370 merupakan dataset yang berisi topik berita yang saling
berhubungan teridiri dari 32 berita palsu dan 135 berita factual. Kedua dataset
tersebut dikumpulkan dari Sina Weibo yang merupakan salah satu microblog di Cina.
Berita-berita yang dikumpulkan adalah berita yang berasal dari messages yang
terdapat pada microblog. Berita yang terdapat pada dataset SW-2013 merupakan
representasi dari 79296 messages, sedangkan berita yang terdapat pada dataset yang
kedua merupakan representasi dari 32526 messages.

3.3 Algoritma
Pada subbab ini akan dilakukan analisis terhadap algoritma yang digunakan penulis
dalam kajian ini yaitu algoritma Deep Belief Network(DBN). Selain algoritma yang
digunakan, pada subbab ini juga akan dilakukan analisis terhadap algoritma yang
pernah digunakan dalam penelitian terkait pendeteksian hoax.

3.3.1 Deep Belief Network (DBN)


Struktur dari Deep belief Network (DBN) terdiri dari beberapa layer. Strategi
pembelajaran DBN yang tersusun dari beberapa layer membuat DBN memiliki
kemampuan dalam “learning feature” dimana feature pada level yang lebih tinggi
dipelajari dari layer yang sebelumnya.

Setiap layer yang terdapat dalam sebuah DBN merupakan RBM. Maka jumlah hidden
layer pada DBN ditentukan oleh oleh jumlah RBM yang digunakan. RBM memiliki 2
buah layer yaitu visible layer dan hidden layer. Output dari sebuah RBM akan
menjadi visible layer untuk RBM selanjutnya. Karena proses pembelajaran yang
dilakukan oleh RBM adalah unsupervised, maka algoritma Deep Belief Network
merupakan sebuah unsupervised learning sehingga hanya dapat bekerja tanpa
supervising. Hal yang dilakukan supaya Deep Belief Network dapat digunakan untuk
klasifikasi, maka pada DBN harus ditambahkan sebuah jaringan supervised learning
yaitu algortitma backpropagation. Jaringan supervised learning tersebut akan
melakukan klasifikasi berdasarkan fitur yang telah di ekstraksi oleh DBN..

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 40 dari 55

News Hoax Detector using NLP and Deep Learning


Tahapan-tahapan yang dilakukan dalam proses training DBN adalah:
1. Layer-wise. Tahap ini merupakan proses unsupervised learning. Deep Belief
Network yang tersusun dari beberapa RBM akan mempelajari fitur dari dari visible
layer dengan menggunakan algoritma Constractive Divergence(CD). Saat melatih
RBM dengan menggunakan algoritma CD, CD akan mencari local optimum pada
sebuah layer yang kemudian digunakan pada layer berikutnya dan kemudian akan
dicari lagi local optimum pada layer tersebut.
2. Fine-tuning. Tahap ini merupakan sebuah tahap untuk menambahkan
algoritma klasifikasi yang sesuai. Pada penelitian ini, algortima yang digunakan
dalam proses pengklasifikasin adalah algortitma backpropagation. Pada bagian ini,
akan menggunakan algoritma gradient-descent yang berfungsi untuk melakukan
revisi atau peng-update-an setiap variable yang ada pada jaringan RBM.

Seperti yang disebutkan sebelumnya, DBN menggunakan metode greedy layer-wise pada
tahapan pretraining [32]. Prosedur pembelajaran greedy layer-wise memiliki tahapan
sebagai berikut:
1. RBM pertama dengan visible dan hidden layer (v, h1), akan di latih menggunakan
teknik pembelajaran Contrastive Divergence (CD) hingga seluruh parameter yang
dimiliki pada RBM pertama telah di tetapkan atau di-fixed kan.
2. Setelah setiap parameter dari RBM pertama telah di dapat, RBM kedua dengan
(h1,h2) dimana output dari RBM petama akan menjadi input pada RBM kedua.
Teknik ini akan di ulangi terhadap setiap stack RBM hingga RBM terakhir
mendapatkan nilai untuk setiap parameternya.
3. Setelah seluruh RBM telah melewati proses pembelajaran, output dari RBM terakhir
sebagai output dari tahapan pretraining akan memasuki tahapan fine-tuning
menggunakan algoritma Backpropagation. Tahapan fine-tunning merupakan tahapan
untuk melakukan update terhadap setiap parameter dari stack RBM yang ada pada
tahapan pretraining sebelumnya. Untuk melakukan update pada nilai weight maupun
nilai bias yang ada pada RBM, backpropagation sebagai algoritma gradient descent
yang akan menghitung nilai gradient dari hasil pretraining. Gradient hasil dari
algoritma ini akan menjadi patokan untuk melakukan update terhadap parameter

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 41 dari 55

News Hoax Detector using NLP and Deep Learning


setiap RBM. Hal ini dilakukan untuk meningkatkan performansi dari network yang
telah dibangun.

3.3.1.1 Restricted Boltzmann Machine (RBM)


RBM merupakan salah satu jenis underected-graphical model dimana terdiri dari
sebuah unit visible layer stokastik dan satu unit hidden layer stokastik. Dikatakan
stokastik, dikarenakan seluruh nilai parameter dari RBM berdasrakan nilai
probabilistik dari parameter yang lainnya.
RBM juga diakatakan sebagai energy-based model dikarenakan setiap distribusi
probabilitas dari variable RBM di bentuk melalui energy function. Energi untuk
configurasi dari visible unit dan hidden unit dapat didefenisikan dengan rumus
matematis [32]:
𝐽 𝐼 𝐼 𝐽

𝐸(𝑣, ℎ; 𝜃) = ∑ ∑ 𝑤𝑗𝑖 𝑣𝑖 − ∑ 𝑏𝑖 𝑣𝑖 − ∑ 𝑐𝑗 ℎ𝑗
𝑗=1 𝑖=1 𝑖 𝑗

dengan :
θ = {w,b,c} merupakan model untuk setiap parameter pada RBM
wji = weight antara visible unit i dan hidden unit j
bi = nilai bias untuk visible unit
cj = nilai bias untuk hidden unit
RBM memiliki teknik pembelajaran yang disebut dengan Constrastive Divergence
(CD). Constrastive Divergence merupakan algoritma training yang terdiri dari satu
tahapan dari gibbs sampling yang melakukan update terhadap hidden unit dan akan
melakukan update terhadap visible unit setelah hidden unit telah di update. Hal ini
bertujuan untuk mendapatkan nilai sample untuk mekonstruksi jaringan RBM
tersebut. Probabilitas marjinal untuk setiap hidden unit dan visible unit adalah :
1 −𝐸(𝑣,ℎ,𝜃)
𝑃(𝑣, ℎ) = 𝑒
𝑍
dimana Z= ∑𝑣,ℎ 𝑒 −𝐸(𝑣,ℎ,𝜃) adalah fungsi partisi dari seluruh pasangan visible dan
hidden unit yang mungkin.
Pada proses training menggunakan CD, distribusi untuk melakukan update terhadap
setiap parameter seperti hiden unit secara matematis adalah :

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 42 dari 55

News Hoax Detector using NLP and Deep Learning


𝑃(ℎ𝑗 = 1|𝑣) = 𝜎(𝑐𝑗 + ∑𝑗 ℎ𝑗 𝑤𝑖𝑗 )
dengan hj adalah nilai sample dari hidden unit yang akan di update dan 𝜎 adalah
fungsi aktifasi sigmoid. Untuk melakukan update terhadap nilai dari visible unit
menggunaan distribusi matematis :

𝑃(𝑣𝑖 = 1|ℎ) = 𝜎(𝑏𝑖 + ∑ 𝑣𝑖 𝑤𝑖𝑗


𝑖

dengan vi adalah nilai sample pada visible unit yang akan di update dan 𝜎 adalah
fungsi aktifasi sigmoid.
Setelah visible unit dan hidden unit telah di update, makan wight antara node dan
visible unit akan di update menggunakan distribusi matematis berikut :

Δ𝑤𝑗𝑖 = 𝜂 (𝐸𝑑𝑎𝑡𝑎 (𝑣𝑖 ℎ𝑗 ) − 𝐸𝑚𝑜𝑑𝑒𝑙 (𝑣𝑖 ℎ𝑗 ))

= 𝜂(𝑝(ℎ0𝑗 = 1| 𝑣0 )𝑣0′ − 𝑝(ℎ1𝑗 = 1|𝑣1 )𝑝(𝑥1𝑖 = 1|ℎ0 )′)


Maka untuk mendapatkan nilai wij yang telah di update, didunakan distribusi :
Updt(Wij) = wij + Δij
dengan:
Edata(vihj) = 𝑃(ℎ𝑗 = 1|𝑣)
Emodel vihj) = 𝑃(𝑣𝑖 = 1|ℎ)
𝜂 = nilai dari learning rate (tingkat peralihan dari nilai parameter
sebelumnya.)
v’0 = nilai transposed dari visible layer
wij = nilai weight lama
Update nilai bias untuk visible unit pada RBM dapat menggunakan aturan delta pada
distribusi berikut:
Δ𝑏 = 𝜂(𝑝(ℎ0𝑗 = 1|𝑣0 ) − 𝑝(ℎ1𝑗 = 1|𝑣1 ))
Update nilai bias untuk hidden unit pada RBM dapat menggunakan aturan delta pada
distribusi:
Δ𝑐 = 𝜂(𝑣0 − 𝑝(ℎ1𝑗 = 1|𝑣1 ))

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 43 dari 55

News Hoax Detector using NLP and Deep Learning


Penulis melakukan Perhitungan manual pada Taining RBM dengan sample data
berikut :

Table 3 Sample Dataset

Record Football Hockey Chess Class Keterangan: Class “Out”


P1 1 1 0 Out menggambarkan “Outdoor
P2 0 0 1 In games “ , “In” menggambarkan
P3 0 1 0 Out “Indoor Games “ . Nilai 1 pada
setiap permainan
menggambarkan pemain
menyukai permainan tersebut.

Pada contoh representasi DBN , menggunakan 3 buah Stacked RBM , dengan nilai
variable awal seperti dibawah ini :
B = bias pada hidden layer
A = Bias pada visible layer
η = 0.5
{v1=v2=v3 = 1} {v3 = 0}
{w11,w12, w21, w22, w31, w31 = 0.5}
{A1 = A2 = A3 = 0.2}
{B1= B2 = 0.2}

Update H11 :
P(H11=1| V) = σ(B1 + ∑3𝑖=1 𝑊𝑖1𝑉𝑖 ) = σ(B1 + W11V1 + W21V2 + W31V3)
= σ(0.2 + 0.5x1 + 0.5x1 + 0)
= σ(1.2)
1
= 1+𝑒 −1(1.2) = 0.7685

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 44 dari 55

News Hoax Detector using NLP and Deep Learning


Update H12 :
P(H12=1| V) = σ(B2 + ∑3𝑖=1 𝑊𝑖2 𝑉𝑖 ) = σ(B2 + W11V1 + W21V2 + W31V3)
= σ(0.2 + 0 + 0 + 0.5x1)
= σ(0.7)
1
= 1+𝑒 −1(0.7) = 0.6681

Update v1 :
P(V1=1| H1) = σ (A1 + ∑2𝑗=1 𝑊1𝑗 𝐻1𝑗 ) = σ(A1 + W11H11 + W12H12)
= σ(0.2 + 0.5x0.7685 + 0.0)
= σ(0.58425)
1
= 1+𝑒 −1(0.58425) = 0.6420

Update v2 :
P(V2=1| H1) = σ (A2 + ∑2𝑗=1 𝑊2𝑗 𝐻1𝑗 ) = σ(A2 + W21H11 + W22H12)
= σ(0.2 + 0.5x0.7685 + 0.0)
= σ(0.58425)
1
= 1+𝑒 −1(0.58425) = 0.6420

Update v3 :
P(V1=3| H1) = σ (A3 + ∑2𝑗=1 𝑊3𝑗 𝐻1𝑗 ) = σ(A3 + W32H12)
= σ (0.2 + 0.5x0.6681)
= σ(0.33405)
1
= 1+𝑒 −1(0.33405) = 0.6304

Update W
Updt(W11) = W11 + 𝜂(P(H11=1| V) - P(V1=1| H1))
= 0.5 + 0.5(0.7685 – 0.6420)
= 0.5632

Updt(W12) = W12 + 𝜂(P(H12=1| V) - P(V1=1| H1))


= 0.5 + 0.5(0.6681 – 0.6420)
= 0.513

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 45 dari 55

News Hoax Detector using NLP and Deep Learning


Updt(W31) = W31 + 𝜂(P(H11=1| V) - P(V1=3| H1))
= 0.5 + 0.5(0.7685– 0.6304)
= 0.56905
Updt(W21) = W21 + 𝜂(P(H11=1| V) - P(V1=2| H1))
= 0.5 + 0.5(0. 7685– 0.6420)
= 0.5632
Updt(W22) = W22 + 𝜂(P(H12=1| V) - P(V1=2| H1))
= 0.5 + 0.5(0.6681 – 0.6420)
= 0.513
Updt(W32) = W32 + 𝜂(P(H12=1| V) - P(V1=1| H1))
= 0.5 + 0.5(0.6681 – 0.6304)
= 0.51885
Update weigh pada iterasi pertama adalah :
H1 H2
V1 W11 = 0.5632 W12 = 0.513
V2 W21 = 0.5632 W22 = 0.513
V3 W31 = 0.56905 W32 = 0.51885

P(H11=1| V) = 0.7685
P(H12=1| V) = 0.6681
Hasil ini merupakan hasil pada saat iterasi pertama pada tahapan training RBM,
proses ini akan di lakukan berulang pada iterasi tertentu untuk mendapatkan cost
minimum. Pada setiap iterasi akan melakukan proses yang sama dengan iterasi
pertama dalam melakukan update terhadap weight ataupun bias.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 46 dari 55

News Hoax Detector using NLP and Deep Learning


3.3.1.2 Fine-Tunning
Pada tahapan ini, algoritma Backpropagation sebagai salah satu stochastic gradient
descent akan digunakan untu menyempurnakan semua bobot setiap RBM pada masa
pre-training. Algoritma Backpropagation akan melakukan peng-update-an pada
weight(wij) menggunakan aturan delta berikut ini :
∆𝑤𝑖𝑗 (𝑛) = 𝜂𝛿𝑗 (𝑛)𝑓𝑖 (𝑛)
dimana :
𝜂 = learning rate
δj(n) = local gradient untuk output layer
f(n) = input signal pada nuron j

Untuk melakukan peng-update-an pada weight dengan penambahan sebuah


momentum untuk menaikan tingkat learning dapat menggunakan fungsi berikut :
∆𝑤𝑖𝑗 (𝑛) = 𝛼∆𝑤𝑖𝑗 (𝑛 − 1) + 𝜂𝛿𝑗 (𝑛)𝑓𝑖 (𝑛)
dimana :
α = konstanta momentum
∆wij(n-1) = nilai update weight sebelumya

3.4 Pre-Processing
Pada tahap pre-processing data, modul-modul NLP yang akan digunakan dalam tahap
preprocessing ini adalah casefolding dan tokenization, dan word embedding
 Case folding

Case folding berfungsi untuk mengubah semua huruf dalam sebuah teks menjadi
dalam bentuk lower case.
 Tokenization

Tokenization merupakan modul NLP yang berfungsi untuk membagi teks menjadi
token. Token dalam hal ini adalah sebuah token. Maka tokenization akan membagi
teks menjadi sebuah array token. Dalam Bahasa Indonesia, terdapat beberapa kata
yang terdiri lebih dari satu token atau yang disebut dengan kata majemuk. Sebagai

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 47 dari 55

News Hoax Detector using NLP and Deep Learning


contoh, pada kalimat “Korban kebakaran segera dilarikan ke rumah sakit.”,
berdasarkan kalimat tersebut maka hasil tokenisasinya:
Korban : 1 token
Kebakaran : 1 token
Segera : 1 token
Dilarikan : 1 token
Ke : 1 token
Rumah sakit :2 token
 Lemmatization

Modul ini berfungsi untuk malakukan lemmatisasi pada input kata, dimana output
yang dihasilkan adalah bentuk dasar dari sebuah kata beserta dengan imbuhannya.
Sebagai contoh, kata “kebaikannyalah”, maka output yang dihasilkan adalah :

baik : bentuk dasar

ke : prefix

nya : suffix

lah : particle

 Word Embedding (Word2Vec)

Word embeddings adalah teknik preprocessing data yang mengacu pada pada
representasi vektor kata-kata untuk menentukan kemiripan dari setiap kata
berdasarkan persamaan kosinus dari representasi vektor yang sesuai. Kemiripan dari
setiap kata akan direpresentasikan menjadi angka yang menggambarkan jarak
kemiripan dari tiap kata. Beberapa metode embeddings telah di gunakan sebelumnya
seperti skip-gram, GloVe, dan PCA. Untuk peneilitan ini, penulis menggunakan
metode skip-gram yang terus menerus yaitu menggunakan word2vec yang merupakan
metode pembelajaran untuk mepresentasikan kata. Word2vec merupakan salah satu
dari neural network. Metode skip-gram akan memaksimalkan probabilitas jarak atau
hubungan antara kata yang berdekatan sehingga kemiripan dari setiap kata akan dapat
ditentukan.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 48 dari 55

News Hoax Detector using NLP and Deep Learning


3.5 Experiment
Penulis melakukan percobaan menggunakan algoritma Deep Belief Network(DBN)
untuk melakukan klasifikasi sederhana menggunakan digit dataset yang diperoleh dari
library sklearn tepatnya menggunakan sklearn.datasets.load_digits. Profil data set yang
diperoleh sebagai berikut :

Classes 10
Sample per class ~180
Sample total 1797
Features Integers 0-16

Dataset tersebut merupakan representasikan gambar angka dimulai dari 0 hingga 9.


Dataset telah diolah sebelumnya sehingga tidak memerlukan preprocessing data
sebelum digunakan. Percobaan menggunakan algoritma DBN yang dilakukan
merupakan percobaan untuk membedakan gambar dari setiap angka yang diberikan.
Dataset akan di split menjadi data training dan data test. Pembagian data training dan
data test adalah 80 % data training dan 20% data test. Berdasarkan profil dari dataset
tersebut, maka data yang digunakan pada data training dan data test adalah
Data training : (80 x 1797) / 100 = 1437.6 ≈ 1438
Data test : (20 x 1797) / 100 = 359.4 ≈ 359

Pada percobaan menggunakan algoritma Deep Belief Network, niali dari setiap
parameter yang digunakan adalaha :
Epoch : 20
Iterasi Backpropagation : 100
Batch size : 32
Activation Function : relu
Learning rate : 0.05
Stack RBM : 2 Stack RBM ( dengan hidden_layers_structure
= [256, 256])

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 49 dari 55

News Hoax Detector using NLP and Deep Learning


nilai akurasi dari model yang telah di buat adalah : 0.991667.
Berdasarkan nilai akurasi dari percobaan algoritma Deep Belief Network, diharapkan
dapat menghasilkan nilai akurasi yang baik pada penggunaan dataset berita yang akan
digunakan.
3.6 Design
Pada bab ini akan dijelaskan tentang desain dari hoax analyzer yang terdiri dari Design
Hoax Detector, Desain Text Preprocessing, Tahapan Kerja Algoritma DBN

 Design Hoax Detector

Splitting Data
Start Data Collecting Preprocessing
Dataset Training

Data Non- Algorithm


Data Hoax Data Test
Hoax

Model

Hoax

End
Classification

Non-Hoax

Gambar 6 Design keseluruhan sistem Hoax Detector

Pada gambar diatas menunujukkan design pengklasifikasin hoax yang akan dilakukan.
Pada langkah pertama hal yang dilakukan adalah mengumpulkan dataset yang terdiri
dari dataset hoax dan dataset non-hoax. Setelah dataset telah terkumpul, maka
langkah selanjutnya adalah membagi dataset menjadi data training dan data test.
Pada data training dan data test akan dilakukan pre-processing data, output dari
preprocessing data akan menjadi input pada algoritma yang digunakan yaitu
algoritma Deep Belief Network. Algoritma akan menghasilkan model . Kemudian
data yang di input akan diklasifikasikan menjadi hoat atau non-hoax.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 50 dari 55

News Hoax Detector using NLP and Deep Learning


 Desain Text Preprocessing

Start

Dataset Case Folding Tokenization Lemmatization Word Embedding

End

Gambar 7 Design Text Preprocessing

Pada gambar diatas menunjukkan langkah-langkah yang dilakukan pada tahap


preprocessing data. Pada langkah pertama, akan dilakukan case folding pada dataset.
Case folding bertujuan untuk merubah seluruh teks ke dalam bentuk lowercase.
Kemudian langkah selanjutnya adalah tokenisasi. Tokenisasi adalah modul NLP yang
berfungsi untuk membagi teks menjadi token-token atau kata. Kemudian, langkah
selanjutnya adalah lemmatization. Lemmatization berfungsi untuk mengambil bentuk
dasar dari sebuah kata dan kemudian memberikan output berupa bentuk dasar dari
sebuah data beserta dengan imbuhannya. Dan tahap yang terakhir pada preprocessing
adalah word embedding. Word embedding berfungsi untuk menhitung jarak antar
kata.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 51 dari 55

News Hoax Detector using NLP and Deep Learning


 Tahapan Kerja Algoritma DBN

Start
Label

Backpropagati
Input RBM 1 RBM 2 RBM 3 Output
on

End

Gambar 8 Tahapan kerja Algoritma DBN

Pada tahapan algoritma, input yang telah berupa data numerik dimana data tersebut
merupakan hasil data preprocessing dari dataset hoax dan non-hoax akan masuk ke dalam
RBM pertama. Pada RBM pertama, hasil extrak fitur dari data akan menjadi data inputan
bagi RBM kedua. Proses ini akan berulang hingga pada RBM terakhir. Setelah melalui RBM
pertama, proses akan masuk pada tahap fine-tuning dimana algoritma yang digunakan adalah
Backpropagation. Backpropagation merupakan salah satu algortima gradien-descent yang
berfungsi untuk melakukan update terhadapn setiap bobot pada variabel network yang telah
terbentuk. Proses fine-tuning akan memproses atau melakukan update terhadap wight hingga
bias pada setiap RBM mulai dari RBM pertama hingga terakhir. Setealah fine-tunning di
jalankan dengan beberapa iterasi, proses akan menghasilkan output dimana akan diberikan
label untuk menentukan klasifikasi dari data yang di proses.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 52 dari 55

News Hoax Detector using NLP and Deep Learning


Referensi

[1] A. Ishak, Y. Chen and S.-P. Yong, "Distance-based Hoax Detection System,"
International Conference on Computer & Information Science (ICCIS), pp. 215-220,
2012.
[2] P. Pourghomi, A. A. Halimeh and F. Safieddine, "Right-click Authenticate adoption:
The impact of authenticating social media postings on information quality,"
Information and Digital Technologies (IDT), 2017.
[3] M. Vuković, K. Pripužić and H. Belani, "An Intelligent Automatic Hoax Detection
System".
[4] Z. Jin, J. C. and Y.-G. J. Z. , "News Credibility Evaluation on Microblog with a,"
IEEE International Conference on Data Mining, pp. 230-239, 2014.
[5] Y. Chuan-long, Zhu Yue-fei, F. Jin-long and H. Xin-zheng, " Deep Learning
Approach for Intrusion," IEEE, 2017.
[6] A. i. Purwariant, A. Andhika and A. l. F. F. Wicaksono, "InaNLP: Indonesia Natural
Language Processing," IEEE, 2016.
[7] H. Allcott and M. Gentzkow, "Social Media and Fake News in the 2016," Journal of
Economic Perspectives, vol. 31, pp. 211-236, 2017.
[8] W. Yuntian, "Based on Machine Learning of Data Mining to Further Explore,"
International Conference on Computer Science and Information Processing (CSIP),
pp. 1235-1238, 2012.
[9] R. Bhardwaj and A. R. i. Nambiar, "A Study of Machine Learning in Healthcare,"
IEEE, pp. 236-241, 2017 .
[10] R. Sathya and A. Abraham, "Comparison of Supervised and Unsupervised Learning
Algorithms for Pattern Classification," (IJARAI) International Journal of Advanced
Research in Artificial Intelligence, vol. II, pp. 34-38, 2013.
[11] K.-L. Du and M. N. S. Swamy, "Fundamentals of Machine Learning," in Neural
Networks and Statistical Learning, London, Springer-Verlag , 2104, pp. 15-63.
[12] L. Deng and D. Yu, Deep Learning, Foundations and Trends, 2014.
[13] V. Perez-Rosas, B. Kleinberg, A. Lefevre and R. Mihalcea, "Automatic Detection of
Fake News," 2017.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 53 dari 55

News Hoax Detector using NLP and Deep Learning


[14] N. J. Conroy, V. L. Rubin and Y. Chen, "Automatic Deception Detection: Methods
for Finding Fake," in ASIST, St.Louis, 2015.
[15] V. L. Rubin, Y. Chen and N. J. Conroy, "Deception Detection for News: Three
Types of Fakes," in ASIST, St.Louis, 2015.
[16] Y. Li, X. Feng, S. Zhang and Y. Li, "Detecting Fake Reviews Utilizing Semantic and
Emotion Model," International Conference on Information Science and Control
Engineering, pp. 317-320, 2016.
[17] "What in Machine Learning?," MathWorks, [Online]. Available:
https://ch.mathworks.com/discovery/machine-learning.html. [Accessed 20 11 2017].
[18] A. H. Al-Fatlawi, M. H. Jabardi and S. H. Ling, "Efficient Diagnosis System for
Parkinson's Disease," IEEE Congress on Evolutionary Computation (CEC), pp.
1324-1330, 2016.
[19] Y. Hua, J. Guo and H. Zhao, "Deep Belief Networks and Deep Learning,"
International Conference on Intelligent Computing and Internet of Things (ICIT), pp.
1-4, 2015.
[20] G. Zhao, C. Zhang and L. Zheng, "Intrusion Detection using Deep Belief Network
and," IEEE International Conference on Computational Science and Engineering
(CSE) and IEEE International Conference, pp. 639-642, 2017.
[21] R. Salakhutdinov, "Learning Deep Generative," pp. 362-385, 2015.
[22] Y.-J. Hu, Z.-H. Ling and I. Member, "DBN-based Spectral Feature Representation
for Statistical Parametric Speech Synthesis," JOURNAL OF LATEX CLASS FILES,
vol. II, pp. 1-14, 2012.
[23] G. Neha, "Artificial Neural Network," Network and Complex Systems, vol. III, pp.
24-28, 2013.
[24] Y. Yu, S. Wang and L. Zhang, "Stock Price Forecasting Based on BP Neural
Network Model of Network Public," International Conference on Image, Vision and
Computing , pp. 1058-1062, 2017.
[25] A. Fischer and C. Igel, "Training restricted Boltzmann machines: An introduction,"
Elsevier , pp. 25-39, 2014.
[26] K. Ueyoshi, T. Asai and M. Motomura, "Scalable and Highly Parallel Architecture
for Restricted Boltzmann Machines," Nonlinear Circuits Communications and Signal

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 54 dari 55

News Hoax Detector using NLP and Deep Learning


Processing , pp. 369-372, 2015.
[27] S. d. S. Sirisuriya, "A Comparative Study on Web Scraping," International Research
Conference, pp. 135-140, 2015.
[28] Y. Andrian and E. Ningsih, "PREDIKSI CURAH HUJAN DI KOTA MEDAN
MENGGUNAKAN METODE BACKPROPAGATION NEURAL NETWORK," pp.
184-189, 2014.
[29] M. A. Salama, A. Ella and A. A. Fahmy2, "Deep Belief Network for Clustering and
Classification of a Continuous Data," IEEE, pp. 473-477, 2011.
[30] A. Trimulya, Syaifurrahman and F. Agus, "IMPLEMENTASI JARINGAN
SYARAF TIRUAN METODE BACKPROPAGATION UNTUK MEMPREDIKSI
HARGA SAHAM," Jurnal Coding, vol. III, pp. 66-75, 2015.
[31] Q. Yang, H. Wang, T. Li and Y. Yang, "Deep Belief Networks Oriented Clustering,"
IEEE, pp. 58-65, 2015.
[32] M. M. Lau and K. H. Lim, "Investigation of Activation Functions in Deep Belief
Network," IEEE, pp. 201-206, 2017.

Institut Teknologi Del Tugas Akhir Sarjana, Hlmn. 55 dari 55

News Hoax Detector using NLP and Deep Learning

Anda mungkin juga menyukai