Tugas Akhir
Oleh :
Table 1 Situs Berita Terpopuler di Indonesia versi Alexa tahun 2015-2018 ............................................................... 27
Table 2 Variabel-variabel pada Dataset yang digunakan pada Hoax detector ............................................................. 28
Table 3 Sample Dataset ............................................................................................................................................... 44
Media sosial merupakan media yang memiliki konten berita yang sangat banyak sehingga
media sosial menjadi media yang sering digunakan oleh manusia untuk mendapatkan
informasi berita sehari-hari. Dengan banyaknya berita yang terdapat pada media sosial
dimana berita faktual bercampur dengan berita hoax membuat pembacanya bingung untuk
menentukan kebenaran dari sebuah berita[2]. Hal ini menyebabkan penyebaran hoax
semakin berkembang dan memberikan dampak yang negatif dalam kehidupan manusia. Di
Indonesia salah satu kasus terkait penyebaran berita hoax adalah sindikat Saracen.,
penyebaran berita hoax yang mengandung SARA mengancam terjadinya perpecahan
diantara masyarakat Inonesia. Pembangunan sebuah sistem news hoax detector yang dapat
mendeteksi keakuratan dari sebuah berita merupakan salah satu solusi untuk mengurangi
penyebaran hoax.
Penelitian terkait hoax detector telah banyak dilakukan. Pada penelitian [4], untuk
mengatasi permasalahan yang ditimbulkan oleh hoax, maka peneliti membangun sebuah
sistem untuk mendeteksi keakuratan dari sebuah berita dengan menggunakan model
hierarchial propagation, dimana untuk mendapatkan penjelasan yang lebih detail tentang
aspek dari sebuah berita maka dilakukan pendeteksian terhadap sub-event dari berita
Pada saat ini, algoritma deep learning yang merupakan cabang dari machine learning
adalah teknologi yang sedang popular yang sedang banyak digunakan. Penelitian
menunjukkan bahwa penggunaan algoritma deep learning lebih unggul dibandingkan
dengan metode tradisional[5]. Pada machine learning, data yang akan diproses adalah
suatu hal yang sangat penting. Maka pada tahap preprocessing, untuk dataset yang berisi
text menggunakan NLP merupakan salah satu solusi untuk mengolah data sebelum data
tersebut diolah dengan menggunakan machine learning. Penelitian yang dilakukan pada
[6] merupakan sebuah penelitian yang membahas tentang toolkit NLP untuk text formal
dan text media sosial dalam Bahasa Indonesia yang disebut InaNLP. Pada penelitian
Pada penelitian ini, peneliti mengusulkan untuk melakukan penelitian tentang news hoax
detector yang akan digunakan untuk mendeteksi berita hoax Bahasa Indonesia dengan
menggunakan Natural Language Processing (NLP) dalam tahap pre-processing data. Data
yang telah diolah dengan menggunakan NLP akan menjadi data input pada algoritma yang
digunakan untuk mengklasifikasikan berita yaitu Deep Belief Network (DBN) yang
merupakan salah satu algoritma yang menerapkan konsep deep learning. Pada algoritma
DBN terdapat beberapa layer yaitu input layer, hidden layer, dan output layer dimana
layer- layer pada DBN merupakan kumpulan dari Restricted Bolzmann Machine (RBM).
Pada penelitian ini, penulis menggunakan 2 jenis dataset yaitu dataset yang berisi berita
hoax dan dataset yang berisi berita non-hoax.
1.2. Tujuan
Melakukan research tentang penerapan salah satu metode Deep Learning yaitu Deep
Belief Network dalam mendeteksi kebenaran dari sebuah berita dengan menggunakan
Natural Language Processing pada tahap pre-processing data.
1.3. Lingkup
Yang akan dibahas dalam tugas akhir ini adalah:
1. Dataset hoax dan non-hoax yang akan digunakan pada penelitian ini adalah adalah
berita yang dikumpulkan dari beberapa situs berita yang ada di Indonesia dengan
menggunakan teknik scraping.
2. Pada penelitian ini, Domain berita yang digunakan pada research ini mencakup 5
domain yaitu sport, kesehatan, politik, hiburan, dan teknologi.
Berdasarkan hasil review dan penelitian pada [15] dinyatakan bahwa untuk dapat
mendeteksi fake news maka sebuah data R&D seharusnya memenuhi 9 kondisi yaitu,
ketersediaan berita yang benar dan berita yang menipu, adanya aksesibilitas format teks
digital, adanya verifikasi “kebenaran dasar”, memiliki variasi panjang teks, memiliki
variasi penulisan, jangka waktu yang telah ditentukan, cara penyampaian berita, hal
pragmatis (meliputi biaya copy-right, ketersediaan publik, kemudahan dalam
memperoleh berita, kesesuaian antara volume data, tingkat pengungkapan dan privasi
penulis), serta bahasa dan budaya.
2.1.1. Hoaxes
Hoax merupakan pernyataan yang tidak benar dimana pernyataan tersebut digunakan
untuk menipu atau mengubah persepsi dan pandangan pembaca dengan menyatakan
pernyataan tersebut sebagai sebuah pernyataan yang benar [1]. Hoax merupakan jenis
fabrikasi atau pemalsuan berita yang disengaja pada media sosial yang berupaya untuk
menipu pembaca [15]. Jika seseorang tidak hati-hati terhadap penyebabaran hoax atau
terpengaruh oleh berita hoax, maka seseorang tersebut dapat membahayakan diri sendiri
Pendekatan utama pada machine learning dibagi menjadi supervised learning dan
unsupervised learning. Sekitar 70 % machine learning adalah supervised learning. Dan
mesin yang unsupervised learning adalah sekitar 10-20%. Teknologi lain yang juga
digunakan dalam machine learning adalah semi-supervised dan reinforcement
learning.[9]
dimana N adalah jumlah pasangan pola dari kumpulan sampel data, yp merupakan
bagian output dari pasangan pola yang ke p dan ˆyp merupakan output jaringan yang
sesuai dengan pasangan pola p.
Supervised learning menggunakan teknik klasifikasi dan regresi untuk
mengembangkan model prediktif. Model klasifikasi bertujuan melakukan
pengklasifikasian terhadap data masukan ke kategori yang telah ditentukan sedangkan
model regresi bertujuan untuk memprediksi respon yang terus-menerus seperti
perubahan suhu[17].
Unsupervised Learning
Unsupervised learning merujuk pada kemampuan mesin dalam mengolah informasi
yang telah disediakan untuk menemukan solusi yang sesuai tanpa adanya sinyal
error[10]. Unsupervised learning tidak melibatkan nilai target dalam prosesnya
pembelajarannya. Unsupervised learning didasarkan pada korelasi antara data input-
an dan digunakan untuk menemukan pola penting dari data tersebut tanpa bantuan
Gambar 1 menunjukkan bagan teknik machine learning yang meliputi supervised dan
unsupervised learning.
Aliran perhitungan RBM tediri dari dua tahapan yang dilakukan secara berulang. Pada
tahap ertama, data masuk ke visible layer dan nilai bobot untuk hidden layer dihitung
dengan menggunakan nilai visible layer sebagai input-an. Pada titik ini, semua lapisan
terlihat dan kombinasi lapisan hidden layer dihitung. Pada tahap kedua, nilai pada visible
layer dihitung menggunakan hasil sampling dari hidden layer. Dengan melakukan
perulangan ini, akan dimungkinkan dapat memberikan pembaharuan pada algoritma.
Penggunaan teknik ini dapat diterapkan pada DBN yang merupakan susunan dari RBM,
dimana data input-an untuk RBM kedua berasal dari output layer RBM pertama, dan
seterusnya hingga ke semua RBM pada layer terakhir. Gambar 4 merupakan gambar
yang menunjukkan struktur dari algoritma RBM.
2.6. Kesimpulan
Berdasarkan penjelasan metode deep learning, dapat disimpulkan bahwa deep learning
memiliki komputasi yang lebih baik daripada neural network di karenakan pada deep
learning menggunakan layer lebih banyak dibandingkan dengan neural network. Deep
Belief Network (DBN) merupakan salah satu algoritma deep learning dimana layer pada
algoritma DBN merupakan susunan dari algoritma Restricted Boltzman Machine
(RBM). Algoritma RBM memiliki ekstraksi fitur yang baik karena pada RBM setiap
layer saling independen dalam menentukan nilai atau bobot. BDN dibantu oleh back
propagation pada tahap fine-tuning dalam proses revise di setiap parameter yang dimiliki
oleh setiap layer. Parameter tersebut adalah weight dan bias. Penelitian ini menggunakan
web scraping dalam hal membuat sebuah dataset yang berasal dari website berita
terpercaya.
Pada bab ini akan dijelaskan mengenai domain analisis, data analisis, algoritma yang
digunakan, serta experiment yang dilakukan dalam kajian Hoax detector.
Dalam penelitian ini, peneliti menggunakan 220 artikel berbahasa Indonesia yang terdiri
dari 22 topik. Dari 220 artikel yang digunakan 89 artikel merupakan artikel yang berisi
berita hoax dan 131 artikel adalah artikel yang berisi berita bukan hoax. Tahapan-tahapan
dari klasifikasi teks yang dilakukan dalam penelitian ini adalah:
Data Pre-processing
Tahapan-tahapan yang dilakukan dalam pre-processing data adalah case folding,
tokenisasi, penghapusan stopword, dan stemming.
Ekstraksi Fitur Berita Hoax
Pada tahap pengujian, seluruh klasifikasi pengujian yang dilakukan meliputi pengujian
pre-processing yaitu stemming dan stopward elimination dengan 3 jenis classifier yaitu
Naïve Bayes, Support Vector Machine(SVM) dan Algoritma C4.5. Dan secara umum
terdapat 2 jenis klasifikasi utama yaitu klasifikasi dengan seleksi fitur dan klasifikasi
dengan tanpa seleksi fitur. Klasifikasi dengan seleksi fitur dibagagi menjadi seleksi
dengan fitur tunggal dan klasifikasi dengan seleksi fitur menggunakan intersection dan
union. Maka hasil dari eksperimen yang dilakukan diperoleh kesimpulan yang
menyatakan bahwa hasil pengujian terbaik adalah dengan menngunakan algoritma Naïve
Bayes dengan fitur unigram dan seleksi fitur menggunakan operasi union antara
information gain dan mutual information.
2. Hoax Analyzer
Hoax analyzer merupakan sebuah aplikasi web yang di bangun oleh tim CIMOL ITB yang
terdiri dari Feryandi Nurdiantoro, Tifani Warnita, dan Adinda Budi Kusuma Putra. Pada
system hoax analyzer, algoritma yang digunakan algoritma SVM , multilayer processing
dan pendekatan rule based. Pada tahap preprocessing, hoax analyzer menggunakan NLP
dimana modul-modul NLP yang digunakan adalah Stemming dan Stopword. Dari data
Keakuratan berita yang disediakan oleh sebuah situs berita dapat dilihat dari jumlah
pengguna situs berita tersebut. Jumlah pembaca yang mengunjungi sebuah situs berita
menununjukkan kualitas dari sebuah situs berita. Semakin besar jumlah pengunjung dari
sebuah situs berita maka semakin bagus kualitas situs berita tersebut. Pada penelitian ini
penulis menyadari bahwa membuktikan bahwa sebuah berita adalah hoax atau bukan
merupakan suatu hal yang sangat sulit. Namun dalam penelitian ini, parameter yang
digunakan untuk menentukan sebuah berita adalah hoax atau bukan adalah berdasarkan
tingkat kepercayaan pembaca terhadap berita tersebut. Semakin banyak pembaca yang
percaya terhadap sebuah berita, maka semakin besar persentasi bahwa berita tersebut
adalah benar.
Dataset Non-hoax
Kepopuleran dari sebuah situs berita dapat ditunjukkan dari jumlah pengunjung atau
pembaca yang mempercayai berita-berita yang disediakan oleh situs berita tersebut. Pada
Berdasarkan tabel diatas, penulis menentukan 5 situs berita yang dianggap sebagai
trusted media yaitu detik.com, kompas.com, liputan6.com, merdeka.com, dan
Tribunnews.com. Kelima situs berita ini merupakan situs berita yang selalu masuk dalam
10 situs berita terpopuler di Indonesia pada tahun 2015-2018.
Dataset Hoax
Salah satu situs berita di Indonesia yang telah terbukti menyebarkan berita yang tidak
akurat berdasarkan hasil penyelidikan yang dilakukan oleh pemerintah adalah situs berita
Saracennews.com. Saracennews.com merupakan salah satu situs berita yang
menyediakan berita hoax dan mengandung unsur SARA.
Pada penelitian ini, pengumpulan dataset yang berisi berita hoax dilakukan dengan
mengumpulkan berita yang terdapat pada situs berita Saracennews.com, kemudian
penulis akan menguji persentase berita yang terdapat pada situs berita Saracennews.com
Dalam menentukan bahwa sebuah berita adalah hoax atau bukan terdapat beberapa hal
yang diperhatikan yaitu judul, tanggal berita, situs berita yang menyediakan berita, dan
isi dari berita tersebut. Hal-hal inilah yang digunakan penulis sebagai varibel pada
dataset yang akan digunakan.
Variabel-variabel yang terdapat pada dataset yang digunakan dalam penelitian ini
ditunjukkan pada tabel 1 di bawah ini.
Table 2 Variabel-variabel pada Dataset yang digunakan pada Hoax detector
Pengumpulan berita dari situs berita dilakukan dengan menggunakan teknik scraping.
Berikut ini merupakan kode yang digunakan dalam mengumpulkan data dari situs berita
dengan menggunakan teknik scrapping.
Keterangan :
Create-shoup(url)
Fungsi untuk membentuk sebuah object bentukan dari beutifulshoup yang melakukan
parse page menjadi bentuk html dimana page yang di parse berasal dari page yang di
akses menggunakan library urllib tepatnya menggunakan fungsi
urllib.request.openurl(url).
getLink(link)
Fungsi untuk mendapatkan link dari list berita yang ada pada link index berita yang
disediakan. Setiap link berita akan di simpan pada sebuah file dalam bentuk ’.txt’ . Pada
fungsi ini akan memanggil fungsi create-shoup(url) yang telah didefenisikan sebelumnya
untuk mendapatkan object beautifulsoup dengan page yang telah parse ke bentuk html .
Pada fungsi ini beautifulsoup akan mencari setiap tag html ‘a’ dari object tersebut untuk
Fungsi untuk melakukan akses ke setiap data link yang berada pada file data_link.txt
untuk mendapatkan data utama yaitu author berita, title berita, isi berita, serta tanggal
dari berita tersebut . Pada fungsi ini akan mencari tag html ‘h1’ untuk mendapatkan title
berita, ‘class:date’ untuk tanggal berita, ‘class:author’ untuk mendapatkan author berita
dan setiap tag html ‘p’ untuk content dari berita tersebut.
savePublisher(penulis)
Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Publisher.csv. Pada fungsi ini akan membentuk file
Dataset_Berita_Publisher.csv menggunakan library OS. Setelah file terbentuk, data
author berita akan di tulis pada file Dataset_Berita_Publisher.csv dengan menggunakan
fungsi write.
saveDate(tanggal)
Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Date.csv. Pada fungsi ini akan membentuk s menggunakan library OS.
Setelah file terbentuk, data tanggal berita akan di masukan pada file
Dataset_Berita_Date.csv dengan menggunakan fungsi write.
saveBerita(berita)
Fungsi untuk menyimpan nama author dari setiap berita ke dalam file
Dataset_Berita_Content.csv Pada fungsi ini akan membentuk file
Dataset_Berita_Content.csv menggunakan library OS. Setelah file terbentuk, data isi
berita akan di tulis pada file Dataset_Berita_Content.csv dengan menggunakan fungsi
write.
saveJudulBerita()
Fungsi untuk memanggil setiap fungsi yang telah di defenisikan sebelumnya untuk
memulai scraping pada alamat website yang di inginkan.
Pada tabel di bawah ini menunjukkan data yang telah dikumpulkan dari web berita online
dengan menggunakan teknik scrapping yang kemudian di olah ke dalam bentuk tabel.
Data set yang pertama SW-2013 merupakan dataset yang berisi topik berita yang
tidak berkaitan terdiri dari 18 berita palsu dan dan 171 berita factual. Dan dataset
3.3 Algoritma
Pada subbab ini akan dilakukan analisis terhadap algoritma yang digunakan penulis
dalam kajian ini yaitu algoritma Deep Belief Network(DBN). Selain algoritma yang
digunakan, pada subbab ini juga akan dilakukan analisis terhadap algoritma yang
pernah digunakan dalam penelitian terkait pendeteksian hoax.
Setiap layer yang terdapat dalam sebuah DBN merupakan RBM. Maka jumlah hidden
layer pada DBN ditentukan oleh oleh jumlah RBM yang digunakan. RBM memiliki 2
buah layer yaitu visible layer dan hidden layer. Output dari sebuah RBM akan
menjadi visible layer untuk RBM selanjutnya. Karena proses pembelajaran yang
dilakukan oleh RBM adalah unsupervised, maka algoritma Deep Belief Network
merupakan sebuah unsupervised learning sehingga hanya dapat bekerja tanpa
supervising. Hal yang dilakukan supaya Deep Belief Network dapat digunakan untuk
klasifikasi, maka pada DBN harus ditambahkan sebuah jaringan supervised learning
yaitu algortitma backpropagation. Jaringan supervised learning tersebut akan
melakukan klasifikasi berdasarkan fitur yang telah di ekstraksi oleh DBN..
Seperti yang disebutkan sebelumnya, DBN menggunakan metode greedy layer-wise pada
tahapan pretraining [32]. Prosedur pembelajaran greedy layer-wise memiliki tahapan
sebagai berikut:
1. RBM pertama dengan visible dan hidden layer (v, h1), akan di latih menggunakan
teknik pembelajaran Contrastive Divergence (CD) hingga seluruh parameter yang
dimiliki pada RBM pertama telah di tetapkan atau di-fixed kan.
2. Setelah setiap parameter dari RBM pertama telah di dapat, RBM kedua dengan
(h1,h2) dimana output dari RBM petama akan menjadi input pada RBM kedua.
Teknik ini akan di ulangi terhadap setiap stack RBM hingga RBM terakhir
mendapatkan nilai untuk setiap parameternya.
3. Setelah seluruh RBM telah melewati proses pembelajaran, output dari RBM terakhir
sebagai output dari tahapan pretraining akan memasuki tahapan fine-tuning
menggunakan algoritma Backpropagation. Tahapan fine-tunning merupakan tahapan
untuk melakukan update terhadap setiap parameter dari stack RBM yang ada pada
tahapan pretraining sebelumnya. Untuk melakukan update pada nilai weight maupun
nilai bias yang ada pada RBM, backpropagation sebagai algoritma gradient descent
yang akan menghitung nilai gradient dari hasil pretraining. Gradient hasil dari
algoritma ini akan menjadi patokan untuk melakukan update terhadap parameter
𝐸(𝑣, ℎ; 𝜃) = ∑ ∑ 𝑤𝑗𝑖 𝑣𝑖 − ∑ 𝑏𝑖 𝑣𝑖 − ∑ 𝑐𝑗 ℎ𝑗
𝑗=1 𝑖=1 𝑖 𝑗
dengan :
θ = {w,b,c} merupakan model untuk setiap parameter pada RBM
wji = weight antara visible unit i dan hidden unit j
bi = nilai bias untuk visible unit
cj = nilai bias untuk hidden unit
RBM memiliki teknik pembelajaran yang disebut dengan Constrastive Divergence
(CD). Constrastive Divergence merupakan algoritma training yang terdiri dari satu
tahapan dari gibbs sampling yang melakukan update terhadap hidden unit dan akan
melakukan update terhadap visible unit setelah hidden unit telah di update. Hal ini
bertujuan untuk mendapatkan nilai sample untuk mekonstruksi jaringan RBM
tersebut. Probabilitas marjinal untuk setiap hidden unit dan visible unit adalah :
1 −𝐸(𝑣,ℎ,𝜃)
𝑃(𝑣, ℎ) = 𝑒
𝑍
dimana Z= ∑𝑣,ℎ 𝑒 −𝐸(𝑣,ℎ,𝜃) adalah fungsi partisi dari seluruh pasangan visible dan
hidden unit yang mungkin.
Pada proses training menggunakan CD, distribusi untuk melakukan update terhadap
setiap parameter seperti hiden unit secara matematis adalah :
dengan vi adalah nilai sample pada visible unit yang akan di update dan 𝜎 adalah
fungsi aktifasi sigmoid.
Setelah visible unit dan hidden unit telah di update, makan wight antara node dan
visible unit akan di update menggunakan distribusi matematis berikut :
Pada contoh representasi DBN , menggunakan 3 buah Stacked RBM , dengan nilai
variable awal seperti dibawah ini :
B = bias pada hidden layer
A = Bias pada visible layer
η = 0.5
{v1=v2=v3 = 1} {v3 = 0}
{w11,w12, w21, w22, w31, w31 = 0.5}
{A1 = A2 = A3 = 0.2}
{B1= B2 = 0.2}
Update H11 :
P(H11=1| V) = σ(B1 + ∑3𝑖=1 𝑊𝑖1𝑉𝑖 ) = σ(B1 + W11V1 + W21V2 + W31V3)
= σ(0.2 + 0.5x1 + 0.5x1 + 0)
= σ(1.2)
1
= 1+𝑒 −1(1.2) = 0.7685
Update v1 :
P(V1=1| H1) = σ (A1 + ∑2𝑗=1 𝑊1𝑗 𝐻1𝑗 ) = σ(A1 + W11H11 + W12H12)
= σ(0.2 + 0.5x0.7685 + 0.0)
= σ(0.58425)
1
= 1+𝑒 −1(0.58425) = 0.6420
Update v2 :
P(V2=1| H1) = σ (A2 + ∑2𝑗=1 𝑊2𝑗 𝐻1𝑗 ) = σ(A2 + W21H11 + W22H12)
= σ(0.2 + 0.5x0.7685 + 0.0)
= σ(0.58425)
1
= 1+𝑒 −1(0.58425) = 0.6420
Update v3 :
P(V1=3| H1) = σ (A3 + ∑2𝑗=1 𝑊3𝑗 𝐻1𝑗 ) = σ(A3 + W32H12)
= σ (0.2 + 0.5x0.6681)
= σ(0.33405)
1
= 1+𝑒 −1(0.33405) = 0.6304
Update W
Updt(W11) = W11 + 𝜂(P(H11=1| V) - P(V1=1| H1))
= 0.5 + 0.5(0.7685 – 0.6420)
= 0.5632
P(H11=1| V) = 0.7685
P(H12=1| V) = 0.6681
Hasil ini merupakan hasil pada saat iterasi pertama pada tahapan training RBM,
proses ini akan di lakukan berulang pada iterasi tertentu untuk mendapatkan cost
minimum. Pada setiap iterasi akan melakukan proses yang sama dengan iterasi
pertama dalam melakukan update terhadap weight ataupun bias.
3.4 Pre-Processing
Pada tahap pre-processing data, modul-modul NLP yang akan digunakan dalam tahap
preprocessing ini adalah casefolding dan tokenization, dan word embedding
Case folding
Case folding berfungsi untuk mengubah semua huruf dalam sebuah teks menjadi
dalam bentuk lower case.
Tokenization
Tokenization merupakan modul NLP yang berfungsi untuk membagi teks menjadi
token. Token dalam hal ini adalah sebuah token. Maka tokenization akan membagi
teks menjadi sebuah array token. Dalam Bahasa Indonesia, terdapat beberapa kata
yang terdiri lebih dari satu token atau yang disebut dengan kata majemuk. Sebagai
Modul ini berfungsi untuk malakukan lemmatisasi pada input kata, dimana output
yang dihasilkan adalah bentuk dasar dari sebuah kata beserta dengan imbuhannya.
Sebagai contoh, kata “kebaikannyalah”, maka output yang dihasilkan adalah :
ke : prefix
nya : suffix
lah : particle
Word embeddings adalah teknik preprocessing data yang mengacu pada pada
representasi vektor kata-kata untuk menentukan kemiripan dari setiap kata
berdasarkan persamaan kosinus dari representasi vektor yang sesuai. Kemiripan dari
setiap kata akan direpresentasikan menjadi angka yang menggambarkan jarak
kemiripan dari tiap kata. Beberapa metode embeddings telah di gunakan sebelumnya
seperti skip-gram, GloVe, dan PCA. Untuk peneilitan ini, penulis menggunakan
metode skip-gram yang terus menerus yaitu menggunakan word2vec yang merupakan
metode pembelajaran untuk mepresentasikan kata. Word2vec merupakan salah satu
dari neural network. Metode skip-gram akan memaksimalkan probabilitas jarak atau
hubungan antara kata yang berdekatan sehingga kemiripan dari setiap kata akan dapat
ditentukan.
Classes 10
Sample per class ~180
Sample total 1797
Features Integers 0-16
Pada percobaan menggunakan algoritma Deep Belief Network, niali dari setiap
parameter yang digunakan adalaha :
Epoch : 20
Iterasi Backpropagation : 100
Batch size : 32
Activation Function : relu
Learning rate : 0.05
Stack RBM : 2 Stack RBM ( dengan hidden_layers_structure
= [256, 256])
Splitting Data
Start Data Collecting Preprocessing
Dataset Training
Model
Hoax
End
Classification
Non-Hoax
Pada gambar diatas menunujukkan design pengklasifikasin hoax yang akan dilakukan.
Pada langkah pertama hal yang dilakukan adalah mengumpulkan dataset yang terdiri
dari dataset hoax dan dataset non-hoax. Setelah dataset telah terkumpul, maka
langkah selanjutnya adalah membagi dataset menjadi data training dan data test.
Pada data training dan data test akan dilakukan pre-processing data, output dari
preprocessing data akan menjadi input pada algoritma yang digunakan yaitu
algoritma Deep Belief Network. Algoritma akan menghasilkan model . Kemudian
data yang di input akan diklasifikasikan menjadi hoat atau non-hoax.
Start
End
Start
Label
Backpropagati
Input RBM 1 RBM 2 RBM 3 Output
on
End
Pada tahapan algoritma, input yang telah berupa data numerik dimana data tersebut
merupakan hasil data preprocessing dari dataset hoax dan non-hoax akan masuk ke dalam
RBM pertama. Pada RBM pertama, hasil extrak fitur dari data akan menjadi data inputan
bagi RBM kedua. Proses ini akan berulang hingga pada RBM terakhir. Setelah melalui RBM
pertama, proses akan masuk pada tahap fine-tuning dimana algoritma yang digunakan adalah
Backpropagation. Backpropagation merupakan salah satu algortima gradien-descent yang
berfungsi untuk melakukan update terhadapn setiap bobot pada variabel network yang telah
terbentuk. Proses fine-tuning akan memproses atau melakukan update terhadap wight hingga
bias pada setiap RBM mulai dari RBM pertama hingga terakhir. Setealah fine-tunning di
jalankan dengan beberapa iterasi, proses akan menghasilkan output dimana akan diberikan
label untuk menentukan klasifikasi dari data yang di proses.
[1] A. Ishak, Y. Chen and S.-P. Yong, "Distance-based Hoax Detection System,"
International Conference on Computer & Information Science (ICCIS), pp. 215-220,
2012.
[2] P. Pourghomi, A. A. Halimeh and F. Safieddine, "Right-click Authenticate adoption:
The impact of authenticating social media postings on information quality,"
Information and Digital Technologies (IDT), 2017.
[3] M. Vuković, K. Pripužić and H. Belani, "An Intelligent Automatic Hoax Detection
System".
[4] Z. Jin, J. C. and Y.-G. J. Z. , "News Credibility Evaluation on Microblog with a,"
IEEE International Conference on Data Mining, pp. 230-239, 2014.
[5] Y. Chuan-long, Zhu Yue-fei, F. Jin-long and H. Xin-zheng, " Deep Learning
Approach for Intrusion," IEEE, 2017.
[6] A. i. Purwariant, A. Andhika and A. l. F. F. Wicaksono, "InaNLP: Indonesia Natural
Language Processing," IEEE, 2016.
[7] H. Allcott and M. Gentzkow, "Social Media and Fake News in the 2016," Journal of
Economic Perspectives, vol. 31, pp. 211-236, 2017.
[8] W. Yuntian, "Based on Machine Learning of Data Mining to Further Explore,"
International Conference on Computer Science and Information Processing (CSIP),
pp. 1235-1238, 2012.
[9] R. Bhardwaj and A. R. i. Nambiar, "A Study of Machine Learning in Healthcare,"
IEEE, pp. 236-241, 2017 .
[10] R. Sathya and A. Abraham, "Comparison of Supervised and Unsupervised Learning
Algorithms for Pattern Classification," (IJARAI) International Journal of Advanced
Research in Artificial Intelligence, vol. II, pp. 34-38, 2013.
[11] K.-L. Du and M. N. S. Swamy, "Fundamentals of Machine Learning," in Neural
Networks and Statistical Learning, London, Springer-Verlag , 2104, pp. 15-63.
[12] L. Deng and D. Yu, Deep Learning, Foundations and Trends, 2014.
[13] V. Perez-Rosas, B. Kleinberg, A. Lefevre and R. Mihalcea, "Automatic Detection of
Fake News," 2017.