Disusun Oleh:
1. Karimah
2. Silfa Kurnia Aditya
3. Syifa Tri Gardini
2017
KATA PENGANTAR
ii
7. Teman-teman seperjuangan serta seluruh pihak yang ikut membantu, baik
secara langsung maupun tidak langsung. Penulis hanya bisa berdoa, semoga
Allah membalas kebaikan-kebaikan mereka dengan setimpal. Amin.
Saran dan kritik yang membangun penulis harapkan dapat memberikan manfaat
bagi peningkatan penulis di masa yang akan datang. Semoga makalah ini kelak dapat
memberikan manfaat bagi penulis khususnya dan pembaca umumnya. Aamiin.
WassalammualaikumWr. Wb.
Penyusun
iii
DAFTAR ISI
iv
4.2. Saran ............................................................................................................. 18
v
BAB I
PENDAHULUAN
1.1. Latar Belakang
Sosial media adalah istilah yang tidak hanya mencakup berbagai platform
media baru, tetapi juga menyiratkan dimasukkannya sistem seperti FriendFeed,
Facebook, dan Twitter yang pada umumnya dianggap sebagai jejaring sosial
(Hopkins, 2008). Sosial media menjadi media komunikasi publik yang sudah tidak
asing lagi bagi umat manusia di seluruh dunia khususnya Indonesia. Salah satu
sosial media yang banyak dimanfaatkan masyarakat adalah Twitter. Selain untuk
bertukar informasi, Twitter juga memungkinkan pengguna untuk menuliskan pesan
atau tweets. Selain itu, kita dapat mengetahui topik yang sedang banyak dibicarakan
oleh pengguna Twitter. Pengguna Twitter hanya dapat mengirim dan membaca
pesan blog seperti pada umumnya dengan batas maksimal sejumlah 140 karakter,
pesan tersebut dikenal dengan tweet [1].
Penelitian ini memanfaatkan data Twitter yang terdiri dari data mentah dan
data bersih hasil preprocessing. Tweet yang digunakan berasal dari beberapa akun
BMKG yang memberikan info tentang bencana, cuaca, dan iklim di beberapa
wilayah di Pulau Jawa. Data tersebut kemudian dilakukan proses analis dan
ekstraksi data pada Twitter. Hal tersebut bertujuan untuk menentukan topik
permasalahan yang sedang diperbincangkan. Proses ekstraksi dan analisis
dilakukan melalui empat tahapan, yaitu: proses penarikan data (crawling),
penyimpanan (storing), analisis (analyzing), dan visualisasi (vizualizing) [2].
Selanjutnya dilakukan pemodelan topik dengan menggunakan teknik topic
modeling dan deep learning dengan metode Latent Dirichlet Allocation (LDA).
1
sosial budaya dan masih banyak lagi. Sebaliknya pemerintah bisa mendapatkan
timbal balik untuk mengetahui keinginan masyarakat dan meningkatkan kerjanya.
Namun, terdapat beberapa permasalahan seperti kesulitan untuk memahami makna
atau arti dari tweets yang dibuat, sehingga tidak mudah untuk menentukan sebuah
topik permasalahan yang sedang ramai diperbincangkan. Dengan melakukan topic
modeling diharapkan akan diperoleh informasi mengenai topik apa saja yang
diinformasikan oleh BMKG kepada masyarakat melalui Twitter.
1. Melakukan pemodelan topik pada data tweet BMKG untuk mengetahui topik-
topik terkait bencana, iklim, dan cuaca di Pulau Jawa. Topik yang diperoleh
diharapkan dapat menggambarkan permasalahan dan informasi penting terkait
BMKG yang sering terjadi di Pulau Jawa.
2. Menerapkan metode Latent Dirichlet Allocation (LDA) untuk melakukan
pemodelan topik pada tweet yang di-posting oleh akun Twitter BMKG.
3. Mengaplikasikan model Latent Dirichlet Allocation (LDA) untuk mendapatkan
topik permasalahan yang banyak diperbincangkan masyarakat di Twitter.
2
1.3. Manfaat Penelitian
1. Mendapatkan topik utama terkait bencana, cuaca, dan iklim di Pulau Jawa pada
data tweet BMKG.
2. Mengetahui cara untuk melakukan pemodelan topik dengan menerapkan
metode Latent Dirichlet Allocation (LDA) pada data tweet yang di-posting oleh
akun Twitter BMKG.
3. Membantu pemerintah pada khususnya dan kalangan lainnya untuk mengetahui
topik permasalahan yang sedang diperbincangkan.
BAB I PENDAHULUAN
Bab ini berisi latar belakang masalah, tujuan, manfaat, batasan masalah
yang digunakan dalam sistematika penulisan penelitian ini.
BAB II METODOLOGI
Bab ini berisi analisis metode data mining yang digunakan untuk
pemodelan topik menggunakan LDA (Latent Dirichlet Allocation),
3
diantaranya yaitu identifikasi masalah, metode LDA (Latent Dirichlet
Allocation, mempersiapkan data, menganalisis topic modeling.
BAB III DESAIN DAN IMPLEMENTASI
Berisi preprocessing, praprocess data seperti mengkonversi dokumen
ke dalam bentuk list, mengkonversi dokumen ke dalam bentuk
dictionary, mengkonversi dictionary dan list ke dalam matriks
dokumen, serta berisi pemodelan topik dengan Latent Dirichlet
Allocation yang terdiri dari eksperimen pemodelan topik dengan LDA,
dan pembentukan model topik dengan Latent Dirichlet Allocation.
BAB IV ANALISIS
Berisi hasil pembentukan model topik dengan Latent Dirichlet
Allocation.
BAB V KESIMPULAN
Bab ini berisi kesimpulan dari pembahasan pada bab sebelumnya dan
saran atas kekurangan dari hasil penelitian yang telah dilakukan.
4
BAB II
METODOLOGI PENELITIAN
Bab ini akan dijelaskan tentang metodologi penelitian yang akan digunakan
dalam penyusunan makalah Gemastik Data Mining. Adapun urutan dari pengerjaan
makalah Data mining dapat dilihat pada Gambar 1.
5
2.2. Metode LDA (Latent Dirichlet Allocation)
Tahap ini dilakukan dengan tujuan agar dapat memahami konsep serta metode
LDA sehingga sesuai dengan permasalahan yang telah diidentifikasi dan dapat
memecahkan solusi yang akan digunakan dalam makalah Data mining Gemastik ini.
Penelitian ini menggunakan metode LDA (Latent Dirichlet Allocation) untuk
melakukan pemodelan topik. LDA merupakan model yang digunakan untuk
menemukan struktur tematik pada sebuah dokumen . Tujuan dari LDA adalah untuk
mengambil data dari dokumen yang kemudian data tersebut digunakan untuk
menentukan topik. Topik tersebut adalah sebuah entitas yang mencoba untuk
mengukur interaksi antar kata [5]. Diasumsikan bahwa setiap kata di sebuah dokumen
telah diberi warna yang bersesuaian dengan definisinya, dan warna tersebut
merepresentasikan topik [5]. Berikut ini merupakan ilustrasi dari metode LDA.
6
yang disebut juga laten, di mana setiap topik dikarakateristikan oleh kata [4]. (Blei,
2012) merepresentasikan metode LDA sebagai model probabilistic secara visual seperti
pada berikut:
7
Sebanyak 19066 data yang telah didapat kemudian dilakukan proses preprocessing.
Berikut ini rincian data twitter dari 8 akun yang dijutunjukan pada Tabel 1.
Tabel 1. Rincian Data Twitter
3. @BMKG_semarang 3241
4. @BMKGBandung 761
5. @BMKG_bwi 3241
6. @stageof_bji 1450
7. @BMKG_juanda 3229
8. @InaTEWS 689
8
BAB III
DESAIN DAN IMPLEMENTASI
3.1. Preprocessing
Preprocessing dalam text mining bertujuan untuk mempersiapkan data sebelum
diproses pada langkah selanjutnya [7]. Selain itu preprocessing dilakukan untuk
menghindari data yang kurang sempurna, gangguan pada data, dan data-data yang
tidak konsisten (Hemalatha, dkk, 2012) [1]. Tahapan text preprocessing pada
penelitian ini diantaranya tokenization yaitu tahap pemotongan string input
berdasarkan kata yang menyusunnya (Nugroho, 2011), case folding yaitu
menyeragamkan bentuk huruf menjadi huruf besar atau huruf kecil [1], menghapus
tag HTML tags dan karakter Unicode, menghapus emoticon, menghapus karakter
non ASCII, menghapus karakter khusus Twitter (@username, RT, #hashtag,),
menghapus URL seperti (http://www.alamat.com), menghapus tanda baca,
menghapus angka, dan remove stopword yaitu menghilangkan kata yang tidak
memiliki pengaruh signifikan dalam kalimat tersebut. Berikut ini merupakan
gambaran proses pre-processing:
9
Berikut ini merupakan hasil preprocessing dari data tweets BMKG:
10
Tahap selanjutnya adalah tahap mengkonversi dokumen yang sudah
bersih ke dalam bentuk list, tujuan dari tahap ini adalah menyimpan data yang
sudah di preprocessing ke dalam bentuk list. list tersebut diberi nama texts.
11
dilakukan eksperimen untuk mencari nilai perplexity yang optimal. Nilai
perplexity yang semakin kecil menunjukkan model yang dibentuk semakin
baik.
1) Untuk menentukan jumlah iterasi, tahan ini adalah tahapan yang penting
ketika akan menentukan model. Untuk mendapatkan model yang terbaik,
jika jumlah iterasi terlalu sedikit maka hasil model yang diperoleh belum
stabil dan underfitting(bila model terlalu sederhana, maka error himpunan
training dan test errors), jika iterasi terlalu banyak maka model yang
diperoleh overfitting (bila model terlalu kompleks, seperti memiliki terlalu
banyak parameter). Untuk menentukan jumlah iterasi (passes).
2) Setelah menentukan jumlah iterasi, eksperimen dilakukan pada jumlah
topik. Tahap ini merupakan bagian penting untuk menghasilkan akurasi
model yang lebih baik. Penentuan jumlah topik diawali dengan memberikan
nilai pada num_topics. Sebagai contoh apabila num_topics diberikan nilai
10, maka jumlah topik yang dihasilkan adalah 10 dimulai dari topik 0
hingga topik 10.
12
BAB IV
ANALISIS
Berikut ini merupakan contoh hasil pemodel topik yang dilakukan dengan
eksperimen input parameter num_topics sejumlah 10, num_words sejumlah 10, dan
passes sejumlah 50 yang ditunjukkan pada gambar 7. Gambar tersebut merupakan
bentuk visualisasi untuk masing-masing topik. Visualisasi topik ini terdiri dari dua
bagian, bagian kiri merepresentasikan topik secara global dimana topik digambarkan
dengan lingkaran dua dimensi yang pusat lingkarannya ditentukan oleh komputasi
jarak antar topik menggunakan penskalaan multidimensional. Bagian kanan
menggambarkan grafik batang dimana setiap batangnya merepresentasikan istilah yang
paling relevan untuk menggambarkan sebuah topik. Lapisan yang terdapat pada grafik
batang mewakili frekuensi spesifik topik dari istilah tersebut. Bagian kanan dan kiri
saling berhubungan untuk menafsirkan topik yang telah dipilih. Gambar 7 merupakan
bentuk visualisai pemodelan topik 6 (lingkaran 1) yang menghasilkan 30 term yang
relevan diantaranya adalah gempa, info, BMKG, wib, mag, sr, lok, kedlmn, bt, ls,
baratdaya, jateng, jatim, tenggara, pgr, dirasakan, pusat, vii, laut, kab, cilacap, pacitan,
sep, mar, aug, jul, baratlaut, jun, barat dan bandung, sehingga dari 30 term tersebut
akan menghasilkan sebuah topik.
13
Gambar 7. Hasil visualisasi pemodelan topik 6
Berikut ini hasil pembentukan model topik Latent Dirichlet Allocation yang
menampilan nilai perplexity dengan num_topics sejumlah 10, num_words sejumlah 10,
dan passes sejumlah 50 yang ditunjukan pada Tabel 2. Untuk perhitungan perplexity,
sudah termasuk dalam package gensim pada bahasa python secara otomatis. Perplexity
berfungsi untuk menghitung rata-rata jarak geometris dari matriks data yang mewakili
setiap kata dengan menggunakan potongan dokumen corpus.
14
0.076*"timur" 0.033*"wilayah" 0.049*"semarang" 0.018*"foto"
0.055*"april" 0.027*"ekstrem" 0.037*"gelombang" 0.017*"facebook"
1) Topik 0 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata pukul yaitu 0.194. Sehingga dapat
disimpulkan, bahwa Topik 0 merepresentasikan topik tentang waktu terjadinya
suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
2) Topik 1 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata wilayah yaitu 0.175. Sehingga
15
dapat disimpulkan, bahwa Topik 1 merepresentasikan topik tentang wilayah
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
3) Topik 2 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata maret yaitu 0.129. Sehingga dapat
disimpulkan, bahwa Topik 2 merepresentasikan topik tentang maret, bulan
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
4) Topik 3 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata stasiun yaitu 0.116. Sehingga
dapat disimpulkan, bahwa Topik 3 merepresentasikan topik tentang stasiun
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
5) Topik 4 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata kemalajateng yaitu 0.054.
Sehingga dapat disimpulkan, bahwa Topik 4 merepresentasikan topik tentang
kemalajateng.
6) Topik 5 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata sumber yaitu 0.154. Sehingga
dapat disimpulkan, bahwa Topik 5 merepresentasikan topik tentang sumber
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
7) Topik 6 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata gempa yaitu 0.092. Sehingga
dapat disimpulkan, bahwa Topik 6 merepresentasikan topik tentang gempa
yang terjadi.
8) Topik 7 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata prakiraan yaitu 0.149. Sehingga
dapat disimpulkan, bahwa Topik 7 merepresentasikan topik tentang prakiraan
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
9) Topik 8 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata jawa yaitu 0.161. Sehingga dapat
16
disimpulkan, bahwa Topik 8 merepresentasikan topik tentang pulau jawa ketika
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
10) Topik 9 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata BMKG yaitu 0.152. Sehingga
dapat disimpulkan, bahwa Topik 9 merepresentasikan topik tentang BMKG
ketika terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-
lain.
17
BAB V
KESIMPULAN
Pada bab ini dibahas mengenai kesimpulan dari semua proses yang telah
dilakukan dan saran yang dapat diberikan untuk pengembangan yang lebih baik.
4.1. Kesimpulan
Kesimpulan yang didapatkan dari proses pengerjaan makalah Gemastik Data
Mining yang telah dilakukan adalah dari hasil pemodelan topik data tweet BMKG
adalah:
1) Terdapat 10 topik yang menggambarkan permasalahan dan informasi terkait
BMKG. 10 topik tersebut adalah waktu, wilayah, maret (bulan), stasiun,
kemalajateng, sumber, gempa, prakiraan, jawa, dan BMKG.
2) Model Latent Dirichlet Allocation (LDA) merupakan metode yang cocok
untuk melakukan pemodelan topik.
3) Melalui Latent Dirichlet Allocation (LDA) didapatkan topik permasalahan
yang banyak diperbincangkan masyarakat di Twitter.
4.2. Saran
Dari pengerjaan makalah Gemastik Data Mining ini, terdapat beberapa saran untuk
pengembangan penelitian ke depan.
1) Data yang digunakan sebaiknya dalam jumlah banyak dan besar dan bersumber
tidak hanya dari Twitter tetapi dari beberapa media sosial yang lain yang lebih
kompleks agar hasil yang diperoleh lebih bervariasi dan lebih akurat.
2) Untuk memperoleh hasil yang lebih optimal diperlukan suatu normalisasi kata-
kata penting sebelum dilakukan pemodelan topik, sebagai contoh
menormalisasi kata tidak baku menjadi baku seperti yg menjadi yang, dgn
menjadi dengan, dan masih banyak lagi.
18
DAFTAR PUSTAKA
[1] Hidayatullah, Ahmad Fathan, and Azhari SN Azhari. "Analisis sentimen dan
klasifikasi kategori terhadap tokoh publik pada Twitter." Seminar Nasional
Informatika (SEMNASIF). Vol. 1. No. 1. (2015).
[2] Kumar, Shamanth, Fred Morstatter, and Huan Liu. Twitter data analytics. New
York: Springer, (2014).
[4] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R.
(1990). "Indexing by latent semantic analysis." Journal of the American society
for information science 41.6 (1990), 391.
[5] Blei, David M. "Probabilistic topic models." Communications of the ACM 55.4
(2012): 77-84.
[6] Made Kusnanta Bramantya Putra, I. Analisis Topik Informasi Publik Media
Sosial di Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation
(LDA). Skripsi. Jurusan Sistem Informasi, Fakultas Teknologi Informasi,
Institut Teknologi Sepuluh November. ( 2017).
[7] Hidayatullah, Ahmad Fathan. "Pengaruh Stopword terhadap Performa
Klasifikasi Tweet Berbahasa Indonesia." JISKa Jurnal Informatika Sunan
Kalijaga 1.1 (2016).
[8] Putra, Riky Sutriadi. "Analisis Sentimen Twitter dengan Klasifikasi Nave
Bayes menggunakan Seleksi Fitur Mutual Information dan Inverse Document
Frequency." Skripsi. Departemen Ilmu Komputer, Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian Bogor. (2017).
19
Twitter Messages." Journal of Physics: Conference Series, Vol. 801. No. 1, IOP
Publishing, (2017).
20