Anda di halaman 1dari 25

PEMODELAN TOPIK DATA TWITTER BMKG

MENGGUNAKAN METODE PEMODELAN


LATENT DIRICHLET ALLOCATION (LDA)

Disusun Oleh:

1. Karimah
2. Silfa Kurnia Aditya
3. Syifa Tri Gardini

JURUSAN TEKNIK INFORMATIKA


FAKULTAS TEKNOLOGI INDUSTRI
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA

2017
KATA PENGANTAR

Assalamualaikum Wr. Wb.


Puji syukur kehadirat Allah SWT yang telah melimpahkan Rahmat, Hidayah,
serta Karunia-Nya, sehingga makalah Gemastik Data mining dengan tema Deep
Learning from Big Data for Big Insight and Big Solution for Indonesia dapat
terselesaikan dengan baik dan Alhamdulillah dengan hasil yang memuaskan atas izin
Allah SWT.

Dalam penulisan makalah, penulis mengalami beberapa kesulitan dan hambatan.


Terbatasnya kemampuan, pengetahuan, dan wawasan menjadi hambatan besar dalam
penyusunan laporan akhir ini. Namun berkat kerja keras dan dukungan dari berbagai
pihak, pada akhirnya penulis dapat menyelesaikan dengan semaksimal mungkin. Oleh
karena itu dalam kesempatan ini penulis mengucapkan terimakasih kepada:
1. Allah SWT, untuk semua kesempatan, rakhmat, karunia, nikmat dan ridho Nya
sehingga diberi kelancaran serta kemudahan untuk menyelesaikan makalah
Gemastik Data mining ini.
2. Kedua orang tua dan keluarga, terimakasih selalu memberikan dukungan
baik moral maupun financial dan selalu mendoakan saya.
3. Bapak Nandang Sutrisno, SH., LL.M., M.Hum., Ph.D, selaku rektor
Universitas Islam Indonesia.
4. Bapak Imam Djati Widodo, Dr. M.Eng.Sc selaku dekan Fakultas Teknologi
Industri Universitas Islam Indonesia.
5. Bapak Hendrik, S.T., M.Eng. selaku ketua jurusan Teknik Informatika
Universitas Islam Indonesia.
6. Ahmad Fathan Hidayatullah, S.T., M.Cs.. selaku dosen pembimbing
Gemastik Data mining Teknik Informatika Universitas Islam Indonesia.

ii
7. Teman-teman seperjuangan serta seluruh pihak yang ikut membantu, baik
secara langsung maupun tidak langsung. Penulis hanya bisa berdoa, semoga
Allah membalas kebaikan-kebaikan mereka dengan setimpal. Amin.

Saran dan kritik yang membangun penulis harapkan dapat memberikan manfaat
bagi peningkatan penulis di masa yang akan datang. Semoga makalah ini kelak dapat
memberikan manfaat bagi penulis khususnya dan pembaca umumnya. Aamiin.
WassalammualaikumWr. Wb.

` Yogyakarta, 8 September 2017

Penyusun

iii
DAFTAR ISI

KATA PENGANTAR .................................................................................................... ii


DAFTAR ISI................................................................................................................. iv
1.1. Latar Belakang ............................................................................................... 1
1.2. Tujuan Penelitian ............................................................................................ 2
1.3. Manfaat Penelitian .......................................................................................... 3
1.5. Sistematika Penulisan...................................................................................... 3
BAB II ........................................................................................................................... 5
METODOLOGI PENELITIAN ..................................................................................... 5
2.1. Identifikasi Masalah ........................................................................................ 5
2.2. Metode LDA (Latent Dirichlet Allocation) ........................................................ 6
2.3. Persiapan Data ................................................................................................ 7
2.4. Pembentukan Topic modeling .......................................................................... 8
BAB III .......................................................................................................................... 9
DESAIN DAN IMPLEMENTASI .................................................................................. 9
3.1. Preprocessing................................................................................................... 9
3.2. Pra-Proses Data ............................................................................................ 10
3.2.1. Mengkonversi Dokumen ke Dalam bentuk List ..................................... 10
3.2.2. Mengkonversi Dokumen ke Dalam bentuk Dictionary ........................... 11
3.2.3. Mengkonversi Dictionary dan List ke dalam Matriks Dokumen ............. 11
3.3. Pemodelan Topik dengan Latent Dirichlet Allocation .................................... 11
3.3.1 Pembentukan Model Topik dengan Latent Dirichlet Allocation .............. 11
3.3.2 Eksperimen Pemodelan Topik dengan LDA........................................... 12
BAB IV ........................................................................................................................ 13
ANALISIS ................................................................................................................... 13
4.1. Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation ............ 13
4.2. Penjelasan Hasil Pembentukan Model Topik dengan Latent Dirichlet
Allocation ................................................................................................................. 15
4.1. Kesimpulan ................................................................................................... 18

iv
4.2. Saran ............................................................................................................. 18

v
BAB I
PENDAHULUAN
1.1. Latar Belakang
Sosial media adalah istilah yang tidak hanya mencakup berbagai platform
media baru, tetapi juga menyiratkan dimasukkannya sistem seperti FriendFeed,
Facebook, dan Twitter yang pada umumnya dianggap sebagai jejaring sosial
(Hopkins, 2008). Sosial media menjadi media komunikasi publik yang sudah tidak
asing lagi bagi umat manusia di seluruh dunia khususnya Indonesia. Salah satu
sosial media yang banyak dimanfaatkan masyarakat adalah Twitter. Selain untuk
bertukar informasi, Twitter juga memungkinkan pengguna untuk menuliskan pesan
atau tweets. Selain itu, kita dapat mengetahui topik yang sedang banyak dibicarakan
oleh pengguna Twitter. Pengguna Twitter hanya dapat mengirim dan membaca
pesan blog seperti pada umumnya dengan batas maksimal sejumlah 140 karakter,
pesan tersebut dikenal dengan tweet [1].

Penelitian ini memanfaatkan data Twitter yang terdiri dari data mentah dan
data bersih hasil preprocessing. Tweet yang digunakan berasal dari beberapa akun
BMKG yang memberikan info tentang bencana, cuaca, dan iklim di beberapa
wilayah di Pulau Jawa. Data tersebut kemudian dilakukan proses analis dan
ekstraksi data pada Twitter. Hal tersebut bertujuan untuk menentukan topik
permasalahan yang sedang diperbincangkan. Proses ekstraksi dan analisis
dilakukan melalui empat tahapan, yaitu: proses penarikan data (crawling),
penyimpanan (storing), analisis (analyzing), dan visualisasi (vizualizing) [2].
Selanjutnya dilakukan pemodelan topik dengan menggunakan teknik topic
modeling dan deep learning dengan metode Latent Dirichlet Allocation (LDA).

Setiap postingan atau tweets memiliki keanekaragaman kata yang berbeda-


beda. Sementara itu, saat ini Twitter menjadi sarana untuk menggerakan masa dan
menyalurkan aspirasi masyarakat kepada pemerintah mengenai politik, ekonomi,

1
sosial budaya dan masih banyak lagi. Sebaliknya pemerintah bisa mendapatkan
timbal balik untuk mengetahui keinginan masyarakat dan meningkatkan kerjanya.
Namun, terdapat beberapa permasalahan seperti kesulitan untuk memahami makna
atau arti dari tweets yang dibuat, sehingga tidak mudah untuk menentukan sebuah
topik permasalahan yang sedang ramai diperbincangkan. Dengan melakukan topic
modeling diharapkan akan diperoleh informasi mengenai topik apa saja yang
diinformasikan oleh BMKG kepada masyarakat melalui Twitter.

Topic modeling merupakan teknik yang dikembangkan untuk menghasilkan


representasi dokumen berupa kata-kata kunci dari dokumen [3]. Kata-kata kunci
tersebut yang akan digunakan dalam proses pengindeksan serta pencarian dokumen
untuk ditemukan kembali sesuai kebutuhan pengguna [3]. Untuk memodelkan
probabilistik generatif pada sekumpulan data teks (corpus) digunakan sebuah
metode yang dinamakan Latent Dirichlet Allocation (LDA). LDA adalah model
Bayesian Hirarki, di mana sekumpulan data teks dimodelkan sebagai model
campuran dari berbagai topik [4].

1.2. Tujuan Penelitian

Adapun tujuan dari penelitian ini adalah:

1. Melakukan pemodelan topik pada data tweet BMKG untuk mengetahui topik-
topik terkait bencana, iklim, dan cuaca di Pulau Jawa. Topik yang diperoleh
diharapkan dapat menggambarkan permasalahan dan informasi penting terkait
BMKG yang sering terjadi di Pulau Jawa.
2. Menerapkan metode Latent Dirichlet Allocation (LDA) untuk melakukan
pemodelan topik pada tweet yang di-posting oleh akun Twitter BMKG.
3. Mengaplikasikan model Latent Dirichlet Allocation (LDA) untuk mendapatkan
topik permasalahan yang banyak diperbincangkan masyarakat di Twitter.

2
1.3. Manfaat Penelitian

Adapun manfaat dari penelitian ini adalah:

1. Mendapatkan topik utama terkait bencana, cuaca, dan iklim di Pulau Jawa pada
data tweet BMKG.
2. Mengetahui cara untuk melakukan pemodelan topik dengan menerapkan
metode Latent Dirichlet Allocation (LDA) pada data tweet yang di-posting oleh
akun Twitter BMKG.
3. Membantu pemerintah pada khususnya dan kalangan lainnya untuk mengetahui
topik permasalahan yang sedang diperbincangkan.

1.4. Batasan yang digunakan


Adapun batasan yang digunakan untuk penelitian ini adalah:
1. Data bersumber dari beberapa akun Twitter resmi BMKG di daerah di Pulau
Jawa.
2. Penelitian ini hanya menggunakan metode LDA untuk melakukan topic
modeling.

1.5. Sistematika Penulisan


Guna memahami lebih jelas sistematika penulisan penelitian ini, dilakukan
dengan cara mengelompokkan materi menjadi beberapa sub-bab dengan
sistematika penulisan sebagai berikut :

BAB I PENDAHULUAN
Bab ini berisi latar belakang masalah, tujuan, manfaat, batasan masalah
yang digunakan dalam sistematika penulisan penelitian ini.
BAB II METODOLOGI
Bab ini berisi analisis metode data mining yang digunakan untuk
pemodelan topik menggunakan LDA (Latent Dirichlet Allocation),

3
diantaranya yaitu identifikasi masalah, metode LDA (Latent Dirichlet
Allocation, mempersiapkan data, menganalisis topic modeling.
BAB III DESAIN DAN IMPLEMENTASI
Berisi preprocessing, praprocess data seperti mengkonversi dokumen
ke dalam bentuk list, mengkonversi dokumen ke dalam bentuk
dictionary, mengkonversi dictionary dan list ke dalam matriks
dokumen, serta berisi pemodelan topik dengan Latent Dirichlet
Allocation yang terdiri dari eksperimen pemodelan topik dengan LDA,
dan pembentukan model topik dengan Latent Dirichlet Allocation.
BAB IV ANALISIS
Berisi hasil pembentukan model topik dengan Latent Dirichlet
Allocation.
BAB V KESIMPULAN
Bab ini berisi kesimpulan dari pembahasan pada bab sebelumnya dan
saran atas kekurangan dari hasil penelitian yang telah dilakukan.

4
BAB II
METODOLOGI PENELITIAN

Bab ini akan dijelaskan tentang metodologi penelitian yang akan digunakan
dalam penyusunan makalah Gemastik Data Mining. Adapun urutan dari pengerjaan
makalah Data mining dapat dilihat pada Gambar 1.

Gambar 1. Langkah-langkah metodologi Penelitian

Identifikasi Metode LDA (Latent Menganalisis Topik


Mempersiapkan Data
Masalah Dirichlet Allocation) Modeling

2.1. Identifikasi Masalah


Tahap identifikasi masalah ini diambil dari hasil observasi beberapa akun
BMKG. Hasil observasi menunjukan bahwa setiap postingan atau tweets memiliki
keanekaragaman kata yang berbeda-beda dan topiknya pun sangat beragam dan selalu
berubah-ubah dengan cepat. Sehingga terjadilah kesulitan untuk memahami makna
atau arti dari tweets yang dibuat, sehingga tidak mudah untuk menentukan sebuah topik
permasalahan yang sedang ramai diperbincangkan. Berdasarkan dari kondisi tersebut,
maka dirasa perlu untuk melakukan pemodelan topik yang diharapkan akan diperoleh
informasi mengenai topik apa saja yang diinformasikan oleh BMKG kepada
masyarakat melalui Twitter.

5
2.2. Metode LDA (Latent Dirichlet Allocation)
Tahap ini dilakukan dengan tujuan agar dapat memahami konsep serta metode
LDA sehingga sesuai dengan permasalahan yang telah diidentifikasi dan dapat
memecahkan solusi yang akan digunakan dalam makalah Data mining Gemastik ini.
Penelitian ini menggunakan metode LDA (Latent Dirichlet Allocation) untuk
melakukan pemodelan topik. LDA merupakan model yang digunakan untuk
menemukan struktur tematik pada sebuah dokumen . Tujuan dari LDA adalah untuk
mengambil data dari dokumen yang kemudian data tersebut digunakan untuk
menentukan topik. Topik tersebut adalah sebuah entitas yang mencoba untuk
mengukur interaksi antar kata [5]. Diasumsikan bahwa setiap kata di sebuah dokumen
telah diberi warna yang bersesuaian dengan definisinya, dan warna tersebut
merepresentasikan topik [5]. Berikut ini merupakan ilustrasi dari metode LDA.

Gambar 2. Contoh Model Metode LDA [5]


Setelah melakukan pewarnaan, kemudian dilakukan pendistribusian topik.
Dapat dikatakan bahwa sebuah dokumen dihasilkan dari pendistribusi topik yang telah
dilakukan dan dokumen tersebut direpresentasikan sebagai topik. Ide dasarnya adalah
bahwa dokumen dapat direpresentasikan sebagai model campuran dari berbagai topik

6
yang disebut juga laten, di mana setiap topik dikarakateristikan oleh kata [4]. (Blei,
2012) merepresentasikan metode LDA sebagai model probabilistic secara visual seperti
pada berikut:

Gambar 3. Visualisasi Topic modeling dengan Metode LDA [5]


Sesuai visualisasi model di atas, terdapat tiga tingkatan pada LDA Modeling [6].
Parameter dan digunakan untuk pendistribusian topik di tingkat corpus, variabel
merepresentasikan distribusi topik untuk dokumen, dan variabel Z dan W adalah
variabel merepresentasikan topik dari kata.

2.3. Persiapan Data


Penelitian ini menggunakan bahasa pemrograman Python 2.7.0 dengan library
NLTK, numpy, sklearn, pandas, matplotlib, scrapy, tweepy, jsonpickle dan tweet-
preprocessor. Data tweet diperoleh secara berkala menggunakan Twitter API v1.1.
Code python ditulis menggunakan editor notepad++ dan disimpan dengan format
ekstensi .py. Code tersebut kemudian dieksekusi menggunakan command prompt pada
Windows. Data yang telah didapat kemudian disimpan dengan format ekstensi .txt.

7
Sebanyak 19066 data yang telah didapat kemudian dilakukan proses preprocessing.
Berikut ini rincian data twitter dari 8 akun yang dijutunjukan pada Tabel 1.
Tabel 1. Rincian Data Twitter

No Nama Akun Jumlah Data


1. @infoBMKG 3206
2. @BMKGjogja 3249

3. @BMKG_semarang 3241
4. @BMKGBandung 761
5. @BMKG_bwi 3241
6. @stageof_bji 1450
7. @BMKG_juanda 3229
8. @InaTEWS 689

2.4. Pembentukan Topic modeling


Tahap pembentukan topic modeling bertujuan untuk menghasilkam model
topik yang paling tepat dari hasil pengolahan data. Model topik dikatakan tepat apabila
mampu menghasilkan luaran yang baik pada tahap validasi model topik [6]. Untuk
menghasilkan model topik yang tepat, hal yang dilakukan adalah dengan melakukan
eksperimen pada nilai input parameter [6]. Parameter yang digunakan adalah number
of topics dan words in topic. Parameter number of topics menentukan jumlah topik
dalam satu dokumen, sementara parameter number of words in topic menunjukkan
jumlah kata penyusun topik [6].

8
BAB III
DESAIN DAN IMPLEMENTASI

3.1. Preprocessing
Preprocessing dalam text mining bertujuan untuk mempersiapkan data sebelum
diproses pada langkah selanjutnya [7]. Selain itu preprocessing dilakukan untuk
menghindari data yang kurang sempurna, gangguan pada data, dan data-data yang
tidak konsisten (Hemalatha, dkk, 2012) [1]. Tahapan text preprocessing pada
penelitian ini diantaranya tokenization yaitu tahap pemotongan string input
berdasarkan kata yang menyusunnya (Nugroho, 2011), case folding yaitu
menyeragamkan bentuk huruf menjadi huruf besar atau huruf kecil [1], menghapus
tag HTML tags dan karakter Unicode, menghapus emoticon, menghapus karakter
non ASCII, menghapus karakter khusus Twitter (@username, RT, #hashtag,),
menghapus URL seperti (http://www.alamat.com), menghapus tanda baca,
menghapus angka, dan remove stopword yaitu menghilangkan kata yang tidak
memiliki pengaruh signifikan dalam kalimat tersebut. Berikut ini merupakan
gambaran proses pre-processing:

Gambar 4. Proses Preprocessing [9]

9
Berikut ini merupakan hasil preprocessing dari data tweets BMKG:

Gambar 5. Data sebelum dilakukan preprocessing

Gambar 6. Data setelah dilakukan preprocessing

3.2. Pra-Proses Data


3.2.1. Mengkonversi Dokumen ke Dalam bentuk List

10
Tahap selanjutnya adalah tahap mengkonversi dokumen yang sudah
bersih ke dalam bentuk list, tujuan dari tahap ini adalah menyimpan data yang
sudah di preprocessing ke dalam bentuk list. list tersebut diberi nama texts.

3.2.2. Mengkonversi Dokumen ke Dalam bentuk Dictionary


Tahap selanjutnya adalah tahap mengkonversi dokumen ke dalam
bentuk dictionary, tujuan dari tahap ini adalah menyimpan data yang sudah
bersih ke dalam bentuk dictionary. Setelah itu, memberikan indeks yang
berfungsi untuk mengidentifikasi kata tersebut. Dalam melakukan konversi
dokumen ke dalam bentuk dictionary digunakan library gensim dengan modul
corpora. Agar lebih mempermudah, simpan file dictionary dengan nama
dictionary.dict.

3.2.3. Mengkonversi Dictionary dan List ke dalam Matriks Dokumen


Tahap selanjutnya adalah tahap mengkonversi dictionary kedalam
matriks dokumen, yang disebut corpus. Library yang digunakan yaitu gensim
dengan modul corpora. Setelah corpus berhasil, kemudian corpus akan
disimpan dengan nama corpus.mm.

3.3. Pemodelan Topik dengan Latent Dirichlet Allocation


Tahapan pemodelan topik dengan Latent Dirichlet Allocation merupakan
tahapan yang dilakukan untuk membentuk model topik. Ada dua hal dalam tahapan
ini, yaitu pembentukan model topik dengan Latent Dirichlet Allocation, dan
eksperimen pemodelan topik dengan LDA.

3.3.1 Pembentukan Model Topik dengan Latent Dirichlet Allocation

Pada tahap pembentukan model topik library yang digunakan adalah


gensim dengan modul models. Dalam pembentukan model topik, diperlukan
input parameter, yaitu jumlah topic (num_topics), jumlah kata dalam topik
(num_words), dan passes. Yang dimaksud dengan passes adalah jumlah iterasi
dalam pembentukan model topik. Ketiga input parameter ini nantinya akan

11
dilakukan eksperimen untuk mencari nilai perplexity yang optimal. Nilai
perplexity yang semakin kecil menunjukkan model yang dibentuk semakin
baik.

3.3.2 Eksperimen Pemodelan Topik dengan LDA

Tahap eksperimen pemodelan topik dengan Latent Dirichlet Allocation


merupakan tahapan yang dilakukan untuk membentuk model topik terbaik
dengan melakukan eksperimen pada input parameter, yaitu passes (jumlah
iterasi), dan jumlah topik. Sehingga eksperimen akan dibedakan kedalam dua
tahap, yaitu penentuan jumlah iterasi dan penentuan jumlah topik.

1) Untuk menentukan jumlah iterasi, tahan ini adalah tahapan yang penting
ketika akan menentukan model. Untuk mendapatkan model yang terbaik,
jika jumlah iterasi terlalu sedikit maka hasil model yang diperoleh belum
stabil dan underfitting(bila model terlalu sederhana, maka error himpunan
training dan test errors), jika iterasi terlalu banyak maka model yang
diperoleh overfitting (bila model terlalu kompleks, seperti memiliki terlalu
banyak parameter). Untuk menentukan jumlah iterasi (passes).
2) Setelah menentukan jumlah iterasi, eksperimen dilakukan pada jumlah
topik. Tahap ini merupakan bagian penting untuk menghasilkan akurasi
model yang lebih baik. Penentuan jumlah topik diawali dengan memberikan
nilai pada num_topics. Sebagai contoh apabila num_topics diberikan nilai
10, maka jumlah topik yang dihasilkan adalah 10 dimulai dari topik 0
hingga topik 10.

12
BAB IV
ANALISIS

4.1. Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation

Berikut ini merupakan contoh hasil pemodel topik yang dilakukan dengan
eksperimen input parameter num_topics sejumlah 10, num_words sejumlah 10, dan
passes sejumlah 50 yang ditunjukkan pada gambar 7. Gambar tersebut merupakan
bentuk visualisasi untuk masing-masing topik. Visualisasi topik ini terdiri dari dua
bagian, bagian kiri merepresentasikan topik secara global dimana topik digambarkan
dengan lingkaran dua dimensi yang pusat lingkarannya ditentukan oleh komputasi
jarak antar topik menggunakan penskalaan multidimensional. Bagian kanan
menggambarkan grafik batang dimana setiap batangnya merepresentasikan istilah yang
paling relevan untuk menggambarkan sebuah topik. Lapisan yang terdapat pada grafik
batang mewakili frekuensi spesifik topik dari istilah tersebut. Bagian kanan dan kiri
saling berhubungan untuk menafsirkan topik yang telah dipilih. Gambar 7 merupakan
bentuk visualisai pemodelan topik 6 (lingkaran 1) yang menghasilkan 30 term yang
relevan diantaranya adalah gempa, info, BMKG, wib, mag, sr, lok, kedlmn, bt, ls,
baratdaya, jateng, jatim, tenggara, pgr, dirasakan, pusat, vii, laut, kab, cilacap, pacitan,
sep, mar, aug, jul, baratlaut, jun, barat dan bandung, sehingga dari 30 term tersebut
akan menghasilkan sebuah topik.

13
Gambar 7. Hasil visualisasi pemodelan topik 6

Berikut ini hasil pembentukan model topik Latent Dirichlet Allocation yang
menampilan nilai perplexity dengan num_topics sejumlah 10, num_words sejumlah 10,
dan passes sejumlah 50 yang ditunjukan pada Tabel 2. Untuk perhitungan perplexity,
sudah termasuk dalam package gensim pada bahasa python secara otomatis. Perplexity
berfungsi untuk menghitung rata-rata jarak geometris dari matriks data yang mewakili
setiap kata dengan menggunakan potongan dokumen corpus.

Tabel 2. Hasil Pembentukan Model Topik dengan Latent Dirichlet Allocation

Topik 1 Topik 2 Topik 3 Topik 4

0.175*"wilayah" 0.129*"maret" 0.116*"stasiun" 0.054*"kemalajateng"


0.142*"cuaca" 0.093*"juni" 0.115*"oktober" 0.048*"retweeted"
0.134*"BMKG" 0.084*"hujan" 0.084*"hujan" 0.048*"gempabumi"

0.132*"peringatan" 0.049*"berpotensi" 0.064*"curah" 0.036*"jatenggayeng"

0.085*"jawa" 0.040*"terjadi" 0.055*"meteorologi" 0.020*"kamis"

14
0.076*"timur" 0.033*"wilayah" 0.049*"semarang" 0.018*"foto"
0.055*"april" 0.027*"ekstrem" 0.037*"gelombang" 0.017*"facebook"

0.024*"desember" 0.027*"infoiklimjogja" 0.031*"tinggi" 0.017*"tsunami"


0.020*"juli" 0.024*"indonesia" 0.029*"distribusi" 0.016*"memasang"
0.020*"jambi" 0.021*"potensi" 0.028*"tertinggi" 0.016*"maturnuwun"

Topik 5 Topik 6 Topik 7 Topik 8 Topik 9


0.154*"sumber" 0.092*"gempa" 0.149*"prakiraan" 0.161*"jawa" 0.152*"BMKG"
0.073*"kota" 0.064*"info" 0.126*"berlaku" 0.156*"cuaca" 0.122*"wilayah"

0.067*"wil" 0.063*"BMKG" 0.120*"cuaca" 0.153*"tengah" 0.122*"cuaca"

0.056*"evaluasi" 0.061*"wib" 0.107*"mulai" 0.122*"prakiraan" 0.120*"peringatan"

0.048*"via" 0.061*"mag" 0.072*"banjarnegara" 0.050*"september" 0.065*"selatan"


0.039*"prakicu" 0.061*"sr" 0.049*"tanggal" 0.048*"agustus" 0.039*"kalimantan"
0.034*"adipala" 0.057*"lok" 0.046*"wib" 0.039*"provinsi" 0.037*"sumatera"

0.032*"jabar" 0.052*"kedlmn" 0.034*"ii" 0.034*"peringatan" 0.035*"jabodetabek"


0.028*"meteor" 0.052*"bt" 0.025*"sig" 0.029*"mei" 0.034*"barat"
0.027*"termsk" 0.048*"ls" 0.024*"mmi" 0.027*"berlaku" 0.031*"mei"

4.2. Penjelasan Hasil Pembentukan Model Topik dengan Latent Dirichlet


Allocation

Berikut ini merupakan penjelasan hasil pembentukan topic modeling dengan


menggunakan Latent Dirichlet Allocation:

1) Topik 0 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata pukul yaitu 0.194. Sehingga dapat
disimpulkan, bahwa Topik 0 merepresentasikan topik tentang waktu terjadinya
suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
2) Topik 1 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata wilayah yaitu 0.175. Sehingga

15
dapat disimpulkan, bahwa Topik 1 merepresentasikan topik tentang wilayah
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
3) Topik 2 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata maret yaitu 0.129. Sehingga dapat
disimpulkan, bahwa Topik 2 merepresentasikan topik tentang maret, bulan
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
4) Topik 3 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata stasiun yaitu 0.116. Sehingga
dapat disimpulkan, bahwa Topik 3 merepresentasikan topik tentang stasiun
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
5) Topik 4 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata kemalajateng yaitu 0.054.
Sehingga dapat disimpulkan, bahwa Topik 4 merepresentasikan topik tentang
kemalajateng.
6) Topik 5 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata sumber yaitu 0.154. Sehingga
dapat disimpulkan, bahwa Topik 5 merepresentasikan topik tentang sumber
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
7) Topik 6 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata gempa yaitu 0.092. Sehingga
dapat disimpulkan, bahwa Topik 6 merepresentasikan topik tentang gempa
yang terjadi.
8) Topik 7 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata prakiraan yaitu 0.149. Sehingga
dapat disimpulkan, bahwa Topik 7 merepresentasikan topik tentang prakiraan
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
9) Topik 8 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata jawa yaitu 0.161. Sehingga dapat

16
disimpulkan, bahwa Topik 8 merepresentasikan topik tentang pulau jawa ketika
terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-lain.
10) Topik 9 : Dalam topik ini, berdasakan tabel hasil yang sudah ada dapat
diketahui perplexity terbesar ada pada kata BMKG yaitu 0.152. Sehingga
dapat disimpulkan, bahwa Topik 9 merepresentasikan topik tentang BMKG
ketika terjadinya suatu persitiwa, baik bencana, perkiraan iklim/cuaca, dan lain-
lain.

17
BAB V
KESIMPULAN

Pada bab ini dibahas mengenai kesimpulan dari semua proses yang telah
dilakukan dan saran yang dapat diberikan untuk pengembangan yang lebih baik.
4.1. Kesimpulan
Kesimpulan yang didapatkan dari proses pengerjaan makalah Gemastik Data
Mining yang telah dilakukan adalah dari hasil pemodelan topik data tweet BMKG
adalah:
1) Terdapat 10 topik yang menggambarkan permasalahan dan informasi terkait
BMKG. 10 topik tersebut adalah waktu, wilayah, maret (bulan), stasiun,
kemalajateng, sumber, gempa, prakiraan, jawa, dan BMKG.
2) Model Latent Dirichlet Allocation (LDA) merupakan metode yang cocok
untuk melakukan pemodelan topik.
3) Melalui Latent Dirichlet Allocation (LDA) didapatkan topik permasalahan
yang banyak diperbincangkan masyarakat di Twitter.

4.2. Saran
Dari pengerjaan makalah Gemastik Data Mining ini, terdapat beberapa saran untuk
pengembangan penelitian ke depan.
1) Data yang digunakan sebaiknya dalam jumlah banyak dan besar dan bersumber
tidak hanya dari Twitter tetapi dari beberapa media sosial yang lain yang lebih
kompleks agar hasil yang diperoleh lebih bervariasi dan lebih akurat.
2) Untuk memperoleh hasil yang lebih optimal diperlukan suatu normalisasi kata-
kata penting sebelum dilakukan pemodelan topik, sebagai contoh
menormalisasi kata tidak baku menjadi baku seperti yg menjadi yang, dgn
menjadi dengan, dan masih banyak lagi.

18
DAFTAR PUSTAKA
[1] Hidayatullah, Ahmad Fathan, and Azhari SN Azhari. "Analisis sentimen dan
klasifikasi kategori terhadap tokoh publik pada Twitter." Seminar Nasional
Informatika (SEMNASIF). Vol. 1. No. 1. (2015).

[2] Kumar, Shamanth, Fred Morstatter, and Huan Liu. Twitter data analytics. New
York: Springer, (2014).

[3] Pravitasari, Anindya Apriliyanti. "Penggunaan Probabilistic Latent Semantic


Analysis (PLSA) pada Pengelompokan Data Teks." Biastatistika 9.2 (2016): 22-
27.

[4] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R.
(1990). "Indexing by latent semantic analysis." Journal of the American society
for information science 41.6 (1990), 391.

[5] Blei, David M. "Probabilistic topic models." Communications of the ACM 55.4
(2012): 77-84.

[6] Made Kusnanta Bramantya Putra, I. Analisis Topik Informasi Publik Media
Sosial di Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation
(LDA). Skripsi. Jurusan Sistem Informasi, Fakultas Teknologi Informasi,
Institut Teknologi Sepuluh November. ( 2017).
[7] Hidayatullah, Ahmad Fathan. "Pengaruh Stopword terhadap Performa
Klasifikasi Tweet Berbahasa Indonesia." JISKa Jurnal Informatika Sunan
Kalijaga 1.1 (2016).

[8] Putra, Riky Sutriadi. "Analisis Sentimen Twitter dengan Klasifikasi Nave
Bayes menggunakan Seleksi Fitur Mutual Information dan Inverse Document
Frequency." Skripsi. Departemen Ilmu Komputer, Fakultas Matematika dan
Ilmu Pengetahuan Alam, Institut Pertanian Bogor. (2017).

[9] Hidayatullah, A. F., and M. R. Maarif. "Pre-processing Tasks in Indonesian

19
Twitter Messages." Journal of Physics: Conference Series, Vol. 801. No. 1, IOP
Publishing, (2017).

20

Anda mungkin juga menyukai