Anda di halaman 1dari 51

TOPIK MODELING TERHADAP LAYANAN OJEK ONLINE

MENGUNAKAN MENGGUNAKAN LATENT DIRICHLET


ALLOCATION (STUDI KASUS : GOJEK)

Laporan Praktik Kerja Lapangan (PKL)

Oleh
MARISA DWI SARI

11150940000032

PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI-

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA

2019 M/1440 H
i
KATA PENGANTAR

Assalamu’alaikum Wr. Wb.


Puji syukur kehadirat Allah SWT atas segala rahmat dan karunia-Nya
sehingga peneliti dapat menyelesaikan Praktik Kerja Lapangan (PKL) serta
penyusunan laporan Praktik Kerja Lapangan (PKL) dengan judul “Analisis
sentiment media sosial twitter terhadap isu PILPRES 2019 menggunakan methode
Naïve Bayes”. Shalawat dan salam peneliti haturkan pada junjungan alam Nabi
Muhammad Shallahu ‘alaihi wa sallam.
Penyusunan laporan PKL ini dapat terselesaikan dengan bantuan dan
dukungan beberapa pihak. Sehingga, peneliti ingin menyampaikan terimakasih
kepada :
1. Allah SWT, Tuhan semesta alam yang Maha Pengasih dan Pemberi
Petunjuk. Hanya dengan petunjuk-Nya, nikmat-Nya lah saya dapat
melaksanakan dan meyelesaikan Praktek Kerja Lapangan.
2. Ibu Dr. Nina Fitriyati, M.Kom, Ketua Program Studi Matematika Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta.
3. M. Octaviano Pratama, S.Kom., selaku Pembimbing I, terima kasih atas
pengarahan dan sarannya kepada peneliti selama melakukan PKL hingga
proses pembuatan laporan ini.
4. Ibu Irma Fauziah, M.Sc, selaku pembimbing II, terimakasih atas pengarahan
dan sarannya kepada peneliti selama pembuatan leporan PKL ini.
5. Rusnandi Fikri, S.Si, Bagus Fajar, S.Si dan Haris Hamzah, S.Si selaku
pembimbing lapangan di tempat Praktik Kerja Lapangan yang telah bersedia
membimbing saya selama proses kegiatan Praktik Kerja Lapangan dengan
sabar.
6. Kedua Orang tua saya yang tidak pernah berhenti memberikan doa, kasih
sayang, semangat, dukungan moril maupun materil sehingga peneliti dapat
menjalani PKL dan menyelesaikan laporan PKL ini dengan baik.
7. Seluruh teman Matematika 2015. Terkhusus untuk Deffi Eliap Putri,
Mustika Rahayu, Ahmad Kurniawan, Oktavian Wahyu Probowo, dan
Gilang Rizky yang senantiasa membantu saya pada saat proses dalam
menjalani kegiatan PKL ini dengan canda dan tawa mereka. Dan juga
kepada Okta dan Ahmad yang telah memberikan sumber dalam pembuatan
laporan ini.
8. Seluruh pihak yang sudah membantu peneliti dalam mengerjakan laporan
PKL ini yang tanpa mengurangi rasa hormat peneliti tidak dapat sebutkan
satu-persatu.
Peneliti menyadari masih banyak kekurangan dalam penyusunan laporan
PKL ini, sehingga peneliti berharap saran dan kritik yang membangun peneliti
untuk lebih baik dalam membuat suatu laporan di masa yang akan datang.
Terakhir, peneliti berharap semoga laporan PKL ini dapat bermanfaat.
Wassalamu’alaikum Wr. Wb.

Ciputat, 19 Maret 2019

Marisa Dwi Sari

iii
DAFTAR ISI
LEMBAR PENGESAHAN.....................................................................................ii
KATA PENGANTAR.............................................................................................ii
DAFTAR ISI...........................................................................................................iv
DAFTAR GAMBAR..............................................................................................vi
BAB I PENDAHULUAN........................................................................................1
1.1 Latar Belakang...........................................................................................1
1.2 Rumusan Masalah......................................................................................2
1.3 Batasan Masalah.........................................................................................2
1.4 Tujuan Penulisan........................................................................................2
1.5 Manfaat Penulisan......................................................................................2
BAB II PROFIL PT. PREMIER OPTIMA SATTIGA............................................4
2.1 Sejarah Umum............................................................................................4
2.2 Struktur Perusahaan dan Bidang Usaha......................................................5
2.3 Visi PT. Premier Optima Sattiga................................................................5
2.4 Misi PT. Premier Optima Sattiga................................................................5
2.5 Klien...........................................................................................................6
2.5.1 Konsuldok..............................................................................................6
2.5.2 Bash........................................................................................................6
2.5.3 Tupay......................................................................................................6
2.5.5 DigiLeaps...............................................................................................6
2.5.6 CBD Indonesia.......................................................................................6
2.5.7 PT. Pangripta..........................................................................................6
2.5.8 SmartFren...............................................................................................6
2.5.9 SAKA Energy.........................................................................................6
2.5.10 HESS......................................................................................................6
BAB III TINJAUAN PUSTAKA............................................................................7
3.1 Pemodelan Topik........................................................................................7
3.2 Scraping......................................................................................................7
3.3 Preprosesing Data......................................................................................8
3.4 Part-of-Speech Tagging/Postagging...........................................................9
3.5 Vector Space Model..................................................................................10
3.6 Latent Dirichlet Allocation (LDA)...........................................................11

iv
BAB IV METODOLOGI PENELITIAN..............................................................12
4.1 Tempat dan Waktu...................................................................................12
4.2 Metode Pengumpulan Data.......................................................................12
4.3 Metode Pengolahan Data..........................................................................12
4.4. Alur Penelitian..........................................................................................13
BAB V PEMBAHASAN.......................................................................................14
5.1 Analisis Data............................................................................................14
5.2 Preprocessing...........................................................................................14
5.3 Wordcloud dan Wordlink..........................................................................15
5.4 Hasil Pemodelan Latent Dirichlet Allocation...........................................16
BAB VI KESIMPULAN DAN SARAN...............................................................19
6.1 Kesimpulan...............................................................................................19
6.2 Saran.........................................................................................................19
DAFTAR PUSTAKA............................................................................................20

v
DAFTAR GAMBAR
Gambar 2. 1 Bagan Struktur AI Team PT. Premier OPTIMA...............................5

Gambar 5. 1 Wordcloud dan Wordlink Sentiment Positif………….….....................16


Gambar 5. 2. Wordcloud dan Wordlink Sentiment Negatif………….………………..….16
Gambar 5. 3. Hasil LDA Positif.............................................................................17
Gambar 5. 4. Hasil LDA Negatif………………………………………………..….…………..…….18
Gambar 5. 5. Kata-kata untuk sentiment Positif…………………………….………………...18
Gambar 5. 6. Kata-kata untuk sentiment Negatif…………………………..…..………………18

vi
BAB I

PENDAHULUAN

1.1 Latar Belakang


Indonesia merupakan Negara yang rawan mengalami bencana seperti gempa
bumi, gunung meletus, tanah longsor, tsunami dan banjir. Indonesia berada pada
pertemuan 3 lempengan yaitu lempeng Indo-Australia, Eurasia dan Pasifik, yang
berpotensi menimbulkan gempa bumi apabila lempeng-lempeng tersebut
bertumbukan. Selain itu, Indonesia di

Perkembangan dunia teknologi semakin lama semakin cepat berkembang


bahkan sekarang penelitian berada pada masa serba teknologi, dan serba digital.
Untuk memperoleh informasi mengenai kejadian bencana alam dapat diketahui di
berita ataupun dikoran untuk memperoleh informasi tersebut. Kemajuan dunia
teknologi membuat seseorang mengakses informasi semakin mudah, hal ini
banyak orang memperoleh berita melalui media online kebutuhannya dimulai
dari memesan gojek, membeli makanan membayar listrik dan membeli kebutuhan
lainnya hanya dengan aplikasi GOJEK di smartphone yang didapatkan dengan
men-downloadnya di PlayStore, karena memesan dilayanan tersebut apa yang di
inginkan peneliti atau pembaca akan sampai tujuan dengan selamat.

Media sosial adalah sebuah layanan yang memfasilitasi dalam pertukaran


informasi dan topik secara berkelanjutan dengan cakupan yang luas. Salah satu
media sosial yang paling popular dikalangan pengguna internet adalah twiter.
Media sosial twitter salah satu media sosial yang masih aktif sampai sekarang.
Pengguna Internet menuliskan opini dan pendapat tentang berbagai topik pada
layanan Twitter [1]. Twitter menjadi tempat yang cukup banyak digunakan pada
pengguna untuk mengeluarkan keluh kesah dan masalah mereka terhadap layanan
ojek online yang mereka gunakan khususnya GOJEK, mulai dari lambatnya
proses pick-up, ojek onlinenya yang tidak bisa dihubungin.

1
Berdasarkan uraian di latar belakang yang telah dijelaskan penulis ingin
meneliti hal apa saja yang sering dikeluhkan oleh pelanggan dengan menerapkan
Topik Modeling pada data yang diambil dari Twitter, Oleh karena itu penulis
mrmutuskan untuk membuat laporan Praktik Kerja Lapangan “Topik Modeling
terhadap Layanan Ojek Online Menggunakan Latent Dirichlet Allocation ( Studi
Kasus : GOJEK )

1.2 Rumusan Masalah


Berdasarkan latar belakang di atas, maka didapatkan perumusan masalah
yang akan dibahas adalah keluhan pelanggan terhadap layanan ojek online dengan
menerapkan Topic Modeling.

1.3 Batasan Masalah


Agar pembahasan tidak menyimpang dari apa yang telah ditetapkan, maka
dibuat pembatasan masalah sebagai berikut :

1. Media sosial yang diakan di analisis adalah Twitter


2. Data yang dipakai berupa data tweet tentang GOJEK dari 01 Januari 2018
sampai dengan 01 Desember 2018
3. Tweet yang di analisis hanya tweet yang berbahasa Indonesia
4. Tweet yang digunakan hanya berupa text, tidak menggandung gambar.
1.4 Tujuan Penulisan
Tujuan penulisan laporan ini adalah untuk mengetahui topik yang dibahas
pada setiap sentimen positif dan negatif,

1.5 Manfaat Penulisan


Manfaat yang didapat dari Praktek Kerja Lapangan ini adalah sebagai
berikut:
1. Bagi penulis
Mampu menambah wawasan tentang bagaimana melakukan topic modeling
pada suatu layanan ojek online.

2. Bagi pihak PT, Premier Optima Sattiga

2
Semoga penelitian ini dapat memberikan informasi yang berguna untuk
penelitian di Premier Optima Sattiga.

3. Bagi pembaca
Semoga penelitian ini dapat menambah wawasan serta informasi yang
berguna bagi pembaca khususnya bagi pembaca yang tertarik untuk
melakukan penelitian yang sama.

3
BAB II

PROFIL PT. PREMIER OPTIMA SATTIGA

2.1 Sejarah Umum


PT Premier Optima Sattiga adalah sebuah perusahaan yang menyediakan
layanan Teknologi Informasi seperti Pengembangan Aplikasi, Jaringan dan
Infrastruktur, Informasi dan Keamanan dan Kecerdasan Buatan. PT Premier
Optima Sattiga didirikan pada tahun 2009 oleh Wira Satyawan, Ir setelah
mengundurkan diri dari Schlumberger. Saat ini PT Premier Optima Sattiga
berkantor pusat di Sampoerna Strategic Square South Tower Level 30 Jalan Jend
Sudirman, Jakarta.
PT Premier Optima Sattiga membantu bisnis untuk memenuhi
pengembangan produk seperti aplikasi seluler, aplikasi desktop dan aplikasi web
serta menyediakan teknologi seperti Kerangka PHP, NodeJS, Android dan
Python. Selain itu perusahaan PT Premier Optima Sattiga menyediakan solusi
Business Intelligence untuk perusahaan seperti dasbor, analitik, gudang dan
menyediakan teknologi Artificial Intelligence seperti Machine Learning, Image
Processing, dan Deep Learning. Pada tahun 2011 perusahaan ini fokus di bidang
network and security, dan pada tahun 2014 perusahaan ini fokus di bidang
information technology. Pada 2018 hingga sekarang perusahaan ini fokus di
bidang Artificial Intelligence.
PT Premier Optima Sattiga adalah perusahaan yang bergerak dibidang
Software Development dan Artificial Intelligence yang menyediakan :
1. Intelligence service
2. Business Analytics
3. Data Analysis

4
2.2 Struktur Perusahaan dan Bidang Usaha

Gambar 2. 1 Bagan Struktur AI Team PT. Premier OPTIMA


2.3 Visi PT. Premier Optima Sattiga
Memberdayakan dan mendukung bisnis pelanggan dengan menyediakan
layanan Application Development, Networks and Infrastructure, Information and
Security dan Atificial Intellegence.
2.4 Misi PT. Premier Optima Sattiga
Misi dari PT. Premier Optima Sattiga yaitu:
1. Membantu business untuk memenuhi perkembangan produk seperti mobile apps,
desktop apps, dan web apps.
2. Menyediakan teknologi canggih saat ini seperti PHP Framework, NodeJS,
Android, Phyton, dan banyak lagi.

5
3. Menyediakan solusi Bussiness Intellegence untuk perusahaan seperti dashboard,
analytics, dan warehouse.
4. Menyediakan analitik bisnis untuk perusahaan klien seperti abnormal dan
anomaly detection, Fraud Detection / Deteksi Penipuan, dan tugas tidak
terstruktur lainnya.
5. Menyediakan teknologi Arificial Intellegence seperti Machine Learning, Image
Processing,dan Deep Learning
2.5 Klien
Klien dari PT. Premier Optima Sattiga yaitu:
2.5.1 Konsuldok
Konsuldok adalah Health Care Application yang berjalan di mobile platform.
2.5.2 Bash
Bash adalah aplikasi Event Organizer yang berjalan di iOS dan Android.
2.5.3 Tupay
Tupay adalah solusi pembaran online ke offline dan pembayaran offline ke online.
2.5.4 Dwi Tunggal Citra Catering
Perusahaan ini membuat profil situs web untuk Klien Dwi Tunggal Citra
Catering.
2.5.5 DigiLeaps
Perusahaan ini menyediakan Data Science dan Artificial Intellegence untuk agensi
pemasaran DigiLeaps.
2.5.6 CBD Indonesia
Perusahaan menyediakan Website Technology, Artificial Intellegence dan
Bussiness Solution untuk Kampus CBD Indonesia.
2.5.7 PT. Pangripta
Perusahaan ini menyediakan teknologi untuk PT. Pangripta Geomatika Indonesia.
2.5.8 SmartFren
Perusahaan ini melakukan Data Core Audit Project.
2.5.9 SAKA Energy
Perusahaan ini menyediakan Infrastructure dan Operation Cost Management
Project.
2.5.10 HESS

6
Perusahaan ini menyediakan Infrastructure dan Operation Cost Management
Project (untuk Indonesia, Malaysia, dan Australia).

7
BAB III

TINJAUAN PUSTAKA

3.1 Pemodelan Topik


Topik modeling atau pemodelan topik merupakan metode clustering yang
termasuk dalam unsupervised learning. Dalam unsupervised learning tidak ada
label untuk suatu objek. Terdapat 3 tipe clustering yaitu hard clustering,
hierarchical clustering, dan soft/fuzzy clustering. Pemodelan topik termasuk
dalam soft/fuzzy clustering yang mana setiap objek dapat dimiliki lebih dari satu
cluster dengan tingkat tertentu [2].
Ide dasar dari topik modeling adalah bahwa sebuah topik terdiri dari kata-
kata tertentu yang menyusun topik tersebut, dan dalam satu dokumen memiliki
kemungkinan terdiri dari beberapa topik dengan probabilitas masing-masing. [3]
Namun secara pemahaman, dokumen-dokumen merupakan objek yang dapat
diamati, sedangkan topik tersebut terdapat pada topik per-dokumen, dan
penggolongan setiap kata pada topik per-dokumen merupakan struktur
tersembunyi, maka dari itu topic modelling bertujuan untuk menemukan topik dan
kata-kata yang terdapat pada topik tersebut. Salah satu metode dari topik
modeling adalah dengan menggunakan Latent Dirichlet Allocation (LDA).

3.2 Scraping
Dalama pengambilan data twitter dibutuhkan teknik dalam pengambilan data
dari halaman web twitter. Scraping merupakan teknik untuk mengumpulkan data
online secara langsung, dengan kata lain scraping merupakan teknis secara
langsung mengekstrasi informasi dari kumpulan data pada situs web [4]. Tujuan
dari web scraper adalah mencari jenis informasi dari kumpulan data pada situs
web [5]. Oleh sebab itu, sehubug dengan data yang ingin digunakan pada
penelitian kali ini yaitu data media sosial twitter, dimana data ini merupakan data
berbasis online maka diperlukan teknik scraping untuk membantu dalam
mengekstasi informasi yang ada pada media sosial twitter.

8
3.3 Preprosesing Data
Data yang sudah didapat dapat di lakukan Preprocessing. Preprocessing
adalah tahap proses awal text mining terhadap teks untuk mempersiapkan teks
menjadi data yang dapat diolah lebih lanjut dan dapat mempersiapkan data teks
untuk dilakukan proses pengklasifikasi. Dalam proses Preprocessing terdapat
beberapa bagian yaitu tokenisasi, slang, case folding, penghapusan simbol atau
emoticon, penghapusan kata – kata stop word, dan lemmatisasi.
3.3.1. Tokenisasi
Tokenisasi merupakan metode pengambilan data teks pada suatu dokumen
untuk dipisahkan menjadi beberapa karakter/token. Contoh untuk tokenisasi
terdapat pada Table 3.1.

Tabel 3. 1: Contoh proses Tokenisasi

Kalimat Gojek Grab Uber adalah bukti kemajuan


zaman

Tokenisasi [Gojek, Grab, Uber, adalah, bukti,


kemajuan, zaman ]

3.3.2. Case Folding


Case Folding adalah metode untuk mengubah data teks twitter yang ditulis
dengan huruf besar (upper case) menjadi huruf kecil semua (lower case). Contoh
untuk proses case folding dapat dilihat pada Table 3.2

Tabel 3. 2. Contoh proses Case Folding


Kalimat Gojek Grab Uber adalah bukti
kemajuan zaman

Case Folding gojek grab uber adalah bukti


kemajuan zaman

9
3.3.3. Slang
Dalam proses preprosesing, fungsi slang bertujuan untuk menghilangkan kata –
kata yang salah atau singkatan agar kalimat yang di hasilkan lebih di mengerti
oleh komputer. Sebagai contoh dapat dilihat pada table 3.3

Tabel 3. 3. Contoh proses Case Folding

Kata asli { blm, tlg, yg, tks, pd, iklan2, icons }

Kata setelah Slang { belum, tolong, yang, pada, iklan – iklan,


ikon }

3.3.4. Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token.
Proses filtering dapat menggunakan algoritma stop words. Stop Words berfungsi
untuk menghilangkan kata – kata yang tidak memiliki makna dalam suatu
dokumen [6]. Penghilangan stop words dapat mengurangi tingkat noise pada data,
namun bukan berarti dapat meningkatkan hasil akurasi. Dalam proses filtering,
bukan hanya kata – kata yang merupakan stop words saja yang dihilangkan, tetapi
juga kata – kata yang memiliki frekuensi kemunculan sedikit.
3.3.5. Lematisasi
Lematisasi adalah proses transformasi untuk menemukan bentuk normalisasi
suatu kata [7]. Lematisasi mengganti kata-kata ke bentuk kata dasarnya.
Lematisasi membutuhkan kamus tambahan untuk pencarian dan pengindeksan,
yang meningkatkan akurasinya dalam ekstraksi fitur.

3.4 Part-of-Speech Tagging/Postagging


Noisy bukanlah satu-satunya permasalahan kualitas data dari perolehan hasil
scraping, permasalahan yang paling banyak bermunculan kata-kata yang kurang
informatif untuk topik yang di amati seperti kata kerja, kata keterangan dan lain

10
sebagainya. Hal tersebut dapat mengakibatkan berkurangnya frekuensi kata yang
lebih informatif dalam menggambarkan topik. Oleh karena itu dibutuhkan salah
satu proses penyaringan data seperti mengambil kata-kata yang informatif
terhadap topik sdengan menggunakan Part-of-Speech (POS) Tagging. POS tag
adalah kategori grametikal, biasanya termasuk kata kerja, kata sifat, kata
keterangan, dan lain-lainnya. [8]

3.5 Vector Space Model


Teknik respredentasi yang paling umum digunakan Estimasi parameter ini
bertujuan untuk mendapatkan model regresi linier berganda yang digunakan
adalah vector space model [9]. Pada dokumen dalam VSM berupa matriks yang
berisi bobot seluruh kata pada setiap dokumen. Bobot tersebut menyatakan
kepintingan dalam kata terhadap suatu document.
3.5.1. Term Frequency-Inverse Document Frequency (TF-IDF)
Dalam mengolah data yang berupa teks terdapat satu hal yang penting yaitu
pembobotan kata. Pembobotan kata digunakan untuk mengetahui konteks dari
setiap kalimat yang berada dalam dokumen. Salah satu metode yang di gunakan
untuk pembobotan kata yaitu TF-IDF. Term Frequency (TF) yaitu faktor yang
menentukan bobot kata pada suatu document bedasarkan jumlah kemunculan kata
dalam suatu document. Inverse Document Frequency (IDF) adalah pengurangan
doinasi kata yang sering muncul. Metode TF-IDF merupakan metode pembobotan
kata yang banya digunakan sebagai metode pembandingan terhadap suatu
dokumen.
W td =tf td ∗idf (1)

W td =tf td ∗log ( dfiN )(2)


Keterangan :
W td = bobot kata atau token
tf td = jumlah kemunculan kata atau token
N = jumlah setiap dokumen pada dataset
df t = jumlah dokumen yang menggandung kata atau token

11
3.6 Latent Dirichlet Allocation (LDA)
Latent Dirichlet Allocation (LDA) merupakan metode dari topik modeling
dan topik analisis yang sering digunakan. Metode LDA menjadi metode yang
salah satu dipilih dalam melakukan analisis pada dokumen yang berukuran sangat
besar. LDA digunakan untuk meringkas, dan menghubungkan maupun
memproses data yang sangat besar, karena LDA menghasilkan daftar topik yang
diberi bobot pada masing-masing dokumen. Ide dasar yang diusulkan metode
LDA adalah setiap dokumen direpresentasikan sebagai campuran acak atas topik
yang tersembunyi, yang mana setiap topik memiliki karakter yang ditentukan
berdasarkan distribusi kata-kata yang terdapat di dalamnya. [10]

12
BAB IV

METODOLOGI PENELITIAN

4.1 Tempat dan Waktu


Praktik Kerja Lapangan (PKL) dilakasanakan di Working Space PT.
Premier Optima Sattiga di Jln. Petogogan 1, No. 41, Jakarta Selatan.
Kegiatan ini dimulai pada tanggal 14 Januari 2019 sampai dengan 14
Februari 2019.

4.2 Metode Pengumpulan Data


Dalam penulisan laporan Praktek Kerja Lapangan (PKL) ini, penulis
menggunakan data dari media sosial Twitter dengan keyword “gojek” dari
dari 01 Januari 2018 sampai dengan 01 Desember 2018

4.3 Metode Pengolahan Data


Data yang diperoleh dari media sosial Twitter berupa tweet yang
ditulis oleh pengguna layanan media sosial Twitte. Data yang diperoleh
akan dianalisis menggunakan metode Latent Dirichlet Allocation (LDA)
untuk mengetahui topik yang sedang dibicarakan oleh masyarakat tentang
Gojek. Adapun tahap topik modeling menggunakan metode Latent
Dirichlet Allocation (LDA adalah sebagai berikut :
1. Pengumpulan data : penulis menggunakan data media sosial twitter
sebanyak 5500 Tweet dengan melakukan teknik scraping dari tanggal 01
Januari 2018 sampai dengan 01 Desember 2018 yang berkaitan dengan
Gojek.
2. Melakukan pre-processing data : penulis melakukan pembersihan data tweet
yang telah didapat dengan menghilangkan data gambar, hastag, mention,
URL, kata penghubung, memperbaiki kata yang typo, melakukan lowercase.
3. Melakukan PostTag untuk mengambil kata bendanya saja, agar data yang
dihasilkan lebih representatif.

13
4. Melakukan stopwords untuk menghilangkan kata – kata yang tidak
bermakna seperti yang, di, aku, saya, kemana dan lain sebagainya.
5. Melakukan Term Frequency-Inverse Document Frequency (TF-IDF) untuk
mengubah kalimat atau Tweet menjadi bentuk matriks berdasarkan
banyaknya kata yang muncul pada suatu kalimat.
6. Melakukan Klasifikasi menggunakan LDA digunakan untuk melihat topik
yang dihasilkan pada setiap dokumen.
7. Membuat kesimpulan dengan melihat topik apa yang di bicarakan pada
tweet yang diperoleh.
4.4. Alur Penelitian
Prosedur yang dilakukan untuk melakukan klasifikasi data media
sosial Twitter adalah sebagai berikut :

Preprocessing:
Start Scraping
1. Case Folding
2. Tokenizing
3. Filtering
4. Lemmatizing
5. Postagging

Pembentukan
Finish Model LDA

Post tagging

Gambar 4. 1. Alur Pengolahan Data

14
BAB V

PEMBAHASAN

5.1 Analisis Data


Pada penelitian ini data yang digunakan adalah data twitter yang
akan dianalisis menggunakan Topik Modeling. Peneliti menggunakan
teknik scrapping untuk menggambil data melalui twitter. Dataset yang
akan diolah harus melalui tahapan – tahapan preprocessing dengan
menggunakan tokenisasi, slang, filtering, dan lainnya. Agar data yang
disajikan sudah dapat dikelola. Dataset yang sudah memalui tahapan
preprocessing, data yang sudah siap diolah mejadi 5500 tweet yang akan
melakukan tahapan preprocessing denggan menggunakan PostTag dan
tanpa menggunakan PostTag. Kemudian dilanjutkan dengan tahapan
lainnya.

5.2 Preprocessing
Pada tahap ini data terlebih dahulu harus dibersihkan terlebih dahulu,
karena data teks memiliki banyak noise, diantaranya menghapus simbil,
url, menghapus kata yang tidak penting, dan merapihkan kata yang tidak
baku. Hasil dari proses preprocessing tersebut berbentuk Comma
Separated Value (CSV) seperti pada Tabel 5.2

Tabel 5. 1 Hasil Preprocessing

Cleaned Tweet
Tweet
@gupiguber Hai, mohon mohon hati hati hadap pihak luar guna nama
berhati-hati thd pihak luar jek indonesia untuk distribusi voucher pay
menggunakan nama GO-JEK atau minta data pribadi anda pastikan tidak
Indonesia untuk beri kode verifikasi kepada siapapun yang
mendistribusikan voucher GO- minta.
PAY atau meminta data pribadi
Anda. Pastikan tdk

15
memberikan kode verifikasi
kpd siapapun yg meminta. Info
selengkapnya klik: https://t.co

@widi11 Ini aku sehari-hari:


https://t.co/YKS6UihL3F
ini aku hari hari

@lemparsenyum
YADEEUUUU... Kalo jalan di
depan udh buntu, gojekin aja yadeeuu kalau jalan depan sudah buntu
gan... gojekin aja agan

Yang lagi pdkt, pasti resah


banget td yah karena macet
wkwkwk... Santai, kalo nanti
macet lagi, inget ini aja kak yang lagi dekat pasti resah banget tadi karena
#gojekindonesia: macet wkwkwk santai kalau nanti macet lagi
https://t.co/fbE8SRRiqT ingat ini saja kak gojek indonesia

5.3 Wordcloud dan Wordlink


Dari hasil pelabelan secara manual, peneliti membagi sentiment
positif dan sentiment negatif, hal tersebut di lakukan untuk mengetahu
topik apa yang dibahas pada setiap sentiment positif dan sentiment
negative. Kemudian masing-masing tweet yang telah diberi label positif
dan label negative tersebut divisualisasikan menggunakan wordcloud dan
wordlink dengan aplikasi voyant tools. Hal tersebut dilakukan untuk
melihat kata-kata yang dapat dijadikan sebagai ciri-ciri dari kategori topik
sehingga lebih mudah utuk mengetahui topik yang sedang dibahas.
1. Sentiment Positif
Kata “gopay’, “bermanfaat”, dan “grab” sering muncul dalam
sentiment positif dikarenakan banyaknya promo gopay yang ditawarkan
oleh gojek, dimana untuk driver grab sendiri lebih baik dari griver gojek.
Hal tersebut dapat mempengaruhi sentmen positif masyarakat.

16
Gambar 5. 1 Wordcloud dan Wordlink Sentiment Positif

2. Sentiment Negatif
Jika dilihat dari wordcloud dan wordlink, diindikasi sentiment
negatif yang muncul tentang pengemudi gojek, juga masalah tentang saldo
dan promosi. Permasalahan pengemudi gojek yang muncul mungkin
karena driver yang sering mengcancel pesanan, dan permasalahan tentang
saldo maupun promosi dikarenakan promosi yang di lakukan oleh pihak
gojek yang menggunakan pembayaran lewat gopay, hal tersebut
mempengaruhi sentimen negatif masyarakat.

17
Gambar 5. 2. Wordcloud dan Wordlink Sentiment Negatif

5.4 Hasil Pemodelan Latent Dirichlet Allocation


Setelah melihat perbincangan topik-topik yang ada pada
perbincangan gojek di media sosial menggunakan Wordcloud dan
Wordlink, maka diperoleh acuan kata-kata yang dapat dijadikan ciri-ciri
kelompok topik dalam pendefinisian topik maka pengklompokkan
dilanjutkan menggunakan LDA. Untuk melihat hasil pengklompokkan
maka dilakukan percobaan model topik menggunakan LDA dengan
melakukan beberapa penambahan preprocessing. Tahapan yang berbeda
ini terdiri dari menggunakan PosTag, dan menggunakan Stopwords.
Setelah melakukan penambahan preprocessing dari tahapan yang
berbeda tersebut terdapat adanya perubahan ukuran dalam Vector Space
Model (VSM) dimana VSM berbentuk vector dengan nilai baris menunjukan
jumlah dokumen atau jumlah tweet dan kolom menunjukkan jumlah kata yang
muncul. Secara garis besar diperoleh bahwa perlakuan dengan menghapus
duplikasi mengakibatkan berkurangnya jumlah tweet namun jumlah kata-kata
yang muncul tidak berubah karena perlakuan ini hanya menghapus salah satu
tweet yang memiliki isi yang sama, sehingga frekuensi munculnya tweet yang
penting dapat berkurang. Padahal tweet yang sama dapat mempengaruhi
propabilitas pada data tweet yang penting. Pada data yang menggunakan PosTag
dapat mengakibatkan adanya perubahan dalam jumlah tweet dan jumlah kata
yang muncul dikarenakan dengan menggunakan PosTag hanya mempertahankan
tweet yang memiliki kata benda yang terpilih, sehingga kurangnya kata-kata yang
terdapat pada tweet yang sudah dilakukan proses preprocessing dengan

18
menggunakan PosTag dan akan mempersulit proses pendefinisiannya. Akan
tetapi dengan menggunakan PosTag hasil kata-kata yang muncul lebih bersih jika
dibandingkan dengan tidak menggunakan PosTag. Pada data tweet gojek, peneliti
menggunakan model VSM dengan menggunakan TF (Term Frequency) dengan
PosTag. Untuk dapat melihat plot dari hasil klasifikasi dari masing-masing
sentiment perhatikan pada Gambar 5.3.

Gambar 5. 3. Hasil LDA Positif

Gambar 5. 4. Hasil LDA Negatif


Dari Gambar 5.4.1 dan 5.4.2 menunjukkan bahwa hasil klasifikasi LDA, terlihat
bahwan penyebaran topik merata sehingga model yang digunakan cukup baik
untuk mempresentasikan data sentimen. Dari keempat topik tersebut dapat dilihat
kata-kata apa saja yang muncul pada setiap topik yang sudah di buat dan pada
keempat topik tersebut dapat disimpulkan hal apa saja yang jadi pembicaraan
dimasyarakat dengan menggunakan aplikasi media sosial twitter. Perhatikan

19
Gambar 5.5 dan Gambar 5.6 dapat diperoleh kata-kata untuk setiap topik pada
data sentiment positif dan sentiment negative, dan pada topik tersebut dapat
disimpulkan secara garis besar yang menjadi keluhan masyarakat terhadap
layanan ojek online khususnya pada aplikasi gojek.

Gambar 5. 5. Kata-kata untuk sentiment Positif

Gambar 5. 6. Kata-kata untuk sentiment Negatif


BAB VI
KESIMPULAN DAN SARAN

6.1 Kesimpulan
Dari hasil pemodelan topik pada layanan ojek online khususnya pada
gojek yang diambil dari Twitter, dapat ditarik kesimpuln bahwa layanan
ojek online yaitu gojek mempunyai keunggulan atau kelebihan dimana
ramahnya para driver, banyaknya promo untuk mendapatkan voucher.
Pada layanan ojek online yaitu gojek mempunyai kelemahan atau
kekurangan dimana cukup banyak driver yang mengcancel pelanggan,
disaat hujan tarif gojek meningkat, untuk mendapatkan promo biasanya
hanya berada untuk pemesanan yang membayar dengan Go-pay.

6.2 Saran

20
Hal yang perlu ditingkatkan lagi untuk layanan ojek online
khususnya pada aplikasi Gojek agar bisa lebih berkembang adalah :
1. Perbanyak promo yang dapat menarik konsumen tidak hanya melalu
pembayaran dengan Go-pay.
2. Adakan Workshop atau pelatihan kepada para driver agar tidak
melakukan tindakan-tindakan yang negatif seperti pelecehan
3. Menindak Tegas kepada pelaku yang terbukti melakukan tindakan-
tindakan yang negatif berupa suspend atau pemecata

21
DAFTAR PUSTAKA

[1] S. JF, Sosial Media, Mass Media and the Public Sphere. Differentiation,
Complementarity and Co-Existence., Germany, 2016.

[2] D. C, "Introduction to topic modeling in python," 2015. [Online]. Available:


http://chdoig.github.io/pytexas2015-topic-modeling.. [Accessed 29 Maret 2019].

[3] M. K. B. P. d. R. P. Kusumawardani, "Analisis Topik Informasi Publik Media Sosial di


Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation (LDA)," Jurnal
Teknik, vol. 6, pp. 2337-3520, 2017.

[4] N. M. a. E. Weltevrede, Scraping the social ? Issues in real-time social research,


J.Cult. Econ., vol.6, no. 3, pp. 313-335 , 2013.

[5] M. U. Eloisa Vargiu, Exploiting web scraping in a collaborative filtering- based


approach to web advertising, Artificial Intelligence Research, vol. 2, no. 1 pp. 44-54,
2012.

[6] M. F. Y. H. a. H. A. H. Saif, "On Stopwords, Filtering and Data Sparsity for Sentimen
Analysis of Twitter," Proc. Ninth Int. Conf. Lang. Resour. Eval, pp. 810 - 817, 2014.

[7] E. V. a. M. Urru, "Exploiting web scraping in a collaborative filtering - based


approach to web advertising," Artif. Intell, Vols. Vol. 2, No. 1, pp. 44-54, 2012.

[8] M. A. a. R. M. F. Pisceldo, "Probabilistic Part of Speech Tagging for Bahasa


Indonesia,," Proc. 3rd Int. MALINDO Work. Coloca. event ACL-IJCNLP, 2009.

[9] B. P. a. L. Lee, Opinion Mining and Sentiment Analysis. 2nd Edition, Walthan:
Elsevier, 2012.

[10] I. M. K. B. P. d. R. P. Kusumawardani, "Analisis Topik Informasi Publik Media Sosial


di Surabaya Menggunakan Pemodelan Latent Dirichlet Allocation (LDA)," JURNAL
TEKNIK ITS, vol. 6, 2017.

22
LAMPIRAN II
LAMPIRAN II
LAMPIRAN VIII

Data Cuitan Twitter

Like
Username Replies Retweet Tweet Cleaned_Tweet
s

Hai, mohon berhati-hati mohon hati hati


thd pihak luar hadap pihak luar
menggunakan nama guna nama jek
GO-JEK Indonesia indonesia untuk
untuk mendistribusikan distribusi voucher pay
voucher GO-PAY atau atau minta data
meminta data pribadi
@gupiguber 3 0 0 pribadi anda pastikan
Anda. Pastikan tdk
tidak beri kode
memberikan kode
verifikasi kepada
verifikasi kpd siapapun
yg meminta. Info siapapun yang minta
selengkapnya klik: info lengkap klik
https://t.co terimakasih akz

Hai Haerun, kami haerun kami sarankan


sarankan untuk klik untuk klik order lebih
order terlebih dahulu dahulu dan order
dan order Anda anda nanti akan
@haerunn 2 0 0 nantinya akan diterima diterima oleh mitra
oleh Mitra kami ya. kami terima kasih feb
Terima kasih^feb
Mood sebagai karakter
yang diperankan para
pemain film harus
mood karakter
tetap terjaga apapun
diperankan main
kendalanya. Saksikan
film jaga apapun
akting prima dari para
kendalanya
pemain film A Man
@aditbayuuu 0 0 0 saksikan akting
Called Ahok di
prima main film
bioskop hari ini.
bioskop film ahok
#AManCalledAhok
#FilmAhokpic.twitter.c
om/DHYZpJaPLF
Hai, agar dapat kami
proses mohon infokan agar dapat kami
@ ignts30 0 0 0 no hp, email, 2 nmr proses mohon
order terakhir, infokan gadget email
alasannya dan detaip nmr order akhir alas
permintaan history dan detaip minta
order melalui DM ya.
Terima kasih^feb history order lalu
terima kasih feb

Hai, untuk perihal


tersebut kami sarankan
Anda mengirimkan untuk perihal sebut
detail kendala yang kami sarankan anda
Anda alami melalui kirim detail kendala
email ke yang anda alami lalu
@GocarSuvah driversupport@go- email driversupport
2 2 0
jek.com atau Anda atau anda dapat
dapat menghubungi call hubung call center
center kami dinomor kami dinomor terima
021-50233200. Terima kasih aku
kasih. ^Ak

Hai Michelle, untuk michelle untuk


sarannya akan kami sarannya akan kami
sampaikan pada tim sampaikan pada tim
kami agar menjadi kami agar jadi bahan
@mtttttsw 6 0 2 bahan pertimbangan timbang dan terima
dan terima kasih kasih kasih kasih untuk
untuk sarannya ya. ^feb sarannya feb

Hai, kami informasikan


bahwa pihak GO-JEK
tidak pernah
menghubungi customer
faiz saat ini kami
untuk meminta kode
belum terima anda
OTP. Terkait perihal
bisa informasikan
tersebut mohon agar
perihal yang ingin
@Wawamukhlis 6 0 3 tidak memberikan data
anda sampaikan akz
kepada siapapun &
hati-hati terhadap
penipuan silakan klik
https://t.co/7h0Zlljq

@f4izal2go Hai Faiz, saat ini kami


5 0 0
belum menerima DM devy kait dengan
Anda. Bisa informasikan kendala sebut kami
perihal yg ingin Anda sarankan anda untuk
sampaikan? ^akz install aplikasi jek
anda lebih dahulu
dan coba kembali
cara kala terimakasih
akz
LAMPIRAN IX aeard : penghargaan alasn : alasan

Daftar Kata Slang


abal2 : abal-abal

abis : habis
agma : agama aleg : caleg
about : tentang
agree : setuju alih2 : alih-alih
abu2 : abu-abu
ahoax : ahok alsn : alasan
acah2 : acah-acah
aj : saja america : amerika
acara2 : acara-acara
aja : saja ama : sama
acc : terima
ajah : saja ampe : sampai
account : akun
ajak2 : ajak-ajak amrik :amerika
acr : acara
aje : saja anak2 : anak-anak
activists : aktifis
ak : aku anak2nya : anak-
actually : sebenarnya
akar2nya : akar- anaknya
ad : ada
akarnya anak2x : anak-anak
ada2 : ada-ada
akaun : akun ancur : hancur
adl : adalah
akherat : akhirat and : dan
adlh : adalah
akhir2 : akhir-akhir anda : kamu
administ :
akn : akan ane : saya
administrasi
aksi2 : aksi-aksi aneh2 : aneh-aneh
adoption : adopsi
aktifis2:aktivis-aktivis ang : anggota
advertisement : iklan
aktivi : aktivis angg : anggota
advocate :
akun2 : akun-akun anggep : anggap
menganjurkan
alang-alang : untuk
anggota2 : anggota-

anggota
LAMPIRAN X

Code Program Topik Modeling

import numpy as np
import pandas as pd
import TSutanto_lib as TS
from bs4 import BeautifulSoup as bs
import re,csv, os, itertools
from tqdm import tqdm
from nltk.tokenize import RegexpTokenizer
from nltk.stem import WordNetLemmatizer
from nltk import sent_tokenize, word_tokenize
from spacy.lang.id import Indonesian
from html import unescape
from unidecode import unidecode
#Cleaning Teks
def LoadStopWords(lang):
L = lang.lower().strip()
if L == 'en' or L == 'english' or L == 'inggris':
lemmatizer = WordNetLemmatizer()
stops = set([t.strip() for t in LoadDocuments(file =
'C:/WPy64-3680/notebooks/datapkl/stopwords_eng.txt')[0]])
elif L == 'id' or L == 'indonesia' or L=='indonesian':
lemmatizer = Indonesian()
stops = set([t.strip() for t in LoadDocuments(file =
'C:/WPy64-3680/notebooks/datapkl/stopwords_id.txt')[0]])
else:
print('Warning, language not recognized. Empty StopWords Given')
stops = set(); lemmatizer = None
return stops, lemmatizer
def LoadSlang(DirSlang):
Slangs =TS.LoadDocuments(file = DirSlang)
SlangDict={}
for slang in Slangs[0]:
try:
key, value = slang.split(':')
SlangDict[key.strip()] = value.strip()
except:
pass
return SlangDict

#Menghilangkan Hastag
def fixTags(tweet):
getHashtags = re.compile(r"#(\w+)")
pisahtags = re.compile(r'[A-Z][^A-Z]*')
t = tweet
tagS = re.findall(getHashtags, tweet)
for tag in tagS:
proper_words = ' '.join(re.findall(pisahtags, tag))
t = t.replace('#'+tag,proper_words)
return t

def cleanText(tweet, fix={}, lang = 'id', lemma= None, stops = set(),


symbols_remove = False, min_charLen = 0):
# lang & stopS only 2 options : 'en' atau 'id'
# symbols ASCII atau alnum
pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-
fA-F][0-9a-fA-F]))+')
t = re.sub(pattern,' ',str(tweet)) #remove urls if any
t = unescape(t) # html entities fix
t = fixTags(t) # fix abcDef
t = t.lower().strip() # lowercase
t = unidecode(t)
t = ''.join(''.join(s)[:2] for _, s in itertools.groupby(t)) # remove repetition
t = sent_tokenize(t) # sentence segmentation. String to list
for i, K in enumerate(t):
if symbols_remove:
K = re.sub(r'[^\w]',' ',K)
cleanList = []
if lang =='en':
listKata = word_tokenize(K) # word tokenize
for token in listKata:
if token in fix.keys():
token = fix[token]
if lemmatizer:
token = lemmatizer.lemmatize(token)
if stops:
if len(token)>=min_charLen and token not in stops:
cleanList.append(token)
else:
if len(token)>=min_charLen:
cleanList.append(token)
t[i] = ' '.join(cleanList)
else:
K = lemmatizer(K)
listKata = [token.text for token in K]
for token in listKata:
if token in fix.keys():
token = fix[token]
if lemmatizer:
token = lemmatizer(token)[0].lemma_
if stops:
if len(token)>=min_charLen and token not in stops:
cleanList.append(token)
else:
if len(token)>=min_charLen:
cleanList.append(token)
t[i] = ' '.join(cleanList)
return ' '.join(t) # Return kalimat lagi
def LoadDocuments(dPath=None,types=None, file = None): # types =
['pdf','doc','docx','txt','bz2']
Files, Docs = [], []
if types:
for tipe in types:
Files += crawlFiles(dPath,tipe)
if file:
Files = [file]
if not types and not file: # get all files regardless of their extensions
Files += crawlFiles(dPath)
for f in Files:
if f[-3:].lower()=='pdf':
try:
Docs.append(PDF(f).string)
except:
print('error reading{0}'.format(f))
elif f[-3:].lower()=='txt' or f[-3:].lower()=='dic':
try:
df=open(f,"r",encoding="utf-8", errors='replace')
Docs.append(df.readlines());df.close()
except:
print('error reading{0}'.format(f))
elif f[-3:].lower()=='bz2':
try:
Docs.append(readBz2(f))
except:
print('error reading{0}'.format(f))
elif f[-4:].lower()=='docx':
try:
Docs.append(docx2txt.process(f))
except:
print('error reading{0}'.format(f))
elif f[-3:].lower()=='csv':
Docs.append(pd.read_csv(f))
else:
print('Unsupported format {0}'.format(f))
if file:
Docs = Docs[0]
return Docs, Files
#POS Tagging
from nltk.tag import CRFTagger
def postag(text):
#Tokenisasi Data
tokenized_sents = word_tokenize(str(text))
#pemberian Tag tiap token
ct = CRFTagger()

ct.set_model_file('C:/WPy64-3680/notebooks/datapkl/all_indo_man_tag_corpus_
model.crf.tagger')
#directorynya disesuaikan meletakan file crfnya, harus download dlu file crfnya
pt = ct.tag(tokenized_sents)
ptN = []
noun = set(['NN','NNP', 'NNS','NNPS'])
tmp = []
for w in pt:
if w[1] in noun:
tmp.append(w[0])
if len(tmp)>0:
ptN.append(' '.join(tmp))
return ' '.join(ptN)
dataPos = pd.read_csv("data gojek positive bersih fix banget.csv")
dataPos.head()
#Dengan Postag
Top_PosTag = [d for d in dataPos['Anotasi']]

for i,d in tqdm(enumerate(Top_PosTag)):


Top_PosTag[i] = cleanText(postag(d),Slangs, lemma=lemmatizer,lang='id',
stops = stops, symbols_remove = True, min_charLen = 2)
print("done!!! {0} tweet".format(i+1))
Top_PosTag
from sklearn.feature_extraction.text import TfidfVectorizer,CountVectorizer
Tfidf_vectorizer = TfidfVectorizer(max_df=0.75, min_df=5)
XPT = Tfidf_vectorizer.fit_transform(Top_PosTag)
XPT_term = Tfidf_vectorizer.get_feature_names()
print(XPT.shape)
#Menggunakan PosTag
import numpy as np
#menghapus tf yang bernilai 0
nidx = np.array(range(len(Top_PosTag)))
nidx = nidx[XPT.getnnz(1)>0] # Remove Zero Rows
data_bersih = [Top_PosTag[i] for i in nidx]
XPT = XPT[XPT.getnnz(1)>0] # Remove Zero Rows
XPT_terms = Tfidf_vectorizer.get_feature_names()
print(XPT.shape)
# Menggunakan PosTag
from sklearn.feature_extraction.text import CountVectorizer
tf_vectorizer = CountVectorizer()
XPT = tf_vectorizer.fit_transform(Top_PosTag)
XPT_terms = tf_vectorizer.get_feature_names()
XPT.shape
import numpy as np
#menghapus tf yang bernilai 0
nidx = np.array(range(len(Top_PosTag)))
nidx = nidx[XPT.getnnz(1)>0] # Remove Zero Rows
data_bersih = [Top_PosTag[i] for i in nidx]
XnPT = XPT[XPT.getnnz(1)>0] # Remove Zero Rows
XnPT_terms = tf_vectorizer.get_feature_names()
print(XnPT.shape)
from sklearn.decomposition import LatentDirichletAllocation as LDA
n_topics = 4
lda = LDA(n_components=n_topics, learning_method='batch',
random_state=0).fit(XnPT)
lda
# Melihat Topik-topiknya
vsm_topics = lda.transform(XnPT)
print(vsm_topics.shape)
len(vsm_topics)
# Ukuran kolom = #Topics ==> Dimension Reduction
# Seandainya diasumsikan 1 dokumen hanya 1 topic dengan nilai skor topic
terbesar
doc_topic = [a.argmax()+1 for a in tqdm(vsm_topics)] # topic of docs
# mari kita plot
import seaborn as sns
sns.countplot(doc_topic)# mari kita plot
import seaborn as sns
sns.countplot(doc_topic)
def print_Topics(model, feature_names, Top_Topics, n_top_words):
for topic_idx, topic in enumerate(model.components_[:Top_Topics]):
print("Topic #%d:" %(topic_idx+1))
print(" ".join([feature_names[i]
for i in topic.argsort()[:-n_top_words - 1:-1]]))
# Mari kita coba maknai masing-masing topic ini
Top_Words=15 #ini mau memunculkan berapa banyak kata, untuk memudahkan
pendefinisian kelompok
Ntopic=4
print('Printing top {0} Topics, with top {1} Words:'.format(Ntopic, Top_Words))
print_Topics(lda, XnPT_terms,Ntopic, Top_Words)
# %matplotlib inline
import pyLDAvis, pyLDAvis.sklearn; pyLDAvis.enable_notebook()
pyLDAvis.sklearn.prepare(lda, XPT, tf_vectorizer)

Anda mungkin juga menyukai