Muhammad Diaz Elprana Rangkuti-Fst

ANALISIS TOPIK KOMENTAR VIDEO BEBERAPA AKUN
YOUTUBE E-COMMERCE INDONESIA MENGGUNAKAN

METODE LATENT DIRICHLET ALLOCATION
SKRIPSI
Muhammad Diaz Elprana Rangkuti

11150940000021
PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH
JAKARTA
2020 M/1441 H
ANALISIS TOPIK KOMENTAR VIDEO BEBERAPA AKUN
YOUTUBE E-COMMERCE INDONESIA MENGGUNAKAN
METODE LATENT DIRICHLET ALLOCATION
Skripsi
Diajukan kepada
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Fakultas Sains dan Teknologi
Untuk Memenuhi Salah Satu Persyaratan dalam
Memperoleh Gelar Sarjana Matematika (S.Mat)
Oleh:
Muhammad Diaz Elprana Rangkuti
11150940000021
PROGRAM STUDI MATEMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UIN SYARIF HIDAYATULLAH JAKARTA
2020 M / 1441 H
iii
iv
PERSEMBAHAN
For my beloved family
MOTTO
“Karena sesungguhnya sesudah kesulitan pasti ada kemudahan.

Sesungguhnya sesudah kesulitan pasti ada kemudahan” (QS. Al-
Insyirah: 5-6)
KATA PENGANTAR
Assalamu’alaikum Warahmatullahi Wabarakatuh
Alhamdulillahirabbil’alamin puji dan syukur kehadirat Allah Subhanahu

wa Ta’ala yang telah memberikan rahmat dan karunia-Nya sehingga penulis dapat
menyelesaikan skripsi yang berjudul “Analisis Topik Komentar Video Beberapa
Akun Youtube E-Commerce Indonesia Menggunakan Metode Latent Dirichlet
Allocation”. Shalawat serta salam semoga tercurah kepada junjungan kita Nabi
besar Muhammad Shallallah ‘Alayhi wa Sallam, serta keluarga dan para
sahabatnya, yang telah memberikan tauladan yang baik kepada kita semua, semoga
kita termasuk umatnya yang kelak mendapatkan syafa’at dalam menuntut ilmu.
Dalam penyusunan skripsi ini, penulis mendapat banyak bantuan, saran dan
bimbingan dari berbagai pihak. Untuk itu, penulis menyampaikan terimakasih
kepada:
1. Ibu Prof. Dr. Lily Surraya Eka putri, M.Env.Stud selaku Dekan Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta.
2. Ibu Dr. Suma’inna, M.Si, selaku Ketua Program Studi Matematika dan Ibu
Irma Fauziah M.Sc selaku Sekretaris Program Studi Matematika Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta
3. Bapak Taufik Edy Sutanto, M.ScTech selaku pembimbing I yang sudah
membimbing, dan memberikan saran kepada penulis selama proses
penyusunan skripsi ini hingga selesai.
4. Ibu Yanne Irene, M.Si selaku pembimbing II yang telah memberikan
bimbingan dan arahan kepada penulis dalam penyusunan skripsi.
5. Kedua orang tua penulis Bapak Azhari dan Ibu Ellan, serta kakak penulis
Azel yang selalu memberikan doa, dukungan semangat dan kasih sayang
kepada penulis dari awal hingga tahap sekarang ini.
6. Mba Iti, Umi, Eyang, Dede EL, dan saudara-saudara lainnya yang terus
memberikan kebahagian setiap minggunya kepada penulis.
vii
7. Pria Punya Selera yang juga telah memberikan semangat serta bantuan
dalam pengerjaan skripsi.
8. Teman-teman matematika 2015 yang telah berjasa dalam penulisan skripsi
ini, Nindita Nadilia dan lainnya yang tidak bisa disebutkan satu persatu.
9. Seluruh mahasiswa Matematika Fakultas Sains dan Teknologi UIN Syarif
Hidayatullah Jakarta yang telah memberikan dukungan kepada penulis.
10. Semua pihak yang telah membantu penulis yang tidak dapat disebutkan satu
persatu.
Penulis menyadari masih terdapat banyak kekurangan dalam menyusun
skripsi ini. Oleh karena itu, penulis menerima kritik dan saran yang bersifat
membangun agar lebih baik untuk kedepannya. Semoga skripsi ini dapat
bermanfaat dan menambah wawasan bagi para pembaca.
Wassalamu’alaikum Warahmatullahi Wabarakatuh
Ciputat, April 2020
Penulis
viii
DAFTAR ISI
PERNYATAAN ................................................................................................................ iii
LEMBAR PENGESAHAN ................................................................................................iv
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI .............................................iv
PERSEMBAHAN ...............................................................................................................vi
KATA PENGANTAR .......................................................................................................vii
DAFTAR ISI.......................................................................................................................ix
DAFTAR GAMBAR……………………………………………………………………..xi
ABSTRAK……………………………………………………………………………….xii
ABSTRACT…………………………………………………………………………….xiii
BAB I PENDAHULUAN ................................................................................................... 1

1.1 Latar Belakang ....................................................................................................... 1
1.2 Rumusan Masalah .................................................................................................. 5
1.3 Batasan Masalah .................................................................................................... 5
1.4 Tujuan Penelitian ................................................................................................... 5
1.5 Manfaat Penelitian ................................................................................................. 5
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI ........................................... 6
2.1 Text Mining ............................................................................................................ 6
2.1.1 Scraping ........................................................................................................ 7
2.1.2 Preprocessing Text…………………………………………………………………7
2.2 Term Frequency Inverse Document Frequency (TFIDF) ...................................... 8
2.3 Latent Dirichlet Allocation (LDA)……………………………………….............8
2.4 Topic Coherences……………………………………………………………….11
BAB III METODOLOGI PENELITIAN ......................................................................... 13
3.1 Sumber Data ........................................................................................................ 13
3.2 Tahapan Penelitian ............................................................................................... 16
3.3 Diagram Alur Penelitian ...................................................................................... 17
BAB IV HASIL DAN PEMBAHASAN .......................................................................... 18
4.1 Pengolahan Data .................................................................................................. 18
4.2 Penentuan Topik yang Optimal ........................................................................... 24
4.3 Ringkasan Analisis Topik secara Keseluruhan .................................................... 27
BAB V PENUTUP ........................................................................................................... 29
ix
5.1 Kesimpulan .......................................................................................................... 29
5.2 Saran .................................................................................................................... 29
REFERENSI ..................................................................................................................... 30
x
DAFTAR GAMBAR
Gambar 1.1 Presentase pengguna aktif media sosial di Indonesia pada Januari
2019....................................................................................................2
Gambar 1.2 Pertumbuhan e-commerce di Indonesia 2014-2021………………...3
Gambar 1.3 Perusahaan ritel online yang terbanyak dipilih pada tahun 2018 …..3
Gambar 2.1 Proses kerja probabilistic graphical model…………………………9
Gambar 2.2 Proses perhitungan Topic Coherence…………………………...…12
Gambar 2.3 Hasil skor penilaian coherence terhadap interpretasi manusia dari
berbagai metode……………………………………………………12
Gambar 3.1 Jumlah komentar pada masing-masing e-commerce……………....13
Gambar 3.2 Jumlah pengguna yang berkomentar pada masing-masing e-

commerce…………………………………………………………..13
Gambar 3.3 Jumlah subscriber dan jumlah video pada setiap akun.…………...15
Gambar 3.4 Diagram Alur Penelitian…………………………………………...17
Gambar 4.1 Statistik Deskriptif komentar pada setiap e-commerce…………...19
Gambar 4.2 Statistik Deskriptif komentar keseluruhan………………………..19
Gambar 4.3 Wordlink dan contoh kolom komentar pada LZD.………………...20
Gambar 4.4 Wordlink dan contoh kolom komentar pada BKLPK …..…………21
Gambar 4.5 Wordcloud dan contoh kolom komentar pada SHP…..………........22
Gambar 4.6 Wordcloud dan contoh kolom komentar pada TKPD……………...23
xi
Gambar 4.7 Wordlink dan video dengan jumlah komentar terbanyak secara
keseluruhan………………………………………………………...23
Gambar 4.8 Grafik nilai koheren BKLPK, LZD Indonesia, SHP, dan
TKPD………………………………………………………………25
Gambar 4.9. Kata-kata yang muncul dalam cluster pada setiap akun………….26
Gambar 4.10 Topik komentar Youtube pada setiap perusahaan dari

4-26 Oktober 2019..……………….............................…………..27
Gambar 4.11 Plot nilai koheren dan topik dengan metode Cross Validation.….28
Gambar 4.12 Beberapa contoh konten atau segmen yang paling sering di bahas
masyarakat melalui Youtube……………………………………..28
xii
ABSTRAK
Muhammad Diaz Elprana Rangkuti, Analisis Topik Komentar Video Beberapa

Akun Youtube E-Commerce Indonesia Menggunakan Metode Latent Dirichlet
Allocation. Di bawah bimbingan Dr. Taufik Edy Sutanto M.ScTech dan Yanne
Irene, M.Si.
Beberapa perusahaan e-commerce di Indonesia saat ini mulai melakukan pemasaran

produk atau aplikasi melalui Youtube. Salah satu sektor e-commerce yang
melakukan pemasaran di Youtube adalah sektor ritel. Tidak seperti sektor edukasi
maupun transportasi yang hanya memiliki 2-3 kompetitor, pada sektor ini ada
banyak nama perusahaan yang sudah tidak asing untuk masyarakat. TKPD, LZD
Indonesia, BKLPK, dan SHP merupakan sekian dari banyaknya perusahaan yang
bergerak pada sektor ini. Penelitian ini ingin melihat topik apa saja yang dibahas
masyarakat ketika membuka setiap akun e-commerce di Indonesia melalui
komentar pada Youtube antara tanggal 4-26 Oktober 2019. Penelitian ini juga
menggunakan metode Latent Dirichlet Allocation untuk menentukan topik yang
sering dibahas melalui representasi kata-kata dan metric evaluation untuk
menentukan nilai koheren pada setiap topik. Metode metric evaluation yang
digunakan pada penelitian ini adalah validasi silang. Setiap topik akan dihitung
rata-rata probabiltas beberapa kata didalamnya. Topik dengan nilai koheren yang
tertinggi akan dianggap sebagai jumlah topik yang paling optimal. Hasilnya
didapatkan bahwa BKLPK memiliki nilai koheren tertinggi sebesar 0.42, LZD
memiliki nilai koheren tertinggi 0.533, SHP memiliki nilai koheren tertinggi
sebesar 0.46, dan TKPD memiliki nilai koheren tertinggi sebesar 0.464. Dengan
kata lain, kehadiran personil BTS di akun TKPD, kuis suatu produk di akun
BKLPK, dan kehadiran selebritis tanah air di akun SHP merupakan beberapa
pembahasan yang paling sering dibahas masyarakat tanggal 4- 26 Oktober 2019.
Hal ini juga memperlihatkan bahwa topik selebritis merupakan topik yang paling
sering di bahas masyarakat ketika membahas keempat perusahaan tersebut.
Kata kunci: e-commerce, latent dirichlet allocation, metric evaluation, nilai

koheren, validasi silang
xiii
ABSTRACT
Muhammad Diaz Elprana Rangkuti, Topic Analysis Video Comment on Several

Indonesia E-commerce Accounts Using Latent Dirichlet Allocation Method. Under
the guidance of Dr. Taufik Edy Sutanto, MscTech and Yanne Irene, M.Si.
Some e-commerce companies in Indonesia are currently marketing products or

application via Youtube. One e-commerce sector which is very visible doing
marketing on Youtube is the retail sector. Unlike education and transportation
sectors which only have 2-3 competitors, in this sector there are many names of
companies that are familiar to the public. TKPD, LZD Indonesia, BKLPK, and SHP
is the number of companies engaged in this sector. This research want to see what
topic are discussed by the public when opening every e-commerce account in
Indonesia through comments on Youtube between 4 -26 October 2019. This study
also uses the Latent Dirichlet Allocation method to determine topics that are often
discussed through the representation of words and metric evaluation to determine
the coherence value on each topic. In this study the metric evaluation method used
is cross validation. Each topic will calculate the average probability of a few words
in itu.Topics with the highest coherence value will be considered as sum of the most
optimal topic to be interpreted. The results show that BKLPK has the highest
coherent value of 0.42, LZD has the highest coheret value of 0.533, SHP has the
highest coherent value of 0.46, and TKPD has the highest coherent value of 0.464.
In other hand, the presence of BTS personnel in TKPD, quiz for a product in
BKLPK, and the presence of Indonesia entertainers in SHP are some of topics most
frequently discussed by the public until October 26, 2019. And also the results
obtained that it turns out that the topic of celebrity is the topic most often discussed
by the public when discussing the four companies.
Keyword: e-commerce, latent dirichlet allocation, metric evaluation, coherence

value, cross validation
xiv
BAB I
PENDAHULUAN
Di Indonesia, Youtube merupakan salah satu media pemasaran e-commerce

untuk menarik pelanggan. Dengan menggunakan Youtube, setiap e-commerce
dapat melihat apa saja topik yang di bahas oleh masyarakat. Salah satu penilaiannya
dapat dilihat melalui data pada kolom komentar. Pada bab ini akan dijelaskan latar
belakang penelitian ini berasal, tujuan dan manfaat penelitian ini serta rumusan dan
batasan masalah dalam penelitian ini.
1.1 Latar Belakang
Youtube merupakan salah satu media sosial yang menggunakan video.

Youtube adalah salah satu platform video dari Amerika yang didirikan oleh Chad
Hurley, Steve Chen, dan Jawed Karim pada tahun 2005 [1]. Acara-acara televisi
saat ini sering mengunggah kembali acaranya di Youtube. Hampir semua konten di
televisi sekarang mulai memanfaatkan Youtube untuk menarik penonton. Bahkan,
musisi juga dapat mempromosikan lagu-lagu dan albumnya melalui Youtube.
Salah satu hal yang bisa membuat masyarakat menonton Youtube adalah
kemudahannya dalam mengakses video yang diinginkan. Tidak seperti di televisi
yang memiliki iklan dan episode yang lama, Youtube memiliki iklan yang relatif
lebih cepat. Kemudahan ini membuat masyarakat cenderung lebih senang
menonton di Youtube daripada di televisi. Survei We Are Social bahkan
memprediksi 132 juta lebih orang Indonesia menjadi pengguna Youtube [2].
Dengan lebih dari 1 Miliar pengguna perbulan di seluruh dunia, tidak berlebihan
untuk mengatakan bahwa Youtube merupakan salah satu platform online paling
populer saat ini. Selain itu Youtube juga menjadi platform media sosial dengan
pengguna terbanyak di Indonesia [2]. Hal ini dapat dilihat berdasarkan Gambar 1.1.
1
Presentase Pengguna Aktif Media Sosial di
Indonesia pada Januari 2019
100%
80%
60%
40%
20%
0%
Youtube Whatsapp Facebook Instagram Line Twitter
Gambar 1.1. Presentase pengguna aktif media sosial di Indonesia pada

Januari 2019.
Dari Gambar 1.1 dapat diperkirakan bahwa sekitar 237.6 juta orang di
Indonesia menggunakan Youtube pada awal tahun 2019. Selain itu, besarnya angka
tersebut juga memperlihatkan bahwa salah satu pemasaran paling optimal saat ini
adalah dengan melalui Youtube.
Di sisi lain, e-commerce di Indonesia juga akhir-akhir ini sering mendapat

perhatian tinggi dari masyarakat. TKPD, SHP, dan BKLPK adalah beberapa
perusahaan e-commerce yang cukup terkenal. Berdasarkan penelitian dari
Kementerian Komunikasi dan Informasi pada tahun 2015 didapatkan bahwa dari
93,4 juta pengguna internet di Indonesia, 77% dari angka tersebut pernah mencari
informasi produk dan belanja online [3]. Dengan kata lain, sekitar 72 juta pengguna
di Indonesia pada tahun 2015 pernah melakukan belanja secara online.
Pertumbuhan e-commerce juga sering menjadi pembicaraan menarik dalam

forum-forum bisnis. Banyak yang menyayangkan kehadiran para e-commerce
karena seperti mematikan pasar konvensional, tetapi juga tidak sedikit yang
memprediksi pertumbuhan e-commerce membantu pertumbuhan ekonomi di
Indonesia [3]. Berdasarkan Gambar 1.2 dapat dilihat pertumbuhan e-commerce
tahun 2014-2021.
2
Pertumbuhan E-Commerce di Indonesia
2014-2021
Triliun (US Dolar)

6
4
2
0
2014 2015 2016 2017 2018 2019 2020 2021
Tahun
Gambar 1.2. Pertumbuhan e-commerce di Indonesia 2014-2021.
Gambar 1.2 memperlihatkan akibat dari pertumbuhan e-commerce di

Indonesia menjadikan persaingan setiap e-commerce menjadi sengit dan menarik
untuk dibahas khususnya dalam sektor situs jual beli online. Nama-nama seperti
BKLPK, TKPD, SHP, LZD, dan Blibli merupakan beberapa dari sekian banyak e-
commerce yang bergerak pada sektor tersebut. Pada tahun 2018 terdapat sebuah
penelitian yang menggambarkan banyaknya pengguna aplikasi e-commerce pada
sektor ini. Berdasarkan Gambar 1.3 dapat dilihat banyaknya pengguna masing-
masing e-commerce [4].
Presentase Ritel Online Terbanyak Dipilih pada

Tahun 2018
3% 1%
8% Tokopedia
Shopee
23%
12% Bukalapak
13% Lazada
22%
18% JD.ID
Blibli
Gambar 1.3. Perusahaan ritel online yang terbanyak dipilih pada tahun
2018 [4].
Pada Gambar 1.3 cukup wajar bila nama-nama perusahaan diatas mulai
menggunakan Youtube untuk semakin menarik perhatian masyarakat. Dengan
3
jumlah pengguna 237.6 juta pengguna aktif Youtube, bisa dikatakan cukup banyak
pengguna juga yang akan melihat iklan-iklan perusahaan tersebut di Youtube.
Akibatnya, membahas apa saja yang dibicarakan dan menentukan
topik/pembahasan pada kolom komentar Youtube setiap akun e-commerce cukup
menarik untuk dibahas. Sebagai contoh, apa saja yang dibahas masyarakat ketika
melihat iklan-iklan di TKPD, lalu bagaimana respon masyarakat terhadap iklan-
iklan di BKLPK, SHP, dan seterusnya.
Penelitian ini mengutip penggalan ayat suci Al Quran yang artinya: “Dan
tolong-menolonglah kamu dalam (mengerjakan) kebajikan dan takwa, dan jangan
tolong-menolong dalam berbuat dosa dan pelanggaran. Dan bertakwalah kamu
kepada Allah, sesungguhnya Allah amat berat siksa-Nya.”(QS. Al-Maidah: 2) yang
dapat dimaknai bahwa selama sesuai dengan ilmu dan kemampuan, peneliti akan
berusaha menolong saudara sekandung, saudara sebangsa, dan saudara seiman demi
kemaslahatan bersama.
Penelitian ini menggunakan metode Latent Dirichlet Allocation untuk

membantu menentukan topik/pembahasan apa yang muncul pada setiap akun
Youtube e-commerce. Latent Dirichlet Allocation merupakan salah satu teknik
topic modelling yang populer saat ini. Banyaknya modul, ulasan dan referensi
tentang Latent Dirichlet Allocation menjadi alasan mengapa metode tersebut yang
digunakan dalam penelitian ini. Hal lainnya yang menyebabkan penelitian ini
menggunakan metode Latent Dirichlet Allocation karena variabel-variabel pada
data kolom komentar Youtube bersifat laten (tidak dapat terlihat) [6].
Penelitian ini memiliki referensi utama dari jurnal penelitian Arsy Arlina
pada tahun 2019 yang berjudul,”Sequential Topic Modelling: A Case Study on
Indonesian LGBT Coversation on Twitter” dan Maria Sokolova pada tahun 2016
yang berjudul,”Topic Modelling and Event Identification from Twitter Textual Data
[5].
Perbedaan penelitian ini dengan beberapa penelitian sebelumnya adalah studi

kasus penelitian ini menggunakan komentar pada akun Youtube beberapa
4
perusahaan e-commerce di Indonesia dari tanggal 4-26 Oktober 2019. Selain itu,
penelitian ini menggunakan metode cross validation untuk menentukan topik mana
yang paling optimal.
1.2 Rumusan Masalah

Berdasarkan latar belakang masalah yang dipaparkan di atas, maka rumusan
masalah dalam penulisan laporan ini adalah sebagai berikut:
1. Topik apa yang optimal pada komentar akun Youtube masing-masing e-
commerce?
2. Bagaimana hasil analisis perbedaan topik komentar antar e-commenrce pada
kumpulan komentar video?
1.3 Batasan Masalah
Pembatasan masalah pada penelitian ini adalah sebagai berikut:
1. Data diambil dari komentar Youtube secara rutin setiap minggu dari tanggal 4
Oktober hingga 26 Oktober 2019.
2. Pada penelitian ini, data komentar hanya diambil dari 4 perusahaan yaitu, SHP,
TKPD, BKLPK, dan LZD Indonesia.
1.4 Tujuan Penelitian
Adapun tujuan dari penelitian ini, yaitu:
1. Mengetahui topik yang optimal pada komentar akun Youtube pada masing-
masing e-commerce.
2. Mengetahui perbedaan topik komentar antar e-commerce.
1.5 Manfaat Penelitian

Manfaat yang dapat diambil dari penulisan ini adalah:
1. Penelitian ini dapat membuat masyarakat mengetahui topik-topik apa yang

paling sering dibahas masyarakat ketika membahas e-commerce.
2. Penelitian ini dapat memperlihatkan adanya persamaan maupun perbedaan
topik pada masing-masing e-commerce melalui komentar Youtube.
5
BAB II
TINJAUAN PUSTAKA DAN LANDASAN TEORI
Pada penelitian ini berlandaskan beberapa penelitian sebelumnya, yaitu jurnal
penelitian tentang LDA oleh Marina Sokolova dan kawan-kawan pada tahun 2016
yang berjudul,”Topic Modelling and Event Identification from Twitter Textual Data
serta jurnal ilmiah Miska Irani dan kawan-kawan pada tahun 2018 tentang e-
commerce yang berjudul, “Analisis Positioning E-Commerce dengan metode
Multidimensional Scalling [7]. Selain itu, jurnal penelitian oleh Moh. Aziz dan
kawan-kawan yang berjudul,” Klasifikasi Dokumen Komentar pada Situs Youtube
Menggunakan Algoritma K-Nearest Neightbor (K-NN) juga menjadi referensi
tambahan pada penelitian ini [8]. Terakhir, selain jurnal penelitian Arsy, penelitian
ini berlandaskarn jurnal Abu Salam dengan judul “Analisis Sentimen Data
Komentar Sosial Media Facebook dengan K-Nearest Neightbor” dan jurnal Latent
Dirichlet Allocation karya Blei dan kawan-kawan [9] [14].
2.1 Text Mining

Pada saat ini perkembangan data sering menjadi tidak terstruktur. Tidak
sedikit saat ini, pengolahan data statistik saat ini berasal dari data teks. Pertanyaan
seperti:
1. Apa pendapat masyarakat tentang goyang SHP yang diperankan Ronaldo?
2. Siapa ritel online terfavorit di Indonesia saat ini?
3. Apa topik yang sering dibahas masyarakat ketika membahas setiap e-
commerce?
tentu cukup sederhana. Tetapi untuk mendapatkan jawaban, diperlukan gambaran
yang umum dari perhitungan statistik, karena itu diperlukan Text Mining untuk
melakukan analisis tersebut [10]. Text Mining atau dalam buku Text Mining karya
Onno Purbo, yang disebut analisis tekstual merupakan suatu cara bagi peneliti
untuk mengumpulkan informasi tentang bagaimana manusia lain memahami dunia.
Kebanyakan saat ini, analisis tekstual berupa melakukan pelabelan topik (Topic
Modelling) dan Analisis Sentimen. Pada penelitian ini akan dilakukan pelabelan
topik.
6
Secara umum terdapat 4 proses yang perlu dijalankan dalam text mining,
antara lain [10]:
1. Akusisi data atau istilahnya scraping.
2. Penyiapan Data atau text preprocessing.
3. Pemodelan yang akan melalui proses looping dengan proses evaluasi
dan validasi.
4. Presentasi untuk memvisualisasikan hasil pemodelan yang dilakukan.
2.1.1 Scraping
Banyak orang yang membuka Youtube sering kali meninggalkan jejak
komentar di video-video yang mereka suka atau tidak suka. Akibatnya, penilaian
terhadap suatu video tidak hanya dilihat dari banyaknya like. Data komentar sering
kali lebih memperjelas topik pembahasan daripada jumlah like/subscriber. Oleh
karena itu, pada tahap ini akan dilakukan pengambilan data komentar alias
scraping. Scraping merupakan teknik untuk mengumpulkan data online secara
otomatis, atau dengan kata lain merupakan teknik mengekstrak informasi dari
kumpulan data pada situs web secara otomatis [10].
Melakukan Scraping pada data komentar di Youtube diyakini dapat
membantu bagian pemasaran untuk menilai dan mengetahui apa inti atau ide pokok
dari kumpulan komentar pada suatu e-commerce. Dalam pembuatan video di
Youtube, sekarang ini memang sudah ada aplikasi Analisis Youtube untuk
melakukan evaluasi ataupun mengetahui topik yang sering dibahas masyarakat,
namun itu hanya terbatas dari akun ofisial milik penggunanya saja. Akibatnya tidak
bisa dilakukan perbandingan topik antar video dari perusahaan A, dengan
perusahaan B.
2.1.2 Preprocessing Text
Setelah pengumpulan data, langkah selanjutnya adalah melakukan
preprocessing. Preprocessing adalah suatu langkah yang membuat dokumen yang
kita analisis menjadi sekumpulan data melalui proses tokenisasi, pembuangan
stopwords, dan stemming. Tokenisasi merupakan suatu proses pemisahan teks ke
dalam unit-unit kecil yang disebut token [10]. Dengan kata lain, tokenisasi
merupakan suatu proses pemisahan kata-kata dari suatu dokumen.
7
Setelah melakukan tokenisasi, diperlukan pembuangan stopwords. Tidak
sedikit dalam data teks kita menemukan kata-kata yang sebetulnya tidak terlalu
dibutuhkan dalam penelitian. Kata-kata seperti di, ke, dan, atau, dan sebagainya
tentu bukanlah kata yang akan berdampak serius pada penelitian bahkan dapat
dikatakan tidak dibutuhkan sama sekali.
Kemudian diperlukan upaya stemming. Stemming adalah suatu langkah
dimana kita membuat semua kata menjadi kata dasarnya. Pada proses ini biasanya
juga jumlah frekuensi kata yang sering muncul akan dihitung [10].
Terakhir, untuk memudahkan mencari topik terpenting, diperlukan
pengambilan kata-kata benda atau biasa dikenal Pos Tagging. Struktur kalimat
sering kali memilki kata kerja, kata benda, kata hubung, kata imbuhan, dan
sebagainya. Namun pada penelitian ini, hanya mengutamakan kata benda-nya saja.
2.2 Term Frequency Inverse Document Frequency (TFIDF)
Dalam pencarian informasi, tf-idf (yang merupakan kependekan dari term
frequency inverse) adalah statistik numerik yang dimaksudkan untuk
mencerminkan betapa pentingnya sebuah kata adalah dokumen dalam koleksi atau
korpus. Rumus yang digunakan adalah:
|𝐷|
𝑇𝐹𝐼𝐷𝐹 = 𝑇𝐹 × 𝐼𝐷𝐹 = 𝑇𝐹 × log 𝑒 𝐷𝐹 (2.1)
TF merupakan kepanjangan dari Term Frequency. TF adalah banyaknya

sebuah kata/istilah muncul. Sedangkan DF kepanjangan dari Document Frequency.
DF adalah jumlah dokumen dimana kata/istilah tersebut muncul.
Konsekuensinya TF tinggi maka TFIDF akan naik, maka istilah/kata tersebut

penting. DF tinggi artinya TFIDF menjadi rendah [10].
2.3 Latent Dirichlet Allocation (LDA)

Jika masing-masing teks yang sudah dibobotkan sebelumnya mengandung
lebih dari satu topik, maka untuk mendapatkan informasi dari teks tersebut dapat
dilakukan pengelompokan secara halus atau sering dikenal soft clustering. LDA
merupakan salah satu contoh metode yang sering digunakan. LDA merupakan suatu
teknik mengidentifikasi informasi topik tersembunyi dalam koleksi dokumen besar
8
menggunakan pendekatan bag of words (cara representasi data teks) yang
memperlakukan setiap dokumen sebagai vektor jumlah kata dan direpresentasikan
sebagai distribusi probabilitas atas beberapa topik, sementara setiap topik
direpresentasikan sebagai distribusi probabilitas atas sejumlah kata [11].
Distribusi probabilitas dapat dituliskan dengan struktur bebas bersyarat antar

variabel menggunakan grafik agar lebih mudah atau biasa disebut probabilistic
graphical model. Pada Gambar 2.1 akan diperlihatkan gambaran proses kerja
seperti probabilistic graphical model.
Gambar 2.1. Proses kerja probabilistic graphical model (2008) [13].
Pada Gambar 2.1, α dan β merupakan parameter distribusi topik dari dokumen
terlebih dahulu atau biasa disebut parameter prior dirichlet dan parameter distribusi
kata dari sebuah topik [12]. Nilai keduanya merupakan bilangan riil positif yang
dapat dituliskan 𝟎 ≤ 𝜶, 𝜷 ≤ 𝟏 dan untuk nilai optimalnya didekati secara numerik
menggunakan algoritma Gibbs Sampling dalam menentukan jumlah topik terdahulu
[13].
Semakin tinggi nilai α mengartikan bahwa setiap dokumen mengandung

sebagian besar topik dan semakin rendah nilai α maka dokumen memiliki
kemungkinan diwakili oleh beberapa topik. Sementara semakin tinggi nilai β maka
suatu topik mengandung campuran sebagian besar kata-kata, sedangkan semakin
9
rendahnya nilai β maka suatu topik hanya mengandung campuran dari beberapa
kata [11].
Seperti pada Gambar 2.1, distribusi topik dari dokumen (α) mengakibatkan
adanya nilai θ sebagai kumpulan campuran topik yang berbentuk matriks
probabilitas topik terhadap dokumen seperti pada matriks berikut:
θ11 … θ1𝐾
𝐴=[ ⋮ ⋱ ⋮ ]
θ𝑀1 … θ𝑀𝐾
Yang mengartikan bahwa 𝜃𝑀𝐾 berarti kumpulan campuran topik ke-K pada
dokumen ke-M dan nilai probabilitasnya dapat dihitung menggunakan persamaan
berikut:
𝛤(∑𝐾
𝑒=1 𝛼𝑒 ) 𝛼𝑒 −1
𝑝(θ|α) = ∏𝐾
𝑒=1 θ𝑒 (3.1)
∏𝐾
𝑒=1 𝛤(𝛼𝑒 )
Dari kumpulan campuran topik (θ), dapat dipisahkan masing-masing topik (z) dari
campuran topik tersebut. Sehingga diperoleh sebuah matriks baru yang berisikan
nilai probabilitas kata terhadap dokumen untuk masing-masing topik sebagai
berikut:
z11 … z1𝑁
𝐵= [ ⋮ ⋱ ⋮ ]
z𝑀1 … z𝑀𝑁
Dimana nilai z𝑀𝑁 mengartikan topik untuk dokumen ke-M pada kata ke-N, dengan
nilai z = {1, ..., K} atau dapat diartikan z sebanyak jumlah topik yang ada dari
campuran topik, dan nilai masing-masing probabilitasnya dapat dihitung
menggunakan persamaan berikut.
𝑛
𝑝(𝑧|θ) = ∏𝑀 𝐾 𝑚,𝑒
𝑚=1 ∏𝑒=1 𝜃𝑑,𝑒 (3.2)
Variabel θ dan z ini biasa disebut dengan parameter laten atau parameter posterior
dirichlet.
10
Probabilitas topik yang diperoleh (z) dan distribusi kata pada topik (β)
menghasilkan probabilitas kata-kata yang muncul sebagai hasil akhir pembentukan
model (w). Sehingga hasil dari model satu dokumen ini akan memunculkan kata-
kata dari kelompok yang terbentuk, dan kata-kata ini dapat membantu dalam
pendefinisian kategori setiap kelompok. Sehingga total probabilitas berdasarkan
grafik model LDA dapat dihitung menggunakan persamaan berikut:
𝑘
𝑝(𝑤, 𝑧, θ|α, β) = ∏𝑀 𝑁
𝑗=1 𝑝(𝜃𝑗 |𝛼) ∏𝑖=1 𝑝(𝜙|𝛽) ∏𝑡=1 𝑝(𝑧𝑗𝑡 |𝜃𝑗 )𝑝(𝑤𝑗𝑡 |𝜙, 𝑧𝑗𝑡) (3.3)
dengan ϕ merupakan korpus atau untuk kumpulan dokumen yang terjadi akibat
adanya β seperti pada Gambar 2.1. Distribusi peluang bersyarat untuk semua korpus
ϕ diformulasikan sebagai berikut:
𝛤(𝛽𝑒 ) 𝛽 −1
𝑝(𝜙|𝛽) = ∏𝐾
𝑒=1 ∏𝑉 ∏𝑉𝑣=1 𝜙𝑒,𝑣𝑒,𝑣 (3.4)
𝑣=1 𝛤(𝛽𝑒,𝑣 )
dimana V merupakan banyaknya kata. Selengkapnya distribusi peluang korpus w

bersyarat z dan 𝜙 direpresentasikan sebagai berikut:
𝑉 𝑛
𝑝(𝑤|𝜙, 𝑧) = ∏𝐾 𝑒,𝑣
𝑒=1 ∏𝑣=1 𝜙𝑒,𝑣 . (3.5)
2.4 Topic Coherence

Penentuan jumlah topik yang terjadi dalam topic modeling merupakan hal
yang penting untuk diperhatikan [15]. Dengan penentuan jumlah topik yang sesuai,
maka hasil tersebut akan menjadi lebih optimal sehingga mudah untuk
diinterpretasi oleh manusia. Untuk menentukan nilai optimal dari banyaknya topik
dapat dilakukan dengan menggunakan perhitungan perplexity [15]. Perplexity
dihitung dengan menentukan kemungkinan dari log teks dokumen yang tidak
terlihat. Model yang baik akan memiliki kemungkinan yang tinggi dan
menghasilkan nilai perplexity yang rendah. Akan tetapi evaluasi menggunakan
perplexity terkadang tidak berkorelasi dengan dengan baik bagi interpretasi
manusia [16]. Cara penentuan banyak topik lainnya ialah dengan menggunakan
topic coherence. Topic coherence menangkap informasi semantik dari topik yang
dihasilkan dan menilai interpretasi topik tersebut. Topic coherence memiliki metrik
11
yang konsisten dengan interpretasi manusia [17]. Semakin tinggi nilai topic
coherence maka semakin bagus dengan interpretasi manusia. Topic coherence
dihitung dengan melakukan perbandingan berpasangan antar kata dalam topik
tertentu yang mana menghasilkan sebuah ukuran standar kualitas suatu topik.
Tahapan dalam perhitungan topic coherence terlihat pada Gambar 2.2.
Gambar 2.2. Proses perhitungan Topic Coherence [17].

Langkah pertama yang dilakukan adalah sekumpulan topik t dilakukan
segmentasi menjadi sekumpulan set pasangan dari subset kata S. Kemudian
probabilitas untuk setiap kata P dihitung berdasarkan data kuantitatif dari korpus.
Kemudian keduanya P dan S diolah oleh confirmation measure untuk menghitung
syarat kualitas dari pasangan S menghasilkan φ. Terakhir semua nilai φ = {φ 1,.., φ
|S| }di rata-rata kan sehingga menghasilkan nilai koheren [18].
Terdapat berbagai cara untuk menghitung nilai koheren, tetapi cara cross
validation terbukti memiliki hasil yang paling baik dengan interpretasi manusia
seperti terlihat pada Gambar 2.3.
Gambar 2.3. Hasil skor penilaian coherence terhadap interpretasi manusia

dari berbagai metode [17].
12
BAB III
METODOLOGI PENELITIAN
Pada bab ini akan menjelaskan metodologi dalam penelitian yang meliputi
sumber data yang diambil, tahap-tahap dalam penelitian, dan diagram alur
penelitian.
3.1 Sumber Data

Data yang digunakan pada penelitian ini adalah data komentar dari media
sosial Youtube. Penelitian ini hanya dibatasi dari tangga 4 Oktober 2019 hingga
tanggal 26 Oktober 2019 sehingga video-video iklan sesudah tanggal tersebut sudah
tidak diperhitungkan. Alasan diambil hingga tanggal tersebut karena terdapat e-
commerce yang dapat membuat banyak video dalam satu waktu. Sebagai contoh,
pada awal melakukan penelitian, BKLPK sudah mengeluarkan 1500 video
berbanding terbalik dengan SHP yang hanya 537 video. Namun sejak terakhir
menulis penelitian ini, SHP sudah mengeluarkan 832 video sedangkan BKLPK
masih sekitar 1500 video. Sehingga diperlukan batasan hingga tangal 26 Oktober
2019.
Dalam penelitian ini, memiliki API key dan mengetahui channel Id untuk
masing-masing e-commerce adalah langkah pertama sebelum melakukan scraping.
Penelitian ini juga mengakses website commentpicker.com untuk mengetahui
channel id masing-masing e-commerce. Namun ada keunikan dalam mengakses
channel id masing-masing e-commerce, yaitu hanya SHP yang langsung
memunculan channel id pada akun Youtube-nya.
Setelah memiliki API key dan channel id, langkah selanjutnya adalah
melakukan pembaruan pengambilan data setiap minggunya diantara tanggal 4
Oktober hingga 26 Oktober 2019. Pengambilan data di update rutin tiap minggunya
antara tanggal tersebut. Pada Gambar 3.1 akan diperlihatkan jumlah komentar pada
masing-masing e-commerce.
13
Jumlah Komentar
483
5.824
3.735 15.650
TKPD SHP BKLPK LZD
Gambar 3.1. Jumlah komentar pada masing-masing e-commerce.
Pada Gambar 3.1 dapat dilihat TKPD memiliki total 15.650 komentar,
BKLPK memiliki 5.824 komentar, SHP memiliki 2.441 komentar, dan LZD
memiliki 483 komentar. Terlihat disini bahwa video-video TKPD memiliki daya
tarik bagi masyarakat sehingga begitu banyak jumlah komentar pada akun Youtube
TKPD. Selain itu, dari gambar diatas dapat dilihat bahwa BKLPK hanya dapat
menghasilkan 5.824 komentar dari sekitar 1.500 video yang dibuat. Sedangkan
TKPD memiliki 15.650 komentar dari sekitar 600 video yang dibuat.
Selanjutnya, akan dilihat jumlah pengguna yang sudah berkomentar pada

masing-masing e-commerce. Selengkapnya dapat dilihat pada Gambar 3.2.
Jumlah Pengguna
5.824
3.735
15.650 483
20.000 LZD
BKLPK
SHP
TKPD
0
TKPD SHP BKLPK LZD
Gambar 3.2. Jumlah pengguna yang berkomentar pada masing-masing e-

commerce.
14
Pada Gambar 3.2 memperlihatkan jumlah pengguna dan jumlah komentar
pada masing-masing e-commerce sama.
Dari Gambar 3.1 dan Gambar 3.2 dapat dilihat bahwa video-video pada akun
Youtube TKPD cukup banyak dibanjiri komentar. Hal ini cukup menarik bila
memerhatikan bahwa jumlah subscriber dan jumlah video pada TKPD bukan yang
terbanyak. Pada Gambar 3.3 akan diperlihatkan jumlah subscriber dan jumlah
video pada setiap akun.
Jumlah Subscriber pada Setiap Akun

800.000
643.406
600.000 492.701
400.000 336.980 295.508
200.000
TKPD SHP BKLPK LZD
Jumlah Video pada Setiap Akun
467 568
537
1.500
TKPD SHP BKLPK LZD
Gambar 3.3. Jumlah subscriber dan jumlah video pada setiap akun.
Pada Gambar 3.3 dapat dilihat bahwa TKPD memiliki jumlah subscriber dan
jumlah video dibawah BKLPK. 1500 video BKLPK berhasil memiliki jumlah
komentar sebanyak 5.824. Sedangkan TKPD dari 568 video yang mereka miliki
berhasil mendapatkan 15.650 komentar.
15
3.2 Tahapan Penelitian
Pada subbab ini akan membahas tahapan-tahapan dalam melakukan
penelitian. Seperti yang sudah dijelaskan sebelumnya, tahap pertama dalam
penelitian ini adalah pengambilan data komentar Youtube pada masing-masing e-
commerce dengan syarat memiliki API key. Tentu saja tidak langsung didapatkan
komentar Youtube secara keseluruhan. Awalnya diperlukan pemanggilan pada
selurul URL. Setelah itu, melakukan scraping data komentar pada masing-masing
video tersebut.
Setelah melakukan scraping, data komentar tersebut diletakan dan simpan ke

Notepad+ dalam bentuk Json. Selain itu, data juga dikonversikan dalam bentuk
CSV untuk mencegah hal-hal yang tidak diinginkan seperti tidak terbacanya data
pada program. Kemudian, data tersebut disunting supaya bisa terbaca dalam bentuk
Json. Sesudah itu, barulah dilakukan preprocessing.
Pada tahap preprocessing, pertamanya yang dilakukan adalah tokenisasi.

Awalnya menghilangkan atau membersihkan kata-kata slang. Terkadang, dalam
komentar sering terdapat kata-kata yang sulit dibaca oleh program seperti “Aq cnt
km” sehingga sulit dibaca oleh program. Karena itu dalam penelitian ini diperlukan
pembersihan kata-kata slang. Akibat pembersihan tersebut, baru kemudian
melakukan Lemmatisasi alias membuat suatu kata kembali menjadi kata dasarnya.
Kemudian masing-masing kata dipisahkan dan diambil hanya kata benda. Diambil
hanya kata benda karena, kata-kata seperti subjek dan kata hubung tidak diperlukan
dalam penelitian ini.
Lalu, kata-kata benda tersebut dimasukan pada Voyant Tools untuk

melakukan Text Analytics. Tujuannya adalah untuk mendapatkan statistik deskriptif
dan hubungan antar kata. Pada tahap ini dapat dilihat secara visual dalam bentuk
yang beraneka ragam tergantung keinginan peneliti. Bisa dalam bentuk bubble,
diagram, garis, dan segala macam bisa divisualisasikan.
Sesudah itu, barulah dilakukan pembobotan nilai menggunakan TF-IDF.

Pembobotan ini diperlukan sebagai awal dari pembuatan model dengan metode
16
LDA. Masing-masing kata diberikan bobot tergantung banyaknya kata tersebut
pada topik lalu kata-kata tersebut barulah di cluster terhadap masing-masing topik.
Disinilah metode LDA berkerja. Perhitungan dilakukan 2 kali yaitu perhitungan
peluang sebuah topik muncul dalam dokumen yang pertama dan kedua perhitungan
peluang sebuah kata muncul dalam sebuah topik. Dari perhitungan ini, masing-
masing dikalikan dan mengasilkan nilai probabilitas di masing-masing topik.
Dengan menentukan nilai koheren tertinggi menggunakan metode cross validation
akan didapatkan topik yang paling optimal.
3.3 Diagram Alur Penelitian
Pembobotan kata Topic Modelling

Mulai Text Mining
(TFIDF) (LDA)
Penentuan Topik Optimal (Cross

Validation)
Scraping Preprocessing Tokenisasi Text
Analytics
Visualisasi dan Interpretasi
Kesimpulan
Selesai
Gambar 3.4. Diagram Alur Penelitian.
17
BAB IV
HASIL DAN PEMBAHASAN
Pada bab ini akan dijabarkan lebih lanjut permasalahan preprocessing data,
text analytic, pemodelan topik baik antar perusahaan maupun secara keseluruhan,
dan terakhir implementasi hasil.
4.1 Pengolahan Data

Sebagaimana diketahui, dalam penelitian hal pertama yang harus dilakukan
adalah pengambilan data. Pada penelitian ini, pengambilan data dilakukan dengan
cara scraping pada komentar melalui media Youtube. Hasil scraping dikumpulkan
masing-masing dalam bentuk JSON. Setelah disimpan, langkah selanjutnya adalah
preprocessing. Dalam preprocessing pada penelitian ini dilakukan penghapusan
tanda baca, emoji, stiker, URL, lalu dilakukan lemmatizer, penjelasan singkatan
(slang), dan menentukan kata benda (pos tagging).
Karena penelitian ini melibatkan empat perusahaan, preprocessing dilakukan

untuk setiap akun Youtube e-commerce. Di sisi lain, terbatasnya modul pos tagging
untuk bahasa Indonesia, membuat beberapa kata sering tidak jelas sesudah
diprogramkan. Hal ini membuat kata-kata tersebut penulis asumsikan sebagai
stopword supaya memfokuskan hanya kepada kata-kata yang diinginkan. Beberapa
contoh hasil preprocessing pada penelitian ini dapat dilihat pada Tabel 4.1.
Tabel 4.1. Data hasil preprocessing.

Sebelum Preprocessing Sesudah Preprocessing
coba presiden kita yg kek bgini 😁😁😁 Presiden
kesini cm lihat iklan keren hahaha iklan keren
Hehe.verel mo di cium lucinta luna..mana mau..kliatan bgt verelnya risih..kasian u cium luna kliatan kasian rel rel sabar sabar
rel..rel..sabar..sabar..semangat trs y rel..❤❤❤ semangat rel
Warna LZD nya ubahin ke oranye semua dong, yg setuju like warna ubahin oranye
Tolong di perbaiki saya ingin aktivasi LZD credit tapi tidak tau kenapa pas sudah aktivasi credit kode verifikasi aktivasi
masukin kode verifikasi tidak ke aktivasi juga
18
Setelah tahap preprocessing, langkah selanjutnya adalah mengetahui statistik
deskriptif pada data. Artinya sebelum mengolah data, diperlukan suatu pengenalan
terhadap data tersebut seperti nilai rata-rata, median, nilai maksimal-minimal, dan
sebagainya. Karena itu sebelum pengolahan data akan disajikan statistik deskriptif
seperti pada Gambar 4.1.
Statistik Deskriptif Komentar pada masing-

masing e-commerce
160
138
140 123
120
100
75
80
60 51
40
20 2 6 5 2 5 4 2 7 5 2 7 4
0
TKPD SHP BKLPK LZD
Minimal Maksimal Rata-rata Median
Gambar 4.1. Statistik Deskriptif komentar pada setiap e-commerce.

Dari Gambar 4.1 menunjukan bahwa masing-masing e-commerce memiliki
minimal ada 2 komentar pada setiap videonya. Kemudian, dapat dilihat juga bahwa
rata-rata e-commerce menghasilkan 5-7 komentar pada setiap videonya. Lebih
jelasnya dapat dilihat pada Gambar 4.2.
STATISTIK DESKRIPTIF
KOMENTAR KESELURUHAN
138
6
RATA-RATA MEDIAN MINIMAL MAKSIMAL
Gambar 4.2. Statistik deskriptif komentar keseluruhan.
19
Selanjutnya akan dilakukan text visualization pada masing-masing
perusahaan. Berikut adalah gambar wordlink dan contoh kolom komentar
perusahaan LZD pada Gambar 4.3.
Gambar 4.3. Wordlink dan contoh kolom komentar pada LZD.

Dari Gambar 4.3 dapat dilihat bahwa kata tipu menjadi kata yang paling sering
muncul. Kata tipu pada perusahaan LZD juga memiliki hubungan dengan beberapa
kata seperti kembalikan, ongkos, kirim, pesan, barang, dan lain-lain. Hal ini juga
diperjelas dengan banyaknya komentar-komentar pada kolom komentar LZD yang
mengarahkan pembahasan kepada kasus penipuan.
Lalu pada Gambar 4.4 dapat dilihat wordlink dan contoh kolom komentar
pada perusahaan BKLPK.
20
Gambar 4.4. Wordlink dan contoh kolom komentar pada BKLPK.
Dari Gambar 4.4 dapat dilihat bahwa kata-kata seperti nama dan didi menjadi kata-
kata yang paling sering muncul. Berdasarkan wordlink diatas dapat diartikan bahwa
selebritis-selebritis Indonesia yang pernah tampil di acara BKLPK sering di bahas
oleh masyarakat. Selain itu, undian atau kuis suatu produk pada konten BKLPK
juga memiliki daya tarik untuk masyarakat.
Kemudian pada Gambar 4.5 dapat dilihat wordlink dan contoh kolom
komentar pada perusahaan SHP sebagai berikut.
21
Gambar 4.5. Wordlink dan contoh kolom komentar pada SHP.
Gambar 4.5 memperlihatkan bahwa kata suara memiliki hubungan dengan
beberapa nama artis di Indonesia. Pada kolom komentar juga dapat dilihat bahwa
penampilan Ayu Ting-Ting, Dewi Persik, dan Syahrini pada acara Shopping Day
SHP cukup sering dibahas oleh masyarakat.
Setelah itu, Berikut adalah hasil wordlink dan contoh kolom komentar pada
TKPD yang disajikan pada Gambar 4.6.
22
Gambar 4.6. Wordlink dan contoh kolom komentar pada TKPD.
Pada Gambar 4.6 dapat dilihat bahwa kata iwan dan bts merupakan kata-kata yang
paling sering muncul. Berdasarkan wordlink diatas dapat dilihat juga bahwa kata-
kata tersebut memiliki hubungan pada kata fals, film, layar, lebar, dan sebagainya.
Dari kolom komentar dapat memperjelas bahwa salah satu konten TKPD, Iwan Fals
- Masa Depan Ada di Tangan Kita, banyak diharapkan dapat diangkat menjadi film
layar lebar suatu saat nanti.
Terakhir, akan dikumpulkan semua data menjadi kesatuan. Ini dapat dilihat
pada Gambar 4.7.
Gambar 4.7. Wordlink dan video dengan jumlah komentar terbanyak secara
keseluruhan.
23
Berdasarkan Gambar 4.7 kata-kata iwan, fals, iklan, bts, ayu, dan sebagainya
merupakan beberapa kata yang paling sering muncul. Hasil ini tidak berbeda jauh
dengan pengamatan sebelumnya pada akun TKPD. Oleh sebab itu, dapat dianggap
bahwa konten TKPD menjadi konten yang paling sering dibahas oleh masyarakat
dari tanggal 4 Oktober hingga 26 Oktober 2019.
4.2 Penentuan Topik yang Optimal

Setelah melakukan pengolahan data. Selanjutknya akan mencari TFIDF
seperti pada Persamaan 2.1. Dengan menggunakan bantuan komputasi melalui
aplikasi Python, akan diperlihatkan beberapa sampel nilai TFIDF dari setiap kata di
salah satu dokumen pada masing-masing perusahaan. Hasilnya dapat dilihat pada
Tabel 4.2
Tabel 4.2. Bobot nilai beberapa kata dalam suatu dokumen pada setiap
perusahaan.
Nama Contoh Kata Pada TFIDF

Perusahaan Suatu Dokumen
BKLPK [bukamusik, [0.37443692,
undang, 0.3199552,
noah, 0.441230,
ngeluarin, 0.48050913,
karya, 0.35002511,
prestasi] 0.45753204]
SHP [ngundang, [0.31408274,
Rasya, 0.76820165,
Aurel, 0.38410082,
Rasya, 0.4045798 ]
Biar]
TKPD [token, [0.59885964,
Listrik, 0.59885964,
Habis] 0.53172761]
Selanjutnya, dengan bantuan aplikasi Python, Persamaan 3.3 dapat

diselekaikan lebih cepat. Beberapa contoh cluster topik beserta kata-kata
didalamnya dapat dilihat pada Tabel 4.3.
24
Tabel 4.3. Contoh probabilitas beberapa kata pada suatu cluster.
Kata-kata pada Suatu Cluster Probabilitas kata Topik
nama 0.5333332,
jam 0.03333338, Undian/ Kuis pada
sekolah 0.03333333,
BKLPK
kota 0.03333334,
alamat 0.33333333
ronaldo 0.041436,
att 0.041436,
ariel 0.0414443,
Selebritis pada SHP
video 0.041436,
cantik 0.0414569,
noah 0.041436
Film 0.02082982, Video Dokumenter pada
Layar 0.02082982, TKPD
Angkat 0.02082982
Pada Tabel 4.3 dapat dilihat beberapa kata beserta probabilitasnya pada suatu
topik. Sebagai contoh kata ‘nama’ memiliki nilai probabilitas sebesar 0.53 pada
topik undian pada kasus BKLPK. Lalu kata ‘ronaldo’ memiliki nilai probabilitas
0.414 pada topik selebritis pada kasus SHP dan seterusnya.
Berdasarkan tabel tersebut juga didapatkan beberapa topik yang
bermunculan. Selanjutnya akan dilakukan resampling untuk menentukan apakah
topik-topik pada Tabel 4.3 sudah optimal. Dengan menggunakan cross validation
akan ditentukan cluster ke berapa yang memiliki nilai koheren tertinggi. Pada
Gambar 4.8 akan diperlihatkan grafik nilai koheren pada setiap perusahaan.
(a) Grafik pada BKLPK. (b) Grafik pada LZD Indonesia.
25
(c) Grafik pada SHP. (d) Grafik pada TKPD.
Gambar 4.8. Grafik nilai koheren BKLPK, LZD Indonesia, SHP, dan
TKPD.
Pada Gambar 4.8 memperlihatkan beberapa cluster atau kelompok yang
memiliki nilai koheren paling tinggi pada setiap perusahaan. Kemudian dapat
dilihat isi/kata-kata pada cluster tersebut pada Gambar 4.9.
(a) BKLPK. (b) LZD Indonesia.
(c) SHP. (d) TKPD.

Gambar 4.9. Kata-kata yang muncul dalam cluster pada setiap akun.
Dengan menggunakan pLDAvis, didapatkan kata-kata yang cukup signifikan
untuk diinterpretasikan sebagai topik [19]. Hasilnya dapat dilihat pada Tabel 4.4.
26
Tabel 4.4. Kata-kata yang bermuculan pada setiap perusahaan.
Nama E-Commerce Kata-kata yang bermunculan
TKPD Jin, Jimin, BTS, Jungkook, Iwan Fals
LZD Tipu, Kembalikan, Barang, Pesan,

Harga, Nyesel, Curang
SHP Ayu, Syahrini, Noah, Zara, Dewi
BKLPK Nama, Alamat, Kota, Imoo, Sekolah
Berdasarkan Tabel 4.4, setiap perusahaan memiliki kata-kata yang berbeda

satu sama lainnya. Akibatnya didapatkan beberapa topik pada setiap perusahaan
sesuai dengan kata-kata pada Tabel 4.4. Pada Gambar 4.10 akan memperlihatkan
topik paling optimal pada setiap perusahaan.
BKLPK TOPIK KUIS (±33%)
TOPIK SELEBRITIS (±70%)

TKPD
SHP TOPIK SELEBRTIS (±80%)
LZD TOPIK PENIPUAN (±50%)
Gambar 4.10. Topik komentar Youtube pada setiap perusahaan dari 4-26
Oktober 2019.
4.3 Ringkasan Analisis Topik secara Keseluruhan
Pada Subbab sebelumnya, telah dilakukan analisis menggunakan metode
LDA pada masing-masing e-commerce. Saat ini akan dilakukan analisis bila data
27
dikumpulkan menjadi satu. Dengan menggunakan teknik Cross Validation
didapatkan nilai koheren yang berbeda-beda pada setiap topiknya. Plotnya dapat
dilihat pada Gambar 4.11.
Gambar 4.11. Plot nilai koheren dan topik dengan metode Cross
Validation.
Pada Gambar 4.11 memperlihatkan cluster dengan nilai koheren tertinggi.

Kata-kata yang muncul pada cluster memiliki beberapa kata seperti BTS,
Jungkook, Jimin, Kim, Didi Kempot, Ayu, Iwan Fals, dan lain-lain. Sehingga dapat
disimpulkan bahwa topik yang paling sering di bahas di akun Youtube TKPD,
BKLPK, LZD, dan SHP pada tanggal 4-26 Oktober 2019 adalah topik selebritis.
Beberapa contoh konten atau segmen selebritis pada video keempat perusahaan
tersebut dapat dilihat pada Gambar 4.12.
Gambar 4.12. Beberapa contoh konten atau segmen yang paling sering di
bahas masyarakat melalui Youtube.
28
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil penelitian sebelumnya didapat kesimpulan sebagai berikut:
Berdasarkan penelitian ini didapatkan kesimpulan bahwa topik yang sering

dibahas masyarakat pada akun Youtube TKPD adalah soal K-POP atau selebritis
internasional. Sedangkan pada SHP, topik yang paling sering di bahas adalah
tentang selebrtis dalam negeri. Kemudian, pada akun Youtube BKLPK topik yang
paling sering di bahas adalah topik tentang undian atau kuis suatu produk. Lalu,
berbeda dengan kompetitor lainnya, topik yang paling di bahas masyarakat ketika
membuka akun Youtube LZD adalah soal kasus penipuan.
Pada penelitian ini juga didapatkan kesimpulan bahwa topik yang paling
sering di bahas oleh masyarakat ketika membuka keempat akun Youtube
perusahaan tersebut adalah topik selebritis.
5.2 Saran
Berdasarkan hasil penelitian sebelumnya didapat beberapa saran sebagai berikut:
Bagi perusahaan baru yang ingin mengembangkan bisnisnya melalui media

Youtube dapat melakukan kerja sama dengan beberapa selebritis-selebritis lokal
maupun internasional. Selain itu, juga diperlukan membuat sebuah divisi seperti
Quality Assurance atau Quality Control untuk memberi rasa percaya pada
masyarakat dan juga supaya tidak ada komentar yang membahas penipuan seperti
pada perusahaan LZD.
Peneliti menyarankan selanjutnya dapat dilakukan penelitian serupa dengan
metode lainnya seperti Non-Negative Matrix Factorization atau Latent Semantic
Analysist supaya dapat menjadi perbandingan dengan penelitian ini. Selain itu, bisa
juga dilakukan penelitian serupa melalui media sosial Facebook dan Twitter.
29
REFERENSI
[1] Edy Chandra, "Youtube Citra Media Informasi Interaktif Atau Penyampaian
Aspirasi Pribadi," Jurnal Muara Ilmu Sosial, Humaniora, dan Seni, vol. 1, no.
2, pp. 406-417, 2017.
[2] Mellyna Eka Fitri, "Penggunaan Media Sosial Berdasarkan Gender Terhadap
Prestasi Belajar Mahasiswa," Jurnal Benefita, pp. 162-181, 2019.
[3] Dedi Ansari Harahap, "Perilaku Belanja Online di Indonesia," Jurnal Riset
Manajemen Sains Indonesia, vol. 9, no. 2, 2018.
[4] Ryo Kusumo, "Inilah Hasil Survei Online Shop Terbaik 2018 dan Potensi
Skema 020 di Indonesia," Kompasiana, 3 Januari 2019. [Online]. Available:
https://www.kompasiana.com/ryokusumo/5c2dd810677ffb20ac064d36/inilah-
hasil-survey-online-shop-terbaik-2018-dan-potensi-skema-o2o-di-indonesia.
[Accessed 7 April 2020].
[5] Arsy Arlina dan Muhaza Liebenlito, "Sequential Topic Modelling : A Case
Study on Indonesian LGBT Conversation on Twitter," Indonesian Journal of
Pure and Applied Mathematics, vol. 1, no. 1, pp. 17-31, 2019.
[6] Maria Sokolova, "Topic Modelling and Event Identification from Twitter
Textual Data," University Of Ottawa, Ottawa, 2016.
[7] Miska Irani dan Parapat Gultom, "Analisis Positioning E-Commerce dengan
metode Multidimensional Scalling," Jurnal Ilmiah Methonomi, vol. 4, no. 1,
pp. 1-8, 2018.
[8] Mohammad Aziz, "Klasifikasi Dokumen Komentar pada Situs Youtube

Menggunakan Algoritma K-Nearest Neightbor (KNN)," Universitas Dian
Nuswantoro, Semarang, 2016.
[9] Abu Salam, "Analisis Sentimen Data Komentar Sosial Media Facebook dengan
K-Nearest Neightbor," in Prosiding SINTAK, Semarang, 2018.
[10] Onno Purbo, Text Mining, Bandung: ANDI, 2019.
[11] D. L Hong, "Empirical Study of Topic Modelling in Twitter," SOMA, vol. 10,
pp. 80-88, 2010.
30
[12] Franz Perkopf dan Robert Perharf, "Probabilistic Graphical Model," in
Introduction to Probabilistic Graphical Model, Austria, Graz University of
Technology, 2014, p. 58.
[13] I. Porteus, D. Newman, A. Ihler, P. Smith, "Fast Collapsed Gibbs Sampling

for Latent Dirichlet Allocation," in ACM SIGKDD International conferences
in knowledge and data mining, Chicago, 2008.
[14] Blei, Edu, Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning
Research, vol. 3, no. 4, pp. 993-1022, 2003.
[15] Hidayatullah, "Analisis Sentimen dan Klasifikasi Kategori terdapat Tokoh

Publik pada Twitter," in Semnasif, Yogyakarta, 2014.
[16] Blei, Garrish, Wang, Chang, "How Humans Interpret Topic Model," Reading
Tea Leaves, pp. 1-9, 2009.
[17] Mimno, "Optimizing Semantic Coherence in Topic Model," no. 2, pp. 262-272,
2011.
[18] B. Efron, An Introduction to the Bootstrap, London: Chapman and Hall,

1993.
[19] C. Sievert, "LDAvis : A Method for Visualizing and Interpret Topic," in

Prociding of the Workshop on Interactive Language Learning, Visualization,
and Interface, New York, 2014.
31

Muhammad Diaz Elprana Rangkuti-Fst

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Muhammad Diaz Elprana Rangkuti-Fst

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS TOPIK KOMENTAR VIDEO BEBERAPA AKUN

YOUTUBE E-COMMERCE INDONESIA MENGGUNAKAN

Muhammad Diaz Elprana Rangkuti

PROGRAM STUDI MATEMATIKA

PROGRAM STUDI MATEMATIKA

For my beloved family

“Karena sesungguhnya sesudah kesulitan pasti ada kemudahan.

Assalamu’alaikum Warahmatullahi Wabarakatuh

Alhamdulillahirabbil’alamin puji dan syukur kehadirat Allah Subhanahu

Wassalamu’alaikum Warahmatullahi Wabarakatuh

Ciputat, April 2020

BAB I PENDAHULUAN ................................................................................................... 1

Gambar 1.2 Pertumbuhan e-commerce di Indonesia 2014-2021………………...3

Gambar 2.1 Proses kerja probabilistic graphical model…………………………9

Gambar 2.2 Proses perhitungan Topic Coherence…………………………...…12

Gambar 3.1 Jumlah komentar pada masing-masing e-commerce……………....13

Gambar 3.2 Jumlah pengguna yang berkomentar pada masing-masing e-

Gambar 3.4 Diagram Alur Penelitian…………………………………………...17

Gambar 4.1 Statistik Deskriptif komentar pada setiap e-commerce…………...19

Gambar 4.2 Statistik Deskriptif komentar keseluruhan………………………..19

Gambar 4.3 Wordlink dan contoh kolom komentar pada LZD.………………...20

Gambar 4.5 Wordcloud dan contoh kolom komentar pada SHP…..………........22

Gambar 4.6 Wordcloud dan contoh kolom komentar pada TKPD……………...23

Gambar 4.10 Topik komentar Youtube pada setiap perusahaan dari

Muhammad Diaz Elprana Rangkuti, Analisis Topik Komentar Video Beberapa

Beberapa perusahaan e-commerce di Indonesia saat ini mulai melakukan pemasaran

Kata kunci: e-commerce, latent dirichlet allocation, metric evaluation, nilai

Muhammad Diaz Elprana Rangkuti, Topic Analysis Video Comment on Several

Some e-commerce companies in Indonesia are currently marketing products or

Keyword: e-commerce, latent dirichlet allocation, metric evaluation, coherence

Di Indonesia, Youtube merupakan salah satu media pemasaran e-commerce

1.1 Latar Belakang

Youtube merupakan salah satu media sosial yang menggunakan video.

Gambar 1.1. Presentase pengguna aktif media sosial di Indonesia pada

Di sisi lain, e-commerce di Indonesia juga akhir-akhir ini sering mendapat

Pertumbuhan e-commerce juga sering menjadi pembicaraan menarik dalam

Triliun (US Dolar)

Gambar 1.2. Pertumbuhan e-commerce di Indonesia 2014-2021.

Gambar 1.2 memperlihatkan akibat dari pertumbuhan e-commerce di

Presentase Ritel Online Terbanyak Dipilih pada

Penelitian ini menggunakan metode Latent Dirichlet Allocation untuk

Perbedaan penelitian ini dengan beberapa penelitian sebelumnya adalah studi

1.2 Rumusan Masalah

2. Mengetahui perbedaan topik komentar antar e-commerce.

1.5 Manfaat Penelitian

1. Penelitian ini dapat membuat masyarakat mengetahui topik-topik apa yang

2.1 Text Mining

TF merupakan kepanjangan dari Term Frequency. TF adalah banyaknya

Konsekuensinya TF tinggi maka TFIDF akan naik, maka istilah/kata tersebut

2.3 Latent Dirichlet Allocation (LDA)

Distribusi probabilitas dapat dituliskan dengan struktur bebas bersyarat antar

Gambar 2.1. Proses kerja probabilistic graphical model (2008) [13].

Semakin tinggi nilai α mengartikan bahwa setiap dokumen mengandung

dimana V merupakan banyaknya kata. Selengkapnya distribusi peluang korpus w

2.4 Topic Coherence

Gambar 2.2. Proses perhitungan Topic Coherence [17].

Gambar 2.3. Hasil skor penilaian coherence terhadap interpretasi manusia

3.1 Sumber Data

TKPD SHP BKLPK LZD

Gambar 3.1. Jumlah komentar pada masing-masing e-commerce.

Selanjutnya, akan dilihat jumlah pengguna yang sudah berkomentar pada

TKPD SHP BKLPK LZD

Gambar 3.2. Jumlah pengguna yang berkomentar pada masing-masing e-