SKRIPSI
Skripsi
Diajukan kepada
Universitas Islam Negeri Syarif Hidayatullah Jakarta
Fakultas Sains dan Teknologi
Untuk Memenuhi Salah Satu Persyaratan dalam
Memperoleh Gelar Sarjana Matematika (S.Mat)
Oleh:
Muhammad Diaz Elprana Rangkuti
11150940000021
MOTTO
Dalam penyusunan skripsi ini, penulis mendapat banyak bantuan, saran dan
bimbingan dari berbagai pihak. Untuk itu, penulis menyampaikan terimakasih
kepada:
1. Ibu Prof. Dr. Lily Surraya Eka putri, M.Env.Stud selaku Dekan Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta.
2. Ibu Dr. Suma’inna, M.Si, selaku Ketua Program Studi Matematika dan Ibu
Irma Fauziah M.Sc selaku Sekretaris Program Studi Matematika Fakultas
Sains dan Teknologi UIN Syarif Hidayatullah Jakarta
3. Bapak Taufik Edy Sutanto, M.ScTech selaku pembimbing I yang sudah
membimbing, dan memberikan saran kepada penulis selama proses
penyusunan skripsi ini hingga selesai.
4. Ibu Yanne Irene, M.Si selaku pembimbing II yang telah memberikan
bimbingan dan arahan kepada penulis dalam penyusunan skripsi.
5. Kedua orang tua penulis Bapak Azhari dan Ibu Ellan, serta kakak penulis
Azel yang selalu memberikan doa, dukungan semangat dan kasih sayang
kepada penulis dari awal hingga tahap sekarang ini.
6. Mba Iti, Umi, Eyang, Dede EL, dan saudara-saudara lainnya yang terus
memberikan kebahagian setiap minggunya kepada penulis.
vii
7. Pria Punya Selera yang juga telah memberikan semangat serta bantuan
dalam pengerjaan skripsi.
8. Teman-teman matematika 2015 yang telah berjasa dalam penulisan skripsi
ini, Nindita Nadilia dan lainnya yang tidak bisa disebutkan satu persatu.
9. Seluruh mahasiswa Matematika Fakultas Sains dan Teknologi UIN Syarif
Hidayatullah Jakarta yang telah memberikan dukungan kepada penulis.
10. Semua pihak yang telah membantu penulis yang tidak dapat disebutkan satu
persatu.
Penulis menyadari masih terdapat banyak kekurangan dalam menyusun
skripsi ini. Oleh karena itu, penulis menerima kritik dan saran yang bersifat
membangun agar lebih baik untuk kedepannya. Semoga skripsi ini dapat
bermanfaat dan menambah wawasan bagi para pembaca.
Penulis
viii
DAFTAR ISI
PERNYATAAN ................................................................................................................ iii
LEMBAR PENGESAHAN ................................................................................................iv
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI .............................................iv
PERSEMBAHAN ...............................................................................................................vi
KATA PENGANTAR .......................................................................................................vii
DAFTAR ISI.......................................................................................................................ix
DAFTAR GAMBAR……………………………………………………………………..xi
ABSTRAK……………………………………………………………………………….xii
ABSTRACT…………………………………………………………………………….xiii
ix
5.1 Kesimpulan .......................................................................................................... 29
5.2 Saran .................................................................................................................... 29
REFERENSI ..................................................................................................................... 30
x
DAFTAR GAMBAR
Gambar 1.1 Presentase pengguna aktif media sosial di Indonesia pada Januari
2019....................................................................................................2
Gambar 1.3 Perusahaan ritel online yang terbanyak dipilih pada tahun 2018 …..3
Gambar 2.3 Hasil skor penilaian coherence terhadap interpretasi manusia dari
berbagai metode……………………………………………………12
Gambar 3.3 Jumlah subscriber dan jumlah video pada setiap akun.…………...15
Gambar 4.4 Wordlink dan contoh kolom komentar pada BKLPK …..…………21
xi
Gambar 4.7 Wordlink dan video dengan jumlah komentar terbanyak secara
keseluruhan………………………………………………………...23
Gambar 4.8 Grafik nilai koheren BKLPK, LZD Indonesia, SHP, dan
TKPD………………………………………………………………25
Gambar 4.9. Kata-kata yang muncul dalam cluster pada setiap akun………….26
Gambar 4.11 Plot nilai koheren dan topik dengan metode Cross Validation.….28
Gambar 4.12 Beberapa contoh konten atau segmen yang paling sering di bahas
masyarakat melalui Youtube……………………………………..28
xii
ABSTRAK
xiii
ABSTRACT
xiv
BAB I
PENDAHULUAN
Salah satu hal yang bisa membuat masyarakat menonton Youtube adalah
kemudahannya dalam mengakses video yang diinginkan. Tidak seperti di televisi
yang memiliki iklan dan episode yang lama, Youtube memiliki iklan yang relatif
lebih cepat. Kemudahan ini membuat masyarakat cenderung lebih senang
menonton di Youtube daripada di televisi. Survei We Are Social bahkan
memprediksi 132 juta lebih orang Indonesia menjadi pengguna Youtube [2].
Dengan lebih dari 1 Miliar pengguna perbulan di seluruh dunia, tidak berlebihan
untuk mengatakan bahwa Youtube merupakan salah satu platform online paling
populer saat ini. Selain itu Youtube juga menjadi platform media sosial dengan
pengguna terbanyak di Indonesia [2]. Hal ini dapat dilihat berdasarkan Gambar 1.1.
1
Presentase Pengguna Aktif Media Sosial di
Indonesia pada Januari 2019
100%
80%
60%
40%
20%
0%
Youtube Whatsapp Facebook Instagram Line Twitter
Dari Gambar 1.1 dapat diperkirakan bahwa sekitar 237.6 juta orang di
Indonesia menggunakan Youtube pada awal tahun 2019. Selain itu, besarnya angka
tersebut juga memperlihatkan bahwa salah satu pemasaran paling optimal saat ini
adalah dengan melalui Youtube.
2
Pertumbuhan E-Commerce di Indonesia
2014-2021
Gambar 1.3. Perusahaan ritel online yang terbanyak dipilih pada tahun
2018 [4].
Pada Gambar 1.3 cukup wajar bila nama-nama perusahaan diatas mulai
menggunakan Youtube untuk semakin menarik perhatian masyarakat. Dengan
3
jumlah pengguna 237.6 juta pengguna aktif Youtube, bisa dikatakan cukup banyak
pengguna juga yang akan melihat iklan-iklan perusahaan tersebut di Youtube.
Akibatnya, membahas apa saja yang dibicarakan dan menentukan
topik/pembahasan pada kolom komentar Youtube setiap akun e-commerce cukup
menarik untuk dibahas. Sebagai contoh, apa saja yang dibahas masyarakat ketika
melihat iklan-iklan di TKPD, lalu bagaimana respon masyarakat terhadap iklan-
iklan di BKLPK, SHP, dan seterusnya.
Penelitian ini mengutip penggalan ayat suci Al Quran yang artinya: “Dan
tolong-menolonglah kamu dalam (mengerjakan) kebajikan dan takwa, dan jangan
tolong-menolong dalam berbuat dosa dan pelanggaran. Dan bertakwalah kamu
kepada Allah, sesungguhnya Allah amat berat siksa-Nya.”(QS. Al-Maidah: 2) yang
dapat dimaknai bahwa selama sesuai dengan ilmu dan kemampuan, peneliti akan
berusaha menolong saudara sekandung, saudara sebangsa, dan saudara seiman demi
kemaslahatan bersama.
Penelitian ini memiliki referensi utama dari jurnal penelitian Arsy Arlina
pada tahun 2019 yang berjudul,”Sequential Topic Modelling: A Case Study on
Indonesian LGBT Coversation on Twitter” dan Maria Sokolova pada tahun 2016
yang berjudul,”Topic Modelling and Event Identification from Twitter Textual Data
[5].
4
perusahaan e-commerce di Indonesia dari tanggal 4-26 Oktober 2019. Selain itu,
penelitian ini menggunakan metode cross validation untuk menentukan topik mana
yang paling optimal.
1. Data diambil dari komentar Youtube secara rutin setiap minggu dari tanggal 4
Oktober hingga 26 Oktober 2019.
2. Pada penelitian ini, data komentar hanya diambil dari 4 perusahaan yaitu, SHP,
TKPD, BKLPK, dan LZD Indonesia.
1.4 Tujuan Penelitian
Adapun tujuan dari penelitian ini, yaitu:
1. Mengetahui topik yang optimal pada komentar akun Youtube pada masing-
masing e-commerce.
5
BAB II
TINJAUAN PUSTAKA DAN LANDASAN TEORI
Pada penelitian ini berlandaskan beberapa penelitian sebelumnya, yaitu jurnal
penelitian tentang LDA oleh Marina Sokolova dan kawan-kawan pada tahun 2016
yang berjudul,”Topic Modelling and Event Identification from Twitter Textual Data
serta jurnal ilmiah Miska Irani dan kawan-kawan pada tahun 2018 tentang e-
commerce yang berjudul, “Analisis Positioning E-Commerce dengan metode
Multidimensional Scalling [7]. Selain itu, jurnal penelitian oleh Moh. Aziz dan
kawan-kawan yang berjudul,” Klasifikasi Dokumen Komentar pada Situs Youtube
Menggunakan Algoritma K-Nearest Neightbor (K-NN) juga menjadi referensi
tambahan pada penelitian ini [8]. Terakhir, selain jurnal penelitian Arsy, penelitian
ini berlandaskarn jurnal Abu Salam dengan judul “Analisis Sentimen Data
Komentar Sosial Media Facebook dengan K-Nearest Neightbor” dan jurnal Latent
Dirichlet Allocation karya Blei dan kawan-kawan [9] [14].
6
Secara umum terdapat 4 proses yang perlu dijalankan dalam text mining,
antara lain [10]:
1. Akusisi data atau istilahnya scraping.
2. Penyiapan Data atau text preprocessing.
3. Pemodelan yang akan melalui proses looping dengan proses evaluasi
dan validasi.
4. Presentasi untuk memvisualisasikan hasil pemodelan yang dilakukan.
2.1.1 Scraping
Banyak orang yang membuka Youtube sering kali meninggalkan jejak
komentar di video-video yang mereka suka atau tidak suka. Akibatnya, penilaian
terhadap suatu video tidak hanya dilihat dari banyaknya like. Data komentar sering
kali lebih memperjelas topik pembahasan daripada jumlah like/subscriber. Oleh
karena itu, pada tahap ini akan dilakukan pengambilan data komentar alias
scraping. Scraping merupakan teknik untuk mengumpulkan data online secara
otomatis, atau dengan kata lain merupakan teknik mengekstrak informasi dari
kumpulan data pada situs web secara otomatis [10].
Melakukan Scraping pada data komentar di Youtube diyakini dapat
membantu bagian pemasaran untuk menilai dan mengetahui apa inti atau ide pokok
dari kumpulan komentar pada suatu e-commerce. Dalam pembuatan video di
Youtube, sekarang ini memang sudah ada aplikasi Analisis Youtube untuk
melakukan evaluasi ataupun mengetahui topik yang sering dibahas masyarakat,
namun itu hanya terbatas dari akun ofisial milik penggunanya saja. Akibatnya tidak
bisa dilakukan perbandingan topik antar video dari perusahaan A, dengan
perusahaan B.
2.1.2 Preprocessing Text
Setelah pengumpulan data, langkah selanjutnya adalah melakukan
preprocessing. Preprocessing adalah suatu langkah yang membuat dokumen yang
kita analisis menjadi sekumpulan data melalui proses tokenisasi, pembuangan
stopwords, dan stemming. Tokenisasi merupakan suatu proses pemisahan teks ke
dalam unit-unit kecil yang disebut token [10]. Dengan kata lain, tokenisasi
merupakan suatu proses pemisahan kata-kata dari suatu dokumen.
7
Setelah melakukan tokenisasi, diperlukan pembuangan stopwords. Tidak
sedikit dalam data teks kita menemukan kata-kata yang sebetulnya tidak terlalu
dibutuhkan dalam penelitian. Kata-kata seperti di, ke, dan, atau, dan sebagainya
tentu bukanlah kata yang akan berdampak serius pada penelitian bahkan dapat
dikatakan tidak dibutuhkan sama sekali.
Kemudian diperlukan upaya stemming. Stemming adalah suatu langkah
dimana kita membuat semua kata menjadi kata dasarnya. Pada proses ini biasanya
juga jumlah frekuensi kata yang sering muncul akan dihitung [10].
Terakhir, untuk memudahkan mencari topik terpenting, diperlukan
pengambilan kata-kata benda atau biasa dikenal Pos Tagging. Struktur kalimat
sering kali memilki kata kerja, kata benda, kata hubung, kata imbuhan, dan
sebagainya. Namun pada penelitian ini, hanya mengutamakan kata benda-nya saja.
2.2 Term Frequency Inverse Document Frequency (TFIDF)
Dalam pencarian informasi, tf-idf (yang merupakan kependekan dari term
frequency inverse) adalah statistik numerik yang dimaksudkan untuk
mencerminkan betapa pentingnya sebuah kata adalah dokumen dalam koleksi atau
korpus. Rumus yang digunakan adalah:
|𝐷|
𝑇𝐹𝐼𝐷𝐹 = 𝑇𝐹 × 𝐼𝐷𝐹 = 𝑇𝐹 × log 𝑒 𝐷𝐹 (2.1)
8
menggunakan pendekatan bag of words (cara representasi data teks) yang
memperlakukan setiap dokumen sebagai vektor jumlah kata dan direpresentasikan
sebagai distribusi probabilitas atas beberapa topik, sementara setiap topik
direpresentasikan sebagai distribusi probabilitas atas sejumlah kata [11].
Pada Gambar 2.1, α dan β merupakan parameter distribusi topik dari dokumen
terlebih dahulu atau biasa disebut parameter prior dirichlet dan parameter distribusi
kata dari sebuah topik [12]. Nilai keduanya merupakan bilangan riil positif yang
dapat dituliskan 𝟎 ≤ 𝜶, 𝜷 ≤ 𝟏 dan untuk nilai optimalnya didekati secara numerik
menggunakan algoritma Gibbs Sampling dalam menentukan jumlah topik terdahulu
[13].
9
rendahnya nilai β maka suatu topik hanya mengandung campuran dari beberapa
kata [11].
Seperti pada Gambar 2.1, distribusi topik dari dokumen (α) mengakibatkan
adanya nilai θ sebagai kumpulan campuran topik yang berbentuk matriks
probabilitas topik terhadap dokumen seperti pada matriks berikut:
θ11 … θ1𝐾
𝐴=[ ⋮ ⋱ ⋮ ]
θ𝑀1 … θ𝑀𝐾
Yang mengartikan bahwa 𝜃𝑀𝐾 berarti kumpulan campuran topik ke-K pada
dokumen ke-M dan nilai probabilitasnya dapat dihitung menggunakan persamaan
berikut:
𝛤(∑𝐾
𝑒=1 𝛼𝑒 ) 𝛼𝑒 −1
𝑝(θ|α) = ∏𝐾
𝑒=1 θ𝑒 (3.1)
∏𝐾
𝑒=1 𝛤(𝛼𝑒 )
Dari kumpulan campuran topik (θ), dapat dipisahkan masing-masing topik (z) dari
campuran topik tersebut. Sehingga diperoleh sebuah matriks baru yang berisikan
nilai probabilitas kata terhadap dokumen untuk masing-masing topik sebagai
berikut:
z11 … z1𝑁
𝐵= [ ⋮ ⋱ ⋮ ]
z𝑀1 … z𝑀𝑁
Dimana nilai z𝑀𝑁 mengartikan topik untuk dokumen ke-M pada kata ke-N, dengan
nilai z = {1, ..., K} atau dapat diartikan z sebanyak jumlah topik yang ada dari
campuran topik, dan nilai masing-masing probabilitasnya dapat dihitung
menggunakan persamaan berikut.
𝑛
𝑝(𝑧|θ) = ∏𝑀 𝐾 𝑚,𝑒
𝑚=1 ∏𝑒=1 𝜃𝑑,𝑒 (3.2)
Variabel θ dan z ini biasa disebut dengan parameter laten atau parameter posterior
dirichlet.
10
Probabilitas topik yang diperoleh (z) dan distribusi kata pada topik (β)
menghasilkan probabilitas kata-kata yang muncul sebagai hasil akhir pembentukan
model (w). Sehingga hasil dari model satu dokumen ini akan memunculkan kata-
kata dari kelompok yang terbentuk, dan kata-kata ini dapat membantu dalam
pendefinisian kategori setiap kelompok. Sehingga total probabilitas berdasarkan
grafik model LDA dapat dihitung menggunakan persamaan berikut:
𝑘
𝑝(𝑤, 𝑧, θ|α, β) = ∏𝑀 𝑁
𝑗=1 𝑝(𝜃𝑗 |𝛼) ∏𝑖=1 𝑝(𝜙|𝛽) ∏𝑡=1 𝑝(𝑧𝑗𝑡 |𝜃𝑗 )𝑝(𝑤𝑗𝑡 |𝜙, 𝑧𝑗𝑡) (3.3)
dengan ϕ merupakan korpus atau untuk kumpulan dokumen yang terjadi akibat
adanya β seperti pada Gambar 2.1. Distribusi peluang bersyarat untuk semua korpus
ϕ diformulasikan sebagai berikut:
𝛤(𝛽𝑒 ) 𝛽 −1
𝑝(𝜙|𝛽) = ∏𝐾
𝑒=1 ∏𝑉 ∏𝑉𝑣=1 𝜙𝑒,𝑣𝑒,𝑣 (3.4)
𝑣=1 𝛤(𝛽𝑒,𝑣 )
𝑉 𝑛
𝑝(𝑤|𝜙, 𝑧) = ∏𝐾 𝑒,𝑣
𝑒=1 ∏𝑣=1 𝜙𝑒,𝑣 . (3.5)
11
yang konsisten dengan interpretasi manusia [17]. Semakin tinggi nilai topic
coherence maka semakin bagus dengan interpretasi manusia. Topic coherence
dihitung dengan melakukan perbandingan berpasangan antar kata dalam topik
tertentu yang mana menghasilkan sebuah ukuran standar kualitas suatu topik.
Tahapan dalam perhitungan topic coherence terlihat pada Gambar 2.2.
12
BAB III
METODOLOGI PENELITIAN
Pada bab ini akan menjelaskan metodologi dalam penelitian yang meliputi
sumber data yang diambil, tahap-tahap dalam penelitian, dan diagram alur
penelitian.
Dalam penelitian ini, memiliki API key dan mengetahui channel Id untuk
masing-masing e-commerce adalah langkah pertama sebelum melakukan scraping.
Penelitian ini juga mengakses website commentpicker.com untuk mengetahui
channel id masing-masing e-commerce. Namun ada keunikan dalam mengakses
channel id masing-masing e-commerce, yaitu hanya SHP yang langsung
memunculan channel id pada akun Youtube-nya.
Setelah memiliki API key dan channel id, langkah selanjutnya adalah
melakukan pembaruan pengambilan data setiap minggunya diantara tanggal 4
Oktober hingga 26 Oktober 2019. Pengambilan data di update rutin tiap minggunya
antara tanggal tersebut. Pada Gambar 3.1 akan diperlihatkan jumlah komentar pada
masing-masing e-commerce.
13
Jumlah Komentar
483
5.824
3.735 15.650
Pada Gambar 3.1 dapat dilihat TKPD memiliki total 15.650 komentar,
BKLPK memiliki 5.824 komentar, SHP memiliki 2.441 komentar, dan LZD
memiliki 483 komentar. Terlihat disini bahwa video-video TKPD memiliki daya
tarik bagi masyarakat sehingga begitu banyak jumlah komentar pada akun Youtube
TKPD. Selain itu, dari gambar diatas dapat dilihat bahwa BKLPK hanya dapat
menghasilkan 5.824 komentar dari sekitar 1.500 video yang dibuat. Sedangkan
TKPD memiliki 15.650 komentar dari sekitar 600 video yang dibuat.
Jumlah Pengguna
5.824
3.735
15.650 483
20.000 LZD
BKLPK
SHP
TKPD
0
14
Pada Gambar 3.2 memperlihatkan jumlah pengguna dan jumlah komentar
pada masing-masing e-commerce sama.
Dari Gambar 3.1 dan Gambar 3.2 dapat dilihat bahwa video-video pada akun
Youtube TKPD cukup banyak dibanjiri komentar. Hal ini cukup menarik bila
memerhatikan bahwa jumlah subscriber dan jumlah video pada TKPD bukan yang
terbanyak. Pada Gambar 3.3 akan diperlihatkan jumlah subscriber dan jumlah
video pada setiap akun.
200.000
467 568
537
1.500
Gambar 3.3. Jumlah subscriber dan jumlah video pada setiap akun.
Pada Gambar 3.3 dapat dilihat bahwa TKPD memiliki jumlah subscriber dan
jumlah video dibawah BKLPK. 1500 video BKLPK berhasil memiliki jumlah
komentar sebanyak 5.824. Sedangkan TKPD dari 568 video yang mereka miliki
berhasil mendapatkan 15.650 komentar.
15
3.2 Tahapan Penelitian
Pada subbab ini akan membahas tahapan-tahapan dalam melakukan
penelitian. Seperti yang sudah dijelaskan sebelumnya, tahap pertama dalam
penelitian ini adalah pengambilan data komentar Youtube pada masing-masing e-
commerce dengan syarat memiliki API key. Tentu saja tidak langsung didapatkan
komentar Youtube secara keseluruhan. Awalnya diperlukan pemanggilan pada
selurul URL. Setelah itu, melakukan scraping data komentar pada masing-masing
video tersebut.
16
LDA. Masing-masing kata diberikan bobot tergantung banyaknya kata tersebut
pada topik lalu kata-kata tersebut barulah di cluster terhadap masing-masing topik.
Disinilah metode LDA berkerja. Perhitungan dilakukan 2 kali yaitu perhitungan
peluang sebuah topik muncul dalam dokumen yang pertama dan kedua perhitungan
peluang sebuah kata muncul dalam sebuah topik. Dari perhitungan ini, masing-
masing dikalikan dan mengasilkan nilai probabilitas di masing-masing topik.
Dengan menentukan nilai koheren tertinggi menggunakan metode cross validation
akan didapatkan topik yang paling optimal.
Kesimpulan
Selesai
17
BAB IV
HASIL DAN PEMBAHASAN
Pada bab ini akan dijabarkan lebih lanjut permasalahan preprocessing data,
text analytic, pemodelan topik baik antar perusahaan maupun secara keseluruhan,
dan terakhir implementasi hasil.
Hehe.verel mo di cium lucinta luna..mana mau..kliatan bgt verelnya risih..kasian u cium luna kliatan kasian rel rel sabar sabar
rel..rel..sabar..sabar..semangat trs y rel..❤❤❤ semangat rel
Warna LZD nya ubahin ke oranye semua dong, yg setuju like warna ubahin oranye
Tolong di perbaiki saya ingin aktivasi LZD credit tapi tidak tau kenapa pas sudah aktivasi credit kode verifikasi aktivasi
masukin kode verifikasi tidak ke aktivasi juga
18
Setelah tahap preprocessing, langkah selanjutnya adalah mengetahui statistik
deskriptif pada data. Artinya sebelum mengolah data, diperlukan suatu pengenalan
terhadap data tersebut seperti nilai rata-rata, median, nilai maksimal-minimal, dan
sebagainya. Karena itu sebelum pengolahan data akan disajikan statistik deskriptif
seperti pada Gambar 4.1.
STATISTIK DESKRIPTIF
KOMENTAR KESELURUHAN
138
6
19
Selanjutnya akan dilakukan text visualization pada masing-masing
perusahaan. Berikut adalah gambar wordlink dan contoh kolom komentar
perusahaan LZD pada Gambar 4.3.
Lalu pada Gambar 4.4 dapat dilihat wordlink dan contoh kolom komentar
pada perusahaan BKLPK.
20
Gambar 4.4. Wordlink dan contoh kolom komentar pada BKLPK.
Dari Gambar 4.4 dapat dilihat bahwa kata-kata seperti nama dan didi menjadi kata-
kata yang paling sering muncul. Berdasarkan wordlink diatas dapat diartikan bahwa
selebritis-selebritis Indonesia yang pernah tampil di acara BKLPK sering di bahas
oleh masyarakat. Selain itu, undian atau kuis suatu produk pada konten BKLPK
juga memiliki daya tarik untuk masyarakat.
Kemudian pada Gambar 4.5 dapat dilihat wordlink dan contoh kolom
komentar pada perusahaan SHP sebagai berikut.
21
Gambar 4.5. Wordlink dan contoh kolom komentar pada SHP.
Gambar 4.5 memperlihatkan bahwa kata suara memiliki hubungan dengan
beberapa nama artis di Indonesia. Pada kolom komentar juga dapat dilihat bahwa
penampilan Ayu Ting-Ting, Dewi Persik, dan Syahrini pada acara Shopping Day
SHP cukup sering dibahas oleh masyarakat.
Setelah itu, Berikut adalah hasil wordlink dan contoh kolom komentar pada
TKPD yang disajikan pada Gambar 4.6.
22
Gambar 4.6. Wordlink dan contoh kolom komentar pada TKPD.
Pada Gambar 4.6 dapat dilihat bahwa kata iwan dan bts merupakan kata-kata yang
paling sering muncul. Berdasarkan wordlink diatas dapat dilihat juga bahwa kata-
kata tersebut memiliki hubungan pada kata fals, film, layar, lebar, dan sebagainya.
Dari kolom komentar dapat memperjelas bahwa salah satu konten TKPD, Iwan Fals
- Masa Depan Ada di Tangan Kita, banyak diharapkan dapat diangkat menjadi film
layar lebar suatu saat nanti.
Terakhir, akan dikumpulkan semua data menjadi kesatuan. Ini dapat dilihat
pada Gambar 4.7.
Gambar 4.7. Wordlink dan video dengan jumlah komentar terbanyak secara
keseluruhan.
23
Berdasarkan Gambar 4.7 kata-kata iwan, fals, iklan, bts, ayu, dan sebagainya
merupakan beberapa kata yang paling sering muncul. Hasil ini tidak berbeda jauh
dengan pengamatan sebelumnya pada akun TKPD. Oleh sebab itu, dapat dianggap
bahwa konten TKPD menjadi konten yang paling sering dibahas oleh masyarakat
dari tanggal 4 Oktober hingga 26 Oktober 2019.
24
Tabel 4.3. Contoh probabilitas beberapa kata pada suatu cluster.
Kata-kata pada Suatu Cluster Probabilitas kata Topik
nama 0.5333332,
jam 0.03333338, Undian/ Kuis pada
sekolah 0.03333333,
BKLPK
kota 0.03333334,
alamat 0.33333333
ronaldo 0.041436,
att 0.041436,
ariel 0.0414443,
Selebritis pada SHP
video 0.041436,
cantik 0.0414569,
noah 0.041436
Film 0.02082982, Video Dokumenter pada
Layar 0.02082982, TKPD
Angkat 0.02082982
Pada Tabel 4.3 dapat dilihat beberapa kata beserta probabilitasnya pada suatu
topik. Sebagai contoh kata ‘nama’ memiliki nilai probabilitas sebesar 0.53 pada
topik undian pada kasus BKLPK. Lalu kata ‘ronaldo’ memiliki nilai probabilitas
0.414 pada topik selebritis pada kasus SHP dan seterusnya.
Berdasarkan tabel tersebut juga didapatkan beberapa topik yang
bermunculan. Selanjutnya akan dilakukan resampling untuk menentukan apakah
topik-topik pada Tabel 4.3 sudah optimal. Dengan menggunakan cross validation
akan ditentukan cluster ke berapa yang memiliki nilai koheren tertinggi. Pada
Gambar 4.8 akan diperlihatkan grafik nilai koheren pada setiap perusahaan.
25
(c) Grafik pada SHP. (d) Grafik pada TKPD.
Gambar 4.8. Grafik nilai koheren BKLPK, LZD Indonesia, SHP, dan
TKPD.
Pada Gambar 4.8 memperlihatkan beberapa cluster atau kelompok yang
memiliki nilai koheren paling tinggi pada setiap perusahaan. Kemudian dapat
dilihat isi/kata-kata pada cluster tersebut pada Gambar 4.9.
26
Tabel 4.4. Kata-kata yang bermuculan pada setiap perusahaan.
Gambar 4.10. Topik komentar Youtube pada setiap perusahaan dari 4-26
Oktober 2019.
4.3 Ringkasan Analisis Topik secara Keseluruhan
Pada Subbab sebelumnya, telah dilakukan analisis menggunakan metode
LDA pada masing-masing e-commerce. Saat ini akan dilakukan analisis bila data
27
dikumpulkan menjadi satu. Dengan menggunakan teknik Cross Validation
didapatkan nilai koheren yang berbeda-beda pada setiap topiknya. Plotnya dapat
dilihat pada Gambar 4.11.
Gambar 4.11. Plot nilai koheren dan topik dengan metode Cross
Validation.
Gambar 4.12. Beberapa contoh konten atau segmen yang paling sering di
bahas masyarakat melalui Youtube.
28
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil penelitian sebelumnya didapat kesimpulan sebagai berikut:
Pada penelitian ini juga didapatkan kesimpulan bahwa topik yang paling
sering di bahas oleh masyarakat ketika membuka keempat akun Youtube
perusahaan tersebut adalah topik selebritis.
5.2 Saran
Berdasarkan hasil penelitian sebelumnya didapat beberapa saran sebagai berikut:
29
REFERENSI
[1] Edy Chandra, "Youtube Citra Media Informasi Interaktif Atau Penyampaian
Aspirasi Pribadi," Jurnal Muara Ilmu Sosial, Humaniora, dan Seni, vol. 1, no.
2, pp. 406-417, 2017.
[2] Mellyna Eka Fitri, "Penggunaan Media Sosial Berdasarkan Gender Terhadap
Prestasi Belajar Mahasiswa," Jurnal Benefita, pp. 162-181, 2019.
[3] Dedi Ansari Harahap, "Perilaku Belanja Online di Indonesia," Jurnal Riset
Manajemen Sains Indonesia, vol. 9, no. 2, 2018.
[4] Ryo Kusumo, "Inilah Hasil Survei Online Shop Terbaik 2018 dan Potensi
Skema 020 di Indonesia," Kompasiana, 3 Januari 2019. [Online]. Available:
https://www.kompasiana.com/ryokusumo/5c2dd810677ffb20ac064d36/inilah-
hasil-survey-online-shop-terbaik-2018-dan-potensi-skema-o2o-di-indonesia.
[Accessed 7 April 2020].
[5] Arsy Arlina dan Muhaza Liebenlito, "Sequential Topic Modelling : A Case
Study on Indonesian LGBT Conversation on Twitter," Indonesian Journal of
Pure and Applied Mathematics, vol. 1, no. 1, pp. 17-31, 2019.
[6] Maria Sokolova, "Topic Modelling and Event Identification from Twitter
Textual Data," University Of Ottawa, Ottawa, 2016.
[7] Miska Irani dan Parapat Gultom, "Analisis Positioning E-Commerce dengan
metode Multidimensional Scalling," Jurnal Ilmiah Methonomi, vol. 4, no. 1,
pp. 1-8, 2018.
[9] Abu Salam, "Analisis Sentimen Data Komentar Sosial Media Facebook dengan
K-Nearest Neightbor," in Prosiding SINTAK, Semarang, 2018.
[11] D. L Hong, "Empirical Study of Topic Modelling in Twitter," SOMA, vol. 10,
pp. 80-88, 2010.
30
[12] Franz Perkopf dan Robert Perharf, "Probabilistic Graphical Model," in
Introduction to Probabilistic Graphical Model, Austria, Graz University of
Technology, 2014, p. 58.
[14] Blei, Edu, Jordan, "Latent Dirichlet Allocation," Journal of Machine Learning
Research, vol. 3, no. 4, pp. 993-1022, 2003.
[16] Blei, Garrish, Wang, Chang, "How Humans Interpret Topic Model," Reading
Tea Leaves, pp. 1-9, 2009.
[17] Mimno, "Optimizing Semantic Coherence in Topic Model," no. 2, pp. 262-272,
2011.
31