II. TINJAUAN PUSTAKA membutuhkan dua parameter penting, yaitu parameter radius
A. Text Mining (Eps) dan jumlah minimum poin untuk membentuk
kelompok (MinPts). Algoritma dari DBSCAN adalah sebagai
Text mining dapat didefinisikan sebagai proses menggali berikut [12].
informasi dimana pengguna bisa berinteraksi dengan 1. Menentukan parameter MinPts dan Eps.
beberapa sumber dari waktu ke waktu menggunakan tools 2. Pilih tweet p secara acak
analysis. Text mining bertujuan mengekstraksi informasi 3. Menghitung jumlah tweet yang ditentukan oleh parameter
yang berguna dari beberapa sumber data melalui identifikasi radius (Eps). Jika jumlahnya mencukupi (lebih dari atau
dan eksplorasi pola yang menarik [4]. sama dengan ɛ), data akan ditandai sebagai inti (core point).
B. Text Preprocessing 4. Menghitung jarak titik core point dengan point yang lain
Text Preprocessing merupakan sebuah langkah penting menggunakan jarak Euclidean. Berikut adalah rumus jarak
dalam Data Mining untuk membuat data mentah menjadi data Euclidean yang ditujukan pada persamaan (3).
m
(x
yang berkualitas. Data perlu dilakukan preprocessing karena
dip ji y jp )2 , (3)
dalam data mentah terdapat data yang tidak lengkap, noise, j 1
dan tidak konsisten [5]. Langkah – langkah dalam praproses keterangan :
teks adalah sebagai berikut.
dip = jarak Euclidean dari tweet ke-i ke pusat cluster ke-k
1. Data Cleaning, tahap untuk menghilangkan kata yang tidak xji = frekuensi kemunculan kata ke-j pada tweet ke-i
diperlukan misalnya karakter HTML, link URL, username
yjp = frekuensi kemunculan kata ke-j pada titik pusat ke-p
(@username), emoticons, dan hashtag (#) [6]. m = banyak kata
2. Case Folding, tahap untuk menghilangkan angka dan tanda 5. Buat cluster baru dengan menambahkan tweet p ke dalam
baca, serta mengubah karakter teks menjadi huruf kecil cluster.
semua [7].
6. Melakukan identifikasi pada data yang ditandai sebagai
3. Stemming, tahap untuk mendapatkan kata dasar. Sistem core point
kerja tahap stemming ini adalah menghilangkan awalan, 7. Lanjutkan proses sampai semua point telah diproses.
akhiran, sisipan, dan confixes (kombinasi dari awalan dan 8. Jika ada tweet yang tidak masuk ke dalam cluster manapun akan
akhiran) [8]. ditandai sebagai noise.
4. Stopwords, tahap untuk menghilangkan kosakata yang
DBSCAN mencari cluster dengan memeriksa parameter
bukan termasuk kata unik atau tidak menyampaikan pesan
radius (Eps) dari setiap titik dalam dataset. Jika Eps pada
apapun secara signifikan pada teks. Kosakata yang
tweet p berisi lebih dari MinPts, sebuah cluster baru dengan
dimaksud seperti kata penghubung dan kata keterangan
p sebagai core point terbentuk [13].
misalnya “oleh”, “di”, “yang”, “jadi”, dan sebagainya [9].
5. Tokenizing, tahap untuk memutuskan kata per kata pada E. K-Means
kalimat. Tahapan ini bertujuan untuk memecah yang K-Means adalah teknik yang cukup sederhana dan cepat
semula berupa kalimat menjadi potongan-potongan kata dalam proses clustering obyek (clustering) serta mampu me-
[10]. ngelompokkan data dalam jumlah cukup besar. Berikut
C. TF-IDF adalah algoritma dari metode K-Means [14].
1. Memilih secara acak k centroid awal dalam data
Term Frequency-Inverse Document Frequency (TF-
2. Menentukan jarak setiap kata terhadap pusat cluster
IDF) digunakan untuk mengukur seberapa penting suatu kata
3. Mengelompokkan setiap kata berdasarkan kedekatannya
dalam dokumen. Frekuensi kemunculan setiap kata dalam
dengan centroid (jarak terkecil) menggunakan Euclidean
dokumen diberikan sebagai skema pembobotan kata yang
distance. Berikut adalah rumus jarak Euclidean yang
diasumsikan bahwa stopwords yang paling sering muncul
ditujukan pada persamaan (4).
dalam teks di-hapus terlebih dahulu. Kata-kata yang
m
(x
diberikan bobot (weight) dihitung frekuensi kemunculannya
dik ji y jk )2 , (4)
dalam sebuah dokumen [11]. Berikut adalah persamaan yang j 1
membentuk TF-IDF yang dapat dilihat pada persamaan (1)
keterangan :
dan (2).
dik = jarak Euclidean dari tweet ke-i ke pusat cluster ke-k
Wi, j TFi, j IDFj , (1) xji = frekuensi kemunculan kata ke-j pada tweet ke-i
yjk = frekuensi kemunculan kata ke-j pada pusat cluster ke-
N k
IDFj log , (2)
DF m = banyak kata
j
4. Hitung ulang pusat cluster (centroid) baru menggunakan
keterangan : m
nk
Wi,j = bobot dari kata ke j pada tweet ke i vik 1 x ji , (5)
DFj = banyaknya tweet yang mengandung kata j j 1
TFi,j = jumlah kemunculan kata ke j pada tweet ke i keterangan :
IDFj = inverse document frequency pada kata ke j vik = centroid (rata-rata cluster ke-k untuk tweet ke-i)
N = jumlah keseluruhan tweet nk = banyaknya tweet yang menjadi anggota cluster ke-k
D. Density-Based Spatial Clustering of Applications with xji = frekuensi kemunculan kata ke-j yang berada dalam
Noise (DBSCAN) cluster tersebut untuk tweet ke-i
5. Ulangi langkah 2 hingga 4, sampai anggota yang ada pada
Density Based Spatial Clustering Algorithm with Noise
tiap cluster tidak berubah.
(DBSCAN) adalah algoritma pengelompokkan yang didasar-
kan pada kepadatan (density) data [1]. Algoritma DBSCAN
JURNAL SAINS DAN SENI ITS Vol. 8, No. 2 (2019), 2337-3520 (2301-928X Print) D139
Jika jumlah cluster k belum diketahui, dapat menggunakan dapat diubah sebagai informasi baru, misalnya dalam warna
Variance Ratio Criterion (VRC) untuk menentukan jumlah dan pengelompokkan [17].
cluster k yang optimum [15]. Berikut adalah rumus dari
H. Layanan Ekspedisi
Variance Ratio Criterion yang dapat dilihat pada persamaan
(6), (7), dan (8). Perusahaan Jasa Pengiriman atau ekspedisi merupakan
BGSS / K 1 , (6)
sebuah perusahaan yang bergerak pada bidang layanan pe-
VRC ngiriman, yang dalam hal ini adalah pengiriman barang [18].
WGSS / ( N K )
K K m
BGSS ( y jk y jl )2 , (7)
III. METODE PENELITIAN
k 1 l 1,l k j 1
K I m A. Sumber Data dan Variabel Penelitian
WGSS ( x ji y jk )2 , (8)
Data yang digunakan dalam penelitian ini adalah data
k 1 i 1 j 1
yang diambil dari kumpulan tweet yang ditujukan kepada
keterangan :
customer care dari Layanan Ekspedisi JNE (@JNECare),
K = banyak cluster
customer care dari Layanan Ekspedisi J&T(@jntexpressid),
N = banyak tweet
dan customer care dari Layanan Ekspedisi Pos Indonesia
m = banyak kata
(@PosIndonesia) selama 4 Februari 2019 hingga 7 Mei 2019
I = banyak tweet yang menjadi anggota cluster ke-k
dengan mengguna-kan Twitter API. Variabel penelitian yang
xji = frekuensi kemunculan kata ke-j yang berada dalam
digunakan adalah frekuensi kemunculan kata dasar dari setiap
cluster tersebut untuk tweet ke-i
tweet yang telah dilakukan preprocessing, dinotasikan
yjk = frekuensi kemunculan kata ke-j pada pusat cluster ke-
sebagai variabel A dengan skala rasio.
k
yjl = frekuensi kemunculan kata ke-j pada pusat cluster ke-l B. Langkah Analisis
F. Silhouette Coefficient Langkah analisis yang digunakan pada penelitian ini
adalah sebagai berikut.
Silhouette coefficient merupakan metode yang di-
1. Mengambil data tweet dengan menggunakan Twitter API
gunakan untuk mengevaluasi hasil clustering dengan
a. Memasukkan keyword yang berhubungan dengan akun
memeriksa se-berapa baik kelompok-kelompok (cluster)
Twitter @JNECare, @jntexpressid dan
yang dihasilkan [12]. Berikut adalah langkah-langkah
@PosIndonesia
perhitungan silhouette coefficient.
b. Menyimpan hasil crawling ke database
1. Menghitung jarak rata-rata dari tweet i dengan semua
2. Melakukan text preprocessing pada data tweet layanan
tweet yang ada di dalam cluster yang sama
ekspedisi JNE, J&T, dan Pos Indonesia
a (i )=
dist (i, j ) ,
jCi ,i j (9) 3. Mengubah data tweet ke dalam bentuk frekuensi ke-
Ci 1 munculan kata menggunakan metode TF-IDF.
keterangan : 4. Melakukan clustering data.
Ci = banyak tweet dalam cluster Ci a. Melakukan clustering dengan metode DBSCAN.
j = tweet lain dalam cluster Ci i. Melakukan clustering sesuai dengan algoritma dari
dist(i, j) = jarak Euclidean antara tweet i dengan tweet DBSCAN.
j ii. Menghitung nilai silhouette coefficient setiap
2. Menghitung jarak rata-rata dari tweet i dengan semua kombinasi Eps.
tweet yang berada di cluster berbeda dan didapatkan nilai b. Melakukan clustering dengan metode K-Means.
terkecil. i. Melakukan clustering sesuai dengan algoritma dari
1
, (10) K-Means
b(i ) min
Cl :1 l k ,l 1
jCl
dist (i, l )
c. Memilih hasil clustering terbaik dengan melihat nilai
Cl
keterangan : silhoutte coefficient terbesar.
Cl = banyak tweet dalam cluster Cl
IV. ANALISIS DAN PEMBAHASAN
l = tweet lain dalam cluster yang berbeda
dist(i, l) = jarak Euclidean antara tweet i dengan tweet A. Karakteristik Data
l
100000 62188
3. Hitung silhouette coefficient
25094
b(i) a(i) , (11) 11573
s(i)
max a(i), b(i ) 0
JNECare jntexpressid PosIndonesia
Nilai silhouette coefficient s(i) adalah antara -1 dan 1.
Ketika nilai s(i) ada di sekitar 1 yang berarti memiliki Gambar 1. Perbandingan Jumlah Tweet pada Akun Layanan Ekspedisi.
pengelompokkan jauh dari cluster lain [16].
Dari hasil crawling menggunakan Twitter API,
G. Word Cloud didapatkan 62.188 tweet yang ditujukan kepada akun layanan
Word cloud adalah visualisasi umum lainnya ekspedisi JNE yang diambil dari tanggal 17 Februari 2019–7
berdasarkan frekuensi. Di word cloud, kata-kata diwakili Mei 2019, 25.094 tweet yang ditujukan kepada akun layanan
dengan ukuran font yang bervariasi. Dalam word cloud ekspedisi J&T yang diambil dari tanggal 17 Februari 2019–7
sederhana, hanya satu dimensi informasi yang ditampilkan Mei 2019, dan 11.573 tweet yang ditujukan kepada akun
dengan ukuran font yang sesuai dengan frekuensi n gram layanan ekspedisi Pos Indonesia yang diambil dari tanggal 4
yang berarti bahwa semakin besar kata dalam world cloud Februari 2019–7 Mei 2019.
JURNAL SAINS DAN SENI ITS Vol. 8, No. 2 (2019), 2337-3520 (2301-928X Print) D140
Berdasarkan Gambar 1 menunjukkan bahwa tweet yang Berdasarkan diagram pareto pada Gambar 3, diketahui
paling banyak diberikan oleh masyarakat adalah tweet pada bahwa jika diambil 30% dari total frekuensi kemunculan kata,
akun layanan ekspedisi JNE. Hal ini dapat dilihat bahwa maka kata yang sering muncul adalah pada tweet yang di-
layanan ekspedisi JNE lebih sering digunakan oleh tujukan pada layanan ekspedisi JNE adalah “cek”, “paket”,
masyarakat untuk mengirim barang. “kirim”, dan “dm”. Hal ini sesuai dengan hasil visualisasi
Sebelum melakukan analisis clustering perlu dilakukan word cloud unigram pada Gambar 2. Kata yang lebih
text preprocessing pada kumpulan tweet yang dihasilkan. diutamakan untuk ditindak lanjuti adalah 30% dari total
Text preprocessing dilakukan agar data mentah yang frekuensi ke-munculan kata. Berikut adalah visualisasi word
didapatkan dapat menjadi tersruktur untuk mempermudah cloud meng-gunakan bigram yang ditampilkan pada Gambar
analisis. 4.
B. Layanan Ekspedisi JNE
Berikut adalah struktur data berdasarkan frekuensi
kemunculan kata yang didapatkan setelah dilakukan text
prepocessing pada akun layanan ekspedisi JNE yang
ditampilkan pada Tabel 2.
Tabel 2.
Struktur Data Layanan Ekspedisi JNE Setelah Dilakukan Preprocessing
Tweet Kata
ke- alamat … cek … kirim … nomor
1 0 … 0 … 0 … 0
2 2 … 1 … 1 … 0
⁝ ⁝ ⁝ ⁝ ⁝
Gambar 4. Visualisasi Word Cloud Bigram pada Layanan Ekspedisi JNE.
15.003 1 … 0 … 0 … 2
⁝ ⁝ ⁝ ⁝ ⁝
Gambar 4 adalah diagram pareto yang menunjukkan
35.123 0 … 0 … 0 … 0
bahwa jika pasangan kata diambil 15% dari total frekuensi
kemunculan kata, maka pasangan kata yang sering muncul
Tabel 2 menunjukkan bahwa frekuensi kemunculan adalah pada tweet yang ditujukan pada layanan ekspedisi JNE
setiap kata pada setiap tweet yang didapatkan dari proses text adalah “cek_dm”, “nomor_resi”, “dm_terima”, dan
pre-processing. Diketahui bahwa jumlah kata telah “via_dm”. Pasangan kata tersebut sesuai dengan hasil
berkurang dikarenakan ada beberapa kata yang tidak visualisasi word cloud bigram pada Gambar 3. Kata yang
memiliki makna dalam kalimat dihapus dan tidak digunakan. lebih diutamakan untuk ditindak lanjuti adalah 15% dari total
Jumlah dari kata yang dihasilkan setelah dilakukan text frekuensi ke-munculan kata. Kata “cek dm” merupakan
preprocessing adalah 339 kata dan kata-kata tersebut bentuk permintaan pelanggan kepada pihak ekspedisi JNE
merupakan variabel penelitian yang akan digunakan. untuk membaca dan merespon dm atau pesan yang
Selanjutnya dilakukan visualisasi data menggunakan word dikirimkan pelanggan. Pasangan kata “dm terima” adalah
cloud dengan teknik n-gram, yaitu dengan n sebesar 1 atau bentuk informasi yang disampaikan oleh pihak ekspedisi JNE
unigram. Berikut adalah word cloud yang dibentuk berdasar- bahwa dm yang dikirim oleh pelanggan telah diterima,
kan bobot TF-IDF dari setiap kata pada akun layanan JNE sedangkan pasangan kata “nomor resi” menunjukkan alat
yang ditampilkan pada Gambar 2. bukti pelacakan barang atau paket yang dikirimkan.
200000 100.00
75.00 Persentase
Frekuensi
150000 23.49
17.15 25.92 27.99
100000 20.66
9.79 15.0318.94 22.15 24.71 26.97 28.94 50.00
6.95 12.59
50000 3.61 25.00
0 0.00
nomor_resi
nomor_telepon
kirim_terima
cek_dm
paket_terima
kota_tujuan
cek_terima
tidak_nyaman
nyaman_cek
dm_terima
via_dm
cek_paket
alamat_lengkap
cek_kirim
informasi_nomor
49.79 53.73
100000 27.40 38.68 45.51 60.00
31.34 1. Clustering menggunakan Metode DBSCAN
15.14 40.00
50000 8.64 Hasil clustering dengan metode DBSCAN dengan meng-
21.44 20.00
0 0.00 gunakan MinPts sebesar 50 dengan berbagai kombinasi Eps
memperoleh nilai silhouette coefficient untuk layanan
ekspedisi JNE.
Kata
Tabel 4 menunjukkan bahwa nilai silhouette coefficient
Jumlah Kumulatif tertinggi dilakukan menggunakan parameter Eps sebesar 0,6.
Gambar 3 Diagram Pareto Unigram Layanan Ekspedisi JNE. Nilai silhouette coefficient yang dihasilkan dengan
JURNAL SAINS DAN SENI ITS Vol. 8, No. 2 (2019), 2337-3520 (2301-928X Print) D141
mengguna-kan parameter Eps sebesar 0,6 dan MinPts sebesar semua kata adalah kata “tidak”, “paket”, “terima”, dan
50 adalah 0,26518. Jumlah cluster yang didapatkan dari “kirim”. Hal ini sesuai dengan hasil visualisasi word cloud
clustering menggunakan metode DBSCAN dengan MinPts unigram pada Gambar 6. Kata yang perlu diutamakan untuk
sebesar 50 dan Eps sebesar 0,6 adalah sebanyak 18 cluster ditindak lanjuti yaitu 30% kata yang muncul dari total
dengan 15.209 tweet sebagai noise. Oleh karena itu, dengan frekuensi kemunculan kata. Kata “paket” menunjukkan
menggunakan MinPts sebesar 50 didapatkan Eps optimum barang atau produk dalam bungkusan yang dikirim oleh
sebesar 0,6. perusahaan ekspedisi. Kata “tidak” merupakan bentuk kata
Tabel 4. penolakan atau penyangkalan. Karena kata “paket” dan
Nilai Silhouette Coefficient dari Metode DBSCAN
“tidak” tidak cukup memberikan informasi yang lebih dan
Eps Silhouette Coefficient
0,6 0,26518
lengkap, sehingga perlu dilakukan visualisasi word cloud
0,61 0,21345 menggunakan teknik bigram.
0,62 0,19498
0,63 0,09340
0,64 0,12935
0,65 0,01673
0,66 0,03505
0,67 0,03288
0,68 0,02545
Tabel 5. 100.00
Nilai VRC pada Layanan Ekspedisi JNE
100000 33.… 80.00
Persentase
Cluster Nilai VRC Cluster Nilai VRC 47.51 50.83 53.37 60.00
Frekuensi
status
follow
tidak
cek
sedia
belum
up
nomor
barang
tunggu
paket
nyaman
terima
kirim
6 1.613,7094 15 986,1774
7 1.459,8178 16 970,2019
8 1.391,1281 17 922,2360
9 1.278,7757 18 915,0433 Kata
Jumlah Kumulatif
10 1.182,0085 19 877,9982
20 854,2907 Gambar 7 Diagram Pareto Unigram Layanan Ekspedisi J&T.
Tabel 6.
Struktur Data Layanan Ekspedisi J&T Setelah Dilakukan Preprocessing
Tweet Kata
ke- barang … nama … status … terima
1 0 … 0 … 0 … 0 Gambar 8. Visualisasi Word Cloud Bigram pada Akun Layanan Ekspedisi
2 0 … 0 … 1 … 0 J&T.
⁝ ⁝ ⁝ ⁝ ⁝
100.00
10.006 0 … 0 … 0 … 0 60000
Persentase
80.00
Frekuensi
⁝ ⁝ ⁝ ⁝ ⁝ 40000 25.31
24.33 26.29
60.00
15.95
17.3518.70
12.8014.49 22.1523.27
19.8821.03 40.00
23.775 1 … 0 … 0 … 2 10.65
20000 4.467.81
20.00
Jumlah dari frekuensi kemunculan setiap kata pada setiap 0 0.00
tunggu_teri…
paket_nomor
sedia_tunggu
call_centre
nomor_resi
paket_belum
kirim_paket
hubung_call
tidak_nyaman
follow_up
paket_tidak
resi_tidak
belum_terima
centre_terima
tolong_cek
Tabel 10.
Berdasarkan diagram Pareto pada Gambar 9 diketahui Struktur Data Layanan Ekspedisi Pos Indonesia Setelah Dilakukan
Preprocessing
bahwa 15% pasangan kata dari total frekuensi kemunculan
Kata
kata adalah pasangan kata “nomor_resi”, “tidak_nyaman”, Tweet ke-
cek … kirim … paket … twitter
“follow_up”, “sedia_tunggu”, dan “paket_tidak”. Pasangan
1 1 … 0 … 0 … 0
kata tersebut sesuai dengan hasil visualisasi word cloud
2 0 … 1 … 0 … 0
bigram pada Gambar 8. Kata yang perlu diutamakan untuk
⁝ ⁝ ⁝ ⁝ ⁝
ditindak lanjuti adalah 15% pasangan kata dari total frekuensi
kemunculan kata. Tabel 10.
1. Clustering menggunakan Metode DBSCAN Struktur Data Layanan Ekspedisi Pos Indonesia Setelah Dilakukan
Hasil clustering dengan metode DBSCAN dengan meng- Preprocessing (Lanjutan)
gunakan MinPts sebesar 30 dengan berbagai kombinasi Eps Kata
Tweet ke-
memperoleh nilai silhouette coefficient untuk layanan cek … kirim … paket … twitter
ekspedisi JNE. 3.000 0 … 3 … 2 … 0
⁝ ⁝ ⁝ ⁝ ⁝
Tabel 8. 6.796 0 … 0 … 0 … 1
Nilai Silhouette Coefficient dari Metode DBSCAN
Jumlah dari frekuensi kemunculan setiap kata pada setiap
Eps Silhouette Coefficient
0.1 0,9999464
tweet setelah dilakukan preprocessing yang ditampilkan pada
0.2 0,9997138 Tabel 10 diketahui sebanyak 485 kata. Kata-kata tersebut
0.3 0,9473227 yang akan dipergunakan sebagai variabel penelitian.
0.4 0,7583361
0.5 0,3388869
0.6 0,1443148
0.7 0,0171568
0.8 0,0008924
Tabel 8 menunjukkan bahwa nilai silhouette coefficient
tertinggi yang diperoleh dari metode DBSCAN pada akun
layanan ekspedisi J&T dilakukan menggunakan parameter
Eps sebesar 0,1 dilihat berdasarkan Tabel 8 adalah 0,9999.
Nilai silhouette coefficient tersebut dapat dikatakan bahwa
hasil clustering telah sangat baik karena tweet di dalam
cluster yang ada telah kompak dan tweet dalam suatu cluster Gambar 10. Visualisasi Word Cloud pada Layanan Ekspedisi Pos Indonesia.
telah jauh dari cluster yang lain. Oleh karena itu, jumlah
cluster optimum yang diperoleh dari clustering menggunakan 100.00
40000
metode DBSCAN dengan MinPts sebesar 30 dan Eps sebesar 80.00
30000
Persentase
0,1 adalah sebanyak 22 cluster dengan 20.384 tweet sebagai
Frekuensi
kantor
layanan
cek
dm
indonesia
twitter
nomor
belum
tunggu
barcode
paket
kirim
terima
“kirim_terima”, “barcode_kirim”, “nomor_handphone”, kan untuk penentuan jumlah cluster optimum dilakukan
“kirim_kantor”, dan “kode_nomor”. Pasangan kata tersebut dengan K mulai dari 2 hingga 20.
sesuai dengan hasil visualisasi word cloud bigram pada
Tabel 13.
Gambar 12. Kata perlu diutamakan untuk ditindak lanjuti Nilai VRC pada Layanan Ekspedisi Pos Indonesia
yaitu 10% kata yang muncul dari total frekuensi kemunculan Cluster VRC Cluster VRC
kata. 2 195,03808 12 117,2328
3 162,77934 13 116,1481
4 151,56805 14 111,8925
5 142,98908 15 108,8675
6 146,72316 16 110,7515
7 128,89546 17 104,8108
8 140,48242 18 103,5712
9 133,59514 19 102,1584
10 134,69985 20 94,41221
11 119,89227
Berdasarkan hasil nilai VRC pada Tabel 13 menunjukkan
jumlah cluster (K) terbentuk sebanyak 20 dan yang memiliki
nilai VRC paling tinggi yaitu sebesar 195,03808 pada 2
cluster dengan nilai silhouette coefficient sebesar 0,0107.
Gambar 12. Visualisasi Word Cloud Bigram pada Akun Layanan Ekspedisi E. Perbandingan Metode Clustering DBSCAN dan K-
Pos Indonesia Means
100.00 Perbandingan metode clustering diperlukan untuk me-
15000 80.00 ngetahui metode yang terbaik yang dapat digunakan untuk
Persentase
Frekuensi
10000 13.45 15.31 60.00 mengelompokkan tweet pada akun layanan ekspedisi JNE,
7.12 17.03
4.575.88 9.44 12.48 14.39 16.21 17.84 40.00
11.50
5000 3.08 8.32 10.49 J&T, dan Pos Indonesia. Perbandingan metode clustering ini
20.00
0 0.00
didasarkan pada hasil nilai silhouette coefficient yang di-
layanan_indon…
nomor_handp…
informasi_nom…
kirim_nomor
nama_terima
kirim_terima
kirim_kantor
nomor_barcode
terima_alamat
kode_nomor
alamat_kode
bea_cukai
isi_kirim
barcode_kirim
Tabel 14.
Perbandingan Antar Metode DBSCAN dan K-Means
Layanan Metode Silhouette Jumlah
Ekspedisi Clustering Coefficient Cluster
Kata
K-Means 0,0819 2
Jumlah Kumulatif JNE
DBSCAN 0,2652 18
Gambar 13. Diagram Pareto Bigram Layanan Ekspedisi Pos Indonesia. K-Means 0,0492 2
J&T
DBSCAN 0,9999 22
1. Clustering menggunakan Metode DBSCAN Pos K-Means 0,0107 2
Indonesia DBSCAN 0,9975 11
Hasil clustering dengan metode DBSCAN dengan meng-
gunakan MinPts sebesar 30 dengan berbagai kombinasi Eps Berdasarkan Tabel 14 dapat dilihat dari nilai silhouette
didapatkan nilai silhouette coefficient untuk layanan coefficient pada metode DSBCAN di semua layanan
ekspedisi Pos Indonesia. ekspedisi JNE, J&T, dan Pos Indonesia jauh lebih baik dalam
Tabel 12. me-ngelompokkan tweet dibandingkan dengan metode K-
Nilai Silhouette Coefficient dari Metode DBSCAN
Means. Jumlah kelompok yang terbentuk banyak pada hasil
Eps Silhouette Coefficient
clustering menggunakan metode DBSCAN dapat
0,1 0,9974903
menguntung-kan pihak layanan ekspedisi JNE, J&T, dan Pos
0.2 0,9715307
Indonesia untuk memberikan informasi yang lebih variatif
0.3 0,9406119
0.4 0,8782036
agar dapat digunakan sebagai bahan evaluasi atau monitoring
0.5 0,7608612 selanjutnya.
0.6 0,3346245
0.7 0,2394187 V. KESIMPULAN DAN SARAN
0.8 0,0807623
A. Kesimpulan
Berdasarkan Tabel 12, nilai silhouette coefficient tertinggi
Berdasarkan analisis dan pembahasan, kata yang sering
yang diperoleh dari metode DBSCAN pada akun layanan
ekspedisi Pos Indonesia dilakukan menggunakan parameter muncul pada tweet yang ditujukan pada layanan ekspedisi
JNE adalah “cek” dan “dm”. Kata yang sering muncul pada
Eps sebesar 0,1. Nilai silhouette coefficient yang dihasilkan
dengan menggunakan parameter Eps adalah 0,9974903. Hasil tweet yang ditujukan pada layanan ekspedisi J&T adalah
“paket”, sedangkan kata yang sering muncul pada tweet yang
clustering dikatakan cukup baik dikarenakan nilai silhouette
coefficient mendekati 1. Jumlah cluster yang diperoleh dari ditujukan pada layanan ekspedisi Pos Indonesia adalah
“kirim”. Berdasarkan nilai silhouette coefficient tertinggi
clustering menggunakan metode DBSCAN dengan MinPts
yang diperoleh, didapatkan hasil bahwa metode DBSCAN
sebesar 30 dan Eps sebesar 0,1 adalah sebanyak 11 cluster
merupakan metode terbaik dibandingkan dengan metode K-
dengan 5.815 tweet sebagai noise.
Means untuk mengelompokkan tweet yang ditujukan kepada
2. Clustering menggunakan Metode K-Means akun media sosial Twitter layanan ekspedisi JNE, J&T, dan
Jumlah cluster optimum adalah cluster memiliki nilai Pos Indonesia. Clustering dengan metode terbaik
Variance Ratio Criterion paling tinggi. Index yang diguna- menghasilkan 18 cluster untuk layanan ekspedisi JNE, 22
cluster untuk layanan ekspedisi J&T, dan 11 cluster untuk
layanan ekspedisi Pos Indonesia.
JURNAL SAINS DAN SENI ITS Vol. 8, No. 2 (2019), 2337-3520 (2301-928X Print) D144