Abstract— Cluster analysis is a technique that distributes data mining dapat menjadi salah satu cara untuk memfasilitasi hal
to several groups (groups / clusters / segments) where each cluster tersebut.
can be occupied by several members together. There are 3 Data mining menganalisa sejumlah besar kumpulan data
methods that are compared namely partitional, hierarchical, and observasi, menemukan suatu hubungan tidak terduga serta
density based. This study discusses the grouping of mall customers
dapat merangkum data dengan cara yang baru sehingga dapat
based on their age, gender, income level, and the amount of their
spending. Each method produces 4 different clusters and then
berguna dan dimengerti. [1] Clustering termasuk salah satu
evaluates using the Silhouette coefficient to determine the most metode dari data mining dan clustering telah menjadi instrumen
appropriate method. The results of grouping using the K-Means yang valid untuk memecahkan masalah kompleks ilmu
method have the largest Silhouette coefficient, then the results of komputer dan statistik. Clustering adalah proses
the cluster are used to determine the appropriate marketing pengelompokan titik-titik data kedalam dua kelompok atau
strategy. lebih sehingga titik-titik data yang termasuk didalam kelompok
Keywords— cluster analysis, customer segmentation, partitional yang sama lebih mirip satu sama lain daripada didalam
clustering, hierarchical clustering, DBScan kelompok yang berbeda, hanya berdasarkan informasi yang
Intisari— Analisis cluster merupakan suatu teknik yang tersedia dengan poin data. Clustering memiliki beberapa
membagikan data ke suatu beberapa kelompok metode yang dapat diaplikasikan untuk mendapatkan hasil
(group/cluster/segmen) yang tiap cluster bisa ditempati pengelompokkan yang baik, diantaranya adalah menggunakan
beberapa anggota bersama-sama. Ada 3 metode yang algoritma K-means, Hierarchical clustering, dan DBSCAN.
dibandingkan yaitu partitional, hirarki, dan density based. Berdasarkan dari uraian diatas, maka penelitian ini bertujuan
Penelitian ini membahas pengelompokan pelanggan mall untuk mengetahui clusterisasi data pelanggan pusat
berdasarkan usia, jenis kelamin, tingkat pendapatan, serta perbelanjaan dengan teknik data mining, dimana pengolahan
jumlah pembelanjaan mereka. Masing-masing metode data menggunakan metode terbaik dari tiga metode yang ada
menghasilkan 4 cluster yang berbeda kemudian dilakukan yaitu k-means, hieurarchical clustering, dan DBSCAN. Hasil
evaluasi menggunakan koefisien Silhouette untuk penelitian ini bermanfaat bagi bagian yang terkait dengan
menentukan metode yang paling tepat. Hasil perencanaan pemasaran yang ada di pusat perbelanjaan, yang
pengelompokan menggunakan metode K-Means memiliki membutuhkan data target pelanggan yang tepat berdasarkan
koefisien Silhouette terbesar, kemudian hasil cluster umur, jenis kelamin, jumlah pendapatan tahunan, dan skor
tersebut digunakan untuk menentukan strategi marketing pengeluaran, sehingga dapat digunakan sebagai acuan
yang sesuai. perencanaan pemasaran pusat perbelanjaan untuk kedepannya.
Kata Kunci— analisis cluster, segmentasi pelanggan, partitional II. KAJIAN PUSTAKA
clustering, hierarchical clustering, DBScan
A. Data Mining
I. PENDAHULUAN Definisi sederhana dari data mining adalah ekstraksi formasi
Seiring dengan pertumbuhan teknologi informasi, membuka atau pola yang penting atau menarik dari data yang ada di
peluang terhadap petumbuhan data yang terakumulasi dalam database yang besar. Dalam jurnal ilmiah, data mining juga
jumlah besar. Banyak sekali data yang dihasilkan oleh dikenal dengan nama Knowledge Discovery in Database
teknologi informasi yang canggih, mulai dari bidang ekonomi, (KDD).
industri, dan teknologi serta berbagai bidang kehidupan lainnya. Data mining didefinisikan sebagai satu set teknik yang
Penerapan teknologi informasi dalam industri pusat digunakan secara otomatis untuk mengeksplorasi secara
perbelanjaan juga dapat menghasilkan data yang berlimpah menyeluruh dan membawa ke permukaan relasi-relasi yang
mengenai pelanggan dan pembelian yang dihasilkan. Data kompleks pada set data yang sangat besar. [1]
dapat diperoleh berdasarkan data historis yang terdapat pada
B. Clustering
masing-masing kartu pelanggan. Berdasarkan berlimpahnya
data pelanggan, informasi yang tersembunyi dapat diketahui Clustering adalah suatu teknik data mining yang
dengan cara melakukan pengolahan terhadap data sehingga membagikan data ke suatu beberapa kelompok
berguna bagi pihak pengelola pusat perbelanjaan. Pengolahan (group/cluster/segemen) yang tiap cluster bisa ditempati
data ini perlu dilakukan untuk mengetahui informasi penting beberapa anggota bersama-sama. Tiap objek dilewatkan ke
berupa segmentasi pelanggan. Hal ini penting untuk memahami grup yang paling mirip dengannya. Ini menyerupai menyusun
pelanggan, seperti siapa target pelanggan sehingga tim binatang dan tumbuhan ke suatu keluarga-keluarga yang para
pemasaran dapat merencanakan strategi yang sesuai. Data anggotanya punya kemiripan.
2
Clustering menganalisis objek data yang digunakan untuk Market Basket Analysis” yang terdapat dalam website
menghasilkan grup, grup tersebut didapatkan berdasarkan kaggle.com. Dalam melakukan pengolahan data, penelitian
prinsip memaksimalkan kesamaan dalam kelas dan menggunakan perangkat lunak R Studio dan bahasa
meminimalkan kesamaan antarkelas, artinya bahwa kelompok pemrograman R. Adapun alur yang digunakan dalam penelitian
terbentuk sehingga objek dalam cluster memiliki kemiripan adalah sebagai berikut :
yang tinggi dibandingkan dengan yang lain, tetapi sangat
berbeda dengan objek dalam cluster lain (Jiawei, 2000). [1]
C. K-Means
Algoritma K-means dikenalkan oleh J.B. MacQueen pada
tahun 1976. K-means adalah salah satu metode clustering
nonhierarki yang berusaha mempartisi data yang ada ke suatu
bentuk atau lebih cluster. Algoritma ini akan mengelompokkan
data/objek ke k buah kelompok. Pada setiap cluster terdapat
titik pusat (centroid) yang merepresentasikan cluster tersebut.
[1]
D. Hierarchical Clustering
Hierarchical Clustering adalah metode analisis kelompok
yang berusaha untuk membangun sebuah hirarki kelompok
Gambar 1 Alur Penelitian
data. Selain itu, Hierarchical Clustering adalah salah satu
algoritma clustering yang dapat digunakan untuk meng-cluster A. Data Exploration
dokumen (document clustering). Hasil keseluruhan dari
Tahapan pertama yang kami lakukan adalah mengeksplorasi
algoritma hierarchical clustering secara grafik dapat
data. Eksplorasi data kami lakukan untuk melihat data secara
digambarkan sebagai tree, yang disebut dengan dendogram.
lebih jelas, baik struktur, persebaran, statistic, dan lain
Tree ini secara grafik menggambarkan proses penggabungan
sebagainya. Berikut hasil eksplorasi yang kami lakukan:
dari cluster-cluster yang ada, sehingga menghasilkan cluster
dengan level yang lebih tinggi. [2]
- Struktur data
E. DBSCAN Data yang kami gunakan pada proses clustering ini adalah
Density Based Spatial Clustering of Applications with Noise sebuah data frame dengan 200 baris objek dan 5 variabel.
(DBSCAN) adalah pengelompokan data algoritma di mana ada Variabel antara lain Customer ID, Gender, Age, Annual
Income, dan Spending Score. Seluruh atribut bertipe integer,
pengelompokan algoritma berbasis kerapatan. Metode ini
menemukan banyakanya pengelompakan mulai dari distribusi kecuali atribut Gender yang memiliki tipe data factor dengan 2
kerapatan yang diperkirakan atas node yang sesuai (Ester, dkk., level.
1996). DBSCAN merupakan salah satu pengelompokan
algoritma yang paling umum dan juga yang paling banyak
dikutip dalam literatur ilmiah. Pengelompokan dalam lanskap
merupakan bukti dari proses spasial yang mendasar. DBSCAN
memiliki dua parameter yaitu Eps (radius maksimum dari Gambar 2 Struktur data
neighborhood) dan MinPts (jumlah minimum titik dalam Eps-
neighborhood dari suatu titik). [3] - Korelasi antar atribut
Korelasi diukur untuk melihat hubungan antara fitur fitur
F. Silhouette Coefficient dengan tipe numerik yaitu age, annual income, dan spending
score. Terlihat bahwa daerah yang berwarna terang memiliki
Silhouette Coefficient adalah metode penafsiran untuk korelasi yang besar (mendekati 1 atau -1). Sedangkan daerah
validasi klaster pada objek-objek. Teknik ini memberikan yang berwarna biru tua memiliki korelasi yang lebih kecil
representasi grafis singkat tentang seberapa baik setiap objek (mendekati 0). Atribut yang memiliki korelasi paling besar
terletak dalam cluster-nya. Silhouette Coefficient adalah spending score dan annual income, serta age dengan
dikembangkan pertama kali oleh Kaufman dan Rousseeuw. annual income.
Sebuah nilai koefisien silhouette dari sebuah objek semisal Aj
berada pada rentang antara -1 sampai dengan 1. Semakin dekat
nilai silhouette objek Aj ke 1, maka semakin tinggi derajat
kepemilikan objek Aj di dalam cluster tersebut. [4]
Untuk menentukan metode clustering yang paling baik C. Proses clustering menggunakan DBSCAN
digunakan perbandingan nilai korelasi cophenetic yang Proses clustering yang terakhir yang kami gunakan adalah
sebelumnya sudah dilakukan pada masing-masing metode. DBSCAN. Pada DSCAN ini, proses clustering menggunakan
jumlah titik yang berada dalam radius tertentu atau disebut
6
Epsilon (Eps), atau dikenal dengan densitas. Terdapat tiga jenis Gambar 15 Hasil clustering DBSCAN
klasifikasi titik pada DBSCAN, yaitu:
a. Core point: suatu titik yang memiliki titik berdekatan Visualisasi plotting dari clustering DBSCAN.
lebih dari jumlah titik minimal (MinPts) yang berada
dalam Eps.
b. Border point: suatu titik yang memiliki titik
berdekatan kurang dari jumlah titik minimal (MinPts)
yang berada dalam Eps, tetapi masih di dalam cluster
dari core point.
c. Noise point: suatu titik yang bukan merupakan baik
core point maupun border point.
Jumlah cluster yang optimal dari proses DBSCAN adalah
dengan mencari nilai Eps yang optimal. Pada kasus ini, kami
menggunakan kNNdistplot dengan nilai k/MinPts sebesar tiga,
dan data yang sudah dinormalisasi berlabel dfs.
#Mencari nilai eps optimal
options(repr.plot.width=5, repr.plot.heigth=5)
kNNdistplot(dfs, k=3)
Untuk menunjukkan hasil dari clustering, kami menjalankan Gambar 17 Hasil koefisien siluet DBSCAN
syntax sebagai berikut.
#Menunjukkan tabel hasil clustering
data%>%
group_by(dbscan)%>%
summarise(Age_mean= mean(Age),
AnIncome_mean=
mean(Annual.Income..k..), Gambar 18 Nilai pada masing-masing cluster menggunakan DBSCAN
SpenScore_mean=
mean(Spending.Score..1.100.), V. PEMBAHASAN
Gender=(mean(Gender)),
Count=(length(dbscan))) Berdasarkan analisis silhouette yang menampilkan hasil
Berikut adalah hasil dari clustering DBSCAN untuk kasus tentang seberapa baik setiap objek terletak dalam clusternya,
ini. didapatkan tabel sebagai berikut :
TABEL I
Perbandingan koefisien silhouette
Metode Clustering Nilai Koefisien
K-means 0,3
7
Hierarchical 0,27 • Cluster 1 : 55 pelanggan
DB Scan 0,17 • Cluster 2 : 40 pelanggan
• Cluster 3 : 57 pelanggan
Dari data nilai tersebut didapatkan clustering dengan metode • Cluster 4 : 48 pelanggan
K-Means memiliki nilai yang paling mendekati 1 di antara 3. Untuk dapat meningkatkan pendapatan penjualan Mall,
metode lainnya sehingga kami menggunakan hasil dari metode perlu dilakukan strategi pemasaran dengan
tersebut yang digunakan untuk melakukan clustering memprioritaskan pelanggan potensial yang berada di
pengunjung mall. cluster 2. Hal ini disebabkan tingginya rata-rata
Hasil pengelompokan menggunakan metode K-Means pendapatan dan nilai pembelanjaan pada cluster tersebut
menghasilkan 4 cluster dengan rata-rata nilai setiap atributnya yaitu sebesar 62 dan 71,7.
yaitu: 4. Prioritas kelompok pelanggan berikutnya berada pada
• Cluster 1 : berisi pengunjung usia sekitar 48 tahun cluster 3, kemudian cluster 1, dan yang terakhir cluster 4.
dengan jenis kelamin perempuan yang memiliki
pendapatan di bawah rata-rata dan jumlah pembelian di B. Saran
bawah rata-rata. Berdasarkan hasil penelitian yang sudah dilakukan, terdapat
• Cluster 2 : berisi pengunjung dengan usia sekitar 28 beberapa saran yaitu:
tahun dengan jenis kelamin laki-laki yang memiliki 1. Memprioritaskan pelanggan yang berada pada cluster ke-2
pendapatan di atas rata-rata dan jumlah pembelian di untuk meningkatkan penjualan
atas rata-rata. 2. Menggunakan strategi marketing yang berbeda untuk
• Cluster 3 : berisi pengunjung dengan usia sekitar 28 pelanggan yang ada pada cluster ke-1 dan cluster ke-2
tahun dengan jenis kelamin perempuan yang memiliki karena memiliki pola pembelian yang juga berbeda.
pendapatan sedikit di bawah rata-rata dan jumlah
pembelian di atas rata-rata.
• Cluster 4 : berisi pengunjung dengan usia sekitar 49 REFERENSI
tahun dengan jenis kelamin laki-laki yang memiliki
pendapatan di atas rata-rata dan jumlah pembelian di [1] S. M. Amril Mutoi Siregar and S. M. Adam Puspabhuana,
bawah rata-rata. DATA MINING: Pengolahan Data Menjadi Informasi dengan
RapidMiner, CV Kekata Group.
[2] M. I. S. L. T. Maghfirah Dinsyah Febriana, “APLIKASI
CLUSTERING DATA SERAPAN ALUMNI DI DUNIA
KERJA MENGGUNAKAN METODE HIERARCHICAL
Gambar 19 Hasil clustering
CLUSTERING,” semanTIK, vol. 3, pp. 175-180, 2017.
[3] A. S. H. S. F. Raihan Virgatama, “IDENTIFIKASI
Dari 200 data yang digunakan, terlihat bahwa 55 orang PENGARUH SISTEM KEAMANAN LINGKUNGAN
merupakan anggota dari cluster 1, 40 orang termasuk anggota TERHADAP TINGKAT KEJAHATAN PENCURIAN DI
dari cluster 2, 57 orang termasuk anggota dari cluster 3, dan 48 KOTA SURAKARTA DENGAN METODE SISTEM
orang merupakan anggota dari cluster 4. Sehingga dapat INFORMASI GEOGRAFIS,” Geodesi Undip , vol. 8, p. 400,
2019.
diasumsikan bahwa urutan cluster berdasarkan prioritas adalah
cluster 2, kemudian cluster 3, dilanjutkan oleh cluster 4, dan [4] Y. A. A. A. R. W. F. M. Ida Wahyuni, “Clustering Nasabah
Bank Berdasarkan Tingkat Likuiditas Menggunakan Hybrid
terakhir adalah cluster 1. Hasil ini didapatkan dari atribut
Particle Swarm Optimization dengan K-Means,” Jurnal Ilmiah
pendapatan dan juga jumlah pembelian pelanggan. Jika ada Teknologi dan Informasi ASIA (JITIKA) , vol. 10, p. 27, 2016.
salah satu atau lebih yang di atas rata-rata maka cluster tersebut
lebih diprioritaskan. Kami menganggap atribut umur dan
gender tidak bisa menjadi tolok ukur yang signifikan dalam
menentukan prioritas pelanggan.