Anda di halaman 1dari 7

1

Analisis Cluster pada Studi Kasus Segmentasi


Pelanggan Mall
Bianda Reyhan Kesuma1, Kartika Zahretta Wijaya2, Muhammad Papuandivitama Putra3
1,2,3
Departemen Sistem Informasi, Institut Teknologi Sepuluh November
Kampus ITS Sukolilo Surabaya, Indonesia

Abstract— Cluster analysis is a technique that distributes data mining dapat menjadi salah satu cara untuk memfasilitasi hal
to several groups (groups / clusters / segments) where each cluster tersebut.
can be occupied by several members together. There are 3 Data mining menganalisa sejumlah besar kumpulan data
methods that are compared namely partitional, hierarchical, and observasi, menemukan suatu hubungan tidak terduga serta
density based. This study discusses the grouping of mall customers
dapat merangkum data dengan cara yang baru sehingga dapat
based on their age, gender, income level, and the amount of their
spending. Each method produces 4 different clusters and then
berguna dan dimengerti. [1] Clustering termasuk salah satu
evaluates using the Silhouette coefficient to determine the most metode dari data mining dan clustering telah menjadi instrumen
appropriate method. The results of grouping using the K-Means yang valid untuk memecahkan masalah kompleks ilmu
method have the largest Silhouette coefficient, then the results of komputer dan statistik. Clustering adalah proses
the cluster are used to determine the appropriate marketing pengelompokan titik-titik data kedalam dua kelompok atau
strategy. lebih sehingga titik-titik data yang termasuk didalam kelompok
Keywords— cluster analysis, customer segmentation, partitional yang sama lebih mirip satu sama lain daripada didalam
clustering, hierarchical clustering, DBScan kelompok yang berbeda, hanya berdasarkan informasi yang
Intisari— Analisis cluster merupakan suatu teknik yang tersedia dengan poin data. Clustering memiliki beberapa
membagikan data ke suatu beberapa kelompok metode yang dapat diaplikasikan untuk mendapatkan hasil
(group/cluster/segmen) yang tiap cluster bisa ditempati pengelompokkan yang baik, diantaranya adalah menggunakan
beberapa anggota bersama-sama. Ada 3 metode yang algoritma K-means, Hierarchical clustering, dan DBSCAN.
dibandingkan yaitu partitional, hirarki, dan density based. Berdasarkan dari uraian diatas, maka penelitian ini bertujuan
Penelitian ini membahas pengelompokan pelanggan mall untuk mengetahui clusterisasi data pelanggan pusat
berdasarkan usia, jenis kelamin, tingkat pendapatan, serta perbelanjaan dengan teknik data mining, dimana pengolahan
jumlah pembelanjaan mereka. Masing-masing metode data menggunakan metode terbaik dari tiga metode yang ada
menghasilkan 4 cluster yang berbeda kemudian dilakukan yaitu k-means, hieurarchical clustering, dan DBSCAN. Hasil
evaluasi menggunakan koefisien Silhouette untuk penelitian ini bermanfaat bagi bagian yang terkait dengan
menentukan metode yang paling tepat. Hasil perencanaan pemasaran yang ada di pusat perbelanjaan, yang
pengelompokan menggunakan metode K-Means memiliki membutuhkan data target pelanggan yang tepat berdasarkan
koefisien Silhouette terbesar, kemudian hasil cluster umur, jenis kelamin, jumlah pendapatan tahunan, dan skor
tersebut digunakan untuk menentukan strategi marketing pengeluaran, sehingga dapat digunakan sebagai acuan
yang sesuai. perencanaan pemasaran pusat perbelanjaan untuk kedepannya.

Kata Kunci— analisis cluster, segmentasi pelanggan, partitional II. KAJIAN PUSTAKA
clustering, hierarchical clustering, DBScan
A. Data Mining
I. PENDAHULUAN Definisi sederhana dari data mining adalah ekstraksi formasi
Seiring dengan pertumbuhan teknologi informasi, membuka atau pola yang penting atau menarik dari data yang ada di
peluang terhadap petumbuhan data yang terakumulasi dalam database yang besar. Dalam jurnal ilmiah, data mining juga
jumlah besar. Banyak sekali data yang dihasilkan oleh dikenal dengan nama Knowledge Discovery in Database
teknologi informasi yang canggih, mulai dari bidang ekonomi, (KDD).
industri, dan teknologi serta berbagai bidang kehidupan lainnya. Data mining didefinisikan sebagai satu set teknik yang
Penerapan teknologi informasi dalam industri pusat digunakan secara otomatis untuk mengeksplorasi secara
perbelanjaan juga dapat menghasilkan data yang berlimpah menyeluruh dan membawa ke permukaan relasi-relasi yang
mengenai pelanggan dan pembelian yang dihasilkan. Data kompleks pada set data yang sangat besar. [1]
dapat diperoleh berdasarkan data historis yang terdapat pada
B. Clustering
masing-masing kartu pelanggan. Berdasarkan berlimpahnya
data pelanggan, informasi yang tersembunyi dapat diketahui Clustering adalah suatu teknik data mining yang
dengan cara melakukan pengolahan terhadap data sehingga membagikan data ke suatu beberapa kelompok
berguna bagi pihak pengelola pusat perbelanjaan. Pengolahan (group/cluster/segemen) yang tiap cluster bisa ditempati
data ini perlu dilakukan untuk mengetahui informasi penting beberapa anggota bersama-sama. Tiap objek dilewatkan ke
berupa segmentasi pelanggan. Hal ini penting untuk memahami grup yang paling mirip dengannya. Ini menyerupai menyusun
pelanggan, seperti siapa target pelanggan sehingga tim binatang dan tumbuhan ke suatu keluarga-keluarga yang para
pemasaran dapat merencanakan strategi yang sesuai. Data anggotanya punya kemiripan.
2

Clustering menganalisis objek data yang digunakan untuk Market Basket Analysis” yang terdapat dalam website
menghasilkan grup, grup tersebut didapatkan berdasarkan kaggle.com. Dalam melakukan pengolahan data, penelitian
prinsip memaksimalkan kesamaan dalam kelas dan menggunakan perangkat lunak R Studio dan bahasa
meminimalkan kesamaan antarkelas, artinya bahwa kelompok pemrograman R. Adapun alur yang digunakan dalam penelitian
terbentuk sehingga objek dalam cluster memiliki kemiripan adalah sebagai berikut :
yang tinggi dibandingkan dengan yang lain, tetapi sangat
berbeda dengan objek dalam cluster lain (Jiawei, 2000). [1]
C. K-Means
Algoritma K-means dikenalkan oleh J.B. MacQueen pada
tahun 1976. K-means adalah salah satu metode clustering
nonhierarki yang berusaha mempartisi data yang ada ke suatu
bentuk atau lebih cluster. Algoritma ini akan mengelompokkan
data/objek ke k buah kelompok. Pada setiap cluster terdapat
titik pusat (centroid) yang merepresentasikan cluster tersebut.
[1]
D. Hierarchical Clustering
Hierarchical Clustering adalah metode analisis kelompok
yang berusaha untuk membangun sebuah hirarki kelompok
Gambar 1 Alur Penelitian
data. Selain itu, Hierarchical Clustering adalah salah satu
algoritma clustering yang dapat digunakan untuk meng-cluster A. Data Exploration
dokumen (document clustering). Hasil keseluruhan dari
Tahapan pertama yang kami lakukan adalah mengeksplorasi
algoritma hierarchical clustering secara grafik dapat
data. Eksplorasi data kami lakukan untuk melihat data secara
digambarkan sebagai tree, yang disebut dengan dendogram.
lebih jelas, baik struktur, persebaran, statistic, dan lain
Tree ini secara grafik menggambarkan proses penggabungan
sebagainya. Berikut hasil eksplorasi yang kami lakukan:
dari cluster-cluster yang ada, sehingga menghasilkan cluster
dengan level yang lebih tinggi. [2]
- Struktur data
E. DBSCAN Data yang kami gunakan pada proses clustering ini adalah
Density Based Spatial Clustering of Applications with Noise sebuah data frame dengan 200 baris objek dan 5 variabel.
(DBSCAN) adalah pengelompokan data algoritma di mana ada Variabel antara lain Customer ID, Gender, Age, Annual
Income, dan Spending Score. Seluruh atribut bertipe integer,
pengelompokan algoritma berbasis kerapatan. Metode ini
menemukan banyakanya pengelompakan mulai dari distribusi kecuali atribut Gender yang memiliki tipe data factor dengan 2
kerapatan yang diperkirakan atas node yang sesuai (Ester, dkk., level.
1996). DBSCAN merupakan salah satu pengelompokan
algoritma yang paling umum dan juga yang paling banyak
dikutip dalam literatur ilmiah. Pengelompokan dalam lanskap
merupakan bukti dari proses spasial yang mendasar. DBSCAN
memiliki dua parameter yaitu Eps (radius maksimum dari Gambar 2 Struktur data
neighborhood) dan MinPts (jumlah minimum titik dalam Eps-
neighborhood dari suatu titik). [3] - Korelasi antar atribut
Korelasi diukur untuk melihat hubungan antara fitur fitur
F. Silhouette Coefficient dengan tipe numerik yaitu age, annual income, dan spending
score. Terlihat bahwa daerah yang berwarna terang memiliki
Silhouette Coefficient adalah metode penafsiran untuk korelasi yang besar (mendekati 1 atau -1). Sedangkan daerah
validasi klaster pada objek-objek. Teknik ini memberikan yang berwarna biru tua memiliki korelasi yang lebih kecil
representasi grafis singkat tentang seberapa baik setiap objek (mendekati 0). Atribut yang memiliki korelasi paling besar
terletak dalam cluster-nya. Silhouette Coefficient adalah spending score dan annual income, serta age dengan
dikembangkan pertama kali oleh Kaufman dan Rousseeuw. annual income.
Sebuah nilai koefisien silhouette dari sebuah objek semisal Aj
berada pada rentang antara -1 sampai dengan 1. Semakin dekat
nilai silhouette objek Aj ke 1, maka semakin tinggi derajat
kepemilikan objek Aj di dalam cluster tersebut. [4]

III. METODOLOGI PENELITIAN


Penelitian dilaksanakan selama bulan April 2020 dengan
menggunakan data “Mall Customer Segmentation Data -
3
perulangan yang tidak diperlukan dalam pengolahan data.
Dalam dataset yang digunakan di penelitian ini terdapat 5
atribut yaitu customer ID, gender, age, annual income, dan
spending score. Dari kelima atribut yang ada, peneliti
memutuskan untuk tidak menggunakan atribut customer ID
dikarenakan semua isinya mempunyai nilai yang unik.
C. Pre-processing Data
Pada tahap pre-processing data, akan dilakukan data
cleaning yaitu menghilangkan data yang tidak diperlukan
seperti missing value, noise, dan lain-lain. Setelah dilakukan
pencarian missing value, tidak ditemukan adanya missing value
Gambar 3 Korelasi antar atribut
di dataset.
- Statistic summary
Pada atribut integer dilakukan eksplorasi mengenai statistic D. Transformation
data seperti mean kuartil 1, kuartil 3, median, nilai maksimum, Melakukan perubahan data ke tipe data tertentu agar dapat
nilai minimum yang ada pada data. Eksplorasi dilakukan dilakukan pengolahan data dikarenakan beberapa metode
menggunakan boxplot untuk menunjukkan informasi tersebut. dalam data mining hanya dapat memproses data dengan tipe
Terlihat bahwa pada atribut age rata-rata umur yang ada pada tertentu. Disini peneliti melakukan transformasi atribut gender
data berkisar pada 38 tahun dengan usia maksimum adalah 70 yang awalnya bertipe factor menjadi numerik. Selain itu,
tahun dan usia minimum 18 tahun. Sedangkan untuk atribut peneliti juga melakukan transformasi rentang tiap atribut
annual income memiliki rata-rata 60, dengan jumlah menjadi lebih kecil sehingga seimbang.
pendapatan maksimum 137 dan minimum 15. Atribut integer
lainnya adalah spending score yang memiliki rata-rata 50 IV. PERCOBAAN DAN HASIL
dengan nilai maksimum 99 dan nilai minimum 1. Kami menggunakan data pengunjung mall sebanyak 200
record dengan 5 atribut yaitu customer ID, gender, age, annual
income, dan spending score. Namun pada tahapan ini tersisa 4
atribut yang akan digunakan setelah dilakukan praproses data.
Percobaan kami lakukan menggunakan 3 metode clustering
yaitu partitional, hierarchical, dan density based. Berikut
penjelasan masing-masing metode:

A. Proses clustering menggunakan K-Means


Pada percobaan ini digunakan algoritma partitional
clustering yang paling sering digunakan yaitu K-Means. Data
yang kami gunakan adalah data dengan nama variable df. Data
Gambar 4 Statistic summary
ini berisi 4 atribut yaitu Gender, Age, Annual Income, dan
Spending Score yang nilainya sudah distandarisasi. Hal
- Frekuensi jenis kelamin
pertama yang dilakukan adalah mengestimasi jumlah cluster
Untuk atribut non integer, kami melihat frekuensi atau
yang akan dibentuk. Proses ini dapat dilakukan dengan
banyaknya jumlah pengunjung laki-laki dan perempuan.
menggunakan metode elbow atau menggunakan Total Within
Didapatkan hasil bahwa ada sebanyak 112 pengunjung dengan
Sum of Squares (WSS). Ada beberapa metode yang dapat
jenis kelamin perempuan dan 88 pengunjung berjeni kelamin
digunakan untuk mencari nilai k antara lain WSS, Silhouette,
laki-laki.
dan Gap Statistic. Untuk mendapatkan nilai k (cluster) yang
optimal, kami menggunakan syntax seperti yang ada pada
gambar di bawah ini:
fviz_nbclust(df, FUNcluster = kmeans, method =
"wss") + geom_vline(xintercept = 4, linetype = 2)
+
labs(subtitle = "Elbow Method")

Setelah syntax dijalankan, didapatkan hasil grafik sebagai


berikut. Terlihat bahwa jumlah cluster optimal sebanyak 4
Gambar 5 Frekuensi jenis kelamin
cluster. Jumlah optimal didapatkan dengan melihat hasil grafik,
garis mengalami patahan yang signifikan membentuk elbow
B. Data Selection atau siku pada saat k = 4.
Data selection digunakan untuk menentukan variabel yang
akan diambil agar tidak ada kesamaan dan dan terjadi
4

square yang mengindikasikan jumlah error dari proses


clustering ini yaitu sebesar 51,7%. Hasil clustering ini
kemudian dapat dianalisis lebih lanjut menggunakan beberapa
komponen yaitu cluster, nilai tengah, ukuran, dan lain
sebagainya seperti yang terlihat pada gambar.
Setelah hasil clustering didapatkan, kami melakukan
evaluasi pada model pengklasifikasi yang sudah dibuat. Ada
beberapa cara untuk melakukan evaluasi antara lain:
- Sum of Square Error
Sum of Square Error menyatakan total kesalahan kuadrat yang
terjadi bila n data dikelompokkan dalam k cluster. Semakin
kecil nilai SSE maka akan semakin bagus hasil clustering.
Gambar 6 Grafik k optimal - Silhouette
Selanjutnya dilakukan proses clustering menggunakan Metode ini berfungsi untuk menguji kualitas dari cluster yang
jumlah k = 4. Syntax yang kami gunakan adalah sebagai berikut: dihasilkan. Metode ini merupakan metode validasi cluster yang
menggabungkan metode cohesion dan Separation. Untuk
Set.seed(1234) menghitung nilai silhoutte coefisient diperlukan jarak antar
k4 <- kmeans(df, 4, nstart = 25) dokumen dengan menggunakan rumus Euclidean Distance.
print(k4) Nilai metoed ini memiliki rentang antara -1 dan 1. Hasil
fviz_cluster(k4, data=df)
clustering akan semakin bagus jika nilai yang didapatkan
Ketika dijalankan, akan otomatis terbentuk 4 cluster dari mendekati 1 atau -1.
data customer mall dengan hasil sebagai berikut. - Similarity Matrix
Menampilkan hubungan keserupaan antar objek. Dapat
digambarkan menjadi sebuah distance matrix dalam
menentukan serupa tidaknya data yang ada di dalam cluster.
Cara yang kami lakukan untuk mengevaluasi adalah
menggunakan metode Silhouette. Dari model yang dibuat
diukur nilai koefisien Silhouette dan didapatkan rata-rata nilai
pada setiap cluster sebesar 0,3 dan nilai masing-masing cluster
sebagai berikut.
library(cluster)
k4.sil<-silhouette(k4$cluster,dist(df))
head(k4.sil[,1:3],10)

plot(k4.sil, main="Silhouette plot k-means")

Gambar 8 Nilai pada masing-masing cluster menggunakan K-Means

Gambar 7 Hasil clustering k-means dan plot cluster

Terlihat bahwa sudah terbentuk 4 cluster yang memiliki


rata-rata nilai tertentu pada setiap clusternya. Angka yang
muncul masih berupa nilai atribut yang distandarisasi bukan
nilai sebenarnya karena menggunakan data “df”. Pada hasil ini Gambar 9 Hasil koefisien siluet K-Means
juga didapatkan penjabaran penggolongan cluster pada setiap
baris data. Selain itu, didapatkan nilai total within sum of B. Proses clustering menggunakan Hierarchical Clustering
5
Proses clustering selanjutnya adalah menggunakan Dibuatlah sebuah tabel yang memperlihatkan nilai yang paling
algoritma hierarki. Disini kita akan melihat bagaimana jika data besar adalah yang paling baik.
yang sama diolah dengan algoritma yang berbeda. Hierarchical
clustering sendiri memiliki beberapa metode untuk melakukan
clustering. Metode tersebut antara lain:
a. Average linkage : pengelompokan klaster didasarkan
pada rata-rata jarak seluruh individu dalam suatu
cluster dengan jarak seluruh individu dalam cluster
yang lain. Gambar 10 perbandingan nilai korelasi cophenetic
b. Complete linkage : pengklasteran didasarkan pada
Berdasarkan nilai korelasi cophenetic diatas, korelasi
jarak paling terjauh diantara satu objek dengan objek
cophenetic tertinggi diperoleh menggunakan metode average
yang lain.
linkage dengan nilai 0.675, yang mana metode tersebut adalah
c. Single link : pengklasteran ini didasarkan pada jarak
metode terbaik untuk analisis cluster pada kasus ini. Setelah
terkecil. Jika dua obyek terpisah oleh jarak yang
mengetahui metode terbaik yang akan digunakan, maka
pendek maka kedua obyek tersebut akan digabung
selanjutnya adalah melihat tampilan dari plot cluster yang
menjadi satu cluster daan demikian saterusnya.
terbentuk serta memperoleh anggota cluster.
d. Ward’s methods : jarak antara dua cluster dalam
metode ini berdasarkan total sum of square dua cluster
pada masing-masing variabel.
e. Centroid methods : jarak antar cluster dalam metode
ini berdasarkan pada jarak centroid cluster yang
bersangkutan.
Jumlah k yang digunakan sama seperti sebelumnya, yaitu 4.
Sebelum melakukan clustering, perlu dilakukan perhitungan
jarak antar data yang nantinya diperlukan untuk menentukan
pengelompokan berdasarkan metode yang ada di hierarchical
clustering. Syntax yang digunakan untuk mengetahui jarak
antar data adalah :
jarak=dist(hasil)
jarak
Gambar 11 Plot Hierarchical clustering

Selanjutnya, dilakukan clustering berdasarkan lima metode.


Pada masing-masing metode dilakukan juga perhitungan jarak
atau yang biasa disebut dengan jarak cophenetic. Syntax yang
digunakan untuk melakukan clustering adalah sebagai berikut :
#Analisis clustering menggunakan salah satu
method Gambar 12 Nilai pada masing-masing cluster menggunakan hierarchical
hierarkiave<-hclust(dist(scale(hasil)), method = clustering
"ave") Terakhir, untuk melihat apakah algoritma ini melakukan
hierarkiave clustering dengan baik, dilakukan analisis sillhouete. Dari plot
#Menampilkan plot clustering dalam dendogram
plot(hierarkiave)
sillhouete dibawah ini, didapatkan hasil sebesar 0,27 yang
rect.hclust(hierarkiave,4) relatif kecil dibanding koefisien terbaiknya 1.
#Masukkan hasil kelompok cluster kedalam sebuah
data frame
anggotaave<-data.frame(hasil, cutree(hierarkiave,
k=4)) #hasil kelompok data
anggotaave
#Hitunglah jarak data atau jarak cophenetic
cophenetic(hierarkiave)
#Hitunglah nilai korelasi cophenetic dengan
metode average
d1 <- dist(hasil)
hc <- hclust(d1,"ave")
d2 <- cophenetic(hc)
corave=cor(d1,d2)
corave Gambar 13 Hasil koefisien siluet hierarchical clustering

Untuk menentukan metode clustering yang paling baik C. Proses clustering menggunakan DBSCAN
digunakan perbandingan nilai korelasi cophenetic yang Proses clustering yang terakhir yang kami gunakan adalah
sebelumnya sudah dilakukan pada masing-masing metode. DBSCAN. Pada DSCAN ini, proses clustering menggunakan
jumlah titik yang berada dalam radius tertentu atau disebut
6

Epsilon (Eps), atau dikenal dengan densitas. Terdapat tiga jenis Gambar 15 Hasil clustering DBSCAN
klasifikasi titik pada DBSCAN, yaitu:
a. Core point: suatu titik yang memiliki titik berdekatan Visualisasi plotting dari clustering DBSCAN.
lebih dari jumlah titik minimal (MinPts) yang berada
dalam Eps.
b. Border point: suatu titik yang memiliki titik
berdekatan kurang dari jumlah titik minimal (MinPts)
yang berada dalam Eps, tetapi masih di dalam cluster
dari core point.
c. Noise point: suatu titik yang bukan merupakan baik
core point maupun border point.
Jumlah cluster yang optimal dari proses DBSCAN adalah
dengan mencari nilai Eps yang optimal. Pada kasus ini, kami
menggunakan kNNdistplot dengan nilai k/MinPts sebesar tiga,
dan data yang sudah dinormalisasi berlabel dfs.
#Mencari nilai eps optimal
options(repr.plot.width=5, repr.plot.heigth=5)
kNNdistplot(dfs, k=3)

Syntax di atas akan menghasilkan grafik elbow di bawah.


Distance (Eps) yang optimal dapat diambil sekitar di mana Gambar 16 Plot hasil cluster DBSCAN
grafik mulai menunjukkan kenaikan yang tajam. Ini Cara yang kami lakukan untuk mengevaluasi adalah
menandakan Eps untuk memenuhi tiga titik minimal mulai menggunakan metode Silhouette. Dari model yang dibuat
membesar. Sehingga pada grafik kasus ini, kami mengambil diukur nilai koefisien Silhouette dan didapatkan rata-rata nilai
nilai Eps sebesar 0.8. pada setiap cluster sebesar 0,17 dan nilai masing-masing cluster
sebagai berikut.

Gambar 14 Grafik Elbow


Setelah itu, kami lakukan clustering DBSCAN dengan
syntax sebagai berikut.
#DBSCAN
set.seed(123)
dm<-fpc::dbscan(dfs, eps=0.8, MinPts = 3)
data$dbscan = dm$cluster

Untuk menunjukkan hasil dari clustering, kami menjalankan Gambar 17 Hasil koefisien siluet DBSCAN
syntax sebagai berikut.
#Menunjukkan tabel hasil clustering
data%>%
group_by(dbscan)%>%
summarise(Age_mean= mean(Age),
AnIncome_mean=
mean(Annual.Income..k..), Gambar 18 Nilai pada masing-masing cluster menggunakan DBSCAN
SpenScore_mean=
mean(Spending.Score..1.100.), V. PEMBAHASAN
Gender=(mean(Gender)),
Count=(length(dbscan))) Berdasarkan analisis silhouette yang menampilkan hasil
Berikut adalah hasil dari clustering DBSCAN untuk kasus tentang seberapa baik setiap objek terletak dalam clusternya,
ini. didapatkan tabel sebagai berikut :
TABEL I
Perbandingan koefisien silhouette
Metode Clustering Nilai Koefisien
K-means 0,3
7
Hierarchical 0,27 • Cluster 1 : 55 pelanggan
DB Scan 0,17 • Cluster 2 : 40 pelanggan
• Cluster 3 : 57 pelanggan
Dari data nilai tersebut didapatkan clustering dengan metode • Cluster 4 : 48 pelanggan
K-Means memiliki nilai yang paling mendekati 1 di antara 3. Untuk dapat meningkatkan pendapatan penjualan Mall,
metode lainnya sehingga kami menggunakan hasil dari metode perlu dilakukan strategi pemasaran dengan
tersebut yang digunakan untuk melakukan clustering memprioritaskan pelanggan potensial yang berada di
pengunjung mall. cluster 2. Hal ini disebabkan tingginya rata-rata
Hasil pengelompokan menggunakan metode K-Means pendapatan dan nilai pembelanjaan pada cluster tersebut
menghasilkan 4 cluster dengan rata-rata nilai setiap atributnya yaitu sebesar 62 dan 71,7.
yaitu: 4. Prioritas kelompok pelanggan berikutnya berada pada
• Cluster 1 : berisi pengunjung usia sekitar 48 tahun cluster 3, kemudian cluster 1, dan yang terakhir cluster 4.
dengan jenis kelamin perempuan yang memiliki
pendapatan di bawah rata-rata dan jumlah pembelian di B. Saran
bawah rata-rata. Berdasarkan hasil penelitian yang sudah dilakukan, terdapat
• Cluster 2 : berisi pengunjung dengan usia sekitar 28 beberapa saran yaitu:
tahun dengan jenis kelamin laki-laki yang memiliki 1. Memprioritaskan pelanggan yang berada pada cluster ke-2
pendapatan di atas rata-rata dan jumlah pembelian di untuk meningkatkan penjualan
atas rata-rata. 2. Menggunakan strategi marketing yang berbeda untuk
• Cluster 3 : berisi pengunjung dengan usia sekitar 28 pelanggan yang ada pada cluster ke-1 dan cluster ke-2
tahun dengan jenis kelamin perempuan yang memiliki karena memiliki pola pembelian yang juga berbeda.
pendapatan sedikit di bawah rata-rata dan jumlah
pembelian di atas rata-rata.
• Cluster 4 : berisi pengunjung dengan usia sekitar 49 REFERENSI
tahun dengan jenis kelamin laki-laki yang memiliki
pendapatan di atas rata-rata dan jumlah pembelian di [1] S. M. Amril Mutoi Siregar and S. M. Adam Puspabhuana,
bawah rata-rata. DATA MINING: Pengolahan Data Menjadi Informasi dengan
RapidMiner, CV Kekata Group.
[2] M. I. S. L. T. Maghfirah Dinsyah Febriana, “APLIKASI
CLUSTERING DATA SERAPAN ALUMNI DI DUNIA
KERJA MENGGUNAKAN METODE HIERARCHICAL
Gambar 19 Hasil clustering
CLUSTERING,” semanTIK, vol. 3, pp. 175-180, 2017.
[3] A. S. H. S. F. Raihan Virgatama, “IDENTIFIKASI
Dari 200 data yang digunakan, terlihat bahwa 55 orang PENGARUH SISTEM KEAMANAN LINGKUNGAN
merupakan anggota dari cluster 1, 40 orang termasuk anggota TERHADAP TINGKAT KEJAHATAN PENCURIAN DI
dari cluster 2, 57 orang termasuk anggota dari cluster 3, dan 48 KOTA SURAKARTA DENGAN METODE SISTEM
orang merupakan anggota dari cluster 4. Sehingga dapat INFORMASI GEOGRAFIS,” Geodesi Undip , vol. 8, p. 400,
2019.
diasumsikan bahwa urutan cluster berdasarkan prioritas adalah
cluster 2, kemudian cluster 3, dilanjutkan oleh cluster 4, dan [4] Y. A. A. A. R. W. F. M. Ida Wahyuni, “Clustering Nasabah
Bank Berdasarkan Tingkat Likuiditas Menggunakan Hybrid
terakhir adalah cluster 1. Hasil ini didapatkan dari atribut
Particle Swarm Optimization dengan K-Means,” Jurnal Ilmiah
pendapatan dan juga jumlah pembelian pelanggan. Jika ada Teknologi dan Informasi ASIA (JITIKA) , vol. 10, p. 27, 2016.
salah satu atau lebih yang di atas rata-rata maka cluster tersebut
lebih diprioritaskan. Kami menganggap atribut umur dan
gender tidak bisa menjadi tolok ukur yang signifikan dalam
menentukan prioritas pelanggan.

VI. KESIMPULAN DAN SARAN


A. Kesimpulan
Dari hasil penelitian yang sudah dilakukan, dapat
disimpulkan bahwa :
1. Metode k-means merupakan metode yang paling baik
digunakan untuk melakukan clustering terhadap
segmentasi pelanggan Mall dibanding metode
hierarchical clustering dan DB Scan karena memiliki
koefisien silhouette yang paling tinggi yaitu sebesar 0,3.
2. Terdapat 4 kelompok segmentasi pelanggan Mall yang
dihasilkan sebagai berikut :

Anda mungkin juga menyukai