1. DATA 2. SEGMENTASI
Data adalah sesuatu yang nyata Menurut Philip Kotler, yang dimaksud
diketahui atau dianggap yang dengan segmentasi pasar adalah suatu
dipakai untuk keperluan suatu usaha untuk meningkatkan ketepatan
analisa, diskusi, presentasi ilmiah pemasaran perusahaan. Segmen pasar
atau tes statistik [1]. Data dapat terdiri dari kelompok besar yang dapat di
dibagi menjadi tiga jenis yakni data identifikasikan dalam sebuah pasar dengan
cross section, data berkala (time keinginan, daya beli, lokal geografis, perilaku
series), dan data panel. pembelian dan kebiasaan pembelian yang
serupa.[2]
K-MEANS CLUSTERING
K-means clustering merupakan salah satu
metode data clustering non-hirarki yang
mengelompokan data dalam bentuk satu
atau lebih cluster/kelompok.
3. CLUSTERING
Clustering merupakan teknik data
METODE ELBOW
mining yang berfungsi untuk Metode Elbow merupakan suatu metode
mengelompokan data berdasarkan yang digunakan untuk menghasilkan
kemiripan data pada suatu informasi dalam menentukan jumlah cluster
kelompok dan meminimalkan terbaik dengan cara melihat persentase hasil
kemiripan pada kelompok lain [3]. perbandingan antara jumlah cluster yang
akan membentuk siku pada suatu titik[7].
Metode ini memberikan ide/gagasan dengan
cara memilih nilai cluster dan kemudian
menambah nilai cluster tersebut untuk
dijadikan model data dalam penentuan
cluster terbaik
3. TAHAPAN K-MEANS CLUSTERING
Langkah-langkah melakukan clustering dengan metode K-Means adalah sebagai berikut [6] :
1. Pilih jumlah cluster k.
2. Inisialisasi k pusat cluster dengan cara acak. Pusat-pusat cluster diberi nilai awal dengan angka-angka
random.
3. Alokasikan semua data/ objek ke cluster terdekat. Kedekatan dua objek ditentukan berdasarkan jarak
kedua objek tersebut. Demikian juga kedekatan suatu data ke cluster tertentu ditentukan jarak antara data
dengan pusat cluster. Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak antara satu
data dengan satu cluster tertentu akan menentukan suatu data masuk dalam cluster mana. Untuk
menghitung jarak semua data ke setiap titik pusat cluster dapat menggunakan teori jarak Euclidean yang
dirumuskan sebagai berikut :
𝐷 𝑖, 𝑗 = (𝑋1𝑖 − 𝑋1𝑗 )2 +(𝑋2𝑖 − 𝑋2𝑗 )2 + ⋯ + (𝑋𝑘𝑖 − 𝑋𝑘𝑗 )2
D (i,j) = Jarak data ke i ke pusat cluster j
𝑋𝑘𝑖 = Data ke i pada atribut data ke k
𝑋𝑘𝑗 = Titik pusat ke j pada atribut ke k
4. Hitung kembali pusat cluster dengan keanggotaan cluster yang sekarang. Pusat cluster adalah rata-rata
dari semua data/ objek dalam cluster tertentu. Jika dikehendaki bisa juga menggunakan median (nilai
tengah) dari cluster tersebut. Jadi rata-rata (mean) bukan satusatunya ukuran yang bisa dipakai
5. Tugaskan lagi setiap objek memakai pusat cluster yang baru. Jika pusat cluster tidak berubah lagi maka
proses clustering selesai. Atau, kembali ke langkah nomor 3 sampai pusat cluster tidak berubah lagi.
METODOLOGI
DAN PEMBAHASAN
1. PENGAMBILAN DATA
Data yang digunakan yaitu data Mall Customer berasal dari
kaggle.com. Data tersebut merupakan dataset customer dari
mall, yang berisi :
- Customer ID yaitu nomer unik untuk setiap customer
- Age yaitu umur setiap pelanggan
- Annual Income yaitu pendapatan tetap setiap pelanggan
- Spending Score yaitu skor yang diberikan kepada pelanggan
oleh otoritas mal berdasarkan uang yang dihabiskan dan
perilaku pelanggan
2. PRE-PROCESSING DATA DAN PLOTTING DATA
Pada data Mall Customer tidak terdapat nilai 0 pada masing-
masing variabel, sehingga tidak dilakukan pre-processing
pada data. Kemudian pada masing-masing variabel, dilakukan
plotting data yang didapatkan hasil sebagai berikut :
• Plotting distribusi data pada variabel Age menggunakan
matplotlib pada library python
• Plotting distibusi data pada variabel Gender menggunakan seaborn pada library
python
Pada gambar tersebut, dapat dilihat nilai cluster K=4 ke K=5 mengalami penurunan yang
membentuk siku pada titik K=4, sehingga nilai cluster K yang ideal adalah K=4. Kemudian
dengan menggunakan scatterplot dilakukan plot cluster dari hasil K-Means sebagai berikut :
Untuk mengetahui pengaruh faktor pada setiap label/cluster, dilakukan plot data
dengan menggunakan violin plot sebagai berikut :
HASIL
DAN KESIM PULAN
Dengan menggunakan Metode Clustering K-Means, didapatkan 4 cluster pada segmentasi
pasar untuk customer behavior sebagai berikut :
Cluster 1: pelanggan umur 19-59 tahun dengan Spending Score 1-40 mempunyai pendapatan
tetap yang tinggi sebesar $70-$137.
Cluster 2: pelanggan umur 27-40 tahun dengan pendapatan tetap yang tinggi yaitu $69-$137
mendapatkan Spending Score yang tinggi pula sebesar 63-97.
Cluster 3: pelanggan umur 18-70 tahun dengan pendapatan tetap sebesar $16-$69
mendapatkan Spending Score sebesar 3-60.
Cluster 4: pelanggan umur 18-35 tahun dengan pendapatan rendah sebesar $15-$48
mendapatkan Spending Score tinggi yaitu 39-99.
TERIMA KASIH
THANK YOU