Elly Muningsih
Manajemen Informatika, AMIK BSI Yogyakarta
Email : elly.emh@bsi.ac.id
AN SAMPUL
Abstract ~ The K-Means method is one of the clustering methods that is widely used in data
clustering research. While the K-Medoids method is an efficient method used for processing small
data. This study aims to compare two clustering methods by grouping customers into 3 clusters
according to their characteristics, namely very potential (loyal) customers, potential customers and non
potential customers. The method used in this study is the K-Means clustering method and the K-
Medoids method. The data used is online sales transaction. The clustering method testing is done by
using a Fuzzy RFM (Recency, Frequenty and Monetary) model where the average (mean) of the third
value is taken. From the data testing is known that the K-Means method is better than the K-Medoids
method with an accuracy value of 90.47%. Whereas from the data processing carried out is known
that cluster 1 has 16 members (customers), cluster 2 has 11 members and cluster 3 has 15 members.
Keywords : clustering, K-Means method, K-Medoids method, customer, Fuzzy RFM model.
Abstrak ~ Metode K-Means merupakan salah satu metode clustering yang banyak digunakan dalam
penelitian pengelompokan data. Sedangkan metode K-Medoids merupakan metode yang efisien
digunakan untuk pengolahan data yang kecil. Penelitian ini bertujuan untuk membandingkan atau
mengkomparasi dua metode clustering dengan cara mengelompokkan pelanggan menjadi 3 cluster
sesuai dengan karakteristiknya, yaitu pelanggan sangat potensial (loyal), pelanggan potensial dan
pelanggan kurang (tidak) potensial. Metode yang digunakan dalam penelitian ini adalah metode
clustering K-Means dan metode K-Medoids. Data yang digunakan adalah data transaksi penjualan
online. Pengujian metode clustering yang dilakukan adalah dengan menggunakan model Fuzzy RFM
(Recency, Frequenty dan Monetary) dimana diambil rata-rata (mean) dari nilai ketiga tersebut. Dari
pengujian data diketahui bahwa metode K-Means lebih baik dari metode K-Medoids dengan nilai
akurasi 90,47%. Sedangkan dari pengolahan data yang dilakukan diketahui bahwa cluster 1 memiliki
16 anggota (pelanggan), cluster 2 memiliki 11 anggota dan cluster 3 memiliki 15 anggota.
Kata kunci : clustering, metode K-Means, metode K-Medoids, pelanggan, model Fuzzy RFM.
Metode K-Means merupakan metode data yang jumlahnya sangat besar dan
clustering dalam Data Mining yang sering banyak jenisnya. Termasuk dalam fungsi
digunakan oleh peneliti untuk mengklaster data ini adalah metode Decision Tree, Neural
(Febrianti dkk, 2016). Metode K-Medoids Network, dan Exploratory Data Analysis.
merupakan metode clustering yang cukup 2. Estimation (estimasi), untuk menerka
efisien untuk data kecil (Zayuka dkk, 2017). sebuah nilai yang belum diketahui, misal
Pada penelitian ini akan dilakukan komparasi menerka penghasilan seseorang ketika
atau perbandingan antara metode K-Means dan informasi mengenai orang tersebut
metode K-Medoids dengan model Fuzzy RFM diketahui. Metode yang digunakan antara
(recency, frequency dan monetary) untuk lain Point Estimation dan Confidence
pengelompokkan data pelanggan menjadi 3 Interval Estimations, Simple Linear
klaster. Data yang digunakan adalah data Regression dan Correlation, dan Multiple
transaksi penjualan online, dan diharapkan hasil Regression.
penelitian pengelompokan pelanggan ini bisa 3. Prediction (prediksi), untuk memperkirakan
lebih akurat sehingga dapat memaksimalkan nilai masa mendatang, missal memprediksi
strategi pemasaran yang pada gilirannya dapat stok barang satu tahun ke depan. Fungsi
meningkatkan penjualan produk. ini mencakup metode Neural Network,
Decision Tree, dan k-Nearest Neighbor.
B. TINJAUAN PUSTAKA 4. Classification (klasifikasi), merupakan
proses penemuan model atau fungsi yang
1. Data Mining menjelaskan atau membedakan konsep
atau kelas data, dengan tujuan untuk dapat
Menurut Maimon & Rokach dalam memperkirakan kelas dari suatu objek
Muningsih (2015), Data Mining merupakan yang labelnya tidak diketahui. Metode yang
sebuah inti dari proses Knowledge Discovery in digunakan antara lain Neural Network,
Database (KDD), meliputi dugaan algoritma Decision Tree, k-Nearest Neighbor, dan
yang mengeksplor data, membangun model dan Naive Bayes.
menemukan pola yang belum diketahui. KDD 5. Clustering (pengelompokan), yaitu
bersifat otomatis, dapat didefinisikan sebagai pengelompokan mengidentifikasi data
pengorganisasian proses untuk yang memiliki karakteristik tertentu.
pengidentifikasian yang benar, berguna dan Metode dalam fungsi ini diantaranya
penemuan pola dari kumpulan data yang besar Hierarchical Clustering, metode K-Means,
dan komplek. Tahapan pada proses KDD pada dan Self Organizing Map (SOM)
database digambarkan sebagai berikut (Maimon 6. Association (asosiasi), dinamakan juga
dan Rokach, 2010) : analisis keranjang pasar dimana fungsi ini
mengidentifikasi item-item produk yang
kemungkinan dibeli konsumen bersamaan
dengan produk lain. Metode atau algoritma
dalam fungsi ini adalah Apriori,
Generalized Sequential Pattern (GSP), FP-
Growth dan GRI algorithm
2. Metode K-Means
dapat digunakan dalam clustering data. Tujuan 2. Alokasikan setiap data atau objek ke cluster
proses pengelompokan atau clustering adalah terdekat dengan menggunakan Eucludian
meminimalkan terjadinya objective function yang Distance, dengan persamaan :
diset dalam proses clustering, yang pada
umumnya digunakan untuk meminimalisasikan
n
variasi dalam suatu cluster dan memaksimalkan d ( x, y ) || x y || i 1
( xi yi ) 2
variasi antar cluster (Agusta, 2007).
dimana :
Algoritma dasar clustering data
menggunakan metode K-Means dapat dilakukan d(x,y) = jarak antara data ke-i dan data ke-j
dengan cara (Agusta, 2007), (Muningsih, 2015) :
xi = nilai atribut kesatu dari data ke-i
1. Tentukan jumlah cluster yang ingin
dibentuk yi = nilai atribut kesatu dari data ke-j
2. Inisialisai k sebagai pusat cluster (beri nilai-
nilai random) n = jumlah atribut yang digunakan
3. Alokasikan data sesuai dengan jumlah
cluster yang ditentukan. Kedekatan dua
obyek ditentukan berdasarkan jarak antar 3. Pilih secara acak objek pada masing-
kedua obyek tersebut. Jarang paling dekat masing cluster sebagai kandidat medoid
antara satu data dengan satu cluster baru
tertentu akan menentukan suatu data
4. Hitung jarak setiap objek yang ada pada
masuk ke dalam cluster yang mana.
masing-masing cluster dengan kandidat
4. Hitung nilai centroid atau pusat cluster pada
medoid baru.
tiap-tiap cluster. Pusat cluster adalah rata-
rata semua data atau obyek dalam cluster. 5. Hitung total simpangan (S) dengan
5. Alokasikan lagi setiap obyek memakai menghitung nilai total distance yang baru
pusat cluster yang baru. Jika pusat cluster dikurangi total distance lama (TD baru - TD
sudah tidak berubah lagi, maka proses lama). Jika S<0, maka tukar objek dengan
peng-cluster-an selesai. data cluster untuk membentuk sekumpulan
6. Kembali ke langkah 3 sampai pusat cluster k objek baru sebagai medoid.
tidak berubah lagi
6. Ulangi langkah 3 - 5 hingga tidak terjadi
3. Metode K-Medoids
perubahan medoid.
K-Medoids atau Partitioning Around
Medoids (PAM) adalah bagian dari partitioning 4. Customer Relationship Management
clustering (Zayuka dkk, 2017) dan merupakan (CRM) dan Pelanggan Potensial
algoritma clustering yang mirip dengan K-Means
(Pramesti dkk, 2017). Metode K-Medoids Customer Relationship Management
menggunakan objek perwakilan (medoid) (CRM) merefleksikan peranan utama dari
sebagai pusat cluster atau titik acuan pada konsumen untuk pengaturan strategi
setiap cluster, bukan menggunakan nilai rata- perusahaan yang meliputi seluruh ukuran untuk
rata (mean) sebagai pusat cluster (Ramadhani memahami konsumen dimana ekploitasi
dan Januarita, 2017).Algoritma K-Medoids ini pengetahuan ini digunakan untuk merancang
mengambil parameter input k yang dan mengimplementasikan pada kegiatan
merepresentasikan jumlah cluster yang akan marketing, produksi dan rantai supply dari
dipartisi diantara satu set sejumlah (n) objek pemasok (supplier). Beberapa definisi tentang
(Ramadhani dan Januarita, 2017). CRM dijelaskan sebagai berikut (Kristanto dan
Arief, 2013) :
Langkah-langkah algoritma K-Medoids
(Ramadhani dan Januarita, 2017), (Zayuka dkk, a. CRM dari sisi yang berkaitan dengan
2017): teknologi infomasi dijelaskan sebagai
sebuah cara atau strategi yang digunakan
1. Inisialisasi pusat cluster sebanyak k (jumlah untuk mengoptimalkan customer lifetime
cluster) value dengan cara mengetahui lebih
banyak tentang informasi konsumen juga
5. Model Fuzzy RFM (Recency, Frequency Metode Analisis pada penelitian ini
dan Monetary) meggunakan metode KDD yang terdiri dari
sembilan langkah (Maimon dan Rokach, 2010),
Model RFM (Recency, Frequency dan
(Muningsih, 2015) yaitu :
Monetary) digunakan untuk menentukan
variabel mengukur pembelian produk oleh 1. Tahap Domain Understanding dan KDD
pelanggan. Variabel dapat menentukan sebagai Goals. Berdasarkan pengamatan,
kebaruan, frekuensi dan moneter (Yuliaridkk, penentuan pelanggan potensial dilakukan
2015). secara manual sehingga tidak akurat.
a. Recency adalah rentang waktu (hari, bulan, 2. Tahap Selection dan Addition. Data historis
tahun) dari transaksi akhir sampai saat ini diambil dari data transaksi penjualan
oleh pelanggan membeli. (online). Data transaksi penjualan (online)
ditampilkan dibawah ini :
8. Tahap Data Mining dalam penggunaan mining yang telah ditentukan pada tahap
algoritma data mining.Pada tahap ini sebelumnya.
dilakukan implementasi dari algoritma data