Anda di halaman 1dari 89

MODEL SEGMENTASI PELANGGAN DENGAN KERNEL

K-MEANS CLUSTERING BERBASIS CUSTOMER


RELATIONSHIP MANAGEMENT (CRM)

TESIS

ABDUL HARIS LUBIS


117038030

PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA


FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2013

ABSTRAK

Tesis ini mengusulkan sebuah model aturan dalam menentukan pelanggan


terbaik dan potensial Kantor Pos Medan. Hingga saat ini dalam menentukan
pelanggan terbaik dan potensial menjadi persoalan di Instansi-instansi baik
pemerintah maupun swasta khususnya yang bergerak dibidang jasa. Faktorfaktor yang berpengaruh secara dominan dalam menentukan pelanggan
terbaik dan potensial masih belum dapat ditentukan secara pasti. Saat ini
manajemen Kantor Pos Medan masih menggunakan secara manual dalam
menentukan pelanggan terbaiknya, sehingga sangat mungkin terjadi
kesalahan pada prosedur yang sudah berjalan. Hal ini akan berpengaruh
terhadap hasil keputusan yang akan diambil oleh pihak manajemen Kantor
Pos Medan. Untuk itu sangat penting dibuat sebuah model aturan untuk
menentukan pelanggan terbaik dan potensial yang dapat digunakan pihak
manajemen sebagai sistem pendukung dalam pengambilan keputusan. Data
yang digunakan dalam penelitian ini berasal dari database Kantor Pos Medan
tahun 2011 bulan maret 2013. Dalam tesis ini algoritma Kernel K-Means
Clustering telah digunakan untuk mendapatkan suatu model aturan
menentukan pelanggan terbaik dan potensial Kantor Pos Medan. Model
aturan yang diperoleh menunjukkan bahwa katagori pelanggan terbaik dapat
diperoleh jika transaksinya banyak dan besar uangnya sedang dan tinggi.

Kata kunci : kernel k-means clustering, model aturan, menentukan

CUSTOMER SEGMENTATION MODEL USING KERNEL K-MEANS


CLUSTERING BASED ON CUSTOMER RELATIONSHIP
MANAGEMENT (CRM)
ABSTRACT

This thesis proposes a rule model in determining the best and potensial
customers of Post Office Medan. Nowadays, determining the best and
potensial customer is an issue, both for government agencies and the private
sector especially for service firms. Until now, the dominant influencing
factors in determining the best and potensial customers remain uncertain.
Currently, the Post Office Medan use the manual method in determining its
best customers. Hence, it encounter the errors in its existing procedures.
Furthermore, it affect the decision making of management of Post Office
Medan. It is urgent to establish a role model to determine the best and
potensial customers for reliable decision-making system.
The data used in this study obtained from database field of Post Office Medan
from 2011 to Mrch 2013. The Kernel K-Means Clustering algorithm used to
obtain a model rule determine the best and potensial customers of Post Office
Medan. The rule model show that the category of best customers can be
determined from a large transaction, as well as the medium to hight amount
of money.

Keywords: kernel k-means clustering, rules model, determine

DAFTAR ISI
Halaman
LEMBARAN JUDUL

LEMBARAN PENGESAHAN

ABSTRAK

ii

ABSTACT

iii

DAFTAR ISI

iv

DAFTAR GAMBAR

viii

DAFTAR TABEL

DAFTAR LAMPIRAN

xi

BAB I. PENDAHULUAN

1.1. Latar Balakang Masalah

1.2. Perumusan Masalah

1.3. Batasan Masalah

1.4. Tujuan Penelitian

1.5. Manfaat Penelitian

BAB II. TINJAUAN PUSTAKA

2.1. Pendahuluan

2.2. DataWarehouse

2.3. Data Mining

12

2.3.1. Manfaat Data Mining

13

2.3.2

14

Tahapan Data Mining

2.3.3. Penambangan Data (Data Mining)

16

2.3.4

Evaluasi pola dan presentasi Pengetahuan

16

2.3.5

Fungsi-fungsi

16

2.3.6

Penerapan Data Mining

17

2.3.7

CRISP-DM

19

2.4. Customer Relationship Management (CRM)


2.4.1. Teknologi CRM

22

2.4.2. Data Mining Dalam Kerangka Kerja CRM

24

2.5. Clustering

25

2.5.1. Algoritma Klasifikasi K-Means

26

2.5.2. Clustering Hirarkhi

27

2.5.3. Clustering Partisional

28

2.6. Metode Klasifikasi Fuzzy RFM

29

2.7. Riset - Riset Terkait

30

2.8. Persamaan Dengan Riset-Riset Lain

33

2.9. Perbedaan Dengan Riset Riset Lain

34

2.10. Kontribusi Riset

34

BAB III. METODOLOGI PENELITIAN

35

3.1. Pendahuluan

35

3.2. Rancangan Penelitian

35

3.3. Pra Pemrosesan Data (Preprocessing Data)

36

3.4. Deployment

40

3.5. Prosedur Penelitian

41

3.6. Diagram Aktivitas Penelitian

42

3.7. Tempat dan Waktu Penelitian

43

3.8. Jadwal Penelitian

43

BAB IV. HASIL DAN PEMBAHASAN

44

4.1.

Pendahuluan

44

4.2.

Hasil Transformasi Data

44

4.3.

Cluster Model

47

4.4.

Cluster Data Berdasarkan Katagori Terbaik

51

4.5.

Analisis Cluster

52

4.5.1

Anggota Cluster Berdasarkan Katagori

52

4.5.1.1 Perhitungan Centroid Awal dengan 3 Nilai Centroid

52

4.5.1.2 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster

53

Nilai Tahun 2013

BAB IV. HASIL DAN PEMBAHASAN

4.5.1.3 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster

54

54

Nilai Tahun 2012


4.5.1.4 Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster 55
Nilai Tahun 2011
4.5.1.5 Perhitungan Jarak Iterasi Kedua 3 Centroid Cluster

56

Nilai Tahun 2013


4.5.1.6 Perhitungan Jarak Iterasi Kedua 3 Centroid Cluster

57

Nilai Tahun 2012


4.5.1.7 Perhitungan Jarak Iterasi Kedua 3 Centroid Cluster

58

Nilai Tahun 2011


4.5.1.8 Tabel Hasil Akhir Perhitungan

59

4.5.1.9 Perhitungan Centroid Awal Deangan 2 Nilai Centroid

60

4.5.1.10 Perhitungan Jarak Iterasi Pertama 2 Centroid Cluster

61

Nilai Tahun 2013


4.5.1.11 Perhitungan Jarak Iterasi Pertama Cluster Nilai

62

Tahun 2012
4.5.1.12 Perhitungan Jarak Iterasi Pertama 2 Centroid Cluster 63
Nilai Tahun 2011
4.5.1.13 Perhitungan Jarak Iterasi Kedua 2 Centroid Cluster

64

Nilai Tahun 2013


4.5.1.14 Perhitungan Jarak Iterasi Kedua 2 Centroid Cluster

65

Nilai Tahun 2012


4.5.1.15 Perhitungan Jarak Iterasi Kedua 2 Centroid Cluster
Nilai Tahun 2011

66

4.5.1.16 Perhitungan Hasil Akhir 2 Iterasi Dengan 2 Centroid

67

4.5.2

68

Interpretasi Cluster

4.5.2.1 Nilai Anggota Pada Cluster Pertama (C0) Setelah

68

Di Cluster
4.5.2.2 Nilai Anggota Pada Cluster Pertama (C1) Setelah

69

Di Cluster
4.5.2.3 Nilai Anggota Pada Cluster Pertama (C2) Setelah

69

Di Cluster
4.5.3

Analisis Cluster

70

4.5.3.1 Pengukuran Validitas Dengan Nilai SSE

70

4.5.3.2 Model Aturan (Model Rule)

71

BAB V. KESIMPULAN DAN SARAN

73

5.1

Kesimpulan

73

5.2

Saran

73

DAFTAR GAMBAR
Nomor

Judul

Gambar

Halaman

2.1

Arsitektur Data Warehouse

11

2.2

Tahap-tahap Knowledge Discovery in Database

15

2.3

Siklus Hidup CRISP-DM

19

2.4

Kerangka Kerja Teknik Data Mining Dalam CRM

25

3.1

Tampilan Aplikasi Data Mining

40

3.2

Prosedur Penelitian

41

3.3

Gambar Aktivitas Kerja Penelitian

42

4.1

Hasil Transformasi Data Pada Tampilan Aplikasi

45

4.2

Hasil Segmentasi Pelanggan

48

4.3

Persentase Layanan

49

4.4

Hasil Clustering Dalam Data View

50

4.5

Segmentasi Pelanggan Berdasarkan Transaksi

51

4.6

Nilai Centroid Awal Dengan 3 Centroid

52

4.7

Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster

53

Tahun 2013
4.8

Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster

54

Tahun 2012
4.9

Perhitungan Jarak Iterasi Pertama 3 Centroid Cluster

55

Tahun 2011
4.10

Perhitungan Jarak Iterasi Kedua 3 Centroid Tahun 2013

56

4.11

Perhitungan Jarak Iterasi Kedua 3 Centroid Tahun 2012

57

4.12

Perhitungan Jarak Iterasi Kedua 3 Centroid Tahun 2011

58

4.13

Tabel Hasil Akhir Perhitungan

59

4.14

Perhitungan Centroid Awal Untuk 2 Nilai Centroid

60

4.15

Perhitungan Iterasi Pertama Cluster Nilai Tahun 2013

61

4.16

Perhitungan Iterasi Pertama Cluster Nilai Tahun 2012

62

4.17

Perhitungan Iterasi Pertama Cluster Nilai Tahun 2011

63

Nomor
Gambar

Judul

Halaman

4.18

Perhitungan Iterasi Kedua Cluster Nilai Tahun 2013

64

4.19

Perhitungan Iterasi Kedua Cluster Nilai Tahun 2012

65

4.20

Perhitungan Iterasi Kedua Cluster Nilai Tahun 2011

66

4.21

Perhitungan Hasil Akhir 2 Iterasi Dengan 2 Centroid

67

4.22

Perhitungan Nilai SSE Pada 2 Nilai Centroid

70

DAFTAR TABEL

Nomor

Judul

Tabel

Halaman

2.1

Penelitian Yang Telah Dilakukan

33

3.1

Data Parsial Dari Database Kantor Pos Medan

37

3.2

Domain Nilai Untuk Masing-masing Himpunan Fuzzy RFM

39

4.1

Attribut Yang Belum DiKatagorisasikan

45

4.2

Attribut Yang Digunakan Untuk Segmentasi Pelanggan

46

4.3

Katagorisasi Atribut

46

4.4

Cluster Nodel Berdasarkan Monetary

47

4.5

Nilai Awal Iterasi Untuk 3 Dan 2 Centroid

53

4.6

Data Transaksi Pelanggan Sebelum Di Cluster

68

4.7

Nilai Anggota Tahun 2013, Tahun 2012, Tahun 2011

68

Pada (C0)
4.8

Nilai Anggota Tahun 2013, Tahun 2012, Tahun 2011

69

Pada (C1)
4.9

Nilai Anggota Tahun 2012, Tahun 2012, Tahun 2011

69

pada (C2)
4.10

Model Aturan (Model Rule)

71

DAFTAR LAMPIRAN

Nomor
Lampiran

Judul

Halaman

Tabel Data Pelanggan Tahun 2013

Lamp A-1

Tabel Data Pelanggan Tahun 2013

Lamp A-2

Tabel Data Pelanggan Tahun 2013

Lamp A-3

Tabel Data Pelanggan Tahun 2012

Lamp B-1

Tabel Data Pelanggan Tahun 2012

Lamp B-2

Tabel Data Pelanggan Tahun 2012

Lamp B-3

Tabel Data Pelanggan Tahun 2011

Lamp C-1

Tabel Data Pelanggan Tahun 2011

Lamp C-2

Tabel Data Pelanggan Tahun 2011

Lamp C-3

Daftar Pelanggan Kantor Pos Medan

Lamp D-1

Daftar Pelanggan Kantor Pos Medan

Lamp D-2

ABSTRAK

Tesis ini mengusulkan sebuah model aturan dalam menentukan pelanggan


terbaik dan potensial Kantor Pos Medan. Hingga saat ini dalam menentukan
pelanggan terbaik dan potensial menjadi persoalan di Instansi-instansi baik
pemerintah maupun swasta khususnya yang bergerak dibidang jasa. Faktorfaktor yang berpengaruh secara dominan dalam menentukan pelanggan
terbaik dan potensial masih belum dapat ditentukan secara pasti. Saat ini
manajemen Kantor Pos Medan masih menggunakan secara manual dalam
menentukan pelanggan terbaiknya, sehingga sangat mungkin terjadi
kesalahan pada prosedur yang sudah berjalan. Hal ini akan berpengaruh
terhadap hasil keputusan yang akan diambil oleh pihak manajemen Kantor
Pos Medan. Untuk itu sangat penting dibuat sebuah model aturan untuk
menentukan pelanggan terbaik dan potensial yang dapat digunakan pihak
manajemen sebagai sistem pendukung dalam pengambilan keputusan. Data
yang digunakan dalam penelitian ini berasal dari database Kantor Pos Medan
tahun 2011 bulan maret 2013. Dalam tesis ini algoritma Kernel K-Means
Clustering telah digunakan untuk mendapatkan suatu model aturan
menentukan pelanggan terbaik dan potensial Kantor Pos Medan. Model
aturan yang diperoleh menunjukkan bahwa katagori pelanggan terbaik dapat
diperoleh jika transaksinya banyak dan besar uangnya sedang dan tinggi.

Kata kunci : kernel k-means clustering, model aturan, menentukan

CUSTOMER SEGMENTATION MODEL USING KERNEL K-MEANS


CLUSTERING BASED ON CUSTOMER RELATIONSHIP
MANAGEMENT (CRM)
ABSTRACT

This thesis proposes a rule model in determining the best and potensial
customers of Post Office Medan. Nowadays, determining the best and
potensial customer is an issue, both for government agencies and the private
sector especially for service firms. Until now, the dominant influencing
factors in determining the best and potensial customers remain uncertain.
Currently, the Post Office Medan use the manual method in determining its
best customers. Hence, it encounter the errors in its existing procedures.
Furthermore, it affect the decision making of management of Post Office
Medan. It is urgent to establish a role model to determine the best and
potensial customers for reliable decision-making system.
The data used in this study obtained from database field of Post Office Medan
from 2011 to Mrch 2013. The Kernel K-Means Clustering algorithm used to
obtain a model rule determine the best and potensial customers of Post Office
Medan. The rule model show that the category of best customers can be
determined from a large transaction, as well as the medium to hight amount
of money.

Keywords: kernel k-means clustering, rules model, determine

BAB I
PENDAHULUAN

1.1 Latar Belakang

Ketika suatu organisasi tumbuh semakin besar dan pola tingkatan


operasionalnya semakin tidak sederhana dan kompleks, maka secara alamiah
tuntutan pihak manajemen akan kebutuhan dan fungsional dari setiap system
informasi semakin besar, khususnya pada fungsionalitas data, teknologi dan
aplikasi.
Mengelola data dan informasi selaras dengan kebijakan dan strategi
perusahaan dalam rangka mencapai misinya, merupakan hal yang tidak
mudah. Kegagalan tersebut adalah sebagai berikut :
1.

Peluang bisnis yang ada tidak dapat dimanfaatkan bahkan sering


terlewatkan begitu saja.

2.

Kegagalan pada integrasi system serta pengelolaan data dan


informasi yang tidak efektif.

3.

Prioritas pengelolaan data dan informasi tidak berbasis pada


kebutuhan bisnis.

4.

Perbedaan pemahanan mengenai arah kebijakan pengembangan


system teknologi informasi dan teknologi informasi diantara
pengguna (user) manajemen dan pengembang yang mengakibatkan
kerugian pada produktivitas bisnis organisasi.

Arsitektur perusahaan dari suatu organisasi adalah sebuah mekanisme untuk


menjamin agar sistem informasi dan teknologi informasi sebagai salah satu
sumber daya organisasi dapat dijalankan selaras dengan strategi pencapaian
misi bisnis organisasi tersebut..
Enterprise Architecture Planning merupakan suatu metode yang digunakan
untuk membangun sebuah arsitektur perusahaan. Secara literal Enterprise
Architecture Planning atau EAP adalah suatu metode pendekatan
perencanaan kualitas data yang berorientasi pada kebutuhan bisnis yang
terdiri dari arsitektur data, aplikasi dan teknologi serta bagaimana cara
implementasi dari arsitektur tersebut sedemikian rupa, dalam usaha untuk
mendukung perputaran roda bisnis dan pencapaian misi sistem informasi dan
organisasi.
Pada dasarnya EAP bukan merancang bisnis dan arsitekturnya, tetapi
mendefinisikan kebutuhan bisnis dan arsitekturnya. Dalam EAP, arsitektur
menjelaskan mengenai data, aplikasi dan teknologi yang dibutuhkan untuk
mendukung bisnis organisasi.
Suatu organisasi yang berusaha membangun arsitektur-nya terkadang tidak
dapat memahami hasil perencanaan sistem informasi dalam bisnisnya, hanya
karena bahasa dan model yang digunakan cenderung rumit dan bersifat sangat
teknis sehingga sulit dimengerti. Akibatnya tidak ada umpan balik darinya
yang justru merupakan faktor utama dalam perencanaan tadi. Keberhasilan
pengimplementasian sangat tergantung pada pemahaman dari setiap entitas
bisnis itu sendiri termasuk komitmen manajemen organisasi tersebut.
Customer Relationship Management (CRM), dalam Bahasa Indonesia
menjadi manajemen hubungan pelanggan. Konsep CRM merupakan
spesifikasi dari konsep Relationship Marketing (RM). Konsep relationship
marketing (pemasaran hubungan) menekankan bahwa
berinteraksi

dan

menjalin

hubungan

dengan

perusahaan harus

berbagai

pihak

yang

berkepentingan terhadap perusahaan (stakeholders), karena hubungan yang


baik merupakan asset yang paling mendasar bagi suatu perusahaan. Adapun
konsep CRM lebih menekankan pada menjalin hubungan baik dengan

pelanggan sebagai salah satu stakeholders, karena pelanggan dianggap


sebagai ujung tombak suatu bisnis.
Paradigma baru dunia bisnis menunjukkan bahwa konsumen berperan aktif
dalam menciptakan nilai. Hal ini menyebabkan meningkatnya peran
konsumen sebagai sumber kompetensi baru bagi perusahaan. Kompetensi
yang dimiliki konsumen adalah pengetahuan, keahlian, kemauan untuk
belajar dan bereksperimen, serta kemampuan terlibat komunikasi yang aktif
dengan perusahaan. (Gaffar, 2007). Hal tersebut dilakukan agar perusahaan
dapat menciptakan produk atau jasa yang sangat sesuai dengan yang
dibutuhkan oleh konsumen. Untuk itu dibutuhkan adanya saluran komunikasi
yang baik yang memungkinkan adanya interaksi yang intensif antara
perusahaan dengan konsumen.
Dengan demikian menurut Gray dan Byun dalam Gaffar (2007:41)
keseluruhan proses dan aplikasi dari CRM berdasarkan kepada prinsip-prinsip
dasar yaitu perlakukan pelanggan secara individu. Jadi CRM didasarkan pada
filosofi personalisasi, yaitu tujuan dan pelayanan kepada pelanggan harus
dirancang berdasarkan preferensi pelanggan dan perilaku pelanggan.
Konsep CRM banyak diadopsi oleh perusahaan yang bergerak dalam
pelayanan jasa.
Beberapa alasan disebutkan oleh para ahli marketing berkaitan dengan
munculnya konsep CRM, diantaranya pelanggan semakin lebih cerdas, lebih
sadar harga, lebih menuntut, kurang memaafkan, dan didekati oleh lebih
banyak perusahaan dengan tawaran yang sama atau bahkan lebih baik. Jadi
tidak cukup hanya menghasilkan pelanggan yang puas, tetapi harus sampai
pada merasa senang dan menjadi setia (loyal). (Kotler, 2006). Oleh karena
itu terjadi pergeseran dari paradigma pemasaran massal (mass marketing)
pada pemasaran satu sama-satu (one to one marketing).

Data mining adalah sebuah proses percarian secara otomatis informasi


yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain
yang sering digunakan diantaranya knowledge discovery (mining) in
databases (KDD), knowledge extraction, data / pattern analysis, data
archeology, data dredging, information harvesting, dan business intelligence.
Teknik data mining digunakan untuk memeriksa data base berukuran besar
sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua
pekerjaan pencarian informasi dinyatakan sebagai data mining. Sebagai
contoh, pencarian record individual menggunakan database management
system atau pencarian halaman web tertentu melalui kueri ke semua search
engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan
information retrieval. Teknik-teknik data mining dapat digunakan untuk
meningkatkan

kemampuan

sistem-sistem

information

retrieval.

Dalam hal ini, konsumen yang berbeda mewakili nilai yang berbeda.
Pihak manajemen perusahaan jasa harus mampu untuk mengenali konsumen
terbaiknya

dan

mempercayainya

dengan

meningkatkan

pemahaman

perusahaan akan kebutuhan mereka sebagai individu sehingga dapat


mempertahankan loyalitasnya terhadap perusahaan. Dengan menerapkan
konsep CRM (Customer Relationship Management), perusahaan dapat
melakukan identifikasi konsumen dengan melakukan segmentasi konsumen.
Tujuan dari proses segmentasi konsumen adalah untuk mengetahui perilaku
konsumen dan menerapkan strategi pemasaran yang tepat sehingga
mendatangkan keuntungan bagi pihak perusahaan.

PT. Pos Indonesia (Persero) adalah suatu perusahaan yang bergerak di


bidang jasa. Adapun jenis layanan yang diselenggarakan oleh PT. Pos
diantaranya adalah pengiriman dan surat kilat khusus-paket pos.

Saat ini PT. Pos Indonesia sedang dalam masa peralihan dari Portal
Company Menjadi Network Company. Sistem CRM adalah suatu system,
metodologi, strategi, perangkat lunak dan aplikasi yang mampu mengelola
hubungan dengan para pelanggan. Dalam CRM sendiri terdapat tiga unsur
yaitu manusia, proses, dan teknologi. Tujuan diterapkannya sistem CRM
sebagai berikut :
1. Sistem CRM membantu mengurangi biaya operasional pemasaran,
customer service, dan technical support sehingga lebih menghasilkan
profit.
2. Sistem CRM pada PT.Pos Indonesia masih perlu dikembangkan agar
penggunaannya bisa lebih efektif dan efisien.
3. Diperlukan suatu sistem informasi keuangan untuk mengintegrasikan
sistem CRM ini dengan sistem proses bisnis lainnya sehingga proses
bisnis dapat bekerja secara real time.

Arsitektur Sistem CRM pada PT. Pos Indonesia Marketing Sales,


Services Quality Control, Shipment Branch Management.

Visi PT. Pos

Indonesia menjadi pemimpin pasar di Indonesia dengan menyediakan layanan


surat pos, paket, dan logistik yang handal serta jasa keuangan yang
terpercaya.
Misi PT. Pos Indonesia berkomitmen kepada pelanggan untuk
menyediakan layanan yang selalu tepat waktu dan nilai terbaik berkomitmen
kepada karyawan untuk memberikan iklim kerja yang aman, nyaman dan
menghargai. Kontribusi berkomitmen kepada pemegang saham untuk
memberikan hasil usaha yang menguntungkan dan terus bertumbuh,
berkomitmen untuk berkontribusi positif kepada masyarakat, berkomitmen
untuk berperilaku transparan dan terpercaya kepada seluruh pemangku
kepentingan dengan motto tepat waktu setiap waktu

Pada penelitian ini akan digunakan teknik data mining yaitu algoritma
Kernel K-Means Clustering untuk membuat model aturan dalam membuat
segmentasi pelanggan . Data yang digunakan dalam penelitian ini adalah data
kantor pos Medan yang beralamat jalan Bukit Barisan no. 1 Medan.

Algoritma K-Means mengklusterkan ukuran jarak Eucliden, dimana


jarak dihitung adalah untuk mencari kuadrat dari jarak antara masing-masing
nilai, menjumlahkan kuadrat dan menemukan akar kuadrat dari jumlah
tersebut .
Kernel K-Means adalah pengembangan dari Algoritma K-Means yang
menggunakan metode Kernel untuk memetakan data yang berdimensi tinggi
pada space yang baru sehingga dapat dipisahkan secara linear. Hal ini
dilakukan untuk meningkatkan akurasi hasil klaster. Didalam Kernel KMeans diharapkan data dapat dipisahkan dengan lebih baik karena data yang
overlap atau data outlier bisa menjadi linear diruang dimensi baru.
Berdasarkan masalah diatas maka penelitian ini akan memaparkan algoritma
Kernel K-Means Clustering untuk membuat model aturan dalam melakukan
segmentasi pelanggan PT. Pos Indonesia (Persero).

1.2 Perumusan Masalah


Berdasarkan latar belakang di atas, dapat dirumuskan beberapa masalah
yang menjadi inti dari penelitian ini, yaitu :
1. Bagaimana menggunakan metode Kernel untuk data pelanggan pada
perusahaan yang bergerak dibidang jasa.
2. Bagaimana memperoleh model segmentasi pelanggan dengan Kernel
K-Means Clustering berbasis Customer Relationship Management
(CRM).

1.3

Batasan Masalah

Untuk memfokuskan pada permasalahan diatas, maka permasalahan dalam


penelitian ini dibatasi sebagai berikut :
1. Indikator yang menjadi ukuran segmentasi pelanggan menggunakan 3
(tiga) atribut yaitu Recency, Frequency, dan Monetary.
2. Data yang diambil untuk dijadikan sampel adalah data Kantor Pos
Medan .
3. Pengujian data dibangun aplikasi model segmentasi pelangan dengan
metode k-means clustering.

1.4

Tujuan Penelitian

Tujuan yang ingin dicapai dari penelitian ini adalah :


1. Membangun suatu model segmentasi pelanggan dengan metode kmeans clustering berbasis Customer Relationship Management
(CRM) untuk meningkatkan pertumbuhan jangka panjang dan
profitabilitas perusahaan dengan mengetahui prilaku dan kebutuhan
pelanggan.
2. Mengevaluasi model segmentasi pelanggan dengan kernel k-means
clustering berbasis Customer Relationship Management (CRM) yang
telah dikembangkan untuk mendapatkan nilai parameter yang
menghasilkan output yang optimal.

1.5

Manfaat Penelitian

Hasil penelitian ini diharapkan dapat bermanfaat bagi unit Pemasaran dan
Manajemen sebagai early warning system dalam melakukan peningkatan
kinerja perusahaan.

BAB 2

TINJAUAN PUSTAKA

2.1 Pendahuluan
Data Mining atau pertambangan data adalah suatu aplikasi database yang
memiliki kemampuan pencarian data yang menggunakan statistikal algoritma
untuk menemukan pola dan korelasi dalam data. Data mining dapat
menemukan informasi yang berada di gudang data dalam perusahaan. Data
mining mempunyai pola dan hubungan yang menggambarkan langkahlangkah yang harus diambil untuk memastikan hasil yang tepat. Software
data mining bertujuan untuk

mengetahui bisnis, memahami data dan

membantu analis bisnis untuk menghasilkan hipotesis.


Manajemen hubungan pelanggan atau disebut juga Customer Relationship
Management (CRM) adalah sebuah sistem informasi yang digunakan untuk
merencanakan,

menjadwalkan,

dan

mengendalikan

aktivitas-aktivitas

prapenjualan dan pascapenjualan dalam sebuah organisasi. Hal ini


melingkupi semua aspek perusahaan yang berhubungan dengan calon
pelanggan.
Manajemen hubungan pelanggan juga mencakup pengembangan yang
menawarkan produk untuk dijual pada pelanggan. Dalam penjualan,
perusahaan menggunakan manajemen pemasaran untuk menargetkan
peningkatan efektivitas pemasaran. Tujuan dari manajemen hubungan
pelanggan

adalah

meningkatkan

pertumbuhan

jangka

panjang

dan

profitabilitas perusahaan melalui pengertian terhadap kebiasaan dan perilaku


(behavior) pelanggan. Sumber data manajemen hubungan pelanggan ini dapat
diperoleh melalui survei pelanggan dari pemberian pertanyaan, serta perilaku
data yang terdapat dalam sistem transaksi.
Kemajuan teknologi zaman sekarang membuat hubungan pemasaran lebih
maju, sehingga hubungan perusahaan dengan pelanggan menjadi pusat

masalah bisnis perusahaan dalam konsep pemasaran. Manajemen hubungan


pelanggan ini dapat membantu proses penjual dan pembeli perusahaan untuk
berkomunikasi menawarkan produk yang ditargetkan dan meningkatkan
efisiensi bagi kedua pihak. Untuk itu data mining dapat dipilih sebagai sistem
yang tepat untuk kemajuan perusahaan. Data mining dapat menemukan
informasi yang berada di gudang data perusahaan yang terletak pada
penyimpanan data komputer dan data bisnis tersebut dapat bermanfaat
sebagai informasi dalam setiap langkah pembangunan. Data mining juga
dapat memprediksi keuntungan perusahaan dari pelanggan. Data mining
memainkan peran penting dalam proses manajamen hubungan pelanggan
dengan mencakup interaksi pelanggan dengan data dan perangkat lunak
manajemen. Program manajemen hubungan pelanggan yang menggunakan
data mining dapat mengakibatkan peningkatan nilai pelanggan perusahaan
bila digunakan dengan sistem yang tepat.
2.2

Data Warehouse

Data warehouse merupakan kumpulan data dari berbagai sumber yang


disimpan dalam suatu gudang data ( repository ) dalam kapasitas besar dan
digunakan untuk proses pengambilan keputusan (Prabhu, 2007). Menurut
William Inmon, karakteristik dari data warehouse adalah sebagai berikut :
1.

Subject oriented.

Pada sistem operasional, data disimpan berdasarkan aplikasi.

Set

data

hanya terdiri dari data yang dibutuhkan oleh fungsi yang terkait dan
aplikasinya, sedangkan pada

data warehouse, data

disimpan

bukan

berdasarkan aplikasi, melainkan berdasarkan subjeknya. Misalnya untuk


sebuah perusahaan manufaktur subjek bisnis yang penting, yaitu penjualan,
pengangkutan, dan penyimpanan barang.

2.

Integrated.

Data yang tersimpan dalam data warehouse terdiri dari berbagai system
operasional. Oleh sebab itu terdapat kemungkinan bahwa terjadi beberapa
perbedaan, yaitu dalam konvensi penamaan, representasi kode, atribut data,
dan pengukuran data. Keempat perbedaan tersebut harus disamakan terlebih
dahulu sesuai dengan standar tertentu agar data yang nantinya tersimpan
dalam data warehouse dapat terintegrasi.
3.

Time variant.

Pada data warehouse, data yang tersimpan adalah data historis dalam kurun
waktu tertentu, bukan data terkini. Oleh karena itu data yang tersimpan
mengandung keterangan waktu, misalnya tanggal, minggu, bulan, catur
wulan, dan sebagainya. Karakteristik time variant pada data warehouse
memiliki karakteristik sebagai berikut :
a. Melakukan analisa terhadap hal di masa lalu.
b. Mencari hubungan antara informasi dengan keadaan saat ini.
c. Melakukan prediksi hal yang akan datang.
4

Non-volatile.

Data dalam sistem operasional dapat di-update sesuai transaksi bisnis. Setiap
kali terjadi transaksi bisnis. Namun dalam data warehouse, data tidak dapat
diubah karena bersifat read only.
Arsitektur data warehouse (gambar 2.1)

mencakup proses ETL

(Extraction, Transformation, Loading) untuk memindahkan data dari


operational data source dan sumber data eksternal lainnya ke dalam data
warehouse . Data warehouse dapat dibagi menjadi beberapa data mart,
berdasarkan fungsi bisnisnya (contoh data mart untuk penjualan, pemasaran,
dan keuangan). Data dalam data warehouse dan data mart diatur oleh satu
atau lebih server yang mewakili multidimensional view dari data terhadap
berbagai front end tool, seperti query tools, analysis tools, report writers, dan
data mining tools.

Gambar 2.1 Arsitektur Data Warehouse


Proses ETL (Extraction, Transformation, Loading) merupakan proses yang
harus melalui dalam pembentukan data warehouse (Kimball, 2004).
Berikut adalah penjelasan dari tiap proses.
1.

Ekstraksi Data (Extract)

Ekstraksi data adalah proses dimana data diambil atau diekstrak dari berbagai
sistem operasional, baik menggunakan query, atau aplikasi ETL. Terdapat
beberapa fungsi ekstraksi data, yaitu :
a. Ekstraksi data secara otomatis dari aplikasi sumber.
b. Penyaringan atau seleksi data hasil ekstraksi.
c. Pengiriman data dari berbagai platform aplikasi ke sumber data.
d. Perubahan format layout data dari format aslinya.
e. Penyimpanan dalam file sementara untuk penggabungan dengan hasil
ekstraksi dari sumber lain.
2.

Transformasi Data (Transformation)

Transformasi adalah proses dimana data mentah (raw data) hasil ekstraksi
disaring dan diubah sesuai dengan kaidah bisnis yang berlaku. Langkahlangkah dalam transformasi data adalah sebagai berikut :

a. Memetakan data input dari skema data aslinya ke skema data


warehouse.
b. Melakukan konversi tipe data atau format data.
c. Pembersihan serta pembuangan duplikasi dan kesalahan data.
d. Penghitungan nilai-nilai derivat atau mula-mula.
e. Penghitungan nilai-nilai agregat atau rangkuman.
f. Pemerikasaan integritas referensi data.
g. Pengisian nilai-nilai kosong dengan nilai default.
h. Penggabungan data.

3.

Pengisian Data (Loading)

Proses terakhir yang perlu dilakukan adalah proses pemuatan data yang
di dapatkan dari hasil transformasi ke dalam data warehouse. Cara untuk
memuat data adalah dengan menjalankan SQL script secara periodik.

2.3 Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa
informasi yang selama ini tidak diketahui secara manual dari suatu basisdata.
Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan
mengenali pola yang penting atau menarik dari data yang terdapat dalam
basisdata.
Data mining terutama digunakan untuk mencari pengetahuan yang
terdapat dalam data base yang besar sehingga sering disebut Knowledge
Discovery in Databases (KDD).

Proses pencarian pengetahuan ini

menggunakan berbagai teknik-teknik pembelajaran komputer (machine


learning) untuk menganalisis dan mengekstraksikannya. Proses pencarian
bersifat iteratif dan interaktif untuk menemukan pola atau model yang sahih,
baru, bermanfaat, dan dimengerti. Dalam penerapannya data mining
memerlukan berbagai perangkat lunak analisis data untuk menemukan pola
dan relasi data agar dapat digunakan untuk membuat prediksi dengan akurat.

2.3.1

Manfaat Data Mining

Pemanfaatan data mining dapat dilihat dari dua sudut pandang, yaitu sudut
pandang komersial dan sudut pandang keilmuan. Dari sudut pandang
komersial, pemanfaatan data mining dapat digunakan dalam menangani
meledaknya volume data. Bagaimana mana menyimpannya, mengestraknya
serta memanfaaatkannya. Berbagai teknik komputasi

dapat digunakan

menghasilkan informasi yang dibutuhkan. Informasi yang dihasilkan menjadi


asset untuk meningkatkan daya saing suatu institusi.
Data mining tidak hanya digunakan untuk menangani persoalan
menumpuknya data / informasi dan bagaimana menggudangkannya tanpa
kehilangan informasi yang penting (warehousing). Data mining juga
diperlukan untuk menyelesaikan permasalahan atau menjawab kebutuhan
bisnis itu sendiri, misalnya:
Bagaimana mengetahui hilangnya pelanggan karena pesaing
Bagaimana mengetahui item produk atau konsumen yang memiliki
kesamaan karakteristik
Bagaimana mengidentifikasi produk-produk yang terjual bersamaan
dengan produk lain.
Bagaimana memprediski tingkat penjualan

Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi


suatu item.

Bagaimana memprediksi prilaku bisnis di masa yang akan datang

Dari sudut pandang keilmuan, data mining dapat digunakan untuk


mengcapture, menganlisis serta menyimpan data yang bersifat real-time dan
sangat besar, misalnya:

Remote sensor yang ditempatkan pada suatu satelit


Telescope yang digunakan untuk memindai langit
Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes
Data mining merupakan salah satu metode alternatif yang dapat digunakan
untuk mengolah data mentah, ketika metode konvensional tidak fisibel untuk
dilakukan karena besarnya volume data yang diolah. Hal ini dapat terjadi
karena data mining memiliki kemampuan mereduksi data baik melalui teknik
katalogisasi, klasifikasi maupun segementasi.

2.3.2

Tahapan Data Mining

Data mining sesungguhnya merupakan salah satu rangkaian dari proses


pencarian

pengetahuan

pada

database

(Knowledge

Discovery

in

Database/KDD). KDD berhubungan dengan teknik integrasi dan penemuan


ilmiah, interprestasi dan visualisasi dari pola-pola sejumlah kumpulan data.
KDD adalah keseluruhan proses non-trivial untuk mencari dan
mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan
bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Serangkaian proses
tersebut yang memiliki tahap sebagai berikut (Tan, 2006):
1. Pembersihan data dan integrasi data (cleaning and integration) Proses
ini digunakan untuk membuang data yang tidak konsisten dan bersifat
noise dari data yang terdapat di berbagai basisdata yang mungkin
berbeda format maupun platform yang kemudian diintegrasikan
dalam satu database data warehouse.
2. Seleksi dan transformasi data (selection and transformation) Data
yang terdapat dalam database data warehouse kemudian direduksi
dengan

berbagai

teknik.

Proses

reduksi

diperlukan

untuk

mendapatkan hasil yang lebih akurat dan mengurangi waktu

komputasi terutama utuk masalah dengan skala besar (large scale


problem).
Beberapa cara seleksi, antra lain:

Sampling, adalah seleksi subset representatif dari populasi data


yang besar.

Denoising, adalah proses menghilangkan noise dari data yang


akan ditransformasikan

Feature extraction, adalah proses membuka spesifikasi data yang


signifikan dalam konteks tertentu.

Transformasi data diperlukan sebagai tahap pre-procecing, dimana


data yang diolah siap untuk ditambang. Beberapa cara transformsi,
antara lain (Santoso, 2007):

Centering, mengurangi setiap data dengan rata-rata dari setiap


atribut yang ada.

Normalisation, membagi setiap data yang dicentering dengan


standar deviasi dari atribut bersangkutan.

Scaling, mengubah data sehingga berada dalam skala tertentu.

Gambar 2.2 Tahap-tahap Knowledge Discovery in Database

2.3.3 Penambangan data (data mining)


Data yang telah diseleksi dan ditransformasi ditambang dengan berbagai
teknik.

Proses data mining adalah proses mencari pola atau informasi

menarik dalam data terpilih dengan menggunakan fungsi-fungsi tertentu.


Fungsi atau algoritma dalam data mining sangat bervariasi. Pemilihan fungsi
atau algoritma yang tepat sangat bergantung pada tujuan dan proses
pencaraian pengetahuan secara keseluruhan.

2.3.4 Evaluasi pola dan presentasi pengetahuan


Tahap ini merupakan bagian dari proses pencarian pengetahuan yang
mencakup pemeriksaan apakah pola atau informasi yang ditemukan
bertentangan dengan fakta atau hipotesa yang ada sebelumnya. Langkah
terakhir KDD adalah mempresentasikan pengetahuan dalam bentuk yang
mudah dipahami oleh pengguna.

2.3.5 Fungsi-fungsi
Fungsi-fungsi yang umum diterapkan dalam data mining (Haskett, 2000):

Assosiation, adalah proses untuk menemukan aturan assosiatif antara


suatu kombinasi item dalam suatu waktu

Secuence, hampir sama dengan association bedanya seccuence


diterapkan lebih dari satu periode.

Clastering, adalah proses pengelompokan sejumlah data / obyek ke


dalam kelompok-kelompok data (klaster) sehingga setiap klaster akan
berisi data yang saling mirip.

Classification, adalah proses penemuan model atau fungsi yang


menjelaskan atau membedakan konsep atau kelas data, dengan tujuan
untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak
diketahui.

Regretion, adalah proses pemetaam data dalam suatu nilai prediksi.

Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan


pola-pola di dalam sekumpulan data

Solution, adalah proses penemuan akar masalah dan problem solving


dari persoalan bisnis yang dihadapi atau paling tidak sebagai
informasi pendukung dalam pengambilan keputusan.

2.3.6 Penerapan Data Mining

Sebagai cabang ilmu baru di bidang komputer cukup banyak penerapan yang
dapat dilakukan oleh Data Mining. Apalagi ditunjang ke-kaya-an dan
keanekaragaman berbagai bidang ilmu (artificial intelligence, database,
statistik, pemodelan matematika, pengolahan citra ) membuat penerapan data
mining menjadi makin luas. Berikut beberapa penerapannya

Analisa Pasar dan Manajemen


Untuk analisa pasar, banyak sekali sumber data yang dapat
digunakan seperti transaksi kartu kredit, kartu anggota club
tertentu, kupon diskon, keluhan pembeli, ditambah dengan studi
tentang gaya hidup publik.

Menembak target pasar


Data mining dapat melakukan pengelompokan (clustering) dari
model model pembeli dan melakukan klasifikasi terhadap setiap
pembeli sesuai dengan karakteristik yang diinginkan seperti
kesukaan yang sama, tingkat penghasilan yang sama, kebiasaan
membeli dan karakteristik lainnya.

Melihat pola beli pemakai dari waktu ke waktu


Data mining dapat digunakan untuk melihat pola beli seseorang
dari waktu ke waktu. Sebagai contoh, ketika seseorang menikah
bisa saja dia kemudian memutuskan pindah dari single account ke
joint account (rekening bersama) dan kemudian setelah itu pola
beli-nya berbeda dengan ketika dia masih bujangan.

Cross market analisys


Kita dapat memanfaatkan data mining untuk melihat hubungan
antara penjualan satu produk dengan produk lainnya.

Profil customer
Data mining dapat membantu

untuk melihat profil customer /

pembeli / nasabah sehingga kita dapat mengetahui kelompok


customer tertentu suka membeli produk apa saja.

Identifikasi kebutuhan user


Kita dapat mengidentifikasi produk-produk apa saja yang terbaik
untuk tiap kelompok customer dan menyusun faktor-faktor apa saja
yang kira-kira dapat menarik customer baru untuk bergabung /
membeli.

Perencanaan keuangan dan evaluasi asset


Data Mining dapat membantu

untuk melakukan analisis dan

prediksi cash flow serta melakukan contingent claim analysis untuk


mengevaluasi aset. Selain itu juga dapat menggunakannya untuk
analisis trend.

Perencanaan sumber daya (Reseource planning)


Dengan

melihat

informasi

ringkas

(summary)

serta

pola

pembelanjaan dan pemasukan dari masing-masing resource, kita


dapat memanfaatkannya untuk melakukan resource planning.

Persaingan (competision)
Sekarang ini banyak perusahaan yang berupaya untuk dapat
melakukan competitive intelligence. Data Mining dapat membantu
untuk memonitor pesaing-pesaing

dan melihat market direction

seperti :
Melakukan

pengelompokan

customer,

memberikan

variasi

harga/layanan/bonus untuk masing-masing grup.


Menyusun strategi penetapan harga di pasar yang sangat
kompetitif. Hal ini diterapkan oleh perusahaan minyak REPSOL
di Spanyol dalam menetapkan harga jual gas di pasaran.

2.3.7

CRISP-DM

CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan


suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun
1996 dan telah ditetapkan sebagai proses standar dalam data mining yang
dapat diaplikasikan di berbagai sektor industri. Gambar 2.3 menjelaskan
tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam
CRISP-DM.

Gambar 2.3 Siklus Hidup CRISP-DM (Chapman, 2000)

Berikut ini adalah enam tahap siklus hidup pengembangan data mining
(Chapman, 2000) :
1. Business Understanding
Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang
bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian

masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi
untuk mencapai tujuan tersebut.

2. Data Understanding
Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan
dengan proses untuk mendapatkan pemahaman yang mendalam tentang data,
mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian
yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi
yang tersembunyi.
3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data
yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap
ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan
tabel, record, dan atribut-atribut data, termasuh proses pembersihan dan
transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan
(modeling).
4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik
pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan
nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat
diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik
pemodelan yang membutuhan format data khusus. Sehingga pada tahap ini
masih memungkinan kembali ke tahap sebelumnya.
5. Evaluation
Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik
jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan
evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan
menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase
awal (Business Understanding). Kunci dari tahap ini adalah menentukan
apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap
ini harus ditentukan penggunaan hasil proses data mining.

6. Deployment
Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur
dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh
pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau
mengimplementasikan proses data mining yang berulang dalam perusahaan.
Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping
analis data, karena sangat penting bagi konsumen untuk memahami tindakan
apa yang harus dilakukan untuk menggunakan model yang telah dibuat.

2.4 Customer Relationship Management (CRM) / Manajemen Hubungan


Pelanggan

Konsumen merupakan aset yang sangat penting bagi suatu perusahaan. Tidak
akan ada prospek bisnis tanpa adanya hubungan antara perusahaan dengan
konsumen yang bersifat loyal. Hal ini adalah alasan mengapa perusahaan
harus merencanakan dan menggunakan strategi yang cukup jelas dalam
memperlakukan konsumen. Customer Relationship Management (CRM)
telah

berkembang

dalam

beberapa

dekade

belakangan

ini

untuk

merefleksikan peranan utama dari konsumen untuk pengaturan strategi


perusahaan. CRM meliputi seluruh ukuran untuk memahami konsumen dan
proses untuk mengeksploitasi pengetahuan ini untuk merancang dan
mengimplementasikannya pada kegiatan marketing, produksi, dan rantai
supply dari pemasok (supplier). Berikut ini akan didefenisikan beberapa
pengertian CRM yang diambil dari berbagai literatur, antara lain (Tama,
2009) :
1. Dari sisi yang berkaitan dengan teknologi informasi, CRM adalah
sebuah strategi untuk mengoptimalkan customer lifetime value
dengan cara mengetahui lebih banyak mengenai informasi konsumen
dan berinteraksi dengan konsumen secara intensif (Todman, 2001).

2. Dari sisi komunikasi dan manajemen, CRM di definisikan sebagai


sebuah pendekatan perusahaan untuk memahami dan mempengaruhi
perilaku konsumen melalui komunikasi yang intensif dalam rangka
meningkatkan akuisisi konsumen, mempertahankan konsumen, dan
loyalitas konsumen (Swift, 2001).
3. Definisi CRM jika dilihat dari segi bisnis dapat diartikan sebagai
sebuahstrategi bisnis untuk memahami, mengantisipasi dan mengelola
kebutuhan konsumen yang potensial dalam suatu organisasi pada saat
sekarang dan yang akan datang (Brown, 2000).

Dari ketiga definisi di atas dapat ditarik kesimpulan mengenai definisi CRM
yaitu sebuah pendekatan yang komprehensif yang mengintegrasikan setiap
bisnis proses yang berhubungan langsung dengan konsumen, yaitu penjualan,
pemasaran dan layanan konsumen melalui integrasi filosofi, teknologi, dan
juga proses (Tama, 2009). Dengan kata lain, CRM dipandang bukanlah
sebagai sebuah produk ataupun sebuah layanan, tetapi sebuah filosofi bisnis
yang bertujuan memaksimalkan nilai konsumen dalam jangka panjang
(customer lifetime value).

2.4.1

Teknologi CRM

Sebuah definisi standar mengenai komponen teknologi CRM diberikan oleh


META Group di dalam The Customer Relationship Management
Ecosystem. Kategorisasi ini bertujuan untuk lebih memahami bagaimana
suatu strategi CRM dan teknologinya mampu menyediakan seluruh arsitektur
secara menyeluruh yang terfokus pada layanan konsumen. Ada tiga tipe
utama dari teknologi CRM yaitu (Tama, 2009) :

1. Operational CRM, yang dikenal sebagai CRM front office. Operational


CRM merupakan area dimana terjadi hubungan dengan konsumen secara
langsung. Otomasi dari proses bisnis yang terintegrasi yang melibatkan

front office customer touch points, seperti penjualan, pemasaran, dan


layanan konsumen, termasuk ntegrasi. Dengan perkembangan teknologi
informasi dan komunikasi yang pesat, operational CRM kemudian juga
dapat dibedakan menjadi dua bagian yaitu e-CRM dan m-CRM. antara
front office dan back office, seperti manajemen pesanan, dan otomasi
pemasaran

2. Collaborative CRM, merupakan bentuk perluasan dari CRM tradisional.


Collaborative CRM berkaitan dengan manajemen hubungan antara
stakeholder eksternal, seperti supplier, distributor, dan reseller. Aplikasi
utama dari collaborative CRM adalah enterprise portal yang berbasis
pada infrastruktur ekstranet dan perangkat lunak manajemen hubungan
mitra (partner relationshiop management software) yang memberikan
akses kepada konsumen, reseller, dan mitra bisnis melalui internet.

Analytical CRM yang dikenal sebagai CRM Back office atau strategic
CRM. Analytical CRM biasanya berhubungan dengan penggunaan data
secara

efective,

efisien

dan

strategis

sehingga

memungkinkan

pengambilan keputusan yang tepat bagi pihak manajemen. Pengambilan


keputusan dilaksanakan setelah melalui proses analisis, pemodelan, dan
evaluasi terhadap data yang tersimpan didata base untuk menghasilkan
sebuah hubungan yang saling menguntungkan antara perusahaan dan
konsumennya . Contoh dari Analytical CRM adalah business intelegence
seperti data warehaouse, OLAP, dan data mining.

Hal yang terpenting dalam memahami perilaku konsumen tidak hanya


memahami siapa mereka (dalam hal ini customer profiling atau segmentation)
tetapi juga perilaku mereka dan pola-pola (pattern) yang mereka ikuti.
Pemahaman perilaku pelanggan harus ditetapkan sebagai suatu proses yang
dinamis dan berkelanjutan (Xu dan Walton, 2005).

2.4.2

Data Mining Dalam Kerangka Kerja CRM

Menurut Swift, dkk (2001), CRM memiliki empat dimensi, yaitu :


1. Identifikasi konsumen (customer identification).
2. Membangun daya tarik terhadap konsumen (customer attraction).
3. Mempertahankan konsumen yang ada (customer retention).
4. Pengembangkan konsumen (customer development).
Keempat dimensi dari CRM tersebut dapat dilihat sebagai siklus tertutup
dalam Customer Management System. Setiap dimensi memiliki tujuan umum
yang sama yaitu untuk membangun pemahaman yang lebih mendalam dari
konsumen dan meningkatkan nilai konsumen (customer value) dari
perusahaan. Dalam kaitannya dengan pencapaian tujuan tersebut, teknik data
mining dapat digunakan untuk menemukan karakteristik dan perilaku
konsumen yang tersembunyi dalam database yang berukuran besar. Untuk
menemukan pola karakteristik dan perilaku konsumen, dapat digunakan
metode pemodelan data dalam teknik data mining.
Beberapa metode pemodelan data yang dapat digunakan, yaitu :
1. Association
2. Classification
3. Clustering
4. Forecasting
5. Regression
6. Sequence discovery
7. Visualization

Kerangka kerja teknik data mining dalam keempat dimensi CRM dijelaskan
melalui Gambar 2.4.

Gambar 2.4 Kerangka Kerja Teknik Data Mining dalam CRM (Ngai dkk 2008)

2.5 Clustering

Clustering adalah salah satu teknik unsupervised machine learning, yang


tidak terdapat fase pembelajaran dalam prosesnya. Teknik ini bertujuan untuk
mengelompokkan suatu himpunan obyek menjadi kelas-kelas yang terdiri
dari obyek-obyek yang sama atau pengelompokkan berdasarkan kesamaan
karakteristik diantara obyek-obyek tersebut Kesamaan dan pembagian
didasarkan melalui kriteria jumlah kuadrat kesalahan yang minimal. Kriteria
ini sangat sensitif dengan keberadaan data outlier, oleh karena itu dikoreksi
dengan membagi suatu kelompok besar ke ukuran yang lebih kecil (Berkhin
2002)

2.5.1 Algoritma Klasifikasi K-Means

Algoritma K-Means merupakan metode clustering berbasis jarak yang


mempartisi data ke sejumlah kelompok dan bekerja pada atribut numerik.
Algoritma ini dimulai dengan pemilihan jumlah kelompok (K) secara acak
serta pengambilan sebagian populasi sejumlah K untuk dijadikan sebagai titik
pusat awal. Salah satu metode perhitungan jarak yang bisa digunakan adalah
Euclidean Distance. Perhitungan jarak menggunakan metode Euclidean
dinyatakan sebagai berikut :

(2.1)
Dimana
x : obyek ke-1
y : obyek ke-2
n : banyaknya atribut obyek ke-1 dan ke-2

Prosedur dasar clustering K-Means adalah sebagai berikut(Johnson &


Wicherin 2002):
1. Menentukan k sebagai jumlah cluster yang ingin dibentuk
2. Membangkitkan k centroids (titik pusat cluster) awal secara random
3. Menghitung jarak setiap data ke masing-masing centroids
4. Setiap data memilih centroid yang terdekat
5. Menentukan posisi centroids baru dengan cara menghitng nilai rata-rata
dari data-data yang berada pada centroids yang sama
6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama
tidak sama

2.5.2 Clustering Hirarkhi (Hierarchical clustering)

Clustering hierarchi membangun sebuah hirarki cluster atau dengan kata lain
sebuah pohon cluster yang juga dikenal sebagai dendogram. Setiap node
cluster mengandung cluster anak, cluster-cluster saudara yang membagi point
yang ditutupi oleh induk mereka. Metode-metode clustering hirarki
dikatagorikan kedalam agglomeratif (bawah atas) dan divisive (atas bawah)
(Jain & Murthy, 1999);, Kaufman & Rouseeuw 1990). Clustering
agglomeratif dimulai dengan cluster satu point (singleton) dan secara
berulang-ulang menggabungkan dua atau lebih cluster yang paling tepat.
Cluster divisive dimulai dengan satu cluster dari semua point data dan secara
berulang-ulang melindungi cluster yang paling tepat. Proses erbut berlanjut
hingga kriteria penghentian (seringkali, jumlah k yang diperlukan dari
cluster) dicapai. Kelebihan cluster hirarki meliputi :
(I)

Fleksibilitas yang tertanam mengenai level granaularitas

(II)

Kemudahan menangani bentuk-bentuk kesamaan atau jarak

(III)

Pada akhirnya, daya pakai pada tpe-tipe atribut apapun.

Kelemahan dari clustering hirarki berhubungan dengan :


(I)

Ketidakjelasan kriteria terminasi

(II)

Terhadap perbaikan perbaikan hasil clustering, sebagian besar


algoritma hirarki tidak mengunjungi kembali cluster-clusternya
yang telah dikonstruksi.

Untuk clustering hirarki, menghubungkan atau memisahkan subset dari pointpoint dan bukan point-point individual, jarak antara point-point individu
harus digenelarikan terhadap jarak antara subset.
Ukuran kedekatan yang diperoleh disebut metrik berhubungan. Tipe mertik
hubungan yang digunakan secara signifikan memperoleh algoritma hisrarki,
karena merefleksikan konsep tertentu dari kedekatan dan konektivitas. Metrik

hubungan antar cluster utama (Murtagh 1985, Olson 1995) termasuk


hubungan tunggal, hubungan rata-rata, dan hubungan sempurna.
Algoritma clustering hirarki populer untuk data katagorikal COBWEB
(Fisher, 1987) memiliki dua kualitas yang sangat penting, Pertama
menggunakan pembelajaran incrementasl. Daripada mengikuti pendekatan
diviseve

atau

aggglomerative,

secara

dinamis

membangun

sebuah

dendrogram melalui pengolahan satu point data pada suatu waktu. Kedua
COBWEB termasuk pada pembelajaran berdasarkan konseptualatau model,
Ini berarrti bahwa setiap cluster dianggap sebagai sebuah model yang dapat
dijelaskan secara intrinsik, dan bukan sebagai sebuah kumpulan point yang
ditentukan terhadapnya.
Dendogram COBWEB disebut pohon klasifikasi. Setiap node pohon C,
sebuah cluster berhubungan dengan probabilitas kondisional untuk pasanganpasangan nilai-nilai atribut, yakti :
Pr(Xi=vip \ C), I = 1; d.p=I\A1

(2,2)

2.5.3 Clustering Partisional (Partisional Clustering)

Dengan mengetahui objek-objek database n, sebuah algoritma clustering


partisional membentuk k bagian dari data, dimana setiap cluster
mengoptimalkan kriteria clustering, seperti minimasi jumlah jarak kuadrat
dari rata-rata dalam setiap cluster.
Salah satu isu dengan algortima-algoritma tersebut adalah kompleksitas
tinggi, karena menyebutkan semua pengelompokan yang memungkinkan dan
berusaha mencari optimum global. Bahkan untuk jumlah objek yang kecil,
jumlah partisi adalah besar, itulah sebabnya mengapa solusi-solusi umum
dimulai dengan sebuah partisi awal, biasanya acak, dan berlanjut dengan
penyempurnaannya.

2.6

Metode Klasifikasi Fuzzy RFM

Analisa RFM terdiri dari tiga dimensi, yaitu (Tsiptsis dan Chorianopoulos,
2009) :
1. Recency, yaitu jenis layanan yang diigunakan para pelanggan untuk
bertransaksi. Terdapat 8 jenis layanan yang ditawarkan kepada pelanggan.
2. Frequency, yaitu jumlah total transaksi atau jumlah rata-rata transaksi
dalam satu periode.
3. Monetary, yaitu jumlah rata-rata nilai pembelian konsumen dalam suatu
satuan waktu.

Metode sharp RFM mendeskripsikan atribut recency, frequency, dan


monetary dengan variabel linguistik (Zumstein, 2007). Sebagai contoh,
atribut recency dideskripsikan dengan 8 jenis layanan yang digunakan seperti
layanan suratpos (SB), surat kilat (SK), surat kilat khusus (SKH), surat
tercatat (ST), pos express (PE), ems (EMS), city curir (CC), paketpos (PK).
Atribut frequency dideskripsikan dengan bahasa natural sedikit, agak banyak,
dan banyak. Sedangkan atribut monetary dideskripsikan dengan rendah,
sedang, tinggi. Konteks dari masing-masing atribut didefinisikan sebagai
berikut :
1. Domain atribut recency didefinisikan dalam transaksi harian, dengan
memilih 8 jenis layanan. Pelanggan dapat menggunakan lebih dari satu
jenis layanan
2. Domain atribut frequency didefinisikan dalam range frequency sedikit <
1.000 transaksi / tahun, frequency agak banyak < 7.000,- transaksi /
tahun, frequency banyak > 7.000,- transaksi / tahun.
3. Domain atribut monetary didefinisikan dalam range rendah < 15.000.000,per tahun, range sedang < 20.000.000 per tahun, range tinggi >=
20.000.000,-

Untuk setiap kelas ditentukan nilai (score) yang bergantung dari besarnya
nilai frequency, dan monetary. Semakin tinggi nilai frequency, dan monetary
dari konsumen, semakin tinggi juga nilai (score) yang diperoleh.
Dengan klasifikasi menggunakan metode fuzzy RFM, nilai (score) dari
masing-masing konsumen dapat diperhitungkan dengan lebih akurat dan lebih
baik

2.7

Riset-Riset Terkait

Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti berkaitan
dengan model segmentasi pelanggan dengan data mining seperti yang akan
dijelaskan dibawah ini :
Penelitian yang dilakukan oleh Jansen (2007) untuk menerapkan
konsep data mining dalam proses segmentasi konsumen (customer
segmentation) dan mendefinisikan profil konsumen (customer profiling) serta
hubungan antara keduanya. Jansen menggunakan algoritma K-Means, KMedoid, Fuzzy C-Means, Gustafson Kessel dan Gath Geva Clustering untuk
melakukan proses segmentasi konsumen. Studi kasus dalam penelitian ini
adalah konsumen pengguna jasa telekomunikasi Vodafone. Segmentasi
konsumen didasarkan pada perilaku konsumen yang diukur berdasarkan
jumlah panggilan masuk dan panggilan keluar yang dilakukan oleh
konsumen. Customer profiling dibangun melalui informasi yang berasal
dari data warehouse, seperti umur, jenis kelamin, dan informasi daerah
tempat tinggal. Dengan menggunakan teknik data mining, yaitu Support
Vector Machine (SVM), segmentasi konsumen dapat diperkirakan melalui
profil konsumen. Dalam penelitian ini diperoleh hasil bahwa dengan
menggunakan SVM, dapat dibentuk empat segmen konsumen dari data profil
konsumen yang ada dengan tingkat keakuratan 80,3%. Sedangkan jika jumlah
segmen yang dibentuk berjumlah 6, maka tingkat keakuratan klasifikasinya
adalah 78,5%.

Cao, Zhu, dan Hou (2009) menggunakan metode FFCHC (Fuzzy


Fisher Criterion Based Hierarchical Clustering Algorithm) untuk melakukan
segmentasi konsumen. Metode FFHC memadukan algoritma FFC (Fuzzy
Fisher Criterion)

sebagai algoritma untuk melakukan clustering dan

clustering validity function

untuk mencari jumlah cluster yang paling

optimal. Metode ini diterapkan pada

dataset konsumen pada suatu

perusahaan pasar modal.


Penelitian tentang perbandingan algoritma Fuzzy C-Means dan Fuzzy
Subtractive Clustering juga pernah dilakukan sebelumnya. Collazo-Cuevas
(2010) melakukan perbandingan terhadap dua metode clustering yaitu Fuzzy
C-Means dan Fuzzy Substracttive Clustering. Kedua metode ini diterapkan
untuk melakukan clustering terhadap data polusi udara di Liverpool. Dalam
penelitian ini dibangun algoritma identifikasi model fuzzy sebagai dasar dari
motode estimasi. Hasil dari proses clustering adalah pemodelan hubungan
antara suhu udara, kelembaman udara, dan kosentrasi PM 10 di Liperpool
Inggris.
Hammouda dan Karaay (2000) dalam penelitiannya melakukan
perbandingan terhadap empat metode clustering yaitu F-Means, Fuzzy CMeans, Mountain, dan Fuzzy Substractive clustering. Keempat metode
clustering ini diterapkan untuk melakukan proses clustering terhadap data
medis. Selanjutnya, hasil dari proses data clustering tersebut digunakan untuk
membantu proses diagnosa terhadap penyakit hati, perbandingan terhadap
keempat metode clustering dilakukan menggunakan parameter keakuratan
hasil clustering, waktu yang dibutuhkan untuk melakukan proses clustering.
Root mean square error, dan kemiringan garis regresi (regression line slope).
Dari hasil perbandingan diperoleh hasil bahwa Mountain Clustering kurang
baik untuk digunakan pada data dengan jumlah dimensi besar.
Pendekatan algoritma yang lebih baik adalah menggunakan Fuzzy
Substractive clustering karena membutuhkan waktu pemrosesan yang lebih
cepat dibandingkan Mountain Clustering untuk memproses data dengan 13
dimensi. Algoritma K-Means dan Fuzzy C-Means kinerja yang lebih baik

dibandingkan Mountain Clustering dan Fuzzy Substractive Clustering ,


namun membutuhkan informasi tentang jumlah cluster yang harus dibentuk.

Penelitian tentang metode fuzzy RFM dilakukan oleh Zumstein (2007)


dalam thesisnya, Zumstein meneliti tentang klasifikasi fuzzy sebagai metode
analisa dan manajemen data multidimensi. Meotode Klasifikasi fuzzy sesuai
untuk digunakan dalam proses CRM dan membangun hubungan dengan
konsumen yang menguntungkan. Metode fuzzy dipadukan dengan metode
klasifikasi seperti metode analisa SWOT, analisa portofolio, analisa ABC,
serta metode penilaian (scoring method) untuk memperoleh hasil segmentasi
konsumen yang lebih baik. Dalam penelitian ini, metode fuzzy yang juga
dipadukan dengan metode RFM, yaitu metode untuk menentukan segmensegmen konsumen berdasarkan recency, frequency dan monetary. Metode
fuzzy FRM juga dibandingkan terhadap metode fuzzy RFM memberikan hasil
segmentasi konsumen yang lebih baik, sehingga dapat membantu perusahaan
untuk memahami perilaku konsumen dengan lebih baik.

Berikut ini adalah daftar penelitian mengenai data mining yang dilakukan
sebelumnya dilakukan disajikan dalam table 2.1

Tabel 2.1
Penelitian Yang Telah Dilakukan
No.
1.

2.

Peneltian
Jansen (2007)

Metode
K-Means,
KMedoid, Fuzzy cMeans, Gustafson,
Keseel dan Gath
Geva Clustering
Cao, Zhu dan FFCHC(Fuzzy
Hou (2009)
Fisher
Criterion
Based Hierarchical
Clustering
Algorithm)

Deskripsi
Mencari segmentasi dan
profil
konsumen
pada
perusahaan Telekomunikasi
Vodafone
Mencari
segmentasi
konsumen
pada
suatu
perisahaan pasar modal

Tabel 2.1
Penelitian Yang Telah Dilakukan
No.
3.

4.

5.

2.8

Peneltian
CaollazoCuevas
dkk(2010)

Metode
Fuzzy C-Means dan
Fuzzy Substractive
Clustering

Deskripsi
Melakukan
perbandingan
terhadap Fuzzy C-MENAS
DAN Fuzzy Substractive
Clustering untuk data polusi
udara
Hammouda dan K-Means, Fuzzy C- Melakukan
perbandingan
Karaay (2000)
Means,
Mountain keempat algoritma clustering
Clustering,
dengan menggunakan data
Substractive
medis untuk mendiagnosa
Clustering
penyakit hati
Zumstein
Fuzzy Classification Melakukan
studi
fuzzy RFM
perbandinan
metode
klasifikasi klasik dengan
metode kleasifikasi yang
dipadukan dengan metode
fuzzy

Persamaan dengan Riset-Riset lain

Yohana Nugraheni (2011) dalam penelitiannya menjelaskan data mining


dengan metode fuzzy untuk customer relationship management (CRM) pada
perusahaan Retail.

Cen (2007) menggunakan teknik data mining untuk menemukan pola dan
trend dari data konsumen dalam kaitannya dengan konsep CRM. Proses
clustering dilakukan terhadap data konsumen C-Company, yaitu perusahaan
yang bergerak dibidang industry elektronik.

2.9 Perbedaan dengan Riset-Rise lain

Dari beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa


titik perbedaan dengan riset yang akan dilakukan ini :
Analisa pemodelan segmentasi pelanggan dengan data mining berbasis
customer relationship management (CRM) risetnya dilakukan di kantor pos
Medan. Riset yang dilakukan penulis untuk membuat model berdasarkan
Recency, Frequency, Monetary.
Pada penelitian ini hasil akhir yang diharapkan dengan model
segmentasi pelanggan dengan data mining berbasis Customer Relationship
Management dapat diketahui pelanggan pelanggan yang potensial,

2.10

Kontribusi Riset

Penelitian ini memberikan kontribusi pada pemahaman kita tentang hubungan


Recency, Frequency, Monetary dalam menentukan pelanggan terbaik dan
potensial berdasarkan clustering yang telah ditentukan.
Pembuat keputusan bisa menggunakan model segmentasi pelanggan
dengan data mining untuk meningkatkan kualitas pengambilan keputusan.

BAB 3

METODE PENELITIAN

3.1 Pendahuluan
Tujuan dari tesis ini adalah untuk membuat model aturan dalam memprediksi
pelanggan potensial, kebutuhan pasar, dan perilaku konsumen menggunakan
algoritma Kernel K-Means yang dapat digunakan sebagai alat Bantu analitis
oleh manajemen dalam mengambil keputusan. Pada bagian ini kita mulai
dengan menggambarkan kasus data mining pada system pemilihan pelanggan
yang potensial dan prosedur bagaimana mengumpulkan data yang digunakan
pada penelitian ini.

3.2

Rancangan Penelitian

Rancangan penelitian ini dimulai dengan mengumpulkan data dari kantor pos
Medan. Data dikumpulkan dari database tahun 2011.
Variabel yang dikumpulkan adalah kode customer, nama, alamat, telp,
tglpks, lingkuppks, nomor pks, keterangan dan variable-variabel lain yang
berkaitan dengan pemilihan pelanggan yang berpotensi.
Data yang diperoleh untuk tahun 2011 dalam bentuk DBF, tahun 2012
dan tahun 2013 bentuk xls, untuk keseragaman bentuk xls dimodifikasi dan
ditransformasikan ke bentuk DBF. Selanjutnya dilakukan pengujian terhadap
data dengan menggunakan aplikasi data mining dengan metode K-Means
Clustering. Dari pengujian diperoleh cluster dari data yang telah diuji
selanjutnya dilakukan analisis cluster untuk menganalisis dan mendapatkan
model aturan.

3.3 Pra Pemrosesan Data (Preprocessing Data)

Pada tahap ini struktur data base (Pangkalan Data) akan dipersiapkan
sehingga mempermudah proses mining. Proses preprocessing ini mencakup
tiga hal utama yaitu:
a. Data Selection: Memilih data yang akan digunakan dalam proses data
mining. Dalam proses ini dilakukan juga pemilihan atribut-atribut yang
disesuaikan dengan proses data mining.
b. Data Preprocessing: Memastikan kualitas data yang telah dipilih pada
tahap data selection, pada tahap ini masalah yang harus dihadapi adalah
noisy data dan missing values. Proses pembersihan data (cleansing)
dilakukan dengan melakukan metode-metode query sederhana untuk
menemukan anomali-anomali data yang bisa saja masih terdapat pada
sistem.
c. Data Transformation: Mengelompokkan atribut-atribut atau field-yang
telah terpilih menjadi 1 tabel dengan cara melakukan denormalisasi dari
data base OLTP.

Berikut ini adalah hasil pemilihan atribut-atribut yang dibutuhkan untuk


proses Berikut segmentasi menggunakan metode K-Means Clustering, yaitu
atribut-atribut yang terkait dengan recency, frequency, dan monetary (Tabel
3.1).

Tabel 3.1
Data Parsial dari Database Kantor Pos Medan
Field

Keterangan

KodeCustomer

Kode customer

JenisLayanan

Recency, merupakan jenis layanan yang


digunakan oleh Customer.

FrekuensiTransaksi

Menandakan

frequency,

merupakan

jumlah

transaksi selama periode yang ditentukan


TotalTransaksi

Menandakan monetary, merupakan jumlah uang


selama periode yang ditentukan

Dalam proses data preparation dibangun suatu data warehouse untuk


mempermudah proses mining. Data yang akan dilibatkan dalam penelitian ini
adalah data yang berkaitan dengan transaksi penjualan. Skema bintang
penjualan yang dibentuk dalam penelitian ini ditunjukkan pada gambar 3.2.
Model yang digunakan dalam penelitian ini adalah model K-Means
clustering.Metode clustering yang digunakan adalah metode K-Means dan
Metode Klasisifikasi Fuzzy RFM (Recency Frequency, Monetary).. Kedua
metode ini memiliki karakteristik yang berbeda karena K-Means Clustering
merupakan metode clustering yang terawasi (supervised) sedangkan FS
termasuk metode clustering yang tidak terawasi (unsupervised).
Pada

K-Means

jumlah

cluster

ditentukan,

sedangkan

klasifikasi

menggunakan metode Fuzzy RFM nilai (score) dari masing-masing konsumen


dapat diperhitungkan dengan lebih akurat dan lebih baik.

Hasil proses data mining menggunakan metode K-Means dan Fuzzy RFM
akan dibandingkan untuk mengetahui unjuk kerja kedua metode ini. Hasil
dari proses clustering menggunakan kedua metode ini akan digunakan untuk
proses segmentasi konsumen. Model yang digunakan untuk proses
segmentasi konsumen adalah model Fuzzy RFM . Dalam model Fuzzy RFM
variabel recency, frequency, dan monetary, masing-masing dibagi menjadi 3
himpunan fuzzy :

1. Recency dibagi menjadi 8 himpunan K-Means, yaitu Surat Biasa, Surat


Kilat, Surat Kilat Khusus, Surat Tercatat, Pos Express, Ems, City Kurir,
Paketpos (Tabel 3.2).
2. Frequency dibagi menjadi 3 himpunan K-Means, yaitu Sedikit, Agak
Banyak, Banyak (Tabel 3.2).
3. Monetary dibagi menjadi 3 himpunan K-Means, yaitu Rendah, Sedang,
dan Tinggi (Tabel 3.2).

Domain himpunan Fuzzy RFM untuk variabel recency, frequency, dan


monetary ditunjukkan dalam Tabel 3.2 berikut ini.

Tabel 3.2 Domain nilai untuk masing-masing himpunan Fuzzy RFM.

Atribut

Recency

Frequency

Monetary

Variabel linguistik

Domain nilai

SURAT BIASA

SB

SURAT KILAT

SK

SURAT KILAT KHUSUS

SKH

SURAT TERCATAT

ST

POS EXPRESS

PE

EMS

EMS

CITY KURIR

CC

PAKETPOS

PK

SEDIKIT

< 1.000 transaksi

AGAK BANYAK

>= 1.000 transaksi

BANYAK

>= 7.000 transaksi

RENDAH

> Rp. 5.000.000,-

SEDANG

>= Rp. 300.000.000,-

TINGGI

>= Rp. 500.000.000,-

3.4 Deployment

Pada tahap ini dilakukan pembuatan aplikasi K-Means Clustering, untuk


menghasilkan laporan data mining hingga melakukan integrasi dengan sistem
informasi yang telah ada dilapangan. Pada penelitian ini proses deployment
adalah melakukan proses mining pada seluruh database, dan dilakukan proses
integrasi dengan sistem yang telah ada. Pada gambar 3.1 merupakan tampilan
aplikasi data mining

Gambar 3.1 Tampilan aplikasi K-Means Clustering

Gambar 3.1

merupakan tampilan aplikasi K-Means Clustering

yang

digunakan pada penelitian ini untuk menampilkan cluster terhadap data dan
memperlihatkan matrik yang tersebar pada kelompok-kelompok. Algoritma
Kernel

K-Means clustering menggunakan alat-alat kelompok yang telah

dirancang dan dipersiapkan pada aplikasi Data Mining.

3,5 Prosedur Penelitian


Presedur penelitiaan ini dilakukan seperti pada gambar 3.2 yaitu, data
diperoleh dari database (Pangkalan Data) Kantor Pos Medan. Data terdapat
dua model, untuk jenis database dari tahun 1994 sampai dengan tahun 2011
database menggunakan DBF, sedangkan untuk database dari tahun 2012 dan
tahun 2013 menggunakan excell (XLS). Digunakan tools WhiteTown Wizard
untuk melakukan transformasi dari excell ke DBF terhadap data tahun 2012
dan tahun 2013. Hasil proses transformasi tersebut selanjutnya dilakukan
pengolahan dengan aplikasi data mining yang berupa cluster dari data yang
dianalisis untuk mendapatkan pengetahuan berupa model aturan.

Pengumpulan data dari


Database

Data Modifikasi

Transformasi
data xls
Data Analisis

Knowledge
Gambar 3.2 Prosedur Penelitian

3.6

Diagram Aktivitas Penelitian

Berikut ini alur kerja yang akan dilakukan pada penelitian ini yang
digambarkan dalam diagram aktivitas pada gambar 3.3 berikut :

Identifikasi
Masalah

Mengumpulkan Data
dari Identifikasi
Masalah

Olah Data
menggunakan Kernel
K-Means Clustering

Membuat Analisa dan


Rule

Membuat Kesimpulan
dan Saran

Gambar 3.3 Gambar Aktivitas Kerja Penelitian

3.7 Tempat dan Waktu Penelitian


Tempat dan waktu penelitian dilakukan di Kantor Pos Medan dari bulan
April 2013

hingga Juli 2013. Sesuai dengan

rancangan tahapan

penelitian, penelitian di Kantor Pos Medan diawali dengan

studi

kelayakan (feasibility study) dan pemahaman terhadap prosedur yang


sudah ada (existing procedure).

3.8 Jadwal Penelitian


No
.
1.

Kegiatan

2.
3.

Pengumpulan
Data
Analisa Data

4.

Seminar

5.

Ujian

Kolokium

Apr 2013
1

Mei 2013
4

Juni 2013
4

Juli 2013
4

BAB 4
HASIL DAN PEMBAHASAN

4.1 Pendahuluan
Untuk menunjang proses analisis yang dilakukan, dibuatlah suatu aplikasi
untuk menampilkan data penjualan yang dilakukan tiap konsumen
berdasarkan recency, frequency, dan monetary. Aplikasi ini dibuat dengan
menggunakan Clipper 5.3, dan dilengkapi dengan desain hasil akhir dari
metode K-Means Clustering serta perhitungan nilai Sum Of Squared Error
(SSE), selain itu aplikasi ini juga menampilkan prosentase dari cluster terbaik
dan potensial serta prosentase dari jenis layanan yang paling banyak
digunakan dikalangan konsumen..

4.2

Hasil Transformasi Data

Data yang berasal dari format excel khususnya data tahun 2012 dan tahun
2013 akan ditransformasikan menjadi DBF. Hal ini dilakukan untuk
mendapatkan data pengujian yang akan digunakan sebagai data input pada
proses clustering menggunakan algoritma Kernel K-Means. Adapun tampilan
transformasi Aplikasi K-Means Clustering sebagaimana pada gambar 4.1 .

Gambar 4.1 Hasil transformasi data pada tampilan aplikasi

Tabel 4.1 Atribut yang belum dikatagorisasikan

No

Field Name

Type

Width

Institusi

Character

20

Biasa

Numeric

15

Kilat

Numeric

15

SKH

Numeric

15

Tercatat

Numeric

15

Posexpress

Numeric

15

Ems

Numeric

15

Citykurir

Numeric

15

Paketpos

Numeric

15

10

Bilangan

Numeric

11

Bsu

Numeric

15

Dec

Tabel 4.2 Atribut yang digunakan untuk segmentasi pelanggan

No

Field Name

Type

Width

Cluster

Character

12

Kode

Character

Monetary

Numeric

15

Frequency

Numeric

15

Recency

Numeric

15

Dec

Tabel 4.3 katagorisasi atribut


ATRIBUT

Recency

VARIABEL LINQUISTIK
SURAT BIASA
SURAT KILAT
SURAT KILAT KHUSUS
SURAT TERCATAT
POS EXPRESS
EMS
CITY CURIR
PAKETPOS

Frequency

SEDIKIT
AGAK BANYAK
BANYAK

Monetary

Rendah
Sedang
Tinggi

DOMAIN NILAI
SB
SK
SKH
ST
PE
EMS
CC
PK
<= 1.000,- Transaksi
> 1.000,- transaksi
> 7.000,- transaksi
Rp. > Rp. 5.000.000,Rp. > Rp. 300.000.000,Rp. > Rp. 500.000.000,-

4.3 Cluster Model

Cluster model yang diperoleh dari hasil pengujian terhadap data


menggunakan metode Kernel K-Means seperti yang terlihat pada tabel 4.4
cluster model berdasarkan monetary dan pada aplikasi data mining dapat
dilihat pada gambar 4.2 hasil segmentasi pelanggan.

Tabel 4.4 Cluster Model Berdasarkan Monetary


CLUSTER MODEL MONETARY DENGAN DATA DARI TAHUN 2011 S/D BULAN MARET 2013
NO

KATAGORI

CLUSTER

TAHUN
2013 (Rp.)

2012 (Rp.)

2011 (Rp.)

Prosen

TERBAIK

CL_1 & CL_ 2

453,019,022

1,997,017,450

1,561,402,620

69%

POTENSIAL

CL_3 & CL_4

214,224,750

370,979,834

642,276,629

21%

TIAP HARI

CL_5 & CL_6

91,551,460

180,325,000

109,310,117

7%

KADANG

CL_7

43,153,028

47,122,000

48,013,725

2%

KRG AKTIF

CL_8 & CL_9

5,217,553

6,500,000

7,965,325

0%

807,165,813

2,601,944,284

2,368,968,416

TOTAL

Dari tabel 4.4 dapat dilihat cluster model yang dihasilkan terdiri dari
pelanggan katagori terbaik, potensial, tiap hari, kadang-kadang, kurang aktif.
Berdasarkan jumlah besar uang transaksi (Monetary) untuk pertahun dari
bulan januari 2011 sampai dengan bulan maret 2013.
Performa sebuah cluster dapat dilihat dari tampilan aplikasi K-Means
Clustering dalam format tabel sebagai berikut :

Gambar 4.2 Hasil Segmentasi Pelanggan

Dari gambar 4.2 dapat dilihat cluster model yang dihasilkan terdiri
dari cluster_1 dan cluster_2 katagori terbaik dengan kinerja transaksi
mencapai prosentase 69%, kelas pelanggan ini merupakan pelanggan yang
tertinggi frekuensi kirimannya dengan jumlah monetary yang besar per tahun.
Cluster_3 dan cluster_4 katagori pelanggan yang potensial dengan prosentase
21% dengan memiliki tingkat frequency dan monetary yang tinggi. Cluster_5
dan cluster_6 termasuk pelanggan yang melakukan transaksi harian namun
hanya memberikan kontribusi sebesar 7% dengan tingkat frequency dan
monetary per tahunnya yang sedang. Cluster_7 merupakan cluster tunggal
yang termasuk bertransaksi tidak rutin dengan katagori kadang-kadang
dengan prosentase sebesar 2%. Sedangkan cluster_8 dan cluster_9 pelanggan
yang kurang aktif dengan tingkat transaksi sebesar 0%.

Proses clustering dengan algoritma K-Means dilakukan juga untuk


menentukan jenis layanan (Recency) yang paling banyak digunakan
dikalangan para pelanggan, seperti

layanan city kurir menempati posisi

tertinggi dengan prosentase sebesar 41%, diikuti layanan pos express dengan
prosentase 23%, layanan surat biasa dengan prosentase 21%, surat kilat
khusus sebesar 10%, dan paketpos sebesar 4%.

Gambar 4.3 Persentase layanan

Cluster juga dapat dilihat dalam gambar 4.4 dibawah ini yang merupakan
hasil clustering dalam data view.

Gambar 4.4 Hasil Clustering Dalam Data View

Pada gambar 4.4 dapat dilihat hasil clustering yang dihasilkan dari
pengolahan data berupa cluster jenis-jenis layanan yang berupa attribut
rec_ket. Pada attribut rec_ket cluster jenis layanan dibedakan seperti CC =
City kurir, PE = Post Express, SB= surat biasa , ST = surat tercatat, SK=Surat
kilat, SKH = surat kilat khusus , PK= Paketpos, EMS = Electronic mail
service

4.4 Cluster Data berdasarkan Katagori Terbaik

Cluster data dengan katagori terbaik, pelanggan potensial, serta pelanggan


yang transaksinya tiaphari namun nilai nominalnya kecil dapat dilihat pada
gambar 4.5 dibawah ini. Berdasarkan hasil cluster tersebut dapat dilihat
bahwa cluster_1 dan cluster_2 merupakan pelanggan yang termasuk katagori
terbaik dengan tingkat transaksi berdasarkan monetary baru mencapai 69%,
sedangkan cluster_3 dan cluster_4 adalah pelanggan katagori potensial
sebesar 21%, cluster_5 dan cluster_6 katagori pelanggan tiap hari sebesar 7%,
cluster_7 pelanggan dengan katagori kadang-kadang sebesar 2%, sedangkan
cluster_8 dan cluster_9 pelanggan yang katagori kurang aktif sebesar 0%. Hal
ini tentunya dapat dijadikan masukan bagi pihak manajemen sebagai bahan
pertimbangan untuk mengambil langkah-langkah dalam upaya meningkatkan
kinerja penjualan sehingga kedepan dapat ditargetkan pelanggan terbaik
mampu mencapai 100%.

Gambar 4.5 Segmentasi pelanggan berdasarkan transaksi

4.5 Analisis Cluster

4.5.1

Anggota Cluster Berdasarkan katagori

Dalam tahap ini ditentukan nilai centroid menjadi 2 bagian, yaitu yang
mempunyai 3 centroid serta 2 centroid. Hal ini dilakukan untuk mengetahui
jumlah centroid mana yang paling baik, karena dalam perumusan k-means
nilai cluster yang paling terkecil akan menjadi nilai cluster yang paling baik.

4.5.1.1. Perhitungan centroid awal dengan 3 nilai centroid.


Gambar 4.6 menunjukkan tampilan dari aplikasi clustering dengan
menggunakan algoritma k-means clustering sebagai berikut .

Gambar 4.6 Nilai centroid awal dengan 3 centroid

Berdasarkan gambar 4.6 diatas nilai awal centroid dapat dilihat pada

tabel 4.5 dibawah ini :


Tabel 4.5 Nilai awal iterasi untuk 3 dan 2 centroid
CENTROID
NO
1
2
3

THN

3 CENTROID
2 CENTROID
C0
C1
C2
C0
C1
2013 333,621,886 1,183,998,642 1,101,839,625 252,931,744 849,440,761
2012 67,352,244
113,723,500
78,661,921 46,640,680 77,982,333
2011 229,118,288 1,001,758,725
784,683,973 183,262,678 727,947,483

4.5.1.2. Perhitungan jarak iterasi pertama 3 centroid cluster nilai tahun 2013

Berdasarkan cara kerja algoritma K-Means setelah ditentukan nilai k lalu


menghitung nilai centroid dan jarak antar data pada setiap masing-masing
centroid. Dalam tahap ini dilakukan perhitungan kembali nilai centroid pada
masing-masing cluster yang dinamakan iterasi, hingga nilai centroid tidak
berubah dari sebelumnya. Nilai centroid yang baru C0=88,536,698,
C1=453,019,022, C2=0

Gambar 4.7 Perhitungan jarak iterasi pertama 3 centroid cluster tahun 2013

4.5.1.3. Perhitungan jarak iterasi pertama 3 centroid cluster nilai tahun 2012

Pada gambar 4.8 merupakan hasil perhitungan jarak iterasi pertama untuk 3
centroid dengan nilai cluster tahun 2012. Pada tahap ini ditentukan juga nilai
centroid yang baru yaitu untuk C0 = 151,231,709, C1= 1,997,017,450, dan
C2= 0.

Gambar 4.8 Perhitungan jarak iterasi pertama 3 centroid cluster tahun 2012

4.5.1.4. Perhitungan jarak iterasi pertama 3 centroid cluster nilai tahun 2011

Pada gambar 4.9 merupakan hasil perhitungan jarak iterasi pertama untuk 3
centroid dengan nilai cluster tahun 2011. Pada tahap ini ditentukan juga nilai
centroid yang baru yaitu untuk C0 = 201,891,449, C1= 1,561,402,620, dan
C2= 0.

Gambar 4.9 Perhitungan jarak iterasi pertama 3 centroid cluster tahun 2011

4.5.1.5. Perhitungan jarak iterasi kedua 3 centroid cluster nilai tahun 2013

Pada gambar 4.10 merupakan hasil perhitungan jarak iterasi kedua untuk 3
centroid dengan nilai cluster tahun 2013. Pada tahap ini ditentukan nilai
centroid yang baru untuk C0 = 88,536,698, C1= 453,019,022, dan C2= 0.

Gambar 4.10 Perhitungan jarak iterasi kedua 3 centroid cluster tahun 2013

4.5.1.6. Perhitungan jarak iterasi kedua 3 centroid cluster nilai tahun 2012

Pada gambar 4.11 merupakan hasil perhitungan jarak iterasi kedua untuk 3
centroid dengan nilai cluster tahun 2012. Pada tahap ini ditentukan nilai
centroid yang baru untuk C0 = 151,231,709, C1= 1,997,017,450, dan C2= 0.

Gambar 4.11 Perhitungan jarak iterasi kedua 3 centroid cluster tahun 2012

4.5.1.7. Perhitungan jarak iterasi kedua 3 centroid cluster nilai tahun 2011

Pada gambar 4.12 merupakan hasil perhitungan jarak iterasi kedua untuk 3
centroid dengan nilai cluster tahun 2011. Pada tahap ini ditentukan nilai
centroid yang baru untuk C0 = 201,891,449, C1= 1,561,402,620, dan C2= 0.

Gambar 4.12 Perhitungan jarak iterasi kedua 3 centroid cluster tahun 2011

4.5.1.8. Tabel hasil akhir perhitungan iterasi pertama dan iterasi kedua untuk
3 centroid

Pada gambar 4.13 merupakan hasil perhitungan hasil akhir dari iterasi
pertama dan ietrasi kedua untuk 3 centroid untuk masing masing cluster dari
cluster tahun 2011, cluster tahun 2012, dan cluster tahun 2013.

Gambar 4.13 Tabel Hasil Akhir Perhitungan

4.5.1.9. Perhitungan centroid awal dengan 2 nilai centroid.

Gambar 4.14 menunjukkan tampilan dari aplikasi K-Means Clustering


dengan menggunakan algoritma K-means Clustering , sebagai berikut .

Gambar 4.14 Perhitungan Centroid Awal Untuk 2 Nilai Centroid

4.5.1.10. Perhitungan jarak iterasi pertama 2 centroid cluster nilai tahun 2013

Pada gambar 4.15 merupakan hasil perhitungan jarak iterasi pertama untuk 2
centroid dengan nilai cluster tahun 2013. Pada tahap ini ditentukan nilai
centroid yang baru yaitu untuk C0 = 88,536,698, C1= 453,019,022.

Gambar 4.15 Perhitungan iterasi pertama cluster nilai tahun 2013

4.5.1.11. Perhitungan jarak iterasi pertama 2 centroid cluster nilai tahun 2012

Pada gambar 4.16 merupakan hasil perhitungan jarak iterasi pertama untuk 2
centroid dengan nilai cluster tahun 2012. Pada tahap ini ditentukan nilai
centroid yang baru yaitu untuk C0 = 151,231,709, C1= 1,997,017,450.

Gambar 4.16 Perhitungan iterasi pertama cluster nilai tahun 2012

4.5.1.12. Perhitungan jarak iterasi pertama 2 centroid cluster nilai tahun 2011

Pada gambar 4.17 merupakan hasil perhitungan jarak iterasi pertama untuk 2
centroid dengan nilai cluster tahun 2011. Pada tahap ini ditentukan nilai
centroid yang baru yaitu untuk C0 = 201,891,449, C1= 1,561,402,620.

Gambar 4.17 Perhitungan iterasi pertama cluster nilai tahun 2011

4.5.1.13. Perhitungan jarak iterasi kedua 2 centroid cluster nilai tahun 2013

Pada gambar 4.18 merupakan hasil perhitungan jarak iterasi pertama untuk 2
centroid dengan nilai cluster tahun 2013. Pada tahap ini ditentukan nilai
centroid yang baru yaitu untuk C0 = 88,536,698, C1= 453,019,022.

Gambar 4.18 Perhitungan iterasi kedua cluster nilai tahun 2013

4.5.1.14. Perhitungan jarak iterasi kedua 2 centroid cluster nilai tahun 2012

Pada gambar 4.19 merupakan hasil perhitungan jarak iterasi pertama untuk 2
centroid dengan nilai cluster tahun 2012. Pada tahap ini ditentukan nilai
centroid yang baru yaitu untuk C0 = 151,231,709, C1= 1,997,017,450.

Gambar 4.19 Perhitungan iterasi kedua cluster nilai tahun 2012

4.5.1.15. Perhitungan jarak iterasi kedua 2 centroid cluster nilai tahun 2011

Pada gambar 4.20 merupakan hasil perhitungan jarak iterasi pertama untuk 2
centroid dengan nilai cluster tahun 2011. Pada tahap ini ditentukan nilai
centroid yang baru yaitu untuk C0 = 201,891,449, C1= 1,561,402,620.

Gambar 4.20 Perhitungan iterasi kedua cluster nilai tahun 2011

4.5.1.16. Perhitungan hasil akhir 2 iterasi dengan 2 centroid

Pada gambar 4.21 merupakan hasil perhitungan hasil akhir dari iterasi
pertama dan iterasi kedua untuk 2 centroid untuk masing-masing cluster dari
cluster tahun 2011, cluster tahun 2012, cluster tahun 2013.

Gambar 4.21 Perhitungan hasil akhir 2 iterasi dengan 2 centroid

4.5.2

Interpretasi Cluster

Algoritma K-Means dalam proses clustering pada data tahun 2013,


tahun 2012, dan data tahun 2011 digunakan untuk pembentukan nilai
clustering dan karakteristik dari setiap cluster yang akan menemukan nilai
centroid / means (rata-rata) sehingga akan terbentuk jarak pada setiap data
yang akhirnya akan terbentuk nilai anggota pada setiap cluster.

Setelah terbentuk nilai anggota pada masing-masing cluster, maka


akan terlihat cluster nilai tahun 2013, tahun 2012, dan tahun 2011.

Tabel 4.6 Data transaksi pelanggan sebelum di Cluster


NO

CLUSTER

TAHUN
2013

2012

2011

TERBAIK (CLUSTER 1 & CLUSTER 2)

453,019,022

1,997,017,450

1,561,402,620

POTENSIAL (CLUSTER 3 & CLUSTER 4)

214,224,750

370,979,834

642,276,629

TIAP HARI (CLUSTER 5 & CLUSTER 6)

91,551,460

180,325,000

109,310,117

KADANG-KADANG (CLUSTER 7)

43,153,028

47,122,000

48,013,725

KURANG AKTIF (CLUSTER 8 & CLUSTER 9)

5,217,553

6,500,000

7,965,325

4.5.2.1 Nilai anggota pada cluster pertama (C0) setelah dicluster.


Tabel 4.7 Nilai anggota tahun 2013, tahun 2012, tahun 2011 pada (C0)
NO

CLUSTER

TAHUN
2013

2012

2011

TERBAIK (CLUSTER 1 & CLUSTER 2)

453,019,022

1,997,017,450

1,561,402,620

POTENSIAL (CLUSTER 3 & CLUSTER 4)

214,224,750

370,979,834

642,276,629

Anggota data pada cluster pertama (C0) mempunyai karakteristik


nilai monetary tahun 2013 sebesar Rp. 453.019.022,- dan Rp. 214,224,750.
Nilai tahun 2012 sebesar Rp. 1,997,017,450 dan Rp. 370,979,834. Nilai
tahun 2011 sebesar Rp. 1,561,402,620 dan Rp. 642,276,629.

4.5.2.2 Nilai anggota pada cluster pertama (C1) setelah dicluster.

Tabel 4.8 Nilai anggota tahun 2013, tahun 2012, tahun 2011 pada (C1)
NO

CLUSTER

TAHUN
2013

2012

2011

TIAP HARI (CLUSTER 5 & CLUSTER 6)

91,551,460

180,325,000

109,310,117

KADANG-KADANG (CLUSTER 7)

43,153,028

47,122,000

48,013,725

Anggota data pada cluster pertama (C1) mempunyai karakteristik


nilai monetary tahun 2013 sebesar Rp. 91,551,460,- dan Rp. 43,153,028.
Nilai tahun 2012 sebesar Rp. 180,325,000 dan Rp. 47,122,000. Nilai tahun
2011 sebesar Rp. 109,310,117 dan Rp. 48,013,725.

4.5.2.3 Nilai anggota pada cluster pertama (C2) setelah dicluster.

Tabel 4.9 Nilai anggota tahun 2013, tahun 2012, tahun 2011 pada (C2)
NO

CLUSTER

TERBAIK (CLUSTER 1 & CLUSTER 2)

KURANG AKTIF (CLUSTER 8 & CLUSTER 9)

TAHUN
2013

2012

2011

453,019,022

1,997,017,450

1,561,402,620

5,217,553

6,500,000

7,965,325

Anggota data pada cluster pertama (C2) mempunyai karakteristik


nilai monetary tahun 2013 sebesar Rp. 453,019,022,- dan Rp. 5,217,553.
Nilai tahun 2012 sebesar Rp. 1,997,017,450 dan Rp. 6,500,000. Nilai tahun
2011 sebesar Rp. 1,561,402,620 dan Rp. 7,965,325.

4.5.3

Analisis Cluster

4.5.3.1 Pengukuran Validitas Dengan Nilai SSE(Sum Of Squared Error)

Dari hasil ujicoba yang dilakukan dengan menggunakan data transaksi dari
tahun 2011 sampai dengan bulan maret 2013, ada beberapa hal yang dapat
dianilisis. Untuk menentukan jumlah cluster yang memiliki nilai fitness
terbaik digunakan pengukuran validitas dengan nilai SSE (sum of squarederror, SSE) . Bentuk grafis nilai SSE untuk algoritma K-Means Clustering
ditunjukkan pada gambar 4.22

Gambar 4.22 Perhitungan Nilai SSE Pada 2 Nilai Centroid

Fungsi kriteria: jumlah dari kesalahan kuadrat (sum of squared-error, SSE)


yang dapat mengukur kualitas Clustering yang dibuat :
SSE =

d ( p, m )
i =1

pCi

(4.1)

p Ci = tiap data poin pada cluster i, mi = centroid dari cluster i, d =


jarak/ distances/ variance terdekat pada masing-masing cluster i.
Nilai SSE tergantung pada jumlah cluster dan bagaimana data dikelompokkan
ke dalam cluster-cluster. Semakin kecil nilai SSE semakin bagus hasil
clustering yang dibuat

Pada gambar 4.22 diatas nilai SSE pada 2 Centroid yang paling kecil
dibandingkan dengan 3 Centroid, dengan demikian dapat disimpulkan bahwa
cluster dengan 2 Centroid yang paling baik dan dijadikan sebagai cluster yang
terbaik dalam penelitian ini.

4.5.3.2 Model Aturan (Model Rule)

Dari hasil cluster yang terbentuk dapat dibuat sebuah model aturan. Tabel
4.10 merupakan model aturan untuk menentukan pelanggan terbaik Kantor
Pos Medan.
Tabel 4.10 Model Aturan (Model Rule)

CLUSTER

Cluster 1

IF

Cluster 2

IF

Cluster 3

IF

Cluster 4

IF

Cluster 5

IF

Cluster 6

IF

Cluster 7

IF

Cluster 8

IF

Cluster 9

IF

KETERANGAN RULE
FREQUENCY /
MONETARY /
JLH TRANSAKSI BESAR UANG TRANSAKSI
PER THN
PER THN
Banyak =
Tinggi = besar uang transaksi
Transaksi > 7.000
> Rp. 500.000.000
Banyak =
Tinggi = besar uang transaksi
Transaksi > 7.000
> Rp. 400.000.000
Banyak =
Sedang = besar uang transaksi
Transaksi > 7.000
> Rp. 300.000.000
Agak Banyak =
Sedang = besar uang transaksi
transaksi > 1.000
> Rp. 200.000.000
Banyak =
Sedang = besar uang transaksi
transaksi > 7.000
> Rp. 100.000.000
Agak Banyak =
Sedang = besar uang transaksi
transaksi > 1.000
> Rp. 50.000.000
Sedikit =
Rendah = besar uang transaksi
transaksi < 1.000
> Rp. 40.000.000
Sedikit =
Rendah = besar uang transaksi
Transaksi < 1.000
<= Rp. 40.000.000
Sedikit =
Rendah = besar uang transaksi
transaksi < 1.000
> Rp. 5.000.000

PREDIKAT

Terbaik A
Terbaik B
Potensial A
Potensial B
Tiap Hari A
Tiap Hari B
Kadangkadang
Kurang Aktif A
KurangAktif B

Dari tabel 4.10 tersebut dapat dijelaskan bahwa jika Jumlah Transaksi
Per Tahun = Banyak (lebih dari 7.000,-) dan Besar Uang Transaksi Per
Tahun = Tinggi (lebih dari Rp. 500.000.000,-) maka diperoleh Predikat =
Terbaik - A. Jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-)
dan Besar Uang Transaksi Per Tahun = Tinggi ( lebih dari Rp. 400.000.000
Rp. 500.000.000,-) maka diperoleh Predikat = Terbaik - B.

Jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-) dan Besar
Uang Transaksi Per Tahun = Sedang (lebih dari Rp. 300.000.000
Rp.400.000.000) maka diperoleh Predikat =

Potensial - A. Jika Jumlah

Transaksi Per Tahun = Agak Banyak (lebih dari 1.000,-) dan Besar Uang
Transaksi Per Tahun =

Sedang (lebih dari Rp. 200.000.000 Rp.

300.000.000) maka diperoleh Predikat = Potensial - B.

Jika Jumlah Transaksi Per Tahun = Banyak (lebih dari 7.000,-) dan Besar
Uang Transaksi Per Tahun = Sedang (lebih dari Rp. 100.000.000 Rp.
200.000.000) maka diperoleh Predikat = Tiap Hari-A. Jika Jumlah Transaksi
Per Tahun = Agak Banyak (lebih dari 1.000,-) dan Besar Uang Transaksi Per
Tahun = Sedang (lebih dari Rp. 50.000.000 Rp. 100.000.000) maka
diperoleh Predikat = Tiap Hari - B.

Jika Jumlah Transaksi Per Tahun = Sedikit (kurang dari 1.000,-) dan Besar
Uang Transaksi Per Tahun = Rendah

(lebih dari Rp. 40.000.000 - Rp.

50.000.000) maka diperoleh Predikat = Kadang-kadang.

Jika Jumlah Transaksi Per Tahun = Sedikit (kurang dari 1.000,-) dan Besar
Uang Transaksi Per Tahun = Rendah (kurang atau sama dengan dari Rp.
40.000.000) maka diperoleh Predikat =

Kurang Aktif - A. Jika Jumlah

Transaksi Per Tahun = Sedikit (kurang

dari 1.000,-)

dan Besar Uang

Transaksi Per Tahun = Rendah (lebih dari Rp. 5.000.000,-) maka diperoleh
Predikat = Kurang Aktif - B.

BAB 5
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Dari penelitian yang telah dilakukan, maka dapat dihasilkan kesimpulan
sebagai berikut :
1. Diperoleh suatu model aturan yang dapat digunakan untuk menilai
pelanggan terbaik dan potensial sehingga dapat memberi manfaat bagi
pihak manajemen dalam pengambilan keputusan.
2. Dalam cluster ini dilakukan perbandingan dengan menggunakan 2 dan 3
nilai centroid, hasilnya 2 nilai centroid lebih bagus jika dibandingkan
dengan 3 nilai centroid, yaitu hasil nilai SSE (Sum Of Squared-Error)
untuk 2 nilai centroid sebesar 3,425,922,878 lebih kecil dari pada 3 nilai
centroid dengan nilai SSE sebesar 5,035,230,050.
3. Pada cluster ini diperoleh pelanggan yang memiliki katagori Terbaik-A
apabila jumlah transaksi selama setahun banyak ( > 7.000,-) dan besar
uang transaksi selama setahun tinggi ( > Rp. 500.000.000,-).
4. Proses clustering juga menghasilkan jenis layanan yang terbanyak
digunakan dikalangan para pelangggan, seperti layanan city kurir dengan
prosentase tertinggi sebesar 41%, Pos Express sebesar 23%, Surat biasa
sebesar 21%, Surat kilat khusus 10%, Paketpos 4%.

5.2 Saran
Untuk penelitian lebih lanjut dari tesis ini dapat dkembangkan dengan
metode lain seperti metode SSVM (Smooth Support Vector Machine)
sehingga dapat dibandingkan kinerja dari masing-masing metode untuk
menghasilkan segmentasi pelanggan yang terbaik.
Pengukuran menggunakan Nilai SSE (Sum Of Squared-Error) sangat
tergantung pada jumlah cluster dan bagaimana data dikelompokkan ke dalam
cluster-cluster. Semakin kecil nilai SSE semakin bagus hasil clustering yang
diperoleh..

DAFTAR PUSTAKA

Berkin. 2002. A Survey Of Clustering Data Mining Techniques.Technical


Report, Accrue Software
Brown, S.A. 2000. Customer Relationship Management : A Strategic
Imperative in the World of e-Business, Jhon Wiley and Sons Ltd,
Canada.
Cao,

Zhu, dan Hou. 2009. Fuzzy Fisher Criterion Based Semi-Fuzzy


clustering algorithm, Journal Of Electronics and Information
Technology, Vol 30, No. 9, 2008, PP.2162-2165 (In Chinese).

Cen. 2007. Customer Segmentation Based On Survival Character , Journal


Of Intelligent Manufacturing, Vol 18, No. 8, 2007, PP.513-517.
Collazo-Cuevas, dkk. 2010. Comparison Between Fuzzy C-Means Clustering
And Fuzzy Clustering Substractive In Urban Air Pollution.
International Journal of Electronics, Communications And
Computer (CONIELE COMP).
Chapman, dkk. 2000. CRISP-DM 1.0 : Step-by-Step Data Mining Guide.
Tersedia
di
http://www.community.udayton.edu/provost/it/training/documents
/SPSS_CRI SPWPlr.pdf. [diunduh : 08 April 2013].
Fisher Douglas H. 1987, Knowledge Acquisition Via Incrementasl
Conceptual Clustering, jornal Machine Learning Volume 2 Issue
2, September 1987
Gaffar. 2007, Customer Relationship Management and Marketing Public
Relations, Bandung : Alfabeta
Haskett, 2000. An Introduction to Data Mining, Part 1: Understanding The
Critical Data Relationship In The Corporate Data Warehouse,
Enterprise System Journal, V.15:32-34
Hammouda, K., Karaay, F. 2000. A Comparative Study of Data
Clustering Techniques. University of Waterloo, Ontario, Canada.

Jain, A.K., Murthy,M.N. 1999. Data Clustering : A Review. ACM


Computing Surveys, Vol. 31, No.3.
Jansen, S.M.H. 2007. Customer Segmentation and Customer Profiling for a
Mobile Telecommunications Company Based on Usage Behavior
: A Vodafone Case Study (thesis). Maastricht : University of
Maastricht.

Johnson, R.A. and D.W. Wicherin. 2002. Applied Multivariate Statistical


Analysis, New Jersey : Prentice Hall.
Kimball, 2004. The Data Warehouse ETL Toolkit. Wiley Publishing Inc.
Klawonn, F. 2004.
Kotler,

2006. Customer Relationship Management, Tersedia di :


http://gsbejournal.au.edu/2v/jornal/csm.htm. [diunduh : 22 April
2013].

Kaufman L., and P.J. Rousseeuw, 1990, Findings Groups in Data : An


Introduction to Cluster Analysis. New York: Jhon Wiley & Sons.
Murtagh F, 1985, Multidimensional Clustering Algorithhms, Compstat
Lectures.
Mierswa, dkk. 2006. YALE: Rapid Prototyping for Complex Data Mining
Tasks, in Proceedings of the 12th ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining (KDD-06).

Ngai, dkk. 2008. Application of Data Mining Techniques in Customer


Relationship Management : A Literature Review and
Classification. Expert Systems with Applications 36 (2009) 2592
2602.
Prabhu, S., Venatesan, N. 2007. Data Mining and Warehousing. New Age
International (P) Limited, Publishers.
Santoso, 2007. Data Mining Teknik Pemanfaatan Data Untuk Keperluan
Bisnis. Yogyakarta : Graha Ilmu
Swift, dkk. 2001. Accelerating Customer Relationships Using CRM and
Relationship Technologies, Prentice Hall Inc.
Tama, B.A. 2009. Implementasi Teknik Data Mining di dalam Konsep
Customer Relationship Management (CRM). Konferensi Nasional

Sistem dan Informatika 2009, Bali, November 14, 2009.


KNS&I09-011.
Tan, dkk, 2006. Introduction to Data Mining. Pearson Education, Inc.
Todman, C. 2001. Designing a Data Warehouse Supporting Customer
Relationship Management, Hewlett Packard.
Tsiptsis, K, Chorianopoulos, A. 2009. Data Mining Techniques in CRM. A
John Wiley and Sons, Ltd., Publication. United Kingdom.
Xu, M., Walton, J. 2005. Gaining Customer Knowledge Through Analytical
CRM, Industrial Management & Data System, Vol.105 No.7. pp
955-977.
Yohana Nugraheni, 2011, Data Mining Dengan Metode Fuzzy Untuk
Customer Relationship Management (CRM) Pada Perusahaan
Retail (thesis).
Zumstein, D. 2007. Customer Performance Measurement : Analysis of the
Benefit of a Fuzzy Classification Approach in Customer
Relationship Management (thesis). Switzerland : University of
Fribourg.