Klasterisasi

Penerapan Data Mining Pada Implementasi E-Commerce
Dalam Hal Klasterisasi Pelanggan
Clustering adalah metode penganalisaan data, yang sering dimasukkan sebagai salah satu
metode Data Mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik
yang sama ke suatu ‘wilayah’ yang sama dan data dengan karakteristik yang berbeda ke
‘wilayah’ yang lain.
Ada beberapa pendekatan yang digunakan dalam mengembangkan metode clustering. Dua
pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan
hirarki. Clustering dengan pendekatan partisi atau sering disebut dengan partition-based
clustering mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster-
cluster yang ada. Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical
clustering mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data
yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang
berjauhan.
Clustering Dengan Pendekatan Partisi
Partitional clusteringyaitu data dikelompokkan ke dalam sejumlah cluster tanpa adanya

struktur hirarki antara satu dengan yang lainnya. Pada metode partitional
clusteringsetiap cluster memiliki titik pusat cluster (centroid) dan secara umum metode ini
memiliki fungsi tujuan yaitu meminimumkan jarak (dissimilarity) dari seluruh data ke
pusat cluster masing-masing. Contoh metode partitional clustering: K-Means, Fuzzy K-means
dan Mixture Modelling.
K-Means
Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini
adalah metode k-means. K-means merupakan salah satu metode data clustering non hirarki yang
berusaha mempartisi data ke dalam cluster / kelompok sehingga data yang memiliki karakteristik
sama dikelompokkan dalam satu cluster yang sama dan data yang memiliki karakteristik berbeda
dikelompokkan dalam cluster yang lain. Adapun tujuan dari data clustering adalah untuk
meminimalisasi objective function yang diset dalam proses clustering, yang pada umumnya
berusaha meminimalisasikan variasi di dalam suatu cluster dan memaksimalkan variasi antar
cluster. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur
sebagai berikut:
 Tentukan jumlah cluster
 Alokasikan data secara random ke cluster yang ada
 Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya
 Alokasikan kembali semua data ke cluster terdekat
 Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah
di bawah threshold
Fuzzy C – Means (FCM)
Fuzzy C-Means (FCM) adalah suatu teknik pengelompokan data yang keberadaan tiap-tiap
data dalam suatu kelompok ditentukan oleh nilai atau derajat keanggotaan tertentu dan teknik ini
pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981. Fuzzy C-Means menerapkan
pengelompokan fuzzy, dimana setiap data dapat menjadi anggota dari beberapa cluster dengan
derajat keanggotaan yang berbeda-beda pada setiap cluster. Fuzzy C-Means merupakan
algoritma iteratif, yang menerapkan iterasi pada proses clustering data. Tujuan dari Fuzzy C-
Means adalah untuk mendapatkan pusat cluster yang nantinya akan digunakan untuk mengetahui
data yang masuk ke dalam sebuah cluster.
Dalam teori fuzzy, keanggotaan sebuah data tidak diberikan nilai secara tegas dengan nilai
1(menjadi anggota) dan nilai 0 (tidak menjadi anggota), melaikan dengan suatu nilai derajat
keanggotaannya yang jangkauan nilainya 0 sampai 1. Nilai keanggotaan suatu data dalam sebuah
himpunan menjadi 0 ketika sama sekali tidak menjadi anggota dan menjadi 1 ketika menjadi
anggota secara penuh dalam suatu himpunan.Umumnya nilai keanggotaannya antara 0 sampai 1.
semakin tinggi nilai keanggotaanya semakin tinggi derajat keanggotaanya dan semakin kecil
maka semakin rendah derajat keanggotaanya. Kaitannya dengan K-means sebenarnya FCM
merupakan versi fuzzy dan k-meansdengan beberapa modifikasi yang membedakan dengen K-
Means.
Konsep dari Fuzzy C-Means pertama kali adalah menentukan pusat cluster, yang akan
menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih
belum akurat. Tiap-tiap titik data memiliki derajat keanggotaan untuk tiap-tiap cluster. Dengan
cara memperbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik data secara berulang, maka
akan dapat dilihat bahwa pusat cluster akan bergerak menuju lokasi yang tepat. Perulangan ini
didasarkan pada minimasi fungsi obyektif yang menggambarkan jarak dari titik data yang
diberikan kepusat cluster yang terbobot oleh derajat keanggotaan titik data tersebut. Output dari
Fuzzy C-Means merupakan deretan usat cluster dan beberapa derajat keanggotaan untuk tiap-tiap
titik data. Informasi ini dapat digunakan untuk membangun suatu fuzzy inference system.
Kelebihan dari metode fuzzy C-means adalah sederhana, mudah diimplementasikan, memiliki
kemampuan untuk mengelompokkan data yang besar, dan Running timenya linear O( linear
O(NCT).
Mixture Modelling (Mixture Modeling)
Mixture modelling (mixture modeling) merupakan metode pengelompokan data yang mirip
dengan k-means dengan kelebihan penggunaan distribusi statistik dalam mendefinisikan setiap
cluster yang ditemukan. Dibandingkan dengan k-means yang hanya menggunakan cluster center,
penggunaan distribusi statistik ini mengijinkan kita untuk:
 Memodel data yang kita miliki dengan setting karakteristik yang berbeda-beda
 Jumlah cluster yang sesuai dengan keadaan data bisa ditemukan seiring dengan proses
pemodelan karakteristik dari masing-masing cluster
 Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya
Distribusi statistik yang digunakan bisa bermacam-macam mulai dari yang digunakan untuk
data categorical sampai yang continuous, termasuk di antaranya distribusi binomial, multinomial,
normal dan lain-lain. Beberapa distribusi yang bersifat tidak normal seperti distribusi Poisson,
von-Mises, Gamma dan Student t, juga diterapkan untuk bisa mengakomodasi berbagai keadaan
data yang ada di lapangan. Beberapa pendekatan multivariate juga banyak diterapkan untuk
memperhitungkan tingkat keterkaitan antara variabel data yang satu dengan yang lainnya.
Clustering dengan Pendekatan Hirarki
Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki
yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering
diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering.
Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster,
dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya
yaitu dari satu cluster menjadi N cluster.
Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara

mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete
Linkage, Average Linkage, Average Group Linkage dan lain-lainnya. Seperti juga halnya
dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk
menghitung tingkat kemiripan antar data.
Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical

clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar
data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti
dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih
lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa.
Contoh Implementasi Klasterisasi :
Biobses bookstore adalah toko buku komputer yang telah menerapkan sistem e-
commerce dalam kegiatan transaksi jual belinya. Pada sistem ini juga diterapkan sistem
pemberian diskon untuk setiap transaksi pelanggan mereka. Sistem e-commerce yang ada saat ini
mengalami kesulitan pada proses pemberian diskon khususnya diskon tambahan untuk
pelanggan, hal ini disebabkan oleh tidak adanya pengelompokan pelanggan berdasarkan jumlah
transaksi yang mereka lakukan setiap bulannya. Metode clustering dalam data mining merupakan
solusi yang tepat untuk mengatasi permasalahan pengelompokkan data pelanggan. Dengan
menerapkan algoritma k-means pembentukan kelompok pelanggan dimulai dengan menentukan
jumlah cluster yang akan di bentuk, menentukan nilai centroid masing-masing cluster,
menghitung jarak antar data, dan mengelompokkan dengan memperhitungkan jarak minimum
objek. Melalui aplikasi data mining dengan metode clustering proses pengelompokan data
pelanggan pada sistem e-commerce Biobses bookstore menjadi lebih mudah. Selain itu,
permasalahan pada pemberian diskon tambahan dapat diatasi dan menjadi lebih mudah dengan
sistem diskon yang bisa di customize setiap bulannya oleh perusahaan.

Klasterisasi

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Klasterisasi

Diunggah oleh

Hak Cipta:

Format Tersedia

Penerapan Data Mining Pada Implementasi E-Commerce

Dalam Hal Klasterisasi Pelanggan

Clustering Dengan Pendekatan Partisi

Partitional clusteringyaitu data dikelompokkan ke dalam sejumlah cluster tanpa adanya

 Tentukan jumlah cluster

 Alokasikan data secara random ke cluster yang ada

 Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya

 Alokasikan kembali semua data ke cluster terdekat

Fuzzy C – Means (FCM)

Mixture Modelling (Mixture Modeling)

 Hasil pemodelan clustering yang dilaksanakan bisa diuji tingkat keakuratannya

Clustering dengan Pendekatan Hirarki

Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara

Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical

Anda mungkin juga menyukai