SLR - CUSTOMER SEGMENTATION WITH MACHINE - IDN - 1x

Machine Translated by Google
Jurnal Ilmu Sosial dan Perilaku Eropa

EJSBS Jilid 31, Edisi 2 (eISSN: 2301-2218)
SEGMENTASI PELANGGAN DENGAN MESIN

BELAJAR UNTUK INDUSTRI RITEL ONLINE
Banu Turkmena *
Universitas Pangan dan Pertanian aKonya, 42080 Meram/ Konya, Turki
Abstrak
Dalam penelitian ini disajikan analisis komparatif berbagai teknik pada metode segmentasi pelanggan
berdasarkan data ritel online. Beberapa model pengelompokan pembelajaran mesin (ML) tanpa pengawasan
seperti model pengelompokan K-means, model pengelompokan hierarki, model Pengelompokan Spasial
Aplikasi dengan Kebisingan (DBSCAN) berbasis Kepadatan, dan model tradisional berdasarkan
pengelompokan terkini, frekuensi, dan moneter (RFM) dievaluasi berdasarkan wawasan yang ditawarkan
setiap model. Model tradisional disertakan dalam analisis karena model pengelompokan bukanlah model
optimasi dan kebaikan model tanpa pengawasan hanya dapat dievaluasi dengan pendekatan bisnis praktis.
Hasilnya dibagikan, dan setiap model dinilai dari segi kegunaannya untuk strategi pemasaran dan
komunikasi. Pada akhirnya, kekuatan dan kelemahan masing-masing model dibahas, dan metodologi
diusulkan untuk memilih metode pengelompokan terbaik ketika menghadapi masalah segmentasi
pelanggan. Disajikan juga tinjauan literatur secara detail yang mencakup perkembangan di bidang
kecerdasan buatan, model clustering di ML dan contoh penerapan segmentasi pelanggan di berbagai industri.
Kata Kunci: Segmentasi pelanggan, pembelajaran mesin, k-means clustering, hierarchical clustering, DBSCAN clustering
© 2022 Diterbitkan oleh Penerbit Eropa. www.EuropeanPublisher.com
ÿPenulis yang sesuai.

Alamat email: banu.turkmen@gidatarim.edu.tr
doi: 10.15405/ejsbs.316
Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution-NonCommercial-NoDerivatives 4.0.
Diterima: 11 Februari 2022; Revisi: 20 Februari 2022; Diterima: 13 Maret 2022

https:// doi.org/ 10.15405/ ejsbs.316

eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor
1. Perkenalan
Artikel ini bertujuan untuk menghadirkan pendekatan baru untuk memecahkan masalah segmentasi pelanggan lama. Pelanggan
segmentasi adalah dasar untuk memahami perilaku pembelian yang penting dalam penetapan harga dan permintaan
meramalkan keputusan bisnis apa pun. Saat ini banyak upaya yang dilakukan untuk memahami segmen pelanggan yang akan dituju
mampu melayani mereka dengan cara terbaik dengan mempertimbangkan portofolio produk, harga, pemasaran,
komunikasi dan pengalaman pelanggan.
Dalam penelitian ini disajikan analisis komparatif berbagai teknik mengenai segmentasi pelanggan
metode berdasarkan data ritel online. Beberapa model pengelompokan Machine Learning (ML) dan tradisional
model (Keterkinian, Frekuensi, dan Moneter) dievaluasi berdasarkan wawasan yang ditawarkan setiap model. Pada
Pada akhirnya, kekuatan dan kelemahan masing-masing model dibahas dan metodologi diusulkan untuk dipilih
metode clustering terbaik ketika menghadapi masalah segmentasi pelanggan.
Sisa dari makalah ini disusun sebagai berikut. Di Bagian 2, tinjauan literatur terperinci disajikan
diberikan pada kecerdasan buatan (AI), model pengelompokan dan masalah segmentasi pelanggan di berbagai bidang
industri. Bagian 3 menjelaskan data, model dan analisis data eksplorasi yang menyertainya. Di dalam
Bagian 4, kesimpulan dirangkum bersama dengan hasil masing-masing model dan diskusi singkat mengenai masa depan
bekerja.
2. Tinjauan Pustaka
Tinjauan literatur rinci dalam tiga bidang yaitu; AI, model pengelompokan dan segmentasi pelanggan
disajikan pada bagian ini. Salah satu tantangan terbesar bagi dunia bisnis saat ini adalah kecepatan
pengambilan keputusan. Perkembangan terkini dalam ilmu komputer dan teknologi pemrosesan data memungkinkan
perusahaan untuk bertindak lebih cepat, dilengkapi dengan data yang lebih besar dari sebelumnya. Pada saat yang sama, ada lebih banyak pelanggan
menuntut dari sebelumnya dilengkapi dengan lebih banyak pengetahuan tentang produk dan layanan yang tersedia. Kebutuhan akan keputusan
menjadi lebih didorong oleh data agar mampu bertahan di pasar. Fotaki dkk. (2014) menyatakan bahwa teknik baru adalah
diperlukan untuk mengelola dan menganalisis data dalam jumlah besar, dan disinilah konsep Big Data
dapat memainkan peran penting. Hackenberger (2019) membahas data 9 V termasuk 3 fitur utama volume,
kecepatan, dan variasi yang membedakan data normal dengan data besar.
Garis waktu sejarah penelitian di bidang Kecerdasan Buatan (AI) menggambarkan enam puluh tahun
perjalanan. Beberapa peristiwa, kebijakan, dan terobosan penting di bidang AI ditunjukkan pada Gambar
1 di bawah (Tobin et al., 2019). Dalam hal kemajuan teknologi, penelitian tentang jaringan saraf dimulai
memenangkan kompetisi visi dan pidato pada tahun 2005 dan merupakan subbidang penelitian yang dominan pada tahun 2009.
112

Gambar 1. Garis waktu kebijakan, peristiwa, dan terobosan penting di bidang AI
Kebijakan nasional dan regional terkini mencerminkan pentingnya daya saing di bidang ini
untuk investasi besar, serta kebutuhan untuk mengatasi perubahan besar yang akan ditimbulkan oleh AI terhadap manusia
masyarakat dan implikasi etisnya (Tobin et al., 2019).
Penurunan biaya daya komputasi dipadukan dengan peningkatan ketersediaan kumpulan data yang besar
mesin pelatihan menyebabkan tingkat pertumbuhan yang tinggi dalam publikasi AI menurut Scopus, abstrak dan kutipan
basis data (Siebert dkk, 2018). Mereka mengklaim bidang penelitian AI menghasilkan sekitar enam puluh ribu
publikasi per tahun. Secara global, bidang AI telah menunjukkan pertumbuhan yang kuat sebesar 12,9% per tahun dalam lima tahun terakhir
tahun (1998-2017). Dan pertumbuhan ini lebih tinggi dari pertumbuhan yang terlihat di semua penelitian yang mengalami pertumbuhan
tingkat 2,3% per tahun pada periode yang sama.
Praktisi mengkarakterisasi AI berdasarkan empat kemampuan: persepsi, pemahaman, akting dan
pembelajaran (Bawack et al., 2021). Kemampuan suatu sistem untuk memahami lingkungannya, memahami maksudnya, dan
konteks, mengambil tindakan yang tepat dan belajar dari pengalaman. Oleh karena itu, sistem yang dapat membuat prediksi,
memberikan rekomendasi dan berinteraksi dengan manusia berdasarkan keempat kemampuan inilah yang saat ini disebut AI
terlihat pada Gambar 2.
113

Gambar 2. Kemampuan AI dan bidang terkait atau tren teknologi
Sistem informasi sebagian besar telah mengadopsi AI sebagai perspektif kemampuan AI. Kebanyakan penelitian fokus pada
menggunakan AI sebagai alat pembelajaran; menggunakan pembelajaran mesin dan algoritma pembelajaran mendalam, dikombinasikan dengan NLP
untuk memahami kemampuan. Ini digunakan untuk peramalan, prediksi, dan pengoptimalan oleh banyak industri.
Kerangka kerja untuk arah penelitian di masa depan disarankan oleh Bawack dkk. (2021) seperti pada Gambar 3:
Gambar 3. Kerangka kerja yang diusulkan untuk penelitian AI
114

Bawack dkk. (2021) mencantumkan berbagai macam aplikasi AI dan bidang penelitian baru di bidang kesehatan
perawatan, pendidikan, makanan, layanan internet, ritel, pemasaran, penjualan dan periklanan, layanan industri dan
manufaktur, jasa keuangan, jasa TI dan telekomunikasi, transportasi dan logistik,
ritel dan jasa otomotif, hotel, perjalanan, restoran dan rekreasi, dirgantara dan pertahanan, media, massa
komunikasi dan hiburan, energi dan utilitas, layanan publik dan masyarakat dengan segala aplikasinya
dan bidang penelitian yang sedang berkembang dan juga dengan topik yang diminati per industri.
Borges dkk. (2021) berfokus pada isu-isu yang terkait dengan penggunaan praktis dan kurangnya pengetahuan mengenai hal tersebut
menggunakan AI secara strategis untuk menciptakan nilai bisnis. Mereka menyajikan kerangka konseptual
berdasarkan empat sumber penciptaan nilai: dukungan keputusan, keterlibatan pelanggan dan karyawan,
otomatisasi, produk dan layanan baru. Peta antara alat AI dan strategi bisnis diberikan pada Gambar
4.
Gambar 4. Literatur tentang titik temu antara penggunaan alat AI dan strategi bisnis.
Mereka mengklaim peta ini relevan dengan perspektif teoritis dan manajerial dengan peluang
untuk menghasilkan teori baru dan bentuk praktik manajemen baru. Penggunaan teknologi AI secara strategis telah
belum dieksplorasi dengan baik menurut penelitian ini (Borges et al., 2021).
Tinjauan berharga lainnya disajikan oleh Mustapha dkk. (2020). Diskusi mereka sebagian besar berlangsung
komponen AI yang terdaftar sebagai sistem pakar, pemecahan masalah heuristik, bahasa alami
pemrosesan dan penglihatan. Mereka juga menganalisis dampak finansial dari AI. Dikatakan bahwa pendapatan dari
pasar AI di seluruh dunia berjumlah sekitar 260 miliar dolar AS pada tahun 2016 dan diperkirakan melebihi $3.060
miliar pada tahun 2024. Hal ini berdampak langsung pada aplikasi robotik, termasuk kerangka luar, rehabilitasi,
robot bedah dan bot perawatan pribadi. Dampak ekonomi dalam 10 tahun ke depan diperkirakan antara
$1,49 dan $2,95 triliun. Perkiraan ini didasarkan pada tolok ukur yang memperhitungkan hal serupa
pencapaian teknologi seperti broadband, telepon seluler, dan robot industri. Gambar 5 menunjukkan
memperkirakan dampak ekonomi AI di seluruh dunia, diperkirakan berdasarkan PDB.
115

Gambar 5. Prediksi Dampak Ekonomi AI di Seluruh Dunia
Menurut Mustapha dkk. (2020), AI tidak memberikan dampak besar secara langsung terhadap kehidupan masyarakat umum
hingga saat ini, dan masih terbatas pada beberapa bidang seperti militer, luar angkasa, industri, medis, jaringan netral dan
geologi. Namun, dengan adanya penelitian dan kemajuan ekstensif di bidang AI pada akhir tahun 2035, hal tersebut menjadi kenyataan
diharapkan, kita akan mampu menjauh dari mesin-mesin masa kini yang tentu saja berbobot
manual mengenai bahasa mesin, dan tentu saja, mengembangkan mesin yang mampu
memahami manusia seutuhnya. Oleh karena itu, kita juga akan memiliki robot sebagai dokter di rumah sakit, profesor di rumah sakit
ruang kelas, supir bus. Akibatnya, itu akan menjadi era transhumanisme dimana manusia
dan mesin bergabung menjadi cyborg atau organisme cybernetic yang lebih mampu dan kuat dibandingkan keduanya.
Karena penelitian ini menggunakan pengelompokan sebagai metodenya, mari kita fokus pada algoritma ini sedikit lebih detail.
Clustering merupakan salah satu permasalahan data mining yang penting, terutama untuk analisis big data, dimana volumenya besar
data harus dikelompokkan. Big data adalah istilah untuk kumpulan kumpulan data yang begitu besar dan kompleks
sulit untuk diproses menggunakan alat pemrosesan data tradisional. Big data dapat dicirikan oleh tiga V:
volume (data dalam jumlah besar), variasi (mencakup berbagai jenis data), dan kecepatan (secara konstan
mengumpulkan data baru). Big data bukan hanya tentang banyaknya data, namun sebenarnya merupakan sebuah konsep baru yang memberikan solusi
kesempatan untuk menemukan wawasan baru terhadap data yang ada.
Clustering adalah membagi subjek yang diminati menjadi beberapa kelompok agar lebih banyak
kesamaan dalam kelompok yang sama dibandingkan subjek dalam kelompok lain. Seringkali ukuran jarak digunakan untuk
menghitung kesamaan itu. Madhulatha (2012) mengidentifikasi 5 metode clustering:
1) Algoritme hierarki menemukan cluster yang berurutan menggunakan cluster yang telah ditetapkan sebelumnya. Itu bisa saja
aglomeratif (bottom-up) atau memecah-belah (top-down). Algoritma aglomeratif dimulai dengan masing-masing
elemen sebagai cluster terpisah dan menggabungkannya dalam cluster yang lebih besar secara berturut-turut. Algoritma yang memecah belah
mulailah dengan keseluruhan rangkaian dan lanjutkan dengan membaginya menjadi kelompok-kelompok yang lebih kecil secara berurutan.
2) Algoritma partisi didasarkan pada penentuan jumlah awal grup, dan secara iteratif
mengalokasikan kembali objek di antara kelompok ke konvergensi. Algoritma ini biasanya menentukan semua cluster
116

sekaligus. Sebagian besar aplikasi mengadopsi salah satu dari dua metode heuristik populer seperti algoritma k-means dan
algoritma k-medoids.
3) Algoritma pengelompokan berbasis kepadatan dirancang untuk menemukan cluster berbentuk sewenang-wenang. Di dalam
Pendekatan ini, cluster dianggap sebagai wilayah di mana kepadatan objek data melebihi ambang batas.
DBSCAN dan SSN adalah dua algoritma tipikal semacam ini.
4) Pendekatan clustering berbasis grid menggunakan struktur data grid multiresolusi. Ini mengkuantifikasi
ruang menjadi sejumlah sel terbatas yang membentuk struktur grid tempat semua operasi dilakukan
pengelompokan dilakukan. Pendekatan grid mencakup pendekatan STING (STatistical INformation Grid).
dan KLIK
5) Metode Clustering Berbasis Model berupaya mengoptimalkan kesesuaian antara data yang diberikan dan beberapa data
model matematika. Metode seperti ini seringkali didasarkan pada asumsi bahwa data tersebut dihasilkan
oleh campuran distribusi probabilitas yang mendasarinya. Metode Pengelompokan Berbasis Model mengikuti dua
pendekatan utama: Pendekatan Statistik atau pendekatan jaringan saraf. (hlm. 719-723)
Clustering bukanlah masalah optimasi, yang membuat solusi dan hasilnya sebanding
deskriptif dan sulit digeneralisasikan. Solusi terbaik bergantung pada pilihan dan asumsi pengguna
tentang masalahnya. Jadi, keahlian di bidang domain diperlukan untuk mengevaluasi solusi yang berbeda. Stabilitas
hasil dan ketahanan cluster yang disarankan dapat dianggap sebagai parameter kinerja.
Ada penelitian menarik lainnya dari Gelbard et al. (2007). Mereka membandingkan metode pengelompokan dengan
asumsi mendasar mereka terhadap empat kumpulan data yang diketahui. Mereka mengklaim berbagai metode tidak dapat diprediksi
karena sulitnya mengevaluasi validitas asumsi yang relevan. Mereka mengklaim kinerja cluster adalah
bergantung pada algoritma dan memberi peringkat algoritma seperti pada Tabel 1 berdasarkan skor yang cocok.
Tabel 1. Peringkat algoritma secara keseluruhan
Algoritma Skor rata - rata Skor Rata-rata berdasarkan nilai yang dinormalisasi
Dua langkah 0,76 0,66
K-berarti 0,74 0,63
Pendekatan positif 0,71 0,59
metode Ward 0,70 0,56
Kahonen 0,70 0,56
Tetangga terjauh 0,66 0,51
Keterkaitan dalam kelompok 0,65 0,49
Pusat massa 0,62 0,45
Keterkaitan antar kelompok 0,57 0,38
median 0,56 0,36
Tetangga terdekat 0,42 0,16
Sumber: (Gelbard et al., 2007, hal. 161)
Penggunaan pengelompokan diperkirakan akan digunakan secara luas dalam perdagangan dalam waktu dekat, namun tingkat adopsinya akan meningkat
lambat karena non-standarisasi metode, ketidakpastian, kesulitan dalam evaluasi dan kegunaan
cluster oleh dunia bisnis (Erlich et al., 2016).
Meskipun disebutkan bahwa penggunaan AI dalam konteks bisnis sangat terbatas dan didasarkan pada
potensi teknologi dari beberapa perusahaan besar tertentu daripada kebutuhan bisnis itu sendiri, pemasaran adalah a
117

area yang relatif tereksplorasi dengan baik di mana AI digunakan. Dalam bidang pemasaran, artikel pertama yang disebutkan adalah a
tinjauan digambarkan sebagai lintasan bidang penelitian pemasaran dan AI (Vlacic et al., 2021). Mereka mengulas
164 artikel diterbitkan di jurnal terindeks Web of Science dan Scopus (antara 1987 dan 2020 tetapi sebagian besar
baru-baru ini - setelah tahun 2017 dan seterusnya) dan mengembangkan agenda penelitian dengan konteks spesifik berdasarkan artikel-artikel tersebut.
Analisis mereka didasarkan pada: adopsi, penggunaan, penerimaan teknologi AI dalam pemasaran, peran perlindungan data
dan etika, peran dukungan kelembagaan untuk pemasaran AI, revolusi pasar tenaga kerja dan kompetensi pemasar
perspektif kompetensi. Mereka menggambarkan domain penelitian beserta kutub dimensinya seperti pada Gambar
6 menggunakan informasi 21 deskriptor dalam dua dimensi menggunakan analisis konten yang dikombinasikan dengan Homals
teknik statistik. Proporsi varians yang dijelaskan oleh masing-masing kutub menyumbang 22,21% varians.
Gambar 6. Peta bidang penelitian pemasaran dan kecerdasan buatan
Mereka menunjukkan potensi kesenjangan penelitian dan peluang penelitian di masa depan berdasarkan jarak
antara deskriptor yang diberikan dalam peta ini. Semakin besar jaraknya, semakin kecil keterkaitannya dengan hal tersebut
memberikan lebih banyak peluang untuk dieksplorasi. Mereka juga melakukan analisis yang sangat baik terhadap apa yang disebut sebagai fondasi
yaitu: Teori perilaku, manajemen hubungan pelanggan, pandangan berbasis pengetahuan dan jaringan
teori. Penelitian ini berbeda dengan penelitian sebelumnya mengenai hubungan AI dan pemasaran sejak saat itu
tinjauan sebelumnya merupakan tinjauan berdasarkan pakar dan tinjauan ini menawarkan gambaran perkembangan yang lebih obyektif
AI dan analisis pemasaran dan kutipan. Mereka juga mengusulkan tema penelitian masa depan terkait adopsi dan
penggunaan AI, penerimaan teknologi AI, revolusi pasar tenaga kerja dan kompetensi pemasar, peran
dukungan kelembagaan, pentingnya perlindungan data dan etika, wabah COVID-19 yang terjadi baru-baru ini
tantangan teknologi dan perilaku tambahan. Mereka menyajikan gambaran menarik berdasarkan kegunaannya
AI di; strategi dan perencanaan, manajemen produk, manajemen harga, manajemen tempat, dan
manajemen promosi, mencakup 4 p pemasaran: produk, harga, tempat, promosi.
Analisis menarik lainnya mengulas studi tentang AI dan pemasaran yang berfokus pada pelanggan
pengalaman dan revolusi industri ke-4 (Jung, sedang dicetak). Mereka memberikan pandangan holistik tentang penggunaan AI
118

meningkatkan pengalaman pelanggan. Mereka juga berupaya mengumpulkan studi penelitian tentang AI dalam pemasaran
menggunakan analisis bibliometrik dan analisis ko-sitasi. Berdasarkan penelitian mereka, co-cite dan trend topik
analisis diberikan pada Gambar 7 dan Gambar 8 masing-masing.
Gambar 7. Analisis kutipan bersama
Gambar 8. Tren topik
Ada studi kasus oleh Qian et al. dimana segmentasi pelanggan penagihan tol elektronik (ETC).
dibangun berdasarkan pendekatan pohon keputusan. Dengan demikian, hasil empiris menunjukkan bahwa pohon keputusan
Metode ini lebih mampu menganalisis karakteristik perjalanan, nilai masa kini, dan potensi apresiasi untuk DLL
klasifikasi pelanggan (Qian et al., 2018). Studi implementasi segmentasi pelanggan baru-baru ini
peta pengorganisasian mandiri Kohonen berbasis jaringan saraf pengelompokan dua tahap untuk investasi ritel
nasabah perbankan (Kovács dkk., 2021). Mereka mengklaim dapat mengidentifikasi kelompok pelanggan potensial dengan hal serupa
preferensi mereka dan mendapatkan wawasan tentang pola investasi mereka. Penelitian lainnya adalah di bidang tanpa pengawasan
119

algoritma clustering yang diterapkan di sektor energi (Bogensperger & Fabel, 2021). Matahari dkk. (2021)
mengembangkan metode pengelompokan heuristik untuk segmentasi pelanggan, yang disebut Gaussian Peak Heuristic
Clustering (GPHC) menangani data kebutuhan pelanggan. Mereka menyajikan kasus praktis untuk menggambarkan hal tersebut
efektivitas GPHC dalam memecahkan masalah segmentasi pelanggan.
Terakhir, ada beberapa tinjauan literatur yang dapat disebutkan. Ahmad dan Khan (2019) menyajikan taksonomi
untuk kajian algoritma pengelompokan data dibagi menjadi lima tema penelitian besar yaitu partisi,
hierarki, berbasis model, berbasis jaringan saraf, dan lain-lain. Ulasan lain oleh Kaur dan Kaur (2017)
berfokus pada teknik penambangan data pada segmentasi pelanggan, yang mencakup clustering dan subgrup
penemuan bersama dengan pekerjaan terkait yang dipilih.
3. AI dalam Praktek
3.1. Data dan Model
Tulisan ini merupakan investigasi terhadap data belanja ritel online dan apa saja yang dapat dikeluarkan dari data tersebut
untuk mendapatkan wawasan tentang pelanggan yang dapat digunakan dalam kegiatan pemasaran dan penjualan potensial. Sebagai akibat
Dari penelitian ini, ditemukan bahwa kecerdasan buatan (AI) dapat membantu memanfaatkan sumber daya yang terbatas secara maksimal
cara yang efektif ketika menargetkan pelanggan. Segmentasi pelanggan yang efektif membawa manfaat seperti
kegiatan pemasaran yang efektif, keputusan promosi yang tepat, mengidentifikasi tren pelanggan yang lebih baik
pengalaman dan pengiriman produk yang relevan.
Data belanja yang digunakan dalam penelitian ini tersedia untuk umum dan pendekatan ini dapat digunakan untuk ritel mana pun
konteks belanja. Mari kita kenali dulu data, model dan loss yang merupakan komponen utama mesin
sedang belajar. Metode trial and error dalam hal pemilihan model dan normalisasi data digunakan dalam penelitian ini
untuk mengelompokkan pelanggan.
Pelanggan dikelompokkan ke dalam cluster sehingga dapat diidentifikasi sebagai pelanggan setia, acak
pembeli jarang, pelanggan yang berpotensi menjadi pelanggan setia, pembelanja besar, pembelanja kecil, dll.
Tidak ada data yang diberi label dalam masalah ini tetapi berdasarkan pengeluaran pelanggan, seberapa sering mereka berbelanja dan
kapan terakhir kali mereka berbelanja, beberapa kesimpulan diambil untuk menentukan pemasaran dan penjualan
strategi. Misalnya, kemudahan komunikasi penting bagi pelanggan tingkat loyalitas dan hal ini diasumsikan
bahwa mereka membutuhkan pengakuan atas kesetiaan mereka. Strategi lainnya adalah menentukan kebijakan pengiriman
berdasarkan cluster pelanggan. Misalnya, jika pelanggan berasal dari kelompok pelanggan setia tingkat atas,
mereka mendapatkan pengiriman gratis. Jika mereka berasal dari kelas bawah atau menengah, mereka akan membayar atau mendapatkan keuntungan dari pengiriman gratis
tergantung pada kasus belanja. Jika pelanggan diidentifikasi berpotensi loyal, mereka akan menerima retensi
manfaat seperti diskon khusus berdasarkan volume atau produk paket yang dirancang untuk meningkatkan penjualan
tujuan. Tergantung pada labelnya, jika pelanggan adalah pembelanja yang jarang dan kecil, disarankan untuk tidak berinvestasi
waktu, uang, dan energi untuk pelanggan ini dari perspektif bisnis. Label cluster ini dapat digunakan
dalam komunikasi, promosi, kebijakan pengiriman, voucher khusus, dan diskon sebagai strategi pemasaran.
Terdapat 541909 titik data dengan 8 fitur. Datanya terbuka untuk umum dan dikenal sebagai ritel online
data (Chen dkk. 2012). Setiap titik data berhubungan dengan satu transaksi dengan rincian nomor faktur,
tanggal, produk dengan kode stok, jumlah, harga dan pengenal pelanggan serta negara tempat tinggal
pelanggan. InvoiceNo adalah nomor Faktur, yang ditetapkan secara unik untuk setiap transaksi.
120

StockCode adalah kode produk, yang ditetapkan secara unik untuk setiap produk berbeda.
Deskripsi adalah nama produk.
Kuantitas adalah jumlah setiap produk yang dibeli per transaksi.
InvoiceDate adalah tanggal dan waktu Faktur bersama-sama, hari dan waktu yang menunjukkan setiap transaksi
terjadi.
UnitPrice adalah harga produk per unit dalam Euro.
CustomerID, 5 digit nomor yang diberikan secara unik kepada setiap pelanggan.
Negara adalah nama negara tempat tinggal setiap pelanggan. Label adalah nomor cluster per
pelanggan. Dari 541909 transaksi belanja tersebut teridentifikasi 4338 pelanggan.
Berbagai teknik clustering diuji dalam penelitian ini. Semuanya adalah pembelajaran mesin tanpa pengawasan
algoritma seperti kmeans (algoritma partisi), pengelompokan hierarki (algoritma hierarki
pendekatan aglomerasi atau pendekatan bottom up dari daun sampai ke akar), Pengelompokan Spasial Berbasis Kepadatan
Aplikasi dengan Kebisingan (algoritma berbasis kepadatan DBSCAN). Setiap algoritma mempunyai kelebihannya masing-masing
dan kekurangannya. Pengelompokan lain berdasarkan perspektif bisnis dihasilkan yang tidak ada hubungannya
lakukan dengan AI tetapi harus dibandingkan dengan cluster yang dihasilkan oleh algoritma AI. Detail temuannya
dari masing-masing model disajikan pada Bagian 3 dan 4 artikel ini.
Analisis Data Eksplorasi Pertama dilakukan untuk memvisualisasikan, merangkum dan menafsirkan informasi itu
tersembunyi dalam data. Pada bagian kedua, wawasan diambil, fitur data digunakan untuk mesin tanpa pengawasan
pemodelan pembelajaran untuk mengelompokkan pelanggan. Pada bagian akhir, keluaran dari beberapa model dibahas
dan cluster dibandingkan untuk memilih model yang paling sesuai dari sudut pandang bisnis.
3.2. Analisis Data Eksplorasi (EDA)
Data yang hilang dianalisis, dan diputuskan bahwa baris ID Pelanggan nol harus dihapus dari
ditetapkan sejak kami mencoba mendapatkan wawasan tentang pelanggan. Jika kita tidak dapat mengidentifikasi siapa setiap pelanggan, maka tidak ada
gunanya menggunakan data itu sebagai data masukan.
Kolom baru ditambahkan menggunakan kumpulan data asli yang dapat berguna untuk analisis data lebih lanjut:
pendapatan, hari, dp, bulan, tahun, dow. Pendapatan diperoleh dengan mengalikan Quantity dan UnitPrice. Untuk apa pun
angka pendapatan perusahaan ritel penting untuk menarik kesimpulan tentang kelompok pelanggan. Hari menunjukkan caranya
beberapa hari setelah (min) Tanggal Faktur pertama pembelian selesai. Dp singkatan dari hari sebelumnya dan menunjukkan caranya
beberapa hari sebelum tanggal transaksi terakhir yang tersedia pembelian dilakukan. Nilai-nilai ini kemudian digunakan
menghitung frekuensi pembelian dan kapan transaksi terakhir terjadi berdasarkan masing-masing pelanggan
dalam kumpulan data. Bulan, tahun dan dow yaitu, hari dalam seminggu semuanya berasal dari tanggal faktur.
Pendapatan per negara, produk, bulan dan hari dalam seminggu diperiksa. Satu hari dalam seminggu hilang
dari kumpulan data. Plot kotak dan matriks korelasi digunakan untuk mengidentifikasi outlier dalam kumpulan data. Pendapatan
dan kuantitas memiliki korelasi yang tinggi (0,886) dan pendapatan dipilih sebagai ukuran yang lebih signifikan dari a
sudut pandang bisnis. Kuantitas dan harga negatif dihilangkan karena tidak masuk akal. Beberapa
baris duplikat diidentifikasi dan dihapus. Subkumpulan data ditentukan per pelanggan berdasarkan total pendapatan,
frekuensi belanja dan kekinian transaksi terakhir dan kumpulan data ini digabungkan (digabung) dalam yang baru
kumpulan data pelanggan awalnya disebut dfc.
121

3.3. Pembelajaran Mesin Tanpa Pengawasan
3.3.1. K Berarti Pengelompokan
Metode clustering pertama yang diuji dalam lingkup penelitian ini adalah k mean clustering. K-means menentukan
k centroid dalam data dan titik cluster dengan menugaskannya ke centroid terdekat.
Pengklasifikasi hutan acak digunakan untuk mengidentifikasi fitur-fitur penting dari kumpulan data pelanggan seperti yang ditunjukkan pada
Gambar 9. Akibatnya, fitur beberapa hari sebelumnya dengan skor signifikansi terendah (0,03694) dihapus untuk beberapa
bagian dari analisis.
Gambar 9. Hutan Acak untuk Kepentingan Fitur
Subset dibuat untuk nomor cluster tertentu dari 3 hingga 8. Kurva siku digambar (lihat Gambar 10),
dan skor Silhouette dihitung (lihat Gambar 11) untuk mendapatkan petunjuk tentang jumlah cluster terbaik seperti yang terlihat
di bawah. Skor Siluet 1 berarti cluster sangat padat dan terpisah dengan baik. Skor 0
berarti clusternya tumpang tindih. Skor yang kurang dari 0 berarti data tersebut mungkin termasuk dalam cluster
salah/salah.
Gambar 10. Kurva Siku dari Kumpulan Data Pelanggan yang Diskalakan Ulang dan Ditransformasikan
122

Gambar 11. Siluet skor potensi jumlah klaster
Jadi, breakpoint dapat dilihat pada n=3 dan break lebih ringan pada n=5 pada kurva siku.
Ketika skor siluet diperiksa, 2 cluster memiliki skor tertinggi tetapi dari sudut pandang bisnis
pandangan, diinginkan untuk membedakan pelanggan menjadi lebih banyak cluster jika memungkinkan. Skornya meningkat dibandingkan
menjadi 4 cluster ketika kita memiliki 5 cluster. Ini memberikan petunjuk bahwa 5 cluster mungkin merupakan ide yang bagus. Sekali lagi, serupa
pada hasil kurva siku, 4 cluster terlihat lebih buruk daripada 3 cluster dan 5 cluster. Jadi, kedua sikunya melengkung
dan skor siluet menunjukkan bahwa kita harus memiliki 3 atau 5 cluster di akhir.
Cluster-cluster tersebut dibandingkan berdasarkan plotnya pada gambar di bawah ini (lihat gambar 12).
Gambar 12. K Berarti plot cluster untuk berbagai pilihan nomor cluster dari 3 sampai 8 cluster
Seperti yang terlihat dalam plot ini, mengkategorikan pelanggan berdasarkan pendapatan masuk akal dari sudut pandang bisnis
pandangan dan lebih baik membedakan pelanggan yang membelanjakan 15.000 euro daripada 25.000 euro per tahun. 5-
Pendekatan klaster sekali lagi terlihat lebih baik dalam hal cukup membedakan berdasarkan pendapatan yang berasal dari
pelanggan.
123

Jumlah pelanggan pada model dengan 5 cluster ditunjukkan di bawah ini (lihat Gambar 13):
Gambar 13. Jumlah pelanggan di setiap cluster pada model clustering K-means.
Karena jumlah total pelanggan di cluster pendapatan tertinggi sangat kecil, kita bisa memikirkannya
bergabung dengan cluster 1 dan cluster 4 untuk memiliki strategi untuk 7 akun tipe korporat ini. Ini dianggap sebagai
perpanjangan kerja di masa depan.
Kami melihat pelanggan cluster 1 dan cluster 4 sebagai pelanggan dengan pembelanjaan tahunan tertinggi
frekuensi dan pembelian terbaru. Jumlah mereka sangat sedikit. Pada dasarnya 14% dari total pendapatan adalah
berasal dari 7 pelanggan ini dari 4338 pelanggan. Klaster 2 mewakili kelompok loyal belanja yang lebih tinggi berikutnya
pelanggan aktif dan dengan pembelian terbaru. Cluster 3 merupakan pelanggan dengan pembelanjaan tertinggi ketiga
transaksi yang cukup aktif dan cukup baru. Cluster 0 mewakili pelanggan dengan nilai terendah
menghasilkan pendapatan terendah, tidak aktif dengan pembelian acak yang sangat jarang. Mereka adalah pelanggan tertinggi
jumlahnya namun tidak memerlukan perhatian khusus dalam hal pemasaran dan penjualan.
Pelanggan cluster 1 dan cluster 4, dengan kata lain 7 akun tersebut bisa diberi hadiah kejutan
karena mereka adalah pelanggan tingkat atas kami dan harus ditangani secara individual. Fokus pemasarannya seharusnya
pada cluster 2 untuk menjaga basis loyal dan kemudian cluster 3 yang merupakan calon pelanggan setia dan seharusnya
diikuti dengan cermat. Sebagai kesimpulan dari cluster yang dihasilkan, dapat dipastikan bahwa outlier ada di cluster tersebut
kumpulan data mungkin menyebabkan beberapa masalah dalam pengelompokan. Pencilan ini tidak dihapus dari kumpulan data,
sengaja, karena perilaku ekstrem ini penting untuk diidentifikasi dan ditargetkan oleh pemasar. Jika ada
segelintir pembelanja yang sangat besar dalam data, tentunya mereka tidak boleh dihilangkan dari radar para pemasar.
Meskipun k-means mudah dipahami dan diimplementasikan dalam praktik, algoritmanya diketahui tidak memiliki gagasan apa pun
outlier, sehingga semua titik ditugaskan ke cluster meskipun mereka tidak termasuk dalam cluster mana pun. Dalam domain anomali
deteksi, hal ini menyebabkan masalah karena titik anomali akan ditempatkan pada cluster yang sama dengan data “normal”.
poin. Titik-titik anomali menarik pusat massa cluster ke arahnya, sehingga lebih sulit untuk mengklasifikasikannya
poin anomali. Ini adalah kelemahan terbesar dari pengelompokan k-means.
3.3.2. Pengelompokan Hierarki
Karena pengelompokan k-means bukanlah solusi yang jelas atau optimal, metode lain diuji untuk mengatasi hal ini
Himpunan data. Seperti yang dibahas di bagian tinjauan literatur makalah ini, metode pengelompokan lebih banyak membahas tentang
kumpulan data dan algoritma yang digunakan daripada pengetahuan domain dan biasanya memberikan hasil yang tidak dapat diprediksi
cluster. Keuntungan dari pengelompokan hierarki adalah tidak harus menentukan terlebih dahulu jumlah cluster
cukup unggul dibandingkan pengelompokan k-means. Di sini algoritma pengelompokan aglomeratif digunakan dan relevan
dendrogram ditemukan seperti pada Gambar 14.
124

eISSN: 2301-2218 / Penulis Koresponden: Seleksi Banu
Turkmenistan & Tinjauan Sejawat di bawah tanggung jawab Editor
Gambar 14. Dendrogram yang diperoleh dari pengelompokan hierarki menunjukkan jumlah titik dalam node
Seperti yang ditunjukkan oleh dendrogram ini, 2 cluster (hijau dan merah) dipotong oleh garis putus-putus merah dan
dibuat. Titik data ditunjukkan seperti di bawah ini (lihat gambar 15) berdasarkan metode pengelompokan hierarki ini:
Gambar 15. Plot klaster hierarki menggunakan pendekatan aglomerasi bottom-up.
Meskipun metode ini jelas menyarankan 2 cluster saja, 5 cluster dipaksa menggunakan hierarki
metode clustering dan hasilnya terlihat pada Gambar 16.
125

Gambar 16. Plot cluster hierarki menggunakan pendekatan agglomerative bottom up - dipaksa dengan 5 cluster.
Ketika hasil dari metode pengelompokan ini dievaluasi dari sudut pandang bisnis, harus dikatakan demikian
bahwa hal ini tidak intuitif atau membantu dalam menentukan berbagai strategi pemasaran untuk pengecer online. 2 kelompok
pelanggan tidak memiliki cukup variasi dan diferensiasi untuk mensegmentasi produk, harga, tempat, dan
keputusan promosi berdasarkan kelompok pelanggan. Jadi, meskipun kami tidak dapat memvalidasi model dari sebuah
sudut pandang optimasi, dapat dikatakan bahwa model tersebut gagal dari sudut pandang bisnis.
3.3.3. Pengelompokan DBSCAN
Karena dua metode sebelumnya tidak jelas pemenangnya dari masalah yang dianalisis dalam penelitian ini, maka metode pertama adalah metode pertama
lebih banyak algoritma pengelompokan AI telah diputuskan untuk diuji terhadap data belanja ritel online.
DBSCAN (Pengelompokan Aplikasi Spasial Berbasis Kepadatan dengan Kebisingan) adalah yang paling terkenal
algoritma pengelompokan berbasis kepadatan, pertama kali diperkenalkan pada tahun 1996 oleh Ester et al. (1996). Karena pentingnya dalam
baik teori maupun aplikasinya, algoritma ini merupakan salah satu dari tiga algoritma yang mendapat penghargaan Test of Time Award di
konferensi KDD pada tahun 2014 (SIGKDD, 2021).
Mereka menunjukkan keunggulan DBSCAN sebagai persyaratan minimal untuk pengetahuan domain
menentukan parameter input, peluang penemuan cluster dengan bentuk sewenang-wenang dan bagus
efisiensi pada database besar. Dikatakan bahwa algoritma pengelompokan yang terkenal tidak menawarkan solusi
kombinasi dari persyaratan ini. Mereka menyajikan algoritma pengelompokan baru DBSCAN yang mengandalkan a
gagasan cluster berbasis kepadatan yang dirancang untuk menemukan cluster dengan bentuk sewenang-wenang.
Karena dalam masalah kita, terdapat banyak outlier dan noise dalam hal standar data, tetapi tidak dari a
perspektif bisnis, dan kepadatan cluster saat ini sangat bervariasi dalam hal titik data per cluster;
DBSCAN dianggap sebagai pilihan metode yang baik untuk diuji terhadap data belanja online dalam hal ini
belajar.
Parameter terpenting disini adalah nilai EPS yang dihitung menggunakan jarak lutut. Itu
kurva lutut/siku diberikan pada Gambar 17.
126

Gambar 17. Knee Point untuk clustering DBSCAN
Berdasarkan jarak lutut, nilai EPS dihitung sebesar 0.014473734767694877
Meskipun berbagai nilai lainnya diperiksa dengan menjalankan kode yang sama beberapa kali, nilai EPS ini
menghasilkan jumlah cluster yang wajar (5) dari sudut pandang bisnis. Hasil clustering terlihat pada Gambar
18.
Gambar 18. Plot cluster DBSCAN menggunakan EPS berbasis jarak lutut
Di sini satu hal yang perlu diperhatikan adalah cluster -1 berwarna ungu mengumpulkan data yang dianggap sebagai
kebisingan. 5 cluster lainnya memiliki ciri yang lebih khas dalam hal pengeluaran tahunan pelanggan.
Meskipun sebagian data dianggap sebagai noise, cluster yang tersisa tidak mudah untuk diinterpretasikan dari a
sudut pandang pemasaran untuk metode pengelompokan ini.
127

3.4. Pendekatan Kedua (Metode non-AI) untuk Analisis Klaster Pelanggan
Di sini pelanggan disegmentasi berdasarkan frekuensi pembelian mereka, keterkinian pembelian terakhir mereka
pembelian, dan total pembelanjaan tahun lalu per pelanggan. Analisisnya tidak ada hubungannya dengan mesin
pembelajaran, tetapi dilakukan untuk memeriksa ulang bagaimana ClusterNo berbasis pembelajaran mesin sejalan dengan yang kedua ini
pendekatan yang didasarkan pada kebutuhan bisnis. Analisis ini dilakukan terutama karena diketahui k
berarti bukanlah suatu metode untuk mencari solusi optimal. Tidak ada fungsi kerugian yang harus diminimalkan, dan hanya menyediakan
satu solusi yang perlu diperiksa menggunakan perspektif bisnis untuk memutuskan apakah solusi tersebut bermakna
pengelompokan atau tidak.
Ketika mempertimbangkan pendapatan, frekuensi dan keterkinian sebagai 'rendah', 'sedang' dan 'tinggi', kita dapat merujuk pada pendapatan tersebut
ke nilai kuantil untuk masing-masing. Fungsi qcut berbasis kuantitas digunakan untuk membagi nilai menjadi 5 kategori
setiap kolom kumpulan data pelanggan. Terdapat variasi yang tinggi antar kuantil seperti terlihat pada Tabel 2 di bawah ini:
Tabel 2. Statistik Deskriptif Kumpulan Data Pelanggan

Pendapatan Frekuensi Sehari sebelumnya
Menghitung 4338.000000 4338.000000 4338.000000
Berarti 2048.688081 90.523744 91.536422
Std 8985.230220 225.506968 100.014169
Minimal 3,750000 1.000000 0,000000
25% 306.482500 17.000000 17.000000
50% 668.570000 41.000000 50.000000
75% 1660.597500 98.000000 141.000000
maks 280206.020000 7676.000000 373.000000
Perspektif Bisnis terhadap Klaster Pelanggan Potensial (lihat Tabel 3):
Tabel 3. Segmen Pelanggan dengan Business View
No Frekuensi Terkini Pendapatan Pelanggan Strategi
1 Rendah Rendah Rendah Abaikan Pembelanja Rendah Langka Tidak Aktif
2 Rendah Rendah Pertengahan

Abaikan Pembelanja Menengah Langka yang Tidak Aktif
3 Rendah Rendah Tinggi Stimulasi Pembelanja Tinggi Langka yang Tidak Aktif
4 Rendah Tinggi Rendah Tidak Aktif Sering Rendah Merangsang
Pemboros
5 Rendah Tinggi Pertengahan

Sering Tidak Aktif Pertengahan Merangsang
Pemboros
6 Rendah Tinggi Tinggi Tidak Aktif Sering Tinggi Merangsang
Pemboros
7 Tinggi Rendah Rendah Pelanggan Baru yang Aktif, Langka, dan Berbelanja Rendah dengan Potensi Rendah-Abaikan
8 Tinggi Rendah Pertengahan

Pelanggan Baru Pembelanja Menengah Langka Aktif yang bisa menjadi Perak atau Emas, hati-
hati, selamat datang promosi
9 Tinggi Rendah Tinggi Pelanggan Baru yang Aktif, Langka, dan Berbelanja Tinggi, berpotensi untuk menjadi
Emas atau Platinum, fokus untuk
mempertahankan, menyambut promosi
128

10 Tinggi Tinggi Rendah Aktif Sering Rendah Pelanggan setia dengan nilai rendah, Perak,
Pemboros Hadiah
11 Tinggi Tinggi Pertengahan

Aktif Sering Pertengahan Pelanggan setia dengan nilai menengah, Emas,
Pemboros Hadiah
12 Tinggi Tinggi Tinggi Aktif Sering Tinggi Pelanggan setia dengan nilai tinggi,
Pemboros Platinum, Hadiah
Jadi, dari sudut pandang bisnis, ada 5 strategi yang diidentifikasi, dan seseorang dapat mengelompokkan pelanggan berdasarkan strategi tersebut
5 jenis tindakan pemasaran dan penjualan ini. Jadi, 5 strategi utama diputuskan terhadap pelanggan:
1) Abaikan: Ini adalah pelanggan bernilai rendah dan tidak perlu menginvestasikan waktu/uang untuk mereka
2) Merangsang: Pelanggan yang kurang aktif yang mungkin bisa diubah menjadi pelanggan aktif dengan pengingat
promosi
3) Selamat Datang: Pelanggan yang relatif baru yang merupakan calon pelanggan setia, berikan perhatian untuk dipertahankan
dengan promosi selamat datang.
4) Hadiah: Pelanggan setia dengan nilai dasar, Tingkat Perak, berikan penghargaan kepada mereka untuk menjaga loyalitas
5) Hadiah Eksklusif: Pelanggan setia Tingkatan Emas dan Platinum, berikan hadiah dan kejutkan kepada mereka karena keberadaannya
setia.
Misalnya, 3 tingkat kombinasi skor masuk dalam strategi IGNORE seperti di bawah ini (lihat Tabel 4):
Tabel 4. Pemetaan Strategi 'Abaikan' berdasarkan Kategori: Kekinian, Frekuensi, Pendapatan
Kebaruan Frekuensi Pendapatan Strategi Klaster
Rendah (1-3 dari 5) Rendah (1-3 dari 5) Rendah (1-2 dari 5) MENGABAIKAN
Rendah (1-3 dari 5) Rendah (1-3 dari 5) Pertengahan (2-4 dari 5) MENGABAIKAN
Tinggi (3-5 dari 5) Rendah (1-3 dari 5) Rendah (1-2 dari 5) MENGABAIKAN
Berdasarkan pengelompokan ini, klaster-klaster di bawah ini, yang diberi nama berdasarkan tindakan pemasaran, diidentifikasi (lihat Tabel 5):
Tabel 5. Cluster berbasis pemasaran dengan jumlah pelanggan
Segmen/Aksi Menghitung
MENGABAIKAN 1606
MERANGSANG 1300
HADIAH 1050
SELAMAT DATANG 322
HADIAH Perak 50
4. Kesimpulan
4.1. Perbandingan Metode AI dan Non-AI
Berikut adalah histogram cluster berdasarkan strategi yang disebutkan. Jumlah pelanggan (data
poin) di setiap cluster dibandingkan dalam solusi AI versus solusi bisnis non-AI. Jadi, validitas
pengelompokan diperiksa di bagian ini, dan pengelompokannya tidak terlihat serupa dalam hal jumlah pelanggan per
gugus.
129

Di bawah ini adalah pengelompokan AI k-means (lihat Gambar 19):
Gambar 19. Jumlah pelanggan tiap cluster dengan Metode K-Means
Ketika data yang dinormalisasi digunakan, cluster yang terdistribusi lebih baik diperoleh seperti yang ditunjukkan di bawah ini (lihat Gambar 20):
Gambar 20. Jumlah pelanggan tiap cluster pada saat data dinormalisasi dengan Metode K-Means
Jadi seperti yang disarankan sebelumnya, normalisasi data membawa beberapa perbaikan dalam hal keseimbangan
cluster. Di bawah ini dapat dilihat distribusi cluster dari Hierarchical Clustering (lihat Gambar 21), Hierarchical
Clustering dengan 5 cluster yang dipaksakan (lihat Gambar 22), dan Clustering DBSCAN (lihat Gambar 23):
Gambar 21. Jumlah pelanggan pada setiap cluster dengan Hierarchical Clustering
130

Gambar 22. Jumlah pelanggan pada setiap cluster dengan Hierarchical Clustering dengan paksa 5 cluster
Gambar 23. Nomor pelanggan di setiap cluster dengan DBSCAN Clustering (-1 untuk noise)
Di bawah ini adalah Non-AI Clustering (lihat Gambar 24):
Gambar 24. Jumlah pelanggan di setiap cluster dengan Metode Pemasaran non-AI
Seperti terlihat di atas, perspektif bisnis (pemasaran) mengusulkan kelompok pelanggan yang lebih seimbang
dan strategi mayoritas adalah 'ABAIKAN' bagi pembelanja kecil dan jarang. Ketika metode AI lainnya
131

ditinjau dengan cara ini, tidak ada satupun yang serupa dengan pendekatan ini. Jadi inilah saatnya untuk mengingat kembali
Meskipun tidak ada metode AI dalam algoritme pengelompokan yang mengklaim solusi optimal, metode tersebut sulit untuk divalidasi
dan harus digunakan jika mereka menawarkan sesuatu yang intuitif.
Analisa lainnya adalah dengan memeriksa klaster-klaster tersebut dalam kaitannya dengan pendapatan tahunan, yaitu jumlah pengeluaran.
Poin data, pelanggan, di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini
sebagai hasil pengelompokan k-means (lihat Gambar 25):
Gambar 25. Stripplot pelanggan di setiap cluster berdasarkan model cluster 5 k-means.
Pelanggan di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini sebagai hasil dari
Pengelompokan hierarki dengan 2 cluster (lihat Gambar 26):
Gambar 26. Stripplot pelanggan tiap cluster berdasarkan Hierarchical Clustering & 2 cluster
132

Pengelompokan hierarki dengan 5 cluster (lihat Gambar 27):
Gambar 27. Stripplot pelanggan tiap cluster berdasarkan Hierarchical Clustering dengan 5 cluster
Pengelompokan DBSCAN (lihat Gambar 28):
Gambar 28. Stripplot pelanggan di setiap cluster berdasarkan DBSCAN Clustering (-1 untuk noise)
133

metode pemasaran non-AI (lihat Gambar 29):
Gambar 29. Stripplot pelanggan di setiap cluster berdasarkan Metode Pemasaran non-AI
Di sini tampak mengejutkan bahwa logika pemasaran yang didasarkan pada keterkinian, frekuensi, dan moneter tidak demikian
berkinerja baik dalam hal membedakan pembelanja besar dari pembelanja kecil. K-means dan hierarkis
metode pengelompokan menawarkan solusi yang tidak tumpang tindih dan lebih intuitif dibandingkan perspektif pemasaran.
Ketika algoritma hierarki dipaksa untuk menggunakan 5 cluster, cluster mulai tumpang tindih seperti yang terlihat pada Gambar
27. Namun demikian, solusi hierarkis tidak menawarkan solusi yang baik dari sudut pandang bisnis
karena hanya menyarankan 2 cluster. Kinerja DBSCAN juga dipertanyakan karena dua alasan. Pertama, di sana
ada beberapa tumpang tindih antara cluster no 0 dan 4 seperti terlihat pada Gambar 28 dan kedua, cluster kebisingan terlalu besar
dan ini mencakup semua pembelanja besar dan kecil secara acak. Mungkin tidak terlalu bagus untuk mengecualikan pelanggan sebanyak ini
dari analisis untuk pemasar.
Akibatnya, meskipun tidak ada satupun algoritma yang menawarkan solusi optimal yang jelas, solusi terbaiklah yang ditawarkan
berasal dari pengelompokan k-means. Masalah dengan pendekatan ini adalah cluster yang dihasilkan adalah
tidak seimbang dalam hal jumlah pelanggan di setiap cluster. Jadi, kapanpun ada masalah segmentasi
dipelajari, data itu sendiri memainkan peran penting dan beberapa metode harus diuji terhadap data tersebut agar dapat dilakukan
untuk menghasilkan cluster yang intuitif. Kini berbagai pendekatan diuji untuk dapat menemukan yang masuk akal
cluster, banyak ide muncul untuk masa depan sebagai perpanjangan dari pekerjaan ini yang dapat ditemukan di masa depan
bagian.
4.2. Pekerjaan masa depan
Karena tidak ada target mengenai seberapa padat seharusnya setiap cluster, sulit untuk memutuskan di mana cluster tersebut berada
untuk berhenti mencari metode pengelompokan yang lebih baik. Untuk sementara analisis dihentikan sampai berbeda
ide dapat dikembangkan. Dua cluster pelanggan dengan nilai pendapatan tertinggi hanya memiliki 2 dan 5 pelanggan di dalamnya. Dia
134

dapat memberikan hasil yang lebih baik jika kita menggabungkan cluster-cluster tersebut menjadi satu, atau bahkan mendapatkan cluster yang sedikit lebih besar sebagai cluster yang lebih jauh
mempelajari metode k-means.
Ekstensi lain dapat menjalankan algoritma k-means tanpa variabel random_state, biarkan
untuk mendapatkan hasil yang berbeda di setiap iterasi dan membandingkan hasilnya untuk menemukan opsi terbaik dari beberapa iterasi
iterasi.
Salah satu upaya di masa depan adalah penggunaan data pelanggan yang diskalakan ulang dan diubah untuk metode non-AI
demikian juga. Karena bahkan pengelompokan pemasaran pun memiliki beberapa tumpang tindih dalam hal pembelanjaan pelanggan. Di sana
Ada beberapa transaksi pendapatan berfrekuensi sangat tinggi dalam kumpulan data dan hal ini mungkin menghasilkan beberapa distorsi
ketika datang ke pengelompokan.
Sebagai ide penerapan terakhir, pendekatan kategorisasi dapat diubah menjadi non-AI (bisnis)
metode. Misalnya, pendapatan dari 2-5 dari 5 dianggap sebagai kategori pendapatan menengah-tinggi untuk 1-5
skala. Jika mid-high diubah menjadi 3-5 dari 5, kita akan mendapatkan lebih sedikit jumlah pelanggan di 'REWARD'
cluster yang terlihat terlalu besar pada solusi saat ini.
Yang terakhir, namun tidak kalah pentingnya, metode pengelompokan lainnya dapat dicoba untuk melihat apakah pengelompokan yang lebih baik dapat diperoleh
dengan pendekatan AI. Seluruh metode pengelompokan dianalisis dalam Bab 2 Tinjauan Pustaka. Yaitu, jaringan
algoritma pengelompokan berbasis dan berbasis model dapat diuji terhadap kumpulan data ini. Untuk pendekatan berbasis grid,
STING dan CLIQUE dapat digunakan. Dan untuk pendekatan berbasis model, metode statistik dan jaringan saraf
pendekatan dapat dimanfaatkan.
Ucapan Terima Kasih
Penulis menyatakan bahwa tidak ada konflik kepentingan.
Referensi
Ahmad, A., & Khan, SS (2019). Survei Algoritma Pengelompokan Data Campuran yang Canggih. Akses IEEE, 7, 31883-31902. https://
doi.org/10.1109/ACCESS.2019.2903568
Bawack, RE, Fosso Wamba, S., & Carillo, KDA (2021). Kerangka kerja untuk memahami penelitian kecerdasan buatan: wawasan dari
praktik. Jurnal Manajemen Informasi Perusahaan, 34(2), 645-678. https://doi.org/10.1108/JEIM-07-2020-0284
Bogensperger, A., & Fabel, YA (2021). pendekatan praktis untuk validasi klaster di sektor energi.
Informasi Energi 4, 18. https://doi.org/10.1186/s42162-021-00177-1
Borges, AFS, Laurindo, FJB, Spinola, MM, Goncalves, RF, & Mattos, CA (2021). Penggunaan strategis kecerdasan buatan di era
digital: Tinjauan literatur sistematis dan arah penelitian di masa depan. 10225. https://doi.org/10.1016/j.ijinfomgt.2020.102225
Jurnal Internasional Manajemen Informasi, 57,
Chen, D., Sain, SL, & Guo, K. (2012). Penambangan data untuk industri ritel online: Studi kasus segmentasi pelanggan berbasis model
RFM menggunakan penambangan data. Jurnal Pemasaran Basis Data dan 19(3), Manajemen Strategi Pelanggan, 197-208.
archive.ics.uci.edu/ml/datasets/online+retail https://
Erlich, Z., Gelbard, R., & Spiegler, I. (2016). Mengevaluasi model pengelompokan atribut positif untuk Sistem Jurnal data, 100-108.
pertambangan. Informasi Komputer https://doi.org/ 43(3),
10.1080/08874417.2003.11647523
Ester, M., Kriegel, HP, Sander, J., & Xu, X. (1996). Algoritma Berbasis Kepadatan untuk Menemukan Cluster di Database Spasial
Besar dengan Noise. Prosiding Konferensi Internasional ke-2 tentang Penemuan Pengetahuan dan Penambangan Data
(KDD-96), 226-231.
135

Fotaki, G., Spruit, M., Brinkkemper, S., & Meijer, D. (2014). Menjelajahi Peluang Big Data untuk Segmentasi
Pelanggan Online. Int. J. Bis. Intel. Res. 58–75. https://doi.org/
5(3),
10.4018/ijbir.2014070105
Gelbard, R., Goldman, O., & Spiegler, I. (2007). Menyelidiki keragaman metode pengelompokan:
Perbandingan empiris, Data & Pengetahuan 155-166. https://doi.org/10.1016/j.datak.2007.01.002
Rekayasa, 63(1),
Hackenberger, BK (2019). Data demi data, Data Besar. Jurnal medis Kroasia, 60(3), 290–292. https://doi.org/
10.3325/cmj.2019.60.290
Jung, A. (dalam tekan). Pembelajaran Mesin: Dasar-dasar. Tersedia daring pada
https://alexjungaalto.github.io/MLBasicsBook.pdf
Kaur, R., & Kaur, K. (2017). Penambangan Data pada Segmentasi Pelanggan: Tinjauan. Jurnal Internasional
Penelitian Lanjutan dalam Ilmu Komputer, 8(5).
Kovács, T., Ko, A., & Asemi, A. (2021). Eksplorasi pola investasi calon nasabah perbankan ritel menggunakan
analisis cluster dua tahap. J Data Besar 8, 141. https://doi.org/10.1186/s40537-021-
00529-4
Madhulata, TS (2012). Ikhtisar tentang metode pengelompokan. Jurnal Teknik IOSR, 2(4), 719-
725.
Mustapha, FZ, Haruna, AA, & Muhammad, UT (2020). Gambaran Umum Kecerdasan Buatan.
Jurnal Ilmu Terapan & Keberlanjutan Lingkungan, 6(12), 60-74.
Qian, C., Yang, M., Li, P., & Li, S. (2018). Penerapan Segmentasi Pelanggan Pengumpulan Tol Elektronik:
Studi Kasus. Jurnal Transportasi Tingkat Lanjut, ID Artikel 3635107. https://doi.org/
10.1155/2018/3635107
Siebert, M., Kohler, C., Scerri, A., & Tsatsaronis, G. (2018). Latar Belakang Teknis dan Metodologi Laporan
Kecerdasan Buatan Elsevier. 1-7. https://www.elsevier.com/?a=829143
Sun, Z.-H., Zuo, T.-Y., Liang, D., Ming, X., Chen, Z., & Qiu, S. (2021). GPHC: Pengelompokan heuristik
metode untuk segmentasi pelanggan. Komputasi Lunak Terapan, 111, https://doi.org/ 107677.
10.1016/j.asoc.2021.107677
Kelompok Minat Khusus Asosiasi Mesin Komputasi tentang Penemuan Pengetahuan dan Data
Pertambangan (SIGKDD). (2021). Pemenang Penghargaan Tes Waktu SIGKDD. https://www.kdd.org/
awards/view/2014-sikdd-test-of-time-award-winn
Tobin, S., Jayabalasingham, B., Huggett, S., & de Kleijn, M. (2019). Tinjauan Sejarah Singkat Penelitian
Kecerdasan Buatan. Layanan & Penggunaan Informasi, 39(4), 291-296. https://doi.org/10.3233/
ISU-190060
Vlacic, B., Corbo, L, dan Silva, SC, & Dabic, M. (2021). Peran kecerdasan buatan yang terus berkembang
dalam pemasaran, tinjauan dan agenda penelitian. Jurnal Riset Bisnis, 128, 187-203. https://doi.org/
10.1016/j.jbusres.2021.01.055
136

SLR - CUSTOMER SEGMENTATION WITH MACHINE - IDN - 1x

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

SLR - CUSTOMER SEGMENTATION WITH MACHINE - IDN - 1x

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Jurnal Ilmu Sosial dan Perilaku Eropa

SEGMENTASI PELANGGAN DENGAN MESIN

© 2022 Diterbitkan oleh Penerbit Eropa. www.EuropeanPublisher.com

ÿPenulis yang sesuai.

Diterima: 11 Februari 2022; Revisi: 20 Februari 2022; Diterima: 13 Maret 2022

https:// doi.org/ 10.15405/ ejsbs.316

komunikasi dan pengalaman pelanggan.

metode clustering terbaik ketika menghadapi masalah segmentasi pelanggan.

https:// doi.org/ 10.15405/ ejsbs.316

Gambar 1. Garis waktu kebijakan, peristiwa, dan terobosan penting di bidang AI

masyarakat dan implikasi etisnya (Tobin et al., 2019).

tingkat 2,3% per tahun pada periode yang sama.

Praktisi mengkarakterisasi AI berdasarkan empat kemampuan: persepsi, pemahaman, akting dan

terlihat pada Gambar 2.

https:// doi.org/ 10.15405/ ejsbs.316

Gambar 2. Kemampuan AI dan bidang terkait atau tren teknologi

Gambar 3. Kerangka kerja yang diusulkan untuk penelitian AI

https:// doi.org/ 10.15405/ ejsbs.316

manufaktur, jasa keuangan, jasa TI dan telekomunikasi, transportasi dan logistik,

memperkirakan dampak ekonomi AI di seluruh dunia, diperkirakan berdasarkan PDB.

https:// doi.org/ 10.15405/ ejsbs.316

Gambar 5. Prediksi Dampak Ekonomi AI di Seluruh Dunia

kesempatan untuk menemukan wawasan baru terhadap data yang ada.

menghitung kesamaan itu. Madhulatha (2012) mengidentifikasi 5 metode clustering:

https:// doi.org/ 10.15405/ ejsbs.316

DBSCAN dan SSN adalah dua algoritma tipikal semacam ini.

Tabel 1. Peringkat algoritma secara keseluruhan

Dua langkah 0,76 0,66

K-berarti 0,74 0,63

Pendekatan positif 0,71 0,59

metode Ward 0,70 0,56

Kahonen 0,70 0,56

Tetangga terjauh 0,66 0,51

Keterkaitan dalam kelompok 0,65 0,49

Pusat massa 0,62 0,45

Keterkaitan antar kelompok 0,57 0,38

median 0,56 0,36

Tetangga terdekat 0,42 0,16

Sumber: (Gelbard et al., 2007, hal. 161)

cluster oleh dunia bisnis (Erlich et al., 2016).

https:// doi.org/ 10.15405/ ejsbs.316

Gambar 6. Peta bidang penelitian pemasaran dan kecerdasan buatan

manajemen promosi, mencakup 4 p pemasaran: produk, harga, tempat, promosi.

https:// doi.org/ 10.15405/ ejsbs.316

analisis diberikan pada Gambar 7 dan Gambar 8 masing-masing.

Gambar 7. Analisis kutipan bersama

Gambar 8. Tren topik

https:// doi.org/ 10.15405/ ejsbs.316

efektivitas GPHC dalam memecahkan masalah segmentasi pelanggan.

penemuan bersama dengan pekerjaan terkait yang dipilih.

3.1. Data dan Model

pengalaman dan pengiriman produk yang relevan.

untuk mengelompokkan pelanggan.

https:// doi.org/ 10.15405/ ejsbs.316

Deskripsi adalah nama produk.

Kuantitas adalah jumlah setiap produk yang dibeli per transaksi.

UnitPrice adalah harga produk per unit dalam Euro.

pelanggan. Dari 541909 transaksi belanja tersebut teridentifikasi 4338 pelanggan.

algoritma seperti kmeans (algoritma partisi), pengelompokan hierarki (algoritma hierarki

dari masing-masing model disajikan pada Bagian 3 dan 4 artikel ini.

3.2. Analisis Data Eksplorasi (EDA)

gunanya menggunakan data itu sebagai data masukan.