Anda di halaman 1dari 26

Machine Translated by Google

Jurnal Ilmu Sosial dan Perilaku Eropa


EJSBS Jilid 31, Edisi 2 (eISSN: 2301-2218)

SEGMENTASI PELANGGAN DENGAN MESIN


BELAJAR UNTUK INDUSTRI RITEL ONLINE

Banu Turkmena *
Universitas Pangan dan Pertanian aKonya, 42080 Meram/ Konya, Turki

Abstrak

Dalam penelitian ini disajikan analisis komparatif berbagai teknik pada metode segmentasi pelanggan
berdasarkan data ritel online. Beberapa model pengelompokan pembelajaran mesin (ML) tanpa pengawasan
seperti model pengelompokan K-means, model pengelompokan hierarki, model Pengelompokan Spasial
Aplikasi dengan Kebisingan (DBSCAN) berbasis Kepadatan, dan model tradisional berdasarkan
pengelompokan terkini, frekuensi, dan moneter (RFM) dievaluasi berdasarkan wawasan yang ditawarkan
setiap model. Model tradisional disertakan dalam analisis karena model pengelompokan bukanlah model
optimasi dan kebaikan model tanpa pengawasan hanya dapat dievaluasi dengan pendekatan bisnis praktis.
Hasilnya dibagikan, dan setiap model dinilai dari segi kegunaannya untuk strategi pemasaran dan
komunikasi. Pada akhirnya, kekuatan dan kelemahan masing-masing model dibahas, dan metodologi
diusulkan untuk memilih metode pengelompokan terbaik ketika menghadapi masalah segmentasi
pelanggan. Disajikan juga tinjauan literatur secara detail yang mencakup perkembangan di bidang
kecerdasan buatan, model clustering di ML dan contoh penerapan segmentasi pelanggan di berbagai industri.

Kata Kunci: Segmentasi pelanggan, pembelajaran mesin, k-means clustering, hierarchical clustering, DBSCAN clustering

© 2022 Diterbitkan oleh Penerbit Eropa. www.EuropeanPublisher.com

ÿPenulis yang sesuai.


Alamat email: banu.turkmen@gidatarim.edu.tr

doi: 10.15405/ejsbs.316

Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution-NonCommercial-NoDerivatives 4.0.

Diterima: 11 Februari 2022; Revisi: 20 Februari 2022; Diterima: 13 Maret 2022


Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

1. Perkenalan

Artikel ini bertujuan untuk menghadirkan pendekatan baru untuk memecahkan masalah segmentasi pelanggan lama. Pelanggan

segmentasi adalah dasar untuk memahami perilaku pembelian yang penting dalam penetapan harga dan permintaan

meramalkan keputusan bisnis apa pun. Saat ini banyak upaya yang dilakukan untuk memahami segmen pelanggan yang akan dituju

mampu melayani mereka dengan cara terbaik dengan mempertimbangkan portofolio produk, harga, pemasaran,

komunikasi dan pengalaman pelanggan.

Dalam penelitian ini disajikan analisis komparatif berbagai teknik mengenai segmentasi pelanggan

metode berdasarkan data ritel online. Beberapa model pengelompokan Machine Learning (ML) dan tradisional

model (Keterkinian, Frekuensi, dan Moneter) dievaluasi berdasarkan wawasan yang ditawarkan setiap model. Pada

Pada akhirnya, kekuatan dan kelemahan masing-masing model dibahas dan metodologi diusulkan untuk dipilih

metode clustering terbaik ketika menghadapi masalah segmentasi pelanggan.

Sisa dari makalah ini disusun sebagai berikut. Di Bagian 2, tinjauan literatur terperinci disajikan

diberikan pada kecerdasan buatan (AI), model pengelompokan dan masalah segmentasi pelanggan di berbagai bidang

industri. Bagian 3 menjelaskan data, model dan analisis data eksplorasi yang menyertainya. Di dalam

Bagian 4, kesimpulan dirangkum bersama dengan hasil masing-masing model dan diskusi singkat mengenai masa depan

bekerja.

2. Tinjauan Pustaka

Tinjauan literatur rinci dalam tiga bidang yaitu; AI, model pengelompokan dan segmentasi pelanggan

disajikan pada bagian ini. Salah satu tantangan terbesar bagi dunia bisnis saat ini adalah kecepatan

pengambilan keputusan. Perkembangan terkini dalam ilmu komputer dan teknologi pemrosesan data memungkinkan

perusahaan untuk bertindak lebih cepat, dilengkapi dengan data yang lebih besar dari sebelumnya. Pada saat yang sama, ada lebih banyak pelanggan

menuntut dari sebelumnya dilengkapi dengan lebih banyak pengetahuan tentang produk dan layanan yang tersedia. Kebutuhan akan keputusan

menjadi lebih didorong oleh data agar mampu bertahan di pasar. Fotaki dkk. (2014) menyatakan bahwa teknik baru adalah

diperlukan untuk mengelola dan menganalisis data dalam jumlah besar, dan disinilah konsep Big Data

dapat memainkan peran penting. Hackenberger (2019) membahas data 9 V termasuk 3 fitur utama volume,

kecepatan, dan variasi yang membedakan data normal dengan data besar.

Garis waktu sejarah penelitian di bidang Kecerdasan Buatan (AI) menggambarkan enam puluh tahun

perjalanan. Beberapa peristiwa, kebijakan, dan terobosan penting di bidang AI ditunjukkan pada Gambar

1 di bawah (Tobin et al., 2019). Dalam hal kemajuan teknologi, penelitian tentang jaringan saraf dimulai

memenangkan kompetisi visi dan pidato pada tahun 2005 dan merupakan subbidang penelitian yang dominan pada tahun 2009.

112
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 1. Garis waktu kebijakan, peristiwa, dan terobosan penting di bidang AI

Kebijakan nasional dan regional terkini mencerminkan pentingnya daya saing di bidang ini

untuk investasi besar, serta kebutuhan untuk mengatasi perubahan besar yang akan ditimbulkan oleh AI terhadap manusia

masyarakat dan implikasi etisnya (Tobin et al., 2019).

Penurunan biaya daya komputasi dipadukan dengan peningkatan ketersediaan kumpulan data yang besar

mesin pelatihan menyebabkan tingkat pertumbuhan yang tinggi dalam publikasi AI menurut Scopus, abstrak dan kutipan

basis data (Siebert dkk, 2018). Mereka mengklaim bidang penelitian AI menghasilkan sekitar enam puluh ribu

publikasi per tahun. Secara global, bidang AI telah menunjukkan pertumbuhan yang kuat sebesar 12,9% per tahun dalam lima tahun terakhir

tahun (1998-2017). Dan pertumbuhan ini lebih tinggi dari pertumbuhan yang terlihat di semua penelitian yang mengalami pertumbuhan

tingkat 2,3% per tahun pada periode yang sama.

Praktisi mengkarakterisasi AI berdasarkan empat kemampuan: persepsi, pemahaman, akting dan

pembelajaran (Bawack et al., 2021). Kemampuan suatu sistem untuk memahami lingkungannya, memahami maksudnya, dan

konteks, mengambil tindakan yang tepat dan belajar dari pengalaman. Oleh karena itu, sistem yang dapat membuat prediksi,

memberikan rekomendasi dan berinteraksi dengan manusia berdasarkan keempat kemampuan inilah yang saat ini disebut AI

terlihat pada Gambar 2.

113
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 2. Kemampuan AI dan bidang terkait atau tren teknologi

Sistem informasi sebagian besar telah mengadopsi AI sebagai perspektif kemampuan AI. Kebanyakan penelitian fokus pada

menggunakan AI sebagai alat pembelajaran; menggunakan pembelajaran mesin dan algoritma pembelajaran mendalam, dikombinasikan dengan NLP

untuk memahami kemampuan. Ini digunakan untuk peramalan, prediksi, dan pengoptimalan oleh banyak industri.

Kerangka kerja untuk arah penelitian di masa depan disarankan oleh Bawack dkk. (2021) seperti pada Gambar 3:

Gambar 3. Kerangka kerja yang diusulkan untuk penelitian AI

114
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Bawack dkk. (2021) mencantumkan berbagai macam aplikasi AI dan bidang penelitian baru di bidang kesehatan

perawatan, pendidikan, makanan, layanan internet, ritel, pemasaran, penjualan dan periklanan, layanan industri dan

manufaktur, jasa keuangan, jasa TI dan telekomunikasi, transportasi dan logistik,

ritel dan jasa otomotif, hotel, perjalanan, restoran dan rekreasi, dirgantara dan pertahanan, media, massa

komunikasi dan hiburan, energi dan utilitas, layanan publik dan masyarakat dengan segala aplikasinya

dan bidang penelitian yang sedang berkembang dan juga dengan topik yang diminati per industri.

Borges dkk. (2021) berfokus pada isu-isu yang terkait dengan penggunaan praktis dan kurangnya pengetahuan mengenai hal tersebut

menggunakan AI secara strategis untuk menciptakan nilai bisnis. Mereka menyajikan kerangka konseptual

berdasarkan empat sumber penciptaan nilai: dukungan keputusan, keterlibatan pelanggan dan karyawan,

otomatisasi, produk dan layanan baru. Peta antara alat AI dan strategi bisnis diberikan pada Gambar

4.

Gambar 4. Literatur tentang titik temu antara penggunaan alat AI dan strategi bisnis.

Mereka mengklaim peta ini relevan dengan perspektif teoritis dan manajerial dengan peluang

untuk menghasilkan teori baru dan bentuk praktik manajemen baru. Penggunaan teknologi AI secara strategis telah

belum dieksplorasi dengan baik menurut penelitian ini (Borges et al., 2021).

Tinjauan berharga lainnya disajikan oleh Mustapha dkk. (2020). Diskusi mereka sebagian besar berlangsung

komponen AI yang terdaftar sebagai sistem pakar, pemecahan masalah heuristik, bahasa alami

pemrosesan dan penglihatan. Mereka juga menganalisis dampak finansial dari AI. Dikatakan bahwa pendapatan dari

pasar AI di seluruh dunia berjumlah sekitar 260 miliar dolar AS pada tahun 2016 dan diperkirakan melebihi $3.060

miliar pada tahun 2024. Hal ini berdampak langsung pada aplikasi robotik, termasuk kerangka luar, rehabilitasi,

robot bedah dan bot perawatan pribadi. Dampak ekonomi dalam 10 tahun ke depan diperkirakan antara

$1,49 dan $2,95 triliun. Perkiraan ini didasarkan pada tolok ukur yang memperhitungkan hal serupa

pencapaian teknologi seperti broadband, telepon seluler, dan robot industri. Gambar 5 menunjukkan

memperkirakan dampak ekonomi AI di seluruh dunia, diperkirakan berdasarkan PDB.

115
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 5. Prediksi Dampak Ekonomi AI di Seluruh Dunia

Menurut Mustapha dkk. (2020), AI tidak memberikan dampak besar secara langsung terhadap kehidupan masyarakat umum

hingga saat ini, dan masih terbatas pada beberapa bidang seperti militer, luar angkasa, industri, medis, jaringan netral dan

geologi. Namun, dengan adanya penelitian dan kemajuan ekstensif di bidang AI pada akhir tahun 2035, hal tersebut menjadi kenyataan

diharapkan, kita akan mampu menjauh dari mesin-mesin masa kini yang tentu saja berbobot

manual mengenai bahasa mesin, dan tentu saja, mengembangkan mesin yang mampu

memahami manusia seutuhnya. Oleh karena itu, kita juga akan memiliki robot sebagai dokter di rumah sakit, profesor di rumah sakit

ruang kelas, supir bus. Akibatnya, itu akan menjadi era transhumanisme dimana manusia

dan mesin bergabung menjadi cyborg atau organisme cybernetic yang lebih mampu dan kuat dibandingkan keduanya.

Karena penelitian ini menggunakan pengelompokan sebagai metodenya, mari kita fokus pada algoritma ini sedikit lebih detail.

Clustering merupakan salah satu permasalahan data mining yang penting, terutama untuk analisis big data, dimana volumenya besar

data harus dikelompokkan. Big data adalah istilah untuk kumpulan kumpulan data yang begitu besar dan kompleks

sulit untuk diproses menggunakan alat pemrosesan data tradisional. Big data dapat dicirikan oleh tiga V:

volume (data dalam jumlah besar), variasi (mencakup berbagai jenis data), dan kecepatan (secara konstan

mengumpulkan data baru). Big data bukan hanya tentang banyaknya data, namun sebenarnya merupakan sebuah konsep baru yang memberikan solusi

kesempatan untuk menemukan wawasan baru terhadap data yang ada.

Clustering adalah membagi subjek yang diminati menjadi beberapa kelompok agar lebih banyak

kesamaan dalam kelompok yang sama dibandingkan subjek dalam kelompok lain. Seringkali ukuran jarak digunakan untuk

menghitung kesamaan itu. Madhulatha (2012) mengidentifikasi 5 metode clustering:

1) Algoritme hierarki menemukan cluster yang berurutan menggunakan cluster yang telah ditetapkan sebelumnya. Itu bisa saja

aglomeratif (bottom-up) atau memecah-belah (top-down). Algoritma aglomeratif dimulai dengan masing-masing

elemen sebagai cluster terpisah dan menggabungkannya dalam cluster yang lebih besar secara berturut-turut. Algoritma yang memecah belah

mulailah dengan keseluruhan rangkaian dan lanjutkan dengan membaginya menjadi kelompok-kelompok yang lebih kecil secara berurutan.

2) Algoritma partisi didasarkan pada penentuan jumlah awal grup, dan secara iteratif

mengalokasikan kembali objek di antara kelompok ke konvergensi. Algoritma ini biasanya menentukan semua cluster

116
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

sekaligus. Sebagian besar aplikasi mengadopsi salah satu dari dua metode heuristik populer seperti algoritma k-means dan

algoritma k-medoids.

3) Algoritma pengelompokan berbasis kepadatan dirancang untuk menemukan cluster berbentuk sewenang-wenang. Di dalam

Pendekatan ini, cluster dianggap sebagai wilayah di mana kepadatan objek data melebihi ambang batas.

DBSCAN dan SSN adalah dua algoritma tipikal semacam ini.

4) Pendekatan clustering berbasis grid menggunakan struktur data grid multiresolusi. Ini mengkuantifikasi

ruang menjadi sejumlah sel terbatas yang membentuk struktur grid tempat semua operasi dilakukan

pengelompokan dilakukan. Pendekatan grid mencakup pendekatan STING (STatistical INformation Grid).

dan KLIK

5) Metode Clustering Berbasis Model berupaya mengoptimalkan kesesuaian antara data yang diberikan dan beberapa data

model matematika. Metode seperti ini seringkali didasarkan pada asumsi bahwa data tersebut dihasilkan

oleh campuran distribusi probabilitas yang mendasarinya. Metode Pengelompokan Berbasis Model mengikuti dua

pendekatan utama: Pendekatan Statistik atau pendekatan jaringan saraf. (hlm. 719-723)

Clustering bukanlah masalah optimasi, yang membuat solusi dan hasilnya sebanding

deskriptif dan sulit digeneralisasikan. Solusi terbaik bergantung pada pilihan dan asumsi pengguna

tentang masalahnya. Jadi, keahlian di bidang domain diperlukan untuk mengevaluasi solusi yang berbeda. Stabilitas

hasil dan ketahanan cluster yang disarankan dapat dianggap sebagai parameter kinerja.

Ada penelitian menarik lainnya dari Gelbard et al. (2007). Mereka membandingkan metode pengelompokan dengan

asumsi mendasar mereka terhadap empat kumpulan data yang diketahui. Mereka mengklaim berbagai metode tidak dapat diprediksi

karena sulitnya mengevaluasi validitas asumsi yang relevan. Mereka mengklaim kinerja cluster adalah

bergantung pada algoritma dan memberi peringkat algoritma seperti pada Tabel 1 berdasarkan skor yang cocok.

Tabel 1. Peringkat algoritma secara keseluruhan

Algoritma Skor rata - rata Skor Rata-rata berdasarkan nilai yang dinormalisasi

Dua langkah 0,76 0,66

K-berarti 0,74 0,63

Pendekatan positif 0,71 0,59

metode Ward 0,70 0,56

Kahonen 0,70 0,56

Tetangga terjauh 0,66 0,51

Keterkaitan dalam kelompok 0,65 0,49

Pusat massa 0,62 0,45

Keterkaitan antar kelompok 0,57 0,38

median 0,56 0,36

Tetangga terdekat 0,42 0,16

Sumber: (Gelbard et al., 2007, hal. 161)

Penggunaan pengelompokan diperkirakan akan digunakan secara luas dalam perdagangan dalam waktu dekat, namun tingkat adopsinya akan meningkat

lambat karena non-standarisasi metode, ketidakpastian, kesulitan dalam evaluasi dan kegunaan

cluster oleh dunia bisnis (Erlich et al., 2016).

Meskipun disebutkan bahwa penggunaan AI dalam konteks bisnis sangat terbatas dan didasarkan pada

potensi teknologi dari beberapa perusahaan besar tertentu daripada kebutuhan bisnis itu sendiri, pemasaran adalah a

117
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

area yang relatif tereksplorasi dengan baik di mana AI digunakan. Dalam bidang pemasaran, artikel pertama yang disebutkan adalah a

tinjauan digambarkan sebagai lintasan bidang penelitian pemasaran dan AI (Vlacic et al., 2021). Mereka mengulas

164 artikel diterbitkan di jurnal terindeks Web of Science dan Scopus (antara 1987 dan 2020 tetapi sebagian besar

baru-baru ini - setelah tahun 2017 dan seterusnya) dan mengembangkan agenda penelitian dengan konteks spesifik berdasarkan artikel-artikel tersebut.

Analisis mereka didasarkan pada: adopsi, penggunaan, penerimaan teknologi AI dalam pemasaran, peran perlindungan data

dan etika, peran dukungan kelembagaan untuk pemasaran AI, revolusi pasar tenaga kerja dan kompetensi pemasar

perspektif kompetensi. Mereka menggambarkan domain penelitian beserta kutub dimensinya seperti pada Gambar

6 menggunakan informasi 21 deskriptor dalam dua dimensi menggunakan analisis konten yang dikombinasikan dengan Homals

teknik statistik. Proporsi varians yang dijelaskan oleh masing-masing kutub menyumbang 22,21% varians.

Gambar 6. Peta bidang penelitian pemasaran dan kecerdasan buatan

Mereka menunjukkan potensi kesenjangan penelitian dan peluang penelitian di masa depan berdasarkan jarak

antara deskriptor yang diberikan dalam peta ini. Semakin besar jaraknya, semakin kecil keterkaitannya dengan hal tersebut

memberikan lebih banyak peluang untuk dieksplorasi. Mereka juga melakukan analisis yang sangat baik terhadap apa yang disebut sebagai fondasi

yaitu: Teori perilaku, manajemen hubungan pelanggan, pandangan berbasis pengetahuan dan jaringan

teori. Penelitian ini berbeda dengan penelitian sebelumnya mengenai hubungan AI dan pemasaran sejak saat itu

tinjauan sebelumnya merupakan tinjauan berdasarkan pakar dan tinjauan ini menawarkan gambaran perkembangan yang lebih obyektif

AI dan analisis pemasaran dan kutipan. Mereka juga mengusulkan tema penelitian masa depan terkait adopsi dan

penggunaan AI, penerimaan teknologi AI, revolusi pasar tenaga kerja dan kompetensi pemasar, peran

dukungan kelembagaan, pentingnya perlindungan data dan etika, wabah COVID-19 yang terjadi baru-baru ini

tantangan teknologi dan perilaku tambahan. Mereka menyajikan gambaran menarik berdasarkan kegunaannya

AI di; strategi dan perencanaan, manajemen produk, manajemen harga, manajemen tempat, dan

manajemen promosi, mencakup 4 p pemasaran: produk, harga, tempat, promosi.

Analisis menarik lainnya mengulas studi tentang AI dan pemasaran yang berfokus pada pelanggan

pengalaman dan revolusi industri ke-4 (Jung, sedang dicetak). Mereka memberikan pandangan holistik tentang penggunaan AI

118
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

meningkatkan pengalaman pelanggan. Mereka juga berupaya mengumpulkan studi penelitian tentang AI dalam pemasaran

menggunakan analisis bibliometrik dan analisis ko-sitasi. Berdasarkan penelitian mereka, co-cite dan trend topik

analisis diberikan pada Gambar 7 dan Gambar 8 masing-masing.

Gambar 7. Analisis kutipan bersama

Gambar 8. Tren topik

Ada studi kasus oleh Qian et al. dimana segmentasi pelanggan penagihan tol elektronik (ETC).

dibangun berdasarkan pendekatan pohon keputusan. Dengan demikian, hasil empiris menunjukkan bahwa pohon keputusan

Metode ini lebih mampu menganalisis karakteristik perjalanan, nilai masa kini, dan potensi apresiasi untuk DLL

klasifikasi pelanggan (Qian et al., 2018). Studi implementasi segmentasi pelanggan baru-baru ini

peta pengorganisasian mandiri Kohonen berbasis jaringan saraf pengelompokan dua tahap untuk investasi ritel

nasabah perbankan (Kovács dkk., 2021). Mereka mengklaim dapat mengidentifikasi kelompok pelanggan potensial dengan hal serupa

preferensi mereka dan mendapatkan wawasan tentang pola investasi mereka. Penelitian lainnya adalah di bidang tanpa pengawasan

119
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

algoritma clustering yang diterapkan di sektor energi (Bogensperger & Fabel, 2021). Matahari dkk. (2021)

mengembangkan metode pengelompokan heuristik untuk segmentasi pelanggan, yang disebut Gaussian Peak Heuristic

Clustering (GPHC) menangani data kebutuhan pelanggan. Mereka menyajikan kasus praktis untuk menggambarkan hal tersebut

efektivitas GPHC dalam memecahkan masalah segmentasi pelanggan.

Terakhir, ada beberapa tinjauan literatur yang dapat disebutkan. Ahmad dan Khan (2019) menyajikan taksonomi

untuk kajian algoritma pengelompokan data dibagi menjadi lima tema penelitian besar yaitu partisi,

hierarki, berbasis model, berbasis jaringan saraf, dan lain-lain. Ulasan lain oleh Kaur dan Kaur (2017)

berfokus pada teknik penambangan data pada segmentasi pelanggan, yang mencakup clustering dan subgrup

penemuan bersama dengan pekerjaan terkait yang dipilih.

3. AI dalam Praktek

3.1. Data dan Model

Tulisan ini merupakan investigasi terhadap data belanja ritel online dan apa saja yang dapat dikeluarkan dari data tersebut

untuk mendapatkan wawasan tentang pelanggan yang dapat digunakan dalam kegiatan pemasaran dan penjualan potensial. Sebagai akibat

Dari penelitian ini, ditemukan bahwa kecerdasan buatan (AI) dapat membantu memanfaatkan sumber daya yang terbatas secara maksimal

cara yang efektif ketika menargetkan pelanggan. Segmentasi pelanggan yang efektif membawa manfaat seperti

kegiatan pemasaran yang efektif, keputusan promosi yang tepat, mengidentifikasi tren pelanggan yang lebih baik

pengalaman dan pengiriman produk yang relevan.

Data belanja yang digunakan dalam penelitian ini tersedia untuk umum dan pendekatan ini dapat digunakan untuk ritel mana pun

konteks belanja. Mari kita kenali dulu data, model dan loss yang merupakan komponen utama mesin

sedang belajar. Metode trial and error dalam hal pemilihan model dan normalisasi data digunakan dalam penelitian ini

untuk mengelompokkan pelanggan.

Pelanggan dikelompokkan ke dalam cluster sehingga dapat diidentifikasi sebagai pelanggan setia, acak

pembeli jarang, pelanggan yang berpotensi menjadi pelanggan setia, pembelanja besar, pembelanja kecil, dll.

Tidak ada data yang diberi label dalam masalah ini tetapi berdasarkan pengeluaran pelanggan, seberapa sering mereka berbelanja dan

kapan terakhir kali mereka berbelanja, beberapa kesimpulan diambil untuk menentukan pemasaran dan penjualan

strategi. Misalnya, kemudahan komunikasi penting bagi pelanggan tingkat loyalitas dan hal ini diasumsikan

bahwa mereka membutuhkan pengakuan atas kesetiaan mereka. Strategi lainnya adalah menentukan kebijakan pengiriman

berdasarkan cluster pelanggan. Misalnya, jika pelanggan berasal dari kelompok pelanggan setia tingkat atas,

mereka mendapatkan pengiriman gratis. Jika mereka berasal dari kelas bawah atau menengah, mereka akan membayar atau mendapatkan keuntungan dari pengiriman gratis

tergantung pada kasus belanja. Jika pelanggan diidentifikasi berpotensi loyal, mereka akan menerima retensi

manfaat seperti diskon khusus berdasarkan volume atau produk paket yang dirancang untuk meningkatkan penjualan

tujuan. Tergantung pada labelnya, jika pelanggan adalah pembelanja yang jarang dan kecil, disarankan untuk tidak berinvestasi

waktu, uang, dan energi untuk pelanggan ini dari perspektif bisnis. Label cluster ini dapat digunakan

dalam komunikasi, promosi, kebijakan pengiriman, voucher khusus, dan diskon sebagai strategi pemasaran.

Terdapat 541909 titik data dengan 8 fitur. Datanya terbuka untuk umum dan dikenal sebagai ritel online

data (Chen dkk. 2012). Setiap titik data berhubungan dengan satu transaksi dengan rincian nomor faktur,

tanggal, produk dengan kode stok, jumlah, harga dan pengenal pelanggan serta negara tempat tinggal

pelanggan. InvoiceNo adalah nomor Faktur, yang ditetapkan secara unik untuk setiap transaksi.

120
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

StockCode adalah kode produk, yang ditetapkan secara unik untuk setiap produk berbeda.

Deskripsi adalah nama produk.

Kuantitas adalah jumlah setiap produk yang dibeli per transaksi.

InvoiceDate adalah tanggal dan waktu Faktur bersama-sama, hari dan waktu yang menunjukkan setiap transaksi

terjadi.

UnitPrice adalah harga produk per unit dalam Euro.

CustomerID, 5 digit nomor yang diberikan secara unik kepada setiap pelanggan.

Negara adalah nama negara tempat tinggal setiap pelanggan. Label adalah nomor cluster per

pelanggan. Dari 541909 transaksi belanja tersebut teridentifikasi 4338 pelanggan.

Berbagai teknik clustering diuji dalam penelitian ini. Semuanya adalah pembelajaran mesin tanpa pengawasan

algoritma seperti kmeans (algoritma partisi), pengelompokan hierarki (algoritma hierarki

pendekatan aglomerasi atau pendekatan bottom up dari daun sampai ke akar), Pengelompokan Spasial Berbasis Kepadatan

Aplikasi dengan Kebisingan (algoritma berbasis kepadatan DBSCAN). Setiap algoritma mempunyai kelebihannya masing-masing

dan kekurangannya. Pengelompokan lain berdasarkan perspektif bisnis dihasilkan yang tidak ada hubungannya

lakukan dengan AI tetapi harus dibandingkan dengan cluster yang dihasilkan oleh algoritma AI. Detail temuannya

dari masing-masing model disajikan pada Bagian 3 dan 4 artikel ini.

Analisis Data Eksplorasi Pertama dilakukan untuk memvisualisasikan, merangkum dan menafsirkan informasi itu

tersembunyi dalam data. Pada bagian kedua, wawasan diambil, fitur data digunakan untuk mesin tanpa pengawasan

pemodelan pembelajaran untuk mengelompokkan pelanggan. Pada bagian akhir, keluaran dari beberapa model dibahas

dan cluster dibandingkan untuk memilih model yang paling sesuai dari sudut pandang bisnis.

3.2. Analisis Data Eksplorasi (EDA)

Data yang hilang dianalisis, dan diputuskan bahwa baris ID Pelanggan nol harus dihapus dari

ditetapkan sejak kami mencoba mendapatkan wawasan tentang pelanggan. Jika kita tidak dapat mengidentifikasi siapa setiap pelanggan, maka tidak ada

gunanya menggunakan data itu sebagai data masukan.

Kolom baru ditambahkan menggunakan kumpulan data asli yang dapat berguna untuk analisis data lebih lanjut:

pendapatan, hari, dp, bulan, tahun, dow. Pendapatan diperoleh dengan mengalikan Quantity dan UnitPrice. Untuk apa pun

angka pendapatan perusahaan ritel penting untuk menarik kesimpulan tentang kelompok pelanggan. Hari menunjukkan caranya

beberapa hari setelah (min) Tanggal Faktur pertama pembelian selesai. Dp singkatan dari hari sebelumnya dan menunjukkan caranya

beberapa hari sebelum tanggal transaksi terakhir yang tersedia pembelian dilakukan. Nilai-nilai ini kemudian digunakan

menghitung frekuensi pembelian dan kapan transaksi terakhir terjadi berdasarkan masing-masing pelanggan

dalam kumpulan data. Bulan, tahun dan dow yaitu, hari dalam seminggu semuanya berasal dari tanggal faktur.

Pendapatan per negara, produk, bulan dan hari dalam seminggu diperiksa. Satu hari dalam seminggu hilang

dari kumpulan data. Plot kotak dan matriks korelasi digunakan untuk mengidentifikasi outlier dalam kumpulan data. Pendapatan

dan kuantitas memiliki korelasi yang tinggi (0,886) dan pendapatan dipilih sebagai ukuran yang lebih signifikan dari a

sudut pandang bisnis. Kuantitas dan harga negatif dihilangkan karena tidak masuk akal. Beberapa

baris duplikat diidentifikasi dan dihapus. Subkumpulan data ditentukan per pelanggan berdasarkan total pendapatan,

frekuensi belanja dan kekinian transaksi terakhir dan kumpulan data ini digabungkan (digabung) dalam yang baru

kumpulan data pelanggan awalnya disebut dfc.

121
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

3.3. Pembelajaran Mesin Tanpa Pengawasan

3.3.1. K Berarti Pengelompokan

Metode clustering pertama yang diuji dalam lingkup penelitian ini adalah k mean clustering. K-means menentukan

k centroid dalam data dan titik cluster dengan menugaskannya ke centroid terdekat.

Pengklasifikasi hutan acak digunakan untuk mengidentifikasi fitur-fitur penting dari kumpulan data pelanggan seperti yang ditunjukkan pada

Gambar 9. Akibatnya, fitur beberapa hari sebelumnya dengan skor signifikansi terendah (0,03694) dihapus untuk beberapa

bagian dari analisis.

Gambar 9. Hutan Acak untuk Kepentingan Fitur

Subset dibuat untuk nomor cluster tertentu dari 3 hingga 8. Kurva siku digambar (lihat Gambar 10),

dan skor Silhouette dihitung (lihat Gambar 11) untuk mendapatkan petunjuk tentang jumlah cluster terbaik seperti yang terlihat

di bawah. Skor Siluet 1 berarti cluster sangat padat dan terpisah dengan baik. Skor 0

berarti clusternya tumpang tindih. Skor yang kurang dari 0 berarti data tersebut mungkin termasuk dalam cluster

salah/salah.

Gambar 10. Kurva Siku dari Kumpulan Data Pelanggan yang Diskalakan Ulang dan Ditransformasikan

122
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 11. Siluet skor potensi jumlah klaster

Jadi, breakpoint dapat dilihat pada n=3 dan break lebih ringan pada n=5 pada kurva siku.

Ketika skor siluet diperiksa, 2 cluster memiliki skor tertinggi tetapi dari sudut pandang bisnis

pandangan, diinginkan untuk membedakan pelanggan menjadi lebih banyak cluster jika memungkinkan. Skornya meningkat dibandingkan

menjadi 4 cluster ketika kita memiliki 5 cluster. Ini memberikan petunjuk bahwa 5 cluster mungkin merupakan ide yang bagus. Sekali lagi, serupa

pada hasil kurva siku, 4 cluster terlihat lebih buruk daripada 3 cluster dan 5 cluster. Jadi, kedua sikunya melengkung

dan skor siluet menunjukkan bahwa kita harus memiliki 3 atau 5 cluster di akhir.

Cluster-cluster tersebut dibandingkan berdasarkan plotnya pada gambar di bawah ini (lihat gambar 12).

Gambar 12. K Berarti plot cluster untuk berbagai pilihan nomor cluster dari 3 sampai 8 cluster

Seperti yang terlihat dalam plot ini, mengkategorikan pelanggan berdasarkan pendapatan masuk akal dari sudut pandang bisnis

pandangan dan lebih baik membedakan pelanggan yang membelanjakan 15.000 euro daripada 25.000 euro per tahun. 5-

Pendekatan klaster sekali lagi terlihat lebih baik dalam hal cukup membedakan berdasarkan pendapatan yang berasal dari

pelanggan.

123
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Jumlah pelanggan pada model dengan 5 cluster ditunjukkan di bawah ini (lihat Gambar 13):

Gambar 13. Jumlah pelanggan di setiap cluster pada model clustering K-means.

Karena jumlah total pelanggan di cluster pendapatan tertinggi sangat kecil, kita bisa memikirkannya

bergabung dengan cluster 1 dan cluster 4 untuk memiliki strategi untuk 7 akun tipe korporat ini. Ini dianggap sebagai

perpanjangan kerja di masa depan.

Kami melihat pelanggan cluster 1 dan cluster 4 sebagai pelanggan dengan pembelanjaan tahunan tertinggi

frekuensi dan pembelian terbaru. Jumlah mereka sangat sedikit. Pada dasarnya 14% dari total pendapatan adalah

berasal dari 7 pelanggan ini dari 4338 pelanggan. Klaster 2 mewakili kelompok loyal belanja yang lebih tinggi berikutnya

pelanggan aktif dan dengan pembelian terbaru. Cluster 3 merupakan pelanggan dengan pembelanjaan tertinggi ketiga

transaksi yang cukup aktif dan cukup baru. Cluster 0 mewakili pelanggan dengan nilai terendah

menghasilkan pendapatan terendah, tidak aktif dengan pembelian acak yang sangat jarang. Mereka adalah pelanggan tertinggi

jumlahnya namun tidak memerlukan perhatian khusus dalam hal pemasaran dan penjualan.

Pelanggan cluster 1 dan cluster 4, dengan kata lain 7 akun tersebut bisa diberi hadiah kejutan

karena mereka adalah pelanggan tingkat atas kami dan harus ditangani secara individual. Fokus pemasarannya seharusnya

pada cluster 2 untuk menjaga basis loyal dan kemudian cluster 3 yang merupakan calon pelanggan setia dan seharusnya

diikuti dengan cermat. Sebagai kesimpulan dari cluster yang dihasilkan, dapat dipastikan bahwa outlier ada di cluster tersebut

kumpulan data mungkin menyebabkan beberapa masalah dalam pengelompokan. Pencilan ini tidak dihapus dari kumpulan data,

sengaja, karena perilaku ekstrem ini penting untuk diidentifikasi dan ditargetkan oleh pemasar. Jika ada

segelintir pembelanja yang sangat besar dalam data, tentunya mereka tidak boleh dihilangkan dari radar para pemasar.

Meskipun k-means mudah dipahami dan diimplementasikan dalam praktik, algoritmanya diketahui tidak memiliki gagasan apa pun

outlier, sehingga semua titik ditugaskan ke cluster meskipun mereka tidak termasuk dalam cluster mana pun. Dalam domain anomali

deteksi, hal ini menyebabkan masalah karena titik anomali akan ditempatkan pada cluster yang sama dengan data “normal”.

poin. Titik-titik anomali menarik pusat massa cluster ke arahnya, sehingga lebih sulit untuk mengklasifikasikannya

poin anomali. Ini adalah kelemahan terbesar dari pengelompokan k-means.

3.3.2. Pengelompokan Hierarki

Karena pengelompokan k-means bukanlah solusi yang jelas atau optimal, metode lain diuji untuk mengatasi hal ini

Himpunan data. Seperti yang dibahas di bagian tinjauan literatur makalah ini, metode pengelompokan lebih banyak membahas tentang

kumpulan data dan algoritma yang digunakan daripada pengetahuan domain dan biasanya memberikan hasil yang tidak dapat diprediksi

cluster. Keuntungan dari pengelompokan hierarki adalah tidak harus menentukan terlebih dahulu jumlah cluster

cukup unggul dibandingkan pengelompokan k-means. Di sini algoritma pengelompokan aglomeratif digunakan dan relevan

dendrogram ditemukan seperti pada Gambar 14.

124
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Seleksi Banu
Turkmenistan & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 14. Dendrogram yang diperoleh dari pengelompokan hierarki menunjukkan jumlah titik dalam node

Seperti yang ditunjukkan oleh dendrogram ini, 2 cluster (hijau dan merah) dipotong oleh garis putus-putus merah dan

dibuat. Titik data ditunjukkan seperti di bawah ini (lihat gambar 15) berdasarkan metode pengelompokan hierarki ini:

Gambar 15. Plot klaster hierarki menggunakan pendekatan aglomerasi bottom-up.

Meskipun metode ini jelas menyarankan 2 cluster saja, 5 cluster dipaksa menggunakan hierarki

metode clustering dan hasilnya terlihat pada Gambar 16.

125
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 16. Plot cluster hierarki menggunakan pendekatan agglomerative bottom up - dipaksa dengan 5 cluster.

Ketika hasil dari metode pengelompokan ini dievaluasi dari sudut pandang bisnis, harus dikatakan demikian

bahwa hal ini tidak intuitif atau membantu dalam menentukan berbagai strategi pemasaran untuk pengecer online. 2 kelompok

pelanggan tidak memiliki cukup variasi dan diferensiasi untuk mensegmentasi produk, harga, tempat, dan

keputusan promosi berdasarkan kelompok pelanggan. Jadi, meskipun kami tidak dapat memvalidasi model dari sebuah

sudut pandang optimasi, dapat dikatakan bahwa model tersebut gagal dari sudut pandang bisnis.

3.3.3. Pengelompokan DBSCAN

Karena dua metode sebelumnya tidak jelas pemenangnya dari masalah yang dianalisis dalam penelitian ini, maka metode pertama adalah metode pertama

lebih banyak algoritma pengelompokan AI telah diputuskan untuk diuji terhadap data belanja ritel online.

DBSCAN (Pengelompokan Aplikasi Spasial Berbasis Kepadatan dengan Kebisingan) adalah yang paling terkenal

algoritma pengelompokan berbasis kepadatan, pertama kali diperkenalkan pada tahun 1996 oleh Ester et al. (1996). Karena pentingnya dalam

baik teori maupun aplikasinya, algoritma ini merupakan salah satu dari tiga algoritma yang mendapat penghargaan Test of Time Award di

konferensi KDD pada tahun 2014 (SIGKDD, 2021).

Mereka menunjukkan keunggulan DBSCAN sebagai persyaratan minimal untuk pengetahuan domain

menentukan parameter input, peluang penemuan cluster dengan bentuk sewenang-wenang dan bagus

efisiensi pada database besar. Dikatakan bahwa algoritma pengelompokan yang terkenal tidak menawarkan solusi

kombinasi dari persyaratan ini. Mereka menyajikan algoritma pengelompokan baru DBSCAN yang mengandalkan a

gagasan cluster berbasis kepadatan yang dirancang untuk menemukan cluster dengan bentuk sewenang-wenang.

Karena dalam masalah kita, terdapat banyak outlier dan noise dalam hal standar data, tetapi tidak dari a

perspektif bisnis, dan kepadatan cluster saat ini sangat bervariasi dalam hal titik data per cluster;

DBSCAN dianggap sebagai pilihan metode yang baik untuk diuji terhadap data belanja online dalam hal ini

belajar.

Parameter terpenting disini adalah nilai EPS yang dihitung menggunakan jarak lutut. Itu

kurva lutut/siku diberikan pada Gambar 17.

126
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 17. Knee Point untuk clustering DBSCAN

Berdasarkan jarak lutut, nilai EPS dihitung sebesar 0.014473734767694877

Meskipun berbagai nilai lainnya diperiksa dengan menjalankan kode yang sama beberapa kali, nilai EPS ini

menghasilkan jumlah cluster yang wajar (5) dari sudut pandang bisnis. Hasil clustering terlihat pada Gambar

18.

Gambar 18. Plot cluster DBSCAN menggunakan EPS berbasis jarak lutut

Di sini satu hal yang perlu diperhatikan adalah cluster -1 berwarna ungu mengumpulkan data yang dianggap sebagai

kebisingan. 5 cluster lainnya memiliki ciri yang lebih khas dalam hal pengeluaran tahunan pelanggan.

Meskipun sebagian data dianggap sebagai noise, cluster yang tersisa tidak mudah untuk diinterpretasikan dari a

sudut pandang pemasaran untuk metode pengelompokan ini.

127
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

3.4. Pendekatan Kedua (Metode non-AI) untuk Analisis Klaster Pelanggan

Di sini pelanggan disegmentasi berdasarkan frekuensi pembelian mereka, keterkinian pembelian terakhir mereka

pembelian, dan total pembelanjaan tahun lalu per pelanggan. Analisisnya tidak ada hubungannya dengan mesin

pembelajaran, tetapi dilakukan untuk memeriksa ulang bagaimana ClusterNo berbasis pembelajaran mesin sejalan dengan yang kedua ini

pendekatan yang didasarkan pada kebutuhan bisnis. Analisis ini dilakukan terutama karena diketahui k

berarti bukanlah suatu metode untuk mencari solusi optimal. Tidak ada fungsi kerugian yang harus diminimalkan, dan hanya menyediakan

satu solusi yang perlu diperiksa menggunakan perspektif bisnis untuk memutuskan apakah solusi tersebut bermakna

pengelompokan atau tidak.

Ketika mempertimbangkan pendapatan, frekuensi dan keterkinian sebagai 'rendah', 'sedang' dan 'tinggi', kita dapat merujuk pada pendapatan tersebut

ke nilai kuantil untuk masing-masing. Fungsi qcut berbasis kuantitas digunakan untuk membagi nilai menjadi 5 kategori

setiap kolom kumpulan data pelanggan. Terdapat variasi yang tinggi antar kuantil seperti terlihat pada Tabel 2 di bawah ini:

Tabel 2. Statistik Deskriptif Kumpulan Data Pelanggan


Pendapatan Frekuensi Sehari sebelumnya

Menghitung 4338.000000 4338.000000 4338.000000

Berarti 2048.688081 90.523744 91.536422

Std 8985.230220 225.506968 100.014169

Minimal 3,750000 1.000000 0,000000

25% 306.482500 17.000000 17.000000

50% 668.570000 41.000000 50.000000

75% 1660.597500 98.000000 141.000000

maks 280206.020000 7676.000000 373.000000

Perspektif Bisnis terhadap Klaster Pelanggan Potensial (lihat Tabel 3):

Tabel 3. Segmen Pelanggan dengan Business View

No Frekuensi Terkini Pendapatan Pelanggan Strategi

1 Rendah Rendah Rendah Abaikan Pembelanja Rendah Langka Tidak Aktif

2 Rendah Rendah Pertengahan


Abaikan Pembelanja Menengah Langka yang Tidak Aktif

3 Rendah Rendah Tinggi Stimulasi Pembelanja Tinggi Langka yang Tidak Aktif

4 Rendah Tinggi Rendah Tidak Aktif Sering Rendah Merangsang

Pemboros

5 Rendah Tinggi Pertengahan


Sering Tidak Aktif Pertengahan Merangsang

Pemboros

6 Rendah Tinggi Tinggi Tidak Aktif Sering Tinggi Merangsang

Pemboros

7 Tinggi Rendah Rendah Pelanggan Baru yang Aktif, Langka, dan Berbelanja Rendah dengan Potensi Rendah-Abaikan

8 Tinggi Rendah Pertengahan


Pelanggan Baru Pembelanja Menengah Langka Aktif yang bisa menjadi Perak atau Emas, hati-
hati, selamat datang promosi

9 Tinggi Rendah Tinggi Pelanggan Baru yang Aktif, Langka, dan Berbelanja Tinggi, berpotensi untuk menjadi
Emas atau Platinum, fokus untuk
mempertahankan, menyambut promosi

128
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

10 Tinggi Tinggi Rendah Aktif Sering Rendah Pelanggan setia dengan nilai rendah, Perak,
Pemboros Hadiah

11 Tinggi Tinggi Pertengahan


Aktif Sering Pertengahan Pelanggan setia dengan nilai menengah, Emas,
Pemboros Hadiah

12 Tinggi Tinggi Tinggi Aktif Sering Tinggi Pelanggan setia dengan nilai tinggi,
Pemboros Platinum, Hadiah

Jadi, dari sudut pandang bisnis, ada 5 strategi yang diidentifikasi, dan seseorang dapat mengelompokkan pelanggan berdasarkan strategi tersebut

5 jenis tindakan pemasaran dan penjualan ini. Jadi, 5 strategi utama diputuskan terhadap pelanggan:

1) Abaikan: Ini adalah pelanggan bernilai rendah dan tidak perlu menginvestasikan waktu/uang untuk mereka

2) Merangsang: Pelanggan yang kurang aktif yang mungkin bisa diubah menjadi pelanggan aktif dengan pengingat

promosi

3) Selamat Datang: Pelanggan yang relatif baru yang merupakan calon pelanggan setia, berikan perhatian untuk dipertahankan

dengan promosi selamat datang.

4) Hadiah: Pelanggan setia dengan nilai dasar, Tingkat Perak, berikan penghargaan kepada mereka untuk menjaga loyalitas

5) Hadiah Eksklusif: Pelanggan setia Tingkatan Emas dan Platinum, berikan hadiah dan kejutkan kepada mereka karena keberadaannya

setia.

Misalnya, 3 tingkat kombinasi skor masuk dalam strategi IGNORE seperti di bawah ini (lihat Tabel 4):

Tabel 4. Pemetaan Strategi 'Abaikan' berdasarkan Kategori: Kekinian, Frekuensi, Pendapatan

Kebaruan Frekuensi Pendapatan Strategi Klaster

Rendah (1-3 dari 5) Rendah (1-3 dari 5) Rendah (1-2 dari 5) MENGABAIKAN

Rendah (1-3 dari 5) Rendah (1-3 dari 5) Pertengahan (2-4 dari 5) MENGABAIKAN

Tinggi (3-5 dari 5) Rendah (1-3 dari 5) Rendah (1-2 dari 5) MENGABAIKAN

Berdasarkan pengelompokan ini, klaster-klaster di bawah ini, yang diberi nama berdasarkan tindakan pemasaran, diidentifikasi (lihat Tabel 5):

Tabel 5. Cluster berbasis pemasaran dengan jumlah pelanggan

Segmen/Aksi Menghitung

MENGABAIKAN 1606

MERANGSANG 1300

HADIAH 1050

SELAMAT DATANG 322

HADIAH Perak 50

4. Kesimpulan

4.1. Perbandingan Metode AI dan Non-AI

Berikut adalah histogram cluster berdasarkan strategi yang disebutkan. Jumlah pelanggan (data

poin) di setiap cluster dibandingkan dalam solusi AI versus solusi bisnis non-AI. Jadi, validitas

pengelompokan diperiksa di bagian ini, dan pengelompokannya tidak terlihat serupa dalam hal jumlah pelanggan per

gugus.

129
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Seleksi Banu
Turkmenistan & Tinjauan Sejawat di bawah tanggung jawab Editor

Di bawah ini adalah pengelompokan AI k-means (lihat Gambar 19):

Gambar 19. Jumlah pelanggan tiap cluster dengan Metode K-Means

Ketika data yang dinormalisasi digunakan, cluster yang terdistribusi lebih baik diperoleh seperti yang ditunjukkan di bawah ini (lihat Gambar 20):

Gambar 20. Jumlah pelanggan tiap cluster pada saat data dinormalisasi dengan Metode K-Means

Jadi seperti yang disarankan sebelumnya, normalisasi data membawa beberapa perbaikan dalam hal keseimbangan

cluster. Di bawah ini dapat dilihat distribusi cluster dari Hierarchical Clustering (lihat Gambar 21), Hierarchical

Clustering dengan 5 cluster yang dipaksakan (lihat Gambar 22), dan Clustering DBSCAN (lihat Gambar 23):

Gambar 21. Jumlah pelanggan pada setiap cluster dengan Hierarchical Clustering

130
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Seleksi Banu
Turkmenistan & Tinjauan Sejawat di bawah tanggung jawab Editor

Gambar 22. Jumlah pelanggan pada setiap cluster dengan Hierarchical Clustering dengan paksa 5 cluster

Gambar 23. Nomor pelanggan di setiap cluster dengan DBSCAN Clustering (-1 untuk noise)

Di bawah ini adalah Non-AI Clustering (lihat Gambar 24):

Gambar 24. Jumlah pelanggan di setiap cluster dengan Metode Pemasaran non-AI

Seperti terlihat di atas, perspektif bisnis (pemasaran) mengusulkan kelompok pelanggan yang lebih seimbang

dan strategi mayoritas adalah 'ABAIKAN' bagi pembelanja kecil dan jarang. Ketika metode AI lainnya

131
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

ditinjau dengan cara ini, tidak ada satupun yang serupa dengan pendekatan ini. Jadi inilah saatnya untuk mengingat kembali

Meskipun tidak ada metode AI dalam algoritme pengelompokan yang mengklaim solusi optimal, metode tersebut sulit untuk divalidasi

dan harus digunakan jika mereka menawarkan sesuatu yang intuitif.

Analisa lainnya adalah dengan memeriksa klaster-klaster tersebut dalam kaitannya dengan pendapatan tahunan, yaitu jumlah pengeluaran.

Poin data, pelanggan, di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini

sebagai hasil pengelompokan k-means (lihat Gambar 25):

Gambar 25. Stripplot pelanggan di setiap cluster berdasarkan model cluster 5 k-means.

Pelanggan di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini sebagai hasil dari

Pengelompokan hierarki dengan 2 cluster (lihat Gambar 26):

Gambar 26. Stripplot pelanggan tiap cluster berdasarkan Hierarchical Clustering & 2 cluster

132
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Seleksi Banu
Turkmenistan & Tinjauan Sejawat di bawah tanggung jawab Editor

Pelanggan di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini sebagai hasil dari

Pengelompokan hierarki dengan 5 cluster (lihat Gambar 27):

Gambar 27. Stripplot pelanggan tiap cluster berdasarkan Hierarchical Clustering dengan 5 cluster

Pelanggan di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini sebagai hasil dari

Pengelompokan DBSCAN (lihat Gambar 28):

Gambar 28. Stripplot pelanggan di setiap cluster berdasarkan DBSCAN Clustering (-1 untuk noise)

133
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Pelanggan di setiap cluster berdasarkan pengeluaran tahunan (pendapatan) ditunjukkan di bawah ini sebagai hasil dari

metode pemasaran non-AI (lihat Gambar 29):

Gambar 29. Stripplot pelanggan di setiap cluster berdasarkan Metode Pemasaran non-AI

Di sini tampak mengejutkan bahwa logika pemasaran yang didasarkan pada keterkinian, frekuensi, dan moneter tidak demikian

berkinerja baik dalam hal membedakan pembelanja besar dari pembelanja kecil. K-means dan hierarkis

metode pengelompokan menawarkan solusi yang tidak tumpang tindih dan lebih intuitif dibandingkan perspektif pemasaran.

Ketika algoritma hierarki dipaksa untuk menggunakan 5 cluster, cluster mulai tumpang tindih seperti yang terlihat pada Gambar

27. Namun demikian, solusi hierarkis tidak menawarkan solusi yang baik dari sudut pandang bisnis

karena hanya menyarankan 2 cluster. Kinerja DBSCAN juga dipertanyakan karena dua alasan. Pertama, di sana

ada beberapa tumpang tindih antara cluster no 0 dan 4 seperti terlihat pada Gambar 28 dan kedua, cluster kebisingan terlalu besar

dan ini mencakup semua pembelanja besar dan kecil secara acak. Mungkin tidak terlalu bagus untuk mengecualikan pelanggan sebanyak ini

dari analisis untuk pemasar.

Akibatnya, meskipun tidak ada satupun algoritma yang menawarkan solusi optimal yang jelas, solusi terbaiklah yang ditawarkan

berasal dari pengelompokan k-means. Masalah dengan pendekatan ini adalah cluster yang dihasilkan adalah

tidak seimbang dalam hal jumlah pelanggan di setiap cluster. Jadi, kapanpun ada masalah segmentasi

dipelajari, data itu sendiri memainkan peran penting dan beberapa metode harus diuji terhadap data tersebut agar dapat dilakukan

untuk menghasilkan cluster yang intuitif. Kini berbagai pendekatan diuji untuk dapat menemukan yang masuk akal

cluster, banyak ide muncul untuk masa depan sebagai perpanjangan dari pekerjaan ini yang dapat ditemukan di masa depan

bagian.

4.2. Pekerjaan masa depan

Karena tidak ada target mengenai seberapa padat seharusnya setiap cluster, sulit untuk memutuskan di mana cluster tersebut berada

untuk berhenti mencari metode pengelompokan yang lebih baik. Untuk sementara analisis dihentikan sampai berbeda

ide dapat dikembangkan. Dua cluster pelanggan dengan nilai pendapatan tertinggi hanya memiliki 2 dan 5 pelanggan di dalamnya. Dia

134
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

dapat memberikan hasil yang lebih baik jika kita menggabungkan cluster-cluster tersebut menjadi satu, atau bahkan mendapatkan cluster yang sedikit lebih besar sebagai cluster yang lebih jauh

mempelajari metode k-means.

Ekstensi lain dapat menjalankan algoritma k-means tanpa variabel random_state, biarkan

untuk mendapatkan hasil yang berbeda di setiap iterasi dan membandingkan hasilnya untuk menemukan opsi terbaik dari beberapa iterasi

iterasi.

Salah satu upaya di masa depan adalah penggunaan data pelanggan yang diskalakan ulang dan diubah untuk metode non-AI

demikian juga. Karena bahkan pengelompokan pemasaran pun memiliki beberapa tumpang tindih dalam hal pembelanjaan pelanggan. Di sana

Ada beberapa transaksi pendapatan berfrekuensi sangat tinggi dalam kumpulan data dan hal ini mungkin menghasilkan beberapa distorsi

ketika datang ke pengelompokan.

Sebagai ide penerapan terakhir, pendekatan kategorisasi dapat diubah menjadi non-AI (bisnis)

metode. Misalnya, pendapatan dari 2-5 dari 5 dianggap sebagai kategori pendapatan menengah-tinggi untuk 1-5

skala. Jika mid-high diubah menjadi 3-5 dari 5, kita akan mendapatkan lebih sedikit jumlah pelanggan di 'REWARD'

cluster yang terlihat terlalu besar pada solusi saat ini.

Yang terakhir, namun tidak kalah pentingnya, metode pengelompokan lainnya dapat dicoba untuk melihat apakah pengelompokan yang lebih baik dapat diperoleh

dengan pendekatan AI. Seluruh metode pengelompokan dianalisis dalam Bab 2 Tinjauan Pustaka. Yaitu, jaringan

algoritma pengelompokan berbasis dan berbasis model dapat diuji terhadap kumpulan data ini. Untuk pendekatan berbasis grid,

STING dan CLIQUE dapat digunakan. Dan untuk pendekatan berbasis model, metode statistik dan jaringan saraf

pendekatan dapat dimanfaatkan.

Ucapan Terima Kasih

Penulis menyatakan bahwa tidak ada konflik kepentingan.

Referensi

Ahmad, A., & Khan, SS (2019). Survei Algoritma Pengelompokan Data Campuran yang Canggih. Akses IEEE, 7, 31883-31902. https://
doi.org/10.1109/ACCESS.2019.2903568
Bawack, RE, Fosso Wamba, S., & Carillo, KDA (2021). Kerangka kerja untuk memahami penelitian kecerdasan buatan: wawasan dari
praktik. Jurnal Manajemen Informasi Perusahaan, 34(2), 645-678. https://doi.org/10.1108/JEIM-07-2020-0284

Bogensperger, A., & Fabel, YA (2021). pendekatan praktis untuk validasi klaster di sektor energi.
Informasi Energi 4, 18. https://doi.org/10.1186/s42162-021-00177-1
Borges, AFS, Laurindo, FJB, Spinola, MM, Goncalves, RF, & Mattos, CA (2021). Penggunaan strategis kecerdasan buatan di era
digital: Tinjauan literatur sistematis dan arah penelitian di masa depan. 10225. https://doi.org/10.1016/j.ijinfomgt.2020.102225
Jurnal Internasional Manajemen Informasi, 57,

Chen, D., Sain, SL, & Guo, K. (2012). Penambangan data untuk industri ritel online: Studi kasus segmentasi pelanggan berbasis model
RFM menggunakan penambangan data. Jurnal Pemasaran Basis Data dan 19(3), Manajemen Strategi Pelanggan, 197-208.
archive.ics.uci.edu/ml/datasets/online+retail https://

Erlich, Z., Gelbard, R., & Spiegler, I. (2016). Mengevaluasi model pengelompokan atribut positif untuk Sistem Jurnal data, 100-108.
pertambangan. Informasi Komputer https://doi.org/ 43(3),
10.1080/08874417.2003.11647523
Ester, M., Kriegel, HP, Sander, J., & Xu, X. (1996). Algoritma Berbasis Kepadatan untuk Menemukan Cluster di Database Spasial
Besar dengan Noise. Prosiding Konferensi Internasional ke-2 tentang Penemuan Pengetahuan dan Penambangan Data
(KDD-96), 226-231.

135
Machine Translated by Google

https:// doi.org/ 10.15405/ ejsbs.316


eISSN: 2301-2218 / Penulis Koresponden: Banu Turkmen
Seleksi & Tinjauan Sejawat di bawah tanggung jawab Editor

Fotaki, G., Spruit, M., Brinkkemper, S., & Meijer, D. (2014). Menjelajahi Peluang Big Data untuk Segmentasi
Pelanggan Online. Int. J. Bis. Intel. Res. 58–75. https://doi.org/
5(3),
10.4018/ijbir.2014070105
Gelbard, R., Goldman, O., & Spiegler, I. (2007). Menyelidiki keragaman metode pengelompokan:
Perbandingan empiris, Data & Pengetahuan 155-166. https://doi.org/10.1016/j.datak.2007.01.002
Rekayasa, 63(1),

Hackenberger, BK (2019). Data demi data, Data Besar. Jurnal medis Kroasia, 60(3), 290–292. https://doi.org/
10.3325/cmj.2019.60.290
Jung, A. (dalam tekan). Pembelajaran Mesin: Dasar-dasar. Tersedia daring pada

https://alexjungaalto.github.io/MLBasicsBook.pdf
Kaur, R., & Kaur, K. (2017). Penambangan Data pada Segmentasi Pelanggan: Tinjauan. Jurnal Internasional
Penelitian Lanjutan dalam Ilmu Komputer, 8(5).
Kovács, T., Ko, A., & Asemi, A. (2021). Eksplorasi pola investasi calon nasabah perbankan ritel menggunakan
analisis cluster dua tahap. J Data Besar 8, 141. https://doi.org/10.1186/s40537-021-
00529-4
Madhulata, TS (2012). Ikhtisar tentang metode pengelompokan. Jurnal Teknik IOSR, 2(4), 719-
725.
Mustapha, FZ, Haruna, AA, & Muhammad, UT (2020). Gambaran Umum Kecerdasan Buatan.
Jurnal Ilmu Terapan & Keberlanjutan Lingkungan, 6(12), 60-74.
Qian, C., Yang, M., Li, P., & Li, S. (2018). Penerapan Segmentasi Pelanggan Pengumpulan Tol Elektronik:
Studi Kasus. Jurnal Transportasi Tingkat Lanjut, ID Artikel 3635107. https://doi.org/
10.1155/2018/3635107
Siebert, M., Kohler, C., Scerri, A., & Tsatsaronis, G. (2018). Latar Belakang Teknis dan Metodologi Laporan
Kecerdasan Buatan Elsevier. 1-7. https://www.elsevier.com/?a=829143
Sun, Z.-H., Zuo, T.-Y., Liang, D., Ming, X., Chen, Z., & Qiu, S. (2021). GPHC: Pengelompokan heuristik
metode untuk segmentasi pelanggan. Komputasi Lunak Terapan, 111, https://doi.org/ 107677.
10.1016/j.asoc.2021.107677
Kelompok Minat Khusus Asosiasi Mesin Komputasi tentang Penemuan Pengetahuan dan Data
Pertambangan (SIGKDD). (2021). Pemenang Penghargaan Tes Waktu SIGKDD. https://www.kdd.org/
awards/view/2014-sikdd-test-of-time-award-winn
Tobin, S., Jayabalasingham, B., Huggett, S., & de Kleijn, M. (2019). Tinjauan Sejarah Singkat Penelitian
Kecerdasan Buatan. Layanan & Penggunaan Informasi, 39(4), 291-296. https://doi.org/10.3233/
ISU-190060
Vlacic, B., Corbo, L, dan Silva, SC, & Dabic, M. (2021). Peran kecerdasan buatan yang terus berkembang
dalam pemasaran, tinjauan dan agenda penelitian. Jurnal Riset Bisnis, 128, 187-203. https://doi.org/
10.1016/j.jbusres.2021.01.055

136

Anda mungkin juga menyukai