Sales Prediction and Product Recommendation Model Through - IDN

Machine Translated by Google
Komputer, Material & Lanjutan Pers Sains Teknologi

DOI:10.32604/cmc.2022.019750
Artikel
Prediksi Penjualan dan Model Rekomendasi Produk Melalui

Analisis Perilaku Pengguna
Xian Zhao dan Pantea Keikhosrokiani*
Fakultas Ilmu Komputer, Universiti Sains Malaysia, Minden, Penang, 11800, Malaysia
*Penulis Koresponden: Pantea Keikhosrokiani. Email: pantea@usm.my
Diterima: 24 April 2021; Diterima: 25 Juni 2021
Abstrak: COVID-19 telah memberikan kita kesulitan yang belum pernah terjadi
sebelumnya dan ribuan perusahaan telah tutup. Masyarakat umum telah
menanggapi seruan pemerintah untuk tinggal di rumah. Toko ritel offline sangat
terkena dampaknya. Oleh karena itu, untuk mengubah model penjualan offline
tradisional menjadi model B2C dan untuk meningkatkan pengalaman berbelanja,
penelitian ini bertujuan untuk memanfaatkan data penjualan historis untuk
mengeksplorasi, membangun model prediksi dan rekomendasi penjualan. Model
siklus hidup dan proses ilmu data baru dengan metode analisis Keterkinian,
Frekuensi, dan Moneter (RFM) dengan kombinasi berbagai algoritme analitik
digunakan dalam penelitian ini untuk prediksi penjualan dan rekomendasi produk
melalui analisis perilaku pengguna. Metode analisis RFM digunakan untuk
mensegmentasi tingkat pelanggan di perusahaan untuk mengidentifikasi
pentingnya setiap tingkat. Untuk model prediksi pembelian, algoritma pembelajaran
mesin XGBoost dan Random Forest digunakan untuk membangun model prediksi
dan metode Validasi Silang 5 kali lipat digunakan untuk mengevaluasinya. Untuk
model rekomendasi produk, teori aturan asosiasi dan algoritma Apriori digunakan
untuk menyelesaikan analisis keranjang dan merekomendasikan produk sesuai
dengan hasilnya. Selain itu, beberapa saran diusulkan untuk departemen
pemasaran sesuai dengan hasilnya. Secara keseluruhan, model XGBoost
mencapai performa dan akurasi yang lebih baik dengan skor F1 sekitar 0,789.
Model rekomendasi yang diusulkan memberikan hasil rekomendasi dan kombinasi
penjualan yang baik untuk meningkatkan penjualan dan daya tanggap pasar.
Selain itu, ia merekomendasikan produk tertentu kepada pelanggan baru. Studi
ini menawarkan kasus transformasi bisnis yang sangat praktis dan berguna yang
membantu perusahaan dalam situasi serupa untuk mengubah model bisnis mereka.
Kata Kunci: Transformasi bisnis; analisis perilaku; segmentasi pelanggan;

prediksi penjualan; rekomendasi produk
1. Perkenalan
Perkembangan pesat di bidang pembelajaran mesin (ML) dan kemajuan dalam daya komputasi
telah memungkinkan kemungkinan penerapan dan optimalisasi pembelajaran mesin di semua jenis
industri [1,2]. Industri ritel mencoba mengoptimalkan mesin peramalan penjualan
Karya ini dilisensikan di bawah Lisensi Internasional Creative Commons Attribution 4.0,
yang mengizinkan penggunaan, distribusi, dan reproduksi tanpa batas dalam media apa
pun, asalkan karya asli dikutip dengan benar.
3856 CMC, 2022, jilid 70, no.2
dan mesin rekomendasi menggunakan algoritma canggih Peningkatan model prediksi dan rekomendasi berdasarkan analisis
perilaku pengguna (UBA) memberikan banyak manfaat bagi industri ritel.
Perusahaan E-commerce start-up dapat menemukan favorit pelanggan, peralatan elektronik, buku, atau pakaian dari data
riwayat belanja. Selain itu, bermanfaat bagi perusahaan untuk mengoptimalkan inventarisnya, yang merupakan cara yang
berarti untuk mengurangi kelebihan penimbunan. Menambah barang populer atau barang serupa dengan fitur lebih banyak
dapat memaksimalkan penjualan untuk menghindari understocking yang dapat menurunkan penjualan karena kurangnya
ketersediaan produk [3]. Oleh karena itu, perusahaan E-commerce yang baru berdiri harus membangun dan menerapkan
sistem untuk memprediksi penjualan dan rekomendasi barang.
Permasalahan umum yang terjadi saat ini di kalangan perusahaan disebabkan oleh model bisnis B2B jangka panjang
perusahaan. Banyak perusahaan menghadapi (1) pasar yang terbatas, (2) siklus penjualan yang panjang, dan (3) proses
penjualan yang rumit karena situasi pasar saat ini yang terdampak oleh COVID-19. Sebagian besar keputusan pembelian
konsumen melibatkan satu atau dua keputusan. Oleh karena itu, bagi para pembuat keputusan, total waktu untuk mengambil
keputusan pembelian sering kali singkat. Pengambil keputusan dalam proses pembelian B2B biasanya merupakan tim yang
terdiri dari para ahli di berbagai posisi atau bidang berbeda yang memanfaatkan aktivitas tim yang sangat kolaboratif. Siklus
penjualan B2B melibatkan serangkaian faktor kompleks, yang melibatkan banyak pemangku kepentingan dan pengambil
keputusan; oleh karena itu, total waktu pengambilan keputusan mungkin memakan waktu beberapa bulan. Siklus penjualan
yang panjang menimbulkan masalah bagi perputaran modal perusahaan dan meningkatkan biaya modal. Proses penjualan
pada umumnya di B2B memerlukan banyak negosiasi bisnis dan didorong oleh faktor-faktor yang dapat diukur, bukan faktor
kualitatif dan emosional yang mendorong penjualan B2C.
Dalam tulisan ini, kami mengembangkan model segmentasi pelanggan, model prediksi penjualan dan model rekomendasi
produk menggunakan algoritma pembelajaran mesin dengan kinerja yang baik untuk membantu transformasi bisnis toko
tradisional. Bagian selanjutnya dari makalah ini disusun sebagai berikut: Bagian 2 menjelaskan karya Terkait dalam Literatur,
Bagian 3 menyajikan metodologi termasuk usulan siklus hidup ilmu data dan model proses, Bagian 4 membahas hasilnya,
dan Bagian 5 mencakup kesimpulan dan masa depan. studi.
2 Karya Terkait
Prediksi penjualan dan rekomendasi produk dianggap sebagai topik penting dalam bidang big data dan pembelajaran
mesin [3]. Oleh karena itu, penelitian yang ada ditinjau di bagian ini untuk menemukan teknologi dan metode yang paling
relevan untuk prediksi penjualan dan rekomendasi produk.
2.1 Customer Segmentation

Recency, Frekuensi, dan Moneter (RFM) adalah metode segmentasi pelanggan berdasarkan data perilaku konsumsi
pelanggan toko online. Metode ini mengelompokkan pelanggan berdasarkan karakteristik perilaku pelanggan saat ini. Matriks
Nilai Pelanggan (CVM) dikembangkan untuk lingkungan ritel usaha kecil berdasarkan metode RFM [4]. Metode ini digunakan
oleh Growth-Share Boston Consulting Group (BCG) yang sangat mudah dipahami.
2.2 Prediksi Penjualan
Prediksi penjualan memainkan peran penting dalam intelijen bisnis modern. Analisis prediktif perlu didasarkan pada data
historis dalam jumlah besar. Penjualan dapat dianggap sebagai rangkaian waktu.
Saat ini, banyak ilmuwan telah menerapkan model deret waktu yang berbeda, seperti ARIMA, GARCH, Holt-Winters, dll.
Berbagai metode deret waktu dapat ditemukan dalam beberapa penelitian [5,6]. Namun banyak kasus peramalan penjualan
yang tidak menggunakan metode deret waktu karena menggunakan metode pembelajaran mesin yang diawasi seperti
pembelajaran mesin berbasis pohon, seperti Random Forest [7] Gradient
CMC, 2022, jilid 70, no.2 3857
Mesin Peningkat [8]. Selanjutnya, Facebook Prophet, alat peramalan, dipublikasikan di GitHub pada tahun
2017 [9].
2.3 Rekomendasi Produk

Tujuan dari melakukan sistem rekomendasi adalah untuk menyarankan item kepada pengguna tertentu.
Melalui data historis penjualan, sistem rekomendasi memprediksi peringkat suatu barang yang belum dilihat
dan dibeli pengguna, kemudian sistem akan merekomendasikan barang serupa lainnya kepada pengguna
[10]. Ada empat metode umum untuk melakukan sistem rekomendasi, (1) Pemfilteran Berbasis Konten, (2)
Pemfilteran Kolaboratif, (3) Sistem Rekomendasi Hibrid, dan (4) Aturan Asosiasi [11,12] . Namun ada
beberapa masalah penting seperti “Masalah cold start” [13] dan “Deteksi serangan Shilling” [14] yang perlu
diatasi dengan merancang sistem rekomendasi. Masalah cold start mengacu pada rekomendasi untuk
pengguna baru atau item baru dan serangan Shilling terkait dengan penggunaan data konten buatan
pengguna, seperti peringkat pengguna dan ulasan oleh penyerang untuk memanipulasi peringkat rekomendasi
[15] . Dua isu penting ini perlu dipertimbangkan dalam sistem rekomendasi.
2.4 Metrik Evaluasi

Mengevaluasi dan membandingkan performa model yang dibuat menggunakan algoritme berbeda adalah
bagian penting dalam membuat model pembelajaran mesin. Menggunakan banyak metrik evaluasi dapat
menghindari cacat model. Untuk meningkatkan kinerja model, penting juga untuk memilih metrik evaluasi
yang sesuai seperti Mean Absolute Error (MAE), Root Mean Square Error (RMSE), dan Mean Absolute
Percentage Error (MAPE), yang telah digunakan secara luas untuk memecahkan masalah regresi. seperti
prediksi stok [16] dan perkiraan permintaan rantai pasokan [17]. Di sisi lain, jika ini adalah masalah klasifikasi
yang serupa dengan penelitian ini, akurasi, presisi, tingkat perolehan, inti F1, AUC, dan metrik evaluasi lebih
disukai untuk mengevaluasi kinerja model yang diusulkan [15] .
3 Metodologi
Kumpulan data yang digunakan untuk penelitian ini berasal dari kumpulan data publik berdasarkan
platform E-commerce tradisional, dari Oktober 2019 lalu hingga April 2020. Misalnya, atribut “waktu” digunakan
sebagai atribut numerik untuk menggambarkan perilaku waktu yang terjadi. Atribut “behavior _type” adalah
atribut kategorikal untuk mengidentifikasi apakah pengguna melihat produk, pengguna menambahkan produk
ke keranjang belanja, atau pengguna membeli produk. Atribut “product_id” berbentuk numerik dan digunakan
sebagai ID produk. Atribut “category_id” adalah numerik yang digunakan untuk ID kategori produk sedangkan
“category” adalah atribut kategori yang digunakan untuk kategori produk. Atribut kategoris lainnya adalah
“merek” yang menggambarkan nama merek. Atribut lainnya seperti “price”, “user_id”, dan “user_session”
adalah numerik yang digunakan untuk harga suatu produk, ID pengguna, dan ID sesi pengguna. Deskripsi
atribut kumpulan data ditampilkan di Tab. 1.
Gambar 1 menampilkan jumlah perilaku pengguna yang berbeda seperti melihat produk, menambahkan
produk ke kartu belanja, dan membeli produk per bulan. Grafik tersebut menggambarkan bahwa jumlah
penayangan produk mengalami peningkatan pada bulan Oktober 2019 hingga Desember 2019. Kemudian
menurun drastis pada bulan Desember 2019 hingga Maret 2020. Terakhir, perilaku menonton meningkat dari
4 menjadi 5 pada bulan April 2020. Gambar 3 menampilkan konversi tingkat pembelian dihitung berdasarkan
hasil yang ditunjukkan pada Gambar 2.
3858 CMC, 2022, jilid 70, no.2
Tabel 1: Deskripsi atribut
Atribut Kategori Keterangan

Waktu numerik Waktu perilaku terjadi
Tipe_perilaku Kategoris Perilaku pelanggan: tampilan (pengguna melihat produk);
keranjang (pengguna menambahkan produk ke keranjang belanja);
pembelian (pengguna membeli produk)
ID Produk numerik ID produk
Kategori_id numerik ID kategori produk
Kategori Kategoris Kategori produk
Merek Kategoris Nama merk
Harga numerik Harga suatu produk
Identitas pengguna numerik identitas pengguna
Sesi_pengguna numerik ID sesi pengguna
Gambar 1: Hitungan tiga perilaku berbeda
Gambar 2: Persentase setiap jenis peristiwa

CMC, 2022, jilid 70, no.2 3859
Gambar 3: Tingkat konversi dalam proses penjualan
Seperti yang ditunjukkan pada Gambar 3, karena “keranjang” adalah perilaku pengguna yang menentukan niat membeli
antara “view” dan “purchase”, terlihat bahwa tingkat konversi dari “view” ke “purchase”
hanya 4,77%. Hasilnya menunjukkan bahwa beberapa pengguna membeli secara langsung tanpa menggunakan “keranjang”, melainkan menggunakan “keranjang”.
juga menunjukkan bahwa sebagian besar pengguna yang menelusuri halaman lebih sering menggunakan fungsi keranjang belanja
lebih sedikit. Jumlah pembelian yang menyumbang 30,29% dari keranjang belanja bekas menunjukkan bahwa
tahap dari penelusuran hingga penambahan ke keranjang belanja adalah tautan kunci dalam peningkatan indeks.
3.1 Usulan Siklus Hidup Ilmu Data

Gambar 4 menunjukkan siklus hidup ilmu data yang diusulkan untuk mengatasi masalah dan mencapai tujuan tersebut
tujuan penelitian ini. Fase kunci dari siklus hidup ilmu data yang diusulkan adalah (1) pemahaman data, (2) pemrosesan awal
data, (3) pemodelan, (4) evaluasi, dan (5) pengembangan penjualan dan
strategi pemasaran, yang dijelaskan secara rinci pada bagian berikut.
Memahami Data • Mengetahui informasi detail tentang

data
Data
• Membersihkan kumpulan data
Pemrosesan awal • Fitur rekayasa
• Segmentasi pelanggan
Membangun Model
• Prediksi penjualan
• Rekomendasi produk
Validasi dan Evaluasi • Metode Validasi Silang K-fold
Model
• AUC
• Prediksi Penjualan dan

Mengembangkan Strategi merekomendasikan produk untuk
pelanggan.
Gambar 4: Siklus hidup ilmu data yang diusulkan
3.2 Pemrosesan Awal Data

Sebelum membangun model yang diusulkan, banyak tugas persiapan data yang harus dilakukan
kumpulan data yang cocok untuk algoritme pembelajaran mesin. Dalam penelitian ini dilakukan proses preprocessing data
mencakup (1) menghapus instance yang tidak lengkap atau duplikat dan (2) rekayasa fitur. Ada
beberapa instance dengan nilai yang hilang dalam kumpulan data, yang harus dihapus pada tahap pra-pemrosesan karena akan
memengaruhi performa algoritme pembelajaran mesin. Jadi, itu
3860 CMC, 2022, jilid 70, no.2
dataset pelatihan berisi transaksi yang tidak terduplikasi (dalam sesi yang sama, hanya satu catatan
untuk produk tertentu di keranjang dipertahankan) dengan fitur baru. Selain itu, datasetnya rendah
ruang dimensi dengan jumlah atribut terbatas yang hanya mencakup 9 atribut
kumpulan data asli. Untuk mengatasi masalah ini, kami mengekstrak beberapa fitur baru ke dalam pelatihan
kumpulan data untuk pemodelan seperti yang ditunjukkan pada Tab. 2. Kami menggunakan fitur-fitur tersebut, termasuk harga asli dan
merek untuk memprediksi apakah pelanggan pada akhirnya akan membeli barang yang termasuk dalam keranjang. Di dalam
sesi yang sama, kami hanya menyimpan satu catatan untuk produk tertentu di keranjang.
Tabel 2: Atribut yang diekstraksi dalam rekayasa fitur
Atribut yang diekstraksi Keterangan
Kategori_level1 Kategori, seperti elektronik

Kategori_level2 Subkategori, misalnya komputer
Acara_hari kerja Hari kerja acara
Apakah_dibeli Apakah barang yang dimasukkan ke keranjang sudah dibeli
Jumlah_aktivitas Jumlah aktivitas “keranjang + pembelian” dengan sesi_pengguna yang sama
Jumlah_tayangan Jumlah "tampilan" dengan "sesi_pengguna" yang sama
Jumlah_keranjang Jumlah “keranjang” dengan “sesi_pengguna” yang sama
Jumlah_pembelian Jumlah “pembelian” dengan “sesi_pengguna” yang sama
3.3 Membangun Model yang Diusulkan

Tahap pengembangan model dibagi menjadi tiga bagian: (1) Bagian pertama menggunakan RFM
metode untuk mengembangkan model segmentasi pelanggan dan untuk mengidentifikasi nilai pelanggan untuk dicapai
tujuan pertama dari penelitian ini. (2) Bagian kedua adalah melakukan model prediksi penjualan,
yang dapat memprediksi kinerja penjualan keseluruhan bulan depan, atau penjualan individu jenis tertentu
produk. (3) Bagian ketiga adalah mendapatkan informasi asosiasi barang yang sering dibeli
dengan menganalisis hasil aturan asosiasi berdasarkan algoritma Apriori. Informasi ini membantu
membantu kami dalam proses pengambilan keputusan. Kami dapat merekomendasikan produk kepada pelanggan berdasarkan keranjang
aturan. Untuk E-commerce kita juga bisa mengoptimalkan lokasi gudang tempat barang berada
ditempatkan untuk menghemat biaya dan meningkatkan manfaat ekonomi.
3.3.1 Segmentasi Pelanggan

Konsumsi terkini (Recency), frekuensi konsumsi (Frequency) dan jumlah konsumsi (Monetary) dianggap sebagai indikator
penting untuk menganalisis dan mengelompokkan
pelanggan. Dalam analisis RFM, pelanggan diurutkan berdasarkan lamanya waktu sejak pembelian terakhir mereka
ke tanggal tertentu dalam urutan menurun (kekinian); dengan jumlah transaksi (frekuensi) di
urutan menurun; dan berdasarkan jumlah uang yang dibelanjakan dalam periode tertentu (moneter) secara menurun
memesan. Semakin tinggi jumlah total pembelian seorang pelanggan selama periode waktu tertentu, semakin besar pula
nilai yang diciptakan pelanggan bagi perusahaan [18].
Skor RFM didefinisikan sebagai berikut:
Skor RFM = keterkinian × bobotR + frekuensi × bobotF + moneter × bobotM (1)
dimana bobot dibahas menurut permasalahan tertentu dan ditentukan oleh para ahli. Itu
skor RFM yang tinggi mewakili nilai pelanggan yang tinggi.
CMC, 2022, jilid 70, no.2 3861
Segmentasi RFM adalah metode yang efektif untuk mengidentifikasi kelompok pelanggan yang diperlakukan
khusus [19]. Dalam proyek ini, kami melakukan segmentasi pada pelanggan dengan pengalaman pembelian.
Menurut Tsai dan Chiu [20], jumlah bobot setiap ukuran RFM harus sama
ke 1. Dalam berbagai makalah akademis atau industri, bobot keterkinian, frekuensi, dan moneter perlu ditentukan
oleh pendapat para ahli sesuai dengan tujuan penelitian atau bisnis aktual
tujuan. Dalam proyek ini, tiga nilai bobot utama, dan nilai bobot akhir untuk keterkinian,
frekuensi dan moneter berasal dari hasil percobaan dan pendapat ahli. kami mengatur beratR
hingga 0,4, bobotF hingga 0,1, bobotM hingga 0,5, yang menunjukkan pentingnya tiga metrik, moneter
> terkini > frekuensi. Seperti yang ditunjukkan pada Tab. 3, tingkat pelanggan dibagi menjadi 8 kategori
nilai utama, pengembangan utama, pemeliharaan utama, retensi utama, nilai umum, pengembangan umum,
pemeliharaan umum, dan retensi umum.
Tabel 3: Tingkat nilai pelanggan yang diusulkan
Tingkat pelanggan Klasifikasi Keterangan

Nilai utama RÿFÿMÿ Terakhir kali konsumsi sudah dekat, konsumsi
frekuensinya tinggi, dan jumlah konsumsinya tinggi.
Perkembangan besar RÿFÿMÿ Terakhir kali konsumsi sudah dekat, konsumsi
frekuensinya rendah, dan jumlah konsumsinya tinggi.
Pemeliharaan utama RÿFÿMÿ Waktu konsumsi terakhir lama, konsumsi
frekuensinya tinggi, dan jumlah konsumsinya tinggi
tinggi.
Retensi besar RÿFÿMÿ Waktu konsumsi terakhir lama, konsumsi
frekuensinya rendah, dan jumlah konsumsinya rendah
tinggi.
Nilai umum RÿFÿMÿ Terakhir kali konsumsi sudah dekat, konsumsi
frekuensinya tinggi, dan jumlah konsumsinya rendah.
Perkembangan umum RÿFÿMÿ Terakhir kali konsumsi sudah dekat, konsumsi
frekuensinya rendah, dan jumlah konsumsinya rendah.
Perawatan umum R ÿ F ÿ M ÿ Waktu konsumsi terakhir panjang, konsumsi
frekuensinya tinggi, dan jumlah konsumsinya rendah.
Retensi umum R ÿ F ÿ M ÿ Waktu konsumsi terakhir lama, konsumsi
frekuensinya rendah, dan jumlah konsumsinya rendah
rendah.
3.3.2 Prediksi Penjualan

XGBoost dan Random Forest telah digunakan secara luas dalam berbagai jenis penelitian atau Kaggle
persaingan karena mencapai akurasi yang lebih tinggi. Kelebihan lain dari XGBoost adalah
cepat untuk dieksekusi, dan menyediakan hyperparameter berbeda seperti kedalaman pohon, pekerjaan, dll. Acak
Hutan dapat memanfaatkan lebih banyak pohon untuk memberikan akurasi yang tinggi dan mencegah overfitting. Menurut [6],
dan Wang dkk. [15], algoritma XGBoost dan Random Forest telah mencapai kinerja yang baik
di bidang rekomendasi penjualan. Dalam proyek ini, kedua algoritma ini diterapkan pada proses
membangun model prediksi penjualan untuk melihat kinerja yang lebih baik dan model yang lebih baik untuk mendapatkan final
hasil prediksi penjualan setelah dibandingkan.
3862 CMC, 2022, jilid 70, no.2
3.3.3 Rekomendasi Produk

Aturan asosiasi adalah metode pembelajaran mesin berbasis aturan yang dapat menemukan hubungan menarik antar
variabel dalam kumpulan data besar. Agrawal dkk. [21] memperkenalkan aturan asosiasi untuk menemukan hubungan
antar produk berdasarkan data transaksi historis di supermarket. Misalnya, aturan {Beer} ÿ {Diapers} menunjukkan bahwa
pelanggan yang membeli bir akan membeli popok juga.
Informasi menarik tersebut sangat berguna bagi E-commerce atau toko tradisional untuk membuat strategi mengenai
aktivitas seperti harga promosi atau penempatan produk [22-25].
Himpunan transaksi didefinisikan sebagai D = {T1,T2, ...,Tn},, himpunan item sebagai I = {i1, i2, ..., im}, dan setiap
transaksi merupakan himpunan item. Aturan asosiasi dapat didefinisikan sebagai bentuk tersirat dari X ÿ Y, Y ÿ I dan X ÿ Y
= ÿ [26]. X mengacu pada anteseden, dan Y mengacu pada konsekuensi. Ungkapan rumus berikut dapat merefleksikan
teori aturan asosiasi secara lebih konkrit. Dan P(X) dan P(Y) masing-masing adalah peluang munculnya himpunan item X
dan Y di D. P(X ÿ Y) adalah probabilitas munculnya himpunan item X dan Y di D. Perhitungannya ditunjukkan pada
Persamaan. (2)–(6).
Dukungan (X) = P(X) (2)
Dukungan (Y) = P(Y) (3)
Dukungan (X ÿ Y) = Dukungan(X ÿ Y) = P(X ÿ Y) (4)
Dukungan (X ÿ Y)
Keyakinan (X ÿ Y) = (5)
Dukungan (X)
Keyakinan (X ÿ Y) Dukungan (X ÿ Y)
Angkat(X ÿ Y) = = (6)
Dukungan (Y) Dukungan(X) × Dukungan(Y)
Apriori dianggap sebagai algoritma terbaik untuk mengidentifikasi aturan asosiasi dalam kumpulan data transaksi
historis. Ini dirancang berdasarkan aturan asosiasi untuk menemukan hubungan antara item kumpulan data yang berbeda.
Dengan menggunakan algoritma Apriori, pertama-tama, kami menemukan kumpulan item yang sering muncul dalam
kumpulan data dan menganalisisnya sesuai untuk menetapkan aturan asosiasi, kemudian kami mengevaluasi data
keputusan berdasarkan aturan-aturan ini, terakhir, kami memilih aturan dengan keyakinan dan dukungan yang lebih besar
daripada aturan minimum yang disyaratkan. [27]. Algoritma ini biasanya digunakan di bidang pendukung keputusan. Ide
utama dari algoritma Apriori adalah untuk mendapatkan kumpulan item yang sering terjadi melalui pencarian hierarki dan
metode iteratif, yang menggunakan pengetahuan apriori tentang kumpulan item yang jarang. K item set digunakan untuk
mengeksplorasi (K + 1) item set. Ada beberapa langkah khusus untuk menemukan frequent item set sebagai berikut:
Langkah pertama adalah memilih panjang K = 1, memindai database, dan menentukan semua frequent item set ketika K =
1. Kedua, ukuran langkah bertambah berdasarkan frequent item set kumpulan item, kumpulan item baru dihitung lagi, dan
kumpulan item sering sebenarnya dihasilkan. Terakhir, langkah kedua perlu diulang sampai tidak ada set item baru yang
ditemukan dan algoritma dihentikan [28].
Aturan asosiasi menggunakan pengetahuan Apriori memberikan kemampuan untuk menangkap preferensi pengguna.
Setelah mengidentifikasi preferensi pengguna, rekomendasi produk yang valid dikembangkan; oleh karena itu, kami dapat
merekomendasikan produk kepada pelanggan untuk mendapatkan kinerja penjualan yang lebih baik. Dan menurut Fatoni
dkk. [29], aturan asosiasi dapat menghasilkan rekomendasi yang tepat dengan nilai keyakinan 76,92% yang merupakan
tingkat keyakinan yang relatif memuaskan. Gambar 5 menampilkan proses desain model yang diusulkan dalam penelitian
ini untuk prediksi penjualan dan rekomendasi produk melalui perilaku pengguna
CMC, 2022, jilid 70, no.2 3863
analitik. Model yang diusulkan menggunakan metode RFM untuk segmentasi pelanggan, algoritma XGBoost, Ran-
dom Forest dan Decision Tree digabungkan untuk model prediksi penjualan, dan algoritma Apriori digunakan untuk
membangun analisis keranjang untuk sistem rekomendasi produk.
Gambar 5: Proses desain model
3.4 Validasi dan Evaluasi Model
Dalam model proses pembangunan, kami menggunakan metode K-fold Cross-Validation untuk mengevaluasi
kinerja model prediksi pembelian, di mana K ditetapkan menjadi 5.
3.5 Mengembangkan Strategi dan Implementasi

Berdasarkan hasil model prediksi penjualan dan rekomendasi produk, kami dapat mengembangkan strategi
bisnis penjualan dan manajemen inventaris untuk meningkatkan keuntungan toko. Dalam proses pengembangan
model, Jupyter Notebook dan PyCharm digunakan sebagai alat utama.
Selain itu, banyak perpustakaan yang digunakan termasuk Pandas, NumPy, Matplotlib, Scikit-learn, dan perpustakaan
perangkat lunak sumber terbuka XGBoost.
4 Hasil dan Pembahasan
4.1 Segmentasi Pelanggan

Dalam metode RFM, kami menggunakan data “pembelian” untuk bulan Oktober 2019 dalam modelnya. Kita
perlu menentukan kombinasi informasi kolom mana yang merupakan pesanan, dan mentransfer “waktu” yang
merupakan waktu tanggal transaksi dengan format “%Y%m%d”. Di antara 742849 baris data dalam kumpulan data,
193342 baris merupakan data duplikat atau tidak lengkap, oleh karena itu, kami menghapusnya dari kumpulan data.
Jumlah total data “pembelian” setelah menghapus data berisik menjadi 549507. Tab. Gambar 4 menggambarkan
jumlah simbol yang digunakan pada setiap level pelanggan. Kami menetapkan 8 tingkat pelanggan dan menggunakan
ukuran setiap angka untuk menunjukkan pentingnya tingkat pelanggan, 1, 2, 3, 4, 5, 6, 7 dan 8 dalam hasil
3864 CMC, 2022, jilid 70, no.2
masing-masing (Tabel 4). Semakin tinggi jumlah simbol, semakin penting tingkat pelanggannya
menjadi. Misalnya, tingkat pelanggan yang paling penting adalah “Nilai Utama” yang ditetapkan sebagai
nomor 8. Di sisi lain, “Retensi Umum” adalah tingkat pelanggan yang paling tidak penting
diilustrasikan sebagai nomor 1 di Tab. 4.
Tabel 4: Simbol angka tingkat pelanggan
Tingkat pelanggan Simbol
Nilai utama 8
Perkembangan besar 7
Pemeliharaan utama 6
Retensi besar 5
Nilai umum 4
Perkembangan umum 3
Perawatan umum 2
Retensi umum 1
Menurut pendapat ahli, data tersebut berisi jumlah barang tahan lama seperti telepon,
komputer, AC, dll. Hasil yang ditunjukkan pada Gambar 6 menunjukkan bahwa beberapa perusahaan listrik
seperti Samsung, Apple, Xiaomi, Huawei, Oppo, LG, Acer, Indesit, Elenberg dan Artel termasuk di antaranya
10 merek populer teratas berdasarkan uang yang dibelanjakan oleh pelanggan. Dalam analisis akhir RFM, kami menetapkan
bobotR hingga 0,4, bobotF hingga 0,1, bobotM hingga 0,5.
Gambar 6: 10 merek produk terpopuler
Gambar 7 menunjukkan hasil analisis RFM menggunakan data bulan Oktober 2019, termasuk jumlah pelanggan di setiap
tingkat dan uang yang dikeluarkan pelanggan di setiap tingkat. Ini
informasi sangat penting untuk mengembangkan strategi penjualan yang andal dan dapat diterapkan seperti
harga promosi, apakah menyediakan produk uji coba, voucher, dll kepada pelanggan
memberikan tip berguna untuk sistem prediksi dan rekomendasi, seperti yang ditunjukkan pada Gambar. 7 dan 8. Sebagai
diilustrasikan pada Gambar. 7 dan 8, sebagian besar pelanggan termasuk dalam tingkat “Pelanggan Nilai Utama”.
(28,86%) dengan tingkat pengeluaran uang tertinggi sekitar 40,29%. Yang dimaksud dengan “Pelanggan Retensi Utama”.
ke kelompok pelanggan tertinggi kedua yang melakukan pembelian besar tetapi tidak membeli apa pun
CMC, 2022, jilid 70, no.2 3865
untuk waktu yang lama. Kelompok pelanggan ini sudah hampir keluar, dan kemungkinan besar akan hilang.
Namun kelompok pelanggan ini mempunyai nilai besar terhadap kontribusi nyata perusahaan.
Oleh karena itu, kita dapat melakukan kontak atau kunjungan untuk mensurvei alasan rendahnya tingkat
pembelian kembali, sehingga meningkatkan tingkat retensi. Untuk “Pelanggan Berkembang Utama” dan
“Pelanggan Utama Berkembang”, kami perlu mengirimkan pesan tentang fungsi atau fitur baru pada produk
baru untuk menarik mereka. Namun, mereka dapat memutuskan apakah mereka memerlukan produk yang diiklankan tersebut.
Gambar 7: Jumlah pelanggan di setiap tingkat dan persentase tingkat pelanggan yang berbeda
3866 CMC, 2022, jilid 70, no.2
Gambar 8: Uang yang dibelanjakan oleh pelanggan di setiap tingkat dan persentase konsumsi dari tingkat
pelanggan yang berbeda
Bagi Pelanggan Umum, ciri khasnya adalah jumlah konsumsinya tidak cukup tinggi, namun kategori-
kategorinya pun berbeda-beda. Kelompok “Pelanggan Nilai Umum” berjumlah sekitar 10,97% dari total pelanggan,
namun jumlah konsumsinya hanya mencapai 8,64%. Kami dapat merekomendasikan produk dengan harga lebih
tinggi dari jenis yang sama kepada mereka, sambil memperkenalkan fungsi bagus lainnya dari produk baru dan
memberikan uji coba gratis untuk meningkatkan minat pelanggan. Untuk “Pelanggan Umum yang Berkembang”
dan “Pelanggan Umum yang Dipelihara”, kami dapat memberikan mereka voucher yang sesuai untuk merangsang
pembelian produk atau merekomendasikan mereka untuk membeli aksesori dengan harga lebih rendah untuk
meningkatkan pengalaman mereka, seperti casing ponsel. “Pelanggan Retensi Umum”
CMC, 2022, jilid 70, no.2 3867
grup sudah lama tidak melakukan pemesanan, oleh karena itu, pada dasarnya kami mengira itu milik pelanggan
mengocok.
4.2 Model Prediksi Penjualan
Kami menerapkan algoritma XGBoost, Random Forest, dan Decision Tree ke dalam prediksi penjualan
model untuk membandingkan kinerjanya dan mendapatkan hasil prediksi akhir melalui model akhir yang mana
memiliki kinerja terbaik dalam proyek ini. Dalam proses pembuatan model, kami menggunakan metode K-fold Cross-Validation
untuk mengevaluasi kinerja model prediksi pembelian, di mana K ditetapkan
menjadi 5. Setelah rekayasa fitur dan penyetelan parameter, kami melakukan dan membandingkannya
tiga model. Hasil perbandingan tiga model antara lain XGBoost, Random Forest dan
Pohon Keputusan menggunakan metrik evaluasi ditampilkan di Tab. 5.
Tabel 5: Performa terbaik untuk setiap model
Metrik evaluasi Algoritma

XGBoost Hutan acak Pohon keputusan
Ketepatan 0,7782 0,7310 0,7006

Presisi 0,6967 0,6842 0,6666
Mengingat 0,8858 0,7321 0,6518
Skor F1 0,7888 0,7327 0,7001
AUC 0,8524 0,7311 0,6957
Karena performa model yang menggunakan algoritma XGBoost lebih baik, maka kami menjadikannya sebagai model final
model prediksi pembelian. Parameter detail yang diuji dalam pendekatan pencarian grid adalah
ditampilkan di Tab. 6, yang juga berisi parameter terbaik yang digunakan dalam sistem prediksi akhir.
Kemudian kita simpulkan output dari prediksi penjualan melalui sistem.
Tabel 6: Parameter yang dievaluasi untuk XGBoost
Parameter Nilai yang mungkin Parameter terbaik
n_estimator 900, 1200, 1500, 2000 3, 6, 1500

Kedalaman_maks 9 1, 3, 6
Berat_anak_minimal 5 0,1, 1
Gamma 0,2, 0,3, 0,4, 0,5 0,6, 0,7, 0,1
Subsampel 0,8, 0,9, 1 0,6, 0,7, 0,8, 0,9
Colsample_bytree 0,9, 1 0,00001, 0,01, 0,9
Reg_alpha 0,1, 1, 100 0,05, 0,1, 1, 2, 3 1
Reg_lambda 0,01, 0,05, 0,1 0,05
Kecepatan_belajar 0,1
Gambar 9 menunjukkan kurva ROC dimana kita dapat menghitung nilai luas area di bawah kurva.
Berdasarkan hasil tersebut, nilai AUC tergolong sangat baik untuk nilai antara 0,9 dan 1,
baik untuk nilai antara 0,8 dan 0,9 [30]. Hasilnya menunjukkan bahwa keakuratan prediksi kami adalah
3868 CMC, 2022, jilid 70, no.2
Bagus. Oleh karena itu, kita dapat menyimpulkan bahwa model yang diusulkan dapat memprediksi tindakan pembelian dengan akurasi
yang tinggi.
Gambar 9: Kurva ROC model prediksi pembelian akhir
Gambar 10 menampilkan jumlah total penjualan dibandingkan dengan total perkiraan penjualan dari 01-10-2019 hingga
30-12-2019.
Gambar 10: Perbandingan penjualan yang diprediksi dan aktual
Kita dapat menggunakan antarmuka interaktif sederhana untuk memprediksi tindakan pembelian untuk setiap kategori produk.
Hasilnya disajikan berdasarkan penjualan harian, yaitu jumlah total penjualan produk, bukan jumlah total. Misalnya, Gambar 11
mengilustrasikan grafik perbandingan untuk komputer
CMC, 2022, jilid 70, no.2 3869
penjualan aktual dan perkiraan penjualan. Total penjualan komputer sekitar 1500 unit
sedangkan prediksi penjualannya sebanyak 2000 unit pada 16 Desember 2019.
Kategori Produk
komputer konstruksi aksesoris elektronik alat tulis peralatan mebel olahraga obat halaman_negara anak-anak mobil
Gambar 11: Perbandingan perkiraan penjualan komputer dan penjualan aktual
4.3 Model Rekomendasi Produk
Analisis keranjang pasar adalah salah satu teknik utama yang digunakan oleh pengecer besar untuk menemukan hal tersebut
hubungan antar item. Analisis keranjang pasar dimulai dengan menyusun keranjang belanja
data, yang berasal dari kumpulan data kombinasi pembelian termasuk ID pengguna, ID pembelian, dan produk
ID, diringkas berdasarkan sesi pengguna dari ID pengguna yang sama. Gambar 12 menampilkan Top 15 produk populer
dan hitungannya masing-masing.
Gambar 12: 15 produk populer teratas

3870 CMC, 2022, jilid 70, no.2
Untuk menambang kumpulan item yang sering dan aturan asosiasi, kami menggunakan algoritma Apriori di perpustakaan Arules.
Setelah beberapa percobaan, kami menetapkan nilai dukungan minimum menjadi 0,001 dan nilai kepercayaan minimum menjadi 0,1, dan
kami mengurutkan aturan berdasarkan penurunan gaya angkat, seperti yang ditunjukkan pada Gambar 13.
Gambar 13: Hasil aturan asosiasi
Dari sudut pandang pemasaran, biasanya cukup hanya fokus pada dukungan dan kepercayaan diri untuk mendapatkan respon
pemasaran yang maksimal, yang berarti lebih banyak pelanggan dapat membeli produk yang direkomendasikan oleh sistem yang
diusulkan. Misalnya untuk produk 1004565 yang ditunjukkan pada Gambar 14 kita ingin mendapatkan tingkat respons pemasaran tertinggi,
produk manakah yang sebaiknya kita rekomendasikan pada halaman keberhasilan pembayaran ini? Semakin tinggi kepercayaannya,
semakin besar kemungkinan pelanggan akan membeli barang pada kolom kanan. Gambar 14 menampilkan langkah-langkah dan hasil
untuk mendapatkan respon pemasaran tertinggi dan mengurutkannya berdasarkan tingkat kepercayaan. Lebih lanjut menggambarkan kita
harus merekomendasikan produk 1004767 sebagai produk pertama kepada pelanggan.
Gambar 14: Rekomendasi dari perspektif pemasaran

CMC, 2022, jilid 70, no.2 3871
Dari perspektif memaksimalkan penjualan, Gambar 15 menunjukkan bahwa lebih baik fokus pada peningkatan.
Semakin besar lift maka nilai yang didapat akan semakin baik, oleh karena itu sebaiknya produk 1004785 direkomendasikan
sebagai produk pertama bagi pelanggan karena nilai liftnya paling besar yaitu sekitar 12. Hasil ini menunjukkan bahwa
hubungan antara produk 1004565 dengan 1004785 semakin kuat. dibandingkan produk lainnya, artinya pelanggan akan
membeli produk 1004785 setelah membeli produk 1004565 dengan probabilitas paling besar.
Gambar 15: Merekomendasikan dari perspektif memaksimalkan penjualan
Platform e-commerce sering kali menghadapi beberapa pelanggan baru yang belum pernah membeli suatu produk
dan kami tidak memiliki data transaksi mereka untuk melihat preferensi mereka, namun kami tetap dapat merekomendasikan
produk kepada mereka. Misalnya, Gambar 16 menunjukkan bahwa jika kita ingin merekomendasikan produk 1005203
kepada pelanggan, dengan menggunakan aturan tangan kanan, lebih baik mencari rangkaian frekuensi tinggi yang muncul
dengan produk 1005203 dan merekomendasikannya bersama-sama. Oleh karena itu, Gambar 17 menunjukkan bahwa kita
harus merekomendasikan produk 1005195, 1005256, 1005217, 1004904, 1004723 dan 1005203 bersama-sama ke produk baru.
pelanggan.
Gambar 16: Rekomendasi produk untuk pelanggan baru
Untuk pelanggan tertentu, kita dapat menggunakan langkah-langkah yang ditunjukkan pada Gambar 17 untuk merekomendasikan produk.
Produk yang direkomendasikan diurutkan berdasarkan nilai peningkatan aturan asosiasi. Misalnya, Gambar 17 menunjukkan
proses penentuan pelanggan tertentu, langkah-langkah, dan interaksi dengan model yang merekomendasikan produk
melalui riwayat pembelian produk pelanggan yang termasuk dalam frequent itemset dan aturan asosiasi. Misalnya, model
rekomendasi dapat merekomendasikan produk (ID produk: 1004226, 1004249, 1005115, 1005105, 1002544) untuk
pengguna (ID pengguna: 557642444) sesuai aturan asosiasi dengan nilai peningkatan lebih besar dari 2 setelah pelanggan
membeli produk 1004227.
3872 CMC, 2022, jilid 70, no.2
Gambar 17: Contoh rekomendasi untuk satu pelanggan tertentu
5 Kesimpulan dan Pekerjaan Masa Depan
Dalam penelitian ini, kami mengusulkan model siklus hidup dan proses ilmu data baru dengan metode analisis RFM
dan kombinasi berbagai algoritma analitik yang digunakan untuk prediksi penjualan dan rekomendasi produk melalui
analisis perilaku pengguna. Untuk mengusulkan model prediksi penjualan dan rekomendasi produk, kami meninjau bagian
penting dan proses transformasi bisnis toko tradisional. Kami menggunakan segmentasi pelanggan melalui metode RFM,
dan kami mendapatkan tingkat pelanggan yang jelas dari hasilnya karena ini merupakan basis penting bagi perusahaan E-
commerce.
Kami juga menggunakan tiga metode pembelajaran mesin dalam sistem prediksi, dan algoritma Apriori untuk membangun
analisis keranjang untuk sistem rekomendasi. Dalam sistem prediksi, kami membandingkan kinerja XGBoost dan Random
Forest dalam prediksi pembelian, kemudian kami menggunakan yang lebih baik untuk model prediksi akhir. Sistem prediksi
ini dapat menilai dengan akurasi 77,82% apakah pelanggan akan melakukan pemesanan setelah perilaku pelanggan seperti
melihat dan menambahkan ke keranjang, kemudian menghitung hasilnya, yaitu kira-kira jumlah persediaan yang dibutuhkan
untuk berbagai komoditas.
Dalam sistem rekomendasi, kami menggunakan aturan asosiasi untuk menganalisis kumpulan data transaksi untuk
mendapatkan aturan asosiasi yang kuat dari produk historis yang dibeli oleh pelanggan. Sistem dapat mendemonstrasikan
bagaimana platform belanja online merekomendasikan produk kepada pelanggan. Penelitian ini juga berguna bagi
perusahaan E-commerce untuk meningkatkan manajemen inventarisnya dan meningkatkan reputasi perusahaan.
Meskipun sistem segmentasi, prediksi, dan rekomendasi pelanggan yang ada dapat memprediksi pembelian dan
merekomendasikan produk yang sesuai, kami yakin masih banyak yang harus dilakukan untuk mendapatkan kinerja yang
lebih baik. Misalnya, dua isu penting yaitu “Masalah start dingin” [13] dan “Deteksi serangan Shilling” [14] dapat diatasi
dalam sistem rekomendasi.
Di sini kami fokus pada keterbatasan metode-metode ini yang dapat diselesaikan di masa depan.
Ucapan Terima Kasih: Penulis berterima kasih kepada Fakultas Ilmu Komputer, Universiti Sains Malaysia dan Dr Nasuha
Lee Abdullah atas dukungannya yang tidak terbatas. Selanjutnya penulis mengapresiasi Divisi Riset & Inovasi, Universiti
Sains Malaysia yang telah mendanai penelitian ini.
CMC, 2022, jilid 70, no.2 3873
Pernyataan Pendanaan: Penelitian ini didanai oleh Fakultas Ilmu Komputer, dan Divisi Riset & Inovasi, Universiti
Sains Malaysia, Hibah Jangka Pendek (304/PKOMP/6315435) yang diberikan kepada Pantea Keikhosrokiani.
Konflik Kepentingan: Para penulis menyatakan bahwa mereka tidak memiliki konflik kepentingan untuk dilaporkan
mengenai penelitian ini.
Referensi
[1] O. Abdelrahman dan P. Keikhosrokiani, “Deteksi anomali jalur perakitan dan analisis akar permasalahan
menggunakan pembelajaran mesin,” IEEE Access, vol. 8, hal.189661–189672, 2020.
[2] I. Teoh Y. Zhe dan P. Keikhosrokiani, “Prediksi beban kerja mental pekerja berpengetahuan menggunakan ELANFIS yang
dioptimalkan,” Applied Intelligence, vol. 51, tidak. 4, hal.2406–2430, 2020.
[3] B. Sarwar, G. Karypis, J. Konstan dan J. Riedl, “Analisis algoritma rekomendasi untuk e-commerce,” dalam Dipresentasikan
di Proc. Konferensi ACM ke-2. tentang Electronic Commerce, Minneapolis, Minnesota, AS, 2000.
[4] C. Marcus, “Pendekatan praktis namun bermakna terhadap segmentasi pelanggan,” Journal of Consumer Marketing, vol.
15, tidak. 5, hal.494–504, 1998.
[5] CP d. Veiga, CRP d. Veiga, W. Puchalski, L.d. S. Coelho dan U. Tortato, “Perkiraan permintaan berdasarkan pendekatan
komputasi alami yang diterapkan pada segmen ritel bahan makanan,” Journal of Retailing and Consumer Services, vol.
31, hal.174–181, 2016.
[6] BM Pavlyshenko, “Model pembelajaran mesin untuk perkiraan rangkaian waktu penjualan,” Data, vol. 4, tidak. 1,
hal.15, 2019.
[7] B. Boehmke dan BM Greenwell, dalam Pembelajaran Mesin Praktis dengan R, edisi ke-1 , New York: CRC Press,
hal.488, 2019.
[8] JH Friedman, “Perkiraan fungsi serakah: Mesin penambah gradien,” The Annals of Statistics, vol. 29, tidak. 5, hal.1189–
1232, 2001.
[9] SJ Taylor dan B. Letham, “Peramalan dalam skala besar,” The American Statistician, vol. 72, tidak. 1, hal.37–45, 2018.
[10] G. Adomavicius dan A. Tuzhilin, “Menuju sistem pemberi rekomendasi generasi berikutnya: Sebuah survei tentang yang
canggih dan kemungkinan perluasannya,” Transactions on Knowledge and Data Engineering, vol. 17, hal.734–749, 2005.
[11] S. Li dan E. Karahanna, “Sistem rekomendasi online dalam konteks E-commerce B2C: Tinjauan dan arah masa depan,”
Jurnal Asosiasi Sistem Informasi, vol. 16, tidak. 2, hal.72–107, 2015.
[12] M. Soares dan P. Viana, “Menyesuaikan metadata untuk sistem rekomendasi berbasis konten film yang lebih baik,”
Alat dan Aplikasi Multimedia, vol. 74, tidak. 17, hal.7015–7036, 2015.
[13] B. Lika, K. Kolomvatsos dan S. Hadjiefthymiades, “Menghadapi masalah cold start dalam sistem pemberi rekomendasi,”
Sistem Pakar dengan Aplikasi, vol. 41, tidak. 4, Bagian 2, hlm. 2065–2073, 2014.
[14] W. Zhou, J. Wen, Q. Qu, J. Zeng dan T. Cheng, “Deteksi serangan Shilling untuk sistem pemberi rekomendasi berdasarkan
kredibilitas pengguna grup dan rangkaian waktu pemeringkatan,” PLOS One, vol . 13, tidak. 5, hal. e0196533, 2018.
[15] Y. Wang, D. Feng, D. Li, X. Chen, Y. Zhao et al., “Sistem rekomendasi seluler berdasarkan regresi logistik dan pohon
keputusan yang meningkatkan gradien,” dalam Dipresentasikan di Int. Konferensi Bersama. di Neural Networks,
Vancouver, BC, Kanada, 2016.
[16] Y. Chen dan Y. Hao, “Mesin vektor dukungan berbobot fitur dan algoritma K-nearest neighbour untuk prediksi indeks pasar
saham,” Sistem Pakar dengan Aplikasi, vol. 80, hlm.340–355, 2017.
[17] ZH Kilimci, AO Akyuz, M. Uysal, S. Akyokus, MO Uysal dkk., “Model perkiraan permintaan yang ditingkatkan menggunakan
pendekatan pembelajaran mendalam dan usulan strategi integrasi keputusan untuk rantai pasokan,” Complexity, vol.
2019, hal.15, 2019.
3874 CMC, 2022, jilid 70, no.2
[18] RC Blattberg, B.-D. Kim dan SA Nesl, Database Marketing: Analyzing and Managing Customers, edisi pertama , (Seri
internasional dalam pemasaran kuantitatif, no. 18), New York: Springer, hlm.872, 2008.
[19] S. Allegue, T. Abdellatif dan K. Bannour, “RFMC: Segmentasi kategori pengeluaran,” pada tahun 2020 IEEE 29th Int.
Konf. tentang Enabling Technologies: Infrastructure for Collaborative Enterprises (WETICE), Bayonne, Prancis, hlm.
165–170, 2020.
[20] CY Tsai dan CC Chiu, “Metodologi segmentasi pasar berbasis pembelian,” Sistem Pakar dengan Aplikasi, vol. 27,
tidak. 2, hal.265–276, 2004.
[21] R. Agrawal, T. Imielinski dan A. Swami, “Asosiasi penambangan dalam database besar,” di Proc. dari ACM SIGMOD
Int. Konf. tentang Manajemen Data - SIGMOD 93, Washington DC, hlm.207–216, 1993.
[22] P. Keikhosrokiani, N. Mustaffa, MI Sarwar dan N. Zakaria, “E-Torch: Sistem promosi berbasis lokasi perdagangan
seluler,” The International Technology Management Review, vol. 3, tidak. 3, hal.140–159, 2013.
[23] Q. Chen, M. Zhang dan X. Zhao, “Menganalisis perilaku pelanggan dalam penggunaan aplikasi seluler,” Industri
Manajemen & Sistem Data, vol. 117, hlm.425–438, 2017.
[24] P. Keikhosrokiani, “Peran literasi m-Commerce terhadap sikap penggunaan e-Torch di Penang, Malaysia,” Dalam: J.
Xu dan X. Gao, (Eds.), E-Business di abad ke- 21 Century: Topik dan Studi Penting, vol. 7, edisi ke-2 , Singapura:
World Scientific, hlm.309–333, 2021.
[25] P. Keikhosrokiani, N. Mustaffa, F. Damanhoori, N. Zakaria dan MI Sarwar, “Meningkatkan E-bisnis menggunakan
sistem periklanan berbasis lokasi,” di Proc. dari Universitas Taibah ke-1 Int. Konf. tentang Komputasi dan Teknologi
Informasi, Al-Madinah Al-Munawwarah, Arab Saudi, 2012.
[26] R. Agarwal dan R. Srikant, “Algoritma cepat untuk aturan asosiasi penambangan dalam datamining,” di The Proc.
dari tanggal 20 Int. Konf. tentang Basis Data Sangat Besar, Santiago, Chili, hlm. 487–499, 1994.
[27] G. Piatetsky-Shapiro, “Penemuan, analisis, dan presentasi aturan yang kuat,” Penemuan Pengetahuan dalam
Basis Data, jilid. 248, hal.229–238, 1991.
[28] Y. Guo, M. Wang dan X. Li, “Penerapan algoritma apriori yang ditingkatkan dalam sistem rekomendasi e-commerce
seluler,” Manajemen Industri dan Sistem Data, vol. 117, tidak. 2, hal.287–303, 2017.
[29] CS Fatoni, E. Utami dan FW Wibowo, “Sistem rekomendasi produk toko online menggunakan apriori
metode,” Jurnal Fisika: Seri Konferensi, vol. 1140, 2018.
[30] JN Mandrekar, “Kurva karakteristik operasi penerima dalam penilaian tes diagnostik,” Jurnal
Onkologi Toraks, vol. 5, tidak. 9, hal.1315–1316, 2010.

Sales Prediction and Product Recommendation Model Through - IDN

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Sales Prediction and Product Recommendation Model Through - IDN

Diunggah oleh

Hak Cipta:

Format Tersedia

Machine Translated by Google

Komputer, Material & Lanjutan Pers Sains Teknologi

Prediksi Penjualan dan Model Rekomendasi Produk Melalui

Xian Zhao dan Pantea Keikhosrokiani*

Kata Kunci: Transformasi bisnis; analisis perilaku; segmentasi pelanggan;

3856 CMC, 2022, jilid 70, no.2

2.1 Customer Segmentation

2.2 Prediksi Penjualan

CMC, 2022, jilid 70, no.2 3857

2.3 Rekomendasi Produk

2.4 Metrik Evaluasi

3858 CMC, 2022, jilid 70, no.2

Tabel 1: Deskripsi atribut

Atribut Kategori Keterangan

Sesi_pengguna numerik ID sesi pengguna

Gambar 1: Hitungan tiga perilaku berbeda

Gambar 2: Persentase setiap jenis peristiwa

CMC, 2022, jilid 70, no.2 3859

Gambar 3: Tingkat konversi dalam proses penjualan

3.1 Usulan Siklus Hidup Ilmu Data

Memahami Data • Mengetahui informasi detail tentang

Validasi dan Evaluasi • Metode Validasi Silang K-fold

• Prediksi Penjualan dan

Gambar 4: Siklus hidup ilmu data yang diusulkan

3.2 Pemrosesan Awal Data

3860 CMC, 2022, jilid 70, no.2

Tabel 2: Atribut yang diekstraksi dalam rekayasa fitur

Atribut yang diekstraksi Keterangan

Kategori_level1 Kategori, seperti elektronik

3.3 Membangun Model yang Diusulkan

3.3.1 Segmentasi Pelanggan

Skor RFM = keterkinian × bobotR + frekuensi × bobotF + moneter × bobotM (1)

CMC, 2022, jilid 70, no.2 3861

Tabel 3: Tingkat nilai pelanggan yang diusulkan

Tingkat pelanggan Klasifikasi Keterangan

3.3.2 Prediksi Penjualan

3862 CMC, 2022, jilid 70, no.2

3.3.3 Rekomendasi Produk

Dukungan (X) = P(X) (2)

Dukungan (Y) = P(Y) (3)

Dukungan (X ÿ Y) = Dukungan(X ÿ Y) = P(X ÿ Y) (4)

CMC, 2022, jilid 70, no.2 3863

Gambar 5: Proses desain model

3.4 Validasi dan Evaluasi Model

3.5 Mengembangkan Strategi dan Implementasi

4 Hasil dan Pembahasan

4.1 Segmentasi Pelanggan

3864 CMC, 2022, jilid 70, no.2

Tabel 4: Simbol angka tingkat pelanggan

Tingkat pelanggan Simbol

Gambar 6: 10 merek produk terpopuler

CMC, 2022, jilid 70, no.2 3865

3866 CMC, 2022, jilid 70, no.2

CMC, 2022, jilid 70, no.2 3867

4.2 Model Prediksi Penjualan

Tabel 5: Performa terbaik untuk setiap model

Metrik evaluasi Algoritma

Ketepatan 0,7782 0,7310 0,7006

Tabel 6: Parameter yang dievaluasi untuk XGBoost

Parameter Nilai yang mungkin Parameter terbaik

n_estimator 900, 1200, 1500, 2000 3, 6, 1500

3868 CMC, 2022, jilid 70, no.2

Gambar 9: Kurva ROC model prediksi pembelian akhir