Kelompok 3

FINAL
PROJEC
T
STUDI INDEPENDEN KAMPUS
MERDEKA
Analisa dan Prediksi
Cost Pada Convenient
Food Mart
Menggunakan Model
Regresi Lightgbm
Profile Team
Iqlima Hanifizzulfa Firgiawan Yogi Gilang R Debby Berliana Agus Triyadi

Statistika Teknik Industri Akuntansi Teknik Informatika
Universitas Muhammadiyah Universitas Trunojoyo. Universitas Lampung Universitas Sains Al-Qur’an
Semarang.
Business Understanding
01
Pembahasan
Memahami bisnis, memahami fokus utama serta
menentukan tujuan dan manfaat penelitian pada
perusahaan CFM
Data Understanding
02 Memahami informasi data pada perusahaan CFM
Data Preparation
03 Menentukan atribut yang diugunakan pada data
perusahaan CFM
Modelling
04 Menetapkan algoritma yang digunakan sesuai tujuan
penelitian pada perusahaan CFM
BUSINESS
UNDERSTANDING
Convenient Food Mart atau CFM adalah jaringan toko serba ada
yang berlokasi di Mentor, Ohio, Amerika Serikat. CFM beroperasi
dengan sistem waralaba, dan menjadi toko swalayan terbesar ketiga
pada tahun 1988.

CFM memiliki beberapa departemen antara lain marketing,
product, dan sales. Karena adanya beberapa departemen tersebut, CFM
ingin mengetahui lebih detail terkait faktor atau variabel yang
mempengaruhi biaya dalam keperluan efisiensi perusahaan.
Sehingga kami dari kelompok 3 ingin menganalisis pada bagian

cost dengan menggunakan model regresi berdasarkan variabel
independen
TUJUAN
Berdasarkan dari latar belakang dan
rumusan masalah dapat disesuaikan bahwa,
tujuan dari final project ini adalah
mengidentifikasi variabel-variabel yang
mempengaruhi biaya untuk mendapatkan
pelanggan oleh setiap mitra pada
perusahaan CFM menggunakan model
regresi.
Selain itu juga menetapkan model

regresi terbaik yang kemudian dapat
digunakan dalam memprediksi biaya untuk
keperluan efisiensi perusahaan.
MANFAAT
Mengetahui biaya untuk mendapatkan pelanggan oleh
setiap mitra berdasarkan karakteristik variable dari setiap
customer.
DATA
UNDERSTANDING
Menggunakan dataset "media prediction and its cost". Dalam dataset
tersebut berisi mitra-mitra yang melakukan kerja sama di perusahaan CFM.
Data tersebut mempunyai 60428 baris dan 18 kolom.Di sini penulis ingin
meneliti terkait sisi informasi store dari mitra CFM. Jadi, berikut merupakan
data yang akan digunakan:

Informasi Deskriptif Yang Terkandung Dalam Data
Informasi Deskriptif Yang Terkandung Dalam Data
DATA
PREPARATION
Data yang digunakan tidak mencakup semua columns yang ada pada dataset. Beberapa variabel yang tidak digunakan akan
di dropping. Maka dataset yang digunakan adalah dataset yang hanya meliputi variabel:
MODELLI
NG
Convenient
Model Regresi
Food Mart
Regresi adalah metode statistika yang digunakan
untuk melihat hubungan antara sebuah variabel terikat
dan satu variabel independen atau lebih. Metode ini juga
bisa digunakan untuk memprediksi nilaiyang
mungkinterjadi di masa depan.

Compare Model
Light Gradient Boosting Machine
XGBoost dan lightgbm mencakup algoritme peningkatan
random forest dan gradien. Gradient Boosting Machine
(GBM) dapat meningkatkan akurasi prediksi R square dan
RMSE lebih dari 80 persen dibandingkan dengan model
terbaik industry yakni algoritma random forest dan regresi
linier.
Create Model Light GBM Setelah Dinaikkan Tingkat Signifikansinya
Plot LGBM Regression
Berdasarkan Plot prediksi error LGBM Regression
nilai Koefisien Determinasi (R-Square) pada variabel cost
(biaya untuk mendapatkan pelanggan) adalah sebesar 0,997,
hal ini menunjukkan bahwa semua variable independent
secara simultan memiliki pengaruh yaitu sebesar 99,7%
terhadap biaya untuk mendapatkan pelanggan (variable
dependen/terikat). Sedangkan sisanya yaitu sebesar 0,3%
dipengaruhi oleh variabel lain yang tidak diuji dalam
penelitian.
Plot Variabel Yang Paling Berpengaruh Terhadap
Model Prediksi
Berdasarkan plot Feature Importance dapat dilihat
bahwa sebagian besar fitur bersifat kategorik. Di sini
terdapat 10 fitur teratas yang harus menjadi perhatian
untuk langkah selanjutnya dari proyek ini. Dengan
variabel frozen_sqft (luas area frozen food dalam sqft)
memiliki kepentingan tertinggi dengan total nilai F
score sebesar 505. Hal ini merupakan fokus yang akan
digunakan untuk membangun mesin regresi yang tepat.

Evaluasi Model
Berdasarkan evaluasi final model yang telah dilakukan

didapatkan nilai MSE (Mean Square Error) sebesar 1,9598
Table Hasil Prediksi Model
10 Data Teratas
THANK YOU

Kelompok 3

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Kelompok 3

Diunggah oleh

Hak Cipta:

Format Tersedia

FINAL

Iqlima Hanifizzulfa Firgiawan Yogi Gilang R Debby Berliana Agus Triyadi

Sehingga kami dari kelompok 3 ingin menganalisis pada bagian

Selain itu juga menetapkan model

setiap mitra berdasarkan karakteristik variable dari setiap

tersebut berisi mitra-mitra yang melakukan kerja sama di perusahaan CFM.

data yang akan digunakan:

untuk melihat hubungan antara sebuah variabel terikat

dan satu variabel independen atau lebih. Metode ini juga

bisa digunakan untuk memprediksi nilaiyang

mungkinterjadi di masa depan.

XGBoost dan lightgbm mencakup algoritme peningkatan

random forest dan gradien. Gradient Boosting Machine

(GBM) dapat meningkatkan akurasi prediksi R square dan

RMSE lebih dari 80 persen dibandingkan dengan model

terbaik industry yakni algoritma random forest dan regresi

nilai Koefisien Determinasi (R-Square) pada variabel cost

(biaya untuk mendapatkan pelanggan) adalah sebesar 0,997,

hal ini menunjukkan bahwa semua variable independent

secara simultan memiliki pengaruh yaitu sebesar 99,7%

terhadap biaya untuk mendapatkan pelanggan (variable

dependen/terikat). Sedangkan sisanya yaitu sebesar 0,3%

dipengaruhi oleh variabel lain yang tidak diuji dalam

Berdasarkan plot Feature Importance dapat dilihat

bahwa sebagian besar fitur bersifat kategorik. Di sini

terdapat 10 fitur teratas yang harus menjadi perhatian

untuk langkah selanjutnya dari proyek ini. Dengan

variabel frozen_sqft (luas area frozen food dalam sqft)

memiliki kepentingan tertinggi dengan total nilai F

score sebesar 505. Hal ini merupakan fokus yang akan

digunakan untuk membangun mesin regresi yang tepat.

Berdasarkan evaluasi final model yang telah dilakukan

Anda mungkin juga menyukai