Anda di halaman 1dari 21

FINAL

PROJEC
T
STUDI INDEPENDEN KAMPUS
MERDEKA
Analisa dan Prediksi
Cost Pada Convenient
Food Mart
Menggunakan Model
Regresi Lightgbm
Profile Team

Iqlima Hanifizzulfa Firgiawan Yogi Gilang R Debby Berliana Agus Triyadi


Statistika Teknik Industri Akuntansi Teknik Informatika
Universitas Muhammadiyah Universitas Trunojoyo. Universitas Lampung Universitas Sains Al-Qur’an
Semarang.
Business Understanding
01
Pembahasan
Memahami bisnis, memahami fokus utama serta
menentukan tujuan dan manfaat penelitian pada
perusahaan CFM

Data Understanding
02 Memahami informasi data pada perusahaan CFM

Data Preparation
03 Menentukan atribut yang diugunakan pada data
perusahaan CFM

Modelling
04 Menetapkan algoritma yang digunakan sesuai tujuan
penelitian pada perusahaan CFM
BUSINESS
UNDERSTANDING
Convenient Food Mart atau CFM adalah jaringan toko serba ada
yang berlokasi di Mentor, Ohio, Amerika Serikat. CFM beroperasi
dengan sistem waralaba, dan menjadi toko swalayan terbesar ketiga
pada tahun 1988.
 
CFM memiliki beberapa departemen antara lain marketing,
product, dan sales. Karena adanya beberapa departemen tersebut, CFM
ingin mengetahui lebih detail terkait faktor atau variabel yang
mempengaruhi biaya dalam keperluan efisiensi perusahaan.

Sehingga kami dari kelompok 3 ingin menganalisis pada bagian


cost dengan menggunakan model regresi berdasarkan variabel
independen
TUJUAN
Berdasarkan dari latar belakang dan
rumusan masalah dapat disesuaikan bahwa,
tujuan dari final project ini adalah
mengidentifikasi variabel-variabel yang
mempengaruhi biaya untuk mendapatkan
pelanggan oleh setiap mitra pada
perusahaan CFM menggunakan model
regresi.

Selain itu juga menetapkan model


regresi terbaik yang kemudian dapat
digunakan dalam memprediksi biaya untuk
keperluan efisiensi perusahaan.
MANFAAT
Mengetahui biaya untuk mendapatkan pelanggan oleh

setiap mitra berdasarkan karakteristik variable dari setiap

customer.
DATA
UNDERSTANDING
Menggunakan dataset "media prediction and its cost". Dalam dataset

tersebut berisi mitra-mitra yang melakukan kerja sama di perusahaan CFM.

Data tersebut mempunyai 60428 baris dan 18 kolom.Di sini penulis ingin

meneliti terkait sisi informasi store dari mitra CFM. Jadi, berikut merupakan

data yang akan digunakan:


Informasi Deskriptif Yang Terkandung Dalam Data
Informasi Deskriptif Yang Terkandung Dalam Data
DATA
PREPARATION
Data yang digunakan tidak mencakup semua columns yang ada pada dataset. Beberapa variabel yang tidak digunakan akan
di dropping. Maka dataset yang digunakan adalah dataset yang hanya meliputi variabel:
MODELLI
NG
Convenient
Model Regresi
Food Mart
Regresi adalah metode statistika yang digunakan

untuk melihat hubungan antara sebuah variabel terikat

dan satu variabel independen atau lebih. Metode ini juga

bisa digunakan untuk memprediksi nilaiyang

mungkinterjadi di masa depan.


Compare Model
Light Gradient Boosting Machine

XGBoost dan lightgbm mencakup algoritme peningkatan

random forest dan gradien. Gradient Boosting Machine

(GBM) dapat meningkatkan akurasi prediksi R square dan

RMSE lebih dari 80 persen dibandingkan dengan model

terbaik industry yakni algoritma random forest dan regresi

linier.
Create Model Light GBM Setelah Dinaikkan Tingkat Signifikansinya
Plot LGBM Regression
Berdasarkan Plot prediksi error LGBM Regression

nilai Koefisien Determinasi (R-Square) pada variabel cost

(biaya untuk mendapatkan pelanggan) adalah sebesar 0,997,

hal ini menunjukkan bahwa semua variable independent

secara simultan memiliki pengaruh yaitu sebesar 99,7%

terhadap biaya untuk mendapatkan pelanggan (variable

dependen/terikat). Sedangkan sisanya yaitu sebesar 0,3%

dipengaruhi oleh variabel lain yang tidak diuji dalam

penelitian.
Plot Variabel Yang Paling Berpengaruh Terhadap
Model Prediksi

Berdasarkan plot Feature Importance dapat dilihat

bahwa sebagian besar fitur bersifat kategorik. Di sini

terdapat 10 fitur teratas yang harus menjadi perhatian

untuk langkah selanjutnya dari proyek ini. Dengan

variabel frozen_sqft (luas area frozen food dalam sqft)

memiliki kepentingan tertinggi dengan total nilai F

score sebesar 505. Hal ini merupakan fokus yang akan

digunakan untuk membangun mesin regresi yang tepat.


Evaluasi Model

Berdasarkan evaluasi final model yang telah dilakukan


didapatkan nilai MSE (Mean Square Error) sebesar 1,9598
Table Hasil Prediksi Model
10 Data Teratas
THANK YOU

Anda mungkin juga menyukai