Analisis Preprocessing Dan Visualisasi Data Menggunakan Data Big Mart Sales

Analisis Preprocessing dan Visualisasi Data
Menggunakan Data Big Mart Sales

Priscila Elia Kusumaningtyas1), Tita Riza Aulia2), Dr. Santi Wulan Purnami, S.Si, M.Si 3) , Dr. Dra.
Kartika Fithriasari, M.Si 4), Dr. Irhamah, S.Si, M.Si 4)
Departemen Statistika, Fakultas Sains dan Analitika Data
Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail: priscilaeliakusumaningtyas@gmail.com1) , titariza28@gmail.com2), dan
santi_wp@statistika.its.ac.id3)
Abstrak— Teknologi digital memberikan pertumbuhan worldwide diperkirakan nilai penjualan pada tahun 2017
ekonomi melalui peningkatan produktivitas, membawa orang ke mencapai 2,29 Triliun US Dollars dan akan terus meningkat
dalam ekonomi formal, dan membantu inovasi produk dan hingga mencapai 4,48 Triliun US Dollars di tahun 2021. Hal
layanan yang menciptakan pasar baru. Salah satu penerapan
tersebut menunjukkan berkembang pesatnya digital business.
teknologi digital adalah Digital Business. Digital Business
mengubah cara organisasi menggunakan dan memikirkan
Seiring dengan berkembang pesatnya digital business, tingkat
teknologi, memindahkan teknologi dari pemain pendukung ke kompetitif dalam pengembangan bisnis suatu perusahaan
pemain terdepan dalam inovasi, pendapatan dan pertumbuhan maupun penciptaan terobosan bisnis baru semakin tinggi.
pasar. E-commerce merupakan salah satu perwujudan digital Oleh karena itu, diperlukan kemampuan suatu bisnis untuk
business. Pada penelitian ini dilakukan pre-processing, analisis bersaing. Kemampuan bersaing suatu bisnis dapat diukur dari
statistika deskriptif , dan visualisasi pada data penjualan di hasil penjualan.
pusat perbelanjaan terkemuka yaitu Bigmart yang terletak di BigMart merupakan toko kelontong dan pusat
Nepal. Tujuannya adalah mengatasi permasalahan yang perbelanjaan terkemuka di Nepal, dengan lebih dari 25 gerai
dapat mengganggu hasil analisis seperti misalnya missing di Lembah Kathmandu [3]. BigMart tidak hanya ingin
value, data redundant, outliers, ataupun format data yang menjadi yang terdepan, tetapi juga sebagai retail chain paling
tidak sesuai dengan sistem, bagaimana summary atau inovatif di Nepal. Guna mencapai tujuan tersebut, Bigmart
sekilas informasi dari suatu data, sedangkan tujuan dari berusaha untuk memberikan layanan dan kenyamanan terbaik
visualisasi data adalah agar peneliti dapat mengetahui kepada pelanggan mereka dengan menggunakan teknologi dan
metode apa yang tepat untuk diterapkan untuk ide-ide baru. Sebagai retail chain terkemuka, Bigmart
melakukan analisis terhadap data tersebut. Kesimpulan memberikan kemudahan untuk berkomunikasi kepada
yang dihasilkan yaitu setelah dilakukan proses pre-processing pelanggan yaitu dengan “Bigmart App”. Aplikasi ini mdapat
data didapatkan 9 variabel dari total 12 variabel yang memiliki
diinstall pada smartphone serta memungkinkan pelangga
pengaruh signifikan atau memiliki kontribusi dalam proses
analisis. untuk menelusuri produk, menemukan toko, melacak rincian
Kata Kunci—Bigmart Sales, Pre-Processing, Statistika pembelian mereka dan tagihan, mencari voucher dan
Deskriptif, Visualisasi. penawaran.
Data Scientist di BigMart telah mengumpulkan data
penjualan tahun 2013. Pada data tersebut terdapat 1559
I. PENDAHULUAN produk di 10 toko dengan hasil penjualan yang berbeda-beda
D unia sedang mengalami perkembangan teknologi begitu

pesat di era digital saat ini. Menurut suatu lembaga
statistika, Statista, bahwa 30,8 % penduduk dunia telah
yang dipengaruhi oleh faktor-faktor tertentu. Tujuan dari
pengumpulan data tersebut adalah untuk dianalisis agar
mendapatkan informasi serta kesimpulan dalam pembuatan
menggunakan Smartphone di tahun 2017. Selain itu, keputusan dari data tersebut seperti sifat produk dan toko yang
berdasarkan Internet World Stat bahwa 51,8% penduduk berperan penting dalam meningkatkan penjualan. Selain itu,
dunia merupakan pengguna internet di tahun 2017, jumlah ini juga untuk membangun model prediksi dan mencari tahu
diperkirakan akan naik tiap tahunnya. Era Digital ditandai penjualan masing-masing produk di toko tertentu.
oleh teknologi yang meningkatkan kecepatan dan keluasan Sebelum melakukan analisis pada data penjualan di
omzet pengetahuan dalam ekonomi dan masyarakat yang bisa Bigmart, terlebih dahulu dilakukan pre-processing. Tujuan
dari pre-processing data adalah mengatasi permasalahan yang
disebut teknologi digital [1]. Teknologi digital memberikan
dapat mengganggu hasil analisis seperti misalnya missing
pertumbuhan ekonomi melalui peningkatan produktivitas,
value, data redundant, outliers, ataupun format data yang
membawa orang ke dalam ekonomi formal, dan membantu
tidak sesuai dengan sistem. Langkah selanjutnya adalah
inovasi produk dan layanan yang menciptakan pasar baru [2]. analisis secara deskriptif dan visualisasi data. Analisis secara
Digital Business merupakan salah satu wujud dari deskriptif dilakukan agar peneliti mengetahui bagaimana
perkembangan teknologi digital tersebut. summary atau sekilas informasi dari suatu data, sedangkan
Digital Business mengubah cara organisasi tujuan dari visualisasi data adalah agar peneliti dapat
menggunakan dan memikirkan teknologi, memindahkan mengetahui metode apa yang tepat untuk diterapkan untuk
teknologi dari pemain pendukung ke pemain terdepan dalam melakukan analisis terhadap data tersebut.
inovasi, pendapatan dan pertumbuhan pasar. E-commerce
merupakan salah satu perwujudan digital business.
Berdasarkan data Statista mengenai Retail e-commerce sales
2
1. Modus
II TINJAUAN PUSTAKA Modus segugus pengamatan adalah nilai yang terjadi
paling sering atau yang mempunyai frekuensi paling tinggi.
A. Preprocessing Data Modus tidak selalu ada. Hal ini terjadi bila semua pengamatan
Preprocessing data merupakan tahapan pertama dan mempunyai frekuensi terjadi yang sama. Untuk data tertentu,
merupakan tahapan yang penting dalam data mining atau data mungkin saja terdapat beberapa nilai dengan frekuensi tinggi,
analysis [4]. Pada umunya data pada dunia nyata yang masih dan dalam hal demikian kita mempunyai lebih dari satu modus
mentah atau biasa disebut data primer memiliki kekurangan [8].
diantaranya tidak lengkap, banyak noise, dan juga tidak
konsisten [5]. Oleh karenanya tahapan ini sangat penting 2. Rata-rata
untuk memastikan data sumber diolah sehingga menghasilkan Rata-rata merupakan suatu ukuran pusat data bila data itu
dataset yang siap dipakai pada tahapan selanjutnya. Ada tiga diurutkan dari yang terkecil sampai yang terbesar atau
tahapan yaitu data cleaning, data transformation, dan feature sebaliknya [8].
selection. Rumus rata-rata populasi adalah

n
1. Data Cleaning xi (1)
Data cleaning adalah perbaikan terhadap data-data yang  i 1
N
rusak, hilang atau salah (error). Pada tahap data cleaning, hal Rumus rata-rata sampel adalah
yang harus dilakukan adalah menganalisis data untuk

n
xi (2)
mendeteksi adanya data outlier, menghaluskan data yang x i 1
memiliki noise serta memperbaiki data yang tidak konsisten. n

Outlier adalah kasus atau data yang memiliki karakteristik Keterangan:
unik yang terlihat sangat berbeda jauh dari observasi-observasi μ : rata-rata populasi
lainnya dan muncul dalam bentuk nilai ekstrim baik untuk x́ : rata-rata sampel
sebuah variabel tunggal atau variabel kombinasi. Beberapa N : banyak data populasi
penyebab adanya outlier adalah kesalahan dalam memasukan n : banyak data sampel
data, kegagalan dalam spesifikasi missing value ke dalam 3. Median
program komputer, outlier bukan merupakan anggota populasi
yang diambil sebagai sampel, dan outlier berasal dari populasi Median segugus data yang telah diurutkan dari yang
yang berasal dari sampel tetapi distribusi dari variabel dalam terkecil sampai terbesar atau terbesar sampai terkecil adalah
populasi tersebut memiliki nilai ekstrim dan tidak terdistribusi pengamatan yang tepat di tengah-tengah bila banyaknya
secara normal [6]. pengamatan itu ganjil, atau rata-rata kedua pengamatan yang
di tengah bila banyaknya pengamatan genap [8].
2. Data Transformation Median untuk data ganjil :
Me  x n 1 
Data transformation adalah proses mengubah atau  
menggabungkan data ke dalam bentuk yang sesuai dengan

 2 
(3)
menggunakan algoritma dan software data mining. Data Median untuk data genap :
transformation digunakan apabila terdapat data yang tidak x n  x n 1
terdistribusi secara normal. Pada tahapan ini data diubah atau Me  2 2
dikonsolidasikan sehingga proses penambangan yang 2 (4)

dihasilkan dapat lebih efisien dan pola yang ditemukan dapat Keterangan :
lebih mudah dipahami. Me = Median
n = Banyak data
3. Feature Selection
Feature selection merupakan tahap preprocessing yang 4. Varians
mencoba untuk menemukan subhimpunan dari himpunan fitur Varians adalah nilai tengah kuadrat simpangan dari nilai
yang tersedia untuk meningkatkan aplikasi dari suatu tengah atau simpangan rata-rata kuadrat. Untuk sampel,
algoritma pembelajaran [7]. Feature selection digunakan variansinya (varian sampel) disimbolkan dengan s2 [9].
dibanyak area aplikasi sebagai alat untuk menghilangkan fitur Berikut adalah rumus perhitungannya.
yang tidak relevan dan atau fitur berlebihan. Sebuah fitur (X  X ) 2
dikatakan tidak relevan jika memberikan sedikit informasi, s2  (5)

n 1
sedangkan sebuah fitur dikatakan berlebihan jika informasi Keterangan :
yang diberikan adalah informasi yang terkandung dalam fitur s2 : Varian
lain (tidak memberikan informasi baru).
X : Data
B. Statistika Deskriptif X : Rata-rata
Statistika deskriptif adalah metode statistik yang berguna n : Ukuran sampel
untuk meringkas dan menggambarkan data yang menonjol [8].
C. Visualisasi Data
Visualisasi data merupakan cara dalam menyajikan data
yang detail menjadi informasi yang mudah diterima dengan
3
menggunakan informasi visual yang bisa dipahami secara Tabel 1. Variabel Data Bigmart Sales
universal [10]. Berikut merupakan beberapa visualisasi data Simbo Klasifikas
Variabel Keterangan
yang sering digunakan. l i
1. Pie Chart X1 Item Identifier Kategorik ID produk
X2 Item Weight Numerik Berat produk
Pie chart adalah suatu penyajian data dalam bentuk
lingkaran dan biasanya jumlah data dinyatakan dalam Kategorikan
persentase. Lingkaran tersebut dibagi menjadi sektor-sektor. X3 Item Fat Content Kategorik produk Low
Fat atau tidak
Banyaknya sektor tergantung pada banyaknya kelompok data.
Besarnya sektor tergantung persentase dari nilai sebuah data Persentase
terhadap keseluruhan nilai data [11]. area tampilan
X4 Item Visibility Numerik
2. Scatterplot total semua
produk
Diagram pencar atau scatterplot merupakan sebuah grafik
yang biasa digunakan untuk melihat suatu pola hubungan X5 Item Type Kategorik Tipe produk
antar dua variabel. Untuk bisa menggunakan scatterplot skala Harga retail
X6 Item MRP Numerik
data yang harus digunakan adalah interval dan rasio [12]. maksimum
3. Bar Chart
Bar Chart atau Diagram batang adalah grafik data X7 Outlet Identifier Kategorik ID toko
berbentuk persegi panjang yang lebarnya sama dan dilengkapi Tahun
dengan skala atau ukuran sesuai dengan data yang Outlet
X8 Numerik berdirinya
bersangkutan [12]. Establishment Year
toko
4. Boxplot X9 Outlet Size Kategorik Ukuran toko
Boxplot diperkenalkan oleh J. F. Tukey untuk keperluan
eksplorasi data. Eksplorasi data adalah suatu usaha untuk Outlet Location Tipe lokasi
X10 Kategorik
mendeteksi adanya penyimpangan dari anggapan tersebut, Type toko
boxplot digunakan untuk memeriksa kesimetrikan data dan X11 Outlet Type Kategorik Tipe toko
kemungkinan adanya pencilan, setelah dipastikan ketunggalan Prediksi
X12 Item Outlet Sales Numerik
datanya [13]. penjualan
5. Density Plot
Density Plot adalah representasi dari distribusi variabel F. Struktur Data
numerik. Ini menggunakan estimasi kepadatan kernel untuk Berikut adalah struktur data yang digunakan dalam
menunjukkan fungsi kepadatan probabilitas dari variabel. Plot penelitian berikut.
ini adalah versi histogram yang dihaluskan dan digunakan Tabel 2. Struktur Data
dalam konsep yang sama. Density Plot digunakan untuk Pengamatan Variabel
mempelajari distribusi satu atau beberapa variabel. (j) (X1) (X2) … (X12)
1 X1.1 X1.2 … X1.12
D. Tinjauan Non Statistik 2 X2.1 X2.2 … X2.12
Tinjauan non statistik yang akan dijelaskan mengenai . . . … .
praktikum kali ini adalah Big Mart. . . . … .
1. Big Mart . . . … .
BigMart adalah sebuah perusahaan terkemuka di Nepal m Xm.1 Xm.2 … Xm.12
yang bergerak di bidang retail business franchise dalam G.Langkah Analisis
bentuk supermarket atau grocery store [3]. Seperti toko-toko
Analisis yang dilakukan dalam penelitian ini adalah
pada umumnya, BigMart juga menjual produk-produk untuk
sebagai berikut :
memenuhi kebutuhan masyarakat di sekitarnya. Kebutuhan
1. Melakukan identifikasi terhadap permasalahan
produk pada lingkungan yang satu bisa jadi berbeda di
2. Mencari data sekunder dan mengentry data.
lingkungan lainnya, dimana karakteristik masyarakat juga
3. Melakukan cleaning pada data yang terdapat missing
berbeda.
value.
4. Melakukan pre-processing berupa deteksi outlier pada
III. METODOLOGI PENELITIAN data.
5. Melakukan analisis feature selection pada data.
A. Sumber Data 6. Menganalisis statistika deskriptif dari data.
Data yang digunakan dalam praktikum ini adalah data 7. Melakukan visualisasi pada data
sekunder yaitu data Big Mart Sales yang didapatkan dari 8. Melakukan analisis dan interpretasi
website kaggle.com 9. Memberikan rekomendasi model untuk analisis data.
10. Membuat kesimpulan dan saran.
E. Variabel Penelitian
Variabel pada penelitian ini adalah sebagai berikut.
4
II. ANALISIS DAN PEMBAHASAN
A. Data Pre-Processing
Sebelum melakukan proses data mining, terlebih dahulu
dilakukan data pre-processing. Data yang akan di pre-
processing adalah data Bigmart Sales yang diambil dari
opensource Kaggle. Pada Kaggle disebutkan bahwa data ini
didapatkan dari suatu pusat perbelanjaan terkemuka yaitu
Bigmart di Nepal. Data yang didapatkan sebanyak 8523 data
dengan 12 variabel. Salah satu variabel pada data Bigmart
yaitu Item_Fat_Content yang terbagi menjadi 2 kategori yaitu
‘Low Fat’ dan ‘Reguler’. Namun, pada saat dilakukan cek
jumlah kategori untuk variabel Item_Fat_Content Gambar 3. Deteksi Missing Value
menggunakan Python, jumlah kategori dari variabel tersebut Berdasarkan Gambar 3 dapat diperoleh informasi bahwa
ada 5 kategori sebagai berikut. dari 12 variabel yang terdapat pada data Bigmart Sales
terdapat 2 variabel yang memiliki missing value yaitu variabel
Item_Weight sebanyak 1463 pengamatan dan variabel
Outlet_Size sebanyak 2410 pengamatan. Setelah mendeteksi
missing value, langkah selanjutnya adalah mengisi nilai
pengamatan yang kosong tersebut dengan menggunakan nilai
mean atau median untuk variabel kontinyu dan modus untuk
variabel kategorikal. Sebelum mengisi nilai pengamatan yang
kosong pada variabel kontinyu, perlu dilakukan deteksi data
Gambar 1. Kategori Variabel Item_Fat_Content outlier pada variabel kontinyu tersebut. Apabila pada variabel
kontinyu tersebut terdapat data outlier maka digunakan
Pada Gambar 1 terlihat bahwa terdapat 5 kategori di median untuk mengisi missing value pada variabel tersebut.
variabel Item_Fat_Content yang seharusnya hanya terdapat 2 Namun sebaliknya, apabila pada variabel tersebut tidak
kategori. Oleh karena itu,tiga kategori yang tidak sesuai terdapat data outlier maka dalam mengisi missing value
tersebut harus diseragamkan dengan 2 kategori yang lain yaitu digunakan nilai mean. Pada data Bigmart Sales, variabel
‘Low Fat’ dan ‘Reguler’ sebagai berikut. Item_Weight merupakan variabel kontinyu, sehingga perlu
dilakukan deteksi outlier pada variabel Item_Weight terlebih
dahulu sebelum dilakukan pengisian missing value.
Gambar 2. Mengganti Kategori Variabel Item_Fat_Content

Gambar 2 menunjukkan bahwa variabel jumlah kategori
pada variabel Item_Fat_Content yang semula terdapat 5
kategori telah diubah menjadi 2 kategori seperti semula, yaitu
Gambar 4. Boxplot Variabel Item_Weight
dengan mengganti kategori “LF” dan “low fat” menjadi “Low
Fat” dan “reg” menjadi “Reguler”. Gambar 4 menunjukkan boxplot dari variabel
Langkah selanjutnya setelah melakukan perubahan pada Item_Weight untuk mendeteksi apakah dalam variabel
kategori variabel Item_Fat_Content adalah mendeteksi tersebut terdapat data outlier atau tidak. Berdasarkan Gambar
missing value. Berikut merupakan hasil deteksi missing value. 4, dapat dilihat bahwa pada variabel Item_Weight tidak
terdapat data yang outlier, sehingga dalam pengisian missing
value pada variabel Item_Weight digunakan nilai mean dari
variabel tersebut. Pada pengisian missing value variabel
Item_Weight, peneliti menggunakan nilai mean, di mana nilai
mean yang diisikan ini merupakan rata-rata berat produk dari
setiap kategori variabel Item_Identifier.
5
merupakan boxplot untuk mendeteksi data outlier pada 4

variabel kontinyu tersebut.
Gambar 5. Rata-rata Item_Weight setiap kategori Item_Identifier

Gambar 5 merupakan nilai rata-rata variabel
Item_Weight pada setisp kstegori Item_Identifier. Nilai rata-
rata yang telah diperoleh kemudian diisikan pada pengamatan Gambar 8. Boxplot Variabel Kontinyu
pengamatan yang kosong. Setelah mengisi missing value pada
variabel Item_Weight, selanjutnya dilakukan pengisian Gambar 8 menunjukkan bahwa pada variabel
missing value pada variabel Outlet_Size. Variabel Outlet_Size Item_Weight dan Item_MRP tidak terdapat data outlier,
merupakan variabel kategorikal, sehingga digunakan modus sedangkan 2 variabel kontinyu yang lain yaitu Item_Visibility
untuk mengisi nilai pengamatan yang kosong. Modus yang dan Item_Outlet_Sales terdapat data yang outlier. Setelah
diisikan pada missing value variabel Outlet_Size merupakan melakukan deteksi outlier menggunakan boxplot, selanjutnya
modus dari setiap kategori variabel Outlet_Type yaitu sebagai peneliti akan melakukan deteksi outlier menggunakan z-score
berikut. untuk mengetahui dimana saja letak data outlier pada variabel
Item_Visibility dan Item_Outlet_Sales.
Gambar 6. Modus Outlet_Size berdasarkan Kategori Outlet_Type

Gambar 6 menunjukkan modus pada variabel Outlet_Size
berdasarkan setiap kategori variabel Outlet_Type. Kemudian
modus yang telah diperoleh diisikan pada nilai nilai
pengamatan variabel Outlet Size yang kosong. Setelah Gambar 9. Nilai Z-Score Variabel Item_Outlet_Sales
mengisi missing value pada variabel Item_Weight dan Gambar 9 menunjukkan bahwa data outlier pada variabel
Outlet_Size, kemudian diperoleh output sebagai berikut. Item_Outlet_Sales terdapat pada pengamatan ke 130, 145,
276, dan seterusnya. Kemudian nilai z-score variabel
Item_Visibility ditunjukkan oleh Gambar 10 di bawah ini.
Gambar 10. Nilai Z-Score Variabel Item_Visibility

Gambar 7. Hasil Imputasi Missing Value
Berdasarkan Gambar 10 dapat diketahui bahwa data
outlier pada variabel Item_Visibility terdapat pada
Gambar 7 menunjukkan bahwa sudah tidak terdapat pengamatan ke 49, 83, 276, dan setrusnya hingga berakhir
missing value pada variabel Item_Weight dan Outlet_Size. pada pengamatan ke 8428. Setelah mendeteksi data outlier,
Hal ini ditunjukkan dari angka yang semula pada variabel selanjutnya dilakukan deteksi noise pada data Bigmart Sales.
Item_Weight dan Outlet_Size secara berturut-turut sebesar Noise pada data ada 3 macam yaitu noise an item (noise pada
1463 dan 2410 berubah menjadi 0. Kemudian setelah missing observasi), noise as feature (noise pada variabel), dan noise as
value terisi, dilakukan deteksi outlier pada variabel-variabel record. Apabila deteksi noise dilakukan per observasi, maka
data Bigmart Sales yang bertipe kontinyu. Pada data Bigmart langkah selanjutnya adalah melakukan binning pada data.
Sales terdapat 4 variabel kontinyu yaitu Item_Weight, Pada penelitian kali ini, peneliti melakukan deteksi noise
Item_Visibility, Item_MRP, dan Item_Outlet_Sales. Berikut secara variabel (noise as a feature) yaitu dengan cara
melakukan backward elimination untuk variabel dengan tipe
6
kontinyu dan chi-square test untuk variabel kategorikal. ditransformasi karena nilai pengamatan terkecil dalam
Berikut merupakan backward elimination untuk mendeteksi variabel tersebut adalah 33.29 sedangkan nilai pengamatan
noise data. terbesar adalah 13086.9648. Peneliti melakukan transformasi
Tabel 3. P-value Backward Elimination variabel dengan cara standardisasi dan normalisasi.
Variabel p-value Langkah selanjutnya setelah transformasi data adalah
Const 5.397558e-32 pemilihan variabel (feature selection). Pada penelitian kali ini,
Item_Weight 4.946154e-01 peneliti tidak melakukan feature selection karena sebelumnya
Item_Visibility 0.000000e+00 peneliti sudah melakukan deteksi noise as a feature yang
Item_MRP 4.421320e-01
mana dari proses tersebut sekaligus menjadi feature selection.
Item_Outlet_Sales 2.175739e-105
Setelah melakukan proses pre-processing, terdapat 9 variabel
Tabel 3 menunjukkan bahwa variabel Item_Weight yang memiliki pengaruh terhadap analisis yaitu
memiliki nilai p-value yang paling tinggi yaitu sebesar Item_Identifier, Item_Visibility, Item_MRP, Outlet_Type,
4.946154e-01. Hal ini berarti p-value variabel Item_Weight lebih Outlet_Size,
besar dari alpha sebesar 0.05. Oleh karena itu, variabel
Outlet_Establishment_Year,Outlet_Location_Type,Outlet_Ide
Item_Weight terdeteksi sebagai noise as an feature yang ntifier, dan Item_Outlet_Sales
kemudian tidak dapat diikutkan ke proses analisis selanjutnya.
Kemudian backward elimination dilakukan kembali hingga B. Statistika Deskriptif
tidak ada lagi variabel yang nilai p-value nya melebihi alpha, Karakteristik data Big Mart Sales yang akan dianalisis
sehingga hasil akhir dari backward elimination diperoleh 3 berupa rata-rata, median, nilai terbesar dan nilai terkecil. Hasil
variabel yang memberikan pengaruh signifikan terhadap penghitungan statistika deskriptifnya adalah sebagai berikut.
analisis yaitu Item_Visibility, Item_MRP, dan Tabel 4. Statistika Deskriptif Variabel Numerik
Item_Outlet_Sales . Variable Mean Median Varian Min Max
Setelah melakukan deteksi noise pada variabel data Item 0.00357
Visibility 0.069442 0.053931 0.002389 0.328391
kontinyu, selanjutnya dilakukan deteksi noise pada variabel 5
data kategorikal dengan menggunakan chi-square test. Item
141.01 143.05 3879.25 31.29 266.89
MRP
Sebelum melakukan chi-square test perlu dilakukan Item
pengkodingan terhadap setiap variabel kategorikal. Berikut Outlet 2181.2 1794.3 2912180.1 33.3 13087.0
merupakan hasil plot p-value. Sales
Berdasarkan Tabel 4., diketahui rata-rata dari variabel
Item Visibility yang merupakan persentase area tampilan total
produk adalah 0.069442 dengan nilai minumum sebesar
0.003575 dan nilai maksimum 0.328391. Nilai varians adalah
0.002389 yang menunjukkan bahwa variasinya rendah.
Harga retail maksimum suatu produk juga memiliki
variasi yang cukup tinggi yaitu 3879.25 dengan rata-rata
141.01. Variabel Item Outlet Sales memiliki rata-rata sebesar
2181.2 dengan nilai varians yang tinggi yaitu sebesar
2912180.1. Nilai minimumnya adalah 33.3 dan nilai
maksimum adalah 13087.0.
Tabel 5. Statistika Deskriptif Variabel Kategorik
Variabel Modus
Outlet Size Small
Outlet Type Supermarket Type 1
Outlet Location Type Tier 3
Gambar 11. P-Value Bar Plot Chi-Square Test Outlet Establishment Year 1985
Pada Gambar 11 dapat dilihat bahwa bar dari variabel Berdasarkan Tabel 5. diatas dapat diketahui bahwa
Item_Fat_Content_Code dan variabel Item_Type_Code ukuran toko yang paling banyak dibuka adalah toko dengan
mendekati angka 1 yang artinya nilai p-value dari kedua ukuran kecil dengan tipe toko terbanyak adalah Supermarket
variabel tersebut lebih besar dari alpha 0.05, sehingga variabel Type 1. Tipe lokasi toko terbanyak adalah pada lokasi Tier 3
Item_Fat_Content_Code dan Item_Type_Code terdeksi noise dan toko paling banyak didirikan pada tahun 1985.
as a feature. Oleh karena kedua variabel tersebut merupakan
noise maka kedua variabel tersebut tidak diikutkan dalam C. Visualisasi Data
proses analisis selanjutnya. Visualisasi data merupakan salah satu tahapan dalam
Setelah melakukan deteksi noises langkah selanjutnya melakukan analisis data. Tujuan dari visualisasi data adalah
adalah transformasi data. Dalam proses pre-processing agar dapat mengetahui metode analisis apa yang cocok untuk
transformasi tidak harus selalu dilakukan. Transformasi data diterapkan pada suatu data. Berikut merupakan visualisasi data
dilakukan ketika data dalam suatu variabel memiliki range Bigmart Sales.
yang besar. Pada data Bigmart Sales terdapat tiga variabel 1. Density Plot
yang perlu ditransformasi yaitu variabel Item_Visibility, Density plot mempunyai fungsi yang sama dengan histogram
Item_MRP, Item_Outlet_Sales. Variabel tersebut perlu yang mana digunakan untuk mengetahui distribusi data dari
7
suatu variabel kontinyu. Berikut merupakan density plot dari

variabel kontinyu data Bigmart Sales.
Gambar 14. Pie Chart Variabel Outlet_Identifier

Berdasarkan Gambar 14 dapat diperoleh informasi bahwa
data penjualan Bigmart yang telah dikumpulkan sebagian
Gambar 12. Density Plot besar memiliki persentase yang sama yaitu sebesar 10.9%.
Berdasarkan Gambar 12 dapat diperoleh informasi bahwa Sedangkan data yang berhasil dikumpulkan untuk OUT010
data dari ketiga variabel kontinyu pada Bigmart Sales yaitu dan OUT019 secara berturut-turut 6.5% dan 6.2% dari
Item_Visibility, Item_MRP, dan Item_Outlet_Sales sudah keseluruhan data.
berdistribusi normal. 4. Scatter Plot
2. Bar Chart Scatter plot merupakan grafik yang dapat
Berikut merupakan bar chart dari variabel menggambarkan hubungan antara dua variabel. Berikut
Outlet_Establishment, Outlet_Size, dan Outlet_Type. merupakan scatter plot antara variabel Item_Outlet_Sales
dengan Item_Visibility.
Gambar 13. Bar Chart

Gambar 13 menunjukkan bahwa toko Bigmart paling
banyak berdiri sejak tahun 1985. Pada tahun 1987 dan 1997
jumlah toko Bigmart yang didirikan sama besar dan pada
tahun 1998 pendirian toko Bigmart berkurang. Pendirian toko
Gambar 15. Scatter Plot Item_Outlet_Sales vs Item_Visibility
Bigmart pada tahun 1999, 2002,2004, 2007, dan 2009
Pada Gambar 15 dapat diketahui bahwa visibilitas setiap
memiliki jumlah yang sama besar. Toko Bigmart paling
produk pada Supermarket Tipe 1 tidak pernah melebihi 0.2,
sedikit didirikan pada tahun 1998. Toko Bigmart memiliki tiga
namun jumlah penjualan dari Supermarket tipe 1 tinggi.
ukuran outlet yaitu besar, kecil, dan ,medium. Outlet Bigmart
Sedangkan untuk Grocery Store visibilitas produknya ada
yang berdiri di Nepal paling banyak berukuran kecil,
yang sudah mencapai angka lebih dari 0.3, namun untuk
sedangkan outlet yang berukuran besar sedikit jumlahnya.
jumlah penjualan tiap produknya masih relative rendah.
Tipe outlet Bigmart di Nepal mayoritas adalah Supermarket
Kemudian untuk tipe outlet yang jumlah penjualan tiap
tipe 1 sementara outlet dengan tipe Supermarket 2,
produknya tinggi adalah Supermarket tipe 3.
Supermarket 3, dan Grocery Store sedikit jumlahnya.
Berikut merupakan scatter plot antara variabel
3. Pie Chart
Item_Visibility dengan Item_MRP.
Berikut merupakan pie chart dari variabel Outlet_Identifier.
8
tujuan pengumpulan data Bigmart yang tercantum dalam

website yaitu untuk pembuatan keputusan dari data tersebut
seperti sifat produk dan toko yang berperan penting dalam
meningkatkan penjualan. Selain itu, juga untuk membangun
model prediksi dan mencari tahu penjualan masing-masing
produk di toko tertentu.
DAFTAR PUSTAKA
[1] Georgios Doukidis, et al.(2004). Social and Economic
Transformation in the Digital Era. USA : Idea Group
Inc.
[2] Phillia Wibowo.(2018). Digital revolution: What it means
for Indonesia business.
Tersedia : https://www.mckinsey.com/featured-
insights/asia-pacific/digital-revolution-what-it-means-for-
indonesian-business
[3] Ekbana.(2017).Bigmart Nepal. Tersedia :
https://blog.ekbana.com/bigmart-nepal-65c10f205e19
Gambar 16. Scatter Plot Item_MRP vs Item_Visibility
Gambar 16 menunjukkan bahwa semakin tinggi [4] Wei, L. X., & Fang, Q. Y. (2012). A Data Prepocessing
visibilitas suatu produk belum tentu MRP produknya juga Algorith for Classification Model Base On Rough Sets.
tinggi. Hal ini berarti dapat diindikasikan bahwa tidak ada International Conference on Solid State Devices and
hubungan antara variabel Item_Visibility dengan Item_MRP. Materials Science, 2025-2029
[5] Han, J., Kamber, M., & Pei, J. (2012). Data Mining
III. KESIMPULAN DAN SARAN Concepts and Techniques. Morgan Kaufmann
[6] J. D. P. S. Hand. (2001). Principles of Data Mining.
A. Kesimpulan Cambridge: MIT Press.
Berdasarkan analisis dan pembahasan di atas, dapat [7] Dash, M. and H. Liu, (1997). Feature Selection for
disimpulkan yaitu Classification, Intelligent Data Analysis.
1. Pada proses imputasi missing value, untuk variabel [8] Walpole, R. E. (1993). Pengantar Statistika Edisi ke-3.
Item_Weight diisi dengan nilai rata-rata berdasarkan Jakarta: PT. Gramedia Pustaka Utama.
kategori id produk dan pada variabel Outlet_Size diisi [9] Santi, R. C., & Eniyati, S. (2015). Implementasi Statistik
dengan modus berdasarkan tipe outlet. dengan Database Mysql. Jurnal Teknologi Informasi
2. Pada proses deteksi outlier menggunakan boxplot terdapat DINAMIK Volume 20, No.2, Juli 2015 : 132-139,3.
2 variabel yang mengandung data outlier yaitu [10] B. Fry, Visualizing Data. Sebastopol: O’Reilly, 2008. [8]
Item_Visibility dan Item_Outlet_Sales. Selanjutnya C. N. Knafli, Storytelling with Data, vol. 2. Wiley, 2015.
dilakukan z-score test untuk mengetahui dimana saja letak [11] Tague, Nancy R., 2005. The Quality Toolbox, Second
data outlier. Edition. United States of America: ASQ Quality Press
3. Proses deteksi data noise dilakukan secara variabel (noise [12] M. I. Hasan, (2009). Pokok-Pokok Materi Statistika I
as an feature) dengan menggunakan metode backward (Statistika Deskriptif). Jakarta: PT. Bumi Aksara.
elimination untuk variabel kontinyu dan chi-square test [13] Saefuddin, A., Notodiputro, K. A., Alamudi, A., & Sadik,
untuk variabel kategorik. K. 2009. Statistika Dasar. Jakarta: PT Grasindo.
4. Transformasi variabel diterapkan pada 3 variabel yaitu
Item_Visibility, Item_MRP, dan Item_Outlet_Sales
5. Feature selection tidak dilakukan karena di awal sudah
melakukan deteksi noise pada variabel, sehingga diperoleh
9 variabel yang berpengaruh terhadap analisis.
6. Analisis karaktersitik data pada variabel numerik
menunjukkan bahwa selain variabel Item Visibility, semua
variabel numerik memiliki variasi yang tinggi. Pada
variabel kategorik didapatkan bahwa ukuran toko yang
paling banyak adalah small, tipe toko terbanyak ada
Supermarket Type 1, lokasi toko berada pada Tier 3 dan
toko paling banyak didirikan pada tahun 1985.
7. Pada proses visualisasi data digunakan boxplot, scatter
plot, density plot, bar chart, dan pie chart.
B. Saran
Saran metode analisis yang cocok diterapkan pada
penilitian ini adalah metode klasifikasi karena sesuai dengan
9
Lampiran
Lampiran 1. Data Bigmart Sales
Item_ Item_ Item_Fat_ Item_Outlet_Sales

Identifier Weight Content ⋯
FDA15 9.3 Low Fat ⋯ 3735.138
DRC01 5.92 Regular ⋯ 443.4228
FDN15 17.5 Low Fat ⋯ 2097.27
FDX07 19.2 Regular ⋯ 732.38
NCD19 8.93 Low Fat ⋯ 994.7052
FDP36 10.395 Regular ⋯ 556.6088
FDO10 13.65 Regular ⋯ 343.5528
FDP10 Low Fat ⋯ 4022.764
FDH17 16.2 Regular ⋯ 1076.599
FDU28 19.2 Regular ⋯ 4710.535
FDY07 11.8 Low Fat ⋯ 1516.027
FDA03 18.5 Regular ⋯ 2187.153
⋮ ⋮ ⋮ ⋯
DRG01 14.8 Low Fat ⋯ 765.67
Lampiran 2. Output MINITAB

Analisis Preprocessing Dan Visualisasi Data Menggunakan Data Big Mart Sales

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Preprocessing Dan Visualisasi Data Menggunakan Data Big Mart Sales

Diunggah oleh

Hak Cipta:

Format Tersedia

Analisis Preprocessing dan Visualisasi Data

Menggunakan Data Big Mart Sales

D unia sedang mengalami perkembangan teknologi begitu

memiliki noise serta memperbaiki data yang tidak konsisten. n

menggabungkan data ke dalam bentuk yang sesuai dengan

dikonsolidasikan sehingga proses penambangan yang 2 (4)

dikatakan tidak relevan jika memberikan sedikit informasi, s2  (5)

II. ANALISIS DAN PEMBAHASAN

Gambar 2. Mengganti Kategori Variabel Item_Fat_Content

merupakan boxplot untuk mendeteksi data outlier pada 4

Gambar 5. Rata-rata Item_Weight setiap kategori Item_Identifier

Gambar 6. Modus Outlet_Size berdasarkan Kategori Outlet_Type

Gambar 10. Nilai Z-Score Variabel Item_Visibility

suatu variabel kontinyu. Berikut merupakan density plot dari

Gambar 14. Pie Chart Variabel Outlet_Identifier

Gambar 13. Bar Chart

tujuan pengumpulan data Bigmart yang tercantum dalam

Lampiran 1. Data Bigmart Sales

Item_ Item_ Item_Fat_ Item_Outlet_Sales

Lampiran 2. Output MINITAB

Anda mungkin juga menyukai