1. Modus
II TINJAUAN PUSTAKA Modus segugus pengamatan adalah nilai yang terjadi
paling sering atau yang mempunyai frekuensi paling tinggi.
A. Preprocessing Data Modus tidak selalu ada. Hal ini terjadi bila semua pengamatan
Preprocessing data merupakan tahapan pertama dan mempunyai frekuensi terjadi yang sama. Untuk data tertentu,
merupakan tahapan yang penting dalam data mining atau data mungkin saja terdapat beberapa nilai dengan frekuensi tinggi,
analysis [4]. Pada umunya data pada dunia nyata yang masih dan dalam hal demikian kita mempunyai lebih dari satu modus
mentah atau biasa disebut data primer memiliki kekurangan [8].
diantaranya tidak lengkap, banyak noise, dan juga tidak
konsisten [5]. Oleh karenanya tahapan ini sangat penting 2. Rata-rata
untuk memastikan data sumber diolah sehingga menghasilkan Rata-rata merupakan suatu ukuran pusat data bila data itu
dataset yang siap dipakai pada tahapan selanjutnya. Ada tiga diurutkan dari yang terkecil sampai yang terbesar atau
tahapan yaitu data cleaning, data transformation, dan feature sebaliknya [8].
selection. Rumus rata-rata populasi adalah
n
1. Data Cleaning xi (1)
Data cleaning adalah perbaikan terhadap data-data yang i 1
N
rusak, hilang atau salah (error). Pada tahap data cleaning, hal Rumus rata-rata sampel adalah
yang harus dilakukan adalah menganalisis data untuk
n
xi (2)
mendeteksi adanya data outlier, menghaluskan data yang x i 1
menggunakan informasi visual yang bisa dipahami secara Tabel 1. Variabel Data Bigmart Sales
universal [10]. Berikut merupakan beberapa visualisasi data Simbo Klasifikas
Variabel Keterangan
yang sering digunakan. l i
1. Pie Chart X1 Item Identifier Kategorik ID produk
X2 Item Weight Numerik Berat produk
Pie chart adalah suatu penyajian data dalam bentuk
lingkaran dan biasanya jumlah data dinyatakan dalam Kategorikan
persentase. Lingkaran tersebut dibagi menjadi sektor-sektor. X3 Item Fat Content Kategorik produk Low
Fat atau tidak
Banyaknya sektor tergantung pada banyaknya kelompok data.
Besarnya sektor tergantung persentase dari nilai sebuah data Persentase
terhadap keseluruhan nilai data [11]. area tampilan
X4 Item Visibility Numerik
2. Scatterplot total semua
produk
Diagram pencar atau scatterplot merupakan sebuah grafik
yang biasa digunakan untuk melihat suatu pola hubungan X5 Item Type Kategorik Tipe produk
antar dua variabel. Untuk bisa menggunakan scatterplot skala Harga retail
X6 Item MRP Numerik
data yang harus digunakan adalah interval dan rasio [12]. maksimum
3. Bar Chart
Bar Chart atau Diagram batang adalah grafik data X7 Outlet Identifier Kategorik ID toko
berbentuk persegi panjang yang lebarnya sama dan dilengkapi Tahun
dengan skala atau ukuran sesuai dengan data yang Outlet
X8 Numerik berdirinya
bersangkutan [12]. Establishment Year
toko
4. Boxplot X9 Outlet Size Kategorik Ukuran toko
Boxplot diperkenalkan oleh J. F. Tukey untuk keperluan
eksplorasi data. Eksplorasi data adalah suatu usaha untuk Outlet Location Tipe lokasi
X10 Kategorik
mendeteksi adanya penyimpangan dari anggapan tersebut, Type toko
boxplot digunakan untuk memeriksa kesimetrikan data dan X11 Outlet Type Kategorik Tipe toko
kemungkinan adanya pencilan, setelah dipastikan ketunggalan Prediksi
X12 Item Outlet Sales Numerik
datanya [13]. penjualan
5. Density Plot
Density Plot adalah representasi dari distribusi variabel F. Struktur Data
numerik. Ini menggunakan estimasi kepadatan kernel untuk Berikut adalah struktur data yang digunakan dalam
menunjukkan fungsi kepadatan probabilitas dari variabel. Plot penelitian berikut.
ini adalah versi histogram yang dihaluskan dan digunakan Tabel 2. Struktur Data
dalam konsep yang sama. Density Plot digunakan untuk Pengamatan Variabel
mempelajari distribusi satu atau beberapa variabel. (j) (X1) (X2) … (X12)
1 X1.1 X1.2 … X1.12
D. Tinjauan Non Statistik 2 X2.1 X2.2 … X2.12
Tinjauan non statistik yang akan dijelaskan mengenai . . . … .
praktikum kali ini adalah Big Mart. . . . … .
1. Big Mart . . . … .
BigMart adalah sebuah perusahaan terkemuka di Nepal m Xm.1 Xm.2 … Xm.12
yang bergerak di bidang retail business franchise dalam G.Langkah Analisis
bentuk supermarket atau grocery store [3]. Seperti toko-toko
Analisis yang dilakukan dalam penelitian ini adalah
pada umumnya, BigMart juga menjual produk-produk untuk
sebagai berikut :
memenuhi kebutuhan masyarakat di sekitarnya. Kebutuhan
1. Melakukan identifikasi terhadap permasalahan
produk pada lingkungan yang satu bisa jadi berbeda di
2. Mencari data sekunder dan mengentry data.
lingkungan lainnya, dimana karakteristik masyarakat juga
3. Melakukan cleaning pada data yang terdapat missing
berbeda.
value.
4. Melakukan pre-processing berupa deteksi outlier pada
III. METODOLOGI PENELITIAN data.
5. Melakukan analisis feature selection pada data.
A. Sumber Data 6. Menganalisis statistika deskriptif dari data.
Data yang digunakan dalam praktikum ini adalah data 7. Melakukan visualisasi pada data
sekunder yaitu data Big Mart Sales yang didapatkan dari 8. Melakukan analisis dan interpretasi
website kaggle.com 9. Memberikan rekomendasi model untuk analisis data.
10. Membuat kesimpulan dan saran.
E. Variabel Penelitian
Variabel pada penelitian ini adalah sebagai berikut.
4
A. Data Pre-Processing
Sebelum melakukan proses data mining, terlebih dahulu
dilakukan data pre-processing. Data yang akan di pre-
processing adalah data Bigmart Sales yang diambil dari
opensource Kaggle. Pada Kaggle disebutkan bahwa data ini
didapatkan dari suatu pusat perbelanjaan terkemuka yaitu
Bigmart di Nepal. Data yang didapatkan sebanyak 8523 data
dengan 12 variabel. Salah satu variabel pada data Bigmart
yaitu Item_Fat_Content yang terbagi menjadi 2 kategori yaitu
‘Low Fat’ dan ‘Reguler’. Namun, pada saat dilakukan cek
jumlah kategori untuk variabel Item_Fat_Content Gambar 3. Deteksi Missing Value
menggunakan Python, jumlah kategori dari variabel tersebut Berdasarkan Gambar 3 dapat diperoleh informasi bahwa
ada 5 kategori sebagai berikut. dari 12 variabel yang terdapat pada data Bigmart Sales
terdapat 2 variabel yang memiliki missing value yaitu variabel
Item_Weight sebanyak 1463 pengamatan dan variabel
Outlet_Size sebanyak 2410 pengamatan. Setelah mendeteksi
missing value, langkah selanjutnya adalah mengisi nilai
pengamatan yang kosong tersebut dengan menggunakan nilai
mean atau median untuk variabel kontinyu dan modus untuk
variabel kategorikal. Sebelum mengisi nilai pengamatan yang
kosong pada variabel kontinyu, perlu dilakukan deteksi data
Gambar 1. Kategori Variabel Item_Fat_Content outlier pada variabel kontinyu tersebut. Apabila pada variabel
kontinyu tersebut terdapat data outlier maka digunakan
Pada Gambar 1 terlihat bahwa terdapat 5 kategori di median untuk mengisi missing value pada variabel tersebut.
variabel Item_Fat_Content yang seharusnya hanya terdapat 2 Namun sebaliknya, apabila pada variabel tersebut tidak
kategori. Oleh karena itu,tiga kategori yang tidak sesuai terdapat data outlier maka dalam mengisi missing value
tersebut harus diseragamkan dengan 2 kategori yang lain yaitu digunakan nilai mean. Pada data Bigmart Sales, variabel
‘Low Fat’ dan ‘Reguler’ sebagai berikut. Item_Weight merupakan variabel kontinyu, sehingga perlu
dilakukan deteksi outlier pada variabel Item_Weight terlebih
dahulu sebelum dilakukan pengisian missing value.
kontinyu dan chi-square test untuk variabel kategorikal. ditransformasi karena nilai pengamatan terkecil dalam
Berikut merupakan backward elimination untuk mendeteksi variabel tersebut adalah 33.29 sedangkan nilai pengamatan
noise data. terbesar adalah 13086.9648. Peneliti melakukan transformasi
Tabel 3. P-value Backward Elimination variabel dengan cara standardisasi dan normalisasi.
Variabel p-value Langkah selanjutnya setelah transformasi data adalah
Const 5.397558e-32 pemilihan variabel (feature selection). Pada penelitian kali ini,
Item_Weight 4.946154e-01 peneliti tidak melakukan feature selection karena sebelumnya
Item_Visibility 0.000000e+00 peneliti sudah melakukan deteksi noise as a feature yang
Item_MRP 4.421320e-01
mana dari proses tersebut sekaligus menjadi feature selection.
Item_Outlet_Sales 2.175739e-105
Setelah melakukan proses pre-processing, terdapat 9 variabel
Tabel 3 menunjukkan bahwa variabel Item_Weight yang memiliki pengaruh terhadap analisis yaitu
memiliki nilai p-value yang paling tinggi yaitu sebesar Item_Identifier, Item_Visibility, Item_MRP, Outlet_Type,
4.946154e-01. Hal ini berarti p-value variabel Item_Weight lebih Outlet_Size,
besar dari alpha sebesar 0.05. Oleh karena itu, variabel
Outlet_Establishment_Year,Outlet_Location_Type,Outlet_Ide
Item_Weight terdeteksi sebagai noise as an feature yang ntifier, dan Item_Outlet_Sales
kemudian tidak dapat diikutkan ke proses analisis selanjutnya.
Kemudian backward elimination dilakukan kembali hingga B. Statistika Deskriptif
tidak ada lagi variabel yang nilai p-value nya melebihi alpha, Karakteristik data Big Mart Sales yang akan dianalisis
sehingga hasil akhir dari backward elimination diperoleh 3 berupa rata-rata, median, nilai terbesar dan nilai terkecil. Hasil
variabel yang memberikan pengaruh signifikan terhadap penghitungan statistika deskriptifnya adalah sebagai berikut.
analisis yaitu Item_Visibility, Item_MRP, dan Tabel 4. Statistika Deskriptif Variabel Numerik
Item_Outlet_Sales . Variable Mean Median Varian Min Max
Setelah melakukan deteksi noise pada variabel data Item 0.00357
Visibility 0.069442 0.053931 0.002389 0.328391
kontinyu, selanjutnya dilakukan deteksi noise pada variabel 5
data kategorikal dengan menggunakan chi-square test. Item
141.01 143.05 3879.25 31.29 266.89
MRP
Sebelum melakukan chi-square test perlu dilakukan Item
pengkodingan terhadap setiap variabel kategorikal. Berikut Outlet 2181.2 1794.3 2912180.1 33.3 13087.0
merupakan hasil plot p-value. Sales
Berdasarkan Tabel 4., diketahui rata-rata dari variabel
Item Visibility yang merupakan persentase area tampilan total
produk adalah 0.069442 dengan nilai minumum sebesar
0.003575 dan nilai maksimum 0.328391. Nilai varians adalah
0.002389 yang menunjukkan bahwa variasinya rendah.
Harga retail maksimum suatu produk juga memiliki
variasi yang cukup tinggi yaitu 3879.25 dengan rata-rata
141.01. Variabel Item Outlet Sales memiliki rata-rata sebesar
2181.2 dengan nilai varians yang tinggi yaitu sebesar
2912180.1. Nilai minimumnya adalah 33.3 dan nilai
maksimum adalah 13087.0.
Tabel 5. Statistika Deskriptif Variabel Kategorik
Variabel Modus
Outlet Size Small
Outlet Type Supermarket Type 1
Outlet Location Type Tier 3
Gambar 11. P-Value Bar Plot Chi-Square Test Outlet Establishment Year 1985
Pada Gambar 11 dapat dilihat bahwa bar dari variabel Berdasarkan Tabel 5. diatas dapat diketahui bahwa
Item_Fat_Content_Code dan variabel Item_Type_Code ukuran toko yang paling banyak dibuka adalah toko dengan
mendekati angka 1 yang artinya nilai p-value dari kedua ukuran kecil dengan tipe toko terbanyak adalah Supermarket
variabel tersebut lebih besar dari alpha 0.05, sehingga variabel Type 1. Tipe lokasi toko terbanyak adalah pada lokasi Tier 3
Item_Fat_Content_Code dan Item_Type_Code terdeksi noise dan toko paling banyak didirikan pada tahun 1985.
as a feature. Oleh karena kedua variabel tersebut merupakan
noise maka kedua variabel tersebut tidak diikutkan dalam C. Visualisasi Data
proses analisis selanjutnya. Visualisasi data merupakan salah satu tahapan dalam
Setelah melakukan deteksi noises langkah selanjutnya melakukan analisis data. Tujuan dari visualisasi data adalah
adalah transformasi data. Dalam proses pre-processing agar dapat mengetahui metode analisis apa yang cocok untuk
transformasi tidak harus selalu dilakukan. Transformasi data diterapkan pada suatu data. Berikut merupakan visualisasi data
dilakukan ketika data dalam suatu variabel memiliki range Bigmart Sales.
yang besar. Pada data Bigmart Sales terdapat tiga variabel 1. Density Plot
yang perlu ditransformasi yaitu variabel Item_Visibility, Density plot mempunyai fungsi yang sama dengan histogram
Item_MRP, Item_Outlet_Sales. Variabel tersebut perlu yang mana digunakan untuk mengetahui distribusi data dari
7
DAFTAR PUSTAKA
[1] Georgios Doukidis, et al.(2004). Social and Economic
Transformation in the Digital Era. USA : Idea Group
Inc.
[2] Phillia Wibowo.(2018). Digital revolution: What it means
for Indonesia business.
Tersedia : https://www.mckinsey.com/featured-
insights/asia-pacific/digital-revolution-what-it-means-for-
indonesian-business
[3] Ekbana.(2017).Bigmart Nepal. Tersedia :
https://blog.ekbana.com/bigmart-nepal-65c10f205e19
Gambar 16. Scatter Plot Item_MRP vs Item_Visibility
Gambar 16 menunjukkan bahwa semakin tinggi [4] Wei, L. X., & Fang, Q. Y. (2012). A Data Prepocessing
visibilitas suatu produk belum tentu MRP produknya juga Algorith for Classification Model Base On Rough Sets.
tinggi. Hal ini berarti dapat diindikasikan bahwa tidak ada International Conference on Solid State Devices and
hubungan antara variabel Item_Visibility dengan Item_MRP. Materials Science, 2025-2029
[5] Han, J., Kamber, M., & Pei, J. (2012). Data Mining
III. KESIMPULAN DAN SARAN Concepts and Techniques. Morgan Kaufmann
[6] J. D. P. S. Hand. (2001). Principles of Data Mining.
A. Kesimpulan Cambridge: MIT Press.
Berdasarkan analisis dan pembahasan di atas, dapat [7] Dash, M. and H. Liu, (1997). Feature Selection for
disimpulkan yaitu Classification, Intelligent Data Analysis.
1. Pada proses imputasi missing value, untuk variabel [8] Walpole, R. E. (1993). Pengantar Statistika Edisi ke-3.
Item_Weight diisi dengan nilai rata-rata berdasarkan Jakarta: PT. Gramedia Pustaka Utama.
kategori id produk dan pada variabel Outlet_Size diisi [9] Santi, R. C., & Eniyati, S. (2015). Implementasi Statistik
dengan modus berdasarkan tipe outlet. dengan Database Mysql. Jurnal Teknologi Informasi
2. Pada proses deteksi outlier menggunakan boxplot terdapat DINAMIK Volume 20, No.2, Juli 2015 : 132-139,3.
2 variabel yang mengandung data outlier yaitu [10] B. Fry, Visualizing Data. Sebastopol: O’Reilly, 2008. [8]
Item_Visibility dan Item_Outlet_Sales. Selanjutnya C. N. Knafli, Storytelling with Data, vol. 2. Wiley, 2015.
dilakukan z-score test untuk mengetahui dimana saja letak [11] Tague, Nancy R., 2005. The Quality Toolbox, Second
data outlier. Edition. United States of America: ASQ Quality Press
3. Proses deteksi data noise dilakukan secara variabel (noise [12] M. I. Hasan, (2009). Pokok-Pokok Materi Statistika I
as an feature) dengan menggunakan metode backward (Statistika Deskriptif). Jakarta: PT. Bumi Aksara.
elimination untuk variabel kontinyu dan chi-square test [13] Saefuddin, A., Notodiputro, K. A., Alamudi, A., & Sadik,
untuk variabel kategorik. K. 2009. Statistika Dasar. Jakarta: PT Grasindo.
4. Transformasi variabel diterapkan pada 3 variabel yaitu
Item_Visibility, Item_MRP, dan Item_Outlet_Sales
5. Feature selection tidak dilakukan karena di awal sudah
melakukan deteksi noise pada variabel, sehingga diperoleh
9 variabel yang berpengaruh terhadap analisis.
6. Analisis karaktersitik data pada variabel numerik
menunjukkan bahwa selain variabel Item Visibility, semua
variabel numerik memiliki variasi yang tinggi. Pada
variabel kategorik didapatkan bahwa ukuran toko yang
paling banyak adalah small, tipe toko terbanyak ada
Supermarket Type 1, lokasi toko berada pada Tier 3 dan
toko paling banyak didirikan pada tahun 1985.
7. Pada proses visualisasi data digunakan boxplot, scatter
plot, density plot, bar chart, dan pie chart.
B. Saran
Saran metode analisis yang cocok diterapkan pada
penilitian ini adalah metode klasifikasi karena sesuai dengan
9
Lampiran