Pre Processing Data Dan Pengujian Asumsi
Pre Processing Data Dan Pengujian Asumsi
Pre Processing Data Dan Pengujian Asumsi
Abstrak— Seiring dengan semakin diminatinya minuman wine, tahun 2009 yang berisi data hasil tes laboratorium dengan 11
banyak negara yang mendukung pertumbuhan industri minuman variabel bebas dan menghasilkan output berupa kualitas wine
ini. Sertifikasi guna meyakinkan konsumen akan kualitas dan hasil produksi. Variabel yang digunakan untuk pengujian
untuk mencegah pemalsuan terhadap produk anggur juga asumsi normal univariat dan multivariat adalah variabel pH,
diperlukan. Sehingga diperlukan penilaian kualitas anggur, di
mana variabel yang masuk dalam penelitian ini adalah tingkat
sulfat dan alkohol. Selanjutnya dilakukan pre-processing data
keasaman (pH), alkohol, dan sulfat. Dalam penelitian ini, akan dengan mendeteksi missing value yang kemudian diatasi
dibahas mengenai pre-processing pada data penilaian kualitas dengan teknik imputasi listwise dan pairwise, serta deteksi
anggur Portugis “Vinho Verde” di tahun 2009, untuk mendeteksi outlier menggunakan boxplot dan Mahalanobis distance.
adanya missing value dan data outlier. Setelah dideteksi, Lebih lanjut lagi, data dianalisis menggunakan analisis
ditemukan terdapat missing data yang kemudian diatasi dengan normal univariat dan multivariat untuk menguji kenormalan
teknik imputasi listwise dan pairwise. Dalam proses pre-processing, data yang diperoleh dari pengukuran ganda secara simultan
data terdeteksi oleh boxplot dan Mahalanobis distance bahwa pada obyek yang sedang diteliti (didasarkan pada kebenaran
mengandung outlier, sehingga diputuskan untuk menghapus data variabel-variabel random berganda)[5]. Metode yang
tersebut. Setelah mengatasi kedua hal tersebut, peneliti
melanjutkan menguji asumsi normalitas dari data yang diuji
digunakan dalam pengujian asumsi normalitas univariat adalah
secara univariat menggunakan Kolmogorov-Smirnov dan Liliefors. Kolmogorov-Smirnov dan Liliefors, sedangkan untuk analisis
Dan untuk pengujian normalitas secara multivariat digunakan uji normal multivariat menggunakan QQ-Plot dan Saphiro-Wilk.
QQ-Plot dan Saphiro-Wilk.
II. TINJAUAN PUSTAKA
Kata Kunci— Missing value, Outlier, Univariat, Multivariat, A. Missing Value
Kolmogorov-Smirnov, QQ-Plot, Saphiro-Wilk Pada penelitian industri, eksperimen atau pengamatan
sering dijumpai adanya missing value (nilai yang hilang), noisy,
I. PENDAHULUAN dan data yang tidak konsisten. Missing value biasanya
B. Outlier 1. QQ-Plot
Menurut Ferguson (1961), outlier dapat didefinisikan Dengan menggunakan QQ-Plot, depat diketahui simpangan
sebagai suatu data yang menyimpang dari sekumpulan data terbesar dari garis normalnya. Semakin jauh suatu titik dari
yang lain. Keberadaan data outlier akan mengganggu dalam garis normalnya, maka data pengamatan tersebut memiliki
proses analisis data dan harus dihindari dalam banyak hal. variabilitas yang lebih besar dari data pengamatan yang dekat
Masalah data outlier dapat diatasi dengan menggunakan dua dengan garis normal[13].
pendekatan, yakni secara univariat dan multivariat. Pendekatan Hipotesis :
deteksi outlier secara univariat dapat menggunakan boxplot, H0 : Data berdistribusi normal multivariat
sedangkan secara multivariat dapat mengunakan Mahalanobis H1 : Data tidak berdistribusi normal multivariat
atau Cook’s Distance[9]. Statistik uji :
Data outlier dapat ditangani dengan: ∑𝑛 ̅)
𝑗=1(𝑥𝑗 −𝑥̅ )(𝑞𝑗 −𝑞
1. Memeriksa ketepatan data 𝑟= 2 2
(3)
√∑𝑛 𝑛
𝑗=1(𝑥𝑗 −𝑥̅ ) √∑𝑗=1(𝑞𝑗 −𝑞
̅)
Kasus yang menyebabkan adanya outlier adalah karena data
yang dimasukkan tidak tepat. Periksa nilai untuk suatu Daerah kritis : Tolak H0 jika r < rtabel (α,n) yang berarti data
penelitian agar nilai yang dimasukkan tepat. tidak berdistribusi normal multivariat
2. Menghapus kasus outlier Keterangan : x = data pengamatan
Alternatif kedua adalah dengan mengeluarkan kasus yang q = kuantil normal standar
dikenal sebagai outlier dari analisis. Kekurangan cara ini adalah 2. Shapiro-Wilks
sampel ditukar dengan mengeluarkannya dari kasus[10]. Selanjutnya secara inferensia dapat dilakukan dengan
C. Uji Normalitas Univariat pengujian Shapiro-Wilks dengan uji hipotesis sebagai berikut.
Uji ini dilakukan untuk melihat apakah data memenuhi Hipotesis :
asumsi distribusi normal atau tidak. Untuk itu dilakukan H0 : Data berdistribusi normal multivariat
pengujian masing-masing variabel, untuk mengetahui variabel H1 : Data tidak berdistribusi normal multivariat
mana yang tidak berdistribusi normal, apakah keduanya atau Statistik uji :
hanya salah satu variabel saja. Pengujian dapat dilakukan (∑ 𝑎 𝑥𝑖 )2
𝑊 = ∑(𝑥 𝑖 2 (4)
dengan uji Kolmogorov-Smirnov dan Liliefors. 𝑖 −𝑥̅ )
1. Uji Kolmogorov-Smirnov Dimana ai konstan yang hanya bergantung pada ukuran
Uji ini dilakukan untuk melihat apakah data memenuhi asumsi sampel[14].
distribusi normal univariat atau tidak[11]. Daerah kritis : Tolak H0 jika W > Wtabel atau p-value < α yang
Hipotesis : berarti data tidak berdistribusi normal multivariat
H0 : Data berdistribusi normal univariat
H1 : Data tidak berdistribusi normal univariat III. METODOLOGI PENELITIAN
Statistik uji : D0= max | F(x) – S(x) | atau p-value (1) Data yang digunakan merupakan data penilaian kualitas
Daerah Kritis : Tolak H0 jika D0> Dtabel(α,n) atau p-value < α anggur Portugis “Vinho Verde” di tahun 2009 yang diambil dari
yang berarti data tidak berdistribusi normal univariat. University of California at Irvine (UCI) Machine Learning
Keterangan : F(x) =probabilitas kumulatif normal Repository yang memiliki 12 variabel dan dapat dilihat pada
S(x)=probabilitas kumulatif empiris Tabel 1.
2. Uji Liliefors Tabel 1 Variabel Pengamatan
Simbol Variabel
Uji lilliefors ini berkaitan dengan pengujian sampel kecil yang Y1 Kualitas wine yang diproduksi
umumnya kurang dari 100 dimana pengujian sampel kecil X1 Fixed acidity
banyak digunakan dalam penelitian skala kecil yang umumnya X2 Volatile acidity
dilakukan di dunia pendidikan. Selain itu, dari beberapa sumber X3 Citric acid
X4 Residual sugar
juga dikatakan bahwa uji liliefors merupakan penyempurnaan X5 Chlorides
dari uji Kolmogorov-Smirnov untuk sampel kecil[12]. X6 Free sulfur dioxide
Hipotesis : X7 Total sulfur dioxide
H0 : Data berdistribusi normal univariat X8 Density
X9 pH
H1 : Data tidak berdistribusi normal univariat X10 Sulphates
Statistik uji : L0= max | F(x) – S(x) | atau p-value (2) X11 Alcohol
Daerah Kritis : Tolak H0 jika L0> Ltabel(α,n) atau p-value < α Namun dalam penelitian laporan kali ini hanya akan
yang berarti data tidak berdistribusi normal univariat. digunakan tiga variabel independen yaitu pH, sulfat dan
D. Uji Normalitas Multivariat alkohol, dengan data yang digunakan berjumlah sebanyak 99
Uji normalitas multivariat harus dilakukan pada seluruh pengamatan.
variabel secara bersama-sama. Namun uji ini juga bisa IV. HASIL DAN PEMBAHASAN
dilakukan pada setiap variabel (univariat), dengan logika bahwa A. Identifikasi dan Penanganan Missing Value Pada Data
jika masing-masing variabel memenuhi asumsi nomalitas maka Sebuah data diharapkan memiliki informasi yang lengkap
secara bersama-sama (multivariat) variabel tersebut juga sehingga apabila terdapat kasus missing value hal ini
dianggap memenuhi asumsi normalitas. Uji normalitas mengindikasikan bahwa beberapa informasi di dalam data
multivariat dapat dilakukan menggunakan QQ-Plot dan Uji tersebut ada yang hilang. Sehingga perlu dilakukan penanganan
Shapiro-Wilk sebagai berikut.
3
3 0,10 80
70
Percent
4 0,18 60
50
5 0,18 40
. . 30
20
. . 10
. . 5
99 2,58
1
60
terlalu banyak, namun ada sumber lain mengatakan bahwa, 50
40
terjadinya atau munculnya outlier data tidak perlu dihilangkan 30
20
dari analisis karena data tersebut menggambarkan keadaan 10
5
yang sesungguhnya dan tidak ada alasan khusus dari profil
responden yang menyebabkan harus dikeluarkan dari analisis 1
60
50
40
Tabel 6 Perhitungan Nilai Liliefors dengan SPSS
30 Statistic df p-value
20
10
SMEAN(pH) .062 98 .200*
5 SMEAN(Sulphates) .086 98 .073
SMEAN(Alcohol) .146 98 .000
1
*. This is a lower bound of the true significance.
0.1
2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 Berdasarkan Tabel 6, nilai p-value untuk variabel pH dan
pH Sulfat lebih dari α(0.05) yang menghasilkan keputusan gagal
Gambar 4. Probability Plot Uji Normal Univariat untuk Variabel pH tolak H0. Artinya, kesimpulan ini sama dengan pengujian
Berdasarkan Gambar 4, dapat diketahui bahwa titik- Kolmogorov-Smirnov bahwa variabel pH dan Sulfat mengikuti
titiknya hampir mengikuti garis normal, sehingga dapat distribusi normal univariat. Namun, nilai p-value variabel
dikatakan bahwa secara visual data berdistribusi normal. Dari alkohol sebesar 0 sehingga menghasilkan keputusan tolak H 0
hasil pengujian menggunakan Kolmogorov-Smirnov diketahui dan data tidak berdistribusi normal univariat. Oleh sebab itu,
bahwa p-value lebih besar dari 0.150 atau dapat dikatakan p- tidak terjadi perubahan kesimpulan antara pengujian
value>α yakni gagal tolak H0. Maka dapat disimpulkan bahwa Kolmogorov-Smirnov dan Liliefors yakni variabel pH dan
variabel pH berdistribusi normal univariat.
5
Sulfat berdistribusi normal univariat dan variabel alkohol tidak multivariat, variabel pH, sulfat dan alkohol secara serentak
berdistribusi normal univariat. tidak berdistribusi normal multivariat. Kesimpulan ini
D. Pengujian Normal Multivariat diperoleh setelah melakukan pengujian QQ-Plot dan Shapiro-
Setelah melakukan pengujian normal univariat, langkah Wilks. Namun bila dianalisis dengan deteksi univariat
selanjutnya adalah menggunakan pengujian normal multivariat menggunakan Kolmogorov-Smirnov dan Liliefors, variabel pH
pada seluruh variabel secara bersama-sama. Sebenarnya tanpa dan sulfat terdeteksi mengikuti distribusi normal univariat,
melakukan pengujian multivariat ini pun sudah diketahui sedangkan variabel alkohol tidak berdistribusi normal
bahwa hasilnya akan tidak normal secara multivariat karena univariat. Namun sebelum melakukan pengujian asumsi
secara univariat saja, tidak semua variabel menghasilkan distribusi normal tersebut, perlu dilakukan pengecekan
kesimpulan berdistribusi normal univariat. Namun, peneliti terhadap data agar tidak terjadi kesalahan interpretasi. Proses
ingin membuktikan kebenaran hipotesis tersebut dengan pengecekan data harus memperhatikan kevalidan data dengan
melakukan pengujian QQ-Plot dan Shapiro-Wilk Test sebagai mendeteksi adanya missing value dan data outlier. Dalam kasus
berikut. ini, peneliti mendeteksi adanya missing value sehingga data
Peneliti menggunakan bantuan software R dalam membuat diatasi terlebih dahulu menggunakan listwise dan pairwise.
QQ-Plot dan menghitung nilai statistik ujinya. Sehingga Namun peneliti memilih mengganti missing value
didapatkan nilai correlation hitungnya 0.847412. Bila menggunakan teknik imputasi listwise. Selain itu, peneliti
dibandingkan dengan nilai rtabel, dimana jumlah data (N) adalah menemukan adanya 1 data outlier yang telah terdeteksi secara
98, maka nilai rtabel untuk tingkat signifikansi 0.05 adalah 0.98. univariat dan multivariat sehingga terpaksa harus membuang 1
Artinya, r < rtabel yakni tolak H0, maka data tidak berdistribusi data tersebut agar proses analisis tidak terhambat.
normal multivariat. Hal ini juga dijelaskan melalui visual dari Saran yang diperlukan dalam pembuatan laporan
QQ-Plot sebagai berikut. penelitian di lain waktu adalah agar mahasiswa mengetahui
maksud dari data secara jelas agar mengerti isi dan tujuan dari
data tersebut lebih lengkap lagi. Selanjutnya mahasiswa
diharuskan lebih mengerti dan paham mengenai bagaimana
langkah menangani kasus data missing value dan outlier serta
bagaimana melakukan pengujian normal univariat dan
multivariat.
DAFTAR PUSTAKA
[1] P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.
Modeling wine preferences by data mining from
physicochemical properties. In Decision Support Systems,
Elsevier, 47(4):547-553, 2009.
[2] S. Ebeler, Flavor Chemistry — Thirty Years of Progress,
Kluwer Academic Publishers, 1999, pp. 409–422, chapter
Linking flavour chemistry to sensory analysis of wine.
[3] D. Smith, R. Margolskee, Making sense of taste, Scientific
American, Special issue 16 (3) (2006) 84-92.
[4] A. Legin, A. Rudnitskaya, L. Luvova, Y. Vlasov, C.
Natale, A. D'Amico, Evaluation of Italian wine by the
Gambar 7. QQ-Plot Uji Normal Multivariat dengan Software R electronic tongue: recognition, quantitative analysis and
Berdasarkan gambar 7, diketahui bahwa grafik tidak correlation with human sensory perception, Analytica
linear, maka visual dari QQ-Plot mendukung pernyataan Chimica Acta 484 (1) (2003) 33–34.
sebelumnya bahwa variabel pH, sulfat dan alkohol secara [5] Kusumawati, Ardina (2016). Pengujian Normal Univariat,
serentak tidak berdistribusi multivariat normal. Untuk lebih Multivariat & Homogenitas Antar Matriks Kovarians
menguatkan kebenaran pernyataan tersebut, peneliti Data Lembaga, Murid, dan Lulusan SD/MI dan SMP/MTs
menggunakan pengujian lain yakni Shapiro-Wilks dengan Negeri/Swasta Kabupaten/Kota di Provinsi Jawa Timur
bantuan software R dan didapatkan nilai W adalah 0.93015 dan Tahun 2005-2006. Tugas Akhir Jurusan Statistika FMIPA
nilai p-value adalah 6.022e-05. Artinya dengan menggunakan ITS. Surabaya : ITS.
pengujian Shapiro-Wilks keputusan yang didapatpun tetap [6] Kaiser, Jiri. (2014). Dealing with Missing Values in Data.
sama yakni tolak H0 karena nilai p-value<α dimana α=0.05. Journal of Systems Integration, Vol 5, No 1
Oleh sebab itu pengujian QQ-Plot dan Shapiro-Wilks [7] Horton, N.J. and Kleinman, K.P. (2007) Much Ado about
menghasilkan kesimpulan yang sama bahwa variabel pH, sulfat Nothing: A Comparison of Missing Data Methods and
dan alkohol secara serentak tidak berdistribusi multivariat Software to Fit Incomplete Data Regression Models. The
normal. American Statistician.
[8] Rubin, D.B. and Little, R.J. (2002) Statistical Analysis
V. KESIMPULAN DAN SARAN with Missing Data. John Wiley & Sons, Hoboken
Berdasarkan hasil pengujian asumsi distribusi normal [9] Paludi, Salman IDENTIFIKASI DAN PENGARUH
multivariat pada faktor yang mempengaruhi kualitas anggur, KEBERADAAN DATA OUTLIER (OUTLIER). Majalah
dapat disimpulkan bahwa pada deteksi distribusi normal Ilmiah Panorama Nusantara, edisi VI, Januari - Juni 2009
6
[10] Johnson, R. A. Dan Wichern, D. W., 2007, Applied pH (X1) sulphates (X2) alcohol (X3) quality (Y)
Multivariate Statistical Analysis, 6th edition. New Jersey: 3,27 0,52 9,8 4
3,25 0,52 9,8 5
Printice Hall 3,13 0,46 9,8 6
[11] Hidayat, Anwar. 2013. 3,36 0,48 9,8 5
https://www.statistikian.com/2013/01/rumus- 3,35 0,44 11,7 6
Kolmogorov-Smirnov.html 3,34 0,58 11 7
3,32 0,46 10,9 7
[12] Hidayat, Anwar. 2013. 3,31 0,35 10,9 6
https://www.statistikian.com/2013/01/rumus- 3,05 0,38 9,1 6
lilliefors.html 3,13 0,52 11 6
[13] Zelterman Daniel. 2015. Applied Multivariate Statistics 3,09 0,5 9,6 6
3,3 0,36 8,9 6
with R. USA: Springer. 3,11 0,38 10,2 6
[14] Shapiro SS, Wilk MB (1965). An analysis of variance test 3,36 0,34 9,9 6
for normality (complete samples). Biometrika 52 (3–4): 3,03 0,46 8,6 6
591–611. 3,3 0,36 8,9 6
3,02 0,34 10,5 5
[15] Augusty Ferdinand, Metode Penelitian Manajemen: 3,11 0,38 10,2 6
Pedoman Penelitian untuk Skripsi, Tesis dan Disertasi 3,15 0,46 10,3 6
Ilmu Manajemen, Semarang: Badan Penerbit Universitas 3,22 0,54 9,1 5
Diponegoro. 2006 3,22 0,49 12,6 7
3,14 0,42 9,8 5
3,33 0,64 10,7 8
3,13 0,35 9,5 5
LAMPIRAN 3,1 0,51 9 6
A. Data Pengamatan Asli 3,32 0,6 9,5 5
pH (X1) sulphates (X2) alcohol (X3) quality (Y) 3,69 0,71 10 5
3 0,45 8,8 6 2,95 0,49 9,1 6
3,3 0,49 9,5 6 3,33 0,64 10,7 8
3,26 0,44 10,1 6 3,13 0,35 9,5 5
3,19 0,4 9,9 6 3,26 0,37 12,7 7
3,19 0,4 9,9 6 3,31 0,65 12 7
3,26 0,44 10,1 6 2,94 0,56 9,3 5
3,18 0,47 9,6 6 3,27 0,37 9 5
0,45 6 3,39 0,77 10,6 6
3,3 0,49 9,5 6 3,21 0,6 9,2 6
3,22 0,45 11 6 3,17 0,42 10 5
2,99 0,56 12 5 3,33 0,46 9,5 6
3,14 0,53 9,7 5 3,11 0,45 8,7 5
3,18 0,63 10,8 5 3,12 0,46 8,7 6
3,54 0,52 12,4 7 3,09 0,44 8,7 6
2,98 0,67 9,7 5 3,22 0,48 9,7 6
3,25 0,55 11,4 7 3,11 0,45 8,7 5
3,24 0,36 9,6 6 3,12 0,46 8,7 6
3,33 0,39 12,8 8 3,09 0,44 8,7 6
0,53 11,3 6 3,12 0,47 9 5
3,22 0,5 9,5 5 3,26 0,4 12,6 7
3,33 0,39 12,8 8 3,25 0,41 12,6 7
3,17 0,35 11 7 3,21 0,44 11,5 7
3,47 10,5 8 3,04 0,42 9,2 6
3,05 0,51 5 3,14 0,5 8,8 6
3,42 0,47 10 6 2,95 0,36 11,4 7
3,25 0,5 10,4 6 2,89 0,3 10,1 4
3,45 0,44 10 6
3,38 0,53 10,5 6
3,19 0,49 11,6 6
3,1 0,71 12,3 7
3,2 10 6
3,47 0,4 10,2 6
3,19 0,44 10,8 6
3,42 0,51 9 6
0,37 10,2 5
3,19 0,42 12,8 5
3,24 0,35 10 5
3,13 0,28 6
3,21 0,36 8,6 5
3,21 0,36 8,6 5
3,11 0,36 9,4 6
3,1 9,4 6
3,13 0,46 9,8 6
3,22 0,56 9,5 6
3,24 0,56 9,5 6
3,16 0,53 10 7
7
B. Jarak Mahalanobis
Mahala Mahala Mahala
n n n
nobis nobis nobis
1 1,05 34 1,56 67 1,66
2 0,36 35 0,38 68 0,15
3 0,10 36 2,14 69 1,27
4 0,18 37 0,62 70 0,61
5 0,18 38 1,36 71 0,61
6 0,10 39 1,09 72 1,04
7 0,09 40 1,09 73 5,95
8 0,01 41 0,59 74 1,46
9 0,36 42 0,30 75 1,27
10 0,21 43 0,12 76 0,61
11 2,92 44 0,49 77 2,23
12 0,33 45 0,50 78 2,01
13 1,25 46 0,24 79 2,07
14 2,73 47 0,22 80 0,94
15 3,21 48 0,18 81 3,70
16 0,63 49 0,12 82 1,01
17 0,60 50 0,56 83 0,09
18 2,31 51 0,92 84 0,52
19 0,51 52 0,76 85 0,61
20 0,18 53 0,33 86 0,60
21 2,31 54 0,99 87 0,66
22 0,79 55 0,76 88 0,07
23 1,34 56 0,55 89 0,61
24 0,66 57 0,39 90 0,60
25 0,96 58 1,27 91 0,66
26 0,07 59 0,41 92 0,42
27 1,35 60 1,38 93 1,86
28 0,61 61 1,00 94 1,80
29 0,64 62 1,27 95 0,55
30 4,33 63 1,22 96 0,64
31 0,01 64 0,41 97 0,59
32 1,77 65 0,08 98 2,35
33 0,17 66 0,56 99 2,58