Pre Processing Data Dan Pengujian Asumsi

1
Pre-processing Data dan Pengujian Asumsi

Distribusi Normal Univariat & Multivariat pada
Faktor yang Mempengaruhi Kualitas Anggur
Juwitasari Nur Rachmawati(06211540000046)(1), Nesia Balqis (06211540000061)(2), dan Bambang W. Otok(3)
Departemen Statistika, Fakultas Matematika, Komputasi, dan Sains Data,
Institut Teknologi Sepuluh Nopember, (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail : (1)jusa.juwitasari@gmail.com;(2)nesiabalqis@gmail.com; (3)dr.otok.bw@gmail.com
Abstrak— Seiring dengan semakin diminatinya minuman wine, tahun 2009 yang berisi data hasil tes laboratorium dengan 11
banyak negara yang mendukung pertumbuhan industri minuman variabel bebas dan menghasilkan output berupa kualitas wine
ini. Sertifikasi guna meyakinkan konsumen akan kualitas dan hasil produksi. Variabel yang digunakan untuk pengujian
untuk mencegah pemalsuan terhadap produk anggur juga asumsi normal univariat dan multivariat adalah variabel pH,
diperlukan. Sehingga diperlukan penilaian kualitas anggur, di
mana variabel yang masuk dalam penelitian ini adalah tingkat
sulfat dan alkohol. Selanjutnya dilakukan pre-processing data
keasaman (pH), alkohol, dan sulfat. Dalam penelitian ini, akan dengan mendeteksi missing value yang kemudian diatasi
dibahas mengenai pre-processing pada data penilaian kualitas dengan teknik imputasi listwise dan pairwise, serta deteksi
anggur Portugis “Vinho Verde” di tahun 2009, untuk mendeteksi outlier menggunakan boxplot dan Mahalanobis distance.
adanya missing value dan data outlier. Setelah dideteksi, Lebih lanjut lagi, data dianalisis menggunakan analisis
ditemukan terdapat missing data yang kemudian diatasi dengan normal univariat dan multivariat untuk menguji kenormalan
teknik imputasi listwise dan pairwise. Dalam proses pre-processing, data yang diperoleh dari pengukuran ganda secara simultan
data terdeteksi oleh boxplot dan Mahalanobis distance bahwa pada obyek yang sedang diteliti (didasarkan pada kebenaran
mengandung outlier, sehingga diputuskan untuk menghapus data variabel-variabel random berganda)[5]. Metode yang
tersebut. Setelah mengatasi kedua hal tersebut, peneliti
melanjutkan menguji asumsi normalitas dari data yang diuji
digunakan dalam pengujian asumsi normalitas univariat adalah
secara univariat menggunakan Kolmogorov-Smirnov dan Liliefors. Kolmogorov-Smirnov dan Liliefors, sedangkan untuk analisis
Dan untuk pengujian normalitas secara multivariat digunakan uji normal multivariat menggunakan QQ-Plot dan Saphiro-Wilk.
QQ-Plot dan Saphiro-Wilk.
II. TINJAUAN PUSTAKA
Kata Kunci— Missing value, Outlier, Univariat, Multivariat, A. Missing Value
Kolmogorov-Smirnov, QQ-Plot, Saphiro-Wilk Pada penelitian industri, eksperimen atau pengamatan
sering dijumpai adanya missing value (nilai yang hilang), noisy,
I. PENDAHULUAN dan data yang tidak konsisten. Missing value biasanya
B egitu dilihat sebagai barang mewah, saat ini wine semakin

dinikmati oleh konsumen yang lebih luas. Untuk
mendukung pertumbuhannya, industri anggur berinvestasi pada
disebabkan karena kesalahan data entry, tidak terisinya
kuisioner oleh responden, dan kesalahan alat atau
pengukuran[6]. Missing value terbagi menjadi 3 bagian berbeda
teknologi baru untuk pembuatan anggur dan proses penjualan. berdasarkan karakteristik antar variabelnya[7]:
Sertifikasi anggur dan penilaian kualitas adalah elemen inti 1. Missing Completely at Random (MCAR) : Missing value
dalam konteks ini. Sertifikasi mencegah pemalsuan anggur tidak tergantung pada data lain
secara ilegal (untuk melindungi kesehatan manusia) dan 2. Missing at Random (MAR) : Missing value bergantung
menjamin kualitas pasar anggur. Evaluasi kualitas sering pada data lain, namun tidak bergantung pada data itu
menjadi bagian dari proses sertifikasi dan dapat digunakan sendiri.
untuk memperbaiki pembuatan anggur (dengan 3. Not Missing at Random (NMAR) : Peluang adanya
mengidentifikasi faktor yang paling berpengaruh) dan untuk missing value bergantung pada nilai atribut tersebut.
memberi stratifikasi anggur seperti merek premium (berguna Metode yang digunakan untuk mengatasi missing value
untuk menetapkan harga) [1]. dapat dibagi menjadi 3 kategori, yaitu, Parameter Estimation
Sertifikasi anggur umumnya dinilai dengan tes fisik dan (Maximum Likelihood Estimation), Case/Pairwise Deletion
kimiawi [2]. Tes laboratorium fisikokimia yang rutin digunakan (penghapusan), dan teknik Imputasi (penggantian dengan nilai
untuk mencirikan anggur meliputi penentuan tingkat perkiraan[8]. Pada teknik imputasi, metode yang terkenal
kepadatan, alkohol atau pH, sementara tes sensorik sangat adalah listwise dan pairwise. Dalam teknik imputasi ini,
bergantung pada ahli manusia. Karena harus ditekankan bahwa missing value dapat diatasi dengan penggantian nilai perkiraan
rasa paling tidak dipahami indra manusia [3]. Dengan demikian mean. Teknik imputasi listwise adalah mengganti missing value
klasifikasi anggur adalah tugas yang sulit. Dimana, hubungan dengan mean dari variabel-variabelnya. Sedangkan metode
antara analisis fisikokimia dan sensoris sangat kompleks dan pairwise adalah mengganti missing value dengan
masih belum sepenuhnya dipahami [4]. memperhatikan terlebih dahulu korelasi antar variabel yang
Dalam pembuatan laporan kali ini, peneliti menggunakan terdapat missing value untuk menentukan nilai mean yang akan
dataset penilaian kualitas anggur Portugis “Vinho Verde” pada dimasukkan ke data yang hilang tersebut.
2
B. Outlier 1. QQ-Plot
Menurut Ferguson (1961), outlier dapat didefinisikan Dengan menggunakan QQ-Plot, depat diketahui simpangan
sebagai suatu data yang menyimpang dari sekumpulan data terbesar dari garis normalnya. Semakin jauh suatu titik dari
yang lain. Keberadaan data outlier akan mengganggu dalam garis normalnya, maka data pengamatan tersebut memiliki
proses analisis data dan harus dihindari dalam banyak hal. variabilitas yang lebih besar dari data pengamatan yang dekat
Masalah data outlier dapat diatasi dengan menggunakan dua dengan garis normal[13].
pendekatan, yakni secara univariat dan multivariat. Pendekatan Hipotesis :
deteksi outlier secara univariat dapat menggunakan boxplot, H0 : Data berdistribusi normal multivariat
sedangkan secara multivariat dapat mengunakan Mahalanobis H1 : Data tidak berdistribusi normal multivariat
atau Cook’s Distance[9]. Statistik uji :
Data outlier dapat ditangani dengan: ∑𝑛 ̅)
𝑗=1(𝑥𝑗 −𝑥̅ )(𝑞𝑗 −𝑞
1. Memeriksa ketepatan data 𝑟= 2 2
(3)
√∑𝑛 𝑛
𝑗=1(𝑥𝑗 −𝑥̅ ) √∑𝑗=1(𝑞𝑗 −𝑞
̅)
Kasus yang menyebabkan adanya outlier adalah karena data
yang dimasukkan tidak tepat. Periksa nilai untuk suatu Daerah kritis : Tolak H0 jika r < rtabel (α,n) yang berarti data
penelitian agar nilai yang dimasukkan tepat. tidak berdistribusi normal multivariat
2. Menghapus kasus outlier Keterangan : x = data pengamatan
Alternatif kedua adalah dengan mengeluarkan kasus yang q = kuantil normal standar
dikenal sebagai outlier dari analisis. Kekurangan cara ini adalah 2. Shapiro-Wilks
sampel ditukar dengan mengeluarkannya dari kasus[10]. Selanjutnya secara inferensia dapat dilakukan dengan
C. Uji Normalitas Univariat pengujian Shapiro-Wilks dengan uji hipotesis sebagai berikut.
Uji ini dilakukan untuk melihat apakah data memenuhi Hipotesis :
asumsi distribusi normal atau tidak. Untuk itu dilakukan H0 : Data berdistribusi normal multivariat
pengujian masing-masing variabel, untuk mengetahui variabel H1 : Data tidak berdistribusi normal multivariat
mana yang tidak berdistribusi normal, apakah keduanya atau Statistik uji :
hanya salah satu variabel saja. Pengujian dapat dilakukan (∑ 𝑎 𝑥𝑖 )2
𝑊 = ∑(𝑥 𝑖 2 (4)
dengan uji Kolmogorov-Smirnov dan Liliefors. 𝑖 −𝑥̅ )
1. Uji Kolmogorov-Smirnov Dimana ai konstan yang hanya bergantung pada ukuran
Uji ini dilakukan untuk melihat apakah data memenuhi asumsi sampel[14].
distribusi normal univariat atau tidak[11]. Daerah kritis : Tolak H0 jika W > Wtabel atau p-value < α yang
Hipotesis : berarti data tidak berdistribusi normal multivariat
H0 : Data berdistribusi normal univariat
H1 : Data tidak berdistribusi normal univariat III. METODOLOGI PENELITIAN
Statistik uji : D0= max | F(x) – S(x) | atau p-value (1) Data yang digunakan merupakan data penilaian kualitas
Daerah Kritis : Tolak H0 jika D0> Dtabel(α,n) atau p-value < α anggur Portugis “Vinho Verde” di tahun 2009 yang diambil dari
yang berarti data tidak berdistribusi normal univariat. University of California at Irvine (UCI) Machine Learning
Keterangan : F(x) =probabilitas kumulatif normal Repository yang memiliki 12 variabel dan dapat dilihat pada
S(x)=probabilitas kumulatif empiris Tabel 1.
2. Uji Liliefors Tabel 1 Variabel Pengamatan
Simbol Variabel
Uji lilliefors ini berkaitan dengan pengujian sampel kecil yang Y1 Kualitas wine yang diproduksi
umumnya kurang dari 100 dimana pengujian sampel kecil X1 Fixed acidity
banyak digunakan dalam penelitian skala kecil yang umumnya X2 Volatile acidity
dilakukan di dunia pendidikan. Selain itu, dari beberapa sumber X3 Citric acid
X4 Residual sugar
juga dikatakan bahwa uji liliefors merupakan penyempurnaan X5 Chlorides
dari uji Kolmogorov-Smirnov untuk sampel kecil[12]. X6 Free sulfur dioxide
Hipotesis : X7 Total sulfur dioxide
H0 : Data berdistribusi normal univariat X8 Density
X9 pH
H1 : Data tidak berdistribusi normal univariat X10 Sulphates
Statistik uji : L0= max | F(x) – S(x) | atau p-value (2) X11 Alcohol
Daerah Kritis : Tolak H0 jika L0> Ltabel(α,n) atau p-value < α Namun dalam penelitian laporan kali ini hanya akan
yang berarti data tidak berdistribusi normal univariat. digunakan tiga variabel independen yaitu pH, sulfat dan
D. Uji Normalitas Multivariat alkohol, dengan data yang digunakan berjumlah sebanyak 99
Uji normalitas multivariat harus dilakukan pada seluruh pengamatan.
variabel secara bersama-sama. Namun uji ini juga bisa IV. HASIL DAN PEMBAHASAN
dilakukan pada setiap variabel (univariat), dengan logika bahwa A. Identifikasi dan Penanganan Missing Value Pada Data
jika masing-masing variabel memenuhi asumsi nomalitas maka Sebuah data diharapkan memiliki informasi yang lengkap
secara bersama-sama (multivariat) variabel tersebut juga sehingga apabila terdapat kasus missing value hal ini
dianggap memenuhi asumsi normalitas. Uji normalitas mengindikasikan bahwa beberapa informasi di dalam data
multivariat dapat dilakukan menggunakan QQ-Plot dan Uji tersebut ada yang hilang. Sehingga perlu dilakukan penanganan
Shapiro-Wilk sebagai berikut.
3
salah satunya adalah dengan metode listwise dan pairwise

menggunakan bantuan software SPSS.
Setelah dilakukan pengecekan dengan menggunakan
SPSS ditemukan beberapa data yang hilang, dan dengan metode
listwise dihasilkan output sebagai berikut,
Tabel 2 Output SPSS untuk Penanganan Kasus Missing Value Dengan
Metode Listwise
Missing Extremes
N Mean Stdev
Count % Low High
pH 96 3,21 0,14 3 3 0 1
Sulphates 96 0,47 0,095 3 3 0 1
Alcohol 96 10,15 1,14 3 3 0 0
Quality 99 0 0
Melihat informasi yang ada dalam Tabel 2, telah Gambar 1 Boxplot Variabel pH
diketahui bahwa terdapat 3 data yang hilang untuk setiap Dari Gambar 1, disajikan boxplot dari variabel pH dan
variabel. Untuk menangani kasus hilangnya data, beberapa didapati terdapat satu titik yang berada di luar boxplot yaitu data
sumber mengatakan bahwa data yang hilang dapat saja diatasi pengamatan ke 73. Selanjutnya, juga akan dilihat boxplot untuk
dengan mengganti nilai yang hilang dengan nilai mean setiap variabel sulphates yang akan disajikan berikut ini,
variabel. Sehingga missing value pada variabel pH diganti
dengan 3,21, pada variabel sulfat diganti dengan 0,47, dan
untuk variabel alkohol diganti dengan 10,15.
Selain menggunakan metode Listwise, penanganan
missing value pada data yang digunakan juga dapat dilakukan
menggunakan metode Pairwise yang telah dihitung
menggunakan software SPSS dengan hasil sebagai berikut.
Tabel 3 Output SPSS Korelasi Pairwise
pH Sulphates Alcohol
pH 1
Sulphates 0,216 1
Alcohol 0,252 0,094 1
Tabel 4 Output SPSS Mean Pairwise
pH Sulphates Alcohol Gambar 2 Boxplot Variabel Sulphates
pH 3,21 0,4670 10,1362 Melihat hasil visualisasi dari variabel sulphates pada
Sulphates 3,21 0,4665 10,1548
Gambar 2, dapat diketahui bahwa terdapat data outlier pada
Alcohol 3,21 0,4682 10,1490
Quality 3,21 0,4665 10,1490 pengamatan ke 30, 73, dan 80. Terakhir, untuk variabel alcohol
Apabila ingin digunakan metode Pairwise, dapat dilihat dapat dilihat pada gambar berikut,
nilai korelasi dan rata-rata seperti pada Tabel 3 dan Tabel 4.
Penanganan missing value tetap diganti dengan nilai rata-rata
yang ada pada Tabel 4, namun apabila terdapat 3 atau lebih
variabel dalam satu baris yang datanya hilang, terlebih dahulu
dilihat nilai korelasinya, variabel dengan korelasi tertinggi yang
akan dipilih sebagai pengganti nilai yang hilang pada data.
Dalam penelitian ini, peneliti diperbolehkan mengganti
missing value dengan menggunakan teknik imputasi listwise
ataupun pairwise, namun peneliti dalam kasus ini memilih
menggunakan listwise.
B. Identifikasi Kasus Data Outlier

Data outlier adalah salah satu penyebab terjadinya Gambar 3 Boxplot Variabel Alcohol
masalah dalam model penelitian, seperti masalah normalitas Dari Gambar 3 terdapat data outlier dari variabel alcohol
dan homogenitas data yang sering menjadi hambatan dalam yaitu sebanyak 3 data pada pengamatan ke 18, 21, dan 36.
penelitian parametrik. Dalam laporan ini akan diidentifikasi b. Identifikasi Secara Multivariat
masalah data outlier dengan menggunakan dua pendekatan, Selain mengidentifikasi secara univariat, data outlier juga
secara univariat dan multivariat. perlu diperiksa secara multivariat. Dalam mendeteksi data
a. Identifikasi Secara Univariat outlier secara multivariat akan digunakan Mahalanobis
Untuk mendeteksi data outlier secara univariat dapat dilihat distance dan dalam laporan ini digunakan bantuan software
dari boxplot yang dapat menunjukkan adanya data outlier, SPSS, dan menghasilkan output sebagai berikut.
seperti dapat dilihat berikut ini,
4
Tabel 5 Perhitungan Jarak Mahalanobis dengan SPSS 99.9

Mean 0.4641
StDev 0.09027
n Mahalanobis 99 N 98
KS 0.086
1 1,05 95 P-Value 0.074
2 0,36 90
3 0,10 80
70
Percent
4 0,18 60
50
5 0,18 40
. . 30
20
. . 10
. . 5
99 2,58
1
Dari Tabel 5 dapat dilihat bahwa kotak-kotak berwarna 0.1

kuning menunjukkan nilai Mahalanobis distance yang berada 0.2 0.3 0.4 0.5 0.6 0.7 0.8
Sulfat
pada nilai di atas 2,5. Dikatakan menurut beberapa sumber
Gambar 5. Probability Plot Uji Normal Univariat untuk Variabel Sulfat
apabila nilai jarak Mahalanobis menunjukkan nilai di atas 2,5
dapat dikatakan bahwa data tersebut outlier. Melihat dari hasil Diketahui bahwa secara visual pada gambar 5, dapat
yang terdapat pada Tabel 5, terlihat bahwa beberapa data dikatakan bahwa variabel sulfat berdistribusi normal karena
dikatakan outlier secara multivariat yaitu pada pengamatan ke scatterplot hampir semuanya mengikuti garis normal. Hasil
11, 14, 30, 73, 81, dan 99. Untuk perhitungan jarak pengujian Kolmogorov-Smirnov pun mendukung interpretasi
Mahalanobis lebih jelasnya dapat dilihat di lampiran B. visual karena p-value sebesar 0.074 sehingga gagal tolak H0
Seperti yang telah disebutkan sebelumnya, bahwa data karena p-value>α. Oleh sebab itu, variabel sulfat berdistribusi
akan benar-benar dikatakan outlier jika data tersebut normal univariat.
99.9
merupakan outlier secara univariat dan multivariat. Dan Mean
StDev
10.15
1.132
berdasarkan hal tersebut, maka yang dapat dikatakan sebagai 99 N 98
KS 0.146
data outlier adalah data pengamatan ke 73. Penanganan 95 P-Value <0.010
90
terhadap masalah data outlier salah satunya mengatakan bahwa 80
data tersebut dapat saja dihilangkan apabila jumlahnya tidak 70
Percent
60
terlalu banyak, namun ada sumber lain mengatakan bahwa, 50
40
terjadinya atau munculnya outlier data tidak perlu dihilangkan 30
20
dari analisis karena data tersebut menggambarkan keadaan 10
5
yang sesungguhnya dan tidak ada alasan khusus dari profil
responden yang menyebabkan harus dikeluarkan dari analisis 1
tersebut [15]. Namun, dalam kasus ini peneliti memutuskan 0.1

6 7 8 9 10 11 12 13 14
untuk mengeluarkan data pengamatan ke 73 agar nantinya tidak Alkohol
mengganggu dalam proses analisis data. Gambar 6. Probability Plot Uji Normal Univariat untuk Variabel Alkohol
C. Pengujian Normal Univariat
Pengujian menggunakan Kolmogorov-Smirnov pada
Pengujian Normal Univariat dapat dilakukan kepada
variabel alkohol menghasilkan p-value kurang dari 0.010 atau
setiap variabel yang menentukan kebaikan kualitas anggur yang
dapat dikatakan p-value<α yakni tolak H0. Hal ini juga
diamati dengan menggunakan visual dan nilai dari
didukung dari visualnya, bahwa scatterplot tidak tepat
Kolmogorov-Smirnov seperti pada gambar berikut ini.
99.9
mengikuti garis normal. Sehingga dapat disimpulkan bahwa
Mean
StDev
3.203
0.1255
variabel alkohol tidak berdistribusi normal univariat.
99 N
KS
98
0.062
Selain menggunakan visual dan pengujian Kolmogorov-
95
90
P-Value >0.150 Smirnov, pengujian normal univariat juga dapat dilakukan
80 menggunakan Liliefors. Dalam kasus ini, peneliti menggunakan
70
bantuan software SPSS dalam menghitung nilai Liliefors.
Percent
60
50
40
Tabel 6 Perhitungan Nilai Liliefors dengan SPSS
30 Statistic df p-value
20
10
SMEAN(pH) .062 98 .200*
5 SMEAN(Sulphates) .086 98 .073
SMEAN(Alcohol) .146 98 .000
1
*. This is a lower bound of the true significance.
0.1
2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 Berdasarkan Tabel 6, nilai p-value untuk variabel pH dan
pH Sulfat lebih dari α(0.05) yang menghasilkan keputusan gagal
Gambar 4. Probability Plot Uji Normal Univariat untuk Variabel pH tolak H0. Artinya, kesimpulan ini sama dengan pengujian
Berdasarkan Gambar 4, dapat diketahui bahwa titik- Kolmogorov-Smirnov bahwa variabel pH dan Sulfat mengikuti
titiknya hampir mengikuti garis normal, sehingga dapat distribusi normal univariat. Namun, nilai p-value variabel
dikatakan bahwa secara visual data berdistribusi normal. Dari alkohol sebesar 0 sehingga menghasilkan keputusan tolak H 0
hasil pengujian menggunakan Kolmogorov-Smirnov diketahui dan data tidak berdistribusi normal univariat. Oleh sebab itu,
bahwa p-value lebih besar dari 0.150 atau dapat dikatakan p- tidak terjadi perubahan kesimpulan antara pengujian
value>α yakni gagal tolak H0. Maka dapat disimpulkan bahwa Kolmogorov-Smirnov dan Liliefors yakni variabel pH dan
variabel pH berdistribusi normal univariat.
5
Sulfat berdistribusi normal univariat dan variabel alkohol tidak multivariat, variabel pH, sulfat dan alkohol secara serentak
berdistribusi normal univariat. tidak berdistribusi normal multivariat. Kesimpulan ini
D. Pengujian Normal Multivariat diperoleh setelah melakukan pengujian QQ-Plot dan Shapiro-
Setelah melakukan pengujian normal univariat, langkah Wilks. Namun bila dianalisis dengan deteksi univariat
selanjutnya adalah menggunakan pengujian normal multivariat menggunakan Kolmogorov-Smirnov dan Liliefors, variabel pH
pada seluruh variabel secara bersama-sama. Sebenarnya tanpa dan sulfat terdeteksi mengikuti distribusi normal univariat,
melakukan pengujian multivariat ini pun sudah diketahui sedangkan variabel alkohol tidak berdistribusi normal
bahwa hasilnya akan tidak normal secara multivariat karena univariat. Namun sebelum melakukan pengujian asumsi
secara univariat saja, tidak semua variabel menghasilkan distribusi normal tersebut, perlu dilakukan pengecekan
kesimpulan berdistribusi normal univariat. Namun, peneliti terhadap data agar tidak terjadi kesalahan interpretasi. Proses
ingin membuktikan kebenaran hipotesis tersebut dengan pengecekan data harus memperhatikan kevalidan data dengan
melakukan pengujian QQ-Plot dan Shapiro-Wilk Test sebagai mendeteksi adanya missing value dan data outlier. Dalam kasus
berikut. ini, peneliti mendeteksi adanya missing value sehingga data
Peneliti menggunakan bantuan software R dalam membuat diatasi terlebih dahulu menggunakan listwise dan pairwise.
QQ-Plot dan menghitung nilai statistik ujinya. Sehingga Namun peneliti memilih mengganti missing value
didapatkan nilai correlation hitungnya 0.847412. Bila menggunakan teknik imputasi listwise. Selain itu, peneliti
dibandingkan dengan nilai rtabel, dimana jumlah data (N) adalah menemukan adanya 1 data outlier yang telah terdeteksi secara
98, maka nilai rtabel untuk tingkat signifikansi 0.05 adalah 0.98. univariat dan multivariat sehingga terpaksa harus membuang 1
Artinya, r < rtabel yakni tolak H0, maka data tidak berdistribusi data tersebut agar proses analisis tidak terhambat.
normal multivariat. Hal ini juga dijelaskan melalui visual dari Saran yang diperlukan dalam pembuatan laporan
QQ-Plot sebagai berikut. penelitian di lain waktu adalah agar mahasiswa mengetahui
maksud dari data secara jelas agar mengerti isi dan tujuan dari
data tersebut lebih lengkap lagi. Selanjutnya mahasiswa
diharuskan lebih mengerti dan paham mengenai bagaimana
langkah menangani kasus data missing value dan outlier serta
bagaimana melakukan pengujian normal univariat dan
multivariat.
DAFTAR PUSTAKA
[1] P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis.
Modeling wine preferences by data mining from
physicochemical properties. In Decision Support Systems,
Elsevier, 47(4):547-553, 2009.
[2] S. Ebeler, Flavor Chemistry — Thirty Years of Progress,
Kluwer Academic Publishers, 1999, pp. 409–422, chapter
Linking flavour chemistry to sensory analysis of wine.
[3] D. Smith, R. Margolskee, Making sense of taste, Scientific
American, Special issue 16 (3) (2006) 84-92.
[4] A. Legin, A. Rudnitskaya, L. Luvova, Y. Vlasov, C.
Natale, A. D'Amico, Evaluation of Italian wine by the
Gambar 7. QQ-Plot Uji Normal Multivariat dengan Software R electronic tongue: recognition, quantitative analysis and
Berdasarkan gambar 7, diketahui bahwa grafik tidak correlation with human sensory perception, Analytica
linear, maka visual dari QQ-Plot mendukung pernyataan Chimica Acta 484 (1) (2003) 33–34.
sebelumnya bahwa variabel pH, sulfat dan alkohol secara [5] Kusumawati, Ardina (2016). Pengujian Normal Univariat,
serentak tidak berdistribusi multivariat normal. Untuk lebih Multivariat & Homogenitas Antar Matriks Kovarians
menguatkan kebenaran pernyataan tersebut, peneliti Data Lembaga, Murid, dan Lulusan SD/MI dan SMP/MTs
menggunakan pengujian lain yakni Shapiro-Wilks dengan Negeri/Swasta Kabupaten/Kota di Provinsi Jawa Timur
bantuan software R dan didapatkan nilai W adalah 0.93015 dan Tahun 2005-2006. Tugas Akhir Jurusan Statistika FMIPA
nilai p-value adalah 6.022e-05. Artinya dengan menggunakan ITS. Surabaya : ITS.
pengujian Shapiro-Wilks keputusan yang didapatpun tetap [6] Kaiser, Jiri. (2014). Dealing with Missing Values in Data.
sama yakni tolak H0 karena nilai p-value<α dimana α=0.05. Journal of Systems Integration, Vol 5, No 1
Oleh sebab itu pengujian QQ-Plot dan Shapiro-Wilks [7] Horton, N.J. and Kleinman, K.P. (2007) Much Ado about
menghasilkan kesimpulan yang sama bahwa variabel pH, sulfat Nothing: A Comparison of Missing Data Methods and
dan alkohol secara serentak tidak berdistribusi multivariat Software to Fit Incomplete Data Regression Models. The
normal. American Statistician.
[8] Rubin, D.B. and Little, R.J. (2002) Statistical Analysis
V. KESIMPULAN DAN SARAN with Missing Data. John Wiley & Sons, Hoboken
Berdasarkan hasil pengujian asumsi distribusi normal [9] Paludi, Salman IDENTIFIKASI DAN PENGARUH
multivariat pada faktor yang mempengaruhi kualitas anggur, KEBERADAAN DATA OUTLIER (OUTLIER). Majalah
dapat disimpulkan bahwa pada deteksi distribusi normal Ilmiah Panorama Nusantara, edisi VI, Januari - Juni 2009
6
[10] Johnson, R. A. Dan Wichern, D. W., 2007, Applied pH (X1) sulphates (X2) alcohol (X3) quality (Y)
Multivariate Statistical Analysis, 6th edition. New Jersey: 3,27 0,52 9,8 4
3,25 0,52 9,8 5
Printice Hall 3,13 0,46 9,8 6
[11] Hidayat, Anwar. 2013. 3,36 0,48 9,8 5
https://www.statistikian.com/2013/01/rumus- 3,35 0,44 11,7 6
Kolmogorov-Smirnov.html 3,34 0,58 11 7
3,32 0,46 10,9 7
[12] Hidayat, Anwar. 2013. 3,31 0,35 10,9 6
https://www.statistikian.com/2013/01/rumus- 3,05 0,38 9,1 6
lilliefors.html 3,13 0,52 11 6
[13] Zelterman Daniel. 2015. Applied Multivariate Statistics 3,09 0,5 9,6 6
3,3 0,36 8,9 6
with R. USA: Springer. 3,11 0,38 10,2 6
[14] Shapiro SS, Wilk MB (1965). An analysis of variance test 3,36 0,34 9,9 6
for normality (complete samples). Biometrika 52 (3–4): 3,03 0,46 8,6 6
591–611. 3,3 0,36 8,9 6
3,02 0,34 10,5 5
[15] Augusty Ferdinand, Metode Penelitian Manajemen: 3,11 0,38 10,2 6
Pedoman Penelitian untuk Skripsi, Tesis dan Disertasi 3,15 0,46 10,3 6
Ilmu Manajemen, Semarang: Badan Penerbit Universitas 3,22 0,54 9,1 5
Diponegoro. 2006 3,22 0,49 12,6 7
3,14 0,42 9,8 5
3,33 0,64 10,7 8
3,13 0,35 9,5 5
LAMPIRAN 3,1 0,51 9 6
A. Data Pengamatan Asli 3,32 0,6 9,5 5
pH (X1) sulphates (X2) alcohol (X3) quality (Y) 3,69 0,71 10 5
3 0,45 8,8 6 2,95 0,49 9,1 6
3,3 0,49 9,5 6 3,33 0,64 10,7 8
3,26 0,44 10,1 6 3,13 0,35 9,5 5
3,19 0,4 9,9 6 3,26 0,37 12,7 7
3,19 0,4 9,9 6 3,31 0,65 12 7
3,26 0,44 10,1 6 2,94 0,56 9,3 5
3,18 0,47 9,6 6 3,27 0,37 9 5
0,45 6 3,39 0,77 10,6 6
3,3 0,49 9,5 6 3,21 0,6 9,2 6
3,22 0,45 11 6 3,17 0,42 10 5
2,99 0,56 12 5 3,33 0,46 9,5 6
3,14 0,53 9,7 5 3,11 0,45 8,7 5
3,18 0,63 10,8 5 3,12 0,46 8,7 6
3,54 0,52 12,4 7 3,09 0,44 8,7 6
2,98 0,67 9,7 5 3,22 0,48 9,7 6
3,25 0,55 11,4 7 3,11 0,45 8,7 5
3,24 0,36 9,6 6 3,12 0,46 8,7 6
3,33 0,39 12,8 8 3,09 0,44 8,7 6
0,53 11,3 6 3,12 0,47 9 5
3,22 0,5 9,5 5 3,26 0,4 12,6 7
3,33 0,39 12,8 8 3,25 0,41 12,6 7
3,17 0,35 11 7 3,21 0,44 11,5 7
3,47 10,5 8 3,04 0,42 9,2 6
3,05 0,51 5 3,14 0,5 8,8 6
3,42 0,47 10 6 2,95 0,36 11,4 7
3,25 0,5 10,4 6 2,89 0,3 10,1 4
3,45 0,44 10 6
3,38 0,53 10,5 6
3,19 0,49 11,6 6
3,1 0,71 12,3 7
3,2 10 6
3,47 0,4 10,2 6
3,19 0,44 10,8 6
3,42 0,51 9 6
0,37 10,2 5
3,19 0,42 12,8 5
3,24 0,35 10 5
3,13 0,28 6
3,21 0,36 8,6 5
3,21 0,36 8,6 5
3,11 0,36 9,4 6
3,1 9,4 6
3,13 0,46 9,8 6
3,22 0,56 9,5 6
3,24 0,56 9,5 6
3,16 0,53 10 7
7
B. Jarak Mahalanobis
Mahala Mahala Mahala
n n n
nobis nobis nobis
1 1,05 34 1,56 67 1,66
2 0,36 35 0,38 68 0,15
3 0,10 36 2,14 69 1,27
4 0,18 37 0,62 70 0,61
5 0,18 38 1,36 71 0,61
6 0,10 39 1,09 72 1,04
7 0,09 40 1,09 73 5,95
8 0,01 41 0,59 74 1,46
9 0,36 42 0,30 75 1,27
10 0,21 43 0,12 76 0,61
11 2,92 44 0,49 77 2,23
12 0,33 45 0,50 78 2,01
13 1,25 46 0,24 79 2,07
14 2,73 47 0,22 80 0,94
15 3,21 48 0,18 81 3,70
16 0,63 49 0,12 82 1,01
17 0,60 50 0,56 83 0,09
18 2,31 51 0,92 84 0,52
19 0,51 52 0,76 85 0,61
20 0,18 53 0,33 86 0,60
21 2,31 54 0,99 87 0,66
22 0,79 55 0,76 88 0,07
23 1,34 56 0,55 89 0,61
24 0,66 57 0,39 90 0,60
25 0,96 58 1,27 91 0,66
26 0,07 59 0,41 92 0,42
27 1,35 60 1,38 93 1,86
28 0,61 61 1,00 94 1,80
29 0,64 62 1,27 95 0,55
30 4,33 63 1,22 96 0,64
31 0,01 64 0,41 97 0,59
32 1,77 65 0,08 98 2,35
33 0,17 66 0,56 99 2,58

Pre Processing Data Dan Pengujian Asumsi

Diunggah oleh

Hak Cipta:

Format Tersedia

Anda mungkin juga menyukai

Pre Processing Data Dan Pengujian Asumsi

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pre Processing Data Dan Pengujian Asumsi

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Pre-processing Data dan Pengujian Asumsi

B egitu dilihat sebagai barang mewah, saat ini wine semakin

salah satunya adalah dengan metode listwise dan pairwise

B. Identifikasi Kasus Data Outlier

Tabel 5 Perhitungan Jarak Mahalanobis dengan SPSS 99.9

Dari Tabel 5 dapat dilihat bahwa kotak-kotak berwarna 0.1

tersebut [15]. Namun, dalam kasus ini peneliti memutuskan 0.1

Anda mungkin juga menyukai