LAPORAN PRAKTIKUM
STATISTIKA MULTIVARIAT TERAPAN
Modul 2: Distribusi Normal Multivariat
Tanggal Tandatangan
Nama Penilai Nilai
Koreksi Asisten Dosen
Dwi Septiandini Putri
Masthura Aya
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA
2021
i
Daftar Isi
ii
Daftar Tabel
Tabel 2.1. Data faktor-faktor yang mempengaruhi nilai ekspor di Indonesia ........ 4
Tabel 4.1. Hasil uji normalitas multivariat dengan 6 metode............................... 24
iii
Daftar Gambar
iv
Gambar 3.15. Hasil uji normalitas multivariat (data tanpa outlier): Multivariate
Shapiro-Wilk ................................................................................. 23
v
1 Pendahuluan
1
1.3 Uji Normalitas Multivariate
Uji normalitas multivariat bertujuan untuk mengetahui apakah distribusi
sebuah data mengikuti atau mendekati distribusi normal. Data yang baik adalah data
yang mempunyai pola seperti distribusi normal (tidak menceng ke kanan maupun
ke kiri).
Hipotesis:
𝐻0 ∶ Data berdistribusi normal multivariat
𝐻1 ∶ Data tidak berdistribusi normal multivariat
Adapun beberapa metode yang dapat dilakukan untuk melakukan uji
normalitas multivariat diantaranya adalah:
1. Metode Henze-Zirkler
Statistik uji yang digunakan dalam uji Henze-Zirkler adalah sebagai berikut:
𝛽 2 𝑝 𝛽2 𝑝
1 𝑛 1 − 𝐷
𝐻𝑍 = 2
∑𝑖=1 ∑𝑛𝑗=1 𝑒 − 2 𝐷𝑖𝑗 − 2(1 + 𝛽)−2 ∑𝑛𝑖=1 𝑒 2(1+𝛽2 ) 𝑖
+ (1 + 2𝛽 2 )−2 (1.1)
𝑛 𝑛
dimana:
1
1 𝑛(2𝑝+1) 𝑝+4
𝛽= ( 4 ) (1.2)
√2
𝑇
𝐷𝑖𝑗 = (𝑥𝑖 − 𝑥𝑗 ) 𝑆 −1 (𝑥𝑖 − 𝑥𝑗 ) (1.3)
𝐷𝑗 = (𝑥𝑖 − 𝑥̅ )𝑇 𝑆 −1 (𝑥𝑖 − 𝑥̅ ) (1.4)
𝑝 = jumlah variabel atau dimensi
𝑆 −1 = matriks varians kovarians
(Henze dan Zirkler, 1990)
2. Metode Mardia
Mardia’s Test merupakan uji normalitas multivariat yang didasarkan pada
ekstensi multivariat darskewness (𝑌̂1,𝑝 ) dan kurtosis (𝑌̂2,𝑝 ) sebagai berikut:
1
𝑌̂1,𝑝 = 𝑛2 ∑𝑛𝑖=1 ∑𝑛𝑗=1 𝐷𝑖𝑗2 (1.5)
1
𝑌̂2,𝑝 = 𝑛 ∑𝑛𝑖=1 ∑𝑛𝑗=1 𝐷𝑖𝑗2 (1.6)
dimana :
𝐷𝑖𝑗 = jarak mahalanobis = (𝑥𝑖 − 𝑥̅ )𝑇 𝑆 −1 (𝑥𝑖 − 𝑥̅ ) (1.7)
𝑆 −1 = matriks varians kovarians
2
𝑝 = jumlah variabel atau dimensi
Statistik uji untuk skewness:
𝑛 𝑝(𝑝+1)(𝑝+2)
(6) 𝑌̂1,𝑝 berdistribusi 𝜒 2 dengan derajat bebas 6
(Mardia, 1974)
3. Metode Royston
𝑝
𝑒 ∑𝑗=1 𝜓𝑗
𝐻= ~𝜒𝑒2 (1.8)
𝑝
4. Metode Doornik-Hansen
𝐷𝐻 = 𝑍12 + 𝑍22 ~𝜒2𝑝
2
(1.9)
𝑍1 = 𝛿log(𝑦 + √𝑦 2 − 1) (1.10)
1 3 𝜒
𝑍2 = √9𝛼 (9𝑎 − 1 + √2𝑎) (1.11)
5. Metode E-Statistics
Jika 𝑦1 , 𝑦2 , … , 𝑦𝑛 menunjukkan elemen sampel yang telah distandarisasi
perhitungan untuk statistik uji normalitas 𝑝 − 𝑣𝑎𝑟𝑖𝑎𝑡 diberikan oleh:
𝑝+1
2 Γ( ) 1
𝑛𝜀𝑛,𝑝 = 𝑛 (𝑛 ∑𝑛𝑗=1 𝐸|𝑦𝑗 − 𝑍|𝑝 − 2 2
𝑝 − 𝑛2 ∑𝑛𝑗,𝑘=1|𝑦𝑗 − 𝑦𝑘 |𝑝 ) (1.12)
Γ( )
2
dimana:
𝑤𝑍𝑖 = Shapiro Wilk statistik pada koordinat 𝑖 dari observasi yang telah
ditransformasi 𝑍𝑖1 , … , 𝑍𝑝𝑛
(Royston, 1982)
3
2 Deskripsi Kerja
4
Sulawesi Utara 120 89.3 4.3 13
Gorontalo 3.3 2.8
Sulawesi Tengah 1770.7 11.9 82.5 345.4
Sulawesi Selatan 244.6 78.9 36.4 32.5
Sulawesi Barat 134 0.1
Sulawesi Tenggara 350.8 65.8 7.5 382.8
Maluku 18.9 0.5 29.1
Maluku Utara 130.6 1.6 0.9 768.5
Papua 101 15.4 8.6 112.4
Papua Barat 451 6.6 21.2 4.7
1. Lakukan pengecekan data missing dan outlier pada data mengenai faktor
yang mempengaruhi nilai Ekspor di Indonesia, apakah terdapat data missing
dan outlier? Jika Ya, lakukan penanganan yang tepat terhadap data missing
dan outlier tersebut!
2. Lakukan uji hipotesis apakah data tersebut berdistribusi normal multivariat
dengan menggunakan metode pengujian yang telah dipelajari!
NB: Penanganan data outlier maksimal sebanyak dua kali dan syntax nama
data menggunakan nama masing-masing praktikan.
5
Gambar 2.2. Tampilan awal dari RStudio
3. Praktikan akan melakukan impor data terlebih dahulu menggunakan fungsi
read.csv dan disimpan dalam objek dat.ekspor seperti berikut ini.
2.2.1 Studi Kasus 1 : Deteksi dan Penanganan Data Missing dan Data Outlier
Untuk studi kasus yang pertama adalah melakukan pengecekan dan
penanganan pada data mengenai faktor yang mempengaruhi nilai Ekspor di
Indonesia. Berikut langkah-langkah dalam melakukan eksplorasi data yang
dilakukan oleh praktikan.
1. Pertama, praktikan akan mengecek data missing menggunakan ringkasan
atau statistika deskriptif data dengan fungsi summary()seperti berikut ini.
6
2. Ternyata terdapat data missing dalam data nilai ekspor, sehingga praktikan
akan melakukan penanganan data missing dengan fungsi na.omit() dan
menyimpan dalam objek dat.eksporbaru seperti berikut ini.
7
7. Praktikan akan mengecek ringkasan deskriptif data setelah dilakukan
penanganan terhadap data outlier dengan metode quan menggunakan
fungsi summary() seperti berikut ini.
Gambar 2.11. Deskriptif data setelah deteksi pertama data outlier: quan
8. Kemudian, praktikan akan mencoba menggunakan metode adj quan
yang disimpan dalam objek syafira.no.out.adj. Lalu, menampilkan
hasil data baru tanpa data outlier dengan $newData yang disimpan dalam
objek syafira.baru.adj seperti berikut ini.
Gambar 2.12. Deteksi dan penanganan pertama data outlier: adj quan
9. Praktikan akan mengecek ringkasan deskriptif data setelah dilakukan
penanganan terhadap data outlier dengan metode adj quan menggunakan
fungsi summary() seperti berikut ini.
Gambar 2.13. Deskriptif data setelah deteksi pertama data outlier: adj quan
10. Karena terdapat data outliernya cukup banyak, sehingga praktikan akan
melakukan deteksi data outlier yang kedua dengan menggunakan metode
adj quan yang disimpan dalam objek syafira.no.out2. Lalu,
praktikan menampilkan hasil data baru tanpa data outlier dengan
$newData yang disimpan dalam objek syafira.baru.ajd2 seperti
berikut ini.
Gambar 2.14. Deteksi dan penanganan kedua data outlier: adj quan
11. Praktikan akan mengecek ringkasan deskriptif data setelah dilakukan
penanganan terhadap data outlier dengan metode adj quan menggunakan
fungsi summary() seperti berikut ini.
8
Gambar 2.15. Deskriptif data setelah deteksi kedua data outlier: adj quan
9
Gambar 2.19. Uji normalitas multivariat (data tanpa outlier): Royston
5. Berikutnya, praktikan mencoba menggunakan metode keempat yaitu
Doornik-Hansen dengan fungsi mvnTest = “dh” seperti berikut ini.
10
sebelumnya data yang akan diubah kedalam bentuk matriks transpose
seperti berikut.
11
3 Pembahasan
3.1 Studi Kasus 1 : Deteksi dan Penanganan Data Missing dan Data Outlier
Gambar 3.1. Statistika deskriptif data: faktor yang mempengaruhi nilai ekspor
Dari hasil diatas dapat dilihat bahwa ternyata terdapat data missing pada
beberapa variabel yaitu variabel Prov Asal Barang dengan jumlah data missing
(NA) sebanyak 3 data, variabel Investasi PMDN sebanyak 1 data missing, dan pada
variabel Investasi PMA terdapat 1 data missing. Langkah berikutnya, praktikan
akan melakukan penanganan terhadap data missing tersebut yang telah dilakukan
sebelumnya dan diperoleh hasil sebagai berikut.
Berdasarkan pada hasil diatas terlihat bahwa dalam data nilai ekspor yang
disimpan dalam objek dat.eksporbaru sudah bebas dari data missing. Hal
tersebut terlihat pada setiap ukuran statistika masing-masing variabel sudah tidak
terdapat nilai NA. Dari statistika deskriptif tersebut didapat beberapa nilai untuk
12
variabel Prov Asal Barang dengan nilai minimum sebesar 1.1, nilai maksimum
4883.8, nilai Q1 sebesar 110.5, nilai Q3 sebesar 1601.5, nilai median 335.7 dan nilai
mean (rata-rata) sebesar 941.8.
Lalu, pada variabel Prov Lain mempunyai nilai minimum sebesar 1.60, nilai
maksimum 7126.20, nilai Q1 sebesar 16.15, nilai Q3 sebesar 110.30, nilai median
56.00 dan nilai mean (rata-rata) sebesar 394.64. Untuk variabel Investasi PMDN
diperoleh nilai minimum sebesar 0.9, nilai maksimum sebesar 1897.3, nilai Q1
sebesar 28.1, nilai Q3 sebesar 274.0, nilai median 86.7 dan nilai mean (rata-rata)
sebesat 259.7. Dan untuk variabel Investasi PMA mempunyai nilai minimum
sebesar 0.70, nilai maksimum 915.20, nilai Q1 sebesar 17.75, nilai Q3 sebesar
346.45, nilai median 112.40 dan nilai mean (rata-rata) sebesar 218.44.
Dari hasil grafik diatas terlihat bahwa dalam data nilai ekspor terdapat 13 data
outlier yang melewati garis merah dan data non outlier ada sebanyak 18 data non
13
outlier dengan titik warna hitam. Dengan menggunakan perhitungan jarak
Mahalanobis terlihat bahwa data yang menjadi data outlier adalah data ke-2, 4, 5,
11, 12, 13, 14, 16, 22, 23, 27, 30 dan 32. Data outlier tersebut mungkin terjadi
karena kesalahan dalam pemasukan data, kesalahan dalam sampel, atau memang
data tersebut memang data-data yang ekstrim yang tidak bisa dihindarkan
keberadaannya. Diperoleh hasil untuk data yang tidak mengandung outlier setelah
dilakukan penanganan menggunakan metode quan sebagai berikut.
Dari gambar diatas diperoleh data yang sudah tidak mengandung outlier.
Data yang non outlier tersebut adalah data ke-1, 10, 15, 17, 18, 19, 20, 21, 24, 25,
28, 3, 33, 34, 6, 7, 8 dan 9. Selain menggunakan metode quan, praktikan juga
mencoba menggunakan metode adj quan untuk mendeteksi data outlier dan
melakukan penanganan pada data tesebut. Sehingga diperoleh hasil sebagai berikut.
14
Gambar 3.5. Q-QPlot data : metode adj quan pertama
Dari hasil diatas dapat dilihat bahwa ternyata hasil deteksi data outlier
antara metode quan dan adj quan menghasilkan hasil yang sama yaitu ada
sebanyak 13 data outlier dan 18 data non outlier. Dari hasil tersebut, diperoleh nilai
ringkasan deskriptif dari data yang telah dilakukan penanganan data outlier baik
menggunakan metode quan maupun adj quan sebagai berikut.
Berdasarkan summary diatas dapat dilihat bahwa untuk variabel Prov Asal
Barang, Prov Lain, Investasi PMDN dan Investasi PMA mempunyai nilai mean
(rata-rata) secara berurutan sebesar, 227.92, 77.18, 90.27 dan 71.66. Selain nilai
mean, juga diperoleh informasi seperti nilai median, minimum, maksimum, Q1 dan
Q2. Karena data outlier cukup banyak sehingga nantinya dapat menganggu proses
analisis selanjutnya, maka praktikan melakukan penanganan data outlier
menggunakan metode adj quan dan diperoleh hasil sebagai berikut.
15
Gambar 3.7. Q-QPlot data : metode adj quan kedua
Dari gambar diatas dapat dilihat bahwa terdapat 7 data outlier setelah
dilakukan penanganan data outlier yang kedua kali. Data outlier tersebut adalah
data ke-1, 9, 7, 10, 17, 20 dan 33. Sedangkan data non-outlier ada sebanyak 11 data
yang ditampilkan sebagai berikut.
16
objek dat.ekspor. dalam melakukan uji normalitas ini, praktikan menggunakan
metode Henze-Zirkler dengan hasil yang didapatkan adalah sebagai berikut.
Gambar 3.9. Hasil uji normalitas multivariat (data outlier) : Henze Zirkler
Dari hasil diatas, praktikan akan melakukan uji hipotesis sebagai berikut:
i. Hipotesis:
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi:
𝛼 = 5% = 0.05
iii. Daerah Kritis:
Tolak H0 jika p-value < 𝛼
Gagal tolak H0 jika p-value < 𝛼
iv. Statistik Uji:
Dengan menggunakan metode Henze-Zirkler diperoleh nilai p-value = 0.000
v. Keputusan:
Tolak H0 karena p-value < 𝛼 atau 0.000 < 0.05
vi. Kesimpulan:
Dengan menggunakan tingkat kepercayaan sebesar 95% maka data yang
ada mendukung untuk tolak H0 yang artinya data tidak berdistribusi normal
multivariat.
17
Dari uji hipotesis tersebut ternyata data aslinya tidak berdistribusi normal
multivariat. Sehingga praktikan akan mencoba melakukan uji hipotesis kembali
menggunakan data yang telah dilakukan penanganan terhadap data missing dan data
outlier. Praktikan akan menggunakan data yang telah dilakukan penanganan deteksi
outlier sebanyak dua kali yaitu data yang tersimpan dalam objek
syafira.baru.adj2. Untuk uji normalitas multivariat yang pertama praktikan
menggunakan metode Henze-Zirkler dengan perolehan hasil sebagai berikut.
Gambar 3.10. Hasil uji normalitas multivariat (data tanpa outlier): Henze Zirkler
Berdasarkan hasil diatas, berikut adalah uji hipotesis menggunakan metode
Henze-Zirkler:
i. Hipotesis:
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi:
𝛼 = 5% = 0.05
iii. Daerah Kritis:
Tolak H0 jika p-value < 𝛼
Gagal tolak H0 jika p-value > 𝛼
iv. Statistik Uji:
Dengan menggunakan metode Henze-Zirkler diperoleh nilai p-value =
0.2040831
v. Keputusan:
Gagal tolak H0 karena p-value > 𝛼 atau 0.2040831 > 0.05
18
vi. Kesimpulan:
Dengan menggunakan tingkat kepercayaan sebesar 95% maka data yang
ada mendukung untuk gagal tolak H0 yang artinya data berdistribusi normal
multivariat.
Selanjutnya, untuk uji normalitas multivariat yang kedua yaitu menggunakan
metode Mardia diperoleh hasil sebagai berikut.
Gambar 3.11. Hasil uji normalitas multivariat (data tanpa outlier): Mardia
Berdasarkan hasil diatas, berikut adalah uji hipotesis menggunakan metode
Mardia:
i. Hipotesis:
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi:
𝛼 = 5% = 0.05
iii. Daerah Kritis:
Tolak H0 jika p-value < 𝛼
Gagal tolak H0 jika p-value > 𝛼
iv. Statistik Uji:
Dengan menggunakan metode Mardia :
Mardia Skewness diperoleh nilai p-value = 0.1431
Mardia Kurtosis diperoleh nilai p-value = 0.5579
v. Keputusan:
19
Mardia Skewness : Gagal tolak H0, p-value > 𝛼 atau 0.1431 > 0.05
Mardia Kurtosis : Gagal tolak H0, p-value > 𝛼 atau 0.5579 > 0.05
vi. Kesimpulan:
Dengan menggunakan tingkat kepercayaan sebesar 95% maka data yang
ada mendukung untuk gagal tolak H0 yang artinya data berdistribusi normal
multivariat.
Berikutnya, untuk uji normalitas multivariat yang ketiga yaitu menggunakan
metode Royston diperoleh hasil sebagai berikut.
Gambar 3.12. Hasil uji normalitas multivariat (data tanpa outlier): Royston
Berdasarkan hasil diatas, berikut adalah uji hipotesis menggunakan metode
Royston:
i. Hipotesis:
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi:
𝛼 = 5% = 0.05
iii. Daerah Kritis:
Tolak H0 jika p-value < 𝛼
Gagal tolak H0 jika p-value > 𝛼
iv. Statistik Uji:
Dengan menggunakan metode Royston diperoleh nilai p-value = 0.0217
v. Keputusan:
Tolak H0 karena p-value < 𝛼 atau 0.0217 < 0.05
20
vi. Kesimpulan:
Dengan menggunakan tingkat kepercayaan sebesar 95% maka data yang
ada mendukung untuk tolak H0 yang artinya data tidak berdistribusi normal
multivariat.
Selanjutnya, untuk uji normalitas multivariat yang keempat yaitu
menggunakan metode Doornik-Hansen diperoleh hasil sebagai berikut.
Gambar 3.13. Hasil uji normalitas multivariat (data tanpa outlier): Doornik-
Hansen
Berdasarkan hasil diatas, berikut adalah uji hipotesis menggunakan metode
Doornik-Hansen:
i. Hipotesis:
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi:
𝛼 = 5% = 0.05
iii. Daerah Kritis:
Tolak H0 jika p-value < 𝛼
Gagal tolak H0 jika p-value < 𝛼
iv. Statistik Uji:
Dengan menggunakan metode Doornik-Hansen diperoleh nilai p-value =
0.1692357
v. Keputusan:
Gagal tolak H0 karena p-value > 𝛼 atau 0.1692357 > 0.05
21
vi. Kesimpulan:
Dengan menggunakan tingkat kepercayaan sebesar 95% maka data yang
ada mendukung untuk gagal tolak H0 yang artinya data berdistribusi normal
multivariat.
Berikutnya, untuk uji normalitas multivariat yang kelima yaitu menggunakan
metode E-Statistics diperoleh hasil sebagai berikut.
Gambar 3.14. Hasil uji normalitas multivariat (data tanpa outlier): E-Statistics
Berdasarkan hasil diatas, berikut adalah uji hipotesis menggunakan metode
E-Statistics:
i. Hipotesis:
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
ii. Tingkat Signifikansi:
𝛼 = 5% = 0.05
iii. Daerah Kritis:
Tolak H0 jika p-value < 𝛼
Gagal tolak H0 jika p-value > 𝛼
iv. Statistik Uji:
Dengan menggunakan metode E-Statistics diperoleh nilai p-value = 0.178
v. Keputusan:
Gagal tolak H0 karena p-value > 𝛼 atau 0.178 > 0.05
vi. Kesimpulan:
22
Dengan menggunakan tingkat kepercayaan sebesar 95% maka data yang
ada mendukung untuk gagal tolak H0 yang artinya data berdistribusi normal
multivariat.
Dan untuk uji normalitas multivariat yang terakhir yaitu menggunakan
metode Multivariate Shapiro-Wilk diperoleh hasil sebagai berikut.
Gambar 3.15. Hasil uji normalitas multivariat (data tanpa outlier): Multivariate
Shapiro-Wilk
23
4 Penutup
4.1 Kesimpulan
Berdasarkan pembahasan yang telah dipaparkan oleh praktikan sebelumnya
maka dapat diambil beberapa kesimpulan sebagai berikut:
1. Dalam melakukan deteksi dan penanganan terhadap data missing, praktikan
menggunakan bantuan fungsi na.omit untuk menghapus data missing
yang ada dalam data faktor-faktor yang mempengaruhi nilai ekspor di
Indonesia. Sedangkan, untuk melakukan deteksi dan penanganan terhadap
data outlier, praktikan menggunakan metode quan dan adj quan, namun
ternyata hasil dari kedua metode sama yaitu data outlier ada 13 dan non-
outlier ada 18. Praktikan memutuskan untuk melakukan penanganan data
outlier kedua kalinya menggunakan metode adj quan diperoleh hasil data
outlier sebanyak 7 data dan data non-outlier ada 11 data.
2. Dari hasil uji hipotesis normalitas multivariat yang telah dilakukan
praktikan dengan menggunakan 6 metode diperoleh hasil sebagai berikut:
Tabel 4.1. Hasil uji normalitas multivariat dengan 6 metode
Metode p-value Keterangan Keputusan Kesimpulan
Data tidak
Henze-Zirkler 0.000 < 0.05 Tolak H0 berdistribusi
normal multivariat
Gagal tolak Data berdistribusi
Skewness 0.1431 > 0.05
H0 normal multivariat
Mardia
Gagal tolak Data berdistribusi
Kurtosis 0.5579 > 0.05
H0 normal multivariat
Data tidak
Royston 0.0217 < 0.05 Tolak H0 berdistribusi
normal multivariat
0.1692 Gagal tolak Data berdistribusi
Doornik-Hansen > 0.05
357 H0 normal multivariat
24
Gagal tolak Data berdistribusi
E-Statistics 0.178 > 0.05
H0 normal multivariat
Data tidak
Multivariate 0.0019
< 0.05 Tolak H0 berdistribusi
Shapiro-Wilk 11
normal multivariat
25
5 Daftar Pustaka
26