Afifah Marindra HK - Laprak 1

Kelas E
LAPORAN PRAKTIKUM
STATISTIKA MULTIVARIAT TERAPAN
Modul 1 dan 2 : Pemeriksaan Data dan Distribusi Normal
Multivariat
Tanda Tangan
Nama Praktikan Nomor Mahasiswa Tanggal Kumpul
Praktikan
Afifah Marindra Hana Kamila 19611147 11 April 2022
Tanda tangan
Nama Penilai Tanggal Koreksi Nilai
Asisten Dosen
Dwi Septiandini Putri
Nanda Lailatul Humairoh
Muhammad Muhajir, S.Si., M.Sc.
JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS ISLAM INDONESIA
YOGYAKARTA
2022
Daftar Isi
Daftar Tabel .................................................................................................. iii
Daftar Gambar ............................................................................................... iv
1 Pendahuluan ....................................................................................... 1
1.1 Missing Data ............................................................................... 1
1.2 Data Outlier ................................................................................. 1
1.3 Linearitas Data ............................................................................ 2
1.4 Uji Homoskedastisitas Data ........................................................ 2
1.5 Kuantil ......................................................................................... 2
1.6 Uji Normalitas Multivariate ........................................................ 3
2 Deskripsi Kerja................................................................................... 4
2.1 Studi Kasus.................................................................................. 4
2.2 Langkah Kerja ............................................................................. 6
3 Pembahasan ...................................................................................... 12
3.1 Input Data .................................................................................. 12
3.2 Pengecekan Data Missing.......................................................... 12
3.3 Uji Data Outlier ......................................................................... 12
3.3.1 Uji Data Outlier Variabel Kemiskinan ............................... 12
3.3.2 Objek Data Outlier Variabel Kemiskinan .......................... 13
3.3.3 Uji Data Outlier Variabel IPM ........................................... 14
3.3.4 Objek Data Outlier Variabel IPM ...................................... 14
3.3.5 Uji Data Outlier Variabel RLS ........................................... 15
3.3.6 Objek Data Outlier Variabel RLS ...................................... 15
3.3.7 Uji Data Outlier Variabel TPT ........................................... 15
3.3.8 Objek Data Outlier Variabel TPT ...................................... 16
3.4 Uji Linearitas ............................................................................. 16
3.4.1 IPM dan Kemiskinan .......................................................... 17
3.4.2 RLS dan Kemiskinan.......................................................... 17
3.4.3 TPT dan Kemiskinan .......................................................... 17
3.5 Uji Homoskedastisitas ............................................................... 18
3.5.1 Pengkategorian ................................................................... 18
3.5.2 Uji Homoskedastisitas Kemiskinan.................................... 19
3.5.3 Uji Homoskedastisitas IPM ................................................ 19
3.5.4 Uji Homoskedastisitas RLS................................................ 20
3.5.5 Uji Homoskedastisitas TPT ................................................ 20
3.6 Uji Menggunakan Metode Quan ............................................... 21
3.7 Ringkasan Data Metode Quan .................................................. 22
3.9 Uji Menggunakan Metode Adj .................................................. 22
3.10 Ringkasan Data Metode Adj ...................................................... 23
3.11 Uji Normalitas Multivariat ........................................................ 24
4 Penutup............................................................................................. 28
4.1 Kesimpulan................................................................................ 28
5 Daftar Pustaka .................................................................................. 29
ii
Daftar Tabel
Tabel 2.1 Faktor yang Memengaruhi Kemiskinan di Indonesia Tahun 2021 .
........................................................................................................................ 4
Tabel 3.1 Ringkasan Hasil Uji Normalitas Multivariat ............................... 27
Tabel 3.2 Kesimpulan Hasil Uji Normalitas Multivariat ............................ 27
iii
Daftar Gambar
Gambar 2.1 Input Data ................................................................................. 6
Gambar 2.2 Melihat Data ............................................................................. 6
Gambar 2.3 Mengubah Data ......................................................................... 6
Gambar 2.4 Uji Data Outlier ........................................................................ 6
Gambar 2.5 Uji Linearitas Variabel IPM dan Kemiskinan .......................... 7
Gambar 2.6 Uji Linearitas Variabel RLS dan Kemiskinan .......................... 7
Gambar 2.7 Uji Linearitas Variabel TPT dan Kemiskinan .......................... 8
Gambar 2.8 Mengkategorikan TPT .............................................................. 8
Gambar 2.9 Input Data Baru......................................................................... 8
Gambar 2.10 Uji Homoskedastisitas ............................................................ 9
Gambar 2.11 Ukuran Kesalahan Model 1 .................................................... 9
Gambar 2.12 Uji Menggunakan Metode Quan ............................................ 9
Gambar 2.13 Menampilkan Hasil Tanpa Outlier ......................................... 9
Gambar 2.14 Mengecek Ringkasan Data ..................................................... 9
Gambar 2.15 Uji Menggunakan Metode Adj................................................ 9
Gambar 2.16 Menampilkan Hasil Data Baru ............................................. 10
Gambar 2.17 Mengecek Ringkasan Data ................................................... 10
Gambar 2.18 Uji Menggunakan Metode Henze-Zirkler Data Outlier........ 10
Gambar 2.19 Uji Menggunakan Metode Henze-Zirkler Data Tanpa Outlier
...................................................................................................................... 10
Gambar 2.20 Uji Menggunakan Metode Mardia ....................................... 10
Gambar 2.21 Uji Menggunakan Metode Royston ...................................... 11
Gambar 2.22 Uji Menggunakan Metode Dornik-Hansen .......................... 11
Gambar 2.23 Uji Menggunakan Metode metode E-statistic ...................... 11
Gambar 2.24 Install Package Multivariate Shapiro Wilk .......................... 11
Gambar 2.25 Uji metode Multivariate Shapiro Wilk ................................. 11
Gambar 3.1 Data Faktor yang Memengaruhi Kemiskinan ......................... 12
Gambar 3.2 Output Data Missing ............................................................... 12
Gambar 3.3 Boxplot Variabel Kemiskinan ................................................. 13
Gambar 3.4 Data Outlier Variabel Kemiskinan ......................................... 13
Gambar 3.5 Boxplot Variabel IPM ............................................................. 14
Gambar 3.7 Boxplot Variabel RLS ............................................................. 15
Gambar 3.8 Boxplot Variabel TPT ............................................................. 16
Gambar 3.10 Scatterplot IPM dan Kemiskinan.......................................... 17
iv
Gambar 3.11 Scatterplot IPM dan Kemiskinan.......................................... 17
Gambar 3.12 Scatterplot TPT dan Kemiskinan.......................................... 18
Gambar 3.13 Pengkategorian Data ............................................................. 18
Gambar 3.14 Homoskedastisitas Kemiskinan ............................................ 19
Gambar 3.15 Homoskedastisitas IPM ........................................................ 19
Gambar 3.16 Homoskedastisitas RLS ........................................................ 20
Gambar 3.17 Homoskedastisitas TPT ........................................................ 21
Gambar 3.18 Plot Metode Quan ................................................................ 21
Gambar 3.19 Ringkasan Data Metode Quan .............................................. 22
Gambar 3.20 Plot Metode Adj .................................................................... 23
Gambar 3.21 Ringkasan Data Metode Adj ................................................. 23
Gambar 3.22 Output Metode Henze-Zirkler............................................... 24
Gambar 3.23 Output Metode Henze-Zirkler Tanpa Outlier ....................... 24
Gambar 3.24 Output Metode Mardia ......................................................... 25
Gambar 3.25 Output Metode Royston ........................................................ 25
Gambar 3.26 Output Metode Doornik-Hansen .......................................... 25
Gambar 3.27 Output Metode E-Statistic .................................................... 26
Gambar 3.28 Output Metode Shapiro Wilk ................................................ 26
v
1 Pendahuluan
1.1 Missing Data
Data hilang atau missing data atau missing value dapat diartikan sebagai data atau
informasi yang “hilang” atau tidak tersedia mengenai subjek penelitian pada variabel
tertentu. Hal tersebut dapat disebabkan oleh beberapa faktor, diantaranya terjadi akibat
kealpaan dalam pengumpulan data, ketidakmampuan responden dalam memberikan
jawaban akurat, responden tidak berkenan memberikan jawaban yang akurat. Data missing
yang cukup banyak dalam suatu data, akan menimbulkan masalah yang mengganggu dalam
penelitian sehingga perlu dilakukan penanganan (Rubin, 1976). Metode dalam menangani
data missing secara umum dapat dilakukan dengan cara berikut ini :
1. Mengabaikan dan membuang data missing.
Cara ini dilakukan jika jumlah instance yang mempunyai missing value proporsinya
tidak terlalu banyak, sehingga jumlah yang sedikit tersebut tidak memberikan
pengaruh yang signifikan terhadap pola dalam data set.
2. Men-subtitusi missing value berdasarkan distribusi nilai (centrality tendency).
Dengan melihat distribusi nilai suatu atribut maka dapat memperkirakan missing
value berdasarkan nilai yang frekuensinya dominan. Dalam statistika mengenal yang
namanya mean, median, dan modus. Mean, median, dan modus ini dapat
menggambarkan distribusi dan frekuensi nilai suatu atribut dalam data set.
3. Men-subtitusi missing value berdasarkan korelasi antar atribut.
Alteranatif lain dengan bias yang lebih rendah ialah dengan korelasi antar atribut
sehingga jika salah satu atribut memiliki missing value, maka dapat mengisinya
berbasarkan korelasi tersebut. Korelasi ini dapat dilihat menggunakan variabel yang
tersedia (column base), misalnya mengisi missing value menggunakan linear
correlation atau linear model.
4. Men-subtitusi missing value berdasarkan kemiripan antar instance.
Cara ini merupakan row based, artinya korelasi yang dilihat ialah berdasarkan
kemiripan antar instance atau case. Kemiripan tersebut dapat dikalkulasi
menggunakan metric. Misalnya menggunakan Euclidean distance yang dapat
dipakai lebih lanjut untuk melihat kemiripan sejumlah K instance berdasarkan K
Nearest Neighbors (KNN) (Muhajir, 2022).
1.2 Data Outlier
1
Data outlier adalah data yang secara nyata berbeda dengan data-data yang lain. Data
outlier biasanya terjadi karena kesalahan dalam pemasukan data, kesalahan dalam
pengambilan sampel, atau memang ada data-data ekstrim yang tidak dapat dihindarkan
keberadaannya (Widhiarso, 2011). Pengujian data outlier dapat dilakukan dengan beberapa
cara, diantaranya adalah dengan menggunakan perbandingan jarak mahalanobis dengan
kuantil chi-square. Terdapat 2 metode yaitu metode “quan” (metode kuantil berdasarkan
jarak mahalanobis) dan “adj” (metode kuantil berdasarkan jarak mahalanobis yang
disesuaikan) (Everitt & Hothorn, 2006).
1.3 Linearitas Data
Linieritas adalah keadaan dimana hubungan antara variabel independen dan variabel
dependen bersifat linier (garis lurus) dalam range variabel independen tertentu. Uji linieritas
adalah suatu prosedur yang digunakan untuk mengetahui status linier atau tidaknya suatu
distribusi data penelitian. Uji linieritas dapat dilakukan dengan menggunakan scatterplot
dengan cara menambahkan garis regresi dalam scatterplot tersebut. Scatterplot merupakan
salah satu sarana mengekplorasi hubungan antara dua variabel, serta dari grafiknya dapat
menggambarkan sebaran variansi data pengamatan. Scatterplot dapat menilai hubungan
antara kedua variabel yang diplotkan, ketika plot data mengikuti garis regresinya secara garis
lurus, maka data yang digunakan bersifat linier (Everitt & Hothorn, 2006).
1.4 Uji Homoskedastisitas Data
Uji homoskedastisitas digunakan dalam menguji error atau galat dalam model
statistik untuk melihat apakah varians atau keragaman dari error terpengaruh oleh faktor lain
atau tidak, misalnya untuk analisis data runtun waktu, apakah keragaman error-nya
terpangaruh oleh waktu atau tidak, atau jika datanya cross section maka apakah varians dari
error berubah-ubah setiap amatan atau tidak. Apabila tidak sama, maka terjadilah
heterosedasitas. Heterosedasitas dapat menyababkan gangguan pada temuan dan
meningkatkan terjadinya kesalahan tipe I (osborne & Waters, 2002).
Uji homoskedastisitas pada prinsipnya ingin menguji apakah sebuah grup (dua
kategori) mempunyai variansi yang sama diantara anggota grup tersebut. Jika variansi sama,
dan ini yang seharusnya terjadi, maka dikatakan ada homoskedastisitas. Pengujian
homoskedastisitas bisa dikerjakan dengan analisis bartlett test, atau dengan analisis residual
yang berupa grafik (Muhajir, 2022).
1.5 Kuantil
2
Kuantil adalah nilai-nilai yang membagi sederet data yang telah diurutkan menjadi bagian-
bagian yang sama. Kuantil yang membagi data terurut menjadi dua bagian disebut median,
menjadi empat bagian disebut kuartil (Q1, Q2, Q3), menjadi sepuluh bagian disebut desil
(D1, D2, ... D9), dan menjadi seratus bagian disebut persentil (P1, P2, ... P99) (Harinaldi,
2005).
1.6 Uji Normalitas Multivariate
Uji normalitas multivariat bertujuan untuk mengetahui apakah distribusi sebuah data
mengikuti atau mendekati distribusi normal. Data yang baik adalah data yang mempunyai
pola seperti distribusi normal (tidak menceng ke kanan maupun ke kiri) (Muhajir, 2022).
Pada dasarnya, distribusi utama dan permasalahan yang muncul dalam analisis
multivariat adalah distribusi normal multivariat. Normal multivariat adalah perluasan dari
univariat normal. Asumsi yang harus dipenuhi pada uji multivariat antara lain data pada
variabel bebas seharusnya berdistribusi normal multivariat dan adanya kesamaan matriks
varians kovarians antar kelompok atau populasi. Oleh karena itu perlu adanya uji normalitas
multivariat yang bertujuan untuk mengetahui apakah data mengikuti distribusi normal
multivariat (Rusli, Gaffar, Jasruddin, & Ahmad, 2014).
3
2 Deskripsi Kerja
2.1 Studi Kasus
1. Berikut disajikan data faktor-faktor yang memengaruhi kemiskinan di Indonesia
tahun 2021 yang bersumber dari situs resmi BPS Indonesia yaitu
https://www.bps.go.id/. Data terdiri dari 4 variabel yaitu:
1. Kemiskinan = Jumlah penduduk miskin tiap provinsi di Indonesia
dalam ribuan
2. IPM = Indeks Pembangunan Manusia tiap provinsi di Indonesia
3. RLS = Rata-rata Lama Sekolah penduduk usia >= 15 tahun tiap
provinsi di Indonesia
4. TPT = Tingkat Pengangguran Terbuka tiap provinsi di Indonesia dalam
persen.
Tabel 2.1 Faktor yang Memengaruhi Kemiskinan di
Indonesia Tahun 2021
PROVINSI KEMISKINAN (ribu jiwa) IPM RLS TPT
ACEH 850.26 72.18 9.77 6.30
SUMATERA UTARA 1273.07 72.00 9.88 6.33
SUMATERA BARAT 339.93 72.65 9.46 6.52
RIAU 496.66 72.94 9.52 4.42
JAMBI 279.86 71.63 9.03 5.09
SUMATERA SELATAN 1116.61 70.24 8.78 4.98
BENGKULU 291.79 71.64 9.26 3.65
LAMPUNG 1007.02 69.90 8.56 4.69
KEP. BANGKA
BELITUNG 69.70 71.69 8.54 5.03
KEP. RIAU 137.75 75.79 10.38 9.91
DKI JAKARTA 498.29 81.11 11.20 8.50
JAWA BARAT 4004.86 72.45 9.03 9.82
JAWA TENGAH 3934.01 72.16 8.26 5.95
DI YOGYAKARTA 474.49 80.22 10.04 4.56
JAWA TIMUR 4259.60 72.14 8.37 5.74
BANTEN 852.28 72.72 9.29 8.98
4
PROVINSI KEMISKINAN (ribu jiwa) IPM RLS TPT
BALI 211.46 75.69 9.45 5.37
NUSA TENGGARA
BARAT 735.30 68.65 8.13 3.01
NUSA TENGGARA
TIMUR 1146.28 65.28 8.20 3.77
KALIMANTAN BARAT 354.00 67.90 8.00 5.82
KALIMANTAN TENGAH 141.03 71.25 9.03 4.53
KALIMANTAN
SELATAN 197.76 71.28 8.74 4.95
KALIMANTAN TIMUR 233.13 76.88 10.09 6.83
KALIMANTAN UTARA 49.49 71.19 9.40 4.58
SULAWESI UTARA 186.55 73.30 9.83 7.06
SULAWESI TENGAH 381.21 69.79 9.18 3.75
SULAWESI SELATAN 765.46 72.24 8.95 5.72
SULAWESI TENGGARA 323.26 71.66 9.52 3.92
GORONTALO 184.60 69.00 8.32 3.01
SULAWESI BARAT 165.99 66.36 8.39 3.13
MALUKU 294.97 69.71 10.25 6.93
MALUKU UTARA 81.18 68.76 9.51 4.71
PAPUA BARAT 221.29 65.26 10.03 5.84
PAPUA 944.49 60.62 7.05 3.33
Berdasarkan data tersebut, maka :
1. Lakukan pengecekan data missing pada tiap variabel. Jika terdapat data
missing, lakukan penanganan yang tepat!
2. Lakukan uji data outlier dan uji linearitas pada seluruh variabel! (poin plus,
jika dapat menyebutkan objek data outlier tersebut)
3. Lakukan uji homoskedastisitas antar kelompok kemiskinan berdasarkan
kategori TPT, jika variabel TPT dikelompokkan menjadi 2, yaitu:
Kelompok Tinggi : Provinsi dengan TPT ≥ 5 %
Kelompok Rendah : Provinsi dengan TPT < 5 %
4. Lakukan uji distribusi normal multivariat secara lengkap dengan
menggunakan semua metode yang telah dipelajari dan bandingkan hasilnya!
5
2.2 Langkah Kerja
1. Praktikan meng-input data faktor-faktor yang memengaruhi kemiskinan di Indonesia
tahun 2021 pada Excel ke RStudio dengan menggunakan perintah seperti pada
Gambar 2.1 berikut.
Gambar 2.1 Input Data

2. Untuk melihat tampilan data secara keseluruhan, praktikan menggunakan perintah
seperti pada Gambar 2.2 berikut.
Gambar 2.2 Melihat Data

3. Praktikan melakukan pengecekan data missing menggunakan perintah summary
Gambar 2.3 Mengubah Data

4. Uji data outlier dapat dilakukan dengan 3 cara yaitu histogram, boxplot, dan
scatterplot. Untuk studi kasus ini, praktikan akan melakukan uji outlier dan melihat
objek data outlier pada seluruh variabel (kemiskinan, IPM, RLS, dan TPT)
menggunakan boxplot dengan perintah seperti pada Gambar 2.4 berikut.
Gambar 2.4 Uji Data Outlier
6
5. Praktikan melakukan uji linearitas untuk variabel IPM dan kemiskinan menggunakan
perintah plot dengan memasukan varibel IPM dan kemiskinan dimana terdapat
perintah main yang berfungsi untuk memberi judul pada plot, perintah xlab yang
berfungsi untuk memberikan nama pada sumbu x, perintah ylab yang berfungsi
untuk memberikan nama pada sumbu y, perintah pch yang berfungsi untuk
menentukan tipe titik yang akan digunakan, dan perintah col yang berfungsi untuk
menentukan warna yang ingin digunakan.
Gambar 2.5 Uji Linearitas Variabel IPM dan Kemiskinan

6. Praktikan melakukan uji linearitas untuk variabel RLS dan kemiskinan menggunakan
perintah plot dengan memasukan varibel RLS dan kemiskinan dimana terdapat
Gambar 2.6 Uji Linearitas Variabel RLS dan Kemiskinan

7. Praktikan melakukan uji linearitas untuk variabel TPT dan kemiskinan menggunakan
perintah plot dengan memasukan varibel TPT dan kemiskinan dimana terdapat
7
Gambar 2.7 Uji Linearitas Variabel TPT dan Kemiskinan
8. Sebelum praktikan melakukan uji homoskedastisitas antar kelompok kemiskinan
berdasarkan kategori TPT dengan asumsi jika Provinsi dengan TPT ≥ 5 % masuk
kategori kelompok tinggi dan selebihnya masuk kategori kelompok rendah, praktikan
mengkategorikan TPT ke dalam kategori yang telah ditentukan dan diberi nama
variabel baru yaitu “KELOMPOK” pada excel menggunakan perintah
IF(logical_test,[value_of_true],[value_of_false]) seperti pada Gambar
2.8 berikut.
Gambar 2.8 Mengkategorikan TPT

9. Praktikan meng-input kembali data beserta variabel baru yang telah dibuat
menggunakan perintah seperti pada Gambar 2.9 berikut.
Gambar 2.9 Input Data Baru

10. Praktikan melakukan uji homoskedastisitas antar kelompok kemiskinan berdasarkan
kategori TPT menggunakan perintah seperti pada Gambar 2,10 berikut.
8
Gambar 2.10 Uji Homoskedastisitas
11. Praktikan meng-install package MVN menggunakan perintah seperti pada Gambar
2.11 dimana pada perintah mvn dalam package MVN tersebut default metode yang
digunakan adalah metode Henze-Zirkler.
Gambar 2.11 Ukuran Kesalahan Model 1

12. Praktikan melakukan uji dengan metode quan untuk mendeteksi data outlier metode
kuantil berdasarkan jarak mahalanobis pada kolom 2-5 dimana kolom tersebut berisi
data numerik menggunakan perintah seperti pada Gambar 2.12.
Gambar 2.12 Uji Menggunakan Metode Quan

13. Untuk menampilkan hasil data baru tanpa outlier dengan metode quan, praktikan
Gambar 2.13 Menampilkan Hasil Tanpa Outlier

14. Untuk mengecek ringkasan data tanpa outlier dengan metode quan, praktikan
menggunakan perintah summary seperti pada Gambar 2.14 berikut.
Gambar 2.14 Mengecek Ringkasan Data

15. Praktikan melakukan uji dengan metode adj untuk mendeteksi data outlier dengan
metode kuantil berdasarkan jarak mahalanobis yang disesuaikan menggunakan
perintah seperti pada Gambar 2.15 berikut.
Gambar 2.15 Uji Menggunakan Metode Adj
9
16. Untuk menampilkan hasil data baru tanpa outlier dengan metode adj, praktikan
Gambar 2.16 Menampilkan Hasil Data Baru

17. Untuk mengecek ringkasan data tanpa outlier dengan metode adj, praktikan
menggunakan perintah summary seperti pada Gambar 2.17 berikut.
Gambar 2.17 Mengecek Ringkasan Data

18. Praktikan melakukan uji normalitas multivariat dengan metode Henze-Zirkler untuk
mengecek outlier dan normalitas multivariat pada data outlier menggunakan perintah
Gambar 2.18 Uji Menggunakan Metode Henze-Zirkler Data Outlier

19. Praktikan melakukan uji normalitas multivariat dengan metode Henze-Zirkler untuk
mengecek outlier dan normalitas multivariat pada data tanpa outlier menggunakan
perintah seperti pada Gambar 2.19 berikut.
Gambar 2.19 Uji Menggunakan Metode Henze-Zirkler Data Tanpa Outlier

20. Praktikan melakukan uji normalitas multivariat dengan metode Mardia untuk
mengecek outlier dan normalitas multivariat menggunakan perintah seperti pada
Gambar 2.20 berikut.
Gambar 2.20 Uji Menggunakan Metode Mardia

21. Praktikan melakukan uji normalitas multivariat dengan metode Royston untuk
10
Gambar 2.21 Uji Menggunakan Metode Royston
22. Praktikan melakukan uji normalitas multivariat dengan metode Doornik-Haensen
untuk mengecek outlier dan normalitas multivariat menggunakan perintah seperti
pada Gambar 2.22 berikut.
Gambar 2.22 Uji Menggunakan Metode Dornik-Hansen

23. Praktikan melakukan uji normalitas multivariat dengan metode E-statistic untuk
Gambar 2.23 Uji Menggunakan Metode metode E-statistic

24. Sebelum melakukan uji dengan metode multivariate shapiro wilk, praktikan meng-
install package mvnormtest terlebih dahulu menggunakan perintah seperti pada
Gambar 2.24 Install Package Multivariate Shapiro Wilk

25. Praktikan melakukan uji normalitas multivariat dengan metode multivariate shapiro
wilk untuk mengecek outlier dan normalitas multivariat menggunakan data baru
tanpa outlier menggunakan perintah seperti pada Gambar 2.25 berikut.
Gambar 2.25 Uji metode Multivariate Shapiro Wilk
11
3 Pembahasan
3.1 Input Data
Gambar 3.1 Data Faktor yang Memengaruhi Kemiskinan

Dari Gambar 3.1 tersebut diketahui bahwa data faktor-faktor yang memengaruhi
kemiskinan di Indonesia tahun 2021 memuat 5 variabel yaitu variabel “Provinsi”, variabel
“Kemiskinan”, variabel “IPM”, variabel “RLS”, dan variabel “TPT” dengan jumlah
keseluruhan data sebanyak 170 data.
3.2 Pengecekan Data Missing
Gambar 3.2 Output Data Missing

Berdasarkan ringkasan data pada Gambar 3.2 tersebut diketahui bahwa tidak
terdapat missing value (NA’s) pada variabel provinsi, variabel kemiskinan, variabel IPM,
variabel RLS, dan variabel TPT.
3.3 Uji Data Outlier
3.3.1 Uji Data Outlier Variabel Kemiskinan
12
Gambar 3.3 Boxplot Variabel Kemiskinan
Dari Gambar 3.3 tersebut diketahui bahwa:
• Outlier atau pencilan artinya suatu angka yang memiliki nilai yang sangat berbeda
jauh dengan nilai dari angka lainya pada data. Pada Gambar 3.3 tersebut terdapat
tiga objek data kemiskinan yang outlier. Outlier ditunjukkan oleh tiga lingkaran kecil
seperti yang terlihat pada Gambar 3.3.
• Quartil tertinggi atau Q1 artinya angka yang terbesar ke 75 jika data diurutkan. Jadi
25 persen angka dalam data bernilai lebih tinggi dari angka quartil ini. Pada Gambar
3.3 tersebut Q1 berada pada objek 0 sampai dengan 1000.
• Median adalah nilai tengah. Pada Gambar 3.3 tersebut median berada pada objek 0
sampai dengan 1000.
• Quartil terendah atau Q3 artinya angka yang terbesar ke 25 jika data diurutkan. Jadi
25 persen angka dalam data bernilai lebih rendah dari angka quartil ini. Pada
Gambar 3.3 tersebut Q3 berada pada objek 0 sampai dengan 1000.
3.3.2 Objek Data Outlier Variabel Kemiskinan
Gambar 3.4 Data Outlier Variabel Kemiskinan

Pada Gambar 3.3 diketahui terdapat tiga objek data kemiskinan yang outlier. Tiga
objek data kemiskinan yang outlier tersebut memiliki nilai 4004.86, 3934.01, dan 4259.60
dimana ketiga objek data kemiskinan tersebut berada pada Provinsi Jawa Barat, Provinsi
Jawa Tengah, dan Provinsi Jawa Timur.
13
3.3.3 Uji Data Outlier Variabel IPM
Gambar 3.5 Boxplot Variabel IPM

lima objek data IPM yang outlier. Outlier ditunjukkan oleh lima lingkaran kecil
seperti yang terlihat pada Gambar 3.5.
sampai dengan 75.
3.3.4 Objek Data Outlier Variabel IPM
Gambar 3.6 Data Outlier Variabel IPM

Pada Gambar 3.5 diketahui terdapat lima objek data IPM yang outlier. Lima objek
data IPM yang outlier tersebut memiliki nilai 81.11, 80.22, 65.28, 65.26, dan 60.62 dimana
kelima objek data IPM tersebut berada pada Provinsi DKI Jakarta, Provinsi DI Yogyakarta,
Provinsi Nusa Tenggara Timur, Provinsi Papua Barat, dan Provinsi Papua.
14
3.3.5 Uji Data Outlier Variabel RLS
Gambar 3.7 Boxplot Variabel RLS

jauh dengan nilai dari angka lainya pada data. Pada Gambar 3.7 tersebut diketahui
bahwa objek data IPM tidak memliki outlier.
sampai dengan 10.
3.3.6 Objek Data Outlier Variabel RLS
Gambar 3.8 Data Outlier Variabel RLS

Pada Gambar 3.7 diketahui bahwa objek data pada variabel RLS tidak memiliki
outlier.
3.3.7 Uji Data Outlier Variabel TPT
15
Gambar 3.8 Boxplot Variabel TPT
dua objek data TPT yang outlier. Outlier ditunjukkan oleh dua lingkaran kecil seperti
yang terlihat pada Gambar 3.8.
sampai dengan 6.
3.3.8 Objek Data Outlier Variabel TPT
Gambar 3.9 Data Outlier Variabel TPT

Pada Gambar 3.9 diketahui terdapat dua objek data TPT yang outlier. Kedua objek
data TPT yang outlier tersebut memiliki nilai 9.91 dan 9.82 dimana kedua objek data TPT
tersebut berada pada Provinsi Kepulauan Riau dan Provinsi Jawa Barat.
3.4 Uji Linearitas
16
3.4.1 IPM dan Kemiskinan
Gambar 3.10 Scatterplot IPM dan Kemiskinan

Dari Gambar 3.10 tersebut diketahui bahwa IPM dan kemiskinan tidak memiliki
hubungan (tidak berkorelasi).
3.4.2 RLS dan Kemiskinan
Gambar 3.11 Scatterplot IPM dan Kemiskinan

Dari Gambar 3.11 tersebut diketahui bahwa RLS dan kemiskinan menunjukkan
hubungan yang negatif. Peningkatan yang terjadi pada RLS akan diikuti penurunan oleh
kemiskinan. Dan jika RLS mengalami penurunan, maka kemiskinan akan mengalami
peningkatan.
3.4.3 TPT dan Kemiskinan
17
Gambar 3.12 Scatterplot TPT dan Kemiskinan
Dari Gambar 3.12 tersebut diketahui bahwa TPT dan kemiskinan menunjukkan
hubungan yang positif. Peningkatan yang terjadi pada TPT juga akan diikuti peningkatan
pada kemiskinan. Dan jika TPT mengalami penurunan, kemiskinan juga akan mengalami
penurunan.
3.5 Uji Homoskedastisitas
3.5.1 Pengkategorian
Gambar 3.13 Pengkategorian Data

Dari Gambar 3.13 tersebut diketahui bahwa data Provinsi dengan TPT ≥ 5% akan
masuk dalam kategori kelompok tinggi, sedangkan Provinsi dengan TPT < 5 % akan masuk
dalam kategori kelompok rendah.
18
3.5.2 Uji Homoskedastisitas Kemiskinan
Gambar 3.14 Homoskedastisitas Kemiskinan

Dari Gambar 3.14 tersebut diketahui :
a. Hipotesis
H0 : Terjadi Homoskedastisitas (adanya kesamaan variansi antara kedua
kelompok).
H1 : Terjadi Heteroskedastisitas (adanya perbedaan variansi antara kedua
kelompok).
b. Tingkat Signifikansi
α = 5% = 0.05.
c. Daerah Kritis
Tolak H0 jika p-value < α
d. Statistik Uji
p-value = 5.872e-06 < α
e. Kesimpulan
Dengan menggunakan tingkat kepercayaan 95% data yang ada menolak
H0 , sehingga dapat disimpulkan bahwa adanya perbedaan variansi antara kedua
kelompok data kemiskinan dan data kelompok (heteroskedastisitas).
3.5.3 Uji Homoskedastisitas IPM
Gambar 3.15 Homoskedastisitas IPM

a. Hipotesis
kelompok).
kelompok).
19
α = 5% = 0.05.
c. Daerah Kritis
d. Statistik Uji
p-value = 0.4764 > α
e. Kesimpulan
Dengan menggunakan tingkat kepercayaan 95% data yang ada gagal
menolak H0 , sehingga dapat disimpulkan bahwa adanya kesamaan variansi
antara kedua kelompok data IPM dan data kelompok (homoskedastisitas).
3.5.4 Uji Homoskedastisitas RLS
Gambar 3.16 Homoskedastisitas RLS

a. Hipotesis
kelompok).
kelompok).
α = 5% = 0.05.
c. Daerah Kritis
d. Statistik Uji
p-value = 0.6196 > α
e. Kesimpulan
Dengan menggunakan tingkat kepercayaan 95% data yang ada gagal
menolak H0 , sehingga dapat disimpulkan bahwa adanya kesamaan variansi
antara kedua kelompok data RLS dan data kelompok (homoskedastisitas).
3.5.5 Uji Homoskedastisitas TPT
20
Gambar 3.17 Homoskedastisitas TPT
a. Hipotesis
kelompok).
kelompok).
α = 5% = 0.05.
c. Daerah Kritis
d. Statistik Uji
p-value = 0.003541 < α
e. Kesimpulan
Dengan menggunakan tingkat kepercayaan 95% data yang ada menolak H0 ,
sehingga dapat disimpulkan bahwa adanya perbedaan variansi antara kedua
kelompok data TPT dan data kelompok (heteroskedastisitas).
3.6 Uji Menggunakan Metode Quan
Gambar 3.18 Plot Metode Quan
21
Dari Gambar 3.18 tersebut diketahui bahwa berdasarkan metode kuantil
berdasarkan jarak mahalanobis terdapat 9 data outlier (melewati garis merah dengan nilai
quantile sebesar 11,143) yang diberi plot berupa warna merah, yaitu pada data ke 11, 12, 14,
15, 18, 19, 31, 34, dan 38 Terdapat 25 data bukan outlier yang di-plot dengan warna hitam
(tidak melewati garis merah). Data baru tanpa outlier di inisialisasi dengan nama afifahbaru.
3.7 Ringkasan Data Metode Quan
Gambar 3.19 Ringkasan Data Metode Quan

• Variabel kemiskinan memiliki nilai minimum sebesar 49.49, Q1 sebesar 185.09,
median sebesar 307.52, mean sebesar 462.81, Q3 sebesar 757.92, dan nilai
maksimum sebesar 1273.07.
• Variabel IPM memiliki nilai minimum sebesar 68.65, Q1 sebesar 70.48, median
sebesar 71.64, mean sebesar 71.45, Q3 sebesar 72.14, dan nilai maksimum sebesar
75.79.
• Variabel RLS memiliki nilai minimum sebesar 8.130, Q1 sebesar 8.750, median
10.380.
• Variabel TPT memiliki nilai minimum sebesar 3.010, Q1 sebesar 4.072, median
9.910.
3.9 Uji Menggunakan Metode Adj
22
Gambar 3.20 Plot Metode Adj
Dari Gambar 3.20 diketahui bahwa menurut metode kuantil berdasarkan jarak
mahalanobis yang disesuaikan terlihat bahwa terdapat 8 data outlier (melewati garis biru
dengan nilai quantile sebesar 11.446) yang diberi plot berupa warna merah, yaitu pada data
ke 11, 12, 13, 14, 15, 31, 34, dan 38. Terdapat 26 data bukan outlier yang di-plot dengan
warna hitam (tidak melewati garis biru). Data baru tanpa outlier di inisialisasi dengan nama
afifahbaru.
3.10 Ringkasan Data Metode Adj
Gambar 3.21 Ringkasan Data Metode Adj

• Variabel kemiskinan memiliki nilai minimum sebesar 49.49, Q1 sebesar 185.09,
median sebesar 307.52, mean sebesar 456.60, Q3 sebesar 757.92, dan nilai
maksimum sebesar 1273.07.
• Variabel IPM memiliki nilai minimum sebesar 65.28, Q1 sebesar 69.82, median
76.88.
23
• Variabel RLS memiliki nilai minimum sebesar 8.000, Q1 sebesar 8.605, median
10.380.
• Variabel TPT memiliki nilai minimum sebesar 3.010, Q1 sebesar 4.045, median
9.910.
3.11 Uji Normalitas Multivariat
Uji normalitas multivariat dapat dilakukan dengan 6 metode yaitu dengan metode
Henze-Zirkler, metode Mardia, metode Royston, metode Doornik-Haensen, metode E-
Statistic, dan metode Multivariate Shapiro Wilk. Dari keenam metode tersebut di dapatkan
output seperti berikut.
Gambar 3.22 Output Metode Henze-Zirkler
Gambar 3.23 Output Metode Henze-Zirkler Tanpa Outlier
24
Gambar 3.24 Output Metode Mardia
Gambar 3.25 Output Metode Royston
Gambar 3.26 Output Metode Doornik-Hansen
25
Gambar 3.27 Output Metode E-Statistic
Gambar 3.28 Output Metode Shapiro Wilk

Berdasarkan hasil uji normalitas multivariat menggunakan metode Henze-Zirkler
pada Gambar 3.23, Mardia pada Gambar 3.24, Royston pada Gambar 3.25, Doornik-
Haensen pada Gambar 3.26, E-Statistic pada Gambar 3.27, dan Multivariate Shapiro Wilk
pada Gambar 3.28 tanpa data missing dan outlier, di dapatkan ringkasan hasilnya sebagai
berikut :
i. Hipotesis
H0 : Data berdistribusi normal multivariat.
H1 : Data tidak berdistribusi normal multivariat.
ii. ii. Tingkat signifikansi α = 5%
iii. iii. Daerah kritis
iv. Jika p-value < α maka tolak H0 . Jika p-value > α maka gagal tolak H0 .
v. Statistik uji
• Henze-Zirkler.
• Mardia
• Royston
• Doornik-Haensen
• E-Statistic
• Multivariate Shapiro Wilk
26
vi. Keputusan
Tabel 3.1 Ringkasan Hasil Uji Normalitas Multivariat
Metode P-value Keterangan Keputusan
Henze-Zirkler 0.1698569 p-value > α Gagal Tolak H0
Skewness 0.50980774737014 p-value > α Gagal Tolak H0
Mardia
Kurtosis 0.723532874418584 p-value > α Gagal Tolak H0
Royston 0.007102572 p-value < α Tolak H0
Doornik-Haensen 9.620138e-24 p-value < α Tolak H0
E-Statistic 0.149 p-value > α Gagal Tolak H0
Multivariate
0.1005 p-value > α Gagal Tolak H0
Shapiro Wilk
vii. Kesimpulan
Tabel 3.2 Kesimpulan Hasil Uji Normalitas Multivariat
Metode Keputusan
Henze-Zirkler Data berdistribusi normal multivariat.
Mardia Data berdistribusi normal multivariat.
Royston Data tidak berdistribusi normal multivariat
Doornik-Haensen Data tidak berdistribusi normal multivariat
E-Statistic Data berdistribusi normal multivariat.
Multivariate Shapiro Wilk Data berdistribusi normal multivariat.
27
4 Penutup
4.1 Kesimpulan
1. Data outlier adalah data yang secara nyata berbeda dengan data-data yang lain. Data
outlier biasanya terjadi karena kesalahan dalam pemasukan data, kesalahan dalam
pengambilan sampel, atau memang ada data-data ekstrim yang tidak dapat
dihindarkan keberadaannya.
2. Linieritas adalah keadaan dimana hubungan antara variabel independen dan variabel
dependen bersifat linier (garis lurus) dalam range variabel independen tertentu.
3. Uji homoskedastisitas digunakan dalam menguji error atau galat dalam model
statistik untuk melihat apakah varians atau keragaman dari error terpengaruh oleh
faktor lain atau tidak.
4. Uji normalitas multivariat bertujuan untuk mengetahui apakah distribusi sebuah data
mengikuti atau mendekati distribusi normal. Data yang baik adalah data yang
mempunyai pola seperti distribusi normal (tidak menceng ke kanan maupun ke kiri).
5. Berdasarkan ringkasan data pada Gambar 3.2 tersebut diketahui bahwa tidak
terdapat missing value (NA’s) pada variabel provinsi, variabel kemiskinan, variabel
IPM, variabel RLS, dan variabel TPT.
6. Berdasarkan output pada Gambar 3.3 hingga Gambar 3.8, diketahui bahwa variabel
kemiskinan, IPM, dan TPT memiliki outlier, sedangkan untuk variabel RLS tidak
memiliki outlier.
7. Pada uji linearitas diketahui bahwa hubungan IPM dan kemiskinan tidak memiliki
hubungan (tidak berkorelasi), hubungan RLS dan kemiskinan menunjukkan
hubungan yang negatif, sedangkan hubungan TPT dan kemiskinan menunjukkan
hubungan yang positif.
28
5 Daftar Pustaka
Everitt, B., & Hothorn, T. (2006). A Handbook of Statistical Analyses Using R.
Chapman and Hall.
Harinaldi. (2005). Prinsip-Prinsip Statistik Untuk Teknik dan Sains. Jakarta:
Erlangga.
Muhajir, M. (2022). Modul Praktikum Statistika Multivariat Terapan. Yogyakarta:
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam
Indonesia.
osborne, J., & Waters, E. (2002). Four Assumptions of Multiple Regression That
Researchers Should Always Test. Practical Assessment, Research, and
Evaluation, 8, 1-15.
Rubin, D. ( 1976). Inference and missing data. Biometrika 63(3), 581–592.
Rusli, Gaffar, S. B., Jasruddin, & Ahmad, M. A. (2014). Pengujian Normal
Multivariat dan Homoskedastisitas Matriks Varians-Kovarians pada Prestasi
Balajar dan Kredit Lulus Mahasiswa UNM Angkatan 2014. Jurnal Disertasi.
Widhiarso, W. (2011). Uji Hipotesis Komparatif. Yogyakarta: FP UGM.
29

Afifah Marindra HK - Laprak 1

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Afifah Marindra HK - Laprak 1

Diunggah oleh

Hak Cipta:

Format Tersedia

Kelas E

Afifah Marindra Hana Kamila 19611147 11 April 2022

Muhammad Muhajir, S.Si., M.Sc.

Gambar 2.1 Input Data

Gambar 2.2 Melihat Data

Gambar 2.3 Mengubah Data

Gambar 2.4 Uji Data Outlier

Gambar 2.5 Uji Linearitas Variabel IPM dan Kemiskinan

Gambar 2.6 Uji Linearitas Variabel RLS dan Kemiskinan

Gambar 2.8 Mengkategorikan TPT

Gambar 2.9 Input Data Baru

Gambar 2.11 Ukuran Kesalahan Model 1

Gambar 2.12 Uji Menggunakan Metode Quan

Gambar 2.13 Menampilkan Hasil Tanpa Outlier

Gambar 2.14 Mengecek Ringkasan Data

Gambar 2.15 Uji Menggunakan Metode Adj

Gambar 2.16 Menampilkan Hasil Data Baru

Gambar 2.17 Mengecek Ringkasan Data

Gambar 2.18 Uji Menggunakan Metode Henze-Zirkler Data Outlier

Gambar 2.19 Uji Menggunakan Metode Henze-Zirkler Data Tanpa Outlier

Gambar 2.20 Uji Menggunakan Metode Mardia

Gambar 2.22 Uji Menggunakan Metode Dornik-Hansen

Gambar 2.23 Uji Menggunakan Metode metode E-statistic

Gambar 2.24 Install Package Multivariate Shapiro Wilk

Gambar 2.25 Uji metode Multivariate Shapiro Wilk

Gambar 3.1 Data Faktor yang Memengaruhi Kemiskinan

Gambar 3.2 Output Data Missing

Gambar 3.4 Data Outlier Variabel Kemiskinan

Gambar 3.5 Boxplot Variabel IPM

Gambar 3.6 Data Outlier Variabel IPM

Gambar 3.7 Boxplot Variabel RLS

Gambar 3.8 Data Outlier Variabel RLS

Gambar 3.9 Data Outlier Variabel TPT

Gambar 3.10 Scatterplot IPM dan Kemiskinan

Gambar 3.11 Scatterplot IPM dan Kemiskinan

Gambar 3.13 Pengkategorian Data

Gambar 3.14 Homoskedastisitas Kemiskinan

Gambar 3.15 Homoskedastisitas IPM

Gambar 3.16 Homoskedastisitas RLS

Gambar 3.18 Plot Metode Quan

Gambar 3.19 Ringkasan Data Metode Quan

Gambar 3.21 Ringkasan Data Metode Adj

Gambar 3.22 Output Metode Henze-Zirkler

Gambar 3.23 Output Metode Henze-Zirkler Tanpa Outlier

Gambar 3.25 Output Metode Royston

Gambar 3.26 Output Metode Doornik-Hansen

Gambar 3.28 Output Metode Shapiro Wilk

Anda mungkin juga menyukai