Anda di halaman 1dari 15

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/341398068

Pre-processing Data dan Analisis MANOVA One-Way terhadap Data Kecelakaan


Kapal Titanic

Article · March 2019

CITATIONS READS

0 359

2 authors:

Rizkiana Prima Rahmadina Asva Abadila


Institut Teknologi Sepuluh Nopember Institut Teknologi Sepuluh Nopember
15 PUBLICATIONS   0 CITATIONS    1 PUBLICATION   0 CITATIONS   

SEE PROFILE SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Analisis Data Kategrorik View project

Analisis Eksplorasi Data View project

All content following this page was uploaded by Rizkiana Prima Rahmadina on 01 July 2020.

The user has requested enhancement of the downloaded file.


1

Pre-processing Data dan Analisis MANOVA One-


Way terhadap Data Kecelakaan Kapal Titanic
Rizkiana Prima Rahmadina, Asva Abadila, Fonda Leviany dan Santi Puteri Rahayu
Departemen Statistika, FMKSD Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia
e-mail :santi.pr@statistika.its.ac.id
Abstrak—Titanic adalah salah satu kapal terkenal dalam Biaya tiket kelas satu di dermaga adalah $ 150, kelas
sejarah dunia yang karam pada 15 April 1912 pada pelayaran dua $ 60, dan kelas tiga adalah $ 30 – $ 40 dimana harga-
perdananya. Tenggelamnya kapal tersebut di Samudera harga tersebut 15 kali lipat pada masa sekarang [2].
Atlantik menewaskan 1.502 dari 2.224 penumpang serta awak Penelitian ini bertujuan untuk melakukan pre-
kapal. Titanic mempunyai tiga kelas penumpang, yaitu kabin
processing, menguji asumsi data, dan mengetahui apakah
kelas satu, dua, dan tiga dimana kabin kelas satu terletak di
geladak utama sementara kabin kelas tiga terletak di bawah ada perbedaan signifikan antara umur penumpang, banyak
geladak. Praktikum ini bertujuan untuk melakukan pre- anggota keluarga yang dibawa, serta harga tiket yang dibeli
processing, menguji asumsi data, dan mengetahui apakah ada terhadap jenis kelamin dan kelas kabin penumpang. Metode
perbedaan signifikan antara umur penumpang, banyak yang digunakan pada penelitian ini adalah MANOVA One-
anggota keluarga yang dibawa, serta harga tiket yang dibeli Way. Sebelum melakukan pengujian tersebut ada beberapa
terhadap jenis kelamin dan kelas kabin penumpang. Variabel asumsi yang harus dipenuhi terlebih dahulu, yaitu data
Age memiliki missing value dan diimputasi menggunakan berdistribusi normal multivariat, antar variabel saling
listwise mean. Variabel Family, Fare, dan Age memiliki outlier, dependen namun antar populasi saling independen, dan
tidak berdistribusi normal multivariat, bersifat dependen dan
kehomogenan data. Batasan masalah pada analisis ini adalah
homogen. Variabel respon Sex memiliki pengaruh signifikan
terhadapat perbedaan umur, banyaknya anggota keluarga dilakukan pada 891 penumpang kapal RMS Titanic pada
yang dibawa, dan harga tiket yang dibeli. Sedangkan, variabel masing-masing populasi dengan 3 variabel yang diamati.
respon Pclass hanya berpengaruh terhadap perbedaan umur
dan harga tiket yang dibeli.
II. TINJAUAN PUSTAKA
Kata Kunci—Homogenitas, MANOVA One-Way, Multivariat, A. Statisika Deskriptif
Normal Multivariat, Pre-Processing, Titanic.
Statistika deskriptif adalah metode – metode yang
berkaitan dengan pengumpulan dan penyajian data sehingga
I. PENDAHULUAN memberikan informasi yang berguna.
Mean adalah salah satu ukuran untuk memberikan
T ENGGELAMNYA RMS Titanic adalah salah satu kapal
karam paling terkenal dalam sejarah. Pada 15 April gambaran yang lebih jelas dan singkat tentang sekumpulan
data. Mean juga merupakan wakil dari sekumpulan data atau
1912, selama pelayaran perdananya, Titanic tenggelam
setelah bertabrakan dengan gunung es, menewaskan 1.502 dianggap suatu nilai yang paling dekat dengan hasil
dari 2.224 penumpang dan awak. Tragedi sensasional ini pengukuran yang sebenarnya.
mengejutkan masyarakat internasional dan menyebabkan Rumus yang digunakan untuk menghitung mean adalah:
peraturan keselamatan yang lebih baik untuk kapal. 1 n
Salah satu alasan mengapa kapal karam itu x= åx
n i=1 i
(1)
menyebabkan banyak hilangnya nyawa adalah karena tidak
ada cukup sekoci untuk penumpang dan awak. Meskipun Keterangan :
ada beberapa unsur keberuntungan dalam selamat dari 𝑥𝑖 = data pengamatan ke-i
kecelakaan itu, beberapa kelompok orang lebih mungkin n = banyak data
selamat daripada yang lain, seperti wanita, anak-anak, dan Standar deviasi merupakan akar kuadrat dari varians.
penumpang kelas atas [1]. Rumus yang digunakan untuk menghitung standar deviasi
Titanic mempunyai tiga bagian kelas penumpang yang adalah:
dipisahkan. Kelas ketiga juga dikenal sebagai geladak, n
terdiri dari kabin kecil di dek bawah, diisi oleh kebanyakan
pendatang dari Inggris yang mengharapkan penghidupan
å(x - x)i
2

lebih baik di Amerika. Kabin dan ruang kelas kedua, terletak S= i=1
(2)
di bagian belakang, memiliki fasilitas yang sama dengan n -1
kelas satu di kapal lain. Kebanyakan penumpang kelas kedua Keterangan :
pada mulanya menempati kelas satu di kapal yang lain S = standar deviasi
tetapi, karena tidak tersedianya batu bara, maka dipindahkan 𝑥𝑖 = nilai tengah
ke Titanic. Kelas utama merupakan bagian kapal yang paling 𝑥̅ = rata – rata
mewah. n = banyaknya data
2

Minimum dan maksimum adalah nilai terendah dan Terdapat beberapa teknik atau metode pemeriksaan
tertinggi dari suatu data [3]. asumsi distribusi normal multivariat, diantaranya yaitu
B. Missing Value metode plot chi-square atau menghitung proporsi 𝒅𝟐𝒋 yang
kurang dari atau lebih dari chi-square tabel berderajat bebas
Missing data atau Missing value adalah informasi yang banyaknya variabel (𝝌𝟐 𝒏−𝒋+𝟎.𝟓 ). Sedangkan nilai 𝒅𝟐𝒋 dapat
tidak tersedia untuk sebuah subjek (kasus). Dalam 𝒑,( )
𝒏
terminologi SPSS, missing data adalah adanya sel-sel dihitung menggunakan rumus berikut.
kosong pada satu atau beberapa variabel. Missing data 𝒅𝟐𝒋 = (𝒙𝒋 − 𝒙 ̅)′ 𝑺−𝟏 (𝒙𝒋 − 𝒙
̅) j = 1,2,3,…,n
terjadi karena informasi untuk sesuatu tentang objek tidak Jika nilai proporsinya sekitar 50% maka dapat dikatakan
diberikan, sulit dicari atau memang informasi tersebut tidak bahwa data tersebut berdistribusi multivariate normal.
ada. Tahapan dari pembuatan scater plot ini adalah sebagai
Tabel 1. Ukuran Persentase Missing Value dan Keputusan berikut [5].
1) Tentukan nilai vektor rata-rata: 𝑋̅
Missing value Keputusan 2) Tentukan nilai matriks varians-kovarians: 𝑆
Kurang dari 10% Missing value pada variabel dapat 3) Tentukan nilai jarak mahalanobis atau kuadrat general
setiap titik pengamatan dengan vektor rata-ratanya 𝑑𝑖2 =
diabaikan (𝑋𝑖 − 𝑋̅)𝑡 𝑆 −1 (𝑋𝑖 − 𝑋̅) , 𝑖 = 1, 2, … , 𝑛.
Minimal 15% Kandidat variabel dihapus jika : 4) Urutkan nilai 𝑑𝑖2 dari kecil ke besar: 𝑑(1) 2 2
≤ 𝑑(2) 2
≤ 𝑑(3) ≤
2
a. Terdapat variabel yang ⋯ ≤ 𝑑(𝑛) .
𝑖−1⁄2
5) Tentukan nilai 𝑝𝑖 = , 𝑖 = 1, 2, … , 𝑛.
berkorelasi dengan variabel 𝑛
𝑞
𝑖
6) Tentukan nilai 𝑞𝑖 sedemikian hingga ∫−∞ 𝑓(𝜒2 )𝑑 𝜒2 =
yang akan dihapus
𝑝𝑖 atau 𝑞𝑖,𝑝 (𝑝𝑖 ) = 𝜒𝑝2 ((𝑛 − 𝑖 + 1⁄2)⁄𝑛).
b. Dengan dihapusnya variabel 2
7) Buat scatter-plot 𝑑(𝑖) dengan 𝑞𝑖
menurunkan persentase 8) Jika scatter-plot ini cenderung membentuk garis lurus
missing value secara dan lebih dari 50% nilai 𝑑𝑖2 ≤ 𝜒𝑝2 (0,50), maka
H0diterima artinya data berdistribusi normal multivariat.
signifikan
Lebih dari 30% Variabel dihapus atau tidak disertakan Keterangan :
x j : data pengamatan ke-j variabel x
pada analisis selanjutnya
x : rata-rata variabel x
Lebih dari 50% Case (pengamatan ke-i) dihapus q j : data pengamatan ke-j variabel q
q : rata-rata variabel q
C. Outlier
Outlier adalah data yang menyimpang terlalu jauh dari E. Uji Bartlett
data yang lainnya dalam suatu rangkaian data. Adanya data Uji Bartlett digunakan untuk mengetahui hubungan
outlier ini akan membuat analisis terhadap serangkaian data antar variabel pada kasus multivariat. Rumusan hipotesis
menjadi bias, atau tidak mencerminkan fenomena yang yang digunakan dalam uji Bartlett adalah sebagai berikut.
sebenarnya. Istilah outlier juga sering dikaitkan dengan nilai Hipotesis
esktrem, baik ekstrem besar maupun ekstrem kecil. H0 : ρ=1 (Data independen)
Pendeteksian outlier di dalam data multivariat dapat H1 : ρ≠1 (Data dependen)
dilakukan dengan metode jarak Mahalanobis metode Statistik uji yang digunakan dalam uji Bartlett adalah
Minimum Volume Ellipsoid (MVE), dan metode Fast sebagai berikut.
Minimum Covariance Determinant (Fast MCD). Analisis 2  2 p  5
  n 1 ln |  |
data yang memuat outlier dapat dilakukan dengan cara X
 6 
(4)
melakukan koreksi terhadap outlier, membuang outlier, atau
menyertakan outlier di dalam analisis [4]. Keterangan:
n: Banyak data pengamatan
D. Uji Normalitas Multivariat p: Banyak variabel yang digunakan
Uji distribusi normal multivariat digunakan untuk ρ: Matriks korelasi
mengetahui apakah distribusi sebuah data mengikuti dan Daerah kritis yang digunakan dalam uji Bartlett ini
mendekati distribusi normal multivariat, karena data yang adalah H0 ditolak jika  2   2 atau p-value < α.
1
baik adalah data yang mempunyai pola seperti distribusi  ,  ( p 1)
2
normal. Metode statistika multivariat MANOVA mensyarat- Dengan demikian, kesimpulan yang dapat diambil
kan terpenuhinya asumsi distribusi normalitas dengan adalah terdapat hubungan (korelasi) yang signifikan antar
hipotesis adalah variabel pada populasi.
H0 : Data berdistribusi normal multivariat
H1 : Data tidak berdistribusi normal multivariat
3

F. Uji Homogenitas H1 : minimal ada satu pasang  i ≠  j ; i ≠j


Uji homoskedastisitas atau homogenitas dimaksudkan Tabel 2. Statistik Uji Manova One-way
untuk memperlihatkan bahwa dua atau lebih kelompok data Sumber Derajat
sampel berasal dari populasi yang memiliki variasi yang Matriks Jumlah Kuadrat
Variasi Bebas (db)
sama. Salah satu metode untuk menganalisis homogenitas 𝑔

matriks kovarian variabel adalah dengan metode Box’s M. Perlakuan 𝐵 = ∑ 𝑛𝑙 (𝑥̅𝑙 − 𝑥̅ )(𝑥̅𝑙 − 𝑥̅ )𝑇 g-1
Hipotesis untuk pengujian homogenitas matriks kovarian ini 𝑙=1
𝑔 𝑛𝑙 𝑔
adalah sebagai berikut:
𝐻0: Σ1 = ⋯ Σ𝑔 Error 𝑊 = ∑ ∑ 𝑛𝑙 (𝑥̅𝑙𝑗 − 𝑥̅𝑙 )(𝑥̅𝑙𝑗 − 𝑥̅𝑙 )𝑇 ∑ 𝑛𝑙 − 𝑔
𝑙=1 𝑗=1 𝑙=1
𝐻1 : 𝑀𝑖𝑛𝑖𝑚𝑎𝑙 𝑎𝑑𝑎 𝑠𝑎𝑡𝑢 Σ𝑖 ≠ Σ𝑗 𝑢𝑛𝑡𝑢𝑘 𝑖 ≠ 𝑗, 𝑖, 𝑗 = 1,2 … , 𝑔 𝑔 𝑛𝑙
𝑔
Statistik Uji : Total 𝐵 + 𝑊 = ∑ ∑ 𝑛𝑙 (𝑥̅𝑙𝑗 − 𝑥̅ )(𝑥̅𝑙𝑗
∑ 𝑛𝑙 − 1
Terkoreksi 𝑙=1 𝑗=1
𝑘 𝑘 𝑇 𝑙=1
1 1 − 𝑥̅ )
𝜒2 = −2(1 − 𝐶1) [ ∑ 𝑣𝑖 𝑙𝑛|𝑆𝑖 | − 𝑙𝑛 |𝑆𝑝𝑜𝑜𝑙 | ∑ 𝑣𝑖 ] Daerah Penolakan :
2 2
𝑖=1 𝑖=1
Tolak H0, jika
dimana |𝑊|
Λ∗ = |𝐵+𝑊| (7)
∑𝑘𝑖=1 𝑣𝑖 𝑆𝑖
𝑆𝑝𝑜𝑜𝑙 = sangat kecil yang selanjutnya ekuivalen dengan bentuk F
∑𝑘𝑖=1 𝑣𝑖
test. Distribusi  * (Wilks Lambda) dapat didekati dengan
1 1 2𝑝2 +3𝑝−1
𝐶1 = [∑𝑘𝑖=1 𝑣 − ∑𝑘 ][
6(𝑝+1)(𝑘−1)
] distribusi F dengan memenuhi kriteria sebagai berikut
𝑖 𝑖=1 𝑣𝑖 |𝑊|
(5) Tabel 3. Distribusi dari Wilks’ lambda Λ∗ =
|𝐵+𝑊|
Gagal Tolak H0 jika : Jumlah Jumlah
Distribusi sampling
𝜒2 ≤ 𝜒12(𝑘−1)(𝑝+1) Variabel Grup
2
∑ 𝑛𝑙 − 𝑔 1 − Λ∗∗
p=1 g ≥2 ( )( ) ~𝐹(𝑔−1),∑ 𝑛𝑙−𝑔
Dengan demikian, dapat diambil kesimpulan bahwa data 𝑔−1 Λ∗
memiliki matriks varians-kovarians yang homogen. ∑ 𝑛𝑙 − 𝑔 − 1 1 − √Λ∗
( )( ) ~𝐹2(𝑔−1),2(∑ 𝑛𝑙−𝑔−1)
G. MANOVA One-way p=2 g ≥2 𝑔−1 √Λ∗
MANOVA (Multivariate Analysis of Variance) ∑ 𝑛𝑙 − 𝑝 − 1 1 − Λ∗
digunakan untuk memeriksa apakah vektor rata-rata dari p ≥1 g=2 ( )( ) ~𝐹𝑝,∑ 𝑛𝑙−𝑝−1
𝑝 Λ∗
populasi sama, jika tidak maka dianalisis komponen rata-rata
∑ 𝑛𝑙 − 𝑝 − 2 1 − √Λ∗
yang tberbeda secara signifikan. Biasanya lebih dari dua p ≥1 g=3 ( )( ) ~𝐹2𝑝,2(∑ 𝑛𝑙−𝑝−2)
𝑝 √Λ∗
populasi dibutuhkan untuk sampel acak dikumpulkan dari g
populasi [6].
𝑃𝑜𝑝𝑢𝑙𝑎𝑠𝑖 1 ∶ 𝑥11 , 𝑥12 , 𝑥13 , … , 𝑥1𝑛1 H. Simultaneous CI
𝑃𝑜𝑝𝑢𝑙𝑎𝑠𝑖 2 ∶ 𝑥21 , 𝑥22 , 𝑥23 , … , 𝑥2𝑛2 Simultaneous Confidence Interval (SCI) didasarkan pada
……. …..... tingkat kepercayaan individu dan jumlah interval
𝑃𝑜𝑝𝑢𝑙𝑎𝑠𝑖 𝑔 ∶ 𝑥𝑔1 , 𝑥𝑔2 , 𝑥𝑔3 , … , 𝑥𝑔𝑛𝑔 kepercayaan. Untuk perbandingan tunggal, tingkat
Asumsi struktur data untuk MANOVA adalah : kepercayaan simultan sama dengan tingkat kepercayaan
1. xt1, xt2,..., xtnt adalah sampel acak dengan ukuran n i dari individu. Namun, setiap confidence interval tambahan
sebuah populasi dengan mean μt dimana t=1,2,...,g. menyebabkan tingkat kepercayaan simultan menurun secara
kumulatif.
Sampel acak berasal dari populasi berbeda yang saling
independen. III. METODOLOGI PENELITIAN
2. Homogenitas matriks varians kovarians ∑.
A. Sumber Data
3. Data berasal dari populasi berdistribusi multivariat Sumber data pada penelitian ini adalah data sekunder
normal. yang diambil dari website Kaggle dengan judul Titanic:
MANOVA menggunakan satu atau lebih variabel Machine Learning from Disaster pada tanggal 4 Oktober
independen ketegorik sebagai prediktor dan menggunakan 2018.
lebih dari satu variabel dependen. Uji MANOVA menguji B. Variabel Penelitian
perbedaan vaktor mean beberapa variabel dependen. Variabel penelitian yang digunakan dalam pembuatan
Persamaan model MANOVA untuk mean vektor g populasi laporan ini adalah sebagai berikut.
adalah : Tabel 4.Variabel Penelitian
xij  x  ( xi  x )  ( xij  xi ) , j = 1,2,...,n dan t = 1,2,...,g (6) Simbol Variabel Keterangan
Pclass (Tiga Kelas kabin penumpang (Kelas
(Observasi = mean + effect treatment + error) 𝑋1
populasi) 1, 2, 3)
Hipotesis : Sex (Dua Jenis kelamin (1=laki-laki,
H0 : 1   2  ...   g 𝑋2
Populasi) 2=perempuan)
4

Family Jumlah anggota keluarga per rata-rata banyaknya anggota keluarga yang dibawa
𝑌1 penumpang yang berada di kapal berdasarkan kelas. Penumpang termuda belum genap 1
Titanic tahun di ketiga kelas, sedangkan penumpang paling tua
𝑌2 Fare Harga tiket penumpang memiliki tiket kelas pertama.
𝑌3 Age Usia penumpang
B. Mengatasi Missing Value
B. Langkah Analisis Tabel 3. Jumlah dan Persentase Missing Value
Langkah analisis yang dilakukan untuk penelitian ini Banyaknya Persentase
Listwise
adalah sebagai berikut. Variabel Missing Missing
Means
1. Mengumpulkan data. Value Value
2. Melakukan analisis sederhana menggunakan statistika Age 177 19,9% 29,6991
deskriptif. Berdasarkan Tabel 1 dapat diketahui bahwa variabel Age
3. Melakukan Pre-Processing, yaitu mendeteksi adanya memiliki missing value sebanyak 177 buah atau sebesar
missing value dan outlier menggunakan Boxplot. 19,9% dari banyaknya data. Sedangkan kedua variabel
4. Melakukan pengujian distribusi normal multivariat. lainnya yaitu variabel Family dan Fare tidak memiliki
5. Melakukan pengujian Bartlett pada data. missing value. Pada data ini tidak ada variabel yang
6. Melakukan pengujian homogenitas data. dihilangkan karena tidak ada variabel yang memuat missing
7. Melakukan pengujian Multivariate Analysis of Variance value lebih dari 30%. Untuk mengimputasi data variabel
(MANOVA) One-way. yang memiliki missing value, digunakan metode listwise.
8. Melakukan analisis nilai Simultaneous Confidence Nilai estimasi mean menggunakan metode Listwise untuk
Interval. variabel Age adalah 29,6991, Nilai ini akan mengganti
9. Menarik kesimpulan dan saran. missing value pada variabel Age.
C. Deteksi Outlier Univariate
IV. HASIL DAN PEMBAHASAN
Adanya outlier pada data dapat menyebabkan informasi
A. Karakteristik Data dan kesimpulan data menjadi menyimpang karena ada
Karakteristik data perlu diketahui sebelum memulai pre- perbedaan mean dan variance. Oleh karena itu diperlukan
processing data. Karakteristik data dapat memunculkan adanya deteksi outlier. Deteksi outlier secara univariate
gambaran umum data tersebut. Berikut ini adalah dapat dideteksi menggunakan boxplot.
karakteristik data menggunakan statistika deskriptif.
female male
Tabel 1. Statistika Deskriptif Variabel Respon Terhadap Variabel Prediktor
Family Fare
Sex
10,0 480
Respon Age Family Fare
7,5 360
Sex F M F M F M
5,0 240
N 314 577 314 577 314 577
2,5 120
Mean 28,2 30,5 2,3 1,7 44,5 25,5
Variance 166 169 3,08 2,18 3363 1860 0,0 0
Age
Min 0,75 0,42 1 1 6,75 0 80
Max 63 80 11 11 512,3 512,3 60
Berdasarkan Tabel 1 diketahui bahwa jumlah penumpang 40
wanita lebih sedikit dibandingkan penumpang pria. Rata-rata 20
penumpang wanita berumur 28, sedikit lebih rendah
0
daripada pria, membawa satu atau dua anggota keluarga, dan female male
membayar tiket lebih mahal daripada pria. Penumpang Sex

termuda adalah bayi, umurnya belum mencapai satu tahun. Gambar 1. Boxplot Variabel Family, Fare, dan Age Berdasarkan Sex
Tabel 2. Statistika Deskriptif Variabel Respon Terhadap Variabel Prediktor
Pclass 1 2 3
Respon Pclass N Mean Var Min Max Family Fare

1 216 37 197 0,92 80 10,0 480

Age 2 184 30 184 0,67 70 7,5 360


3 491 26,4 117 0,42 74 5,0 240
1 216 1,8 1,08 1 6 2,5 120
Family 2 184 1,8 1,11 1 6 0
0,0
3 491 2 3,82 1 11 Age
80
1 216 84,2 6143 0 512
Fare 2 184 20,7 180 0 73,5 60

3 491 13,7 139 0 69,6 40

Berdasarkan Tabel 2 diketahui bahwa penumpang kelas 20

ketiga merupakan penumpang terbanyak, sedangkan 0


penumpang paling sedikit terdapat pada kelas kedua. Rata- 1 2 3
Pclass
rata umur penumpang kelas pertama paling tinggi diantara
kelas lainnya, dilanjutkan dengan penumpang kelas kedua, Gambar 2. Boxplot Variabel Family, Fare, dan Age Berdasarkan Pclass
dan terakhir penumpang kelas ketiga. Tidak ada perbedaan
5

Berdasarkan Gambar 1 diketahui outlier muncul di Berikut ini adalah hasil output MANOVA One-Way dengan
semua variabel kecuali variabel umur perempuan. Pada pengujian secara multivariate untuk variabel prediktor Sex.
Gambar 2, outlier tidak muncul di variabel umur penumpang Tabel 6. Matriks SSP Variabel Prediktor Sex
kelas pertama. Pada kedua gambar, tampak sangat banyak Matrix SSP Df
outlier pada variabel Family dan Fare.  93,594 2615, 067 315, 792 
D. Pengecekan Normal Multivariat Sex  2615, 067 73066,397 8823, 409  1
(B) 
Analisis multivariat hanya dapat digunakan pada data
 315, 792 8823, 409 1065,504 
yang memiliki distribusi normal multivariat. Salah satu
metode untuk mengecek distribusi normal multivariat adalah  2223,3 12879, 6 4324,1 
50% mahalanobis distance. Berikut ini adalah Q-Q Plot Error 12879, 6 2124732, 4 61477,8  889
variabel respon. (W) 
 4324,1 61477,8 149391,1
Statistik uji Wilk’s Lambda dapat dihitung dari Tabel 6 sebagai
berikut.
W 3, 40262 1012
    0,936
B W 6,68702 1014
Tabel 7. Hasil Pengujian Wilk’s Lambda untuk Variabel Prediktor Sex
Wilk’s
Fhitung Ftabel
Lambda
0,936 20,1709 2,614939
Gambar 3. Q-Q Plot Variabel Respon Nilai Fhitung lebih besar daripada nilai Ftabel yang berarti
Secara grafik, titik-titik pada kedua plot tidak mengikuti variabel Sex memiliki pengaruh signifikan terhadap minimal
garis lurus normal multivariat secara teoritis. Secara satu variabel respon, yaitu variabel Age, Family, dan Fare.
matematis, nilai proporsi mahalanobis distance sebesar Berikut ini adalah hasil output MANOVA One-Way dengan
0,716. Nilai tersebut berada jauh dari proporsi ideal 0,5. pengujian secara multivariate untuk variabel prediktor Sex.
Sehingga variabel respon tidak dapat dikatakan berdistribusi Tabel 8. Matriks SSP Variabel Prediktor Pclass
normal multivariat. Namun pada praktikum ini, variabel Matrix SSP Df
respon diasumsikan berdistribusi normal multivariat.  11, 7 2158 380 
E. Uji Independensi Pclass (B)
 2158 776030 112093  2
Pengujian independensi antara variabel Age, Family, dan  
Fare digunakan untuk mengetahui apakah adanya hubungan  380 112093 17004,5
antara ketiga variabel tersebut. Berikut ini merupakan hasil
 2305, 2 17652, 7 4259,9 
uji independensi menggunakan metode Bartlett’s.
Tabel 4. Uji Independensi Bartlett’s Error (W)
17652, 7 141768, 7 59438,9  888
KMO Measure Chi-Square df P-Value  
0,42 120,807 3 0  4259,9 59438,9 133452, 2 
Nilai p-value berdasarkan Tabel 4 adalah 0. Nilai Statistik uji Wilk’s Lambda dapat dihitung dari Tabel 8 sebagai
tersebut kurang dari nilai α = 0,05 maka dapat disimpulkan berikut.
bahwa variabel respon bersifat dependen. W 3,70785 1014
    0,554
B W 6,68702 1014
F. Uji Homogenitas Tabel 9. Hasil Pengujian Wilk’s Lambda untuk Variabel Prediktor Sex
Uji homogenitas dilakukan untuk mengetahui varians Wilk’s
Fhitung Ftabel
Lambda
dari beberapa populasi sama atau tidak. Berikut ini
0,554 136,013 2,103691
merupakan hasil uji independensi menggunakan metode
Nilai Fhitung lebih besar daripada nilai Ftabel yang berarti
Box’ M.
Tabel 5. Uji Homogenitas Box’s M variabel Sex memiliki pengaruh signifikan terhadap minimal
Variabel Prediktor Box’s M F P-Value satu variabel respon, yaitu variabel Age, Family, dan Fare.
Sex 67,287 11,168 0 Sedangkan hasil uji MANOVA One-Way secara univariate
Pclass 2036,758 168,714 0 adalah sebagai berikut.
Tabel 10. MANOVA One-Way Univariate Test Terhadap Variabel
Kedua variabel memiliki nilai p-value sebesar 0 Respon Sex
berdasarkan Tabel 5. Nilai tersebut kurang dari nilai α = 0,05 Dependent Variable SS df F P-Value
maka dapat disimpulkan bahwa variabel respon bersifat Cont. 93,6 1 37,4 0
heterogen atau variabel respon memiliki varians yang Family
Error 2223,3 889
berbeda-beda. Namun pada praktikum ini variabel respon Cont. 7,3×104 1 30,57 0
Fare
diasumsikan homogen. Error 2,1×106 889
Cont. 1065,5 1 6,34 0,012
G. MANOVA One-Way Age
Error 149391 889
MANOVA One-Way digunakan untuk mengetahui
perbedaan variabel respon di antara variabel prediktor.
6

Ketiga variabel respon memiliki p-value kurang dari α V. KESIMPULAN


= 0,05 yang berarti tiap-tiap variabel respon dipengaruhi Berdasarkan pengaruh variabel respon Sex, jumlah
oleh variabel sex secara signifikan. penumpang berjenis kelamin perempuan lebih sedikit
Tabel 11. MANOVA One-Way Univariate Test Terhadap Variabel daripada penumpang laki-laki dan cenderung bepergian
Respon Pclass
bersama anggota keluarganya. Sedangkan berdasarkan
Dependent Variable SS df F P-Value
variabel Pclass, penumpang paling banyak adalah
Cont. 11,7 2 2,26 0,105
Family penumpang kelas tiga, diikuti oleh penumpang kelas
Error 2305,2 888
Cont. 776030 2 242,344 0 pertama dan kedua. Penumpang kelas pertama rata-rata
Fare berumur lebih tua daripada penumpang lainnya.
Error 1,4×106 888
Cont. 17004 2 56,574 0 Variabel Age memiliki NA berjumlah 177 dan diimputasi
Age
Error 133452 888 menggunakan metode listwise means. Ketiga variabel
Dua dari tiga variabel respon, yaitu Fare dan Age prediktor diasumsikan berdistribusi normal multivariate,
memiliki p-value kurang dari α = 0,05 yang berarti tiap-tiap dependen, dan diasumsikan heterogen. Hasil uji MANOVA
variabel respon dipengaruhi oleh variabel Sex secara terhadap variabel prediktor Sex manyatakan bahwa ada
signifikan. Sedangkan Family tidak dipengaruhi oleh perbedaan signifikan pada ketiga variabel respon di antara
variabel Sex. perbedaan jenis kelamin. Sedangkan hasil uji terhadap
H. Selang Kepercayaan Simultan variabel prediktor Pclass menyimpulkan bahwa tidak ada
perbedaan jumlah anggota keluarga yang dibawa menurut
Selang kepercayaan simultan mendukung hasil kelas kabin.
MANOVA One-Way dengan memberikan gambaran variabel Untuk praktikum selanjutnya diharapkan untuk lebih
respon mana yang dipengaruhi oleh variabel prediktor. memahami teori, fungsi, dan tujuan MANOVA sehingga
Berikut ini adalah output SPSS untuk selang kepercayaan tidak ada masalah berarti dalam membuat laporan.
simultan untuk variabel respon Sex.

Tabel 12. Selang Kepercayaan Simultan untuk Variabel Prediktor DAFTAR PUSTAKA
Sex [1] https://www.kaggle.com/c/titanic. Diakses pada tanggal 2 Maret 2019.
Family Fare Age [2] http://jadiberita.com/15789/100-fakta-tentang-titanic.html Diakses
female female female pada tanggal 2 Maret 2019.
Sex [3] Walpole, R.E. 2011. Probability and Statistics For Engineers and
male Male male
Mean Scientist 9Edition. Boston : Prentise Hall Walpole, R.E. 2011.
0,678 18,956 -2,289 Probability and Statistics For Engineers and Scientist 9 Edition.
difference
Boston : Prentise Hall
Std. Error 0,111 3,428 0,909 [4] http://eprints.uny.ac.id/1452/1/METODE_PENDETEKSIAN_OUTLI
Batas Bawah 0,461 12,227 -4,073 ER_DI_DALAM_DATA_MULTIVARIAT.pdf. Diakses pada tanggal
Batas Atas 0,896 25,685 -0,505 19 Februari 2019.
Berdasarkan Tabel 7, didapatkan bahwa tidak ada selang [5] Johnson, Richard. (2007). Applied Multivariate Statistical Analysis.
interval yang melewati 0. Oleh karena itu, disimpulkan Madison : Pearson Prentice Hall.
[6] Johnson, Richard. (2007). Applied Multivariate Statistical Analysis.
bahwa variabel Family, Fare, dan Age mendapatkan Madison : Pearson Prentice Hall.
pengaruh dari variabel Sex secara signifikan. Beikut ini
adalah output SPSS untuk selang kepercayaan simultan
untuk variabel respon Pclass.
Tabel 13. Selang Kepercayaan Simultan untuk Variabel Prediktor
Pclass
Pclass Mean Diff. Batas Bawah Batas Atas
2 -0,009 -0,327 0,308
1
Family 3 -0,235 -0,493 0,023
2 3 -0,226 -0,499 0,048
2 63,493 55,614 71,371
1
Fare 3 70,479 64,067 76,891
2 3 6,987 0,198 13,775
2 7,181 4,767 9,595
1
Age 3 10,645 8,68 12,609
2 3 3,464 1,384 5,543
Selang interval variabel Family melewati nilai 0, oleh
karena itu variabel Family tidak dipengaruhi oleh variabel
Sex. Sedangkan kedua variabel lainnya dipengaruhi oleh
variabel Sex.
7

LAMPIRAN
1. Data yang digunakan
PassengerId Pclass Sex Age Family Fare
1 3 male 22 2 7,25
2 1 female 38 2 71,2833
3 3 female 26 1 7,925
4 1 female 35 2 53,1
5 3 male 35 1 8,05
⋮ ⋮ ⋮ ⋮ ⋮
889 3 female 4 23,45
890 1 male 26 1 30
891 3 male 32 1 7,75

2. Analisis Missing Value


Univariate Statistics
Missing No. of Extremesa
N Mean Std. Deviation Count Percent Low High
Age 714 29,6991 14,52650 177 19,9 0 11
Family 891 1,9046 1,61346 0 ,0 0 91
Fare 891 127660,6554 411122,99260 0 ,0 0 122
a. Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR).

3. Imputasi Missing Value

Summary of Estimated Means


Age Family Fare
Listwise 29,6991 1,9440 136448,4888
All Values 29,6991 1,9046 127660,6554

4. Sintaks R untuuk Menguji Asumsi Normal Multivariat


setwd("E:/Tugas + Materi/Semester 6/Multivariat/Modul 2")
str(train)
data<-train[,c(8,11,14)]

multinorm.test <- function(X){


##########################################
# input X adalah matriks berukuran n x p
##########################################

X <- as.data.frame(X) #memastikan X berbentuk matriks


mu <- colMeans(X) #menghitung vector mean dari matriks X
S <- cov(X) #menghitung matriks penduga
invS <- solve(S)
d <- matrix(rep(0,nrow(X)),nrow(X),1)
eval <- matrix(rep(0,nrow(X)),nrow(X),1)
q <- qchisq(0.5,ncol(X)) #menghitung titik kritis

# Menghitung jarak dan mengevaluasinya terhadap titik kritis


for (i in 1:nrow(X)){
d[i] <- as.numeric(X[i,] - mu) %*% (invS) %*% as.numeric(t(X[i,] - mu))
ifelse (d[i] <= q, eval[i] <- 1, eval[i] <- 0)
}
8

# Menghitung proporsi jarak yang memenuhi kriteria pengujian


prop <- sum(eval)/nrow(X)
result <- list(distance = d, chisquared = q, proportion = prop)
return(result)
}

multinorm.test(data)
# membuat qqplot
library(sROC)
library(MVN)
tes<-mvn(data=data,mvnTest = "mardia",multivariatePlot = 'qq')

5. Output R Uji Asumsi Distribusi Normal Multivariat


a. Mahalanobis Distance
Indeks Nilai
1 0,7994545
2 1,2492745
3 0,4860657
4 0,5774128
5 0,5268174
⋮ ⋮
889 4,6288341
890 0,3774632
891 0,4057120
b. Chisquare
[1] 2.365974
c. Proportion
[1] 0.7160494
6. Uji Independen

KMO and Bartlett's Test


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. ,420
Bartlett's Test of Sphericity Approx. Chi-Square 120,807
df 3
Sig. ,000

7. Uji Homogenitas Terhadap Variabel Respon Sex


9

Box's Test of Equality


of Covariance
Matricesa
Box's M 67,287
F 11,168
df1 6
df2 2734993,309
Sig. ,000
Tests the null hypothesis
that the observed
covariance matrices of the
dependent variables are
equal across groups.
a. Design: Intercept + Sex

8. Uji Homogenitas Terhadap Variabel Respon Pclass

Box's Test of Equality


of Covariance
Matricesa
Box's M 2036,758
F 168,714
df1 12
df2 1454133,841
Sig. ,000
Tests the null hypothesis
that the observed
covariance matrices of the
dependent variables are
equal across groups.
a. Design: Intercept +
Pclass

9. Multivariate Test MANOVA One-Way Terhadap Variabel Respon Sex


10

Between-Subjects SSCP Matrix


Family Fare SMEAN(Age)
Hypothesis Intercept Family 3268,885 57073,531 47876,083
Fare 57073,531 996482,983 835898,912
SMEAN(Age) 47876,083 835898,912 701193,099
Sex Family 93,594 2615,067 -315,792
Fare 2615,067 73066,397 -8823,409
SMEAN(Age) -315,792 -8823,409 1065,504
Error Family 2223,297 12879,642 -4324,073
Fare 12879,642 2124732,395 61477,767
SMEAN(Age) -4324,073 61477,767 149391,132
Based on Type III Sum of Squares

Multivariate Testsa
Partial Eta
Effect Value F Hypothesis df Error df Sig. Squared
b
Intercept Pillai's Trace ,887 2322,816 3,000 887,000 ,000 ,887
b
Wilks' Lambda ,113 2322,816 3,000 887,000 ,000 ,887
Hotelling's Trace 7,856 2322,816b 3,000 887,000 ,000 ,887
Roy's Largest Root 7,856 2322,816b 3,000 887,000 ,000 ,887
b
Sex Pillai's Trace ,064 20,194 3,000 887,000 ,000 ,064
b
Wilks' Lambda ,936 20,194 3,000 887,000 ,000 ,064
Hotelling's Trace ,068 20,194b 3,000 887,000 ,000 ,064
Roy's Largest Root ,068 20,194b 3,000 887,000 ,000 ,064
a. Design: Intercept + Sex
b. Exact statistic
10. Multivariate Test MANOVA One-Way Terhadap Variabel Respon Pclass
Aaaa

Between-Subjects SSCP Matrix


Family Fare SMEAN(Age)
Hypothesis Intercept Family 2558,205 54481,156 42906,463
Fare 54481,156 1160265,276 913763,285
SMEAN(Age) 42906,463 913763,285 719631,414
Pclass Family 11,735 -2158,007 -379,998
Fare -2158,007 776030,057 112093,229
SMEAN(Age) -379,998 112093,229 17004,449
Error Family 2305,156 17652,716 -4259,867
Fare 17652,716 1421768,736 -59438,871
SMEAN(Age) -4259,867 -59438,871 133452,187
Based on Type III Sum of Squares
11

Multivariate Testsa
Partial Eta
Effect Value F Hypothesis df Error df Sig. Squared
b
Intercept Pillai's Trace ,898 2596,660 3,000 886,000 ,000 ,898
b
Wilks' Lambda ,102 2596,660 3,000 886,000 ,000 ,898
Hotelling's Trace 8,792 2596,660b 3,000 886,000 ,000 ,898
Roy's Largest Root 8,792 2596,660b 3,000 886,000 ,000 ,898
Pclass Pillai's Trace ,448 85,297 6,000 1774,000 ,000 ,224
b
Wilks' Lambda ,554 101,280 6,000 1772,000 ,000 ,255
Hotelling's Trace ,799 117,906 6,000 1770,000 ,000 ,286
Roy's Largest Root ,794 234,812c 3,000 887,000 ,000 ,443
a. Design: Intercept + Pclass
b. Exact statistic
c. The statistic is an upper bound on F that yields a lower bound on the significance level.

11. Perhitungan Wilk’s Lambda Manual 2 Populasi (Sex)


2223, 297 12879, 297 4324, 073
12879, 642 2124732,395 61477, 767
W 4324, 073 61477, 767 149391,132 3, 40262 1012
     0,936
B W 2316,891 15494, 709 4639,865 6, 68702 1014
15494, 709 2197798, 792 52654,358
4639,865 52654,358 150456, 636
12. Univariate Test MANOVA One-Way Terhadap Variabel Respon Sex

Univariate Tests
Partial Eta
Dependent Variable Sum of Squares df Mean Square F Sig. Squared
Family Contrast 93,594 1 93,594 37,424 ,000 ,040
Error 2223,297 889 2,501
Fare Contrast 73066,397 1 73066,397 30,571 ,000 ,033
Error 2124732,395 889 2390,025
SMEAN(Age) Contrast 1065,504 1 1065,504 6,341 ,012 ,007
Error 149391,132 889 168,044
The F tests the effect of Sex. This test is based on the linearly independent pairwise comparisons among the estimated
marginal means.

13. Univariate Test MANOVA One-Way Terhadap Variabel Respon Pclass


Univariate Tests
12

Partial Eta
Dependent Variable Sum of Squares df Mean Square F Sig. Squared
Family Contrast 11,735 2 5,868 2,260 ,105 ,005
Error 2305,156 888 2,596
Fare Contrast 776030,057 2 388015,028 242,344 ,000 ,353
Error 1421768,736 888 1601,091
SMEAN(Age) Contrast 17004,449 2 8502,225 56,574 ,000 ,113
Error 133452,187 888 150,284
The F tests the effect of Pclass. This test is based on the linearly independent pairwise comparisons among the estimated
marginal means.

14. Perhitungan Wilk’s Lambda Manual 3 Populasi (Pclass)


2305,156 17652, 716 4259,87
17652, 716 1421768, 74 59438,9
 W 4259,87 59438,871 133452, 2 3, 70785 1014
     0,554
B W 2316,891 15494, 709 4639,865 6, 68702 1014
15494, 709 2197798, 793 52654,358
4639,865 52654,358 150456, 636
15. Selang Kepercayaan Simultan Untuk Variabel Respon Sex

Estimates
95% Confidence Interval
Dependent Variable Sex Mean Std. Error Lower Bound Upper Bound
Family female 2,344 ,089 2,169 2,519
male 1,666 ,066 1,536 1,795
Fare female 44,480 2,759 39,065 49,895
male 25,524 2,035 21,529 29,518
SMEAN(Age) female 28,217 ,732 26,781 29,653
male 30,506 ,540 29,447 31,565

Pairwise Comparisons
95% Confidence Interval for
Mean Difference Differenceb
Dependent Variable (I) Sex (J) Sex (I-J) Std. Error Sig.b Lower Bound Upper Bound
*
Family female male ,678 ,111 ,000 ,461 ,896
male female -,678* ,111 ,000 -,896 -,461
Fare female male 18,956* 3,428 ,000 12,227 25,685
*
male female -18,956 3,428 ,000 -25,685 -12,227
*
SMEAN(Age) female male -2,289 ,909 ,012 -4,073 -,505
male female 2,289* ,909 ,012 ,505 4,073
Based on estimated marginal means
13

*. The mean difference is significant at the ,05 level.


b. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments).
16. Selang Kepercayaan Simultan Untuk Variabel Respon Pclass
Estimates
95% Confidence Interval
Dependent Variable Pclass Mean Std. Error Lower Bound Upper Bound
Family 1,00 1,773 ,110 1,558 1,988
2,00 1,783 ,119 1,549 2,016
3,00 2,008 ,073 1,865 2,151
Fare 1,00 84,155 2,723 78,811 89,498
2,00 20,662 2,950 14,873 26,452
3,00 13,676 1,806 10,131 17,220
SMEAN(Age) 1,00 37,048 ,834 35,411 38,685
2,00 29,867 ,904 28,093 31,641
3,00 26,403 ,553 25,317 27,489

Pairwise Comparisons
95% Confidence Interval for
Mean Difference Differenceb
Dependent Variable (I) Pclass (J) Pclass (I-J) Std. Error Sig.b Lower Bound Upper Bound
Family 1,00 2,00 -,009 ,162 ,953 -,327 ,308
3,00 -,235 ,132 ,074 -,493 ,023
2,00 1,00 ,009 ,162 ,953 -,308 ,327
3,00 -,226 ,139 ,106 -,499 ,048
3,00 1,00 ,235 ,132 ,074 -,023 ,493
2,00 ,226 ,139 ,106 -,048 ,499
*
Fare 1,00 2,00 63,493 4,014 ,000 55,614 71,371
*
3,00 70,479 3,267 ,000 64,067 76,891
*
2,00 1,00 -63,493 4,014 ,000 -71,371 -55,614
3,00 6,987* 3,459 ,044 ,198 13,775
*
3,00 1,00 -70,479 3,267 ,000 -76,891 -64,067
*
2,00 -6,987 3,459 ,044 -13,775 -,198
SMEAN(Age) 1,00 2,00 7,181* 1,230 ,000 4,767 9,595
3,00 10,645* 1,001 ,000 8,680 12,609
*
2,00 1,00 -7,181 1,230 ,000 -9,595 -4,767
*
3,00 3,464 1,060 ,001 1,384 5,543
3,00 1,00 -10,645* 1,001 ,000 -12,609 -8,680
2,00 -3,464* 1,060 ,001 -5,543 -1,384
Based on estimated marginal means
*. The mean difference is significant at the ,05 level.
14

b. Adjustment for multiple comparisons: Least Significant Difference (equivalent to no adjustments).

View publication stats

Anda mungkin juga menyukai