Anda di halaman 1dari 53

Analisis Multivariat

Kuliah ke - 2

Dr. Eko Pujiyanto, S.Si., M.T.


Program Pascasarjana Teknik Industri - UNS
eko@uns.ac.id , 081 2278 3991
eko.staff.uns.ac.id/analisismutivariat
Isi
• Penyajian Data Multivariat
• Bentuk Grafik Data Multivariat
• Multivariate Missing Data
• Analisis Outlier
• A Multivariate Outlier Detection Method
• Data Multivariat dengan Distribusi Normal
Penyajian Data Multivariat
Penyajian Data Multivariat
Example 1:
Figure 1 shows the following
statistics for each of the EU
countries:
1. Gross national product
(GDP) percapita
2. Accumulated public debt
(as a percentage of GDP),
3. Current annual public
deficit (as a percentage of
GDP)
4. Current annual inflation
rate
5. Percentage of the
population that is
unemployed.
Bentuk Grafik Data Multivariat

Univariat (n=1) Bivariat (n=2)


Bentuk Grafik Data Multivariat

Trivariat (n=3) Multivariat (n>3)


Bentuk Grafik Data Multivariat

Multivariat (Four-dimensional plot)


Bentuk Grafik Data Multivariat

Contoh
Bentuk Grafik Data Multivariat

Contoh
Multivariate Missing Data
• Pengumpulan data data yang tidak lengkap
(missing data ).
• Missing data adalah suatu keadaan dimana
beberapa nilai atribut dalam suatu sekumpulan
data (data set) kosong /tidak ada nilainya
• Missing data pertama kali diperkenalkan oleh
Orchard dan Woodbury (1972)
• Ketika data tidak lengkap/data hilang
diklarifikasi
Multivariate Missing Data
• Penyebab data tidak lengkap → non
observational dan kegagalan dalam
pendefinisian populasi.
– Non coverage terjadi pada saat elemen dari target
populasi tidak mempunyai kesempatan untuk terpilih
karena tidak tercantum dalam kerangka sampel.
– Non response merupakan suatu kegagalan untuk
memperoleh data baik secara keseluruhan (nonrespon
unit) maupun sebagian dari karakteristik yang ingin
diukur (nonrespon item).
Multivariate Missing Data
• Peyebab terjadinya missing data
– Peralatan yang tidak berfungsi dengan baik
– Kesalahan mekanis
– Penolakan responden untuk menjawab
kuisioner
– Tidak adanya jawaban yang spesifik sehingga
tidak mengetahui variabel yang
dipermasalahkan
Multivariate Missing Data
Tipe missing data berdasarkan keacakan
• Missing Completely at Random (MCAR) : tidak
bergantung pada nilai seluruh variabel, baik variabel
yang terisi (diketahui) maupun variabel yang
mengandung missing data
• Missing at Random (MAR) : bergantung pada variabel
yang terisi (diketahui) namun tidak bergantung pada
variabel yang mengandung missing data itu sendiri
• Not Missing at Random (NMAR), bergantung pada
variabel itu sendiri sehingga tidak dapat diprediksi dari
variabel yang lain.
Multivariate Missing Data
Metode mengatasi missing data
– Mengabaikan atau membuang data yang
hilang
– Estimasi parameter
• Algoritma Ekspektasi-Maksimisasi (EM)
– Metode imputasi
Multivariate Missing Data
Metode imputasi
1. Metode imputasi dengan ukuran pemusatan
2. Metode imputasi regresi
3. Metode imputasi Hot Deck
4. Metode imputasi ColdDeck
5. Metode imputasi berbasis Machine Learning
– Multi Layer Perceptron (MLP)
– Self Organization Maps (SOM)
– K-Nearest Neighbor Imputation (KNNI)
Multivariate Missing Data
Algoritma Ekspektasi-Maksimisasi (EM)
• Algoritma EM merupakan teknik iteratif untuk
menghitung estimasi kemungkinan maksimum
(maximum likelihood estimation) untuk data
tidak lengkap.
• Ide dasar algoritma EM adalah mewakili vektor
data yang diamati, misalkan vektor y (data tidak
lengkap) menjadi vektor x (data lengkap) dengan
cara pemetaan tertentu (cukup rumit ).
Multivariate Missing Data
Algoritma Ekspektasi-Maksimisasi (EM)
Multivariate Missing Data
K-Nearest Neighbor Imputation (KNNI)
• Metode yang paling terkenal yang
digunakan untuk mengatasi missing data.
• Menggunakan konsep jarak
• Memberikan hasil imputasi yang
sangat baik bahkan ketika data yang
digunakan memiliki missing data yang
cukup besar
Multivariate Missing Data
K-Nearest Neighbor Imputation (KNNI)
• Kelebihan
– Dapat digunakan untuk memprediksi dua tipe
data ( diskrit dan kontinu )
– Tidak membutuhkan pembentukan model
prediksi
• Kekurangan
– Menggunakan semua data Proses lama
Multivariate Missing Data
Tahapan KNNI
Multivariate Missing Data
Tahapan KNNI
Multivariate Missing Data
Contoh Aplikasi KNNI
Multivariate Missing Data
Contoh Aplikasi KNNI
Multivariate Missing Data
Contoh Aplikasi KNNI
Multivariate Missing Data
Contoh Aplikasi KNNI
Analisis Outlier
Definisi Outlier
• Outlier/anomali adalah data set yang
dianggap memiliki sifat yang berbeda
dibandingkan dengan kebanyakan data
lainnya
• Analisis outlier disebut juga analisis
anomali/deteksi anomali atau deteksi
deviasi.
Analisis Outlier
Manfaat Analisis Outlier
• Deteksi penyalahgunaan kartu kredit
• Segmentasi data pelanggan
• Deteksi adanya penyusupan pada jaringan
komunikasi
• Analisis Medis
Analisis Outlier
Penyebab Outlier
• Data berasal dari sumber yang
berbeda
• Variasi natural data itu sendiri
• Kesalahan pada saat pengukuran atau
pengumpulan data
Analisis Outlier
Konsep Dasar Analisis Outlier
• Bangun profil dari data “normal”
• Gunakan profil untuk mendeteksi
anomali (data anomali memiliki
karakteristik yang sangat berbeda)
Analisis Outlier
Metode Analisis Outlier
• Metode Grafis
• Model Based ( pendekatan statistik )
• Distance Based ( dalam bentuk vektor )
– Nearest Neighbor based
– Density Based
– Clustering Based
• Deviation Based
Analisis Outlier
Metode Grafis
• Box Plot (1D)
• Scatter plot (2 D)
• Spin plot (3D)
Analisis Outlier
Kelemahan Metode Grafis
• Bergantung pada peneliti, karena hanya
mengandalkan visualisasi grafis
• Dibutuhkan seseorang yang ahli dan
berpengalaman
• Membutuhkan waktu yang lama
Analisis Outlier
Model Based (Pendekatan Statistik)
• Asumsikan fungsi distribusi data yang dimiliki
• Gunakan Uji Statistik yang bergantung pada :
– Distribusi data
– Parameter distribusi (mean,median,variance)
– Jumlah outlier yang dapat diterima (selang
kepercayaan)
Analisis Outlier
Model Based (Pendekatan Statistik)
Menggunakan nilai kuartil dan jangkauan.
• Jangkauan kuartil (JK) didefinisikan
sebagai kuartil-3 dikurangi kuartil-1
• Data outlier
– Data kurang dari 1.5*JK (kuartil-1)
– Data lebih dari 1.5*JK (kuartil-3)
Analisis Outlier
Kelebihan dan Kelemahan
Pendekatan Statistik
• Jika fungsi distribusi data sudah diketahui, maka
pendekatan statistik akan sangat efektif.
• Tetapi, sulit menemukan fungsi distribusi
• Kebanyakan uji hanya cocok untuk single attribut
• Sulit untuk menentukan fungsi distribusi dan uji
yang tepat untuk data berdimensi tinggi
Analisis Outlier
Distance based (Nearest-Neighbor Based)
• Tentukan jarak dari tiap pasang titik (data)
• Sebuah data dikatakan outlier jika :
– Jumlah data di sekitarnya lebih sedikit dari p dalam
jarak D
– Data tsb merupakan top n titik yang jaraknya paling
jauh dari ke tetangga terdekatnya
– Data tsb merupakan top n titik rata-rata jaraknya
paling besar dari k tetangga terdekatnya
Analisis Outlier
Kelebihan dan kelemahan NNB
• Pendekatannya sederhana
• Sangat tergantung pada nilai parameter
yang dipilih
• Tidak dapat menangani kasus himpunan
data yang memiliki kepadatan berbeda
pada daerah yang berbeda
Analisis Outlier
Kelebihan dan kelemahan NNB
• Pendekatannya sederhana
• Sangat tergantung pada nilai parameter
yang dipilih
• Tidak dapat menangani kasus himpunan
data yang memiliki kepadatan berbeda
pada daerah yang berbeda
A Multivariate Outlier Detection
Method
Berbasis pada jarak mahalanobis
A Multivariate Outlier Detection
Method
• Minimum Covariance Determinant (MCD)
algorithm pada Software SAS
A MULTIVARIATE OUTLIER
DETECTION METHOD
• Minimum Covariance Determinant (MCD)
algorithm pada Software SAS
A Multivariate Outlier Detection
Method
• Minimum Covariance Determinant (MCD)
algorithm pada Software SAS
A Multivariate Outlier Detection
Method
• Minimum Covariance Determinant (MCD)
algorithm pada Software SAS
Data Multivariat dengan Distribusi
Normal
Let
 x1 
r   = a random vector
x   M
xp 

Let  1 
r   = a vector of constants (the
   M
mean vector)
p 
Data Multivariat dengan Distribusi
Normal

Let
 L 1 p  • covariance matrix
 
  M M  • p × p positive
p p
1p L 
 pp  definite matrix

Data Multivariat dengan Distribusi
Normal

Suppose that the joint density of the random


vector x is:
f (x )  f x1 ,K , x p 
r

1  x   x  
1 r r  1 r r
 e 2

2 
p/2 1/ 2

Data Multivariat dengan Distribusi
Normal

The random vector, x  [x1, x2, … xp] issaid


to have a p-variate normal distribution with
mean vector  and covariance matrix 

We will write: xr ~ N r,
p

Data Multivariat dengan Distribusi
Normal
Bivariate Normal distribution Graph
Data Multivariat dengan Distribusi
Normal
Tritivariate Normal distribution Graph

xr  r  1 xr  r = const


x3

mean vector  1 
r  
   2 
3 

x2
x1
Data Multivariat dengan Distribusi
Normal
Menguji Normalitas Data Multivariat
• A graphical test of multivariate normality
– Menggunakan konsep jarak mahalanobis
• Goodness-of-fit tests for multivariate
normality
– Mardia's test multivariate normality
Data Multivariat dengan Distribusi
Normal
Mardia's test multivariate normality
For a sample {x1, ..., xn} of k-dimensional
vectors we compute
Data Multivariat dengan Distribusi
Normal
Mardia's test multivariate normality
• Under the null hypothesis of multivariate
normality
– The statistic A will have approximately a chi-
squared distribution with 1/6⋅k(k + 1)(k +
2) degrees of freedom
– The statistic B will be approximately standard
normal N(0,1).
Pekan Depan

• One-way anova
• Anova factorial
• Ancova
• Dasar manova dan ancova
• Komputasi manova dan ancova

Anda mungkin juga menyukai