1 Analisis Multivariat PDF

ANALISIS MULTIVARIAT (MPM-6D8)
1 Dadan Kusnandar, Ph.D.

Jurusan Matematika
FMIPA Universitas Tanjungpura
POKOK BAHASAN & BAHAN BACAAN
Aspek analisis multivariat
Data Screening
Analisis Komponen utama
Analisis Faktor
Analisis Diskriminan
Analisis Klaster
Manova
Bahan Bacaan
Johnson, R.A. and D.W. Wichern. 2002. Applied
Multivariate Statistical Analysis. 5th Ed.
Prentice-Hall, Inc. Upper Saddle River, NJ 2
ASPEK ANALISIS MULTIVARIAT
3
PENDAHULUAN
Peran analisis variabel ganda di dalam
penyelidikan ilmiah, diantaranya adalah
Data reduction or structural simplification:
penyederhanaan tanpa mengorbankan informasi berharga
Sorting and grouping: pengelompokan objek serupa
dilakukan berdasarkan atas ciri-ciri yang terukur

Investigation of dependence among variables: menganalisis
hubungan antar variabel

Prediction: menentukan hubungan antar variabel untuk
keperluan pendugaan satu atau beberapa variabel

berdasarkan pengamatan pada variabel lainnya
Hypothesis construction and testing: melakukan pengujian
hipotesis terhadap parameter dari populasi multivariat
4
DATA
Variabel 1 Variabel 2 Variabel k Variabel p
Item 1: x11 x12 x1k x1p
Item 2: x21 x22 x2k x2p
.. .. .. .. ..
. . . . .
Item j xj1 xj2 xjk xjp
.. .. .. .. ..
. . . . .
Item n xn1 xn2 xnk xnp
x11 x12 x1k x1 p
x x22 x2 k x2 p
21

X
n p x j1 x j 2 x jk x jp
5

xn1 xn 2 xnk xnp
STATISTIK SAMPEL
Rata-rata sampel:
n
xk 1
n x jk di mana k 1,2,, p
j 1
Varians sampel

n
sk2 skk 1
n
x
jk kx 2
di mana k 1,2,, p
j 1
Kovarians sampel:
x ji xi x jk xk i 1,2,, p dan k 1,2,, p
n
sik 1
n
j 1
Koefisien korelasi sample

sik
rik 6
sii skk
STATISTIK SAMPEL DALAM NOTASI
MATRIKS x1
x
Rata-rata sampel: x
2

s11 s12 s1 p
x p
s21 s22 s2 p
Varians-kovarians sampel S n

s p1 s p2 s pp
1 r12 r1 p
r 1 r2 p
Korelasi sampel R 21

rp1 rp 2 1 7
CONTOH
A selection of four receipts from a university bookstore
was obtained in order to investigate the nature of book
sales. Each receipt provided the number of book sold
and the total amount of each sale. Suppose the data are
as follows:
Variable 1 (dollar sales): 42 52 48 58
Variable 2 (number of books): 4 5 4 3
50 34 1.5 1 0.36
x Sn R

4 1.5 0.5 0.36 1
8
DATA SCREENING
9
PENDAHULUAN
Data screening dilakukan segera setelah data
dikumpulkan sebelum analisis data yang utama
dijalankan
Sangat menyita waktu dan membosankan, akan
tetapi merupakan hal yang fundamental untuk
mendapatkan hasil yang sahih
10
IMPORTANT ISSUES
Accuracy of data file
Honest correlation
Missing data
Outlier
11
ACCURACY OF DATA FILE
Periksa dan bandingkan data asal dengan
file data setelah diinput ke komputer
Gunakan teknik2 dalam EDA
Questions to raise:
are all values within range?
are mean and standard deviation

plausible?
are there any out-of-range numbers?
12
INFLATED CORRELATION
Variabel komposit adalah variabel yang
dibangkitkan dengan cara menggabungkan
respons dari beberapa item. Korelasi
antarvariabel komposit cenderung
menggelembung (inflated) terutama jika
item-item tsb digunakan secara berulang.
Consider using only one of the composite
variable if there is enough overlap
Examples of composite variables:
measure of economic status, health indices 13
DEFLATED CORRELATION
A falsely small correlation between two variables is
obtained if the range of response to one or both of
the variable is restricted in the sample
Jika kisaran nilai dari suatu variabel sangat
sempit karena pembatasan dalam sampling, maka
nilainya bisa dikatakan konstan dan tidak akan
menghasilkan nilai korelasi yang tinggi dengan
variabel lain
14
MISSING DATA
Data hilang terjadi ketika satuan percobaan rusak,
e.g. tanaman/binatang mati, peralatan tidak
berfungsi dengan baik, atau responden menolak
menjawab
Serius atau tidaknya akibat dari data hilang

tergantung pada:
Pola data hilang tersebut
Berapa banyak data yang hilang
Kenapa data tersebut hilang
15
MISSING DATA .
MEMBUANG KASUS ATAU VARIABEL
Drop any cases with missing data
jika hanya beberapa kasus yang memiliki
data hilang dan kelihatannya seperti sub-
sampel acak dari seluruh sampel
Drop any variables with missing data
jika data yang hilang terkonsentrasi pada
sebagian kecil variabel dan variabel
tersebut tidak terlalu memberikan
pengaruh terhadap analisis, atau variabel
tersebut berkorelasi tinggi dengan 16
variabel lainnya
MISSING DATA .
MENDUGA DATA HILANG
Gunakan pengetahuan sebelumnya
Substitusi dengan rata-ratanya
Gunakan regresi
Gunakan metode pendugaan lain (e.g.,

expectation maximization method,
multiple imputation, hot decking)
17
MISING DATA
Ulangi analisis dengan dan tanpa

data hilang.
18
PENCILAN
Sebuah pencilan (outlier) adalah suatu kasus
dengan nilai yang ekstrim pada suatu variabel
atau kombinasi yanganeh dari dua atau lebih
variabel sehingga mengganggu analisis
Beberapa sebab terjadinya pencilan:

Kesalahan data entry
Kekeliruan menentukan kode bagi data hilang
ke dalam computer syntax
Bukan anggota populasi yang diamati
Anggota populasi tetapi nilainya memang
ekstrim 19
UNIVARIATE DAN MULTIVARIATE
OUTLIERS
A 15-year-old is perfectly within bound regarding
age
Someone who earns Rp10 millions a month is in
bounds regarding income
But, a 15-year-old who earns Rp10 millions a
month is very unusual and is likely to be a
multivariate outlier
20
MENDETEKSI UNIVARIATE OUTLIERS
Hitung nilai baku, z,
x
z

kasus dengan nilai baku lebih besar dari
3.29 (p < .001, two-tailed test) adalah
potential outlier
Gunakan metode grafis, seperti,
histogram, box plot, or the stem-and-leaf
diagram
21
DETECTING MULTIVARIATE OUTLIERS
Mahalanobis distance is the distance of
a case from the centroid of the remaining
cases. (the centroid is the point created at
the intersection of the means of all the
variables)
Leverage is related to Mahalanobis
distance. Cases with high leverage are far
from others
Discrepancy measures the extent to
which a case is in line with the others
22
DIAGRAM PENCAR (SCATTER PLOT)
Grafik adalah salah satu alat bantu yang penting,
tetapi seringkali diabaikan, dalam analisis data
Variabel 1 (x1): 3 4 2 6 8 2 5
Variabel 2 (x2): 5 5.5 4 7 10 5 7.5
23
DATA TABLE 1.2 (JOHNSON & WICHERN, 2002)
24
MATRIX PLOT
Data dalam Table 1.2 (Johnson & Wichern, 2002)
25
BOX PLOT
26
DATA TABLE 1.3
(JOHNSON & WICHERN, 2002)
27
PLOT 3D
28
PLOT 3D
29
EUCLIDEAN DISTANCE
Teknik multivariat umumnya berdasarkan atas konsep
sederhana dari jarak:
Misalkan P = (x1, x2) adalah sebuah titik dalam bidang.
Jarak Euclidean dari P ke titik asal O = (0, 0) menurut Dalil
Pythagoras adalah
d O, P x12 x22
Secara umum, jika titik P mempunyai koordinat p, sehingga
P = (x1, x2, , xp), maka jarak Euclidean dari P ke titik asal
O = (0, 0, , 0) adalah
d O, P x12 x22 x 2p
Jarak Euclidean antara dua titik sembarang P dan Q dengan
koordinat P = (x1, x2, , xp) dan Q = (y1, y2, , yp) adalah

30
d P, Q x1 y1 x2 y2
2 2
x p y p 2
STATISTICAL DISTANCE
Dalam Euclidean distance setiap koordinat
memberikan kontribusi yang sama terhadap
perhitungan jarak, tanpa mempertimbangkan
hadirnya random fluctuation atau besaran yang
berbeda
Diperlukan suatu ukuran jarak yang
memperhitungkan perbedaan dalam keragaman
atau adanya korelasi, ukuran tersebut adalah
statistical distance
31
STATISTICAL DISTANCE ilustrasi.
x2
Pengukuran variabel x1
bersifat bebas (independent)
dari pengukuran variabel x2
Keragaman dalam arah x1
variabel x1 lebih besar dari
keragaman dalam arah
variabel x2
Standarisasi setiap koordinat dengan cara membaginya
dengan simpangan bakunya masing-masing:
x1 x2
x1* dan x2*
s11 s22
Statistical distance dari titik P = (x1, x2) ke titik asal
O = (0, 0) adalah

2 2 32
d O, P x1* x2* 1 2
2 2 x x
s11 s22
STATISTICAL DISTANCE
Secara umum, jika diasumsikan bahwa variabel
koordinat bersifat bebas satu dengan lainnya,
maka statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah
d P, Q
x1 y1 2 x2 y2 2
s11 s22
Statistical distance untuk sistem koordinat lebih
dari dua dimensi, yaitu P = (x1, x2 , xp) dan Q =
(y1, y2 , yp) adalah:
d P, Q
2 2
x1 y1 x2 y2 p p
x y 2
33
s11 s22 s pp
PENGUKURAN YANG TIDAK SALING BEBAS
Pasangan koordinat x2
(x1, x2) cenderung
untuk besar atau kecil
secara bersama-sama x1
dan koefisien korelasi
sampelnya positif
Keragaman dalam arah x1 lebih besar daripada

arah x2
Jika sumbu sistem koordinat tersebut diputar
dengan sudut q, maka sistem koordinat yang
baru dengan sumbu ~x1 dan ~
x2 menyerupai sistem
34
pada slide 19
Dengan cara yang sama, jarak dari titik P~ x2
x1 , ~
ke titik asal O = (0, 0) adalah
~
x12 ~
x22
d O, P ~ ~
s11 s22
di mana ~
s11 dan ~ s22 adalah varians sample yang
~ ~
dihitung dengan pengukuran x1 dan x2
Hubungan antara koordinat asal (x1, x2) dengan
koordinat hasil putaran adalah sbb
x1 x1 cos q x2 sinq
~
x2 x1 sinq x2 cos q
~
35
Dengan manipulasi aljabar, jarak dari titik P~ x2
x1 , ~
ke titik asal O = (0, 0) dapat dituliskan dalam
bentuk koordinat asal x1 dan x2 sebagai berikut
d O, P a11x12 2a12 x1 x2 a22 x22

di mana aij adalah nilai-nilai yang ditentukan
berdasarkan besaran sudut q, s11, s12 dan s22 yang
dihitung dari data asli.
Secara umum, ketika variabelnya saling
berkorelasi, statistical distance dari suatu titik
sembarang P = (x1, x2) ke setiap titik tetap (fixed
point) Q = (y1, y2) adalah
36
d P, Q a11x1 y1 2 2a12 x1 y1 x2 y2 a22 x2 y2 2

Misalkan P = (x1, x2, , xp) adalah suatu titik yang
koordinatnya merupakan variabel yang saling
berkorelasi; misalkan pula O = (0, 0, 0) adalah
titik nol dan Q = (y1, y2 , , yp) adalah titik tetap
(fixed point) tertentu, maka jarak dari P ke O dan
dari P ke Q adalah sbb:
a11x12 a22 x2 2 a pp x p 2 2a12 x1 x2
d O, P
2a13 x1 x3 2a p 1, p x p 1 x p
dan
d P , Q

a11x1 y1 2 a22 x2 y 2 2 a pp x p y p 2

2a12 x1 y1 x2 y 2 2a p 1, p x p 1 y p 1 x p y p
37

1 Analisis Multivariat PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

1 Analisis Multivariat PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS MULTIVARIAT (MPM-6D8)

1 Dadan Kusnandar, Ph.D.

dilakukan berdasarkan atas ciri-ciri yang terukur

hubungan antar variabel

keperluan pendugaan satu atau beberapa variabel

Koefisien korelasi sample

are mean and standard deviation

Serius atau tidaknya akibat dari data hilang

Gunakan metode pendugaan lain (e.g.,

Ulangi analisis dengan dan tanpa

Beberapa sebab terjadinya pencilan:

Keragaman dalam arah x1 lebih besar daripada

d O, P a11x12 2a12 x1 x2 a22 x22

d P, Q a11x1 y1 2 2a12 x1 y1 x2 y2 a22 x2 y2 2

Anda mungkin juga menyukai