Anda di halaman 1dari 59

Oleh:

Puji Astuti (1000048)


Anisa Bella Fathia (1005364)
Komponen
Utama
Populasi
Komponen
Utama
Sampel
Grafik
Komponen
Utama
Inferensi
Sampel-
besar
Secara aljabar, komponen utama adalah
kombinasi linear dari p variabel acak X
1
,X
2
,..,X
p
.
Secara geometris, kombinasi linear ini
menggambarkan pemilihan dari sistem
koordinat yang diperoleh dengan merotasikan
sistem awal dengan X
1
,X
2
,...,X
p
sebagai sumbu
koordinat.


komponen utama semata mata bergantung pada
matriks kovarians ( atau matriks korelasi ) dari
X
1
,X
2
,..,X
p
.

Dalam perkembangannya tidak membutuhkan asumsi
multivariat normal.

komponen utama yang berasal dari populasi
multivariate normal mempunyai interpretasi yang
berguna dalam kepadatan ellipsoid konstan.
Misalkan vektor acak
,
=
1
,
2
, ,


Memiliki matriks kovarians dengan nilai eigen
1

2


P
0

Perhatikan kombinasi linier





p pp p p p p
p p
p p
X X X X Y
X X X X Y
X X X X Y



+ + + = =
+ + + = =
+ + + = =
... '
.
.
... '
... '
2 2 1 1
2 2 22 1 12 2 2
1 2 21 1 11 1 1
k i k i
i i
Y Y Cov
Y Var


=
=
' ) , (
' ) (
1
Dengan menggunakan 2-45





8-2











8-3





Komponen utama adalah kombinasi linier Y
1
,Y
2
,..,Y
p

yang tidak berkorelasi dimana variansi (8-2) sebesar
mungkin

Komponen utama pertama adalah kombinasi linier
dengan variansi maksimum. Yaitu, memaksimumkan

1
=
1

1
.

Jelas bahwa
1
=
1

1
dapat ditingkatkan
dengan mengalikan
1
dengan konstanta.
Komponen Utama Pertama
kombinasi linier
1
yang memaksimumkan
(
1
) ke
1
=1

Komponen Utama Kedua
Kombinasi linier
2
yang memaksimumkan
(
2
) ke
2
=1 dan (

1
,

2
) = 0

Komponen Utama ke-i
kombinasi linier

yang memaksimumkan
(

) ke

=1 (

) = 0, k<i

Result 8.1

Result 8.2

(8-7)





Andaikan X berdistribusi N
p
(,). Kita tahu
bahwa kepadatan(densitas) dari X adalah konstan
dan berpusat pada elipsoid:

Sebuah elips dengan kepadatan konstan dan
komponen utama untuk vektor acak bivariat normal
dengan =0 dan =0,75 ditunjukkan pada gambar
8.1. Kita tahu bahwa komponen utama diperoleh
dengan merotasi sumbu koordinat asal melalui
sebuah sudut hingga bertepatan dengan sumbu dari
elips dengan kepadatan konstan

Komponen utama dapat juga diperoleh dari
variabel yang dibakukan :




(8-9)

11
1 1
1
) (
o

=
X
Z
22
2 2
2
) (
o

=
X
Z
pp
p p
p
X
Z
o
) (
=
Persamaan transformasi Z dapat dinyatakan dalam
bentuk matriks :

(8-10)
dimana matriks diagonal simpangan baku atau

1
2

didefinisikan (2-35) :

) ( ) (
1
2
1
=

X V Z
(
(
(
(
(

=
pp
V
o
o
o
... 0 0
0 ... 0
0 ... 0
22
11
2
1

E(Z)=0 dan


Komponen utama dari Z diperoleh dari vektor eigen
untuk matriks korelasi pada .

Result 8.4
Komponen utama ke-i dari variabel baku Z=[Z
1
,Z
2
,...,Z
p
] dengan Cov(Z) =
diberikan oleh

, i = 1,2,...,p

selain itu,
(8-11)

dan
i,k = 1,2,...,p
dalam hal ini, sebagai pasangan-pasangan
nilai eigen-vektor eigen untuk dengan




) ( ) (
1
2
1
'
=

X V e Y
i i
p Z Var Y Var
p
i
i
p
i
i
= =

= = 1 1
) ( ) (
i ki Zk Yi
e =
,
) , ( ),..., , ( ), , (
2 2 1 1 p p
e e e
0 ...
2 1
> > > >
p

Dari (8-11) bahwa total variansi populasi
(variabel baku) adalah p, jumlah elemen-elemen
diagonal matriks . Gunakan (8-7) dengan Z
sebagai pengganti X, proporsi dari total variansi
yang dijelaskan oleh komponen utama ke-k dari Z
adalah


= , k = 1,2,...,p (8-12)




Proporsi variansi
populasi (baku)
komponen utama
ke-k
p
k

Contoh 8.2


Pasangan nilai eigen-vektor eigen dari adalah

1
=100,16 e
1
=[0,040;0,999]

2
=0,84 e
2
=[0,999;-0,040]
Pasangan nilai eigen-vektor eigen dari adalah

1
=1+ = 1,4 e
1
=[0,707;0,707]

2
=1- = 0,6 e
2
=[0,707;-0,707]



(

=
100 4
4 1
(

=
1 4 , 0
4 , 0 1

Komponen utama dari


Y
1
= 0,040X
1
+0,999X
2
Y
2
= 0,999X
1
-0,040X
2

Komponen utama dari
Y
1
= 0,707X
1
+0,707X
2
Y
2
= 0,707X
1
-0,707X
2

Komponen utama pertama menjelaskan proporsi


Dari total variansi populasi (baku)

992 , 0
101
16 , 100
2 1
1
= =
+

Ketika variabel X1 dan X2 dibakukan, bagaimanapun
menghasilkan variabel yang berkontribusi sama
untuk komponen utama yang ditentukan
gunakan result 8-4

dan

dalam hal ini, komponen utama pertama
menjelaskan proporsi


dari total variansi populasi (baku)
837 , 0 4 , 1 707 , 0
1 11 ,
1 1
= = = e
Z Y
837 , 0 4 , 1 707 , 0
1 21 ,
2 1
= = = e
Z Y
7 , 0
2
4 , 1
1
= =
p

Ada matriks kovarians dan korelasi berpola tertentu yang


komponen utamanya dapat dinyatakan dalam format
sederhana. Misalkan adalah matriks diagonal



(8-13)
pilih e
1
=[0,...,0,1,0,...,0] dengan 1 pada posisi ke-i

atau


(
(
(
(
(

=
pp
o
o
o

0 0
0 0
0 0
22
11
(
(
(
(
(
(
(
(
(

=
(
(
(
(
(
(
(
(
(

(
(
(
(
(

0
0
1
0
0
0
0
1
0
0
0 0
0 0
0 0
22
11

ii
pp
o
o
o
o
i ii i
e e o =
dapat disimpulkan bahwa (

) adalah pasangan
nilai eigen-vektor eigen ke-i.

kombinasi linear

, merupakan kumpulan
dari komponen utama yaitu kumpulan asli dari
variabel-variabel acak yang tidak berkorelasi.


Bentuk umum pola lain matriks kovarians

(8-14)

Menghasilkan matriks korelasi

(8-15)

adalah matriks kovarian yang variabelnya dibakukan.

Matriks pada (8-15) menyatakan bahwa variabel
X
1
,X
2
,...,X
p
berkorelasi sama


(
(
(
(
(

=
2 2 2
2 2 2
2 2 2
o o o
o o o
o o o

(
(
(
(
(

=
1
1
1

p nilai eigen dari matriks korelasi (8-15) dapat dibagi


menjadi dua grup
ketika positif, yang paling besar adalah
(8-16)




Dengan vektor eigennya

(8-17)

Sisanya p-1 nilai eigen adalah
Komponen utama pertama


Komponen utama ini menjelaskan proporsi

(8-18)



(
(
(
(

=
p p p
e
1
,...,
1
,
1
'
1
= = = = 1 ...
3 2 p

=
= =
p
i
i
X
p
X e Y
1
'
1 1
1
p p
p
p


+ =
+ +
=
1 ) 1 ( 1
1

Komponen utama sampel bertujuan untuk mencari kombinasi-
kombinasi linear yang tidak berkorelasi dari karekteristik yang
diukur yang menerangkan sebagian besar variansi dalam sampel.

Misal adalah sampel acak berukuran n dari suatu
populasi p dimensi dengan vektor rata-rata dan matriks kovarians
, maka pada sampel ini memiliki vektor rata-rata dan matriks
kovarians S dan matriks korelasi R.


n
x x x , , ,
2 1

Jika adalah matriks kovarians sampel berukuran p x p dengan pasangan
nilai eigen dan vektor eigen maka komponen utama ke-i
adalah
Dimana dan x adalah observasi pada variabel .
Varians sampel
Kovarians sampel
Total varians sampel
Koefisien korelasi sampel


Komponen utama sampel baik yang didapati dari S maupun R ditulis dengan
notasi meskipun tidak sama.
Observasi sering dipusatkan dengan mengurangkan tetapi hal ini tidak
mempengaruhi S sehingga komponen utama ke-i menjadi
atau

} {
ik
s S =
) , ( , ), , ( ), , (
2 2 1 1 p p
e e e
p , ... 2, , 1 ,
2 2 1 1
'
= + + + = = i x e x e x e x e y
p pi i i i i

0
2 1
> > > >
p

p
X X X , ... , ,
2 1
p k y
k k
,..., 2 , 1 ,

) ( = =
k i , 0 ) , ( = =
k i
y y


2 1
1
1
p
p
i
i s
+ + + = =

=

p k i
s
e
kk
k ki
x y r
k i
,..., 2 , 1 , ,

,
= =

p
Y Y Y

,...,

2 1
j
x x
p , ... 2, 1, i ), ( = = x x e y
i i
n , ... 2, 1, j ; p , ... 2, 1, i ), ( = = = x x e y
i ij
Dengan standardisasi sampel dibentuk






Sehingga p x n matriks data dari observasi yang distandardisasi menjadi





(8-26)









(
(
(
(
(
(
(
(
(
(
(

= =

s
x x
s
x x
s
x x
D z
pp
p pj
j
j
j
j
x x

22
2 2
11
1 1
2 / 1
) (
| |
(
(
(
(
(
(
(
(
(
(




=
(
(
(
(
(

= =
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
s
x x
z z z
z z z
z z z
z z z
pp
p pn
pp
p p
pp
p p
n
n
pn p p
n
n
n
Z

2 1
22
2 2
22
2 22
22
2 21
11
1 1
11
1 12
11
1 11
2 1
2 22 21
1 12 11
2 1

, , ,
Akibatnya menghasilkan sampel vektor rata-rata



(8-27)


dan matriks sampel kovarians




(8-28)


0
1 1
1
1
22
2 2
1
11
1 1
1
=
(
(
(
(
(
(
(
(
(
(

= =

=
=
=
n
j
pp
p pj
n
j
j
n
j
j
s
x x
s
x x
s
x x
Z
n n
z

( )( )
'

=
'
|
.
|

\
|

|
.
|

\
|

=
'
1
'
1
'
11
'
11
1
1 1 1
1
1
z Z z Z
n n
Z
n
Z
n
Z Z Sn
(
(
(
(
(
(
(
(
(

=
'

=
pp
pp
pp
p
pp
p
pp
p
pp
p
s
s n
s s
s n
s s
s n
s s
s n
s
s n
s s
s n
s s
s n
s s
s n
s
s n
n
Z Z
n
) 1 ( ) 1 ( ) 1 (
) 1 (
) 1 ( ) 1 (
) 1 (
) 1 ( ) 1 (
1
1
1
1
22
2
11
1
22
2
22
22
22 11
12
11
1
22 11
12
11
11

Jika adalah observasi yang distandardisasi dengan matriks


kovarians R, komponen utama sampel ke-i adalah

di mana adalah pasangan nilai eigen vektor eigen ke-i dari R dengan
.
varians sampel :
kovarians sampel : (8-29)
total (yang distandardisasi) varians sampel
= tr(R) = p =
Dan
Koefisien korelasi sampel


Proporsi varians sampel untuk komponen utama ke-i



p , ... 2, , 1
2 2 1 1
'
= + + + = = i z e z e z e z e y
p pi i i i i

( )
i i
e ,

p , ... 2, , 1 ,

) ( = = i y
i i

k i y y
k i
= = , 0 ) , (
p


2 1
+ + +
p , ... 2, , 1 , ,

,
= = k i e r
i ki z y
k i

n
z z z ,..., ,
2 1
0

2 1
> > > >
p

p ..., 2, 1, i ,

= =
p
i

Contoh 8.5
Tingkat pengembalian mingguan untuk lima bursa/stock (Allied Chemical, du
Pont, Union Carbide, Exxon, dan Texaco) yang didaftarkan di pasar bursa New
York telah ditentukan untuk periode Januari 1975 sampai Desember 1976.
Tingkat pengembalian mingguan digambarkan sebagai (Jumat sekarang yang
menutup harga - Jumat sebelumnya yang menutup harga) / (Jumat
sebelumnya yang menutup harga) yang disesuaikan untuk saham yang
dipecah dan dividen. Data tersebut didaftarkan pada tabel 8.1 dalam latihan.
Pengamatan dalam 100minggu berurutan nampak seperti dengan bebas
dibagi-bagikan, tetapi hanyalah tingkat tarip kembalian ke seberang
bursa/stock dihubungkan, karena, seperti seseorang harapkan, bursa/stock
cenderung untuk pindah bersama-sama sebagai jawaban atas kondisi-kondisi
ekonomi umum.
Jawab:
Misalkan menandakan tingkat pengembalian mingguan yang diamati
untuk Allied Chemical, du Pont, Union Carbide, Exxon, dan Texaco secara
berurutan. Maka
= [0.0054 , 0.0048, 0.0057, 0.0063, 0.0037]
Dan



R adalah matriks kovarians dalam observasi yang distandardisasi.


Nilai eigen dan yang dinormalisasi bersesuaian dengan vektors eigen R adalah





5 2 1
,..., , x x x
(
(
(
(
(
(

=
000 . 1 523 . 0 426 . 0 322 . 0 462 . 0
532 . 0 000 . 1 436 . 0 389 . 0 387 . 0
426 . 0 436 . 0 000 . 1 599 . 0 509 . 0
322 . 0 389 . 0 599 . 0 000 . 1 577 . 0
462 . 0 387 . 0 509 . 0 577 . 0 000 . 1
R
55
5 5
5
22
2 2
2
11
1 1
1
, , ,
s
x x
z
s
x x
z
s
x x
z

=

=
| |
| |
| |
| |
| | 0.385 0.176, - 0.400, - 0.676, 0.451, - , 43 . 3 . 0
0.382 - 0.472, 0.662, - 0.206, 0.387, , 452 . 0
0.435 - 0.541, 0.335, 0.178, 0.612, - , 540 . 0
0.528 - 0.526, - 0.260, 0.509, 0.240, , 809 . 0
0.421 0.421, 0.470, 0.457, 0.464, , 857 . 2
5 5
4 4
3 3
2 2
1 1
= ' =
= ' =
= ' =
= ' =
= ' =
e
e
e
e
e

x
x
Penggunaan variabel yang distandardisasi, kita memperoleh dua
sampel komponen utama yang pertama.



Komponen ini meliputi mewakili populasi sebesar



5 4 3 2 1 1 2
5 4 3 2 1 1 1
582 . 0 526 . 0 260 . 0 509 . 0 240 . 0
421 . 0 421 . 0 470 . 0 457 . 0 464 . 0
z z z z z z e y
z z z z z z e y
+ + = ' =
+ + + + = ' =
% 73 % 100
5
809 . 0 857 . 2
% 100

2 1
=
|
.
|

\
|

=
|
|
.
|

\
|
+
p

Plot dari komponen utama menyatakan dugaan
pengamatan, seperti halnya asumsi normalitas

Plot diperlukan untuk menguji bahwa komponen
utama pertama mendekati distribusi normal ketika
komponen utama tersebut digunakan sebagai data
input dalam analisis tambahan

Komponen utama yang terakhir dapat membangtu
menunjukkan dengan tepat dugaan pengamatan.
Setiap pengamatan

dituliskan sebagai kombinasi linear dari himpunan


lengkap vektor eigen
1
,
2
, ,

dalam S.

1
+

2
2
1
++

=
1

1
+
2

2
++


Besarnya komponen utama terakhir menentukan seberapa baik pengamatan
pertama yaitu
1

1
+
2

2
++
;1,

;1
berbeda dengan

+
+

dari X.

singkatnya
1. Untuk memeriksa asumsi normalitas, konstruksi diagram scatter untu
pasangan beberapa komponen utama pertama dan buat Q-Q plot dari
nilai-nilai sampel dari setiap komponen utama
2. Konstruksi diagram scatter dan Q-Q plot untuk komponen utama
terakhir. Hal tersebut membantu mengidentifikasi dugaan pengamatan

Pendiagnosaan yang menyertakan komponen utama berlaku sama baik
untuk memeriksa asumsi model regresi berganda multivariat. Jika
diperoleh model yang baik dari suatu metode estimasi maka harus
diperhatikan bahwa untuk model multivariat linear

= 1,2, ,



Komponen utama diperoleh dari matriks kovarian residual
(

)(

=1
;
yang ditentukan dari sampel acak.

Adanya ketergantungan linear diantara residu-residu dari sebuah
analisis regresi linear sehingga nilai eigen terakhir akan bernilai nol
dalam pembulatan error.

Nilai eigen dan vektor eigen berperan penting dalam
analisis komponen utama. Vektor eigen menentukan
variabel maksimum, dan nilai eigen menentukan varians.

Keputusan yang berhubungan dengan kualitas pendekatan
komponen utama dibuat dalam bentuk pasangan nilai
eigen-vektor eigen

dari S atau R.

Karena variasi sampling, sehingga nilai eigen dan vektor
eigen akan berbeda dari populasinya
Anderson dan Girshick telah menentukan teori distribusi
sampel besar di bawah ini untuk nilai eigen

1
, ,

dan vektor eigen


1
,...,

di S.
1. Misalkan adalah matriks diagonal dari nilai eigen

1
, ,

dari , maka (

) diaproksimasi

(0,2
2
)
2. Misalkan

)
2

<1

maka
diaproksimasi

(0,

)
3. Setiap

berdistribusi bebas dari anggota kumpulan



Untuk n besar

berdistribusi bebas dan didekati oleh


distribusi (

, 2

) dimana

= 1
Interval konfidensi 100 (1 )% untuk

memenuhi

1:(

2
)
2

1;(

2
)
2



Benferonni-type, interval simultan 100 (1 )% untuk m


diperoleh dengan menggantikan (

2
) dengan (

2
)

berdistribusi normal. Elemen-elemen setiap


berkorelasi dan besar korelasinya bergantung pada

1
,
2
, ,

(yang tidak diketahui) dan ukuran sampel n.



Pendekatan standar error untuk koefisien

diberikan oleh
akar kuadrat dari elemen-elemen diagonal
1

dimana

diperoleh dari mensubtitusikan

ke

dan

ke


Didapatkan interval kepercayaan untuk variansi
populasi komponen utama menggunakan persediaan
harga pada tabel 8.1. Asumsikan persediaan suku dari
hasil yang mewakili gambar dari populasi N(, )
dimana merupakan definit positif dengan nilai eigen
berbeda dengan 1 > 2 > > 5 > 0. karena n= 100
besar, kita gunakan 8.33 dengan i = 1 untuk
mengkrontuksi interval kepercayaan i sebesar 95%
Dari 8.10 didapatkan,

= 0.0036 dan z(0,025) = 1.96


maka dengan taraf nyata 95%
0.036
(1:1.96
2
100
)

0.036
(1;1.96
2
100
)

0.0028 0.050
Struktur korelasi khusus

atau

=
, merupakan struktur yang penting dimana nilai eigen dari
tidak berbeda dan hasil sebelumnya tidak digunakan.

Untuk pengujiannya, misalkan

0
=
0
=
1

1


1
><
1

0


Pengujian
0
melwan
1
berdasarkan rasio statistik likelihood, tapi
Lawley telah menunjukkan bahwa prosedur uji kesamaan dapat dibuat
dari elemen diagonal R.

=
1
;1

<1

(rata-rata elemen diagonal pada k kolom)


=
2
(;1)

<
(rata-rata keseluruhan elemen diagonal)
=
(;1)
2
1;(1;)
2
;(;2)(1;)
2
= 1,2, ,

Kriteria pengujian
0
pada tingkat , tolak
0
jika
>
2
+1 2
2
() , dimana
=
( 1)
(1 )
2
(

)
2
<
(

)
2

<1


Matriks korelasi suatu sampel dikonstruksi dari berat tikus
betina (pada contoh 8.6)
Kita akan menggunakan matriks koelasi untuk pengujian
sampel besar, p=4
=
1,0000 0,7501
0,7501 1,0000
0,6329 0,6363
0,6925 0,7386
0,6329 0,6925
0,6363 0,7386
1,0000 0,6625
0,6625 1,0000

Hipotesis :
0
=
0
=
1

1


1
><
1

0

1
=
1
3
0,7501 +0,6329 +0.6363 = 0,6731

1
=
1
3
0,7501 +0,6925 +0,7386 = 0,7271

3
=
1
3
0,6329 +0,6925 +0,6625 = 0,6626

4
=
1
3
0,6363 +0,7386 +0,6625 = 0,6791
=
2
4 4;1

12
+
13
+
14
+
23
+
24
+
34

=
2
12
0,7501 +0,6329 +0,6363 +0,6925 +0,7386 +0.6625
= 0,6855
=
(4;1)
2
1;(1;0,6855)
2
4;(4;2)(1;0,6855)
2
= 2,1329

(

)
2
<
=
(
12
)
2
+(
13
)
2
+(
14
)
2
+(
23
)
2
+(
24
)
2
+(
34
)
2

= 0,1277

(

)
2

<1
= (
1
)
2
+(
2
)
2
+(
3
)
2
+(
4
)
2
= 0,0245


=
(150;1)
(1;0,6855)
2
0,1277 (2,1329)(0,0245)
= 11,4

2
+1 2
2
=
2
5
0.05 = 11,07

Karena T hitung >
2
5
0.05 maka H0 ditolak

Kita akan menunjukkan interpretasi untuk penaksiran data yang didasarkan pada r pertama
komponen utama sampel.
Perhatikan penaksir bentuk

= [
1
,
2
, ,

] berarti pengertian rata rata matriks data

1
,
2
, ,


Error dari penaksir diukur dari jumlah eror kuadrat np
(

)(

=1
) = (

)
2
=1

=1
(8A-1)
Misalkan

sembarang matrik dengan rank(A) r < min(p,n). Eror dari penaksiran jumlah
kuadrat (8A-1) diminimumkan oleh

, ,


Sehingga kolam ke-j dari A adalah

=
1

1
+
2

2
+ +


Dimana [
1
,
2
, ,

] =
1

,
2
(

, ,

)]
Adalah nilai r pertama komponen utama sampel untuk unit ke-j. Selanjutnya ,
(

)(

=1
) = ( 1)(

+1
+ +

)
Dimana

+1
...

adalah nilai eigen terkecil dari S.


Kita akan memilih bidang a+Lb pada dimensi-r sehingga meminimumkan
jumlah kuadrat jarak antara pengamatan

dan bidang. Jika

didekati
oleh +

dengan

<1
= 0
(

)(

<1

= (

+ )(

+ )

<1

= (

)(

) +( )( )

<1

(

))(

))

<1



Interpretasi pendekatan bidang dapat dilakukan dimana pengamat menempatkan
bidang melalui dan memindahkannya untuk memperoleh penyebaran terbaik
diantara bayangan dari pengamatan.
Proyeksi deviasi

pada bidang Lb adalah

= (

)
Untuk v=0, jumlah kuadrat panjang dari proyeksi deviasinya

<1
=

<1

= 1


Yang dimaksimumkan oleh =

dan = 0 sehingga
1 = (

)(

<1
=

<1

Dan bidang ini juga memaksimumkan total varians
=
1
( 1)

<1
=
1
( 1)

<1

Untuk r=1,baris ke-i
1

,
2

, ,

didekati oleh kelipatan

dari vektor b =
1
,
2
, ,

.

kuadrat panjang error dari pendekatan adalah kuadrat panjang
2

=
(

)
2
<1
dengan
()
=

sehingga

=
1

1

1
,
1

1

2
,

,
1

1
(

)
=
1

11
,
12
, ,
1


Meminimumkan jumlah kuadrat panjang
2

<1
yang dientukan oleh vektor
komponen utama pertama.

Komponen utama kedua meminimumkan kuantitas yang sama diantara
semua vektor yang tegak lurus dengan pilihan pertama