KOMPONEN UTAMA
Diajukan Untuk Memenuhi Salah Satu Tugas Mata Kuliah Analisis Multivariat
Disusun oleh:
2009
KATA PENGANTAR
Segala puji bagi Allah SWT yang telah memberikan rahmat, ridho serta
Makalah ini disusun sebagai salah satu tugas untuk mata kuliah Metode
kekurangan dalam bentuk penulisan makalah ini. Untuk itu adanya saran dan
Drs. Jarnawi M.kes yang telah membantu dan mendukung dalam pembuatan
makalah ini.
Akhir kata, penulis berharap kiranya makalah ini dapat bermanfaat bagi
Penulis
BAB I
PENDAHULUAN
seringkali keragaman total itu dapat diterangkan secara memuaskan oleh sejumlah
kecil komponen utama, katakanlah oleh k buah komponen utama, dimana k < p.
jika demikian halnya, maka kita akan memperoleh bagian terbesar informasi
tentang struktur varians-kovarians dari p buah variabel asal itu dalam k buah
komponen utama. Dalam hal ini k buah komponen utama dapat mengganti p buah
variabel asal serta kumpulan data asli dalam bentuk matriks berukuran n x p dapat
Analisis komponen utama sering kali dilakukan tidak saja merupakan akhir
dari suatu pekerjaan pengolahan data tetapi juga merupakan tahap (langkah)
antara dalam kebanyakan penelitian yang bersifat lebih besar (luas). Analisis
sebagai input dalam membangun analisis regresi, demikian pula dalam analisis
gerombol (cluster analysis) komponen utama dipergunakan sebagai input untuk
melakukan pengelompokan.
Tujuan dari penelitian ini secara umum adalah untuk memperkenalkan dan
utama.
sistematika penulisan.
BAB II : Mengemukakan
ISI
Novitri Simanjuntak
055813
yang kita lihat, komponen utama semata-mata bergantung pada matriks kovarians
. .
. .
. .
Yp = l ' p X = l1 p X 1 + l 2 p X 2 + ... + l pp X p
komponen utama adalah kombinasi linear Y1 , Y2 ,..., Yp dimana variansi pada (8-2)
sebesar mungkin.
maksimum. Yang memaksimumkan Var (Y1 ) = l '1 l1 . Jelas Var (Y1 ) = l '1 l1
di atas, maka dapat dibuat pernyataan umum yang berkaitan dengan konsep
diberikan oleh
Dengan,
Var (Yi ) = e 'i ei = i i = 1, 2,..., p
Jika beberapa i sama, dengan vektor koefisien ei yang bersesuaian, maka Yi tdak
tunggal.
l ' l
max = 1 ( diperoleh ketika l = e1 )
l0 l 'l
l ' l e ' e
max = 1 = 1 1 = e '1 e1 = Var (Yi )
l0 l 'l e '1 e1
l ' l
max = k +1 k = 1,2,,p 1
l e1 , e2 ,..., ek l 'l
e 'k +1 ek +1
= e 'k +1 ek +1 = Var (Yk +1 )
e 'k +1 ek +1
1 , 2 ,..., p berbeda.jika nilai eigen tidak berbeda semuanya, maka vektor eigen
yang bersesuaian dengan nilai eigen dapat dipilih supaya orthogonal. Dengan
ik.
terbukti.
Dari akibat 8.1, komponen utama tidak berkorelasi dan memiliki variansi
p p
11 + 22 + ... + pp = Var ( X i ) = 1 + 2 + ... + p = Var (Yi )
i =1 i =1
A = , kita dapat menulis = PP ' dimana adalah matriks diagonal dari nilai
p p
Maka, Var ( X ) = tr () = tr () = Var (Y )
i =1
i
i =1
i
Misal apabila p berukuran besar, sedangkan diketahui bahwa sekitar 80% - 90%
variansi populasi total telah mampu diterangkan oleh satu, dua, atau tiga
komponen utama yang pertama, maka komponen-komponen utama itu telah dapat
Setiap komponen dari vektor koefisien e 'i = e1i ,..., eki ,..., e pi juga harus
diperiksa. Besar eki diukur dari variabel ke-k ke komponen utama ke-i, tanpa
eki i
Y , X = i, k = 1, 2,, p (8-8)
i k
kk
(1, e1 ), (2, e2 ),..., ( p , e p ) adalah pasangan nilai eigen vektor eigen dari .
Bukti. Ambil l 'k = [ 0,..., 0,1, 0,..., 0] sedemikian sehingga berdasarkan (2-
Cov(Yi , X k ) i eki e
Y , X = = = ki i i, k = 1, 2,, p
i k
Var (Yi ) Var ( X k ) i kk kk
Contoh 8.1
1 2 0
= 2 5 0
0 0 2
2 = 2, 00 e '2 = [ 0, 0,1]
= 0,147(1) + 0,854(5)-0,708(-2)
= 5,83 = 1
Cov(Y1 , Y2 ) = Cov(0,383 X1 0,924 X 2 , X 3 )
= 0,383Cov( X1 , X 3 ) 0,924Cov( X 2 , X 3 )
= 0,383(0) 0,924(0) = 0
11 + 22 + 33 = 1 + 5 + 2 = 1 + 2 + 3 = 5,83 + 2, 00 + 0,17
seperti yang ditunjukkan oleh persamaan (8-6). Proporsi variansi total untuk
komponen utama kedua adalah (5,83 + 2) / 8 = 0,98 dari variansi populasi. Dalam
hal ini komponen Y1 dan Y2 dapat mengganti ketiga variabel asal tanpa
2 2
Juga Y2 X1 = Y2 X 2 = 0 dan Y2 X 3 = = =1
33 2
( x ) ' 1 ( x ) = c 2
dengan sumbu c i ei , i = 1, 2,..., p , dimana (i , ei ) adalah pasangan nilai eigen-
vektor eigen dari . Titik A yang berada pada sumbu ke-i dari ellipsoid akan
memiliki proporsional koordinat terhadap e 'i = e1i ,..., eki ,..., e pi dalam sistem
koordinat dengan titik asal dan sumbu yang sejajar dengan sumbu awal
1 1 1
c 2 = x ' 1 x = (e '1 x)2 + (e '2 x) 2 + ... + (e ' p x ) 2
1 2 p
adalah komponen utama dari x. Ambil y1 = e '1 x, y2 = e '2 x,..., y p = e ' p x , maka
didapat
1 1 1
c2 = y12 + y2 2 + ... + yp2
1 2 p
positif) pada sistem koordinat dengan sumbu y1 , y2 ,..., y p terletak dengan arah
e1 , e2 ,..., e p secara berurutan. Jika 1 adalah nilai eigen terbesar, maka sumbu
dengan arah sumbu kepadatan ellipsoid konstan. Sehingga, setiap titik pada
sumbu ellipsoid ke-i proporsional koordinat x dengan e 'i = e1i , e2i ,..., e pi dan
055519
( X 1 1 )
Z1 =
11
( X 2 2 )
Z2 =
22
(8-9)
(X p p)
Zp =
pp
bentuk matriks,
Z = (V 1/ 2 )1 ( X ) (8-10)
11 0 L 0
0 22 L 0
V 1/ 2 =
M M O M
0 0 L pp
V 1 2 V 1 2 = dan = (V 1 2 ) (V 1 2 )
1 1
korelasi dari X. Semua hasil yang sebelumnya berlaku, tapi dengan beberapa
penyederhanaan karena variansi dari setiap Zi adalah unity(kesatuan). Kita dapat
tetap menggunakan notasi Yi untuk mengacu pada komponen utama ke-i dan
(i , ei ) untuk pasangan nilai eigen-vektor eigen. Akan tetapi, nilai yang didapat
Hasil 8.4. Komponen utama ke-i dari variabel baku (variabel asal yang
diberikan oleh
Selain itu,
p p
Dan
Y , Z = eki i , i, k = 1, 2,..., p
i k
Bukti. Hasil 8.4 mengikuti dari hasil 8.1, 8.2, dan 8.3, dengan Z1 , Z 2 ,..., Z p
Kita lihat dari (8-11) bahwa total (variabel baku) variansi populasinya
sebagai pengganti X, proporsi dari total variansi yang dijelaskan oleh komponen
Contoh 8.2 (Komponen Utama yang Diperoleh dari Matriks Kovarians dan
Korelasi)
1 4
=
4 100
1 0.4
=
0.4 1
= 0
1 4 1 0
=0
4 100 0 1
1 4
=0
4 100
( (1 )(100 ) ) ( 4 )( 4 ) = 0
100 100 + 2 16 = 0
2 101 + 84 = 0
b b 2 4ac
1,2 =
2a
101 ( 101) 4 (1)(84 )
2
1,2 =
2 (1)
101 99.32270637
1,2 =
2
101 + 99.32270637
1 = = 100.1613532 100.16
2
dan
101 99.32270637
2 = = 0.838646815 0.84
2
x
Jika Ax = x , maka vektor eigennya adalah e =
x'x
1 4
A== dan 1 = 100.16, 2 = 0.84 , maka
4 100
x = 1 x x = 2 x
1 4 x1 x1 (1) dan 1 4 x1 x1 (2)
4 100 x = 100.16 x 4 100 x = 0.84 x
2 2 2 2
x1 + 4 x2 = 100.16 x1
4 x1 + 100 x2 = 100.16 x2
1 + 4 x2 = 100.16 (1)
4 (1) + 100 x2 = 100.16 x2
1
Diperoleh x1 = 1 dan x2 = 24.79 , sehingga x = .
24.79
1 1 1
24.79 24.79
e1 = 24.79 = = = 0.040
1 (1)(1) + ( 24.79 )( 24.79 ) 24.81016122 0.999
[1, 24.79]
24.79
x1 + 4 x2 = 0.84 x1
4 x1 + 100 x2 = 0.84 x2
1 + 4 x2 = 0.84 (1)
4 (1) + 100 x2 = 0.84 x2
1
Diperoleh x1 = 1 dan x2 = 0.04 , sehingga x = .
0.04
1 1 1
0.04 0.04 0.04
e2 = = = = 0.999
1 (1)(1) + ( 0.04 )( 0.04 ) 1.00079968 0.040
[1, 0.04]
0.04
Dengan cara yang sama, pasangan nilai eigen-vektor eigen dari adalah
Y1 = 0.040 X 1 + 0.999 X 2
:
Y2 = 0.999 X 1 0.040 X 2
Dan
X X 2
Y1 = 0.707 Z1 + 0.707 Z 2 = 0.707 1 1 + 0.707 2
1 10
= 0.707( X 1 1 ) + 0.0707( X 2 2 )
:
X X 2
Y1 = 0.707 Z1 0.707 Z 2 = 0.707 1 1 0.707 2
1 10
= 0.707( X 1 1 ) 0.0707( X 2 2 )
utama pertama yang ditentukan dari . Selain itu, komponen utama pertama
menjelaskan proporsi
1 100.16
= = 0.992
1 + 2 101
variable yang berkontribusi sama untuk komponen utama yang ditentukan dari .
Dan
1 1.4
= = 0.7
p 2
pengukuran dengan jarak berbeda yang luas atau jika satuan pengukurannya tidak
asset) dalam jarak 0.01 sampai 0.60, maka total variasi akan eksklusif mendekati
penjualan dolar. Dalam ini, kita harapkan komponen utama tunggal (penting)
dengan menimbang berat X1. Sebagai kemungkinan lain, jika kedua variable
dibakukan, kepentingan yang berikut akan menjadi order yang sama dan X2 (atau
Z2) akan memainkan peran yang lebih besar dalam konstruksi komponen. Hal ini
diagonal
11 0 L 0
0 L 0
=
22
(8-13)
M M O M
0 0 L pp
Pilih e 'i = [ 0,K, 0,1, 0,K, 0] , dengan 1 pada posisi ke-i, kita perhatikan bahwa
0 0
M M
11 0 L 0
0 0 0
L 0
1 = 1 or ei = ii ei
22
M M O M ii
0 0
0 0 L pp
M M
0 0
Dan kita simpulkan bahwa ( ii , ei ) adalah pasangan nilai eigen-vektor eigen ke-i.
Untuk matriks kovarians dengan pola pada (8-13), tidak ada apapun yang
diperoleh dari mencari komponen utama. Dari segi pandangan lain, jika X
X nya berada pada arah variasi maksimum. Konsekwensinya, tidah usah berputar
maka nilai eigen 1 mempunyai keragaman p dan e 'i = [ 0,K, 0,1, 0,K, 0] ,
Z1 , K , Z p . Selain itu, dalam hal ini nilai eigen sama, elipsoid normal multivariate
2 2 L 2
2
2 L 2
= (8-14)
M M O M
2
2 L 2
Adalah juga matriks kovarians dari variabel yang dibakukan. Matriks pada (8-15)
p nilai eigen dari matriks korelasi (8-15) dapat dibagi menjadi dua grup.
1 = 1 + ( p 1) (8-16)
1 1 1
e '1 = , , K, (8-17)
p p p
2 = 3 = L = p = 1
1 1
e '2 = , , 0, K , 0
1x2 1x2
1 1 2
e '3 = , , , 0, K , 0
2x3 2x3 2x3
M
1 1 (i 1)
e 'i = ,K , , , 0, K , 0
(i 1)i (i 1)i (i 1)i
M
1 1 ( p 1)
e 'p = ,K, ,
(p 1)p (p 1)p (p 1)p
Sebanding dengan jumlah dari p variable asli. Itu bisa dianggap sebagai indeks
1 1 + ( p + 1) 1
= =+ (8-18)
p p p
Dari total variasi populasi. Kita lihat bahwa 1 / p = untuk dekat dengan 1
secara bersama, menyumbang sangat kecil pada total variansi dan sering
diabaikan.
matriks kovarians yang diberikan oleh (8-15), maka ellipsoid dari kepadatan tetap
( )
pertama Y1 = 1/ p [1,1, K ,1] X . Komponen utama ini menjadi proyeksi X pada
garis equiangular 1' = [1,1,K,1] . Sumbu tambahan (dan sisa komponen utama)
berbentuk bola arah simetris yang tegak lurus dengan sumbu utama (dan
041248
)
komponen utama y = e) ( x x ) adalah realisasi dari populasi komponen utama
i i
) )
Y = e ( X ) yang
i i
berdistribusi N p
(0,) . Matrik diagonal mempunyai
entri-entri ,
1 2
,....., p
dan ( , e ) adalah
i i
sepasang nilai eigen-vektor
dan dengan S. Jika S adalah terdefinisi dan positif. Bentuk garis (contour)
1
terdiri dari semua px1 vektor yang memenuhi ( x x )' S ( x x ) = c (8.24)
2
mungkin aagak menyimpang dari bentuk ellipsoid tapi kita tetap dapat menggali
nilai eigen dari S dan memperoleh sampel komponen utama. Secara geometri
data meungkin diplot sebagai n titik pada ruang p. Data dapat diekspresikan
dalam koordinat baru, yang serupa dengan sumbu garis bentuk dari (8.24)
1
sumbu diberikan oleh vektor eigen dari S atau sama dengan S . panjang dari
sumbu hyperlipsoid ini adalah sebanding dengan i
, i= 1,2.,p dimana
)
1 2
..... p 0 adalah nilai eigen dari S. Karena e mempunyai
i
)
panjang 1, nilai mutlak dari komponen utama ke I y = e) ( x x )
i i
memberikan
)
panjang proyeksi (x- x ) pada arah dari sumbu e i
Konsekuensinya sampel
komponen utama dapat dipandang sebagai hasil dari translasi dari system
koordinat asli x dan koordinat sumbu x melewati penyebaran arah dari variansi
diilustrasikan pada gambar 8.2 untuk p=2. Gambar 8.2(a) menunjukkan sebuah
elip dengan jarak konstan, dengan pusat x dengan . Sampel komponen
utama ditentukan dengan baik. Mereka terletak sepanjang sumbu x dari ellipsoid
menunjukkan sebuah jarak ellip dengan pusat x dengan = . Pada kasus ini
sumbu dari ellips( lingkaran) jarak konstan ellips(lingkarang adalah tidak unik,
dan terletak pada dua arah perpotongan, termasuk perpotongan dari sumbu asli.
Ketika garis bentuk dari jarak konstan hampir bundar atau sama dengan ketika
nilai eigen dari S hampir sama . Variansi sampel adalah homogen dalam semua
arah , maka itu tidak mungkin mewakili data yang baik yang lebik sedikit dari p
dimensi.
Jika akhirnya nilai eigen cukup kecil sedemikian sehingga varians
Dena Rahayu
055521
perubahan dalam skala (lihat lat 8.2). Ketika kita menyebutkan perlakuan dalam
komponen populasi, satuan pengukuran dari variabel-variabel x1, x2, x3, ..., xn
berbeda, maka satuan varians baku pengukuran itu perlu dibakukan dengan jalan
(8-25)
( #
z =
Z =
1 # = 0
( (
#
(8-27)
( #
1 ! "
1 1 1 1
S4 = 7Z Z8 9 7Z Z8 9 = :Z z1; <:Z z1; <;
n1 n n n1
= ZZ
(
di mana (GB , eAB < adalah pasangan nilai eigen vektor eigen ke-i dari R dengan
G G G+ 0. Juga,
Gunakan (8-29), proporsi total varians sampel yang diterangkan oleh sampel
adalah lebih besar dari kesatuan atau setara dengan, hanya komponen itu yang
secara individu, menjelaskan sedikitnya suatu proporsi 1/p dari total varians.
Aturan ini tidak mempunyai banyak pendukung teoritis, bagaimanapun, dan itu
Contoh 8.5
du Pont, Union Carbide, Exxon, dan Texaco) yang didaftarkan di pasar bursa New
York telah ditentukan untuk periode Januari 1975 sampai Desember 1976.
yang menutup harga) yang disesuaikan untuk saham yang dipecah dan dividen.
Data tersebut didaftarkan pada tabel 8.1 dalam latihan. Pengamatan dalam 100
diamati untuk Allied Chemical, du Pont, Union Carbide, Exxon, dan Texaco
distandardisasi.
Nilai eigen dan yang dinormalisir bersesuaian dengan vektors eigen R telah
dihargai, atau index, dari lima bursa/stock. Komponen ini boleh jadi disebut suatu
pasar. (Sesungguhnya, lima bursa/stock ini adalah tercakup di Dow Jones Industri
Average)
kimia (Allied Chemical, du Pont, dan Union Carbide) dan bursa/stock minyak
(Exxon dan Texaco). Itu mungkin disebut suatu komponen industri. Dengan
bursa/stock ini adalah dalam kaitan dengan aktivitas pasar dan tidak dihubungkan
telah pula diusulkan oleh Raja. Komponen yang sisanya tidaklah mudah untuk
Contoh ini menyediakan suatu kasus di mana itu nampak masuk akal untuk
mempertahankan suatu komponen :yA < berhubungan dengan suatu nilai eigen
kurang dari 1.
Contoh 8.6
Ahli genetika sering terkait dengan warisan dalam karakteristik yang dapat
diukur beberapa kali selama seumur hidup binatang. Berat badan (dalam gram)
untuk n = 150 tikus-tikus betina telah diperoleh dengan seketika setelah kelahiran
mereka yang pertama. Berat lahir tikus betina ditampilkan dari matriks ini dengan
Catatan kita bahwa nilai eigen yang pertama mendekati sama dengan 1 + (p 1) op
unsur diagonal-off dalam R. Sisa nilai eigen adalah kecil dan sekitar sama,
walaupun Gk sedikit banyaknya lebih kecil dibanding dan Gj . Maka ada
dalam korelasi sama berbentuk seperti dalam (8-15). Dugaan ini diselidiki lebih
G
meliputi 100 r s t % = 100 r t % = 76% dari total variansi. Walaupun berat
j.u`v
k
rata-rata pos kelahiran meningkat dari waktu ke waktu, variasi dalam berat cukup
baik diterangkan oleh komponen utama yang pertama dengan koefisien yang
hampir sama.
2.3 Grafik komponen utama
Karena komponen utama adalah kombinasi linear dalam variabel yang asli, itu
komponen utama yang awal kira-kira berdistribusi normal ketika plot dalam
dari himpunan lengkap vektor eigen eA , eA , , eA+ dalam S. Maka penting dalam
pengamatan. Yaitu :
yA eA + yA eA + + yAw eAw berbeda dengan x dari yAw eAw + +
akan sering sedemikian hingga sedikitnya satu dai koordinat yAw , , yA+
menyebar untuk pasangan komponen utama yang awal. Juga membuat Q-Q plot
2. Konstruksi diagram yang menyebar dan Q-Q plot untuk awal komponen utama
mempunyai beberapa model yang cocok dari metoda penilaian manapun, hal itu
atau eA = y z G, j = 1, 2, ..., n
(p x 1) (p x 1) (p x 1)
sama sebagai yang ditentukan dari suatu sampel acak. Kita harus sadar bahwa ada
ketergantungan linier di antara yang bersifat sisa dari suatu analisa regresi linier,
sehingga nilai eigen yang terakhir akan menjadi nol di dalam membulatkan
kesalahan.
Naomi Nessyana
055589
Nilai eigen dan vektor eigen dari matriks kovarian (korelasi) adalah analisis
variansi.
Karena variasi penarikan sampel, nilai eigen dan vektor eigen ini akan berbeda
dari populasinya.
Sifat-Sifat
Sifat Sampel Besar
Besa
normal. Ini juga diasumsikan nilai eigen yang tidak diketahui dari ada dan
angka dari nilai eigen diketahui. Biasanya konklusi untuk nilai eigen ada di
gunakan kecuali kalau ada alasan yang kuat untuk mempercayai mempunyai
asumsi normal dilanggar, interval kepercayaan pada cara ini tersedia untuk
(8-33)
Asumsikan persediaan suku dari hasil yang mewakili gambar dari populasi
Sewaktu-waktu
waktu nilai eigen besar, misalkan 100 atau bahkan 1000. Pada umumnya
dapat menjadi besar, untuk level kepercayaan masuk akal. Pada umumnya interval
membesar.
Pengujian
ian Kesamaan Struktur Korelasi
Tetapi lawley menunjukkan hal itu ekuivalen dengan prosedur uji yang dapat
(8-34)
terima jika
(8-35)
Contoh 8-9:
Matriks sampel korelasi dikonstruksi dari berat lahir tikus betina yang
sampel besar
dengan lebih kecil daripada dan . Akibatnya, dengan ukuran sampel besar
pada masalah ini, perbedaannya kecil dari struktur sehingga matriks kesamaan
pada r pertama komponen utama sampel. Interpretasi dari sebaran plot dan bidang
(8A-1)
Hasil 8A-1.
1. MIsalkan sembarang matrik dengan rank (A) r<min(p,n).
dimana
Bukti:
oleh atau
(8A-2)
proyeksi
(8A-3)
memaksimumkan
maksimumkan hubungan terakhir 8A-3.
8A Dengan sifat-sifat
sifat dari trace
(8A-
dan .
sehingga tr . Juga
Interpretasi Bidang Geometri Dimensi p
menyebar dimensi p. bidang asal ditentukan oleh yang terdiri dari semua
titik x dengan
jumlah kuadrat jarak antara pengamatan dan bidang. Jika ditaksir oleh
dengan
adalah
ditentukan oleh nilai vektor dari komponen utama pertama. Ilustrasi ini pada
gambar 8.6 di halaman 388. Vektor deviasi lebih panjang mempunyai pengaruh
Jika variabel-variabel
variabel adalah
adalah standardisasi pertama, vektor hasilnya
meminimumkan kuantitas yang sama selama semua vektor tegak lurus pada
pilihan pertama.
BAB III
KESIMPULAN
X 1 , X 2 ,..., X p
variabel acak . Secara geometris, kombinasi linier ini
X 1 , X 2 ,..., X p
merotasikan sistem awal dengan sebagai sumbu koordinat.
1 2 ... p 0
, maka komponen uama ke-i diberikan oleh
Dengan,
Cov(Yi , Yk ) = e 'i ek = 0 ik
Dan proporsi total varians dari komponen utama ke-k dari X adalah
}o~}~o o
}~} ~ o
| =
~}~
k = 1,2,,p
(X p p )
Zp =
pp bergantung pada matriks korelasi yang memiliki pasangan
Dengan,
p p
Var (Y ) = Var ( Z ) = p
i =1
i
i =1
i
Y , Z = eki i , i, k = 1, 2,..., p
i k
Dan proporsi total varians dari komponen utama ke-k dari Z adalah
Dengan,
Varians sampel :A < =
k , k = 1, 2, , p
Kovarians sampel
( yi , y k ) = 0, ik
p
= sii =1 + 2 + ... + p
Dan total varians sampel i =1
eki i
ryi , xk = , i, k = 1, 2,..., p
skk
pengamatan yang distandardisasi) di mana ( GB , eAB < adalah pasangan nilai eigen
Dengan,
Proporsi total varians sampel yang diterangkan oleh komponen utama sampel ke-i
adalah