Anda di halaman 1dari 14

Principal Component Analysis

Siana Halim

Subhash Sharma, Applied Multivariate Techniques, John Willey


& Sons, 1996
Pendahuluan
Sebuah analis keuangan ingin
menentukan sehat tidaknya y
sebuah departement keuangan
pada sebuah industri. Dalam
penelitian awal telah
Tugas pertama dari analysis
diidentifikasikan terdapat
tersebut
b tentunya adalah
d l h
sejumlah rasio keuangan (kira-
menyederhanakan/mereduksi
kira ada 120 variabel) yang
ke-120 rasio menjadi beberapa
dapat digunakan untuk analisa
index saja
j ((misalnya
y 3),
), yyangg mana
di atas.
atas Tentu saja,
saja tidaklah
index tersebut merupakan
mudah untuk
kombinasi linear dari seluruh
menginterpretasikan 120 buah
rasio awal (120 rasio).
informasi untuk menentukan
apakah departement keuangan
tsb dalam keadaan sehat atau
tidak. Apa yang harus
dilakukannya ?
Pendahuluan
Manajer marketing berkeinginan
untuk membangun sebuah
model regresi untuk
Akanlah sangat membantu, bila
menentukan forecast dari sales.
marketing manajer tersebut
Namun demikian, ternyata
membangun variable „baru“
„baru
variable-variable
i bl i bl yang
yang merupakan kombinasi
seharusnya independent
linear dari variable-variable
ternyata saling berkorelasi
lama, sedemikian hingga variable-
((multicollinearity).
y) Dalam model
variable baru tersebut tidak
regresi adanya multicollinearity
saling berkorelasi. Variable-
dapat menyebabkan standard
variable baru ini dapat digunakan
error dari estimasi parameter
untuk membangun model
sangat tinggi,
tinggi dan model regressi
regresi yang dikehendakinya.
yang dihasilkan menjadi tidak
stabil. Apa yang harus dilakukan
oleh manager tersebut ?
Bagaimana Caranya ?

p Component
Gunakan Principal p y
Analysis
(PCA).

PCA adalah sebuah teknik untuk membangun variable-


variable baru yyangg merupakan
p kombinasi linear dari
variable-variable asli. Jumlah maximum dari variable-
variable baru ini akan sama dengan jumlah dari variable
lama, dan variable-variable baru ini tidak salingg
berkorelasi satu sama lain.
Secara Geometri
X1 X2

Observasi Original Mean Original Mean


x1* = cos θ x1 + sin θ x2
Corrected Corrected

1 16 8 8 5 x2* = − sin θ x1 + cos θ x2


2 12 4 10 7

3 13 5 6 3 Dicari θ optimum ss.d.h


d h variance x1*
4 11 3 2 -1 maximum dan x2* orthogonal (saling
5 10 2 8 5 tegak lurus) dengan x1*
6 9 1 -1 -4

7 8 0 4 1
θ = 43.261
43 261
8 7 -1 6 3

9 5 -3 -3 -6 x1* = 0.728 x1 + 0.685 x2


10 3 -55 -11 -44

11 2 -6 -3 -6 x2* = − 0.685 x1 + 0.728 x2


12 0 -8 0 -3

⎡23.091 16.455⎤ ⎡ 1 0.746⎤


S=⎢ ⎥ R=⎢ ⎥
⎣16.455 21.091⎦ ⎣ 0.746 1 ⎦
Secara Geometri
Mean Corrected Data New Variables
Observasi X1 X2 X1* X2*

1 8 5 9.253 -1.841
2 4 7 7.710 2.356
3 5 3 5.697 -1.242
4 3 -1 1.499 -2.784
5 2 5 4.883 2.271
6 1 -4 -2.013 -3.598
7 0 1 0.685 0.728
8 -1 3 1.328 2.870
9 -3 -6 -6.297 -2.313
10 -5 -4 -6.382 0.514
11 -6 -6 -8.481 -0.257
12 -8 -3 -7.882 3.298
Mean 0 0 0.000 0.000

⎡38.576 0 ⎤ ⎡1 0⎤
SS 424.334 61.666 S=⎢ ⎥ R=⎢ ⎥
⎣ 0 61 .666 ⎦ ⎣0 1 ⎦
Variance 38.576 5.606
Objective dari PCA
Dalam PCA
` Variable-variable baru disebut sebagai principle
component dan nilai-nilai
nilai nilai bentukan dari varible ini
disebut sebagai principle component score.
` Variable yang baru merupakan kombinasi linear dari
variable-variable asli.
asli
` Variable baru pertama berhubungan dengan variance
maximum dari data.
` Variable baru kedua menunjukkan variance maximum
yang belum terhitung pada variable pertama
` Variable baru ketiga menunjukkan variance maximum
yang belum terhitung pada kedua variable pertama
` Variable baru ke-p menunjukkan variance maximum
yang belum terhitung pada p-1 variable terdahulu.
` Seluruh p variable baru tidak berkorelasi.
Loadings
` Loadings adalah korelasi antara variable asli dengan variable
baru.
` Loadings memberikan indikasi variable original mana yang
sangat penting atau mempengaruhi pembentukan variable baru
` Semakin tinggi nilai Loading maka variable lama ybs semakin
memiliki ppengaruh
g terhadapp pembentukan
p variable baru.
` Loading dapat pula dihitung dengan menggunakan rumus sbb:
w ij
l ij = λi
sj
` Lij adalah loading dari variable ke-j untuk principal component
ke i wij adalah bobot dari variable ke-j
ke-i, ke j terhadap principal
component ke-i, λi adalah nilai eigen dari principal component
ke-i dan sj adalah standard deviasi dari variable ke-j
Hal-hal
Hal hal yang berhubungan dengan PCA
1. Adakah effect dari type data (misalnya mean
corrected ataupun
p data yyangg telah di-standard-kan))
terhadap PCA ?
2. Apakah PCA merupakan teknik yang memadai ?
3. Berapakah jumlah Principal Component yang harus
dipilih ?
4
4. B i
Bagaimana menginterpretasikan
i t t ik PCA ?
5. Bagaimana penggunaan dari Principal Component
Scores ?
1. Adakah effect dari type data (misalnya mean corrected ataupun data
yang telah di-standard-kan) terhadap PCA ?
` Secara umum, bobot yang dibebankan /diberikan pada
sebuah variable dipengaruhi oleh variance relative dari
variable karena itu data seharusnya distandardkan s.d.h.
variable, sdh
variance untuk setiap variable menjadi sama (yaitu satu).
` Namun demikian, pilihan antara memproses data awal
dengan
e ga mean ea co
corrected
ecte atau data
ata ya
yangg distandardkan
sta a a juga
tergantung pada faktor-faktor lain.
` Sebagai contoh, jika tidak ada alasan yang memaksa
seorangg p pengambil
g keputusan
p untuk menganggap
g gg p sebuah
variable
i bl lebih
l bih penting
i dari
d i variable
i bl yang lain
l i maka
k analisa
li
akan lebih baik jika kita menggunakan data yang
distandardkan.
` Namun demikian bila, bila ada alasan bahwa variance dari
suatu variable menunjukkan tingkat kepentingan dari
variable tersebut, maka analisa akan lebih baik jika kita
menggunakan
gg mean corrected data.
2.Apakah PCA merupakan teknik yang memadai ?

` Jika objective dari analisa data adalah membangun


kombinasi linear yang tidak saling berkorelasi maka
keputusan apakah PCA cukup baik digunakan atau tidak
tergantung pada apakah hasil dari PCA ini dapat
diinterpretasikan atau tidak. Bila hasil dari PCA tidak
dapat diinterpretasikan, maka penggunakan PCA
tid k ada
tidak d artinya
ti d
dan sebaiknya
b ik dihi
dihindari.
d i
` Jika objective dari analisa data adalah untuk mengurangi
jumlah variable (principle component) yang merupakan
kombinasi linear dari variable-variable
variable variable asli
asli, maka jumlah
principle component harus kurang dari jumlah variable
asli. Dalam kasus seperti ini, PCA hanya boleh
dilakukan bila data dapat p direpresentasikan
p dalam
beberapa buah principle component tanpa
menghilangkan informasi secara substansial
(without a substantial loss of information)
3. Berapakah jumlah Principal Component yang harus
dipilih ?
` Jika data yang digunakan adalah data yang sudah distandardkan,
gunakan aturan nilai eigen yang lebih dari satu untuk
menentukan jumlah principal component
` Plot prosentase dari variance pada tiap principal component
dan lihatlah ppada „„siku“ ppada pplot tersebut ((scree p
plot).
)
Aturan ini dapat digunakan untuk mean-corrected data
ataupun data yang telah distandardkan.
` Gunakan komponen-komponen yang secara statistik
signifikan.
4. Bagaimana menginterpretasikan PCA ?
` Gunakan nilai Loading untuk menginterpretasikan PCA.
Semakin tinggi nilai loading dari suatu variable maka
variable tersebut memiliki pengaruh dalam pembentukan
principle component score dan sebaliknya.
` Secara tradisional, nilai loading yang dianggap sebagai nilai
cutoff adalah 0.5.
5. Bagaimana penggunaan dari Principal Component
Scores ?
` Nilai principal component scores dari dua variable baru
(principal component) utama, dapat digunakan sebagai input
variable untuk data clustering.
` Secara umum scores dari principal component juga dapat
digunakan
g sebagai
g input
p variable untuk analisa regressi
g dan
analisa diskriminant (discriminant analysis)
` Keuntungan menggunakan principal component score adalah
variable-variable baru ini tidak saling berkorelasi sehingga
masalah multicolinearity dapat dihindari.