Anda di halaman 1dari 33

Analisis Komponen Utama

(Principal Components Analysis)


Irlandia Ginanjar
Departemen Statistika, Unpad
Prinsip Dasar
AKU untuk data Populasi
Misalkan kita memiliki populasi yang diukur menggunakan 𝑝
variabel acak 𝑋1 , ⋯ , 𝑋𝑝 . Perhatikan bahwa variabel acak ini
mewakili sumbu 𝒑 dari sistem koordinat Kartesius. Tujuan AKU
adalah mengkonstruksi sebanyak 𝑞 ≤ 𝑝 sumbu baru (yang
merupakan kombinasi linier dari sumbu asli sebanyak 𝑝) ke arah
variabilitas terbesar:
X2

X1

Hal Ini dilakukan dengan memutar sumbu.


Jika matriks data
𝑋1
𝑡 𝑋2
𝐗 = ⋮ ,
𝑋𝑝
didapatkan matriks kovariansi 𝚺 dengan nilai eigen
𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆𝑞 , dan 𝑞 ≤ 𝑝 .

Maka didapatkan sebanyak 𝑞 kombinasi linier:


𝑌1 = 𝐞1𝑡 𝐗 𝑡 = 𝑒11 𝑋1 + 𝑒12 𝑋2 + ⋯ + 𝑒1𝑝 𝑋𝑝
𝑌2 = 𝐞𝑡2 𝐗 𝑡 = 𝑒21 𝑋1 + 𝑒22 𝑋2 + ⋯ + 𝑒2𝑝 𝑋𝑝

𝑌𝑞 = 𝐞𝑡𝑞 𝐗 𝑡 = 𝑒𝑞1 𝑋1 + 𝑒𝑞2 𝑋2 + ⋯ + 𝑒𝑞𝑝 𝑋𝑝

Vektor 𝐞ℓ adalah vektor eigen ortonormal yang


berkorespondensi dengan 𝜆ℓ dari matriks kovariansi 𝚺,
untuk ℓ = 1,2, ⋯ , 𝑞
Jika matriks kovariansi
𝜎11 𝜎12 ⋯ 𝜎1𝑝
𝜎21 𝜎22 ⋯ 𝜎2𝑝
𝚺= ⋮ ⋮ ⋱ ⋮ ,
𝜎𝑝1 𝜎𝑝2 ⋯ 𝜎𝑝𝑝
maka berdasarkan sifat-sifat nilai eigen didapatkan
𝑝 𝑞

෍ Var(𝑋𝑖 ) = 𝜎11 + 𝜎22 + ⋯ + 𝜎𝑝𝑝 = 𝜆1 + 𝜆2 + ⋯ + 𝜆𝑞 = ෍ Var 𝑌ℓ .


𝑖=1 ℓ=1

Sehingga kita dapat menilai seberapa baik komponen utama ke-ℓ 𝑌ℓ


merangkum variabel-variabel acak asli 𝑋. Salah satu metode umum
untuk menghitungnya adalah menggunakan proporsi dari total
varian untuk komponen utama ke-ℓ
𝜆ℓ
𝜏ℓ = 𝑞 ,
σ𝑘=1 𝜆𝑘
Jika sebagian besar varians total dapat diwakili oleh komponen
utama yang relatif sedikit, kita dapat mengganti 𝑝 variabel asli
dengan komponen- komponen utama tersebut tanpa kehilangan
banyak informasi!
Korelasi antara variabel acak asli 𝑋𝑖 dan komponen
utama 𝑌ℓ , dapat ditentukan dengan:
𝑒ℓ𝑖 𝜆ℓ
𝜌𝑌ℓ,𝑋𝑖 =
𝜎𝑖𝑖
Nilai-nilai ini sering digunakan dalam menafsirkan
komponen utama 𝑌ℓ .
Contoh: Misalkan kita memiliki sampel dengan empat
pengamatan yang memiliki tiga variabel acak 𝑋1 , 𝑋2 , dan
𝑋3 :

X1 X2 X3
1.0 6.0 9.0
4.0 12.0 10.0
3.0 12.0 15.0
4.0 10.0 12.0

Tentukan tiga komponen utama populasi 𝑌1 , 𝑌2 , dan 𝑌3 ,


bedasarkan sampel:
Hitung matriks kovarian 𝐒
2.00 3.33 1.33
𝐒 = 3.33 8.00 4.67
1.33 4.67 7.00

dan pasangan nilai eigen dan vektor eigen:


0.291000
λ1 = 13.21944, 𝐞1 = 0.734253
0.613345
0.415126
λ2 = 3.37916, 𝐞2 = 0.480690
−0.772403
0.861968
λ3 = 0.40140, 𝐞3 = −0.479385
0.164927
Sehingga didapatkan komponen utama:

𝑌1 = 𝐞1𝑡 𝐗 = 0.291000𝑋1 + 0.734253𝑋2 + 0.613345𝑋3


𝑌2 = 𝐞𝑡2 𝐗 = 0.415126𝑋1 + 0.480690𝑋2 − 0.772403𝑋3
𝑌3 = 𝐞𝑡3 𝐗 = 0.861968𝑋1 − 0.479385𝑋2 + 0.164927𝑋3

Perhatikan bahwa
Jika elemen dari matriks 𝐒 adalah 𝑠, maka
𝑠11 + 𝑠22 + 𝑠33 = 2.0 + 8.0 + 7.0 = 17.0
= 13.21944 + 3.37916 + 0.40140 = λ1 + λ2 + λ3
dan proporsi dari total varians dari komponen utama
adalah:
λ1 13.21944
𝑞 = = 0.777613814
σ𝑘=1 λ𝑘 17.0

λ2 3.37916
𝑞 = = 0.198774404
σ𝑘=1 λ𝑘 17.0

λ3 0.40140
𝑞 = = 0.023611782
σ𝑘=1 λ𝑘 17.0

Perhatikan bahwa komponen utama ketiga relatif tidak


relevan!
Selanjutnya hitung korelasi antara variabel acak asli
𝑋𝑖 dan komponen utama 𝑌ℓ :

𝑒11 𝜆1 0.291000 13.21944


𝑟𝑦1 ,𝑥1 = = = 0.529016407
𝑠11 2.0
𝑒21 𝜆1 0.734253 13.21944
𝑟𝑦1 ,𝑥2 = = = 0.333704415
𝑠22 8.0
𝑒31 𝜆1 0.613345 13.21944
𝑟𝑦1 ,𝑥3 = = = 0.318576185
𝑠33 7.0
𝑒12 𝜆2 0.415126 3.37916
𝑟𝑦2 ,𝑥1 = = = 0.381552972
𝑠11 2.0

𝑒22 𝜆2 0.480690 3.37916


𝑟𝑦2 ,𝑥2 = = = 0.110453671
𝑠21 8.0
𝑒32 𝜆2 −0.772403 3.37916
𝑟𝑦2,𝑥3 = = = −0.202838600
𝑠33 7.0

𝑒13 𝜆3 0.861968 0.40140


𝑟𝑦3 ,𝑥1 = = = 0.273055007
𝑠11 2.0
𝑒23 𝜆3 −0.479385 0.40140
𝑟𝑦3 ,𝑥2 = = = −0.037964991
𝑠22 8.0

𝑒33 𝜆3 0.164927 0.40140


𝑟𝑦3 ,𝑥3 = = = 0.014927318
𝑠33 7.0
Kita dapat menampilkan hasil ini dalam matriks korelasi:

X1 X2 X3
Y1 0.529016 0.333704 0.318576
Y2 0.381553 0.110454 -0.202839
Y3 0.273055 -0.037965 0.014927

Bagaimana kita menafsirkan hasil ini?

Perhatikan bahwa hasil berdasarkan matriks korelasi


sampel
~
R tidak akan berbeda dari hasil berdasarkan
matriks korelasi populasi.
Transformasi data dengan rata-rata 𝐱ത sebagai pusatnya:

3.0
𝐱ത = 10.0
11.5

Arah sumbu utama diberikan oleh

𝑌1 = 0.291000𝑋1 + 0.734253𝑋2 + 0.613345𝑋3

sedangkan arah dari dua sumbu minor diberikan oleh

𝑌2 = 0.415126𝑋1 + 0.480690𝑋2 − 0.772403𝑋3


𝑌3 = 0.861968𝑋1 − 0.479385𝑋2 + 0.164927𝑋3
Pertama petakan titik pusat:

X2

3.0, 10.0, 11.5 X


1

X3
…kemudian gunakan vektor eigen pertama untuk
mencari titik kedua pada sumbu utama pertama:
X2
𝑌1 = 0.291000𝑋1 + 0.734253𝑋2 + 0.613345𝑋3

Y1

X1

X3

Garis yang menghubungkan kedua titik ini adalah sumbu 𝑌1 .


…lalu lakukan hal yang sama dengan vektor eigen
kedua: Y2
X2 𝑌2 = 0.415126𝑋1 + 0.480690𝑋2 − 0.772403𝑋3

Y1

X1

X3

Garis yang menghubungkan kedua titik ini adalah sumbu 𝑌2 .


…dan lakukan hal yang sama dengan vektor eigen
ketiga: Y2
X2
𝑌3 = 0.861968𝑋1 − 0.479385𝑋2 + 0.164927𝑋3

Y1

X1

Y3

X3

Garis yang menghubungkan kedua titik ini adalah sumbu 𝑌3 .


Apa yang telah dilakukan adalah rotasi…
Y2

X2

Y1

X1

Y3

X3
dan translasi pada p = 3 dimensi.
Y2 Y2
X2

Perhatikan bahwa
sumbu yang diputar
tetap ortogonal! Y1

X1

Y3

X3
AKU dari data terstandar
Misalkan 𝑍𝑖 adalah variabel yang distandarisasi dari 𝑋𝑖 dengan
perhitungan:
𝑋𝑖 − 𝜇𝑖
𝑍𝑖 = , 𝑖 = 1,2, ⋯ , 𝑝
𝜎𝑖𝑖
Dengan notasi matriks :
1Τ2 −1
𝐙= 𝐕 (𝐗 − 𝐌)
𝐕 1Τ2 : adalah matriks diagonal dengan diagonal utamanya
adalah nilai simpangan baku untuk setiap variabel 𝑋𝑖
𝐌 : adalah matriks berukuran (𝑝 × 𝑛) yang semua elemen
dari setiap barisnya adalah 𝜇𝑖
AKU dari data terstandar
Akibatnya
𝐸 𝑍𝑖 = 0
dan
1Τ2 −1 1Τ2 −1
𝐶𝑜𝑣 𝐙 = 𝐕 𝚺 𝐕 =𝛒
Ini menunjukkan bahwa komponen utama untuk variabel
standar 𝑍𝑖 dapat diperoleh dari vektor eigen dari matriks
korelasi 𝜌
Operasi ini analog dengan yang digunakan dalam perhitungan
menggunakan matriks kovarians.
AKU dari data terstandar
Sehingga dapat ditunjukan bahwa, variabel acak 𝑍𝑖 (variabel
standar) dengan matriks kovariansi 𝛒 dan nilai eigen 𝜆1 ≥ 𝜆2 ≥
⋯ ≥ 𝜆𝑞 > 0, komponen utama ke-𝑖 adalah:
−1
𝑌𝑖 = 𝐞𝑡𝑖 𝐙 = 𝐞𝑡𝑖 𝐕 1Τ2 (𝐗 − 𝐌)
AKU dari data terstandar
Juga dapat ditunjukan untuk variabel acak 𝑍𝑖 dengan matriks
kovariansi 𝛒 dan pasangan vektor dan nilai eigen
𝜆1 , 𝐞1 , 𝜆2 , 𝐞2 , ⋯ , (𝜆𝑞 , 𝐞𝑞 ), dengan 𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆𝑞 > 0
𝑝 𝑞

෍ Var(𝑍𝑖 ) = 𝜆1 + 𝜆2 + ⋯ + 𝜆𝑞 = ෍ Var 𝑌ℓ = 𝑝.
𝑖=1 ℓ=1
Sehingga kita dapat menilai seberapa baik komponen utama ke-
ℓ dari 𝑌ℓ yang merangkum variabel-variabel acak 𝑍.
𝜆ℓ
𝜏ℓ = ,
𝑝
Jika sebagian besar varians total dapat diwakili oleh komponen
utama yang relatif sedikit, kita dapat mengganti 𝑝 variabel asli
dengan komponen- komponen utama tersebut tanpa kehilangan
banyak informasi!
AKU dari data terstandar
Korelasi antara variabel acak asli 𝑋𝑖 dan komponen utama 𝑌ℓ ,
dapat ditentukan dengan:
𝜌𝑌ℓ ,𝑍𝑖 = 𝑒ℓ𝑖 𝜆ℓ
Nilai-nilai ini sering digunakan dalam menafsirkan komponen
utama 𝑌ℓ .
AKU dari data terstandar
Contoh: Misalkan kita memiliki populasi dengan empat
pengamatan yang memiliki tiga variabel acak 𝑋1 , 𝑋2 , dan 𝑋3 :

X1 X2 X3
1.0 6.0 9.0
4.0 12.0 10.0
3.0 12.0 15.0
4.0 10.0 12.0

Temukan tiga variabel komponen utama populasi 𝑌1 , 𝑌2 , dan 𝑌3


untuk variabel acak standar 𝑍1 , 𝑍2 , dan 𝑍3 :
Kita dapat mengstandarkan variabel 𝑋1 , 𝑋2 , dan 𝑋3 , kemudian bekerja
dengan matriks kovariansi 𝐒 yang dihasilkan, tetapi jauh lebih mudah
untuk melanjutkan langsung dengan matriks korelasi 𝐑:
~
1.000 0.833 0.356
𝐑 = 0.833 1.000 0.624
0.356 0.624 1.000

dengan pasangan vektor dan nilai eigen:


0.58437383
𝜆ሶ1 = 2.2149347, 𝐞ሶ 1 = 0.63457754
0.50578527
−0.5449250 Hasil ini berbeda
𝜆ሶ 2 = 0.6226418, 𝐞ሶ 2 = −0.1549791 dari komponen
0.8240377 utama berbasis
0.6013018 kovarian!
𝜆ሶ 3 = 0.1624235, 𝐞ሶ 3 = −0.7571610
0.2552315
Sehingga, komponen utama yang didapatkan:

𝑌1 = 𝐞ሶ 1𝑡 𝐙Ӈ = 0.5843738𝑍1 + 0.6345775𝑍2 + 0.5057853𝑍3


𝑌2 = 𝐞ሶ 𝑡2 𝐙Ӈ = −0.5449250𝑍1 − 0.1549791𝑍2 + 0.8240377𝑍3
𝑌3 = 𝐞ሶ 𝑡3 𝐙Ӈ = 0.6013018𝑍1 − 0.7571610𝑍2 + 0.2552315𝑍3

Perhatikan bahwa:

Jika elemen dari matriks 𝐑 adalah 𝑟, maka


𝑟11 + 𝑟22 + 𝑟33 = 1.0 + 1.0 + 1.0 = 3.0
= 2.2149347 + 0.6226418 + 0.1624235 = λ1 + λ2 + λ3
dan proporsi varians populasi untuk masing-masing komponen utama:

λሶ 1 2.2149347
𝑞 = = 0.738311567
σ𝑘=1 λሶ 𝑘 3.0

λሶ 2 0.6226418
𝑞 = = 0.207547267

σ𝑘=1 λ𝑘 3

λሶ 3 0.1624235
𝑞 = = 0.054141167
σ𝑘=1 λሶ 𝑘 3

Perhatikan bahwa komponen utama ketiga relatif tidak relevan!


Selanjutnya hitung korelasi antara variabel acak 𝑍𝑖 dan komponen utama
𝑌ℓ :

𝑟𝑌1 ,𝑍1 = 𝑒11


ሶ 𝜆ሶ1 = 0.58437383 2.2149347 = 0.869703464

𝑟𝑌1,𝑍2 = 𝑒ሶ21 𝜆ሶ1 = 0.6345775 2.2149347 = 0.944419907

𝑟𝑌1 ,𝑍3 = 𝑒ሶ31 𝜆ሶ1 = 0.5057853 2.2149347 = 0.752742749

𝑟𝑌2 ,𝑍1 = 𝑒12


ሶ 𝜆ሶ 2 = −0.5449250 0.6226418 = −0.429987538

𝑟𝑌2 ,𝑍2 = 𝑒ሶ22 𝜆ሶ 2 = −0.1549791 0.6226418 = −0.122290294


𝑟𝑌2 ,𝑍3 = 𝑒ሶ32 𝜆ሶ 2 = 0.8240377 0.6226418 = 0.650228824

𝑟𝑌3 ,𝑍1 = 𝑒13


ሶ 𝜆ሶ 3 = 0.6013018 0.1624235 = 0.242335443

𝑟𝑌3 ,𝑍2 = 𝑒ሶ23 𝜆ሶ 3 = −0.7571610 0.1624235 = −0.305149504

𝑟𝑌3,𝑍3 = 𝑒ሶ33 𝜆ሶ 3 = 0.2552315 0.1624235 = 0.102862886


Tampilkan hasil dalam matriks korelasi:

Z1 Z2 Z3
Y1 0.8697035 0.944420 0.7527427
Y2 -0.4299875 -0.122290 0.6502288
Y3 0.2423354 -0.305150 0.1028629

Informasi:
- komponen utama pertama (𝑌1 ) adalah campuran dari
ketiga variabel acak (𝑋1 , 𝑋2 , dan 𝑋3 )
- komponen utama kedua (𝑌2 ) adalah gabungan antara
𝑋1 dan 𝑋3
- komponen utama ketiga (𝑌3 ) merupakan sisa dari 𝑋1
dan 𝑋2
Terima Kasih
Pembahasan selanjutnya adalah :
Analisis Faktor

Anda mungkin juga menyukai