Anda di halaman 1dari 23

Bab 4.

Principal Components Analysis


Pertimbangkan skenario-skenario berikut ini.

1. Seorang analis keuangan tertarik untuk menentukan kesehatan keuangan dari perusahan-
perusahan dalam industri yang diketahui. Hasil-hasil penelitian telah mengidentifikasikan
sejumlah rasio finansial (sebutlah 120) yang dapat digunakan untuk tujuan tersebut.
Sesungguhnya seorang analis amat terbeban ketika menginterpretasi 120 informasi untuk
mengetahui kesehatan keuangan dari perusahan-perusahan. Namun, tugas analis
keuangan ini akan menjadi sederhana jika ke 120 rasio ini dapat dikurangi menjadi
beberapa indeks (sebutlah 3) yang adalah kombinasi-kombinasi linear dari 120 rasio
yang asli.
2. Departemen pengendali mutu tertarik untuk mengembangkan beberapa indeks majemuk
kunci dari begitu banyak informasi yang berasal dari proses manufaktur untuk
menentukan apakah proses itu terkendali atau tak terkendali.
3. Manager pemasaran tertarik untuk mengembangkan sebuah model regresi untuk
meramal penjualan. Akan tetapi variabel-variabel bebas yang dipertimbangkan
berkorelasi dikalangan mereka. Artinya, dalam data terdapat multicolinearitas. Telah
diketahui bahwa kehadiran multikolinearitas itu, standar-standar eror dari parameter
estimasi dapat menjadi tinggi, dan mengakibatkan estimasi yang tidak stabil dari model
regresi. Akan amat sangat membantu, jika manager pemasaran dapat membentuk
variabel-variabel baru sedemikian sehingga variabel-variabel baru itu tidak berkorelasi
diantara mereka. Variabel-variabel yang baru ini dapat digunakan untuk
mengembangkan sebuah model regresi.

Analisis komponen-komponen utama adalah suatu teknik yang cocok untuk mencapai setiap
tujuan yang dikemukakan tadi. Analisis komponen-komponen utama adalah suatu teknik untuk
membentuk variable baru yang adalah komposisi linear dari variabel-variabel original. Jumlah
maksimum dari variabel baru yang dapat dibentuk adalah paling banyak sama dengan banyaknya
variabel original, dan variabel-variabel yang baru itu tidak saling berkorelasi diantara mereka.

Analisis komponen – komponen utama seringkali dikira sebagai analisis faktor, yaitu sekalipun
ada hubungan antara mereka, namun keduanya secara konseptual adalah teknik-teknik yang
berbeda. Hal ini mungkin disebabkan karena pada kenyataannya bahwa dalam banyak paket
komputer (misalnya SPSS) analisis komponen utama adalah suatu opsi dari prosedur analisis
faktor. Bab ini memusatkan bahasannya mengenai analisis komponen-komponen utama; bab
berikutnya membahas tentang analisis faktor dan menjelaskan perbedaan diantara kedua teknik
ini. Pasal berikut ini menyajikan suatu pandangan secara geometri tentang analisis komponen-
komponen utama. Selanjutnya diikuti oleh penjelasan secara aljabar.

4.1. Geometri dari analisis komponen-komponen utama

Tabel 4.1 menyajikan suatu data kecil yang terdiri dari 12 observasi dan 2 variabel. Tabel ini
juga menyajikan mean corrected data, matriks-matriks: SSCP, S (covariance), dan R
(correlation). Gambar 4.1 menyajikan plot dari mean corrected data dalam ruang berdimensi
dua. Dari Tabel 4.1, kita dapat melihat bahwa variance dari variable x1 adalah 23.091 dan

1
variance dari variable x2 adalah 21.091, dan variance total dari kedua variabel adalah 44.182
( yaitu 23.091 + 21.091). Begitu juga x1 dan x2 ternyata berkorelasi, dengan koefisien korelasinya
adalah 0. 746. Persentasi varians total berasal dari x1 adalah 52.26 %, dan dari x2, 47,74%.

4.1.1. Identifikasi Sumbu-sumbu Alternatif dan Pembentukan Variable-variable Baru.

Seperti yang diperlihatkan pada garis putus-putus yang memuat titik-titik dalam Gambar 4.1,
misalkan X1* adalah suatu sumbu di ruang dua-dimensi. X1* membentuk sudut sebesar θ derajat
dengan X1. Projeksi dari observasi-observasi (data) pada X1* akan menghasilkan koordinat-
koordinat bagi observasi-observasi tadi terhadap X1*. Sebagaimana yang dibahas dalam pasal
2.7, koordinat-koordinat dari suatu titik yang dinyatakan terhadap suatu sumbu baru adalah
suatu kombinasi linear dari koordinat-koordinat dari titik itu terhadap sumbu-sumbu
original , yaitu

x1* = cosθ ¿ x1 + sinθ ¿ x2

dimana x1* adalah koordinat dari observasi terhadap X1*, dan x1 dan x2 berturut-turut adalah
koordinat dari observasi terhadap X1 dan X2. Jelas bahwa x1*, yang adalah kombinasi linear dari
variable-variabel original (mean corrected), dapat dipandang x1* sebagai suatu variable baru.

Untuk suatu nilai dari θ , misalnya 100, persamaan dari kombinasi linear adalah

x1* = cosθ ¿ x1 + sinθ ¿ x2 x1* = cos 100 ¿ x1 + sin100 ¿ x2

x1* = 0,985 x1 + 0.174 x2

Tabel 4.1.

2
Data original, Mean-corrected, dan data standar

x1 x2

Observasi Original Mean Original Mean


corrected corrected
1 16 8 8 5
2 12 4 10 7
3 13 5 6 3
4 11 3 2 -1
5 10 2 8 5
6 9 1 -1 -4
7 8 0 4 1
8 7 -1 6 3
9 5 -3 -3 -6
10 3 -5 -1 -4
11 2 -6 -3 -6
12 0 -8 0 -3

Mean 8 = 96/12 0 3 = 36/12 0

Variance 23.091 23.091 21.091 21.091

SSCP=
[ 254
181
181
232 ]
[ 23.091
S=
16.455
16.455
21.091 ]
R=
[ 1.000
0.746
0.746
1.000 ]

yang dapat digunakan untuk memperoleh koordinat-koordinat dari observasi-observasi


terhadap sumbu X1*. Koordinat-koordinat ini disediakan di Gambar 4.1 dan Tabel 4.2.

3
Gambar 4.1. Plot dari mean corrected data dan proyeksi titik-titik pada X1*

Table 4.2. Mean-corrected, New Variable, untuk Rotasi 100

Observasi x1 x2 x1 *
1 8 5 8.747
2 4 7 5.155
3 5 3 5.445
4 3 -1 2.781
5 2 5 2.838
6 1 -4 0.290
7 0 1 0.174
8 -1 3 -0.464
9 -3 -6 -3.996
10 -5 -4 -5.619
11 -6 -6 -6.951
12 -8 -3 -8.399
Mean 0 0 0

Variance 23.091 21.091 28.659

4
Variance yang diperhitungkan oleh variable baru x1*
Untuk berbagai sumbu baru X1

Sudut Variance Variance Persentase


dengan X1 total x1*

0 44.182 23.091 52.263

10 44.182 28.659 64.866

20 44.182 33.434 75.676

30 44.182 36.841 83.387

40 44.182 38.469 87.072

43.261 44.182 38.576 87.312

50 44.182 38.122 86.282

60 44.182 35.841 81.117

70 44.182 31.902 72.195

80 44.182 26.779 60.597

90 44.182 21.091 47.772

5
Sebagai contoh, dalam Gambar 4.1 koordinat-koordinat dari observasi yang pertama terhadap
X1* adalah 8.747. Koordinat-koordinat ataupun proyeksi-proyeksi dari observasi-observasi
terhadap X1* dapat dilihat sebagai nilai-nilai yang berkorespondensi bagi variabel yang baru , x1*.
Dari table, kita dapat melihat bahwa (1) variable baru tetap merupakan mean corrected ( yaitu,
meannya sama dengan nol); dan (2) variance dari x1* adalah 28.569 membentuk 64.87% (yaitu
28.659/44.128) dari variance total dari data. Perhatikan bahwa variance pada x1* lebih besar
daripada variance dari variable lainnya pada variable original.
Seandainya sudut antara X 1* dan X1 , misalnya = 200 ,bukan 100. Tentu kita akan memperoleh
nilai-nilai yang berbeda untuk x1* . Tabel 4.3 memberikan persentasi dari variance total yang
dihitung berdasarkan x1* ketika X1* membuat sudut-sudut yang berbeda dengan X 1 (yaitu untuk
mendapatkan sumbu yang baru). Gambar 4.2 menyajikan plot dari persentasi dari variance yang
berasal dari x1* dan sudut yang dibentuk oleh X1* dan X1. Dari tabel dan gambar, kita dapat
melihat bahwa persentasi dari variance total yang berasal dari x1* meningkat ketika sudut
antara X1* dan X1 meningkat, dan kemudian setelah nilai itu maksimum, variance yang berasal
dari x1* mulai menurun. Artinya, hanya terdapat tepat satu sumbu baru yang
menghasilkan variable yang baru yang memberikan variance maximum dalam data. Dan
sumbu ini membentuk sudut 43.2610 dengan X1. Persamaan yang berkorespondensi untuk
menghitung nilai-nilai x1* adalah

x1* = cos43.261¿ x1 + sin43.261¿ x2


= 0.728 x1 + 0.685 x2

Tabel 4.4 menyajikan nilai-nilai untuk x1* dan mean nya, SS, dan variance. Dapat dilihat
bahwa x1* menghasilkan 87.31% bagi variance total (38.576/44.182).

Perhatikan bahwa x1* tidak diperhitungkan (tidak berkontribusi) untuk semua variance
dalam data. Oleh karena itu, adalah mungkin untuk mengidentifikasi sumbu kedua
sedemikian sehinga variable baru kedua dapat memberikan sumbangan bagi variance
maksimum yang tidak diberikan oleh x1* . Misalkan X2* merupakan sumbu baru kedua yang
orthogonal terhadap X1*. Jadi, jika sudut antara X 1* dan X1 adalah θ , maka sudut antara X2*
dan X2 adalah juga θ . Kombinasi linear untuk membentuk x2* akan menjadi:

x2*= -sinθ ¿ x1 + cosθ ¿ x2

Untuk θ = 43.2610, persamaan ini menjadi

x2*= -0.658x1 + 0.728 x2

Tabel 4.4 juga menyajikan nilai-nilai untuk x2*, mean, SS, dan variance dan matriks-matriks
SSCP, S, dan R. Gambar 4.3 menyajikan plot yang menunjukkan observasi-observasi dan
sumbu-sumbu yang baru. Observasi-observasi berikut ini dapat dibuat dari gambar dan tabel:

6
Table 4.4. Mean-corrected, New Variable, dan x1* dan x2* untuk
sumbu sumbu baru yang membentuk sudut 43.2610

Observasi Mean corrected data New Variable New variable


x1 x2 x1 * x2 *
1 8 5 9.253 -1.841
2 4 7 7.710 2.356
3 5 3 5.697 -1.242
4 3 -1 1.499 -2.784
5 2 5 4.883 2.271
6 1 -4 -2.013 -3.598
7 0 1 0.685 0.728
8 -1 3 1.328 2.870
9 -3 -6 -6.297 -2.313
10 -5 -4 -6.382 0.514
11 -6 -6 -8.481 -0.257
12 -8 -3 -7.882 3.298

Mean 0 0 0 0
SS 424.334 61.666
Variance 23.091 21.091 38.576 5.606

Matrix SSCP, Matrix Covariance S dan Matrix Korelasi R utk variable – variable adalah

sebagai berikut SSCP= [ 424.334


0.000
0.000
61.666 ] S=[ 38.576
0.000 5.606 ]
0.000

R=
[ 1.000
0.000 1.000 ]
0.000

7
1. Orientasi atau konfigurasi (letak-arah) dari titik-titik atau observasi-observasi dalam
ruang dua dimensi tidak berubah. Karena itu observasi-observasi dapat direpresentasikan
terhadap sumbu lama ataupun terhadap sumbu baru
2. Proyeksi-proyeksi dari titik-titik pada sumbu asli memberikan nilai-nilai untuk variabel
original, dan proyeksi-proyeksi dari titik-titik pada sumbu baru memberikan nilai bagi
variable-variable baru. Sumbu-sumbu baru atau variable-variable dinamakan principal
component dan nilai-nilai dari variable baru dinamakan principal components scores.
3. Setiap variable baru (x1* dan x2*) adalah kombinasi-kombinasi linear dari variable original
dan tetap sebagai mean corrected. Artinya, mean-mean mereka = 0.
4. SS total untuk x1* dan x2* adalah 486 ( 424.334 + 61.666) dan sama dengan SS total dari
variable original.
5. Variance-variance dari x1* dan x2* berturut-turut adalah : 38.576 dan, 5.606. Variance
total dari dua variable adalah 44.182 ( 38.576 + 5.606) dan sama dengan variance total
dari x1 dan x2. Artinya, variance total dari data tidak berubah. Perhatikan bahwa orang
tidak mengharapkan variance total akan berubah, sebab orientasi dari titik titik data
tidak berubah dalam ruang dua dimensi.
6. Persentasi dari variance total yang berasal dari x1* dan x2* berturut-turut adalah 87.31%
( 38.576/44.182) dan 12.69% (5.606/44.1820. Variance yang berasal dari variable baru
pertama x1* adalah terbesar daripada variance yang disumbangkan oleh variabel
original manapun. Variable baru kedua menyumbang untuk variance yang belum
diperhitungkan oleh variable baru pertama. Kedua variable baru secara bersama
menyumbang untuk semua variance dalam data.
7. Korelasi antara kedua variable baru adalah nol, artinya x1* dan x2* tidak berkorelasi.

Gambar 4.3. Plot dari mean corrected data pada sumbu baru

8
Ilustrasi geometris tadi tentang analisis komponen-komponen utama dengan mudah dapat
dikembangkan untuk lebih dari dua variable. Suatu set data yang terdiri dari p variable
dapat direpresentasikan secara grafik dalam ruang berdimensi p terhadap p sumbu original
atau terhadap p sumbu baru. Sumbu baru yang pertama X1*, menghasilkan variable baru ,
x1*, sedemikian sehingga variable baru ini berperan untuk menghasilkan variance total yang
maximum. Setelah ini, sumbu kedua, yang orthogonal terhadap sumbu pertama
diidentifikasikan sedemikian sehingga variable yang baru, x2* , berperan juga untuk
menghasilkan variance maximum yang belum sempat dihadirkan oleh variable pertama yang
baru x1*, serta x1*dan x2* tidak berkorelasi. Proses seperti ini diteruskan sehingga semua p
sumbu yang baru diidentifikasikan dan variable-variable baru x1*, x2*, .... xp* berperan untuk
variance-variance yang maximum dan variable-variable baru itu tidak berkorelasi satu
dengan lainnya.

4.1.2. Analisis komponen-komponen utama sebagai


Suatu teknik mengurangi dimensi.

Pada pasal yang lalu telah dilihat bahwa analisis komponen-komponen utama sesungguhnya
menuju pada mengidentifikasi sumbu-sumbu orthogonal yang baru. Skor-skor komponen
utama atau variable-variable yang baru merupakan proyeksi-proyeksi dari titik-titik ke
sumbu-sumbu. Sekarang misalkan bahwa kita tidak menggunakan kedua variable yang baru
itu, tetapi kita hanya gunakan satu variable baru, yaitu x1*, untuk mewakili hampir semua
informasi yang termuat dalam data. Secara geometri, ini ekivalen dengan menyajikan data
dalam ruang berdimensi satu. Dalam hal dimana ada p variable orang mungkin ingin
menyajikan data dalam dimensi yang lebih kecil dari p, misalnya ruang berdimensi m.
Menyajikan data dalam dimensi yang lebih kecil dinamakan dimensional reduction.
Oleh karena itu, analisis komponen-komponen utama dapat juga dipandang sebagai teknik
mereduksi dimensi.
Pertanyaan yang muncul adalah: bagaimana kita dapat memandang variable-variable
baru mewakili informasi yang termuat dalam data? Atau, secara geometri, bagaimana kita
dapat memperoleh konfigurasi tentang data dalam dimensi yang telah direduksi?
Perhatikanlah suatu plot dari data hipotetis pada panel I dan II dalam Gambar 4.4. Misalkan
kita ingin merepresentasi data dalam hanya satu dimensi bila diketahui bahwa sumbu putus-
putus mewakili komponen utama pertama. Seperti jelas terlihat, representasi satu dimensi
dari titik-titik pada panel I adalah jauh lebih bagus dari pada panel II. Misalnya, pada panel
II, titik-titik 1 dan 6; 2, 7, dan 8; 4 dan 9; dan 5 dan 10 tidak dapat dibedakan satu dari yang
lain. Dengan kata lain, konfigurasi dari observasi-observasi dalam ruang berdimensi satu
adalah lebih bagus pada panel I daripada konfigurasi pada panel II. Atau kita dapat
mengatakan bahwa data pada panel I dapat direpresentasi oleh satu variable dalam hal mana
lebih sedikit informasi yang hilang dibandingkan dengan kelompok data pada panel II.
Biasanya, jumlah variance-variance dari variable-variable baru yang tidak digunakan
untuk merepesentasi data ini digunakan sebagai ukuran bagi hilangnya informasi yang
dihasilkan dari merepresentasi data ke dalam dimensi yang lebih rendah. Sebagai contoh, jika
dalam tabel 4.4, hanya x1* yang digunakan, maka hilangnya informasi adalah variance yang
diperankan oleh variable kedua (yaitu x2*) yang adalah 12.69% ( 5.606/41.182) dari variance
total. Apakah kehilangan ini adalah substansial atau tidak, tergantung pada tujuan atau
maksud dari studi. Bagian ini akan dibahas pada akhir bab ini.

9
4.2. Pendekatan Analitis

Pasal sebelumnya menyajikan gambaran geometris mengenai analisis komponen-komponen


utama. Pasal ini menyajikan pendekatan aljabar tentang analisis komponen-komponen
utama. Pada lampiran disajikan cara matematis dari analisis komponen-komponen utama.
Sekarang kita secara formal menetapkan tujuan dari analisis komponen-komponen
utama. Misalkan bahwa ada p variable, kita tertarik untuk membentuk p kombinasi linear
berikut ini:

ξ 1 =w11 x 1 +w12 x 2 +...+w 1 p x p


ξ 2 =w 21 x 1 +w 22 x 2 +. ..+w2 p x p
.
.
.
ξ p =w p 1 x1 +w p2 x 2 +. . .+w pp x p 4.3.

ξ ,ξ ...,ξ p adalah p komponen-komponen utama dan


Dimana 1 2
w ij adalah bobot dari variable
ke j dari komponen utama ke i. Bobot
w ij , diestimasi sedemikian sehingga:

1. Komponen utama pertama ξ 1 berperan untuk menghasilkan variance maksimum untuk


data, komponen utama kedua, ξ 2 berperan untuk menghasilkan variance maksimum yang
belum dipertimbangkan oleh komponen utama pertama, dan seterusnya.
2 2 2
2. w i1 +wi2 +.. .+w ip =1 i = 1, ..., p (4.4)
3.
w i1 w j 1 +w i2 w j2 +...+wip w jp =0 untuk semua i ¿ j (4.5)

Syarat yang disediakan pada 4.4 menghendaki bahwa kuadrat-kuadrat dari bobot berjumlah 1
dan ini agak bebas. Syarat ini digunakan untuk menetapkan skala dari variable-variable baru
dan diperlukan oleh karena adalah mungkin untuk meningkatkan variance dari suatu
kombinasi linear dengan mengubah skala dari bobot2. Syarat-syarat yang dikemukakan oleh
4.5 menjamin bahwa sumbu-sumbu yang baru orthogonal satu dengan lainnya. Masalah
matematikanya adalah: bagaimana kita memperoleh bobot-bobot pada persamaan 4.3
sedemikian sehingga syarat-syarat khusus tadi dipenuhi? Ini sesungguhnya urusan kalkulus.
Dan secara rinci dapat dilihat dalam Lampiran.

4.3. Bagaimana kita melaksanakan analisis


komponen-komponen utama

Sejumlah program komputer tersedia untuk melaksanakan analisis komponen-komponen utama.


Dua program (paket statistik) yang paling umum digunakan adalah SAS (Statistical Analysis
System) dan SPSS (Statistical Package for the Social Sciences). Dalam pasal berikut ini kita
bahas hasil (output) yang diperoleh dari SAS. Output dari SPSS juga amat serupa, dan pembaca

10
diminta untuk memperoleh hasil dari SPSS itu dan membandingkan dengan SAS. Data pada
tabel 4.1 digunakan untuk membahas output dari SAS.

4.3.1. Perintah SAS dan pilihan-pilihan

Tabel 4.5 menyajikan perintah-perintah yang diperlukan untuk melakukan analisis komponen-
komponenn utama. Perintah PROC PRINCOMP menghidupkan prosedur analisis komponen-
komponen utama. Ia mempunyai sejumlah pilihan. Analisis komponen-komponen dapat
dilaksanakan melalui mean corrected data maupun data standar. Tiap data ini dapat
menghasilkan hasil yang berbeda, yang menyimpulkan bahwa solusi bukanlah suatu skala
yang tidak variant. Solusi bergantung pada variance relatif dari variable-variable. Pembahasan
yang rinci tentang efek dari standardisasi terhadap hasil analisis komponen-komponen utama
disajikan nanti kemudian diakhir bab ini. Pilihan COV meminta agar mean-corrected data harus
digunakan. Dengan kata lain, matrix covariance akan digunakan untuk mengestimasi bobot
dalam kombinasi-kombinasi linear. OUT = option digunakan untuk menspesifikasi nama
kumpulan data dimana variable original dan variable baru di save. Nama dari set data itu adalah
NEW. PROC PRINT prosedur memberikan printout dari data original dan PROC CORR
prosedur memberikan mean, deviasi standar, dan korelasi dari variable lama dan variable baru.

4.3.2. Menginterpretasi ouput Analisis Komponen-komponen Utama

Exhibit 4.1.menampilkan output yang diperoleh. Berikut ini adalah diskusi dari berbagai bagian
dari output. Bilangan-bilangan di dalam kurung siku berkorespondensi dengan bilangan-bilangan
yang dilingkari dalam exhibit ini. Untuk alasan kenyamanan, bilangan-bilangan yang dilaporkan
dalam exhibit ini dibulatkan sampai tiga digit yang significan. Setiap diskrepansi antara
bilangan-bilangan yang dilaporkan dalam teks dan output adalah karena ada pembulatan.

Statistik Deskriptif

Bagian dari output menyajikan deskripsi statistik dasar, misalnya mean dan deviasi standar
dari variable-variable asli. Seperti yang terlihat, mean-mean dari variable-variable adalah 8.00
dan 3.000 dan deviasi-deviasi standar adalah 4.805 dan 4.592 [1]. Output juga menyajikan
matrix Covariance [2]. Dari matrix covariance dapat terlihat bahwa variance total adalah 44.182,
dengan x1 berperan hampir sebesar 52.26% ( yaitu 23.091/44.182) dari variance total dalam set
data. Covariance diantara dua variable dapat dikonversikan menjadi koefisien korelasi dengan
cara membagi covariance dengan hasil kali deviasi standar – deviasi standar yang bersangkutan.
Korelasi antara dua variable adalah 0.746 [ yaitu korelasi = 16.455/(4.805 x 4.592)] = 0,746.

11
x = x’cos z – y’ sin z-- x cos z = x’cos2z – y’cos z sin z
y= - x’sin z + y’cos z-- y sin z = x’ sin2z + y’cos z sin z +
x cos z + y sin z = x’cos2z + x’ sin2z = x’ (cos2z + sin2z) = x’(1) = x’
Dengan mengeliminasi x’, maka diperoleh y’ = -x sin z + y cos z
3.5.Variance Umum

Jika ada p variable, maka akan ada p variance dan ada sebanyak p(p – 1)/2 covariance.
Menginterpretasi variance dan covariance yang begini banyak tentu akan merupakan pekerjaan
yang menjemukan manakala ada banyak variable. Akibatnya, diinginkan agar ada hanya satu
indeks untuk merepresentasikan besarnya variasi dan covariasi dalam kelompok data. Salah satu
indeks adalah Generalized variance (variance umum).

Pada gambar berikut ini X1 dan X2 adalah vektor-vektor dalam suatu observation space. Vektor
ini sudah dinyatakan dalam skala, yaitu dengan membaginya oleh √ n−1 dimana α adalah sudut
yang dibentuk oleh kedua vektor ini, yang dapat dihitung dari koefisien korelasi oleh karena
korelasi diantara kedua variable ini sama dengan cosinus dari sudut antara dua vektor yang ada
dalam observation space.

Gambar ini juga menunjukkan suatu jajargenjang yang terbentuk dari dua vektor. Ingat bahwa
jika X1 dan X2 berkorelasi sempurna maka tentu vektor-vektor x1 koliner dengan x2, sehingga
luas jajar genjang adalah nol. Variable-variable yang berkorelasi sempurna menyimpulkan

12
bahwa ada redundansi dalam data, artinya kedua variable ini tidak berbeda. Di sisi lain, jika
kedua variable ini tidak berkorelasi (korelasinya nol) maka kedua vektor ini adalah orthogonal,
yang berarti tidak ada redundancy dalam data. Dari gambar ini (3.7) jelas bahwa luas
jajargenjang akan minimum (yaitu nol) bila vektor-vektornya koliner, dan luas akan maximum
jika vektor-vektor saling orthogonal. Karena itu, luas jajargenjang memberikan suatu ukuran
mengenai besarnya redundancy dalam kelompok data. Kuadrat dari luas ini digunakan sebagai
suatu ukuran bagi generalized variance. Oleh karena luas jajargenjang adalah sama dengan alas
kali tinggi, maka generalized variance (GV) adalah sama dengan

( )
2
‖ x 1‖ .‖ x2‖
GV = . sinα
n−1

Untuk data pada table 3.1 sudut antara dua vektor adalah 42.862 0 (yaitu cos-1.733), dan
Generalized Variance adalah

( )
2
GV =
√262.917 ×131.667 . sin 42.862 = 133.382
n−1

x2
√ n−1
h

x1
√ n−1

( )

‖x 2‖
h= . sinα
n−1
Type equation here .

13
14
Menentukan vektor eigen dan nilai eigen dari suatu matrix
covariance
Pandang matrix covariance A yang berasal dari data pada table 4.1, yaitu

A=
[ 23.09091
16.45455
16.45455
21.09091 ]
Atau dalam tiga desimal sbb:

A=
[ 23.091
16.455
16.455
21.091 ]
Akan ditemukan vektor eigen μ dan nilai eigen λ (skalar) untuk vektor ini, dan selanjutnya
perhatikan persamaan yang harus dipenuhi, yaitu

μ A= λμ ,

atau
μ A= λμI
(dimana I adalah matrix satuan 2x2), atau

I=
[10 01]
Dari hubungan
μ A= λμI

Diperoleh
μ A− λμI =0

μ ( A− λI ) =0

Akan terdapat penyelesaian yang non trivial jika determinan dari matrix ( A−λI ) adalah 0

Karena itu pandang matrix ( A−λI ) =

[ 23.091
16.455 ] [ ]
16.455
21.091

1 0
0 1
atau

[ 23.091
16.455 ][ ]
16.455
21.091
-
λ 0
0 λ
atau

15
[ 23.091−λ
16.455
16.455
21.091− λ ]
dimana determinannya harus = 0.

Dengan demikian berlaku


(23.091 - λ ) (21.091 - λ ) - (16.455)2 = 0

487.012 – 44.182 λ+ λ2−270.767=0


2
λ −44.182 λ+216.245=0 .

λ 12=44.182 ± √ ¿ ¿ ¿

44.182± √ (1087.069)
λ 12=
2

44.182± 32.971
λ 12=
2

λ 1=38.576
λ 2=5.606

Ini adalah nilai - nilai eigen atau eigenvalue dari matrix covariance A.

Selanjutnya masing-masing nilai eigen dimasukkan ke dalam persamaan

μ A= λμ ,

untuk menentukan vektor-vektor eigen μ.

Sebut μ=(μ1 μ 2)

Selanjutnya pandang persamaan berikut, untuk nilai eigen

λ 1=38.576:

(μ1 μ 2)×
[16.455
23.091 16.455
21.091 ]
= 38.576 ×(μ1 μ 2)

(23.091 μ1 + 16.455 μ2 16.455 μ1 +21.091 μ2 ) = (38.576 μ1 38.576 μ2)

Ini berarti

16
23.091 μ1 + 16.455 μ2 = 38.576 μ1 *)

dan
16.455 μ1 + 21.091 μ2 = 38.576 μ2 **)

Dari persamaan *) diperoleh

16.455 μ2 = 15.485 μ1

15.485
μ2 = μ , atau
16.455 1

μ2 = 0.941 μ1

Demikian juga berlaku **) bahwa

16.455 μ1 +21.091 μ2 = 38.576 μ2

Dari hubungan ini juga diperoleh bahwa

μ2 = 0.941 μ1

Jika vektor eigen untuk λ 1= 38.576 adalah μ maka μ=( μ1 μ 2 )

¿ ( μ1 0.941 μ 1)

= μ1 (1 0.941)

Dengan cara yang sama dapat dihitung vektor eigen untuk λ 2

(μ1 μ 2)×
[16.455
23.091 16.455
21.091]= 5.606 ×(μ1 μ 2)

( 23.091 μ1 + 16.455 μ2 16.455 μ1 + 21.091 μ2 ) = (5.606 μ1 5.606 μ2)

Ini berarti

23.091 μ1 + 16.455 μ2 = 5.606 μ1

17.485 μ1 = - 16.455 μ2

17
16.455
μ1 = - μ atau μ1 = - 0.941 μ2
17.485 2

Jika vektor eigen untuk λ 2= 5.606 adalah μ maka μ=( μ1 μ 2 )

¿ (−.941 μ2 μ 2)

= μ2 (−.941 1)

Dengan demikian vektor-vektor eigen untuk λ 1 adalah :

(1 .941 )

Tetapi syarat untuk suatu vektor eigen μ= ( μ 1 μ2 ) adalah ( μ1 ) + ( μ2 ) =1, karena itu vektor eigen
2 2

untuk λ 1adalah

[√ 2
1
1 +.941 2
.941
√1 +.9412
2 ] = ( .7282 .6853 )

Demikian juga, vektor eigen untuk λ 2 adalah ( - .941 1)

Tetapi syarat untuk suatu vektor eigen μ= ( μ 1 μ2 ) adalah ( μ1 ) + ( μ2 ) =1, karena itu vektor eigen
2 2

untuk λ 2adalah

[√ −.941
2
1 +.941 2
1
√1 +.9412
2 ] = ( - .6853 .7282 )

18
LOADINGS

Dalam output, pada bagian 5 disajikan korelasi diantara variable – variable. Korelasi diantara
dua variable baru, PRIN 1 dan PRIN 2 adalah nol, yang artinya mereka tidak berkorelasi.
Korelasi-korelasi diantara variable original dengan varible yang baru, yang disebut loadings,
memberikan indikasi sampai sejauh mana variable – variable original berpengaruh atau
diperhitungkan (penting) dalam pembentukan variable-variable baru. Artinya, semakin besar
loading akan semakin berpengaruh variable itu dalam membentuk skor-skor komponen utama,
dan sebaliknya. Sebagai contoh, korelasi-korelasi yang tinggi yaitu 0.941 diantara PRIN 1
dengan x1 , dan 0.927 antara PRIN 1 dengan x2 mengindikasikan bahwa x1 dan x2 sangat
berpengaruh dalam membentuk PRIN 1. Loadings dapat digunakan untuk menginterpretasikan
makna dari principal component atau variable baru.

4.4. Isu-isu terkait dengan penggunaan analisis komponen utama

Kita sudah lihat analisis komponen utama itu menghasilkan terbentuknya variable-variable yang
merupakan kombinasi linear dari variabel-variable original. Namun, sebagai suatu teknik
menganalisis data, penggunaan analisis komponen utama memunculkan isu-isu yang harus
dikaji. Isu-isu itu adalah:
1. Efek seperti apa dari data (mean corrected data atau data standard) yang terjadi pada
analisis komponen utama?
2. Apakah analisis komponen utama merupakan teknik yang tepat untuk membentuk
variable-variable baru? Yaitu, apakah ada insight lainnya yang diperoleh ketika
mengubah data menggunakan analisis komponen utama?
3. Berapakah komponen utama yang harus dipertahankan? Atau, berapa variable baru yang
diperlukan untuk interpretasi selanjutnya?
4. Bagaimana kita menginterpretasi komponen-komponen utama (variable-variable baru)
5. Bagaimana kita menggunakan skor-skor komponen utama untuk analisis selanjutnya?

Isu-isu ini akan dibahas dengan menggunakan data pada table 4.7 yang menyajikan
harga dari bahan makanan di 23 kota.

Efek dari jenis data (mean corrected data atau data standar) pada analisis
komponen utama

19
Analisis komponen utama dapat dilaksanakan terhadap mean corrected data ataupun
terhadap data standar. Tiap set data dapat menghasilkan solusi yang berbeda,
tergantung sejauh mana variance – variance dari variable – variable itu berbeda. Dengan
kata lain, variance-variance dari variable-variable itu dapat mempunyai suatu pengaruh
pada analisis komponen utama.
Misalkan bahwa tujuan utama dari data pada table 4.7 adalah untuk membentuk
suatu ukuran tentang Consumer Price Index (CPI). Artinya kita ingin membentuk
jumlah terbobot dari berbagai harga makanan yang dapat memberikan gambaran singkat
tentang semahal atau semurah apa harga makanan di suatu kota. Analisis komponen
utama akan merupakan suatu teknik yang tepat untuk mengembangkan indeks seperti itu.
Exhibit 4.2 dapat merupakan sebagian dari output ketika prosedur analisis komponen
utama dilaksanakan dengan bantuan SAS terhadap mean corrected data. Variance-
variance dari makanan-makanan adalah sebagai berikut (1)

Makanan Variance Persentasi dr


variance total
Bread 6.284 1.688
Hamburger 57.077 15.334
Milk 48.306 12.978
Orange 202.756 54.472
Tomatoes 57.801 15.528

Total 372.224 100.00

Dapat dilihat bahwa harga orange memberikan persentasi variance terbesar (55%) dari
variance total. Karena ada lima variable, sebanyak lima komponen utama dapat dibentuk.
Misalkan bahwa hanya ada satu komponen utama yang dipertahankan, dan itu digunakan
untuk mengukur CPI. Sehingga dari vektor eigen, komponen utama yang pertama ,yaitu
PRIN 1 , diberikan oleh persamaan (2b):

PRIN 1 = 0.028*bread + 0.200*Burger + 0.042*milk + 0.939*orange + 0.276*tomatoes,

dan nilai eigen mengindikasikan bahwa variance dari PRIN 1 adalah 218.999 yang
memberikan kontribusi 58.84 % dari variance total dari data original (2a)

Persamaan 4.9, yaitu

PRIN1 = 0.028*bread + 0.200*Burger + 0.042*milk + 0.939*orange + 0.276*tomatoes,

mengindikasikan bahwa nilai dari PRIN 1, walaupun sebagai jumlah terbobot dari harga
semua makanan, sangatlah dipengaruhi oleh harga orange. Nilai-nilai dari PRIN 1
menunjukkan bahwa Honolulu adalah kota termahal dan Baltimore adalah kota
termurah. (3)

20
Alasan utama harga orange mendominasi pembentukan PRIN1 adalah bahwa
terdapat suatu variasi yang besar pada harga-harga brang di berbagai kota (yaitu, variance
dari harga orange sangat tinggi dibandingkan variance dari harga makanan lainnya).
Secara umum, bobot yang dikenakan pada suatu variable dipengaruhi oleh variance
relative dari variable ( terhadap mean corrected data ). Jika kita tidak ingin variance
relative mempengaruhi bobot, maka data harus distandarkan sedemikian sehingga
variance dari seluruh variable adalah sama, yaitu 1. Exhibit 4.3 menyajikan hasil SAS
output untuk data standar. Karena data distandarkan, maka variance dari tiap variable
adalah 1 dan tiap variable berkontribusi 20% bagi variance total. Komponen utama
pertama , PRIN 1 berkontribusi 48.44% (yaitu 2.422/5) dari variance total (1) dan tiap
vektor eigen diberikan oleh (2):

PRIN1 = 0.496*bread + 0.576*Burger + 0.340*milk + 0.225*orange + 0.506*tomatoes.

Dapat kita lihat bahwa Komponen utama pertama PRIN 1 adalah jumlah terbobot dari
harga semua bahan makanan dan tidak ada makanan yang mendominasi pembentukan
skor.

Nilai dari PRIN 1 menyarankan bahwa Honolulu adalah kota termahal dan yang
termurah adalah Seatle. Karena itu bobot yang digunakan untuk membentuk index
(yaitu principal component) dipengaruhi oleh variance relative dari variable.

21
22
23

Anda mungkin juga menyukai