Anda di halaman 1dari 12

ANALISIS KOMPONEN UTAMA / PRINCIPLE COMPONENT ANALYSIS (PCA) Prinsip dasar PCA: Mengurangi atau mereduksi dimensi data

ata yang tanpa mengabaikan variabel yang terlibat. Tujuannya adalah menyederhanakan proses komputasi dan mempermudah interpretasi hasil analisis. Upaya yang dapat ditempuh : Tranformasi peubah (variabel) asal menjadi variabel baru (variabel komposit) dengan pertimbangan: - Dimensi (jumlah) variabel baru lebih kecil dari peubah asal. - Antar variabel baru dijamin saling bebas (tidak berkorelasi) - Peubah baru (yang walaupun jumlahnya lebih sedikit) dapat menyimpan sebagian besar informasi yang terkandung dalam peubah asal.

Kegunaan PCA Membentuk variabel komposit. sehingga jumlah variabel lebih sedikit dan lebih mudah interpretasi hasil analisis. Transformasi variabel x yang saling berkorelasi menjadi variabel komposit yang dijamin saling bebas. Mengatasi masalah multicoliearity pada Analysis Regresi Berganda dengan regresi komponen pokok. Pengelompokan obyek berdasarkan ciri atau sifat yang terkandung di dalam variabel komposit. Pengujian Normalitas Ganda secara eksploratif. yaitu asumsi yang sering kali melandasi Analisis Peubah Ganda (Multivariate Analysis). misal MANOVA. DISKRIMINAN. dll.

Ilustrasi Suatu penelitian dilakukan untuk mengetahui hubungan antara Khlor Cair (X1) . Cupri Sulfat (X2). Dukem S01A (X3 ) terhadap Tingkat Kejernihan Air (Y) Y X1 X2 X3 78.5 26 6 60 74.3 29 15 52 104.3 56 8 20 87.6 31 8 47 95.9 52 6 33 109.2 55 9 22 102.7 71 17 6 72.5 31 22 44 93.1 54 18 22 115.9 47 4 26 Keterangan : X1 = Khlor Cair (ml) ; X2 = Cupri Sulfat (ml) ;

X3 = Dukem S01A (gr) ; Y = Tingkat Kejernihan Air (ppm)

Dengan perhitungan dengan software Minitab diperoleh nilai VIF sebagai berikut : Predictor VIF x1 19.592 x2 1.114 x3 19.825 Dari hasil VIF (Variance Inflaction Factors) tersebut dapat diindikasikan terdapat multikolinearitas atau kolinearitas berganda antara variabel prediktor, karena terdapat VIF 10. Konsep Dasar PCA Terdapat 3 variabel X. yaitu X1. X1 . . . X3. maka dapat di buat kombinasi linier

Y1 a11 X 1 a 21 X 2 ... a 31 X 3 Y2 a12 X 1 a 22 X 2 ... a 32 X 3 Y3 a13 X 1 a 23 X 2 ... a 33 X 3


Dalam bentuk catatan matriks

Y AX
Bilamana X1 . . . X3 menyebar normal ganda. maka dapat ditulis

X ~ N p (, ) ; X = (X1 . . . Xp) ; E(X)= ; var-cov(x)=


Sehingga: Var-cov(X)=AA Untuk data sampel. maka diduga dengan S:

1 ( x h x )(x h x )' ; h = 1.2. . . . . n (n 1)

Selanjutnya Y1 = a11x1 + a21x2 + ... + ap1xp Disebut komponen utama pertama. dengan ragam : PCA berkenaan dengan memaksimumkan ragam komponen pertama. dengan kriteria (ortonormal). Solusi : Dengan fungsi Lagrange. yaitu maksimumkan dengan kendala atau . Fungsi Lagrange yang dibentuk adalah ( ) L= Turunan parsial terhadap a1 dari L ( Bilamana dari )

dan

( ) Dicari penyelesaiannya. maka akan diperoleh vektor a1. yaitu pembobot (koefisien) dari komponen utama ke-1. yang mana Y1 memiliki ragam maksimum. ) )|=0 Solusi a1 dari ( . akan tidak trivial ( 0). bilamana terpenuhi |( Fungsi ini merupakan fungsi ciri dari S dan akan memiliki akar ciri 1. Vektor ciri yang berpadanan dengan 1 adalah a1. yang merupakan pembobot dari Y1. Varian Y1 = . dapat dijabarkan sebagai berikut : ( ) Bila digandakan awal dengan . diperoleh

= = Sehingga Var (Y1) = (akar cirinya). Dalam bentuk umum : ( ) Dengan catatan > > ... > . yang memiliki vektor ciri padanan a1.a2....ap. maka : Y1 = a1x Y2 = a2x Y3 = a3x . . . Yp = apx Contoh Dari permasalahan sebelumnya terdapat 3 variabel dengan matriks var-cov : x1 x2 x3 0.0423 -0.9715 = x1 1 x2 0.0423 1 -0.116 x3 -0.9715 -0.116 1

| = 0. diperoleh akar ciri dan vektor sebagai berikut : = 1.9844 = 0.99 a2 = 0.118 -0.992 -0.042 = 0.0256 a3 = 0.704 0.054 0.708

a1 =

0.7 0.113 -0.705

Sehingga diperoleh variabel komposit (komponen pokok ) : PC1 = 0.7Z1 + 0.113Z2 0.705Z3 PC2 = 0.118Z1 - 0.992Z2 - 0.042Z3 PC3 = 0.704Z1 + 0.054Z2 + 0.708Z3

Akar ciri ini merupakan nilai dari koefisien PC: koef1 koef2 koef3 0.700397 0.118336 0.703875 0.113418 -0.99208 0.053931 -0.70468 -0.04206 0.708273 Setelah diperoleh komponen-komponen utama yang akan digunakan (sebanyak k buah) selanjutnya ditentukan persamaan regresi dari peubah respon Y dengan komponen utama tersebut. Diperlukan penghitungan skor komponen utama dari setiap pengamatan dengan menggunakan rumus : SK-Whi = aiT Zh Dengan : SK-Whi adalah skor komponen ke i untuk pengamatan ke h aiT : vektor pembobot komponen utama ke i (koefisien PC) Zh : vektor skor baku dari peubah yang diamati pada pengamatan ke-h Zh =
( )

Perhitungan manual z1 -1,27541 -1,07613 0,717418 -0,94327 0,451708 0,650991 1,713833 -0,94327 0,584563 0,11957 Skor PC1 -2,10286 -1,46576 0,989506 -1,29401 0,227174 0,878386 2,433889 -0,91197 0,997426 0,248219 z2 z3 -0,85965 1,57811 0,600132 1,107032 -0,53525 -0,77728 -0,53525 0,812609 -0,85965 -0,01178 -0,37305 -0,65951 0,924527 -1,60166 1,735515 0,635955 1,086725 -0,65951 -1,18404 -0,42397 Skor PC2 0,635542 -0,76928 0,648602 0,385215 0,90679 0,474875 -0,64704 -1,86014 -0,98121 1,20665 Skor PC3 0,173641 0,058988 -0,07442 -0,11726 0,263243 -0,02902 0,12177 -0,11992 0,002956 -0,27998 koef1 koef2 koef3 0,700397 0,118336 0,703875 0,113418 -0,99208 0,053931 -0,70468 -0,04206 0,708273

Skor komponen utama yang diperoleh dari software Minitab dalah sebagai berikut: Skor PC1 Skor PC2 Skor PC3 -2.10286 0.635542 0.173641 -1.46576 -0.76928 0.058988 0.989506 0.648602 -0.07442 -1.29401 0.385215 -0.11726 0.227174 0.90679 0.263243 0.878386 0.474875 -0.02902 2.433889 -0.64704 0.12177 -0.91197 -1.86014 -0.11992 0.997426 -0.98121 0.002956 0.248219 1.20665 -0.27998 Kemudian dilakukan regresi antara skor komponen utama dengan variabel respon Y. dan output dari software Minitab adalah sebagai berikut:
The regression equation is Y = 93.4 + 7.79 scor1 + 8.99 scor2 - 27.3 scor3 Predictor Constant scor1 scor2 scor3 S = 2.86046 Coef 93.4000 7.7857 8.9935 -27.343 SE Coef 0.9046 0.6769 0.9583 5.956 T 103.25 11.50 9.38 -4.59 P 0.000 0.000 0.000 0.004 VIF 1.000 1.000 1.000

R-Sq = 97.6%

R-Sq(adj) = 96.4%

Analysis of Variance Source Regression Residual Error Total Source scor1 scor2 scor3 DF 1 1 1 DF 3 6 9 SS 1975.71 49.09 2024.80 MS 658.57 8.18 F 80.49 P 0.000

Seq SS 1082.58 720.67 172.45

Dari hasil perhitungan tersebut diperoleh semua nilai VIF < 10. Sehingga data sudah dapat diasumsikan bebas multikolinearitas. Selain itu juga didapatkan persamaan regresi komponen utama sebagai berikut : Y = 93.4 + 7.79 w1 + 8.99 w2 - 27.3 w3

Persamaan di atas memenuhi persamaan berikut : = 0 + 1 w1 + 2w2 + 3w3 = 0 + 1 (a11 Z1 + a21 Z2 + a31 Z3) + 2 (a12 Z1 + a22 Z2 + a32 Z3) + 3 (a13 Z1 + a23 Z2 + a33 Z3) = 0 + (1 a11 + 2 a12 + 3 a13) Z1+ (1 a21 + 2 a22 + 3 a23 ) Z2 + (1 a31 + 2 a32 + 3 a33) Z3 = 0Z + 1Z Z1 + 2Z Z2 + 3Z Z3 Untuk menentukan nilai iZ dilakukan perhitungan berikut dengan bantuan software Microsoft Excel. Langkah pertama adalah membentuk matrik untuk 1 hingga 5.yaitu sebagai berikut : 1 7.79 2 8.99 3 -27.3

Sebelumnya juga telah diperoleh matrik sebagai berikut a11 a21 a31 a12 a22 a32 a13 a23 a33

Yaitu : 0.700397 0.118336 0.703875 0.113418 -0.99208 -0.70468 -0.04205 0.053931 0.708273

Selanjutnya akan dilakukan perhitungan untuk memperoleh matrik sebagai berikut : 1a11 1a21 1a31 2a12 2a22 2a32 3a13 3a23 3a33

Dan hasil perhitungannya adalah sebagai berikut 5.456093 1.063841 -19.2158 0.883526 -8.9188 -1.47232

-5.48946

-0.37803

-19.3359

Langkah selanjutnya adalah menentukan besar iZ dengan cara menjumlahkan tiap-tiap baris entri matriks kolom diatas. Hasilnya sebagai berikut. 0.850162 1Z -8.23299 2Z -40.024 3Z = Dari hasil tersebut dapat diperoleh model persamaan regresi berikut : Y = 93.4 + 0.850162w1 -8.23299w2 - 40.024w3 Langkah selanjutnya adalah pembakuan data dari bentuk Z menjadi bentuk asli. yaitu bentuk X. Pembakuan ini dilakukan agar dapat dilakukan prediksi saat model persamaan regresi telah terbentuk. Statistik data yang diperoleh dari perhitungan dengan software SPSS adalah sebagai berikut : Descriptive Statistics N Y X1 X2 X3 Valid N (listwise) 10 10 10 10 10 Minimum 72.50 26.00 4.00 6.00 Maximum 115.90 71.00 22.00 60.00 Mean 93.4000 45.2000 11.3000 33.2000 Std. Deviation 14.99926 15.05398 6.16532 16.98234

Selanjutnya menghitung i. yaitu sebagai berikut :

0,056474 -1,33537 -2,3568

Sehingga didapatkan model persamaan Regresi berdasarkan analisis sebagai berikut : = + 0,056474 X1 -1,33537X2 - 2,3568X3

Komponen Utama

Persamaan regresi berganda di atas merupakan hasil dari pembakuan nilai Z menjadi X pada koefisien regresinya. Model regresi tersebut dapat diinterpretasikan menjadi : Pada keadaan semua prediktor diasumsikan konstan nilai Tingkat Kejernihan Air sebesar 184.1829ppm Setiap penambahan 1ml khlor cair akan meningkatkan 0.056474 ppm Tingkat Kejernihan Air dengan asumsi prediktor yang lain dalam keadaan konstan. Setiap penambahan 1ml cupri sulfat akan menurunkan 1.33537 ppm Tingkat Kejernihan Air dengan asumsi prediktor yang lain dalam keadaan konstan. Setiap penambahan 1gr Dukem SO1A akan menurunkan 2.3568 ppm Tingkat Kejernihan Air dengan asumsi prediktor yang lain dalam keadaan konstan. Nilai R2 sebesar 0.976 menunjukkan bahwa faktor-faktor khlor cair, Cupri Sulfat, dan Dukem S01A dapat dijelaskan oleh model sebesar 97.6% dan sisanya 2.4% dijelaskan variabel lain yang tidak diikutsertakan dalam model.

Hal yang berkaitan dengan PCA 1. Matriks Masukan Bilamana variabel yang akan dianalisis mempunyai unit satuan sama (misal dari X 1 sampai dengan X4 dalam satuan rupiah semua). maka matriks ragam peragam (var-cor matriks) lebih tepat diterapkan sebagai matriks masukan : ( ) Kondisi semua variabel dengan satuan sama. pada berbagai penelitian mungkin tidak terpenuhi. Untuk variabel dengan unit satuan tidak sama. maka variabel-variabel yang bersangkutan ditransformasi ke normal baku (dibakukan). atau tepatnya menggunakan matriks masukan berupa : MATRIKS KORELASI (R). 2. Koefisien / Vektor Pembobot Komponen pokok ke j : Yj = aijx1 + a2jx2 + ... + apjxp Koefisien aij menunjukkan kontribusi peubah ke-i terhadap komponen pokok ke-j. dan tanda menunjukkan arahnya Digunakan untuk menginterpretasi ragam variable komposit (komponen pokok). 3. Peranan Komponen Pokok ke-j Pentingnya komponen pokok ke-j diukur dari bagian keragaman total data yang mampu diterangkan. yaitu ragam komponen pokok ke-j dibagi dengan ragam total Peranan yj=
( )

; -tr(s)=teras dari S -matrik input S

Peranan yj=

; -matrik imput R -P=# variable

Karena Peranan yj=

merupakan keragaman total. maka peranan komponen pokok dapat juga di tulis:

4. Korelasi Perubahan Asal dengan Komponen Pokok =

;matrik input S ;matrik input R

=aij

Koefisien ini sangat bermanfaat dalam mengidentifikasi dan menginterprestasi nama / atribut dari komponen pokok (variable komposit). 5. Skor Komponen Pokok

=aij(x1- )+a2j(x2-)+. =aij(z1)+a2j(z2)+..+apj(zp) Skor ini. setiap komponen pokok banyaknya=n. Bermanfaat untuk analisis lanjut.misalnya:

Matriks input S Matrik input R

Regresi komponen pokok Pengelompokan obyek Pemeriksaan normalitas ganda Data input dari : cluster. diskriminan. ANOVA. MANOVAT.dll.

6. Selang Kepercayaan dan Uji Hipotensis Selang Kepercayaan (1-)bagi j adalah:

7. Pemilihan Komponen Yang Beragam Komponen mana saja yang akan digunakan untuk analisis lanjut dan perlu diinterpretasi sebagai variable komposit. dipilah berdasarkan kriteria: Komponen pokok yang j (akar cirinya) 1 [Kaiser(1958)]; Dillon and Goldstein(1984). Pidot(1969). Draper and Smith (1981)] Komponen pokok yang memiliki keragaman kumulatif kira-kira sebesar 75% [Morison. 1976] 8. Regresi Komponen Pokok Regresi berganda yang melibatkan peubah bebas (x) dengan jumlah besar seringkali mengalami kendala tidak terpenuhinya asumsi : MULTIKOLINIERITAS Salah satu metode yang dapat digunakan untuk mengatasi masalah tersebut adalah : REGRESI KOMPONEN POKOK Konsep dasar yang digunakan : Dari x1..xp dapat diperoleh Markov matriks : S Matriks korelasi : R Keduanya bersifat simetris Dalil : akar ciri dari matriks yang simetris adalah riil dan menghasilkan vector ciri j yang saling orthogonal (bebas satu sama lain)

Mengingat aj sebagai koefisien / pembobot dari komponen pokok: K1 = ai x K2 = ai x Maka antara kj juga dijamin orthogonal Bilamana Regresi Y = b0 + b1X1 + b2X2 +b3X3 + + bpXp Terkendala oleh asumsi Multikolinieritas maka regresi : Y = W0 + W1K1 + W2K2 + +WpKp Dijamin terbebas dari multikolinieritas. sebab antar Kj dijamin orthogonal atau saling bebas. Regresi ini disebut Regresi Komponen Pokok. Pendugaan parameter dapat dilakukan melalui OLS. demikian juga pengujian hipotesis serta pemeriksaan validitas model yang lain dapat diturunkan dari metode OLS. Bilamana PCA dengan matriks input R. maka : K1 = a11Z1 + a21Z2 + +ap1Zp K1 = a12Z1 + a22Z2 + +ap2Zp . . . Kp = a1pZ1 + a2pZ2 + +appZp Dari regresi : Y = W0 + W1K1 + W2K2 + +WpKp Dapat diperoleh : Y = c0 + c1Z1 + c2Z2 + +cpZp Koefisien cj dapat diperoleh sebagai berikut : c0 = W0 c1 = W1a11 + W2a12 + . . . + Wpa1p c2 = W1a21 + W2a22 + . . . + Wpa2p
. .

. c1 = W1ap1 + W2ap2 + . . . + Wpapp

Mengingat :

Maka regresi Y terhadap x dapat diperoleh dengan cara : ( ) ( ) Sehingga :

Uji Koefisien Regresi secara Parsial H0 : ci = 0 vs H0 : ci 0 Statistik uji : ( ) ( )

( Kaidah keputusan : Tolak H0 dengan resiko slah sebesar pj ( ) db = n - p P = # parameter Wi