AnregLanPCA

Tugas Analisis Regresi Lanjutan
PRINCIPAL COMPONENT ANALYSIS (PCA)

SEBAGAI SALAH SATU METODE UNTUK MENGATASI
PELANGGARAN ASUMSI MULTIKOLINIERITAS

Disusun Oleh :
Anggun Yuliarum Q. (105090500111009)
Carlin Soniawinda (105090500111013)
Reta Yulia Pratiwi (105090500111015)

PROGRAM STUDI STATISTIKA
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS BRAWIJAYA MALANG
2013
BAB I
PENDAHULUAN
1.1 Latar Belakang
Analisis regresi merupakan analisis yang ditujukan untuk mengetahui hubungan
fungsional satu atau beberapa peubah prediktor terhadap peubah respon. Sebelum suatu data
di analisis dengan analisis regresi, data tersebut harus memenuhi beberapa asumsi klasik
dalam regresi. Salah satu asumsi klasik tersebut adalah asumsi non-multikolinearitas.
Asumsi non-multikolinearitas berlaku pada data yang mana memiliki lebih dari satu
peubah prediktor. Asumsi ini mengharuskan bahwa tidak boleh ada hubungan linier antara
sesama peubah prediktor. Apabila terdapat hubungan linier antar peubah prediktor yang
bersifat sempurna maka akan terjadi multikolinearitas sempurna. Sedangkan apabila terdapat
hubungan linier antar peubah prediktor namun tidak sempurna, maka akan terjadi
multikolinearitas kurang sempurna.
Masalah multikolinearitas patut diwaspadai dalam analisis regresi karena akan
mengakibatkan hasil penaksiran parameter yang tidak dapat dipercaya. Bahkan untuk kasus
di mana multikolinearitas bersifat sempurna, penaksiran parameter sama sekali tidak dapat
dilakukan. Sedangkan untuk kasus di mana multikolinearitas bersifat kurang sempurna,
penaksiran masih dapat digunakan namun memiliki tingkat presisi yang rendah.
Adanya multikolinearitas dapat dideteksi dengan menggunakan koefisien determinasi,
korelasi parsial, nilai VIF dan nilai akar ciri. Sedangkan untuk penanganan multikolinearitas
dapat dilakukan dengan memanfaatkan informasi apriori dari teori atau penelitian
sebelumnya, menggabungkan data cross-sectional dengan data deret waktu, menghilangkan
peubah penyebab multikolinearitas, menambahkan data baru dan dengan menggunakan
analisis komponen utama dan regresi ridge.
1.2 Tujuan
Adapun tujuan dari pembuatan makalah ini adalah :
- Untuk mengetahui definisi dan sifat multikolinieritas
- Untuk mendeteksi terjadinya multikolinieritas
- Untuk mengetahui bagaimana cara menangani kasus multikolinieritas

1.3 Batasan Masalah
Dalam pembuatan makalah ini, masalah yang dibahas dibatasi pada pendeteksian dan
penanganan kasus multikolinieritas menggunakan regresi komponen utama (Analisis
Komponen Utama). Software yang digunakan untuk mengatasi kasus multikolinieritas dalam
makalah ini adalah MINITAB 14.

BAB II
TINJAUAN PUSTAKA

2.1 Definisi dan Sifat Multikolinearitas
Multikolinearitas merupakan istilah yang mula-mula ditemukan oleh Ragnar Frisch.
Arti dari multikolinearitas saat itu adalah adanya hubungan linear yang sempurna di antara
peubah prediktor dalam model regresi. Hubungan linier antar peubah prediktor tersebut
dapat dijelaskan sebagai berikut: andaikan terdapat k peubah prediktor yaitu X1, X2,,Xk
(di mana X1=1 untuk semua pengamatan atau merupakan unsur intersep), hubungan linier
terjadi apabila memenuhi kondisi
1 1 2 2
... 0
k k
X X X + + + = (1)
Di mana
1 2 3
, ,...., adalah konstanta yang sedemikian rupa sehingga ada salah satu yang
bernilai tidak nol (Gujarati, 1998).
Saat ini istilah multikolinearitas digunakan dalam pengertian yang lebih luas, yaitu
tidak hanya pada hubungan linier yang bersifat sempurna tetapi juga pada kondisi di mana
peubah X saling berkorelasi tetapi tidak secara sempurna, sehingga persamaan (1) menjadi
1 1 2 2
... 0
k k i
X X X v + + + + = (2)
Di mana
i
v adalah unsur kesalahan stokastik.
Berikut ini adalah contoh yang menunjukkan perbedaan antara multikolinearitas
sempurna dan multikolinearitas kurang sempurna. Andaikan dimiliki data hipotetik seperti
pada tabel berikut:
X
2
X
3
X
3
*
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152
Dari tabel tersebut, terlihat jelas bahwa X
3i
=5X
2i
. Hal ini menunjukkan bahwa terjadi
multikolinearitas (korelasi sempurna) antara X
3
dan X
2
. Sedangkan peubah X
3
* berasal dari
peubah X3 yang berturut-turut ditambahkan angka berikut: 2,0,7,9,2 (unsur kesalahan
i
v ).
Akibatnya tidak terdapat kolinearitas sempurna antara X
2
dan X
3
.
Pada regresi nonlinier, adanya hubungan nonlinier dalam model misal
2 3
0 1 2 3 i i i i i
Y X X X u | | | | = + + + + (3)
Pada model tersebut terlihat jelas adanya hubungan antar peubah X
i
, namun
hubungan ini tidak menyalahi asumsi non-multikolinearitas karena bentuk hubungan tersebut
bersifat nonlinier.
Dalam melakukan analisis regresi, diperlukan asumsi non-multikolinearitas karena
beberapa hal sebagai berikut:
- Jika terdapat multikolinearitas sempurna seperti pada persamaan (1) maka koefisien
regresi menjadi tak tentu dan kesalahannya tak terhingga.
- Jika terdapat multikolinearitas kurang sempurna pada persamaan (2) maka koefisien
regresi walaupun masih bisa ditentukan, namun memilihi kesalahan standar yang besar
(bila dibandingkan dengan koefisien regresi itu sendiri), akibatnya koefisien tidak dapat
ditaksir dengan ketepatan yang tinggi.
2.2 Pendeteksian Multikolinearitas
1. Kolinearitas dapat diduga ketika
2
R tinggi (0.7-1.0) dan ketika korelasi derajat nol juga
tinggi. Akan tetapi, tidak ada atau sedikit sekali koefisien regresi yang bersifat signifikan
secara parsial (Gujarati, 1998).
2. Korelasi derajat nol yang tinggi tidak selamanya menunjukkan kolinearitas tinggi pada
kasus tertentu. Misalnya, terdapat model regresi dengan empat peubah prediktor X
1
,
X
2
,..,X
4
. X
4
merupakan kombinasi linier dari X2 dan X3 sehingga
2
4,23
1 R = .
1 2 2 3 3 4 4 i i i i i
Y X X X u | | | | = + + + +
4 2 2 3 3 i i i
X X X = +
2 2 2 2 2
2 42 43 42 43 23
4,23 2
23
2
1
r r r r r
R
r
+
=

2 2 2 2 2
42 43 42 43 23
2
23
2
1
1
r r r r r
r
+
=
(4)
Persamaan tersebuh dipenuhi oleh
42
0.5 r = ,
43
0.5 r =
23
0.5 r = .
Jadi, dapat disimpulkan bahwa korelasi sederhana atau korelasi derajat nol tidak akan
salah memberikan informais mengenai multikolinearitas kecuali jika terdapat lebih dari dua
peubah prediktor (Gujarati, 1998).
3. Berkaitan dengan poin ke-2, maka selain melihat korelasi derajat nol (korelasi sederhana)
maka disarankan untuk melihat korelasi parsial. Misal dalam regresi tersebut didapatkan
2
1,234
R sangat tinggi tetapi
2
12,34
r ,
2
13,24
r dan
2
14,23
r relative rendah, maka hal ini menunjukkan
bahwa peubah X
2
, X
3
dan X
4
berkorelasi tinggi dan setidaknya terdapat satu peubah yang
berlebihan (Gujarati, 1998).
4. Karena multikolinearitas timbul karena adanya satu atau lebih peubah prediktor yang
merupakan kombinasi linier dari peubah lainnya, maka salah satu cara untuk mengetahui
peubah mana yang saling berhubungan maka dilakukan regresi dari setiap Xi terhadap
Xi* yang tersisa, lalu dihitung
2
i
R
2
1, 2,...,
2
1, 2,...,
/ ( 2)
1 / ( 1)
x x xk
x x xk
R k
F
R N k
=
+
(5)
mengikuti distribusi F dengan db (k-2, N+k-1)
di mana :
N= jumlah sampel
k= banyaknya peubah prediktor dan unsur intersep
2
1, 2,..., x x xk
R =nilai koefisien determinasi peubah Xi terhadap peubah lain yang tersisa
Apabila nilai F lebih besar dari titik kritis pada taraf nyata yang ditentukan, maka Xi
tersebut kolinear dengan X lainnya. sebaliknya, bila nilai F lebih kecil drai titik kritis
maka Xi tersebut tidak kolinear dengan X lainnya (Gujarati, 1998).
5. Mulitikolinearitas dapat diperiksa dengan melihat nilai Variance Inflation Factors (VIF).
Nilai VIF ini diperoleh dari diagonal utama hasil perhitungan matriks (X
t
X)
-1
. Apabila
salah satu dari nilai VIF lebih dari 10, maka dapat diidentifikasikan bahwa peubah Xi
berhubungan erat dengan peubah-peubah X lainnya atau dengan kata lain terdapat
masalah multikolinearitas (Myers,1990 dalam Gusriani, 2004).
Nilai Variance Inflation Factors ( faktor inflasi ragam) dapat juga dihitung berdasarkan
rumus :
2 1
(1 )
i i
VIF R

= (6)
Dengan
2
i
R adalah koefisien determinan yang diperoleh jika peubah Xi diregresikan
dengan p-1 peubah prediktor lainnya. VIF memperlihatkan kenaikan ragam dugaan
parameter yang dipengaruhi oleh keberadaan multikolinearitas (Sen dan Srivastava 1990,
dalam Gusriani 2004).
6. Akar ciri X
t
X yaitu
1 2
, ,...,
k
dapat digunakan untuk mengukur keberadaan
multikolinearitas dalam data. Jika ada satu atau lebih ketergantungan linier dalam data,
maka akar cirinya aka nada yang bernilai sangat kecil dan menunjukkan adanya
ketergantungan linier di antara kolom X. Beberapa peneliti menentukan kondisi X
t
X
dengan menentukan indeks kondisi
max
i
i
q = (7)
Nilai
i
q 30 menunjukkan adanya masalah multikolinearitas pada X
t
X (Gusriani, 2004).
2.3 Penanganan Multikolinearitas dengan Analisis Komponen Utama (PCA)
Montgomery dan Hines (1990) dalam Soemartini (2008) menjelaskan bahwa dampak
multikolinearitas dapat mengakibatkan koefisien regresi yang dihasilkan oleh analisis
regresi berganda menjadi sangat lemah atau tidak dapat memberikan hasil analisis yang
mewakili sifat atau pengaruh dari peubah bebas yang bersangkutan. Dalam banyak hal
masalah Multikolinearitas dapat menyebabkan uji T menjadi tidak signifikan padahal
jika masing-masing peubah prediktor diregresikan secara terpisah dengan peubah tak bebas
(simple regression) uji T menunjukkan hasil yang signifikan. Hal tersebutlah yang
sering kali membuat pusing para peneliti karena hasil analisis yang dilakukan pada
regresi berganda dan regresi sederhana tidaklah sejalan atau bahkan sangat
bertentangan.
Akan tetapi, pada prakteknya prosedur penanggulangan yang telah disebutkan
sebelumnya sangat tergantung sekali pada kondisi penelitian, misalnya prosedur
penggunaan informasi apriori sangat tergantung dari ada atau tidaknya dasar teori
(literatur) yang sangat kuat untuk mendukung hubungan matematis antara peubah prediktor
yang saling berkolinear, prosedur mengeluarkan peubah bebas yang berkolinear
seringkali membuat banyak peneliti keberatan karena prosedur ini akan mengurangi
obyek penelitian yang diangkat, sedangkan prosedur lainya seperti menghubungkan data
cross sectional dan time series, prosedur first difference dan penambahan data baru seringkali
hanya memberikan efek penanggulangan yang kecil pada masalah multikolinearitas. Oleh
karena itu, kita dapat mengunakan teknik lain yang dapat digunakan untuk meminimumkan
masalah multikolinearitas tanpa harus mengeluarkan peubah bebas yang terlibat
hubungan kolinear, yaitu dengan metode Principal Component Analysis (PCA) yang ada
dalam analisis faktor (Soemartini, 2008).
Prosedur PCA pada dasarnya adalah bertujuan untuk menyederhanakan peubah yang
diamati dengan cara menyusutkan (mereduksi) dimensinya. Hal ini dilakukan dengan
cara menghilangkan korelasi diantara peubah bebas melalui transformasi peubah
prediktor asal ke peubah baru yang tidak berkorelasi sama sekali atau yang biasa disebut
dengan principal component. Setelah beberapa komponen hasil PCA yang bebas
multikolinearitas diperoleh, maka komponen-komponen tersebut menjadi peubah bebas
baru yang akan diregresikan atau dianalisa pengaruhnya terhadap peubah respon (Y)
dengan menggunakan analisis regresi (Soemartini, 2008).
Tahap pertama pada prosedur regresi komponen utama yaitu menghitung komponen
utama yang merupakan kombinasi linear dari beberapa peubah X, dan tahap kedua adalah
peubah tak-bebas diregresikan pada komponen utama dalam sebuah model regresi linear.
Bentuk persamaan regresi dalam bentuk peubah asli X dapat ditulis sebagai :
0 1 1 2 2
...
k k
Y X X X u | | | | = + + + + + (8)
dengan:
Y = peubah respon
X
i
= peubah prediktor ke-i yang dispesifikasikan sejak awal, i = 1, 2, , k.
0
= konstanta
i
= koefisien regresi dari peubah prediktor ke-i, i = 1, 2, , k.
Peubah baru (W) sebagai komponen utama adalah hasil transformasi dari peubah asal
(X) yang modelnya dalam bentuk matriks adalah W = A X, dan komponen ke-j ditulis
1 1 2 2
...
j j kj k
W a X a X a X = + + + , atau
'
j
W a X = (9)
dimana vektor pembobot a
j
diperoleh dengan memaksimumkan keragaman komponen
utama ke-j, yaitu
2
'
j
y j j
S a Sa = (10)
dengan kendala ' 1
j j
a a = , ' 0
i j
a a = untuk i j = .
Vektor pembobot a
j
diperoleh dari matriks peragam yang diduga dengan matriks S,
yaitu :
1
( )( ) '
1
i i
S X X X X
n
=

(11)
Misalkan diberikan notasi K
1
, K
2
, , K
m
sebagai banyaknya komponen utama dan Y
sebagai peubah tak-bebas, maka model regresi komponen utama dapat ditulis sebagai
0 1 1 2 2
...
m m
Y W WK W K W K c = + + + + + (12)
dengan:
Y = peubah respon
K
j
= peubah prediktor komponen utama yang merupakan kombinasi linear dari semua
peubah baku Z (j = 1, 2, , m).
w
0
= konstanta.
w
j
= parameter model regresi atau koefisien regresi, (j = 1, 2, , m).
= galat.
(Prasetyo, 2010)

BAB III
HASIL DAN PEMBAHASAN

Berikut ini suatu contoh kasus yang diambil dari skripsi Nanang Pradipta (2009) dengan
judul Metode Regresi Ridge untuk Mengatasi Model Regresi Linier Berganda yang
Mengandung Multikolinieritas.
Tahun Y X
1
X
2
X
3

1949 15,9 149,3 4,2 108,1
1950 16,4 161,2 4,1 114,8
1951 19 171,5 3,1 123,2
1952 19,1 175,5 3,1 126,9
1953 18,8 180,8 1,1 132,1
1954 20,4 190,7 2,2 137,7
1955 22,7 202,1 2,1 146
1956 26,5 212,4 5,6 154,1
1957 28,1 226,1 5 162,3
1958 27,6 231,9 5,1 164,3
1959 26,3 239 0,7 167,6
1960 31,1 258 5,6 176,8
1961 33,3 269,8 3,9 186,6
1962 37 288,4 3,1 199,7
1963 43,3 304,5 4,6 213,9
1964 49,3 323,4 7 223,8
1965 50,3 336,8 1,2 232
1966 56,6 353,9 4,5 242,9
Keterangan:
Y : harga barang import (miliar Franc)
X
1
: harga barang yang dipesan (miliar Franc)
X
2
: persediaan barang (miliar)
X
3
: jumlah barang yang dikonsumsi (miliar)

Penanganan Multikolinieritas dengan Analisis Komponen Utama
Hasil analisis:
1. Pendeteksian Multikolinieritas dilakukan dengan bantuan software Minitab 14. Suatu
model regresi dikatakan memenuhi asumsi multikolinieritas apabila terdapat peubah yang
memiliki nilai VIF > 10. Berikut output yang dihasilkan.

Berdasarkan output tersebut, peubah X
1
(harga barang yang dipesan) dan X
3
(jumlah
barang yang dikonsumsi) memiliki VIF di atas 10 maka dapat disimpulkan bahwa terjadi
multikolinearitas antar peubah prediktor. Untuk itu, perlu dilakukan penanganan masalah
multikolinieritas. Salah satu metode untuk menanganinya adalah dengan menggunakan
analisis komponen utama.
Langkah pertama yang harus dilakukan adalah mentransformasi data dalam bentuk baku.
Berikut ini adalah data yang telah dibakukan.
Z1 Z2 Z3
-1,3889 0,29989 -1,4256
-1,2015 0,24246 -1,2645
-1,0394 -0,3318 -1,0625
-0,9764 -0,3318 -0,9735
-0,8929 -1,4803 -0,8484
-0,7371 -0,8486 -0,7137
-0,5576 -0,9061 -0,5141
-0,3954 1,10385 -0,3193
-0,1797 0,75929 -0,1221
-0,0884 0,81672 -0,074
0,02335 -1,71 0,00534
0,32249 1,10385 0,2266
0,50826 0,12761 0,46228
0,8011 -0,3318 0,77733
1,05458 0,52959 1,11883
1,35214 1,90781 1,35692
1,5631 -1,4229 1,55413
1,83233 0,47217 1,81627

Selanjutnya, dilakukan analisis komponen utama pada data yang telah dibakukan dan
output yang dihasilkan adalah sebagai berikut.

Dari output tersebut, persamaan komponen utama yang diperoleh yaitu:
PC1 = 0.681 Z1 + 0.270 Z2 + 0.681 Z3
PC2 = 0.190 Z1 - 0.963 Z2 - 0.192 Z3
PC3 = -0.707 Z1 + 0.001 Z2 + 0.707 Z3
kemudian dilakukan lagi pendeteksian multikolinearitas dengan peubah prediktor
komponen utama PC1, PC2, dan PC3.

Dari output di atas diperoleh persamaan regresi Y = 30.1 + 8.48 PC
1
+ 1.60 PC
2
+ 5.8
PC
3
. Dengan mensubstitusikan persamaan komponen utama ke persamaan regresi
yang baru, maka diperoleh :
Y = 30.1 + 8.48 (0.681 Z
1
+ 0.270 Z
2
+ 0.681 Z
3
) + 1.60 (0.190 Z
1
- 0.963 Z
2
+ 0.192
Z
3
) + 5.8 (-0.707 Z
1
+ 0.001 Z
2
+ 0.707 Z
3
).
Y = 30.1 + 1.9783 Z
1
+ 0.8410 Z
2
+ 10.1827 Z
3

Dari hasil tersebut, terlihat jelas bahwa masalah multikolinearitas telah teratasi
dimana nilai VIF peubah prediktor < 10.
Proses interpretasi yang melibatkan regresi komponen utama ini harus melalui
beberapa operasi untuk mengembalikan prediktor menjadi peubah asal sebagai
berikut:
dan

Dimana diketahui rata rata dan simpangan baku untuk tiap tiap prediktor adalah
sebagai berikut :

Sehingga:

Jadi diperoleh model regresi dengan peubah prediktor asal yaitu

Dari model tersebut dapat diinterpretasikan bahwa:
- Setiap kenaikan 1 miliar harga barang yang dipesan akan menambah 0.0312 miliar
harga barang import dengan asumsi prediktor lain bersifat konstan
- Setiap kenaikan 1 miliar persediaan barang akan menambah 0.4831 miliar harga
barang import dengan asumsi prediktor lain bersifat konstan
- Setiap kenaikan 1 miliar jumlah barang yang dikonsumsi akan menambah 0.2449
miliar harga barang import dengan asumsi prediktor lain bersifat konstan
- Dalam keadaan semua prediktor bersifat konstan, maka harga barang import
sebesar 27.9769 miliar.

BAB IV
PENUTUP
4.1 Kesimpulan
Berdasarkan uraian materi yang telah dijabarkan, maka dapat disimpulkan
beberapa hal sebagai berikut:
- Asumsi non-multikolinearitas mengharuskan bahwa tidak boleh ada hubungan linier
antara sesama peubah prediktor
- Pendeteksian multikolinearitas dapat dilakukan dengan menggunakan koefisien
determinasi, korelasi parsial, nilai VIF dan nilai akar ciri.
- Penanganan multikolinearitas dapat dilakukan dengan memanfaatkan informasi
apriori dari teori atau penelitian sebelumnya, menggabungkan data cross-sectional
dengan data deret waktu, menghilangkan peubah penyebab multikolinearitas,
menambahkan data baru dan dengan menggunakan analisis komponen utama dan
regresi ridge.
- Dari contoh kasus yang telah dianalisis diperoleh model regresi dengan peubah
prediktor asal yaitu

4.2 Saran
Dalam statistika sebuah model regresi dikatakan baik atau cocok,jika dipenuhi
asumsi-asumsi ideal (klasik), yakni tidak adanya autokorelasi, heteroskedastisitas, dan
multikolinieritas. Tidak terpenuhinya salah satu asumsi, khususnya asumsi non
mutikolinearitas akan menyebabkan kesulitan pada saat penaksiran parameter. Oleh
sebab itu disarankan agar melakukan uji asumsi terlebih dahulu untuk menelaah
dipenuhi tidaknya asumsi tersebut.

DAFTAR PUSTAKA

Gujarati, Damodar. 1998. Ekonometrika Dasar. Jakarta: Penerbit Erlangga
Gusriani, Nurul. 2004. Regresi Ridge dengan Penduga Bayes untuk Mengatasi
Multikolinieritas. Bogor : IPB
Prasetyo, H.B. Analisis Regresi Komponen Utama untuk Mengatasi Masalah
Multikolinieritas dalam Analisis Regresi Linier Berganda. Hariz_oke@yahoo.com.
Diakses tanggal 11 Maret 2013.
Soemartini. 2008. Principal Component Analysis sebagai Salah Satu untuk Mengatasi
Multikolinearitas. Jatinangor: FMIPA-UNPAD

AnregLanPCA

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

AnregLanPCA

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Analisis Regresi Lanjutan

PRINCIPAL COMPONENT ANALYSIS (PCA)

Anda mungkin juga menyukai