Anda di halaman 1dari 36

PENERAPAN METODE PARTIAL LEAST SQUARE

DALAM MENGATASI MULTIKOLINEARITAS

Disusun Oleh :

Dygta Fitria Yoga


Hadinagara Febriliana
POKOK
PEMBAHASAN

Partial Least
Multikolinearitas Contoh Kasus
Square
Multikolinearitas

Salah satu asumsi dari Classical Liniear Regression Model (CLRM)


adalah tidak terjadi multikolinearitas diantara variabel-variabel
independenyang terlibat dalam model regresi, atau dengan kalimat lain
dalam metode Ordinary Least Squae (OLS) variabel independen tidak
saling berkorelasi. Karena, koefisien regresi dari variabel-variabel
independen tidak dapat ditentukan, dan standar errornya sangat besar
bahkan mencapai tidak terhingga. Istilah multikolinearitas
diperkenalkan pada tahun 1934 oleh Ragnar Frisch, dan didefinisikan
bahwa multikolinearitas adalah keberadaan hubungan linear yang
sempurna atau tepat, di antara sebagian atau seluruh variabel
independen dalam sebuah model regresi.
Terdapat beberapa sumber dari multikolinearitas, sebagaimana yang
dikemukakan oleh Montgomery dan Peck. Multikolinearitas disebabkan oleh
beberapa faktor:
1. Metode pengumpulan data yang digunakan. Sebagai contoh, mengambil
sampel dari jangkauan nilai yang terbatas dan diambil dari regresor-regresr di
populasi.
2. Batasan yang ada pada model atau populasi yang diambil sampelnya. Sebagai
contoh, dalam regresi konsumsi listrik terhadap pendapatan (X2) dan ukuran
rumah (X3), terdapat batasan fisik populasi pada keluarga tersebut, dimana
keluarga dengan pendapatan yang lebih tinggi biasanya memiliki rumah yang
lebih besar dibandingkan keluarga dengan pendapatan yang lebih rendah.
3. Model yang “overdetermined”. Hal ini terjadi ketika model memiliki banyak
variable penjelas daripada jumlah observasi. Terjadi dalam penelitian medis,
dimana mungkin saja hanya terdapat sedikit jumlah pasien yang informasinya
dikumpulkan pada variable dengan jumlah yang lebih banyak.
Cara mendeteksi Multikolinearitas
Cara mendeteksi adanya Multikolinearitas di dalam model regresi adalah dengan cara:
1. Melihat kekuatan korelasi antar variabel bebas. Jika ada korelasi antar variabel bebas
> 0,8 dapat diindikasikan adanya multikolinearitas.
2. Melihat nilai standar error koefisien regresi parsial. Jika ada nilai standar error > 1,
maka dapat diindikasikan adanya multikolinearitas.
3. Melihat rentang confidence interval. Jika rentang confidence interval sangat lebar,
maka dapat diindikasikan adanya multikolinearitas.
4. Melihat nilai Condition Index dan eigenvalue. Jika nilai condition index > 30 dan
nilai eigenvalue < 0,001 dapat diindikasikan adanya multikolinearitas.
5. Melihat nilai Tolerance dan Variance Inflating Factor (VIF). Jika nilai Tolerance < 0,1
dan VIF > 10 dapat diindikasikan adanya multikolinearitas. Sebagian pakar
menggunakan batasan Tolerance < 0,2 dan VIF > 5 dalam menentukan adanya
multikolinearitas.
Para pakar juga lebih banyak menggunakan nilai Tolerance dan VIF dalam menentukan
adanya Multikolinearitas di dalam model regresi linear berganda dibandingkan
menggunakan parameter-parameter yang lainnya.
Multikolinearitas juga mempunyai konsekuensi atau efek di dalam model
regresi, antara lain :
1. Walaupun koefisien regresi dari variabel X dapat ditentukan (determinate),
tetapi kesalahan standarnya akan cenderung semakin besar dengan
meningkatnya tingkat korelasi antara peningkatan variabel bebas.
2. Karena besarnya kesalahan standar, selang keyakinan untuk parameter
populasi yang relevan cenderung untuk lebih besar.
3. Dalam kasus multikolinearitas yang tinggi, data sampel mungkin sesuai
dengan sekelompok hipotesis yang berbeda-beda. Jadi probabilitas untuk
menerima hipotesis yang salah akan meningkat.
4. Selama multikolinearitas tidak sempurna, penaksiran koefisien regresi
adalah mungkin tetapi taksiran dan kesalahan standarnya menjadi sangat
sensitif terhadap perubahan dalam data.
5. Jika multikolinearitas tinggi, seseorang mungkin memperoleh R2 yang
tinggi, tetapi tidak satu pun atau sangat sedikit koefisien yang ditaksir yang
penting secara statistik.
6. Adanya multikolinieritas membuat model yang kita buat menjadi tidak lagi
efisien karena nilai standar error koefisien regresi menjadi sangat besar
(overestimate) atau dengan kata lain mengurangi presisi dari estimasi
Partial Least Square
(PLS)

Ada beberapa metode untuk mengatasi masalah multikolinearitas, salah


satunya adalah metode Partial Least Squares (PLS). Metode PLS
merupakan metode yang mengkombinasikan sifat-sifat dari Principal
Component Analysis (PCA) dan regresi linear berganda. Tujuan dari
metode PLS adalah mengestimasi dan menganalisis variabel terikat dari
variabel-variabel bebas. Dalam hal ini, PLS mereduksi dimensi variabel-
variabel bebas dengan membentuk variabel-variabel baru yang
merupakan kombinasi linear dari variabel-variabel bebas dengan
dimensi lebih kecil, kemudian menggunakan metode OLS dalam
mengestimasi variabel baru tersebut. Tujuan PLS adalah membentuk
komponen yang dapat menangkap informasi dari variabel prediktor
untuk memprediksi variabel respon. Dalam pembentukan komponen
PLS, digunakan variabel respon y yang distandarisasi dan variabel-
variabel prediktor yang terpusat (Bastien, Vinzi, & Tenenhaus, 2004).
Metode Partial Least Squares (PLS) pertama kali diperkenalkan oleh Herman Ole
Andreas Wold pada tahun 1960 sebagai metode alternatif untuk mengatasi
keterbatasan metode Ordinary Least Squares (OLS) ketika data mengalami
masalah multikolinearitas. Untuk meregresikan variabel terikat dengan variabel
bebas x1, x2, . . ., xk, metode PLS mencari komponen-komponen baru yang
berperan sebagai variabel bebas untuk mengestimasi parameter regresi Jika
terdapat sejumlah k variabel bebas dan sebuah variabel terikat, dalam prosesnya
metode PLS mengasumsikan semua variabel telah distandarisasi dalam bentuk
sebagai berikut :

yi  y  1* ( xi1  x1 )   2* ( xi 2  x 2 )       k* ( xik  x k )  ei* (1)

Dengan i = 1,2, . . .,n. Persamaan diatas dapat disajikan dalam bentuk matriks
sebagai berikut: *
y  X *  *  e* (2)
Dengan y* adalah vektor variabel terikat yang sudah terstandarisasi
berukuran (n x 1), X* adalah matriks variabel bebas yang sudah
terstandarisasi berukuran (n x k), sedangkan 𝜷* (k x 1) merupakan vektor
parameter berukuran (k x 1) dan e* adalah vektor residual berukuran (n x 1).
Sebelum menentukan penduga parameter 𝜷* pada persamaan (2) terlebih
dahulu dibentuk komponen utama yang akan digunakan sebagai variabel
baru untuk mengestimasi parameter regresi y* dengan menggunakan
algoritma PLS1. Model regresi PLS dengan komponen utama dapat
dirumuskan sebagai berikut :
(3)
Dimana W merupakan matriks pembobot untuk matriks X* yang berukuran
(k x k) dan P’ merupakan matriks muatan yang berukuran (k x k). Dengan
mendefinisikan X*W = T dan P’ 𝜷* = c, maka persamaan (3) menjadi :

(4)

Dengan y* merupakan vektor variabel terikat berukuran (n x 1) , T adalah


mariks komponen utama berukuran (n x k) dan c adalah vektor koefisien
regresi berukuran (k x 1).
Secara umum langkah-langkah pembentukan komponen-komponen utama
dengan menggunakan algoritma PLS1 adalah sebagai berikut :
1. Tentukan komponen 1

Sebelum pembentukan kompunen pertama PLS, terlebih dahulu dilakukan regresi


y terhadap masing-masing 𝑥𝑗 untuk mengetahui variabel-variabel manakah yang
signifikan membangun
komponen PLS pertama.
2. Tentukan komponen 2 dan seterusnya

*
x
Dimana h 1) j adalah residu standar dari regresi dari setiap 𝑥𝑗 terhadap
(

𝑡1,𝑡2,…,𝑡ℎ−1. Perhitungan komponen PLS berhenti ketika tidak ada lagi variabel
prediktor yang signifikan membangun komponen PLS.
Model regresi partial least square dengan m komponen dapat dituliskan
sebagai berikut:

(9)

Dengan syarat komponen PLS orthogonal, sehingga

parameter 𝑐ℎ dan 𝑤ℎ dalam Persamaan (9) dapat diestimasi.


Tranformasi Komponen PLS ke Variabel Asli
STUDI KASUS
JUB = Jumlah Uanh yang Beredar
KURS = Kurs Rp terhadap USD
SBBS = Suku Bunga Bank Sentral
IHK = Indeks Harga Konsumen
PSB = Perbandingan Suku Bunga antara Bank sentral Indonesia dan
US
SUN = Surat Utang Negara
SBI = Sertifikat Bank Indonesia

Data berjumlah 36
Penyelesaian Dengan Minitab

* PSB is highly correlated with other X variables


* PSB has been removed from the equation.

The regression equation is


JUB = - 167 + 0.00192 KURS - 11.6 SBBS + 2.72 IHK + 0.224 SUN - 0.0534 SBI

Predictor Coef SE Coef T P VIF


Constant -167.02 46.35 -3.60 0.001
KURS 0.001922 0.003038 0.63 0.532 15.6
SBBS -11.647 2.932 -3.97 0.000 5.6
IHK 2.7207 0.5823 4.67 0.000 28.7
SUN 0.22354 0.05069 4.41 0.000 32.0
SBI -0.05341 0.04270 -1.25 0.221 8.4

S = 4.29909 R-Sq = 99.0% R-Sq(adj) = 98.8%

PRESS = 803.884 R-Sq(pred) = 98.52%

Analysis of Variance

Source DF SS MS F P
Regression 5 53863 10773 582.86 0.000
Residual Error 30 554 18
Total 35 54417
Number of components selected by cross-validation: 3
Number of observations left out per group: 1
Number of components cross-validated: 5

Analysis of Variance for JUB

Source DF SS MS F P
Regression 3 53852.5 17950.8 1017.16 0.000
Residual Error 32 564.7 17.6
Total 35 54417.2

Model Selection and Validation for JUB

Components X Variance Error SS R-Sq PRESS R-Sq (pred)


1 0.703185 1851.26 0.965980 2068.23 0.961993
2 0.969319 1142.00 0.979014 1360.45 0.975000
3 0.986044 564.74 0.989622 749.15 0.986233
4 554.48 0.989811 773.51 0.985786
5 554.46 0.989811 803.88 0.985227
Standarisasi Var Y dan X

Dimana S adalah Standar Deviasi

JUBs KURSs SBBSs IHKs PSBs SUNs SBIs 0.06051 -0.1109 -0.8977 -0.2914 -0.8977 -0.1305 -0.5376
-1.502 -0.5586 0.37799 -1.1797 0.37799 -1.4471 1.6014 0.07193 -0.1057 -0.8977 -0.1523 -0.8977 -0.0316 -0.6906
-1.5438 -0.8062 0.80323 -1.1542 0.80323 -1.4111 1.58765 0.15891 -0.0263 -0.8977 0.03764 -0.8977 0.0036 -0.7048
-1.4647 -0.9269 0.80323 -1.2156 0.80323 -1.2606 2.30711 0.25174 0.00335 -0.8977 0.04063 -0.8977 0.11362 -0.9741
-1.5076 -1.0697 0.80323 -1.2739 0.80323 -1.222 2.30555 0.34354 0.03192 -0.8977 0.07353 -0.8977 0.36289 -0.9463
-1.4041 -1.1089 0.80323 -1.2514 0.80323 -1.1193 1.6532 0.45386 0.02134 -0.8977 0.08699 -0.8977 0.36958 -0.8198
1.41161 0.70646 0.09013 -0.8977 0.19615 -0.8977 0.19338 -0.7576
-1.1776 -1.0454 0.80323 -1.1483 0.80323 -1.0741
0.60831 0.11976 -0.8977 0.40402 -0.8977 0.35558 -0.6482
-1.1776 -1.1396 0.80323 -1.0211 0.80323 -0.9612 1.33159
0.64737 0.08695 -0.8977 0.55806 -0.8977 0.52193 -0.5713
-1.0338 -1.0655 0.80323 -0.8432 0.80323 -0.9346 1.11344
0.7445 0.14198 -0.8977 0.68816 -0.8977 0.56463 -0.4917
-0.978 -0.8062 0.80323 -0.7908 0.80323 -1.0261 0.66773
0.84189 0.14516 -0.8977 0.66722 -0.8977 0.70401 -0.4232
-0.8905 -0.7935 0.37799 -0.8133 0.37799 -0.8453 0.54296
1.00775 0.22982 -0.8977 0.66124 -0.8977 0.93816 -0.4364
-0.7594 -0.439 -0.4725 -0.7475 -0.4725 -0.7004 0.44047 -0.6959
0.97503 0.36422 -0.4725 0.87509 -0.4725 0.82901
-0.3848 -0.5469 -0.4725 -0.6383 -0.4725 -0.7023 0.07108 1.21139 0.73355 0.37799 1.563 0.37799 1.04918 -0.8543
-0.4358 -0.6189 -0.4725 -0.4903 -0.4725 -0.554 -0.2008 1.20074 1.41719 1.22846 1.80527 1.22846 1.2243 -1.0168
-0.4487 -0.529 -0.8977 -0.4813 -0.8977 -0.3295 -0.3483 1.40794 2.14634 1.6537 1.729 1.6537 1.40141 -1.0392
-0.291 -0.4284 -0.8977 -0.4678 -0.8977 -0.4207 -0.4411 1.38968 1.74525 1.6537 1.74844 1.6537 1.90718 -0.5472
-0.2519 -0.4178 -0.8977 -0.4275 -0.8977 -0.3165 -0.4208 1.48504 2.53154 2.07894 1.77386 2.07894 2.14154 -0.5465
-0.0873 -0.021 -0.8977 -0.414 -0.8977 -0.2471 -0.4174 1.77213 2.7559 2.07894 1.8935 2.07894 2.054 -0.504
Penyelesaian dengan Manual bantuan SPSS

Sebelum pembentukan komponen pertama PLS, terlebih dahulu


dilakukan regresi y terhadap masing-masing 𝑥𝑗 untuk mengetahui
variabel-variabel manakah yang signifikan membangun komponen
PLS pertama. Berikut adalah hasil signifikansi masing-masing variabel
𝑥𝑗.

Prediktor Koefisien SE T P-Value


KURS (X1) 0.037 0.003 10.733 0.000
SBBS (X2) 0.238 11.502 0.021 0.984
IHK (X3) 5.689 0.266 21.368 0.000
PSB(X4) 0.238 11.502 0.021 0.984
SUN (X5) 0.474 0.019 25.221 0.000
SBI (X6) -0.681 0.071 -9.534 0.000

Uji signifikansi koefisien regresi pada Tabel diatas menunjukkan


bahwa dengan taraf nyata 5% ada 4 variabel signifikan membangun
komponen PLS pertama.
Pembentukan Komponen PLS pertama, t1

0.879 x1*  0.965 x3*  0.974 x5*  0.853x6* 0.879 x1*  0.965 x3*  0.974 x5*  0.853x6*
t1  
0.879 2  0.9652  0.974 2  0.8532 1.8385
 0.478 x1*  0.524 x3*  0.529 x5*  0.464 x6*

Subtitusi nilai 𝑥𝑗∗ ke Persamaan diatas, sehingga diperoleh nilai dari 𝑡1 adalah
sebagai berikut :

t1 -0.5241786
-0.9076224 -0.467471
-0.9999932 -0.3179864
-0.676352 -0.3689731
-0.7555036 -0.1933154
-1.0108346 -0.1290801
-1.0145786 -0.1033645
-0.9704193 0.1562778
0.3450137
-0.9289134
0.4990159
-1.0327617
0.5950678
-1.0007188
0.7501544
-0.7676675
0.7483075
-0.934434 1.3282841
-0.9390071 1.7992356
-0.8409908 2.1911064
-0.8771269 2.5054273
-0.7863745 3.0188988
-0.5513553 3.1622334
Pembentukan Komponen PLS kedua, t2

Sebelum pembentukan komponen PLS kedua, terlebih dahulu


diperiksa apakah komponen kedua ini masih diperlukan. Hal tersebut
dilakukan dengan cara meregresikan antara y yang telah distandarisasi
terhadap 𝑡1 dan masing-masing variabel 𝑥𝑗 . Variabel yang digunakan
adalah variabel-variabel yang signifikan membangun PLS kedua.

Prediktor Koefisien SE T P-Value


KURS (X1) 0.001 0.000 2.132 0.041
SBBS (X2) -0.889 0.071 -12.573 0.000
IHK (X3) 0.204 0.017 11.771 0.000
PSB(X4) -0.889 0.071 -12.573 0.000
SUN (X5) 0.017 0.001 15.833 0.000
SBI (X6) -0.011 0.001 -15.486 0.000

Pada tahap ini, ternyata semua variabel signifikan . Sehingga akan


dihitung komponen PLS kedua, untuk membangun komponen PLS
kedua diperlukan koefisien residu 𝑥11, 𝑥12, . . . , 𝑥16 yaitu residu yang
dihasilkan dari persamaan regresi antara var 𝑥j terhadap 𝑡1
Koefisien Regresi t1 terhadap x1

Korelasi antara y dan residu x11


Koefisien Regresi t1 terhadap x2

Korelasi antara y dan residu x12


Koefisien Regresi t1 terhadap x3

Korelasi antara y dan residu x13


Koefisien Regresi t1 terhadap x4

Korelasi antara y dan residu x14


Koefisien Regresi t1 terhadap x5

Korelasi antara y dan residu x15


Koefisien Regresi t1 terhadap x6

Korelasi antara y dan residu x16


Pembentukan Komponen PLS kedua, t2

*
0.176 x11  0.460 x12
*
 0.455 x13
*
 0.460 x14
*
 0.476 x15
*
 0.476 x16
*
t2 
0.1762  0.4602  0.4552  0.4602  0.4762  0.4762
0.176 x11*  0.460 x12*  0.455 x13*  0.460 x14*  0.476 x15*  0.476 x16*

1.05563
 0.166 x11*  0.435 x12*  0.431x13*  0.435 x14*  0.451x15*  0.451x16*

Subtitusi nilai 𝑥1𝑗∗ ke Persamaan diatas, sehingga diperoleh nilai dari 𝑡2 adalah
sebagai berikut :
t2 1.86225
-2.9501 2.13111
-3.2364 2.12856
-4.3852 2.57295
-4.3122 2.52562
-3.1862 2.31882
-2.8024 2.17772
1.99912
-2.6065
1.90357
-2.2637
1.75178
-1.6443
1.64007
-0.9952 1.63032
-0.1147 1.57028
0.56935 0.82874
1.08052 -0.0947
1.73293 -0.8595
1.83498 -1.461
1.80299 -2.2845
1.601 -2.4661
Pembentukan Komponen PLS ketiga, t3

Sebelum pembentukan komponen PLS ketiga, terlebih dahulu


diperiksa apakah komponen ketiga ini masih diperlukan. Hal tersebut
dilakukan dengan cara meregresikan antara y yang telah distandarisasi
terhadap 𝑡1, t2 dan masing-masing variabel 𝑥𝑗 . Variabel yang
digunakan adalah variabel-variabel yang signifikan membangun PLS
kedua.

Prediktor Koefisien SE T P-Value


KURS (X1) 0.000 0.000 -2.08 0.046
SBBS (X2) 0.061 0.112 0.546 0.589
IHK (X3) 0.032 0.019 1.724 0.094
PSB(X4) 0.061 0.112 0.546 0.589
SUN (X5) 0.003 0.002 1.159 0.255
SBI (X6) 0.000 0.002 0.231 0.819

Pada tahap ini, ternyata hanya variabel KURS (x1) yang signifikan.
Sehingga akan dihitung komponen PLS ketiga, untuk membangun
komponen PLS ketiga diperlukan koefisien residu 𝑥21 yaitu residu
yang dihasilkan dari persamaan regresi antara var 𝑥1 terhadap 𝑡1 dan
t2.
Koefisien Regresi t1 dan t2 terhadap x1

Korelasi antara y dan residu x21


Pembentukan Komponen PLS ketiga, t3

 0.039 x21
*
 0.039 x21
*

t3  
 0.039 2 0.039
 1x21
*

Subtitusi nilai 𝑥21∗ ke Persamaan diatas, sehingga diperoleh nilai dari 𝑡3 adalah
sebagai berikut :
t3 -0.8831
-1.2896 -0.6628
-0.6298 -0.499
0.69702 -0.6976
1.04168 -0.2471
0.59517 -0.0345
-0.2632
0.39977
0.43243
0.97468
1.16964
0.87607
1.41802
-0.4091
1.6981
-0.2221
1.85696
-0.7376 1.28326
-0.6996 1.51397
-0.3118 0.04973
-0.226 -1.8301
-0.7393 0.73755
-0.4908 -0.9901
-1.3982 -1.4825
Pembentukan Komponen PLS keempat, t4

Sebelum pembentukan komponen PLS ketiga, terlebih dahulu


diperiksa apakah komponen keempat ini masih diperlukan. Hal
tersebut dilakukan dengan cara meregresikan antara y yang telah
distandarisasi terhadap 𝑡1, t2, t3 dan masing-masing variabel 𝑥𝑗 .
Variabel yang digunakan adalah variabel-variabel yang signifikan
membangun PLS kedua.
Prediktor Koefisien SE T P-Value
KURS (X1) 0.001 0.000 46.424 0.000
SBBS (X2) 0.182 0.113 1.616 0.116
IHK (X3) 0.023 0.019 1.181 0.247
PSB(X4) 0.182 0.113 1.616 0.116
SUN (X5) 0.001 0.002 0.551 0.586
SBI (X6) -0.004 0.002 -1.616 0.116
Variabel KURS bernilai sama dengan residu 𝑥21∗ yang mengakibatkan
variabel ini berkorelasi tinggi dengan 𝑡1 sehingga variabel KURS
dikeluarkan dan dianggap tidak signifikan membangun komponen
PLS keempat. Tabel diatas menunjukkan memperlihatkan bahwa
semua variabel prediktor tidak ada yang signifikan membangun
komponen PLS keempat. Sehingga perhitungan berhenti pada
komponen PLS ketiga dan diperoleh tiga komponen baru yaitu 𝑡1, 𝑡2,
dan t3.
Setelah mendapatkan komponen baru pada kemudian variabel respon
y diregresikan terhadap komponen tersebut.

Kedua tabel diatas memperlihatkan Uji F signifikan yang berarti ketiga


komponen PLS secara bersama mempengaruhi variabel respon y.
Persamaan regresi dugaan dengan metode PLS menghasilkan adjusted
R2 sebesar 0.988, yang artinya sebesar 98,8% variabel JUB dapat
dijelaskan oleh keenam variabel prediktor dan MSE sebesar 18.787.
Dari Tabel diatas dapat dilihat nilai VIF = TOL = 1 yang berarti
komponen PLS saling ortoghonal, tidak terjadi multikolinearitas. Hasil
Uji t memperlihatkan ketiga komponen secara parsial berpengaruh
terhadap variabel respon y. Diperoleh juga nilai eigenvalue > 0.001

Persamaan Regresi dugaan: 𝑌෠ = 302.894 + 28.073𝑡1 + 8.741𝑡2 + 1.570𝑡3


Terimakasih

Anda mungkin juga menyukai