Anda di halaman 1dari 17

MAKALAH REGRESI TERAPAN

PRINCIPAL COMPONENT ANALYSIS

OLEH :
A. FAHMI INDRAYANI
1560 9050 0011 001

PROGRAM PASCASARJANA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN


ALAM
UNIVERSITAS BRAWIJAYA
2016
BAB I
PENDAHULUAN
1.1.

Latar Belakang

Analisis regresi linear adalah teknik statistika yang dapat digunakan untuk
menjelaskan pengaruh variabel bebas (Independent Variable) terhadap variabel tak bebas
(Dependent Variable). Salah satu asumsi yang harus dipenuhi untuk melakukan
pengujian hipotesis terhadap parameer ada analisis regresi linear berganda adalah tidak
terjadinya korelasi antar variabel bebas (Multikolinearitas)
Jika antara variabel berkorelasi tinggi, pengujia hipotesis paramter berdasarkan
metode kuadrat terkecil (ordinary least square) memberikan hasil yang tidak valid (galat
yang dihasilkan akan menjadi besar, variansi dan kovariansi parameter tidak hingga),
diantara variabel-variabel bebas yang seharusnya berpengaruh signifikan terhadap
variabel tak bebas akan dinyatakan sebaliknya (tidak nyata secara statisitik), tanda
koefisien regresi dugaan yang dihasilkan bertentangan dengan kondisi aktual, penduga
koefisien regresi bersifat tidak stabil sehingga mengakibatkan silit menduga nilai-nilai
variabel tak bebas yang tentunya akan mengakibatkan tidak akuratnya pada peramalan
(Myers, 1991).
Kondisi ini mendorong untuk dikembangkannya suatu cara atau teknik yang
dapat digunakan untuk mengatasi masalah multikolinearitas pada analisis regresi linear
berganda. Salah satu solusi yang dapat digunakan adalah dengan menggunakan analisis
komponen utama (Principal component analysis/PCA), melalui penggunaan analisis ini
akan dihasilkan variabel-variabel baru yang merupakan kombinasi linear dari variabelvariabel bebas asal dan antara variabel variabel baru ini bersifat saling bebas. Variabelvariabel yang baru ini disebut komponen utama dan selanjutny diregresikan dengan
variabel tak bebas.
Berdasarkan latar belakang yang dikemukakan diatas , maka maslaah yang
dibahas dalam makalah ini adalah menggunakan analisis regresi komponen utama untuk
mengatasi masalah multikolinearitas antara variabel-variabel bebas sehingga diperoleh
persamaan regresi linear yang lebih baik dalam analisis linear berganda, serta
penerapannya dalam studi kasus.

Principal Component Analysis

1.2.

Perumusan Masalah
1. Bagaimana mendeteksi adanya salah satu pelanggaran asumsi regresi
klasik yaitu Multikolinearitas?
2. Apa yang terjadi ketika adanya pelanggaran asumsi multikolinearitas
diabaikan ?
3. Bagaimana cara penanggulangan Masalah multikolinearitas dengan
menggunakan Analisis komponen utama ?

1.3.

Tujuan
1. Mengetahui cara mendeteksi adalanya salah satu pelanggaran asumsi
regresi klasik yaitu multikolinearitas
2. Mengetahui akibat mengabaikan masalah Multikolinearitas ?
3. Mengatahui cara penanggulanagn masalah multikolinearitas dengan
menggunakan Analisis Komponen utama.

1.4.

Batasan Masalah
Makalah ini hanya akan membahas penanganan Mulikolinearitas menggunakan
analisis komponen utama pada data ............................

Principal Component Analysis

BAB II
TINJAUAN PUSTAKA
2.1.

Analisis Regresi
Analisis Regresi merupakan analisis yang dapat menjelaskan hubungan dua

Variabel atau lebih serta menelusuri pengaruh Variabel satu terhadap Variabel lainnya.
Hubungan antara Variabel-Variabel tersebut dapat dirumuskan dalam bentuk persamaan :

dimana Y merupakan Variabel respon, X adalah Variabel bebas dan merupakan


parameter sedangkan adalah sisaan model.
Untuk memperoleh nilai dugaan parameter biasanya digunakan metode kuadrat terkecil
dengan bebarapa asumsi sebagai berikut :
1. i menyebar saling bebas mengikuti sebaran normal dengan nilai tengah sama
dengan nol dan ragam 2 atau i N(0, 2),
2. i memiliki ragam homogen atau disebut juga tidak adanya masalah
heteroskedastisitas.
3. Tidak adanya hubungan antara Variabel X atau sering juga disebut tidak adanya
masalah kolinear.
Keakuratan suatu model dapat dilihat dari nilai koefisien determinasi (R 2) yang
merupakan ukuran kemampuan model yang dapat merangkan keragaman model yang
dapat merengkan keragaman total respon Y. Nilai R2 didefiniskan sebagai berikut :

dimana

merupakan nilai rataan respon dan

adalah nilai dugaan. Semakin besar nilai

R2 berarti model telah mampu menerangkan perilaku Variabel respon. Prinsip moetode
kuadarat terkecil diperlukan untuk mengestimasi 1 dan 2 sehingga ei2 minimum.
Artinya akan dicari 1 dan 2 sedemikian hingga model regresi yang teresttimasi dekat
sekali dengan model regresi yang sesungguhnya. Secara matematis, 1 dan 2 diplih
sehingga bentuk berikut terpenuhi (Nachrowi et al, 2002)

Principal Component Analysis

Meminimumkan
Istilah multikolinearitas merupakan hubungan linear yang sempurna diantara
variabel-variabel bebas dalam model regresi. Istilah kolinearitas sendiri berarti
hubungan linear tungga, sedangkan kolinearitas ganda atau multikolinearitas
menunjukkan adanya lebih dari satu hubungan linear yang sempurna (Supranto, 1992).
Cara dalam menghadapi multikolinearitas berdasarkan metode kuadrat terkecil
memberikan hasil yang tidak valid, sehingga dapat digunakan analisis komponen utama.
Analisis komponen utama adalah teknik yang digunakan untuk menyederhanakan suatu
data, dengan cara mentransformasi data secara linear sehingga terbentuk sistem
koordinat baru dengan varians maksimum. Analisis komponen utama dapat digunakan
untuk mereduksi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara
signifikan (Johnson, 2002).
Analisis komponen utama juga dikenal dengan Transformasi Karhunen-Love
(dinamakan untuk menghormati Kari Karhunen dan Michel Love) atau Transformasi
Hotelling (dinamakan untuk menghormati Harold Hotelling). Analisis komponen utama
juga merupakan salah satu teknik statistika multivariat yang dapat menemukan
karakteristik data yang tersembunyi. Dalam penerapannya, analisis komponen utama,
justru dibatasi oleh asumsi-asumsinya, yaitu asumsi kelinearan model regresi, asumsi
keortogonalan komponen utama, dan asumsi varians yang memiliki struktur yang
penting (Harvey, 2009).
2.2.

Multikolinearitas

Istilah Multikolinearitas mula-mula ditemukan oleh Ragnar Frisch pada tahun 1934 yang
berarti adanya hubungan linear antara variabel Xt. Maksud dari adanya hubungan linear
antara variabel Xt adalah sebagai berikut: misalkan hubungan linear antara X1 dan X2 .
Misalkan secara substansi diketahui bahwa total pendapatan (X1) adalah penjumlahan
pendapatan dari upah (X2) dan pendapatan bukan dari (X3), hubungannya adalah X1=
X2+ X3.

Bila model ini diestimasi dengan metode kuadrat terkecil maka 1 tidak

diperoleh karena [XX]-1 tidak dapat dicari, kejadian inilah yang dinamakan
multikolinearitas sempurna.

Principal Component Analysis

Dalam hal lain, misalkan:


Konsumsi = 1+ 2 pendapatan + 3 kekayaan +
Ada hubungan positif antara kekayaan dan pendapatan, dalam arti seseorang yang kaya
cenderung berpendapatan tinggi. Jika model ini diestimasi dengan metode kuadrat
terkecil, dapat ditentukan, tetapi variansi yang dihasilkan besar yang mengakibatkan
galatnya besar dan interval kepercayaannya semakin besar, sehinggga kurang tepat.
Disimpulkanlah terjadi multikolinearitas yang hampir sempurna. Permasalahan ini
mengakibatkan dampak yang tidak baik bagi model. Pada analisis regresi,
multikolinearitas dikatakan ada apabila beberapa kondisi berikut dipenuhi:
a. Dua variabel berkorelasi sempurna (oleh karena itu vektor-vektor yang
menggambarkan variabel tersebut adalah kolinear).
b. Dua variabel bebas hampir berkorelasi sempurna yaitu koefisien korelasinya
mendekati 1.
c. Kombinasi linear dari beberapa variabel bebas berkorelasi sempurna atau mendekati
sempurna dengan variabel bebas yang lain.
d.

Kombinasi linear dari satu sub-himpunan variabel bebas berkorelasi sempurna


dengan satu kombinasi linear dari sub-himpunan variabel bebas yang lain.

2.2.1. Pendeteksian Multikolinearitas


Ada beberapa cara untuk mengetahui ada tidaknya multikolinearitas diantaranya adalah:
a. Nilai korelasi (korelasi antar variable bebas)
Pendektesian ini merupakan pendektesian yang paling sederhana dan paling mudah.
Jika elemen |rij | mendekati satu atau | rij |> 0.75 , maka Xi dan Xj mungkin terjadi
masalah multikolinearitas.

Principal Component Analysis

Untuk i = k mengasilkan r = 1
b. Faktor variansi inflasi ( Variance Inflation Faktor /VIF)
Merupakan element diagonal utama dari invers matriks korelasi. Faktor variansi
inflasi kecil, maka multikolinearitas lebih sederhana. Faktor inflasi yang
melebihi 10 maka terditeksi adanya masalah multikolinearitas.
c. Nilai Determinan
Nilai determinan terletak antara 0 dan 1. Jika nila determinan 1, kolom matriks X
adalah ortogonal dan jika nilainya 0 maka terdapat ketergantungan linear yang
nyata antara kolom X. Nilai yang lebih kecil determinannya maka tingkat
kolinearitasnya lebih besar.
d. Jika pengujian F untuk regresi adalah nyata tetapi pengujian pada koefisien
regesi

secara

individu

tidak

nyata,

maka

mungkin

terjadi

masalah

multikolinearitas.
2.3.

Analisis Komponen Utama


Analisis komponen utama pada dasarnya bertujuan untuk menyederhanakan

variabel-variabel yang diamati dengan cara mereduksi dimensinya. Hal ini dilakukan
dengan menghilangkan korelasi antara variabel melalui transformasi variabel asal (X) ke
variabel baru (komponen utama) yang tidak berkorelasi (Gesper, 1995).
Suatu Variabel acak berdimensi p misalkan X = (X1, X2, ... , Xp) mengikuti sebaran

normal ganda dengan vektor nilai tengah dan matriks ragam peragam , X~Np (

, ).

Maka bentuk komponen utama sebagai kombinasi linear dari variabel asal dapat
dinyatakan sebagai berikut :

Dimana aij menunjukkan besarnya kontribusi Variabel ke-i terhadapa komponen utama
ke-j dan tanda aij menunjukkan arahnya (overall dan klett, 1972).
Agar ragam dari komponen utama ke-j maksimum serta komponen utama ke-i untuk i
j,maka vektor pembobot aj harus dipilih dengan kendala ajaj = 1 dan ajaj = 0.

Principal Component Analysis

Sehingga akar ciri ke-j (j) diturunkan dari matriks peragam S dapat diperoleh dari
persamaan :

Dan vektor pembobot aj atau vektor ciri ke-j diperoleh dengan menyelesaikan persamaan

Menurut (morrison, 1978) jika Variabel asal memiliki satuan yang sama dan ragam yang
homogen, maka analisis komponen utama didasarkan pada akar ciri dan vektor ciri yang
diturunkan dari matriks peragam (S). Sedangkan jika Variabel asal memiliki satuan
berbeda, maka digunakan matriks korelasi R dan sebelum dilakukan analisis komponen
utama variabel tersebut perlu dibakukan ke dalam variabel baku Z, sebagai berikut :

Dimana xi adalah Variabel bebas ke-i,

adalah rataan dari Variabel X

Besarnya keragaman yang dapat diterangkan oleh komponen utama ke-i untuk
komponen R sebesar :

Dimana p adalah banyaknya variabel asal, i merupakan akar ciri ke-i dan tr(R)
merupakan teras matriks R.
Banyak komponen utama yang digunakan , dapat ditentukan dengan
menggunakan kriteria persentase keragaman kumulatif. Persentase keragaman ini
dianggap cukup mewakili total keragaman data jika telah mencapai 75% atau lebih
(Morrison, 1978). Menurut dilon dan Goldstein (1984) memilih komponen utama untuk
diinterpretasikan dapat menggunakan plot Scree akar ciri komponen utama.
2.4.

Regresi Komponen Utama

Regresi komponen utama merupakan metode pendekatan yang cukup baik untuk
memperoleh koefisien penduga pada persamaan regresi yang mempunyai masalah

Principal Component Analysis

multikolinearitas. Analisis komponen utama merupakan analisis regres dari variabel


tidak bebas terhadap komponen-komponen utama yang tidak berkorelasi, dimana setiap
kompoen utama merupakan kombinasi linear dari semua variabel bebas (Gasper, 1995).
Model regresi komponen utama dapat dirumuskan sebagai berikut :

Dimana merupkan koefisien regresi, v adalah komponen sisaan dan W merupakan


kombinasi linear dari Variabel Variabel asal X yang dibakukan menjadi Variabel baku Z
yang didefinisikan sebagai berikut :

Skor komponen utama ke-i pada pengamatan ke-t dapat dihitung dengan memasukkan
nilai-nilai Zt untuk setiap pengamatan

dimana
St1

= skor komponen pertama, pengamatan ke-t

Shk

= skor komponen ke-h, pengamatan ke-k

a1

= Vektor pembobot ke-1

Zt

= Vektor skor baku dari variabel yang diamati pada objek pengamatan ke-t

Setelah variabel baku Z ditransformasikan kembali kedalam variabel asli maka dapat
dibentuk persamaan regresi dalam bentuk variabel asli sebagai berikut

Koefisien-koefisien regresi dapat diduga dengan rumus

Principal Component Analysis

Untuk mengetahui sejauh mana tiangkat responsif dari Variabel respon terhadap Variabel
bebas Xi maka dapat dihitung elastisitas rata-rata berdasarkan model regresi diatas yang
didefinisikan dengan rumus :

Dimana Ei adalah elastisitas rata-rata Variabel respon (Y) terhadap Variabel bebas, bi
adalah koefisien regresi sedangkan

dan

Principal Component Analysis

adalah nilai tengah Variabel Y dan Xi.

BAB III
METODE DAN PEMBAHASAN
3.1.

Data

Data yang digunakan pada makalah ini diambil dari buku Regression Analysis by
Example (Chattree dan Price, 1997). Dengan 1 variabel respon Y dan 3 Variabel Bebas.
PERUSAHAAN

KOMPENSASI(Y)

PENJUALAN(X1)

KEUNTUNGAN(X2)

PEKERJA(X3)

450

4600.6

128.1

48000

387

9255.4

783.9

55900

368

1526.2

136

13783

277

1683.2

179

27765

676

2752.8

231.5

34000

454

2205.8

329.5

26500

507

2384.6

381.8

30800

496

2746

237.9

41000

487

1434

222.3

25900

10

383

470.6

63.7

8600

11

311

1508

149.5

21075

12

271

464.4

30

6874

13

524

9329.3

577.3

39000

14

498

2377.5

250.7

34300

15

343

1174.3

82.6

19405

16

354

409.3

61.5

3586

17

324

724.7

90.8

3905

18

225

578.9

63.3

4139

19

254

966.8

42.8

6255

20

208

591

48.5

10605

21

518

4933.1

310.6

337119

22

406

7613.2

491.6

52000

23

332

3457.4

228

50500

24

340

545.3

54.6

18625

25

698

22862.8

3011.3

97937

26

306

2361

203

12300

27

613

2614.1

201

71800

28

302

1013.2

121.3

18625

29

540

4560.3

194.6

97937

30
31

293
528

855.7
4211.6

63.4
352.1

12300
71800

32

456

5440.4

655.2

87700

33

417

1229.9

97.5

14600

3.2.

Pembahasan

Principal Component Analysis

10

3.2.1. Regresi Berganda


Pembentukan model regresi berganda dengan menggunakan software R. Setelah
memasukkan seluruh variabel bebas dan variabel responnya, diperoleh output berikut
Residuals:
Min
1Q
-147.79 -73.69

Median
-20.27

3Q
64.27

Max
278.38

Coefficients:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 3.419e+02 2.483e+01 13.769
3e-14 ***
Penjualan
1.073e-02 1.429e-02
0.750
0.4591
Keuntungan 2.521e-02 1.130e-01
0.223
0.8250
Pekerja
5.998e-04 3.408e-04
1.760
0.0889 .
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error
Multiple R-squared
Adjusted R-squared
F-statistic
p-value

: 101.9 on 29 degrees of freedom


: 0.3947
: 0.3321
: 6.305 on 3 and 29 DF
: 0.001997

Berdasarkan nilai pvalue diketahui bahwa variabel X1,X2, dan X3 secara parsial tidak
berpengaruh signifikan. Padahal ketiga variabel secara logika harusnya mempengaruhi
nilai variabel Y. Selain berdasarkan p-value untuk uji F, diperoleh hasil bahwa paling
sedikit ada satu variabel yang berpengaruh secara signifikan. Berdasarkan hal tersebut
diatas dicurigai bahwa adanya kasus multikolinearitas. Untuk itu perlu dilakukan
pengecekan multikolinearitas.
Identifikasi Multikolineritas
Untuk mengidentifikasi adanya masalah multikolinearitas dilakukan dengan melihat
nilai VIF dengan output sebagai berikut
> vif(RegModel.1)
Penjualan
11.414462

Principal Component Analysis

Keuntungan
Pekerja
10.597591 1.261438

11

Dari output diatas dapat dilihat bahwa ada nilai VIF yang lebih dari 10 yaitu pada
variabel X1(Penjualan) dan X2 (Keuntungan) . hingga dapat disimpulkan bahwa pada
data terjadi masalah multikolinearitas. Untuk mengatasi masalah multikolineatritas ini
data akan dimodelkan dengan menggunakan analisis komponen utama.
3.2.2. Analisis komponen Utama
Karena ketiga variabel tersebut memiliki satuan yang berbeda maka data untuk ketiga
variabel bebas tersebut di bakukan. Kemudian nilai yang sudah dibakukan tersebut
dianalisis dengan bantuan software R untuk memperoleh komponen utama, dan
diperoleh output sebagai berikut
Component loadings:
Comp.1
Comp.2
Comp.3
Z.Penjualan 0.6642020 0.2048145 -0.71894835
Z.Keuntungan 0.6458138 0.3271737 0.68984194
Z.Pekerja
0.3765106 -0.9225011 0.08503741
Component variances:
Comp.1
Comp.2
2.13456012 0.81910963

Comp.3
0.04633024

Importance of components:
Comp.1
Comp.2
Comp.3
Standard deviation
1.461013 0.9050468 0.21524462
Proportion of Variance 0.711520 0.2730365 0.01544341
Cumulative Proportion 0.711520 0.9845566 1.00000000

Pada output tersebut Componen Loading adalah vektor eigen yang persamaannya adalah

j merupakan nilai eigen yang niainya terdapat pada output.Component Variance adalah
nilai nilai eigen yang dimaksud. Untuk nilai-nilai kompoenen utama yang dihasilkan
dapat dilihat pada tabel 1.
PC1

0.645814
0.376511
0.664202

Principal Component Analysis

PC2

PC3

0.3271737
-0.9225011
0.2048145

12

0.68984194
0.08503741
-0.71894835

3.2.3

Regresi Komponen Utama

Jika Y diregresikan terhadap komponen-komponen utama yang ada pada tabel 1 akan
diperoleh hasil sebagai berikut
Residuals:
Min
-147.79

1Q
-73.69

Median
-20.27

3Q
64.27

Max
278.38

Coefficients:
Estimate
Std. Error
t value
Pr(>|t|)
(Intercept)
410.48
17.75 23.131
< 2e-16 ***
PC1
51.42
12.15
4.233
0.000212 ***
PC2
-18.93
19.61 -0.966
0.342267
PC3
-20.47
82.45 -0.248
0.805675
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error
Multiple R-squared
Adjusted R-squared
F-statistic
p-value

: 101.9 on 29 degrees of freedom


: 0.3947
: 0.3321
: 6.305 on 3 and 29 DF,
: 0.001997
> vif
PC1 PC2 PC3
1
1
1

Ada tiga komponen utama yang terbentuk. Dengan R 2=39,5%. Selain itu, VIF yang
diperoleh juga < 10. Sehingga berdasarkan output tersebut dapat dituliskan persamaan
untuk komponen utamanya adalah sebagai berikut :

Untuk mendapatkan persaman regresi bagi data tersebut, perlu dilakukan trasnformasi ke
variabel asal dengan menggunakan persamaan

Dimana adalah vektor dari koefisien regresi untuk variabel bebas, V adalah vektor
eigen dan adalah vektor dari koefisien regrei untuk variabel bebas yang baru.
Berdasarkan persamaan tersebut diperoleh nilai yang baru sebagai berikut

Principal Component Analysis

13

Sehingga persamaan regresi untuk data tersebut adalah sebagai berikut

Interpretasi Hasil
Berdasarkan persamaan regresi yang baru

diketahui bahwa kompensasi mendapat

pengaruh positif dari penjualan, keuntungan, dan pekerja yang dimiliki sebuah
perusahaan. Artinya bahwa :
Meningkatnya satu satuan kompensasi yang diterima akan menaikkan penjualan
sebesar 44.993 satuan dengan mengganggap bahwa keuntungan dan pekerja
tetap.
Meningkatnya satu satuan kompensasi yang diterima akan meningkatkan
keuntungan sebesar 12,89 satuan dengan anggapan bahwa penjualan dan pekerja
tetap.
Meningkatnya satu satuan kompensasi yang diterima akan menambah karyawan
sebanyak 35 orang dengan anggapan bahwa penjualan dan keuntungan yang
diterima perusahaan tetap.

Principal Component Analysis

14

BAB IV
KESIMPULAN
Dari pembahasan pada bab 3 dapat disimpulkan bahwa, pelanggaran asumsi yang
menyebabkan terjadinya multikolinearitas pada data dapat diindentifikasi dengan
melihat nilai Variance Inflation Faktor (VIF) . multikolinearitas terjadi jika nilai VIF
>10. Multikolinearitas menyebabkan hasil analisis dengan regresi berganda signifikan
jika diuji secara simultan namun ketika diuji secara parsial variabelnya tidak signifikan,
akibatnya jika multikolinearitas tidak diatasi akan terjadi kesalahan estimasi.
Salah satu cara untuk mengatasi masalah multikolinearitas adalah dengan
menggunakan analisis komponen utama, melalui penggunaan analisis ini akan
dihasilkan variabel-variabel baru yang merupakan kombinasi linear dari variabelvariabel bebas asal dan antara variabel variabel baru ini bersifat saling bebas. Variabelvariabel yang baru ini disebut komponen utama dan selanjutny diregresikan dengan
variabel tak bebas. Hal ini dapat dilihat pada studi kasus, masalah multikolinearitas
dapat diatasi, sehingga nilai dari R2 meningkat

Principal Component Analysis

15

DAFTAR PUSTAKA
Johnson, R, A. & Wichern, D, W. 2002. Applied Multivariate Statistical Analysis. 5th
edition. Pearson education International.
Myers, R.H. & Milton, J.S. 1991. A First Course In The Theory Of Linier Statistical
Models. PWS-KENT Publishing Company, Boston.
Djalal, N, et al. 2002. Penggunaan Teknik Ekonometrika. Edisi Revisi. Jakarta: PT. Raja
Grafindo Persada.
Harvey Mudd College.2009 Karhunen-Loeve Transform (KLT). www:/http//E:/Analisis_
komponen_utama .htm. Diakses pada 09 November 2016 jam 16.20

Principal Component Analysis

16

Anda mungkin juga menyukai