A. Materi Pendahuluan
1. Pengertian dan Sifat Multikolinearitas
Salah satu asumsi dari Classical Liniear Regression Model (CLRM)
adalah tidak terjadi multikolinearitas diantara variabel-variabel independen
yang terlibat dalam model regresi, atau dengan kalimat lain dalam metode
Ordinary Least Squae (OLS) variabel independen tidak saling berkorelasi.
Karena, koefisien regresi dari variabel-variabel independen tidak dapat
ditentukan, dan standar errornya sangat besar bahkan mencapai tidak
terhingga. Istilah multikolinearitas diperkenalkan pada tahun 1934 oleh
Ragnar Frisch., dan didefinisikan bahwa multikolinearitas adalah keberadaan
hubungan linear yang sempurna atau tepat, di antara sebagian atau seluruh
variabel independen dalam sebuah model regresi.
Multikolinearitas biasanya terjadi ketika sebagian besar variabel yang
digunakan saling terkait dalam suatu model regresi. Oleh karena itu masalah
multikolinearitas tidak terjadi pada regresi linier sederhana yang hanya
melibatkan satu variabel independen, dan karena multikolinearitas yaitu
terdapat hubungan linear antara variabel independennya, maka
multikolinearitas tidak terjadi pada hubungan non linear.
Untuk regresi variabel k yang melibatkan variabel independen
𝑋1 , 𝑋2 , … , 𝑋𝑘 (dimana 𝑋1 = 1 untuk semua observasi mengikutkan faktor
intercept), dikatakan multikolinearitas sempurna jika:
𝜆1 𝑋1 + 𝜆2 𝑋2 + ⋯ + 𝜆𝑘 𝑋𝑘 = 0
Di mana 𝜆1 , 𝜆2 , … , 𝜆𝑘 adalah konstanta yang tidak semuanya bernilai nol
secara bersamaan.
Sebaliknya, dikatakan multikolinearitas tidak sempurna jika:
𝜆1 𝑋1 + 𝜆2 𝑋2 + ⋯ + 𝜆𝑘 𝑋𝑘 + 𝑣𝑖 = 0
Di mana 𝑣𝑖 adalah faktor kesalahan stokastik.
2. Estimasi pada Keberadaan Multikolinearitas
a. Multikolinearitas sempurna
Dalam kasus multikolinearitas sempurna, koefisien regresi tidak dapat
ditentukan dan standard errornya tidak terhingga. Pernyataan ini dapat
ditunjukkan dalam model regresi linear tiga variabel sebagai berikut:
𝑌𝑖 = 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + 𝑢̂𝑖
Pada materi sebelumnya kita ketahui bahwa:
(∑ 𝑌𝑖 𝑋2𝑖 )(∑ 𝑋3𝑖 2 ) − (∑ 𝑌𝑖 𝑋3𝑖 )(∑ 𝑋2𝑖 𝑋3𝑖 )
𝛽̂2 =
(∑ 𝑋2𝑖 2 )(∑ 𝑋3𝑖 2 ) − (∑ 𝑋2𝑖 𝑋3𝑖 )2
(∑ 𝑌𝑖 𝑋3𝑖 )(∑ 𝑋2𝑖 2 ) − (∑ 𝑌𝑖 𝑋2𝑖 )(∑ 𝑋2𝑖 𝑋3𝑖 )
𝛽̂3 =
(∑ 𝑋2𝑖 2 )(∑ 𝑋3𝑖 2 ) − (∑ 𝑋2𝑖 𝑋3𝑖 )2
Asumsikan bahwa 𝑋3𝑖 = 𝜆𝑋2𝑖 , dimana 𝜆 adalah konstanta yang tidak
bernilai nol. Selanjutnya substitusikan ke persamaan yang pertama sehingga
kita peroleh:
0
𝛽̂2 =
0
sehingga 𝛽̂2 tidak dapat ditentukan.
b. Multikolinearitas “tinggi” tapi tidak sempurna
Perhatikan kembali model regresi linear tiga variabel berikut:
𝑌𝑖 = 𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + 𝑢̂𝑖
Pada materi sebelumnya kita ketahui bahwa:
(∑ 𝑌𝑖 𝑋2𝑖 )(∑ 𝑋3𝑖 2 ) − (∑ 𝑌𝑖 𝑋3𝑖 )(∑ 𝑋2𝑖 𝑋3𝑖 )
𝛽̂2 =
(∑ 𝑋2𝑖 2 )(∑ 𝑋3𝑖 2 ) − (∑ 𝑋2𝑖 𝑋3𝑖 )2
Asumsikan bahwa 𝑋3𝑖 = 𝜆𝑋2𝑖 + 𝑣𝑖 , dimana 𝜆 adalah konstanta yang
tidak bernilai nol dan 𝑣𝑖 adalah faktor kesalahan stokastik. Selanjutnya
substitusikan ke persamaan di atas sehingga kita peroleh:
(∑ 𝑌𝑖 𝑋2𝑖 )(𝜆2 ∑ 𝑋2𝑖 2 + ∑ 𝑣𝑖 2 ) − (𝜆 ∑ 𝑌𝑖 𝑋2𝑖 + ∑ 𝑌𝑖 𝑣𝑖 )(𝜆 ∑ 𝑋2𝑖 2 )
𝛽̂2 = 2
(∑ 𝑋2𝑖 2 )(𝜆2 ∑ 𝑋2𝑖 2 + ∑ 𝑣𝑖 2 ) − (𝜆 ∑ 𝑋2𝑖 2 )
Dalam kasus ini, 𝛽̂2 dapat diestimasi, tetapi jika 𝑣𝑖 cukup kecil,
katakanlah mendekati nol, maka akan menjadi multikolinearitas yang
sempurna sehingga koefisiennya tidak dapat ditentukan.
3. Sebab terjadinya multikolinearitas
Terdapat beberapa sumber dari multikolinearitas, sebagaimana yang
dikemukakan oleh Montgomery dan Peck. Multikolinearitas disebabkan oleh
beberapa faktor:
a. Metode pengumpulan data yang digunakan. Sebagai contoh,
mengambil sampel dari jangkauan nilai yang terbatas dan diambil
dari regresor-regresr di populasi.
b. Batasan yang ada pada model atau populasi yang diambil
sampelnya. Sebagai contoh, dalam regresi konsumsi listrik terhadap
pendapatan (X2) dan ukuran rumah (X3), terdapat batasan fisik
populasi pada keluarga tersebut, dimana keluarga dengan pendapatan
yang lebih tinggi biasanya memiliki rumah yang lebih besar
dibandingkan keluarga dengan pendapatan yang lebih rendah.
c. Spesifikasi model. Sebagai contoh, menambahkan istilah polynomial
pada model regresi, khususnya ketika jangkauan variable X kecil.
d. Model yang “overdetermined”. Hal ini terjadi ketika model memiliki
banyak variable penjelas daripada jumlah observasi. Terjadi dalam
penelitian medis, dimana mungkin saja hanya terdapat sedikit jumlah
pasien yang informasinya dikumpulkan pada variable dengan jumlah
yang lebih banyak.
Faktor lain yang memungkinkan adalah khususnya pada data time series
adalah terdapat kemungkinan regresor-regresor yang diikutsertakan dalam
model memiliki trend yang serupa, yaitu mereka sama-sama meningkat atau
menurun seiring berjalannya waktu. Jadi, dalam regresi pengeluaran konsumsi
terhadap pendapatan, kekayaan/kesejahteraan, dan populasi, regresor
pendapatan, kekayaan, dan pupolasi dapat tumbuh bersama dari waktu ke
waktu pada laju yang kurang lebih sama, sehingga menyebabkan kolinearitas
diantara variable tersebut.
4. Konsekuensi Praktis dari Multikolinearitas
Dalam kasus multikolinearitas mungkin akan menemukan konsekuesi-
konsekuensi berikut:
a. Walaupun BLUE (Best Linear Unbiased Estimator), estimator
OLS memiliki varians dan kovarians yang besar, membuat
estimasi yang akurat menjadi sulit.
Untuk melihat varians dan kovarians yang besar ingat kembali rumus
varian dan kovarians 𝛽̂2 dan 𝛽̂3 dari model regresi linear tiga variabel 𝑌𝑖 =
𝛽̂2 𝑋2𝑖 + 𝛽̂3 𝑋3𝑖 + 𝑢̂𝑖 yaitu:
𝜎2
𝑣𝑎𝑟(𝛽̂2 ) =
∑ 𝑋2𝑖 2 (1 − 𝑟23 2 )
𝜎2
𝑣𝑎𝑟(𝛽̂3 ) =
∑ 𝑋3𝑖 2 (1 − 𝑟23 2 )
−𝑟23 𝜎 2
𝑐𝑜𝑣(𝛽̂2 , 𝛽̂3 ) =
(1 − 𝑟23 2 )√∑ 𝑋2𝑖 2 𝑋3𝑖 2
OBSERVASI Y X1 X2 X3 X4 X5 TAHUN
1947 60323 830 234289 2356 1590 107608 1
1948 61122 885 259426 2325 1456 108632 2
1949 60171 882 258054 3682 1616 109773 3
1950 61187 895 284599 3351 1650 110929 4
1951 63221 962 328975 2099 3099 112075 5
1952 63639 981 346999 1932 3594 113270 6
1953 64989 990 365385 1870 3547 115094 7
1954 63761 1000 363112 3578 3350 116219 8
1955 66019 1012 397469 2904 3048 117388 9
1956 67857 1046 419180 2822 2857 118734 10
1957 68169 1084 442769 2936 2798 120445 11
1958 66513 1108 444546 4681 2637 121950 12
1959 68655 1126 482704 3813 2552 123366 13
1960 69564 1142 502601 3931 2514 125368 14
1961 69331 1157 518173 4806 2572 127852 15
1962 70551 1169 554894 4007 2827 130081 16
5) Lalu di WorkFile Creator, isilah tabel sesuai gambar di bawah ini, lalu
klik OK
6) Akan muncullah tampilan seperti di bawah ini:
9) Pada kotak dialog excel read- step 2 of 3, di kotak name, ganti nama
series01 sampai series07, dengan Y, X1, X2, X3, X4, X5, dan X6
secara berturut-turut, sehingga diperoleh tampilan seperti di bawah ini:
10) Lalu klik next, sehingga diperoleh tampilan seperti di bawah ini:
11) Pada kotak dialog excel read- step 2 of 3, isikan 1947 pada start date,
seperti pada gambar di bawah ini:
12) Lalu klik finish, sehingga diperoleh tampilan seperti di bawah ini:
13) Selanjutnya akan dicari hasil regresi dari data di atas. Dengan cara
klik quick estimate equation, lalu akan muncul tampilan seperti di
bawah ini:
14) Pada kotak dialog equation estimation, bagian equation specification
isikan Y c X1 X2 X3 X4 X5 X6, seperti pada gambar di bawah ini:
15) Kemudian klik OK, sehingga akan muncul tampilan seperti di bawah
ini:
28) Dari beberapa tampilan regresi di atas, dapat diduga bahwa terdapat
masalah multikolinearitas pada model regresi data yang dimiliki
(penjelasan di bahas kemudian).
29) Setelah mengetahui terdapat masalah multikolinearitas pada model
regresi di atas, maka selanjutnya akan di coba untuk melakukan
perbaikan terhadap masalah multikolinearitas ini dengan mengubah
variabel X2 (PNB) menjadi bentuk riil yaitu dengan membaginya
dengan deflator harga implisit (X1), dan menghilangkan variabel X3
(jumlah pengangguran) dan X6 (tahun).
30) Masukkan data yang baru ke dalam excel, lalu simpan file tersebut.
31) Selanjutnya lakukan langkah yang serupa dengan langkah 2-7.
32) Kemudian pada predefined range pilih sheet 3, lalu klik next,
sehingga muncul tampilan seperti di bawah ini:
33) Pada kotak dialog excel read- step 2 of 3, di kotak name, ganti nama
series01 sampai series04, dengan Y, GNP, X4, dan X5 secara
berturut-turut, sehingga diperoleh tampilan seperti di bawah ini:
34) Lalu klik next, sehingga diperoleh tampilan seperti di bawah ini:
35) Pada kotak dialog excel read- step 2 of 3, isikan 1947 pada start date,
seperti pada gambar di bawah ini:
36) Lalu klik finish, sehingga diperoleh tampilan seperti di bawah ini:
37) Selanjutnya akan dicari hasil regresi dari data di atas. Dengan cara
klik quick estimate equation.
38) Pada kotak dialog equation estimation, bagian equation specification
isikan Y c GNP X4 X5, seperti pada gambar di bawah ini:
39) Kemudian klik OK, sehingga akan muncul tampilan seperti di bawah
ini:
40) Dari tampilan di atas, masalah multikolinearitas sudah tidak ada lagi.
(penjelasan di bahas kemudian).
Pembahasan
Poin 16
Poin 20
Poin 28
Poin 40
Pada tampilaan nomor 39, dapat dilihat bahwa tidak terdapat
multikolinearitaas pada model regresi yang telah diperbaiki. Karena nilai R2
tidak terlalu besar dengan yang sebelumnya dan variabel independennya
signifikan.
Contoh Kedua
Model Pertumbuhan Ekonomi Indonesia pada Periode 1980-2008. Adapun
modelnya adalah :
lnGDP = 𝛽 0 + 𝛽 1lnFDI + 𝛽 2lnL + 𝛽 3lnPMDN
dimana :
lnGDP = pertumbuhan ekonomi (di-proxy dari nilai ln PDB real tahun
2000)
lnFDI = investasi asing langsung (dibuat ln dari data realisasi investasi
asing langsung Indonesia)
lnL = jumlah tenaga kerja (dibuat ln)
lnPMDN = penanaman modal dalam negeri ( dibuat ln dari nilai
realisasi PMDN)
Berikut adalah datanya:
Tahun LnGDP LnFDI LnL LnPMDN
1980 13.26 5.85 3.94 9.16
1981 13.34 5.94 4 9.36
1982 13.36 6.13 4.06 9.51
1983 13.37 6.25 4.08 10.01
1984 13.44 5.82 4.11 10.06
1985 13.46 6.39 4.13 10.21
1986 13.52 6.19 4.22 10.28
1987 13.57 6.58 4.25 10.58
1988 13.62 6.36 4.28 10.67
1989 13.7 6.53 4.3 10.98
1990 13.76 6.56 4.33 11.08
1991 13.83 6.97 4.34 11.29
1992 13.89 7.57 4.36 11.42
1993 13.96 8.64 4.37 11.48
1994 14.03 8.24 4.41 11.68
1995 14.11 8.81 4.43 11.89
1996 14.18 8.44 4.45 12
1997 14.23 8.15 4.47 12.2
1998 14.09 8.49 4.47 11.98
1999 14.11 9.02 4.49 11.74
2000 14.14 9.2 4.5 12.64
2001 14.18 8.16 4.51 12.82
2002 14.23 8.03 4.52 12.87
2003 14.27 8.6 4.52 13.15
2004 14.32 8.43 4.54 13.22
2005 14.38 9.1 4.55 13.45
2006 14.43 8.7 4.56 13.65
2007 14.49 9.24 4.6 13.8
2008 14.55 9.61 4.63 14.14
Sumber : BPS dan Bank Indonesia (data diolah)
Apakah pada regresi linear data di atas terjadi multikolinearitas? Jika iya,
bagaimana cara mengatasi masalah multikolinearitas pada kasus di atas?
7) Lalu klik next, dan pada kotak dialog excel read- step 2 of 3, isikan
1980 pada start date, seperti pada gambar di bawah ini:sehingga
diperoleh tampilan seperti di bawah ini:
8) Lalu klik finish, sehingga diperoleh tampilan seperti di bawah ini:
9) Selanjutnya akan dicari hasil regresi dari data di atas. Dengan cara
klik quick estimate equation, pada kotak dialog equation
estimation, bagian equation specification isikan LnGDP c LnFDI LnL
LnPMDN, seperti pada gambar di bawah ini:
10) Kemudian klik OK, sehingga akan muncul tampilan seperti di bawah
ini:
11) Dari tampilan di atas, belum dapat diduga bahwa terdapat masalah
multikolinearitas pada model regresi data yang dimiliki (penjelasan di
bahas kemudian).
12) Untuk mendeteksi adanya multikolinearitas, lanjut kepada cara yang
lain yakni akan dilakukan uji korelasi terhadap variabel-variabel
independennya, yaitu dengan cara klik quick pilih group statistic
pilih correlations. Seperti pada gambar di bawah ini:
13) Pada kotak dialog series list masukkan variabel-variabel
independennya yaitu dengan menuliskan LnFDI LnL dan LnPMDN
lalu klik OK, sehingga akan muncul tampilan seperti di bawah ini:
14) Dari tampilan di atas, dapat diduga bahwa terdapat masalah
multikolinearitas pada model regresi data yang dimiliki (penjelasan di
bahas kemudian).
15) Untuk memperkuat dugaan di atas, akan dilakukan pengujian dengan
metode regresi auxiliary, yaitu dengan menjalankan beberapa regresi,
dengan masing-masing memberlakukan variabel LnFDI LnL dan
LnPMDN sebagai variabel dependen. Dengan melakukan langkah
yang serupa dengan langkah 9, diperoleh:
16) Dengan LnFDI sebagai variabel dependennya, diperoleh hasil regresi
sebagai berikut:
17) Dengan LnL sebagai variabel dependennya, diperoleh hasil regresi
sebagai berikut:
18) Dengan LnPMDN sebagai variabel dependennya, diperoleh hasil
regresi sebagai berikut:
19) Dari beberapa tampilan regresi di atas, dapat diduga bahwa terdapat
masalah multikolinearitas pada model regresi data yang dimiliki
(penjelasan di bahas kemudian).
20) Setelah mengetahui terdapat masalah multikolinearitas pada model
regresi di atas, maka selanjutnya akan di coba untuk melakukan
perbaikan terhadap masalah multikolinearitas ini dengan mengubah
menghilangkan variabel LnL.
21) Selanjutnya lakukan langkah yang serupa dengan langkah 2-5.
22) Kemudian pada predefined range pilih sheet 3, lalu klik next,
sehingga muncul tampilan seperti di bawah ini:
23) Pada kotak dialog excel read- step 2 of 3, di kotak name, ganti nama
series01 sampai series03, dengan LnGDP, LnFDI, dan LnPMDN
secara berturut-turut, sehingga diperoleh tampilan seperti di bawah ini:
24) Lalu klik next, pada kotak dialog excel read- step 2 of 3, isikan 1980
pada start date, seperti pada gambar di bawah ini:
25) Lalu klik finish, sehingga diperoleh tampilan seperti di bawah ini:
26) Selanjutnya akan dicari hasil regresi dari data di atas. Dengan cara
klik quick estimate equation.
27) Pada kotak dialog equation estimation, bagian equation specification
isikan LnGDP c LnFDI LnPMDN, seperti pada gambar di bawah ini:
28) Kemudian klik OK, sehingga akan muncul tampilan seperti di bawah
ini:
29) Dari tampilan di atas, masalah multikolinearitas sudah tidak ada lagi.
(penjelasan di bahas kemudian).
30) Untuk menambah keyakinan kita bahwa sudah tidak ada masalah
multikolinearitas pada model di atas, maka akan dilakukan langkah
yang serupa dengan poin 15, yaitu:
31) Ketika LnFDI sebagai variabel dependennya, diperoleh hasil regresi
sebagai berikut:
32) Ketika LnPMDN sebagai variabel dependennya, diperoleh hasil
regresi sebagai berikut:
33) Terlihat bahwa tidak ada masalah multikolinearitas pada model
regresi yang telah di perbaharui (penjelasan di bahas kemudian).
Pembahasan
Poin 11
Dari tampilan no 10 diperoleh bahwa R2 adalah 0,9847, ini sangatlah
tinggi, dan semua variabel independen yang secara statistik signifikan, dalam
hal ini belum bisa menentukan apakah terdapat multikolinearitas atau tidak
pada model regresi di atas.
Poin 14
Dari tampilan no 13 diperoleh matriks korelasi antara variabel-variabel
independen. Dapat dilihat bahwa kebanyakan nilai koefisien korelasi antara
variabel-variabel independennya > 0,8 ini artinya terdapat multikolinearitas
pada model regresi data di atas.
Poin 19
Dari tampilan no 16-18 diperoleh:
Fhitung (Fi) Dibanding Kesimpulan
Ftabel
67,0377 > Ada korelasi antara LnFDI dengan (LnL dan LnPMDN) secara
bersamaan
213,659 > Ada korelasi antara LnL dengan (LnFDI dan LnPMDN ) secara
bersamaan
185,146 > Ada korelasi antara LnPMDN dengan (LnL dan LnFDI) secara
bersamaan
Diketahui nilai Ftabel dengan ∝=5% dan derajat kebebasan 2,26 adalah 3,37
Jadi dapat disimpulkan bahwa pada model regresi sebagai berikut:
𝑌 = 𝛽0 + 𝛽1 𝐿𝑛𝐹𝐷𝐼 + 𝛽2 𝐿𝑛𝐿 + 𝛽3 𝐿𝑛𝑃𝑀𝐷𝑁
terdapat multikolinearitas.
Ini artinya kita harus memperbaiki model regresi di atas dengan cara-cara
yang telah dijelaskan di awal. Pada kasus ini kita akan memperbaiki model
regresi di atas dengan dengan mengubah menghilangkan variabel LnL.
Sehingga modelnya menjadi sebagai berikut:
𝑌 = 𝛽0 + 𝛽1 𝐿𝑛𝐹𝐷𝐼 + 𝛽2 𝐿𝑛𝐿 + 𝛽3 𝐿𝑛𝑃𝑀𝐷𝑁
Poin 29
Pada tampilan nomor 28, dapat dilihat bahwa tidak terdapat
multikolinearitaas pada model regresi yang telah diperbaiki. Karena nilai R2
tidak terlalu besar dengan yang sebelumnya dan variabel independennya
signifikan.
Poin 33
Pada tampilaan nomor 31 dan 32 diperoleh
Variabel dependen Nilai R2 Toleransi (TOL) = 1-R2
LnFDI 0,8086 0,1914
LnPMDN 0,8086 0,1914
Diketahui sebelumnya bahwa R2 keseluruhan adalah 0,9802. Ini berarti
tidak terdapat masalah kolinearitas pada model di atas ( karena nilai R2
pada regresi auxiliary < nilai R2 model regresi asli.