OLEH:
F1A1 16 075
JURUSAN MATEMATIKA
KENDARI
2019
ABSTRAK
Factor (VIF) dan Indeks Kondisi (CI) digunakan sebagai ukuran deteksi tersebut.
Ridge Regresi (RR) dan Principal Component Regression (PCR) adalah dua
pendekatan lain yang digunakan dalam pemodelan selain dari regresi linier
bahwa metode Ridge Regression (RR) lebih baik daripada Principal Component
(VIF) and the Condition Index (CI) were used as measures of such detection.
Ridge Re- gression (RR) and the Principal Component Regression (PCR) were
the two other approaches used in modeling apart from the conventional simple
linear regression. For the purpose of comparing the two methods, simulated
data were used. Our task is to ascertain the effectiveness of each of the
methods based on their respective mean square errors. From the result, we
found that Ridge Regression (RR) method is better than principal component
PENDAHULUAN
antara variabel terikat 𝑌 dan variabel bebas 𝑋 (Hijriani, 2016). Hubungan antara
dua variabel (variabel bebas 𝑋 dan variabel tak bebas 𝑌) dalam suatu system yang
Dalam situasi yang demikian, suatu variabel tak bebas atau variabel respon dapat
dipengaruhi oleh lebih dari satu variabel bebas. Apabila persamaan regresi
memuat lebih dari satu variabel bebas, model regresinya disebut model regresi
ganda. Seperti halnya metode statistika lainnya, model regresi ganda mempunyai
tinggi sehingga sulit mendapatkan estimasi yang tepat (Widarjono, 2007). Oleh
regresi komponen utama dan regresi ridge (Montgomery dan Peck, 1991). Regresi
Berdasarkan uraian di atas, penulis mengangkat judul untuk penelitian ini, yaitu
2. Metode manakah antara regresi komponen utama dan regresi ridge yang cocok
2. Untuk mengetahui model regresi terbaik antara model regresi komponen utama
Hasil penelitian ini diharapkan bisa dijadikan tambahan informasi dan referensi
Haluoleo.
2. Bagi Penulis
Dari hasil penelitian ini diharapkan dapat berguna sebagai referensi yang
bermanfaat dan dapat menjadi kajian yang lebih mendalam untuk para peneliti
lainnya.
BAB II
TINJAUAN PUSTAKA
hubungannya tidak dapat dipisahkan, dan hal tersebut biasanya diselidiki sifat
model dan menyelidiki hubungan antara dua variabel atau lebih. Salah satu tujuan
dari analisis regresi adalah menentukan model regresi yang baik, sehingga dapat
diwujudkan dari besarnya nilai pengaruh dalam bentuk persentase (%) (Ariyanto,
2005: 32). Berdasarkan jumlah variabel bebasnya, analisis regresi dibagi menjadi
Bentuk paling sederhana dari model regresi sering disebut dengan regresi
linier sederhana yaitu hubungan antara satu variabel tak bebas dengan satu
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1 + 𝜀𝑖 ; 𝑖 = 1,2, … , 𝑛 (2.1)
dan 𝛽1 adalah parameter yang akan diduga nilainya dan 𝜀 adalah gangguan
(disturbance) yang akan ikut mempengaruhi nilai 𝑌, tetapi diabaikan dalam
model.
umumnya memerlukan lebih dari satu variabel bebas dalam regresinya. Oleh
karena itu, model sederhana tidak bisa dipakai, sehingga diperlukan model regresi
yang mempunyai lebih dari satu variabel bebas yang disebut model regresi linier
mempengaruhi lebih dari satu variabel bebas. Tujuan analisis regresi linier
Dengan:
𝑌𝑖 : Variabel terikat
𝑋𝑖 : Variabel bebas
𝛽0 , … , 𝛽𝑘 : parameter regresi
𝜀𝑖 : error variabel
satu metode untuk mengestimasi parameter pada regresi linear. Tujuan metode
kuadrat terkecil adalah meminimumkan jumlah kuadrat dari kesalahan (error sum
persamaan:
𝑌1 = 𝛽0 + 𝛽1 𝑋11 + ⋯ + 𝛽𝑘 𝑋𝑘1 + 𝜀1
𝑌2 = 𝛽0 + 𝛽1 𝑋12 + ⋯ + 𝛽𝑘 𝑋𝑘2 + 𝜀2
𝑌𝑛 = 𝛽0 + 𝛽1 𝑋1𝑛 + ⋯ + 𝛽𝑘 𝑋𝑘𝑛 + 𝜀𝑛
matriks, yaitu:
𝑌 = 𝑋𝛽 + 𝜀 (2.4)
Dengan
Untuk mendapatkan penaksir – penaksir OLS bagi 𝛽, maka dengan asumsi klasik
𝛽̂0 𝑒1
̂ 𝑒2
𝛽̂ = 𝛽1 𝑒=[⋮]
⋮
[𝛽̂𝑘 ] 𝑒𝑛
Persamaan hasil estimasi dari persamaannya dapat ditulis sebagai:
𝑌 = 𝑋𝛽̂ + 𝑒 (2.5)
Atau
𝑒 = 𝑌 − 𝑋𝛽̂ (2.6)
Karena tujuan OLS adalah meminumumkan jumlah kuadrat dari kesalahan, maka:
maka:
𝑒1
= [𝑒1 𝑒2 … 𝑒𝑘 ] [𝑒2 ]
⋮
𝑒𝑘
= 𝑒𝑇𝑒
sehingga:
∑ 𝑒𝑖2 = 𝑒 𝑇 𝑒
𝑖=1
= (𝑌 − 𝑋𝛽̂ )𝑇 (𝑌 − 𝑋𝛽̂ )
= 𝑌 𝑇 𝑌 − 𝛽̂ 𝑇 𝑋 𝑇 𝑌 − 𝑌 𝑇 𝑋𝛽̂ + 𝛽̂ 𝑇 𝑋 𝑇 𝑋𝛽̂
𝑇
(𝛽̂ 𝑇 𝑋 𝑇 𝑌) = 𝑌 𝑇 𝑋𝛽̂
sehingga:
𝑘
𝜕
(∑ 𝑒𝑖2 ) = 𝑌 𝑇 𝑌 − 2𝛽̂ 𝑇 𝑋 𝑇 𝑌 + 𝛽̂ 𝑇 𝑋 𝑇 𝑋𝛽̂ = 0
𝜕𝛽̂ 𝑇
𝑖=1
= −2𝑋 𝑇 𝑌 + 2𝑋 𝑇 𝑋𝛽̂ = 0
atau
𝑋 𝑇 𝑌 = 𝑋 𝑇 𝑋𝛽̂
𝛽̂ = (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑌 (2.8)
sifat yang sangat baik yang menjadikan metode estimasi ini sangat popular
dikalangan para peneliti. Sifat – sifat tersebut antara lain adalah sebagai berikut:
1. Linear
𝛽̂ = (𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 𝑌
𝛽̂ = (𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 (𝑋𝛽 + 𝜀)
𝛽̂ = (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑋𝛽 + (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝜀)
𝛽̂ = 𝐼𝛽 + (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝜀)
𝛽̂ = 𝛽 + (𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝜀) (2.9)
𝐸(𝛽̂ ) = 𝛽
𝐸(𝛽̂ ) = 𝛽 + 0
𝐸(𝛽̂ ) = 𝛽 (2.10)
mendekati satu atau |𝒓𝒊𝒋 | > 0.75, maka 𝑋𝑖 dan 𝑋𝑗 adalah benar – benar masalah
multikolinearitas.
berpengaruh secara signifikan terhadap model atau tidak. Uji signifikan terdiri
dari dua tahap yaitu uji signifikansi parameter model secara serentak dan uji
𝐻0 : 𝛽𝑗 = 0
𝐻1 : 𝛽𝑗 ≠ 0
Statistik uji yang digunakan untuk menguji hipotesis nol adalah uji-F:
2
(𝑅 ⁄𝑘)
𝐹ℎ𝑖𝑡𝑢𝑛𝑔 = 2 (2.14)
(1−𝑅 ⁄𝑛−𝑘−1)
𝐻0 : 𝛽𝑗 = 0
𝐻1 : 𝛽𝑗 ≠ 0
Statistik uji yang digunakan untuk menguji hipotesis nol adalah uji-t:
̂𝑗
𝛽
𝑡ℎ𝑖𝑡𝑢𝑛𝑔 (𝛽̂𝑗 ) = 𝑠𝑒(𝛽̂ ) (2.15)
𝑗
Yang menyebar menurut sebaran 𝑡 dengan derajat bebas (n-p-1).
Sedangkan 𝑠𝑒(𝛽̂𝑗 ) adlah kesalahan standar yang diperoleh dari matriks ragam-
ragam dari 𝛽̂0 , 𝛽̂1 , … , 𝛽̂𝑝 dan akar positinya memeberikan nilai standar kesalahan
dari parameter regresi yang dimodelkan. Matriks ragam pada persamaan di atas
Dalam kasus regresi ganda 𝜎̂ 2 dapat di tentukan dengan rumus (Gujarati, 1978).
̂ 𝑻𝒀
𝒀𝑻 𝒀−𝜷
̂𝟐 =
𝝈 (2.18)
𝒏−𝒑−𝟏
pada tingkat signifikansi yang di pilih, maka hipotesis nol ditolak. Penolakan 𝐻0
menunjukkan bahwa 𝛽𝑗 signifikan berbeda dari nol (Chatterjee & Ali, 2006).
sebagai berikut:
𝐽𝐾𝑅
𝑅 2 = 𝐽𝐾𝑇 (2.19)
dimana :
𝑅2 = Koefisien determinasi
𝛽𝑋 , −𝑁𝑌̅ 2
𝑅2 = (2.20)
𝑌 , 𝑌−𝑁𝑌̅ 2
dimana 𝑁𝑌̅ 2adalah koreksi untuk rata-rata Y, oleh karena itu 𝑌 , 𝑌 akan
Regresi ridge diperkenalkan pertama kali oleh Hoer dan R.W. Kennard
pada tahun 1962. Regresi ridge adalah satu diantara metode yang digunakan untuk
dan penduga yang dihasilkan adalah penduga yang bias. Estimasi parameter
regresi ridge yang koefisiennya dipengaruhi oleh besarnya nilai tetapan bias 𝑐
beberapa variabel baru dimana variabel baru ini saling bebas, dan merupakan
kombinasi linier dari variabel asal. Selanjutnya variabel baru ini dinamakan
komponen utama. Secara umum tujuan dari analisis komponen utama adalah
data tersebut.
yang diamati dengan cara menyusutkan dimensinya. Hal ini dilakukan dengan
baru yang tidak berkorelasi. Variabel baru (Y ) disebut komponen utama yang
𝑌 = 𝐴𝑋 (2.22)
dengan:
Komponen utama ang diperoleh dari matriks korelasi dari variabel yang
distandarkan, yaitu:
𝑋−𝑋̅𝑖
𝑍= (2.23)
𝑆𝑥𝑗
terdapat perbedaan yang sangat esar, maka harus dilakukan terlebih dahulu
asal menjadi:
𝑋𝑖𝑗 −𝑋̅𝑖
𝑍𝑖𝑗 = (2.24)
𝑆𝑥𝑗
∑ 𝑛 𝑛 ̅
∑ (𝑋𝑖𝑗 −𝑋𝑖 )
𝑥
𝑋̅𝑖 = 𝑖−1𝑛 𝑖𝑗 dan 𝑆𝑥𝑗 = 𝑖−1𝑛−1 (2.25)
Dimana 𝑍𝑖𝑗 merupakan variabel baku, 𝑋̅𝑖 rata – rata pengamatan variabel 𝑋
b) Menghitung nilai eigen (𝜆𝑗 ), vektor eigen (𝑎𝑗 ) dan skor komponen utama
(𝑊𝑗 )
yang terpilih
𝑌̂ = 𝛽0 + 𝛽1 𝑊1 + 𝛽2 𝑊2 + ⋯ + 𝛽𝑝 𝑊𝑝 (2.26)
𝑊𝑗 ke variabel bebas 𝑍𝑗
𝑌̂ = 𝛽0 + 𝛽1 𝑍1 + 𝛽2 𝑍2 + ⋯ + 𝛽𝑝 𝑍𝑝 (2.27)
variabel bebas 𝑋𝑖
𝑌̂ = 𝑎0 + 𝑎1 𝑋1 + 𝑎2 𝑋2 + ⋯ + 𝑎𝑝 𝑋𝑝 (2.28)
adalah:
2
𝑠2 𝑎𝑗𝑖
𝜎𝑎2𝑗 = ∑𝑛 ∑𝑝𝑖=1 (2.29)
𝑖=1(𝑦𝑖 −𝑦̅)2 𝜆𝑖
centering and rescaling (Fekedulegn dkk 2002). Dimana pada metode ini semua
METODE PENELITIAN
Penelitian ini dilakukan dari bulan Mei 2019 sampai dengan bulan Juni
Data yang digunakan pada penelitian ini adalah data sekunder yang
diperoleh dari Badan Pusat Statistika D.I Yogyakarta tahun 1997-2012. Variabel
yang digunakan terdiri dari variabel terikat dan variabel bebas. Variabel terikat
2. Menentukan variabel terikat dan variabel bebas dari data yang digunakan.
kuadrat terkecil.
variabel bebas.
5. Melakukan penanganan terhadap masalah multikolinearitas dalam data, yaitu
a) Regresi Ridge
variabel 𝑋
melakukan pengujian
1) Menghitung nilai akar cirri (𝜆𝑗 ), vektor ciri (𝑎𝑗 ) dan skor
ke variabel bebas 𝑋𝑗
menggunakan uji t
7. Menarik kesimpulan.
BAB IV
PEMBAHASAN
terdapat tiga variabel bebas dan satu variabel terikat akan diduga nilai koefisien
diperoleh:
persamaan (2.2)
Uji koefisien regresi secara parsial dapat pula dilihat pada tabel di atas dan
berdasarkan data yang ada diperoleh nilai 𝑡𝑡𝑎𝑏𝑒𝑙 = 2,11991 dimana 𝛼 = 5%.
Sehingga diketahui bahwa terdapat satu koefisien regresi signifikan (𝑡ℎ𝑖𝑡𝑢𝑛𝑔 >
𝑡𝑡𝑎𝑏𝑒𝑙 ), yaitu koefisien regresi 𝑋3 (4,192 > 2,11991) serta terdapat dua koefisien
regresi yang tidak signifikan, yaitu 𝑋1 (−0,395 < 2,11991) dan 𝑋2 (−0,320 <
berpengaruh terhadap 𝑌.
4.2 Pendeteksian Multikolinearitas
1 0,994 0,995
𝑅 = [0,994 1 0,998]
0,995 0,998 1
(ill conditioned) yang diakibatkan oleh korelasi yang tinggi antara beberapa
variabel
cara menambah tetapan bias (𝑐) yang kecil pada diagonal matriks 𝑋 𝑇 𝑋
𝛽̃ = (𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 𝑌
𝛽̃(𝑐) = (𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 𝑌
𝑌 = 𝑋𝛽 + 𝜀
𝐸(𝑌) = 𝐸(𝑋𝛽 + 𝜀)
1. Ekspektasi
𝐸 (𝛽̃(𝑐)) = (𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 𝑋𝛽
(𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 𝑋 = 𝑍𝑅
2. Bias
Bias(𝛽̃(𝑐)) = 𝐸 (𝛽̃(𝑐)) − 𝛽
Bias(𝛽̃(𝑐)) = (𝑋 𝑇 𝑋 + cI)−1 𝑋 𝑇 𝑋𝛽 − 𝛽
3. Variansi
Umumnya sifat dari penafsiran ridge ini memiliki variansi yang minimum
matriks.
dengan melihat nilai EigenValue dari variabel independen yang kita gunakan.
Karena hanya terdapat satu faktor yang memiliki nilai EigenValue yang
lebih dari satu, maka kita akan gunakan satu faktor. Sehingga berdasarkan
𝑌̂ = 13547,9 + 2616,89𝑊1
Jika dilihat dari nilai VIF pada hasil regresi persamaan di atas, sudah tidak
terdapat lagi masalah multikolinearitas karena nilai VIF < 10. Maka dapat
𝑌̂ = 13547,9 + 2616,89𝑊1
116117 0,5769502
𝑉𝑎𝑟(𝑌1 ) = ( ) = 0,000045
308947612 2,9918
116117 0,5774412
𝑉𝑎𝑟(𝑌2 ) = ( ) = 0,0212
308947612 0,0063
116117 0,5776592
𝑉𝑎𝑟(𝑌3 ) = ( ) = 0,0703
308947612 0,0019
regresi komponen utama dan regresi ridge didasarkan pada stand error yang dapat
PENUTUP
5.1 Kesimpulan
Dari hasil analisis dan pembahasan bab sebelumnya, maka dapat ditarik
kesimpulan, yaitu:
utama, yaitu:
5.2 Saran
Mardikyan, S., Cetin. 2008. Efficient Choice of Biasing Constant for Ridge
Jakarta:Erlangga.
Widarjono, A. 2007. Ekonometrika Teori dan Aplikasi untuk Ekonomi dan Bisnis.
Yogyakarta:Ekonisia FE UII.