Oleh:
1. Pendahuluan
Otok_bw@yahoo.com -1 -
Korelasi adalah hubungan antara dua variabel, sedangkan Analisis Regresi
adalah untuk menaksir atau meramalkan dengan terlebih dahulu mencari pola
hubungan yang dapat digambarkan secara matematis antara dua variabel atau
lebih.
Variabel yang digunakan ada dua macam :
a. Variabel Independent (X)
yaitu variabel yang mempengaruhi atau bebas karena dikendalikan oleh yang
melakukan eksperimen.
b. Variabel Dependent (Y)
yaitu variabel yang nilainya dipengaruhi oleh X.
Y f( X )
Y f ( X1 , X 2 ,..., X n )
dimana ;
X : variabel independent
Y : variabel dependent yang merupakan fungsi dari variabel X
Otok_bw@yahoo.com -2 -
2. KORELASI
Cov( X ,Y )
x y
n
X iYi n X Y
rxy i=1
n 2 n 2
X i 2 n X Yi 2 nY
i=1 i=1
Otok_bw@yahoo.com -3 -
Pengujian terhadap hasil analisis korelasi perlu dilakukan karena untuk
mengetahui kebenaran hubungan antara variabel bebas terhadap variabel tidak
bebas.
Hipotesis
Ho : = 0
H1 : 0
Statistik Uji
r n2
to
1 r2
dimana : r = koefisien korelasi
n = jumlah sampel
Daerah Penolakan
Mencari nilai t tabel untuk tingkat signifikansi () dan derajat bebas
sebesar n-2. Sehingga | t0 | > t ( /2, n-2)
Kesimpulan
Ho ditolak jika t0 > t ( /2, n-2) atau t0 < t ( /2,n-2)
Ho diterima jika t0 > t ( /2,n-2) atau t0 < t ( /2,n-2)
Yi X i i
dimana :
Y = variabel dependen (respon)
X = variabel independent (prediktor)/fixed
= intercept (jika x = 0)
= slope/gradien/kemiringan dari garis model regresi
i = unsur gangguan yang diasumsikan identik independen dan berdistribusi
normal atau i ~ IIDN(0, 2 )
Otok_bw@yahoo.com -4 -
Selanjutnya untuk mencari nilai dan , digunakan metode OLS,
sehingga Jumlah Kuadrat Kesalahan menjadi sekecil mungkin. Adapun nilai
taksiran dan sebagai berikut :
n
X iYi n X Y
i=1 dan Y X
n 2 2
Xi n X
i=1
Regresi 1 MST
2Sxx 2Sxx
MSE
Residual Syy - 2Sxx n-2 Syy - 2Sxx
2 s2
n2
Total S yy n-1
dimana :
n 2 n 2 n
S xx X i 2 n X ; S yy Yi 2 nY dan S xy X iYi n X Y
i 1 i 1 i 1
Berdasarkan asumsi dari error dapat ditunjukkan bahwa ̂ dan
keduanya berdistribusi secara normal dengan mean dan varians sebagai berikut:
x
2
E( ) dan Var( ) 2 2 1
n S xx
2
E( ) dan Var( ) 2
Sxx
Otok_bw@yahoo.com -5 -
Pengujian Koefisien Regresi untuk
Hipotesis
Ho : = 0
H1 : 0
Statistik Uji
th S xx
s
Daerah Penolakan
Mencari nilai t tabel untuk tingkat signifikansi () dan derajat bebas
sebesar n-2. Sehingga |th | > t ( /2, n-2)
Kesimpulan
Ho ditolak jika th > t ( /2, n-2) atau t0 < t ( /2,n-2)
Ho diterima jika th > t ( /2,n-2) atau t0 < t ( /2,n-2)
s s
P t ,n 2 t ,n 2 1
2 S xx 2 S xx
2
21 ( X p X )
E( y ) X dan Var(y) y
2
n S xx
Otok_bw@yahoo.com -6 -
Pengujian Nilai yang Diharapkan untuk y
Hipotesis
Ho : E(Y|X=Xp) = E0
H1 : E(Y|X=Xp) E0
Statistik Uji
y E0
th
( X p X )2
s 1
n S xx
Daerah Penolakan
Mencari nilai t tabel untuk tingkat signifikansi () dan derajat bebas
sebesar n-2. Sehingga |th | > t ( /2, n-2)
Kesimpulan
Ho ditolak jika th > t ( /2, n-2) atau t0 < t ( /2,n-2)
Ho diterima jika th > t ( /2,n-2) atau t0 < t ( /2,n-2)
( X p X )2
y t ,n 2 s 1
2
n S xx
Jika kita ingin memprediksi nilai Y untuk nilai X tertentu, maka kesalahan
peramalan (penyimpangan antara y terhadap y). Sehingga dapat dicari varians
kesalahan dan selang keyakinan peramalan dinyatakan sebagai berikut:
( X pX ) 2
y t ,n 2 s 1 1
2
n S XX
Otok_bw@yahoo.com -7 -
4. REGRESI LINIER BERGANDA
Yi 0 1 X1i 2 X 2i ... k X ki i
dimana :
Yi = variabel respon
Xi = variabel prediktor/fixed
i = parameter
i = unsur gangguan yang diasumsikan identik independen dan berdistribusi
normal atau i ~ IIDN(0, 2 )
dan untuk taksiran respon :
Yi 0 1X1i 2 X2i ... k Xki
Otok_bw@yahoo.com -8 -
Metode kuadrat terkecil digunakan dengan tujuan untuk meminimumkan
varians sehingga didapatkan penaksiran yang tak bias. Dalam persamaan regresi
linier berganda, khususnya bila variabel prediktor lebih dari dua, akan lebih
mudah apabila dengan menggunakan pendekatan matrik. (Gujarati, 1998, hal 93)
Sedangkan metode yang sering digunakan untuk untuk menaksir
parameter diusahakan jumlah kuadrat residual seminimum mungkin, atau secara
matematis ;
( ' )
2 X ' Y 2 X ' X
-2X’Y + 2X’X = 0
X’X = X’Y
= (X’X)-1(X’Y)
Sehingga diperoleh = (b0,b1,...,bk) yang merupakan koefisien model regresi
(parameter-parameter ) yang akan ditafsir berdasarkan hasil observasi.
Analisa varians merupakan suatu cara yang dapat digunakan dalam
teknik pemisahan (dekomposisi) variasi yang terdapat dalam model. Adapun
persamaannya dapat dilihat dalam jumlah kuadrat pecahannya yaitu ;
Otok_bw@yahoo.com -9 -
n _ 2 n ^ _ 2 n ^2
Yi Y Y i Y Yi Yi
i 1 i 1 i 1
Bila persamaan di atas dinyatakan dalam bentuk matrik maka dapat dinyatakan
sebagai berikut :
(n -1) = k + ( n-k-1)
Jika sumber variasi tersebut disusun dalam bentuk tabel Analisa Varians,
maka bentuknya sebagai berikut :
Regresi SSReg k
Otok_bw@yahoo.com -10 -
digunakan Frasio = MSReg/MSRes = (SSReg/k)/(SSRes/n-k-1). Jika Ho benar
dan asumsi dipenuhi, maka : Frasio ~ F(k,n-k-1). Sehingga pada suatu tingkat
signifikan tertentu Frasio dapat dibandingkan dengan suatu nilai F dalam
distribusi F(k,n-k-1) yaitu F(k,n-k-1,). Jika pada tingkat signifikan , Frasio <
F(k,n-k-1,) maka terima Ho, berarti semua koefisien regresi tidak memberikan
iuran yang berarti terhadap harga Y, dalam hal ini akan menghasilkan Y=o.
Sebaliknya, jika Frasio > F(k,n-k-1,) maka tolak Ho, berarti paling tidak ada
satu i yang tidak sama dengan nol, sehingga perlu dilakukan pengujian
secara individu.
0 F-tabel
Gambar 1.
Distribusi F untuk Kriteria Penerimaan dan Penolakan Secara Serentak
Otok_bw@yahoo.com -11 -
Ho : i = 0
H1 : i 0, i=1,2,…,k
digunakan statistik uji Thitung = bi/sd(bi) dimana bi nilai taksiran dari i dan
Sd(bi) merupakan standart deviasi dari bi yang merupakan matrrik diagonal
dari matrik Var(bi), dan Var(bi) = (X'X)-12. Jika Ho benar dan asumsi
dipenuhi, maka: thitung ~ t(n-k-1,). Sehingga pada suatu tingkat signifikan
tertentu thitung dapat dibandingkan dengan suatu nilai t dalam distribusi t(n-k-1)
yaitu t (n-k-1,).
Jika pada tingkat signifikan , |thitung| < t(n-k-1,) maka terima Ho , berarti tidak
ada pengaruh yang signifikan dari variabel X terhadap variabel Y.
Sebaliknya, jika |thitung| > t(n-k-1,) maka tolak Ho, berarti ada pengaruh yang
signifikan dari variabel X terhadap variabel Y. Jadi pada prinsipnya uji
terhadap i secara individu merupakan pengujian terhadap koefisien regresi
parsial yaitu uji tentang model regresi Y pada suatu variabel X tertentu jika
variabel X yang lain dianggap konstan.
-t(tabel) 0 t(tabel)
Gambar 2.
Distribusi t untuk Kriteria Penerimaan dan Penolakan Secara Individu
5. KOEFISIEN DETERMINASI
Koefisien determinasi (R2) merupakan rasio antara variasi regresi terhadap variasi
total, yaitu proporsi yang menya-takan berapa persen variasi data (variasi di
sekitar Y) yang diterangkan oleh model. Hal ini menunjukkan bahwa variasi total
Y sekitar rata-rata disebabkan karena data pengamatan tidak terletak dalam
persamaan regresi, jika variasi residualnya kecil dan variasi regresinya mendekati
Otok_bw@yahoo.com -12 -
variasi totalnya, maka persamaan regresi akan lebih dekat dengan titik-titik data
pengamatan. Besarnya R2 selalu berada diantara nol dan satu (0<R2<1) dan dapat
ditulis sebagai berikut :
SSR
R2 x100%
SST
2
n k 1 x100%
R 1 ( 1 R 2 ) n 1
ry 2 ry 1r12
ry 2,1
(1 ry21 )(1 r12
2
)
Otok_bw@yahoo.com -13 -
7. ANALISIS RESIDUAL
Sedangkan analisis disini adalah analisis pada asumsi residual itu sendiri
dan asumsi harus sesuai secara statistik agar model diterima, yaitu asumsi identik
(homoskedastisitas), independent (non autokorelasi) dan berdistribusi normal
dengan mean nol dan varians 2.
DISTRIBUSI NORMAL
Penerapan metode kuadrat terkecil (Ordinary Least Squares/OLS) tidak
memerlukan / membuat asumsi apapun mengenai distribusi pada residualnya.
Asumsi pada residual yang diperoleh diharapkan mempunyai nilai (rata-rata) nol,
tak berkorelasi dan mempunyai varians konstan. Dengan adanya asumsi ini,
penaksir OLS memenuhi beberapa sifat statistik yang diinginkan, seperti
ketidakbiasan (unbiased) dan varians minimum.
Karena hal tersebut di atas dan tujuan penarikan kesimpulan mengenai
persamaan regresi populasi, dalam konteks regresi biasanya resudal diasumsikan
mengikuti distribusi normal.
Pengujian ini dilakukan untuk mengetahui apakah residual dari model
berdistribusi normal dengan mean nol dan varians 2.
Rata-rata : E ( i ) 0
Varians : E ( i2 ) 2
Covarians : E ( i , j ) 0, i j
Otok_bw@yahoo.com -14 -
1. Tentukan residual ei dari persamaan regresi
2. Sortir ei dari urutan yang terkecil sampai yang besar
3. Hitung Pi yang sesuai dengan ei yang telah disortir
(i 0,5)
Pi 100% , i = 1,2,...,n
n
4. Plot Pi dengan ei
Jika pola tersebut membentuk sudut mendekati 450, maka asumsi normal
terpenuhi.
IDENTIK (Homoskedastisitas)
Pengujian ini dilakukan untuk mengetahui apakah penyebaran residualnya sama
(variansnya sama). Hal ini dilihat dengan menggambar plot antara residual yang
distandarkan dengan Y prediksi. Jika plot residual yang di standarkan terhadap Y
prediksi memperlihatkan pola seperti cerobong asap, kuadratik atau trend
tertentu (lihat gambar 1.a, 1.b dan 1.c) maka asumsi tidak dipenuhi atau
heteroskedastisitas. Jika plot membentuk "horizontal band" (lihat gambar 1.d)
maka asumsi dipenuhi.
ei /s ei /s ei /s ei /s
Y Y Y Y
Gambar 3.
Plot Pemeriksaan Asumsi Idenetik
Atau residual yang sudah distandartkan pada batas 95% berada diantara (-2,2)
secara merata maka residual dikatakan berada dalam satu distribusi, akibatnya
residual identik satu sama lain dan ini berarti asumsi identik terpenuhi.
Otok_bw@yahoo.com -15 -
Selain hal tersebut di atas ada beberapa pengujian mengenai kasus
heteroskedastisitas, yaitu:
Pengujian Park
Park memformulakan metode grafik dengan menyarankan bahwa i2 adalah suatu
fungsi yang menjelaskan Xi. Karena i2 biasanya tidak diketahui, maka digunakan
ln ei2 ln 2 ln X i i
Jika ternyata signifikan secara statstik, dapat disimpulkan dalam data terdapat
heteroskedastisitas, dan sebaliknya jika tidak signifikan dapat disimpulkan asumsi
homoskedastisitas terpenuhi.
Pengujian Glejser
Formula Glejser hampir dengan Park, Glejser menyarankan untuk meregresikan
nilai absolut dari ei, |ei|, terhadap variabel X yang diperkirakan mempunyai
hubungan yang erat dengan i2 . Bentuk fungsional yang disarankan:
1) | ei | 1 X i i
2) | ei | 1 X i i
1
3) | ei | 1 i
Xi
1
4) | ei | 1 i
Xi
5) | ei | 0 1 X i i
6) | ei | 0 1 X i i
7) | ei | 0 1 X i2 i
Jika ternyata signifikan secara statstik, dapat disimpulkan dalam data terdapat
heteroskedastisitas, dan sebaliknya jika tidak signifikan dapat disimpulkan asumsi
homoskedastisitas terpenuhi.
Otok_bw@yahoo.com -16 -
INDEPENDENT (Non Autokorelasi)
Pengujian ini dilakukan untuk mengetahui apakah residual dari model
saling mempengaruhi. Hal ini dikaitkan dengan cov(ei,ej) = 0 untuk ij dan
dapat dilihat dengan menggambar residual terhadap urutan waktu pengamatan.
Jika pola yang terbentuk menunjukkan suatu trend tertentu terhadap urutan
waktu pengamatan maka asumsi tidak dipenuhi.
ei ei ei ei
n n n n
Satu dari asumsi penting dari model regresi linier klasik adalah bahwa
kesalahan atau gangguan i yang masuk kedalam fungsi regresif populasi adalah
random atau tak berkorelasi. Jika ini dilanggar, kita mempunyai problem serial
korelasi atau autokorelasi. (Gujarati, 1995: 223).
Sedangkan yang dimaksud dengan autokorelasi yaitu keadaan dimana
residual (kesalahan penganggu) dalam suatu periode tertentu berkorelasi dengan
residual (kesalahan pengganggu) periode yang lain. Pengujian terhadap gejala
autokorelasi dilakukan dengan menggunakan uji statistik Durbin Watson.
(Gujarati, 1995: 215).
Hipotesis:
H0 : Tidak ada auto korelasi positif atau autokorelsi negatif
H1 : Ada autokorelasi positif atau autokorelsi negatif
Statistik Uji:
n
(et et 1 )
2
d t 1 n
et
2
t 1
Otok_bw@yahoo.com -17 -
Daerah Penolakan (Kriteria Keputusan):
Hasil dhitung kemudian dibandingkan dengan dtabel., selanjutnya diambil keputusan
sebagai berikut:
1. Jika hipotesis Ho : tidak ada korelasi positif, maka:
d < dL : menolak Ho
d > dU : tidak menolak Ho
dL d dU : pengujian tidak meyakinkan
2. Jika hipotesis Ho : tidak ada korelasi negatif, maka:
d > 4 – dL : menolak Ho
d < 4 – dU : tidak menolak Ho
4 – dU d 4 – dL : pengujian tidak meyakinkan
3. Jika hipotesis Ho : tidak ada korelasi positif atau negatif, maka:
d < dL : menolak Ho
d > 4 – dL : menolak Ho
dU d 4 – dU : tidak menolak Ho
dL d dU : pengujian tidak meyakinkan atau
4 – dU d 4 – dL : pengujian tidak meyakinkan
Gambar 4:
Distribusi daerah keputusan autokorelasi
Otok_bw@yahoo.com -18 -
8. REGRESI KOMPONEN UTAMA
X ij i
Zij
i
dimana :
Xij = nilai dari variabel independent ke-i pengamatan ke-j
Zij = nilai standart variabel independent ke-i pengamatan ke-j
i = means variabel independent ke-i ditaksir dengan Xi.
i = standart deviasi variabel independent ke-i ditaksir dengan si.
Otok_bw@yahoo.com -19 -
Langkah selanjutnya adalah mencari nilai matrik korelasi antara
Z1,Z2,...,Zk dengan cara :
i = k
Dan vektor eigen yang dinotasikan dengan dapat dicari dengan menggunakan
persanaan berikut :
z j = j j
Wj = j Z
= 1j Z1 + 2j Z2 + … + kj Zk
dimana j merupakan vektor eigen dari matrik korelasi z dan variabelitas yang
diterapkan komponen utama ke j adalah;
(j/k) x 100%
Yang perlu diambil dari k buah komponen utama yang nilai eigennya lebih
besar dan sama dengan satu. Dan total variabelitas yang diterangkan minimal 75%
dari total variabelitas data awal.
Hasil diatas kemudian diregresikan dengan metode least square kedalam
model persamaan baru dengan q komponen utama (q<k) yang cukup bisa
menggambarkan variabilitas dari variabel asal.
Otok_bw@yahoo.com -20 -
Yi 0 * 1 * W1i 2 * W2i ... q * Wgi i
dan taksiran persamaan diperoleh sebagai berikut :
Otok_bw@yahoo.com -21 -
Untuk mendeteksi pengamatan yang berpotensial mempunyai influece
yang tinggi, dimulai dengan menentukan pengamatan mana yang mempunyai
diagonal HAT yang besar, nilai R-student yang besar atau keduanya. Nilai
diagonal HAT yang mengindikasikan potensi leverage yang kuat untuk nilai yang
melebihi 2p/n. Meskipun demikian kepentingan relatif untuk dari ukuran HAT
tersebut tergantung dari besarnya jumlah pengamatan (n) yang dimiliki data
tersebut. Dimana nilai 2p/n dan p/n merupakan dua besaran (sebagai indikator
pembanding nilai HAT) yang tergantung pada besar n, jika n cukup besar maka
angka pembanding tersebut cukup kecil pula. Selanjutnya kita lihat nilai DFFITS
yang merupakan suatu ukuran influence dari suatu pengamatan pada atau terhadap
nilai prediksinya. Secara teoritis diketahui bahwa jika suatu pengamatan
mempunyai nilai R-student yang cukup besar sedangkan leveragenya mendekati
nol, maka nilai DFFITS-nya tidak terlalu berarti, atau dengan kata lain pengaruh
dari besaran R-student tersebut hanya bersifat moderat terhadap DFFITS itu.
Sama halnya jika R-student mendekati nol dan meskipun leverage relatif tinggi,
kombinasi keduanya hanya menghasilkan nilai DFFITS yang kecil saja. Jadi
DFFITS dipengaruhi secara pasti oleh kedua statistik, yaitu leverage dan error
prediksi. Sebagai indikator bahwa nilai |DFFITS| > 2p/n perlu mendapatkan
suatu perhatian.
Selain statistik DFFITS, statistik Cook’s D juga merupakan suatu nilai
indikator untuk mendiagnosis influence suatu pengamatan. Perbedaannya, Cook’s
D menggunakan pendekatan dengan mengukur jarak suatu titik dalam ruang
dimana titik tersebut mempunyai suatu koordinat dari vektor yang dihitung
berdasarkan seluruh pengamatan yang ada dan dengan suatu titik lain dalam ruang
yang mana titik ini koordinat dari vektor -(i) yang dihitung berdasarkan seluruh
pengamatan kecuali ke-i. Dengan demikian semakin jauh jarak kedua titik
tersebut, maka nilai Cook’D yang diperoleh akan semakin besar, dan berakibat
semakin besar pula suatu pengamatan mempunyai influence terhadap model
regresi yang dibentuk.
Otok_bw@yahoo.com -22 -
Karena nilai Cook’s D tersebut dapat dibandingkan dengan F(p,n-p,0.5)
dan juga F(p,n-p,0.5) 1, maka seluruh nilai Cook’s D tersebut dapat
dibandingkan dengan angka 1. Jika nilai-nilai Cook' D lebih besar dari 1 maka
dapat dinyatakan bahwa pengamatan tersebut mempunyai influence terhadap
koefisien-koefisien regresi model tersebut.
Selain kedua statistik tersebut, statistik lain yang mendiagnosis influence
dari titik-titik pengamatan yaitu DFBETAS. DFBETAS merupakan suatu ukuran
untuk menandakan berapa besar perubahan dalam koefisien-koefisien regresi j,
dalam unit standart deviasi, jika pengamatan ke-i. dikeluarkan dalam model
regresi. Sebagai indikator bahwa nilai |DFBETAS j,i.| > 2/n maka pengamatan
ke-i dapat dicurigai terdapatnya influence.
Otok_bw@yahoo.com -23 -