Wiraraja - Sesi2 - 2 - Teori - Korelasi & Regresi

ANALISIS REGRESI DAN PELANGGARAN ASUMSI
Oleh:
Bambang Widjanarko Otok
1. Pendahuluan
Perubahan nilai suatu variabel tidak selalu terjadi dengan sendirinya,

namun perubahan nilai variabel itu dapat pula disebabkan oleh berubahnya
variabel lain yang berhubungan dengan variabel tersebut. Untuk mengetahui pola
perubahan nilai suatu variabel yang disebabkan oleh variabel lain diperlukan alat
analisis yang memungkinkan kita untuk membuat perkiraan (prediction) nilai
variabel tersebut pada nilai tertentu variabel yang mempengaruhi.
Dalam ilmu statistika, teknik yang umum digunakan untuk menganalisis

hubungan antara dua atau lebih variabel adalah analisis regresi. Model matematis
dalam menjelaskan hubungan antar variabel dalam analisis regresi menggunakan
persamaan regresi.
Dalam suatu persamaan regresi terdapat 2 macam variabel, yaitu :
1. Variabel dependen (variabel tak bebas) adalah variabel yang nilainya
bergantung dari variabel lain. Biasanya dinyatakan dengan Y.
2. Variabel independen (variabel bebas) adalah variabel yang nilainya tidak
bergantung dari variabel lain. Biasanya dinyatakan dengan X.
Prinsip dasar yang harus dipenuhi dalam membangun suatu persamaan

regresi adalah bahwa antara variabel dependen dengan variabel independennya
mempunyai sifat hubungan sebab akibat (hubungan kausalitas = causal
relationship), baik yang didasarkan pada teori, hasil penelitian sebelumnya,
ataupun yang didasarkan pada penjelasan logis tertentu.
Otok_bw@yahoo.com -1 -
Korelasi adalah hubungan antara dua variabel, sedangkan Analisis Regresi
adalah untuk menaksir atau meramalkan dengan terlebih dahulu mencari pola
hubungan yang dapat digambarkan secara matematis antara dua variabel atau
lebih.
Variabel yang digunakan ada dua macam :
a. Variabel Independent (X)
yaitu variabel yang mempengaruhi atau bebas karena dikendalikan oleh yang
melakukan eksperimen.
b. Variabel Dependent (Y)
yaitu variabel yang nilainya dipengaruhi oleh X.
Secara matematis hubungan antara variabel independent dengan variabel

dependent dinyatakan dalam bentuk :
Y  f( X )
Y  f ( X1 , X 2 ,..., X n )
dimana ;
X : variabel independent
Y : variabel dependent yang merupakan fungsi dari variabel X
Dalam persamaan regresi jika hanya mengandung satu variabel

independent disebut Regresi Linear Sederhana dan jika dalam model regresi
tersebut mengandung lebih dari satu variabel independent disebut Regresi Linear
Berganda.
Tujuan dan manfaat dalam analisis regresi :
1. mendapatkan pola hubungan secara matematis antara variabel X dan Y
2. mengetahui besarnya perubahan variabel X terhadap Y
3. memprediksi Y jika nilai X diketahui
2. KORELASI
Langkah pertama dalam mencari pola hubungan antara variabel X dan

Y adalah dengan menggambarkan data pengamatan dalam diagram pencar, yaitu
plot data berpasangan antara (Xi,Yi). Sedangkan teknik analisis yang digunakan
untuk mengukur hubungan yang mungkin ada antara dua variabel yaitu korelasi.
Koefisien Korelasi digunakan untuk mengukur kuatnya hubungan antara dua
variabel, Koefisien korelasi antara variabel X dan Y disimbolkan , yaitu :
Cov( X ,Y )

 x y
Apabila perhitungan didasarkan sampel, maka ditulis dengan rumus :
n
 X iYi  n X Y
rxy  i=1
 n 2  n 2
  X i 2  n X   Yi 2  nY 
  
 i=1  i=1 
Pada hakekatnya nilai r dapat bervariasi dari – 1 sampai dengan + 1

dengan ketentuan sebagai berikut :
a. Bila r = 0, atau mendekati 0, berarti hubungan antara variabel independen
dengan variabel dependen sangat lemah atau tidak terdapat
hubungan sama sekali.
b. Bila r = 1, atau mendekati 1, berarti terdapat hubungan positif antara
variabel independen dengan variabel dependen yang sangat
kuat.
c. Bila r = –1, atau mendekati – 1, berarti terdapat hubungan negatif antara
variabel independen dengan variabel dependen yang sangat
kuat.
Pengujian terhadap hasil analisis korelasi perlu dilakukan karena untuk
mengetahui kebenaran hubungan antara variabel bebas terhadap variabel tidak
bebas.
Pengujian Koefisien Korelasi ( r )
Hipotesis
Ho :  = 0
H1 :   0
Statistik Uji
r n2
to 
1  r2
dimana : r = koefisien korelasi
n = jumlah sampel
Daerah Penolakan
Mencari nilai t tabel untuk tingkat signifikansi () dan derajat bebas
sebesar n-2. Sehingga | t0 | > t ( /2, n-2)
Kesimpulan
 Ho ditolak jika t0 > t ( /2, n-2) atau t0 < t ( /2,n-2)
 Ho diterima jika t0 >  t ( /2,n-2) atau t0 < t ( /2,n-2)
3. REGRESI LINIER SEDERHANA
Misalkan pola hubungan antara variabel X dan Y bersifat linier, maka

didapat suatu model sebagai berikut :
Yi    X i   i
dimana :
Y = variabel dependen (respon)
X = variabel independent (prediktor)/fixed
 = intercept (jika x = 0)
 = slope/gradien/kemiringan dari garis model regresi
 i = unsur gangguan yang diasumsikan identik independen dan berdistribusi
normal atau  i ~ IIDN(0,  2 )
Selanjutnya untuk mencari nilai  dan , digunakan metode OLS,
sehingga Jumlah Kuadrat Kesalahan menjadi sekecil mungkin. Adapun nilai
taksiran  dan  sebagai berikut :
n

 X iYi  n X Y 

  i=1 dan  Y X
 n 2 2
  Xi  n X 
 
 i=1 
Analisis varians merupakan suatu cara yang dapat digunakan dalam

teknik pemisahan (dekomposisi) variasi yang terdapat dalam model. Dan bentuk
tabel analisis varians sebagai berikut :
Tabel 1. Tabel Anova Dalam Regresi Sederhana
Sumber Jumlah df Rata-rata Kuadrat F-Rasio

Variasi Kuadrat
Regresi  1  MST
 2Sxx  2Sxx
  MSE
Residual Syy - 2Sxx n-2 Syy - 2Sxx 
  2  s2
n2
Total S yy n-1
dimana :
n 2 n 2 n
S xx   X i 2  n X ; S yy   Yi 2  nY dan S xy   X iYi  n X Y
i 1 i 1 i 1

Berdasarkan asumsi dari error dapat ditunjukkan bahwa ̂ dan 
keduanya berdistribusi secara normal dengan mean dan varians sebagai berikut:
 x 
2
 
E(  )   dan Var(  )   2   2  1 
 n S xx 
 
   2
E(  )   dan Var(  )   2 
Sxx
Pengujian Koefisien Regresi untuk 
Hipotesis
Ho :  = 0
H1 :   0
Statistik Uji


th  S xx
s
Daerah Penolakan
sebesar n-2. Sehingga |th | > t ( /2, n-2)
Kesimpulan
 Ho ditolak jika th > t ( /2, n-2) atau t0 < t ( /2,n-2)
 Ho diterima jika th >  t ( /2,n-2) atau t0 < t ( /2,n-2)
Selang Keyakinan sebesar (1-)100% untuk 
 s  s 
P    t ,n  2      t ,n  2   1
 2 S xx 2 S xx 
Selanjutnya memprediksi nilai rata-rata Y untuk nilai X tertentu

merupakan masalah praktis yang sangat penting. Untuk itu pandang,
E(Y | X)    X menyatakan nilai yang diharapkan untuk Y untuk suatu nilai X
  
tertentu. Dan telah diperoleh persamaan garis regresi adalah y    X dengan
asumsi pada error dapat ditunjukkan bahwa persamaan regresi mempunyai
dsitribusi normal dengan mean dan varians sebagai berikut:
 2
  21 ( X p  X ) 
E( y )    X dan Var(y)   y  
2

n S xx 
 
Pengujian Nilai yang Diharapkan untuk y
Hipotesis
Ho : E(Y|X=Xp) = E0
H1 : E(Y|X=Xp)  E0
Statistik Uji

y  E0
th 
( X p  X )2
s 1 
n S xx
Daerah Penolakan
sebesar n-2. Sehingga |th | > t ( /2, n-2)
Kesimpulan
 Ho ditolak jika th > t ( /2, n-2) atau t0 < t ( /2,n-2)
 Ho diterima jika th >  t ( /2,n-2) atau t0 < t ( /2,n-2)
Selang Keyakinan sebesar (1-)100% untuk E(Y|X)
 ( X p  X )2
y  t ,n  2 s 1 
2
n S xx
Jika kita ingin memprediksi nilai Y untuk nilai X tertentu, maka kesalahan

peramalan (penyimpangan antara y terhadap y). Sehingga dapat dicari varians
kesalahan dan selang keyakinan peramalan dinyatakan sebagai berikut:
 ( X pX ) 2
y  t ,n  2 s 1  1 
2
n S XX
4. REGRESI LINIER BERGANDA
Regresi Linier Berganda merupakan perluasan dari regresi linier

sederhana, yang bertujuan untuk mencari pola hubungan yang dapat digambarkan
secara matematis antara satu variabel respon dengan beberapa variabel prediktor
secara serentak.
Jika terdapat n pengamatan untuk variabel (Y) dan variabel bebas (Xi),
i=1,2,3 ..n maka pola hubungan secara umum dapat ditulis sebagai berikut :
Yi   0   1 X1i   2 X 2i ...  k X ki   i
dimana :
Yi = variabel respon
Xi = variabel prediktor/fixed
i = parameter
 i = unsur gangguan yang diasumsikan identik independen dan berdistribusi
normal atau  i ~ IIDN(0,  2 )
dan untuk taksiran respon :

Yi  0  1X1i  2 X2i  ... k Xki
Sedangkan i merupakan residual yang ditaksir oleh ei yang besarnya

sama dengan observasi sesungguhnya dikurangi taksiran observasi yang
ditemukan dari model, yaitu :
 
 i  Yi  Yi
Masalah utama dalam analisa regresi adalah menaksir parameter atau

koefisien regresi dan menyelidiki tingkat signifikansi dalam model secara
serentak, kemudian menyelidiki secara individu.
Metode kuadrat terkecil digunakan dengan tujuan untuk meminimumkan
varians sehingga didapatkan penaksiran yang tak bias. Dalam persamaan regresi
linier berganda, khususnya bila variabel prediktor lebih dari dua, akan lebih
mudah apabila dengan menggunakan pendekatan matrik. (Gujarati, 1998, hal 93)
Sedangkan metode yang sering digunakan untuk untuk menaksir
parameter diusahakan jumlah kuadrat residual seminimum mungkin, atau secara
matematis ;
 i 2   '  min imum
Taksiran i dapat diperoleh dengan menyelesaikan turunan secara parsiil

terhadap b0, b1,...,bk dan menyamakan hasilnya dengan nol.
Dari persamaan di atas didapatkan :  = Y-X dengan prinsip metode kuadrat
terkecil maka :
’  = (Y-X)’(Y-X)
= Y'Y - 'X'Y - Y'X  + 'X'X
= Y'Y - 2'X'Y + 'X'X
Dengan menurunkan ’ terhadap  secara parsiil berdasarkan aturan penurunan

matrik akan diperoleh hasil sebagai berikut :
 ( '  )
 2 X ' Y  2 X ' X

dengan menyamakan hasil diatas sama dengan nol maka diperoleh :
-2X’Y + 2X’X = 0
X’X = X’Y

 = (X’X)-1(X’Y)

Sehingga diperoleh  = (b0,b1,...,bk) yang merupakan koefisien model regresi
(parameter-parameter ) yang akan ditafsir berdasarkan hasil observasi.
Analisa varians merupakan suatu cara yang dapat digunakan dalam
teknik pemisahan (dekomposisi) variasi yang terdapat dalam model. Adapun
persamaannya dapat dilihat dalam jumlah kuadrat pecahannya yaitu ;
n  _ 2 n ^ _ 2 n  ^2
  Yi  Y     Y i  Y     Yi  Yi 
i 1   i 1   i 1  
Bila persamaan di atas dinyatakan dalam bentuk matrik maka dapat dinyatakan
sebagai berikut :
(Y’Y – nY2 ) = (’X’Y – nY2 ) + (Y’Y - ’X’Y )

SST = SSReg + SSRes
dengan derajat bebas adalah :
(n -1) = k + ( n-k-1)
Jika sumber variasi tersebut disusun dalam bentuk tabel Analisa Varians,
maka bentuknya sebagai berikut :
Tabel 2. Tabel Anova untuk Regresi Linear Berganda
Sumber Variasi Jumlah Kuadrat Derajat Bebas
Regresi SSReg k
Residual SSRes n-k-1
Total SST n-1
Sedangkan untuk mengetahui apakah nilai-nilai dari parameter yang diperoleh

signifikan atau tidak, maka diperlukan uji hipotesa. Adapun langkah-langkah
yang ditempuh uji koefisien regresi adalah sebagai berikut :
1. Pengujian koefisien regresi secara serentak.
Untuk menguji secara serentak (overall) dari seluruh parameter regresi X
terhadap Y dengan hipotesa :
Ho : 1 = 2 = … = k
H1 : paling sedikit ada satu i 0, i=1,2,…,k
digunakan Frasio = MSReg/MSRes = (SSReg/k)/(SSRes/n-k-1). Jika Ho benar
dan asumsi dipenuhi, maka : Frasio ~ F(k,n-k-1). Sehingga pada suatu tingkat
signifikan tertentu Frasio dapat dibandingkan dengan suatu nilai F dalam
distribusi F(k,n-k-1) yaitu F(k,n-k-1,). Jika pada tingkat signifikan , Frasio <
F(k,n-k-1,) maka terima Ho, berarti semua koefisien regresi tidak memberikan
iuran yang berarti terhadap harga Y, dalam hal ini akan menghasilkan Y=o.
Sebaliknya, jika Frasio > F(k,n-k-1,) maka tolak Ho, berarti paling tidak ada
satu i yang tidak sama dengan nol, sehingga perlu dilakukan pengujian
secara individu.
Daerah dimana Ho diterima / H1 ditolak
Daerah dimana Ho ditolak / H1 diterima
0 F-tabel
Gambar 1.
Distribusi F untuk Kriteria Penerimaan dan Penolakan Secara Serentak
2. Pengujian koefisien regresi secara individu

Setelah dilakukan pengujian koefisien regresi secara bersama dan ternyata
tolak Ho yang berarti paling sedikit ada satu i yang tidak sama dengan nol
maka perlu dilakukan pengujian secara individu. Hal ini dimaksudkan
untuk menentukan ada tidaknya pengaruh masing-masing variabel X
terhadap variabel Y, dan untuk melihat kontribusi dari masing-masing
variabel bebas terhadap variabel respon. Adapun pengujian tersebut
menggunakan hipotesa :
Ho : i = 0
H1 : i  0, i=1,2,…,k
digunakan statistik uji Thitung = bi/sd(bi) dimana bi nilai taksiran dari i dan
Sd(bi) merupakan standart deviasi dari bi yang merupakan matrrik diagonal
dari matrik Var(bi), dan Var(bi) = (X'X)-12. Jika Ho benar dan asumsi
dipenuhi, maka: thitung ~ t(n-k-1,). Sehingga pada suatu tingkat signifikan
tertentu thitung dapat dibandingkan dengan suatu nilai t dalam distribusi t(n-k-1)
yaitu t (n-k-1,).
Jika pada tingkat signifikan , |thitung| < t(n-k-1,) maka terima Ho , berarti tidak
ada pengaruh yang signifikan dari variabel X terhadap variabel Y.
Sebaliknya, jika |thitung| > t(n-k-1,) maka tolak Ho, berarti ada pengaruh yang
signifikan dari variabel X terhadap variabel Y. Jadi pada prinsipnya uji
terhadap i secara individu merupakan pengujian terhadap koefisien regresi
parsial yaitu uji tentang model regresi Y pada suatu variabel X tertentu jika
variabel X yang lain dianggap konstan.
Daerah Ho ditolak Daerah Ho ditolak

Daerah Ho diterima
-t(tabel) 0 t(tabel)
Gambar 2.
Distribusi t untuk Kriteria Penerimaan dan Penolakan Secara Individu
5. KOEFISIEN DETERMINASI
Koefisien determinasi (R2) merupakan rasio antara variasi regresi terhadap variasi
total, yaitu proporsi yang menya-takan berapa persen variasi data (variasi di
sekitar Y) yang diterangkan oleh model. Hal ini menunjukkan bahwa variasi total
Y sekitar rata-rata disebabkan karena data pengamatan tidak terletak dalam
persamaan regresi, jika variasi residualnya kecil dan variasi regresinya mendekati
variasi totalnya, maka persamaan regresi akan lebih dekat dengan titik-titik data
pengamatan. Besarnya R2 selalu berada diantara nol dan satu (0<R2<1) dan dapat
ditulis sebagai berikut :
SSR
R2  x100%
SST
Adapun koefisien lain yang juga dipertimbangkan dalam analisis regresi

adalah koefisien determinasi yang telah disesuaikan (R2 adjusted), yaitu
koefisien determinasi yang dikoreksi oleh derajat bebas masing masing variasi.
2
 n k 1 x100%
R  1  ( 1  R 2 ) n 1
Jadi koefisien determinasi (R2 ) berguna untuk :

1. Mengukur ketepatan atau kecocokan suatu garis regresi yang diterapkan
terhadap suatu kelompok data hasil observasi. Makin besar nilai R2 dikatakan
model regresi semakin tepat atau cocok, sebaliknya makin kecil nilai R2
dikatakan model regresi tidak tepat untuk mewakili data hasil observasi.
2. Mengukur proporsi atau prosentase dari jumlah variasi Y yang dapat
diterangkan oleh model regresi.
6. KOEFISIEN KORELASI PARSIAL
Korelasi parsial merupakan ukuran hubungan linier antara variabel Y

dengan X1 dan X2 dibuat tetap atau sebaliknya. Nilai koefisien korelasi parsial ry1,2
artinya korelasi Y dengan X1 dikontrol dengan X2. (Gujarati, 1988, hal 102-104).
ry 1  ry 2r12
ry1,2 
(1 ry22 )(1 r12
2
)
ry 2  ry 1r12
ry 2,1 
(1  ry21 )(1  r12
2
)
7. ANALISIS RESIDUAL
Analisis residual adalah analisis tentang selisih nilai pengamatan Y

dengan nilai prediksi Y setelah model ditetapkan, sehingga analisis yang tengah
diamati dijamin validitasnya. Adapun residual secara matematis dapat ditulis
dengan :
 
ei  Yi  Yi
Sedangkan analisis disini adalah analisis pada asumsi residual itu sendiri
dan asumsi harus sesuai secara statistik agar model diterima, yaitu asumsi identik
(homoskedastisitas), independent (non autokorelasi) dan berdistribusi normal
dengan mean nol dan varians 2.
DISTRIBUSI NORMAL
Penerapan metode kuadrat terkecil (Ordinary Least Squares/OLS) tidak
memerlukan / membuat asumsi apapun mengenai distribusi pada residualnya.
Asumsi pada residual yang diperoleh diharapkan mempunyai nilai (rata-rata) nol,
tak berkorelasi dan mempunyai varians konstan. Dengan adanya asumsi ini,
penaksir OLS memenuhi beberapa sifat statistik yang diinginkan, seperti
ketidakbiasan (unbiased) dan varians minimum.
Karena hal tersebut di atas dan tujuan penarikan kesimpulan mengenai
persamaan regresi populasi, dalam konteks regresi biasanya resudal diasumsikan
mengikuti distribusi normal.
Pengujian ini dilakukan untuk mengetahui apakah residual dari model
berdistribusi normal dengan mean nol dan varians 2.
Rata-rata : E ( i )  0
Varians : E ( i2 )   2
Covarians : E ( i ,  j )  0, i  j
Asumsi ini secara ringkas dapat dinyatakan sebagai :  i ~ N (0,  2 )

Pemeriksaan asumsi distribusi normal dapat dilakukan dengan langkah-langkah
sebagai berikut:
1. Tentukan residual ei dari persamaan regresi
2. Sortir ei dari urutan yang terkecil sampai yang besar
3. Hitung Pi yang sesuai dengan ei yang telah disortir
(i  0,5)
Pi  100% , i = 1,2,...,n
n
4. Plot Pi dengan ei
Jika pola tersebut membentuk sudut mendekati 450, maka asumsi normal
terpenuhi.
IDENTIK (Homoskedastisitas)
Pengujian ini dilakukan untuk mengetahui apakah penyebaran residualnya sama
(variansnya sama). Hal ini dilihat dengan menggambar plot antara residual yang
distandarkan dengan Y prediksi. Jika plot residual yang di standarkan terhadap Y
prediksi memperlihatkan pola seperti cerobong asap, kuadratik atau trend
tertentu (lihat gambar 1.a, 1.b dan 1.c) maka asumsi tidak dipenuhi atau
heteroskedastisitas. Jika plot membentuk "horizontal band" (lihat gambar 1.d)
maka asumsi dipenuhi.
ei /s ei /s ei /s ei /s
Y Y Y Y
(1) (2) (3) (4)
Gambar 3.
Plot Pemeriksaan Asumsi Idenetik
Atau residual yang sudah distandartkan pada batas 95% berada diantara (-2,2)
secara merata maka residual dikatakan berada dalam satu distribusi, akibatnya
residual identik satu sama lain dan ini berarti asumsi identik terpenuhi.
Selain hal tersebut di atas ada beberapa pengujian mengenai kasus
heteroskedastisitas, yaitu:
Pengujian Park
Park memformulakan metode grafik dengan menyarankan bahwa  i2 adalah suatu
fungsi yang menjelaskan Xi. Karena  i2 biasanya tidak diketahui, maka digunakan
ei2 sebagai pendekatannya dan melakukan regresi berikut:
ln ei2  ln  2   ln X i   i
Jika  ternyata signifikan secara statstik, dapat disimpulkan dalam data terdapat
heteroskedastisitas, dan sebaliknya jika tidak signifikan dapat disimpulkan asumsi
homoskedastisitas terpenuhi.
Pengujian Glejser
Formula Glejser hampir dengan Park, Glejser menyarankan untuk meregresikan
nilai absolut dari ei, |ei|, terhadap variabel X yang diperkirakan mempunyai
hubungan yang erat dengan  i2 . Bentuk fungsional yang disarankan:
1) | ei |  1 X i   i
2) | ei |  1 X i   i
1
3) | ei |  1  i
Xi
1
4) | ei |  1  i
Xi
5) | ei |  0   1 X i   i
6) | ei |  0   1 X i   i
7) | ei |  0   1 X i2   i
Jika  ternyata signifikan secara statstik, dapat disimpulkan dalam data terdapat
heteroskedastisitas, dan sebaliknya jika tidak signifikan dapat disimpulkan asumsi
homoskedastisitas terpenuhi.
INDEPENDENT (Non Autokorelasi)
Pengujian ini dilakukan untuk mengetahui apakah residual dari model
saling mempengaruhi. Hal ini dikaitkan dengan cov(ei,ej) = 0 untuk ij dan
dapat dilihat dengan menggambar residual terhadap urutan waktu pengamatan.
Jika pola yang terbentuk menunjukkan suatu trend tertentu terhadap urutan
waktu pengamatan maka asumsi tidak dipenuhi.
ei ei ei ei
n n n n
(1) (2) (3) (4)
Satu dari asumsi penting dari model regresi linier klasik adalah bahwa
kesalahan atau gangguan i yang masuk kedalam fungsi regresif populasi adalah
random atau tak berkorelasi. Jika ini dilanggar, kita mempunyai problem serial
korelasi atau autokorelasi. (Gujarati, 1995: 223).
Sedangkan yang dimaksud dengan autokorelasi yaitu keadaan dimana
residual (kesalahan penganggu) dalam suatu periode tertentu berkorelasi dengan
residual (kesalahan pengganggu) periode yang lain. Pengujian terhadap gejala
autokorelasi dilakukan dengan menggunakan uji statistik Durbin Watson.
(Gujarati, 1995: 215).
Hipotesis:
H0 : Tidak ada auto korelasi positif atau autokorelsi negatif
H1 : Ada autokorelasi positif atau autokorelsi negatif
Statistik Uji:
n
 (et  et 1 )
2
d  t 1 n
 et
2
t 1
Daerah Penolakan (Kriteria Keputusan):
Hasil dhitung kemudian dibandingkan dengan dtabel., selanjutnya diambil keputusan
sebagai berikut:
1. Jika hipotesis Ho : tidak ada korelasi positif, maka:
d < dL : menolak Ho
d > dU : tidak menolak Ho
dL  d  dU : pengujian tidak meyakinkan
2. Jika hipotesis Ho : tidak ada korelasi negatif, maka:
d > 4 – dL : menolak Ho
d < 4 – dU : tidak menolak Ho
4 – dU  d  4 – dL : pengujian tidak meyakinkan
3. Jika hipotesis Ho : tidak ada korelasi positif atau negatif, maka:
d < dL : menolak Ho
d > 4 – dL : menolak Ho
dU  d  4 – dU : tidak menolak Ho
dL  d  dU : pengujian tidak meyakinkan atau
4 – dU  d  4 – dL : pengujian tidak meyakinkan
Lebih jelas dapat dilihat pada Gambar 4 berikut:
Menolak Ho Daerah Daerah Menolak Ho

bukti keragu- keragu- bukti
autokorelasi raguan raguan autokorelasi
positif negatif
Menerima Ho atau Ho
atau kedua-duanya
d
0 dL du 2 4-du 4-dL 4
Gambar 4:
Distribusi daerah keputusan autokorelasi
8. REGRESI KOMPONEN UTAMA
Multikolinieritas adalah kasus dimana terjadi dependensi yang cukup

tinggi antara variabel bebas pada persamaan regresi. Disebabkan dari variabel
bebas yang saling berkorelasi tidak seluruhnya masuk dalam model. Padahal
masing-masing korelasi sangat tinggi terhadap nilai responnya.
Maka langkah yang perlu ditempuh jika menghadapi kasus
multikolinieritas adalah dengan menggunakan "principal component analysis".
Dimana tujuan dari metode ini adalah mentranformasikan variabel yang saling
berkorelasi menjadi variabel baru yang saling orthogonal yang disebut dengan
"komponen utama". Dan komponen utama ini mampu menjelaskan semaksimal
mungkin variabelitasnya.
Langkah pertama yang dilakukan adalah mencari nilai-nilai eigen (akar-
akar karakteristik) dan vektor eigen (vektor-vektor karakteristik). Dari nilai eigen
terbesar menunjukkan variabilitas terbesar yang terhimpun dari komponen itu.
Sedangkan vektor eigen digunakan untuk menyatakan kembali variabel-variabel
bebas kedalam beberapa komponen utama.
Yang harus ditempuh pertama kali adalah menstandarkan masing-masing
variabel bebas dengan cara ;
X ij   i
Zij 
i
dimana :
Xij = nilai dari variabel independent ke-i pengamatan ke-j
Zij = nilai standart variabel independent ke-i pengamatan ke-j
i = means variabel independent ke-i ditaksir dengan Xi.
i = standart deviasi variabel independent ke-i ditaksir dengan si.
Langkah selanjutnya adalah mencari nilai matrik korelasi antara
Z1,Z2,...,Zk dengan cara :
1..... r12 ...... r1k 

 r21...1........ r2 k 
 z  . 
. 
 rk 1.. rk 2 .......1 
Selanjutnya untuk mencari nilai eigen yang dilambangkan dengan  (lamda)

adalah dengan cara :
|z - I| = 0
yang mana :
 i = k
Dan vektor eigen yang dinotasikan dengan  dapat dicari dengan menggunakan
persanaan berikut :
z j = j j
Dengan demikian komponen utama ke j untuk variabel standart Z didapatkan

sebagai berikut:
Wj = j Z
= 1j Z1 + 2j Z2 + … + kj Zk
dimana j merupakan vektor eigen dari matrik korelasi z dan variabelitas yang
diterapkan komponen utama ke j adalah;
(j/k) x 100%
Yang perlu diambil dari k buah komponen utama yang nilai eigennya lebih
besar dan sama dengan satu. Dan total variabelitas yang diterangkan minimal 75%
dari total variabelitas data awal.
Hasil diatas kemudian diregresikan dengan metode least square kedalam
model persamaan baru dengan q komponen utama (q<k) yang cukup bisa
menggambarkan variabilitas dari variabel asal.
Yi   0 *   1 * W1i   2 * W2i ...  q * Wgi   i
dan taksiran persamaan diperoleh sebagai berikut :
Yi = bo* + b1*W1i + b2*W2i + ... + bq*Wqi
Setelah didapatkan persamaan yang diperoleh dari transformasi variabel asal,

maka selanjutnya persamaan tersebut dikembalikan kepersamaan variabel asalnya
yaitu;
Yi = bo + b1X1i + ... + bkXki, i=1, 2, 3, ....n
9. DETEKSI OUTLIER dan MENENTUKAN INFLUENCE
Untuk memulai pemeriksaan terhadap gugus data, keberadaan pengamaan-

pengamatan yang mungkin dapat dinyatakan sebagai outlier, maka dilakukan
analisis regresi model linier secara lengkap untuk seluruh variabel bebas dan
seluruh pengamatan yang ada. Selanjutnya dari hasil perhitungan untuk model
regresi tersebut, dibuat plot dari nilai-nilai studentized residual terhadap nilai-nilai
prediksi dari persamaan regresi tersebut. Penggunaan plot ini mempunyai manfaat
penting dalam mendiagnosa kecenderungan-kecenderungan didalam pelanggaran
dari asumsi-asumsi analisis regresi yang standart. Dalam plot tersebut, nilai yang
keluar dari selang (-2,2) secara umum disepakati sebagai nilai untuk mencurigai
suatu residual yang dapat dianggap sebagai titik outlier dalam data. Walaupun
demikian hasil dari plot ini belum menjamin secara nyata bahwa titik-titik tersebut
dapat dinyatakan sebagai titik-titik outlier, tetapi haruslah diperiksa lebih lanjut
untuk menyimpulkan hal tersebut.
Secara statistik, suatu ukuran R-student atau sering disebut externally
studentized residual merupakan ukuran yang menggabungkan pengaruh dari
studentized residual (internally) dan leverage untuk mendapatkan suatu besaran
yang dapat digunakan untuk pengujian hipotesis secara formal terhadap
pengamatan-pengamatan yang dicurigai sebagai suatu outlier dalam gugus
datanya.
Untuk mendeteksi pengamatan yang berpotensial mempunyai influece
yang tinggi, dimulai dengan menentukan pengamatan mana yang mempunyai
diagonal HAT yang besar, nilai R-student yang besar atau keduanya. Nilai
diagonal HAT yang mengindikasikan potensi leverage yang kuat untuk nilai yang
melebihi 2p/n. Meskipun demikian kepentingan relatif untuk dari ukuran HAT
tersebut tergantung dari besarnya jumlah pengamatan (n) yang dimiliki data
tersebut. Dimana nilai 2p/n dan p/n merupakan dua besaran (sebagai indikator
pembanding nilai HAT) yang tergantung pada besar n, jika n cukup besar maka
angka pembanding tersebut cukup kecil pula. Selanjutnya kita lihat nilai DFFITS
yang merupakan suatu ukuran influence dari suatu pengamatan pada atau terhadap
nilai prediksinya. Secara teoritis diketahui bahwa jika suatu pengamatan
mempunyai nilai R-student yang cukup besar sedangkan leveragenya mendekati
nol, maka nilai DFFITS-nya tidak terlalu berarti, atau dengan kata lain pengaruh
dari besaran R-student tersebut hanya bersifat moderat terhadap DFFITS itu.
Sama halnya jika R-student mendekati nol dan meskipun leverage relatif tinggi,
kombinasi keduanya hanya menghasilkan nilai DFFITS yang kecil saja. Jadi
DFFITS dipengaruhi secara pasti oleh kedua statistik, yaitu leverage dan error
prediksi. Sebagai indikator bahwa nilai |DFFITS| > 2p/n perlu mendapatkan
suatu perhatian.
Selain statistik DFFITS, statistik Cook’s D juga merupakan suatu nilai
indikator untuk mendiagnosis influence suatu pengamatan. Perbedaannya, Cook’s
D menggunakan pendekatan dengan mengukur jarak suatu titik dalam ruang 
dimana titik tersebut mempunyai suatu koordinat dari vektor  yang dihitung
berdasarkan seluruh pengamatan yang ada dan dengan suatu titik lain dalam ruang
 yang mana titik ini koordinat dari vektor -(i) yang dihitung berdasarkan seluruh
pengamatan kecuali ke-i. Dengan demikian semakin jauh jarak kedua titik
tersebut, maka nilai Cook’D yang diperoleh akan semakin besar, dan berakibat
semakin besar pula suatu pengamatan mempunyai influence terhadap model
regresi yang dibentuk.
Karena nilai Cook’s D tersebut dapat dibandingkan dengan F(p,n-p,0.5)
dan juga F(p,n-p,0.5)  1, maka seluruh nilai Cook’s D tersebut dapat
dibandingkan dengan angka 1. Jika nilai-nilai Cook' D lebih besar dari 1 maka
dapat dinyatakan bahwa pengamatan tersebut mempunyai influence terhadap
koefisien-koefisien regresi model tersebut.
Selain kedua statistik tersebut, statistik lain yang mendiagnosis influence
dari titik-titik pengamatan yaitu DFBETAS. DFBETAS merupakan suatu ukuran
untuk menandakan berapa besar perubahan dalam koefisien-koefisien regresi j,
dalam unit standart deviasi, jika pengamatan ke-i. dikeluarkan dalam model
regresi. Sebagai indikator bahwa nilai |DFBETAS j,i.| > 2/n maka pengamatan
ke-i dapat dicurigai terdapatnya influence.

Wiraraja - Sesi2 - 2 - Teori - Korelasi & Regresi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Wiraraja - Sesi2 - 2 - Teori - Korelasi & Regresi

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS REGRESI DAN PELANGGARAN ASUMSI

Bambang Widjanarko Otok

Perubahan nilai suatu variabel tidak selalu terjadi dengan sendirinya,

Dalam ilmu statistika, teknik yang umum digunakan untuk menganalisis

Prinsip dasar yang harus dipenuhi dalam membangun suatu persamaan

Secara matematis hubungan antara variabel independent dengan variabel

Dalam persamaan regresi jika hanya mengandung satu variabel

Langkah pertama dalam mencari pola hubungan antara variabel X dan

Apabila perhitungan didasarkan sampel, maka ditulis dengan rumus :

Pada hakekatnya nilai r dapat bervariasi dari – 1 sampai dengan + 1

Pengujian Koefisien Korelasi ( r )

3. REGRESI LINIER SEDERHANA

Misalkan pola hubungan antara variabel X dan Y bersifat linier, maka

Analisis varians merupakan suatu cara yang dapat digunakan dalam

Tabel 1. Tabel Anova Dalam Regresi Sederhana

Sumber Jumlah df Rata-rata Kuadrat F-Rasio

Selang Keyakinan sebesar (1-)100% untuk 

Selanjutnya memprediksi nilai rata-rata Y untuk nilai X tertentu

Selang Keyakinan sebesar (1-)100% untuk E(Y|X)

Regresi Linier Berganda merupakan perluasan dari regresi linier

Sedangkan i merupakan residual yang ditaksir oleh ei yang besarnya

Masalah utama dalam analisa regresi adalah menaksir parameter atau

 i 2   '  min imum

Taksiran i dapat diperoleh dengan menyelesaikan turunan secara parsiil

Dengan menurunkan ’ terhadap  secara parsiil berdasarkan aturan penurunan

dengan menyamakan hasil diatas sama dengan nol maka diperoleh :

(Y’Y – nY2 ) = (’X’Y – nY2 ) + (Y’Y - ’X’Y )

dengan derajat bebas adalah :

Tabel 2. Tabel Anova untuk Regresi Linear Berganda

Sumber Variasi Jumlah Kuadrat Derajat Bebas

Residual SSRes n-k-1

Total SST n-1

Sedangkan untuk mengetahui apakah nilai-nilai dari parameter yang diperoleh

Daerah dimana Ho diterima / H1 ditolak

Daerah dimana Ho ditolak / H1 diterima

2. Pengujian koefisien regresi secara individu

Daerah Ho ditolak Daerah Ho ditolak

Adapun koefisien lain yang juga dipertimbangkan dalam analisis regresi

Jadi koefisien determinasi (R2 ) berguna untuk :

6. KOEFISIEN KORELASI PARSIAL

Korelasi parsial merupakan ukuran hubungan linier antara variabel Y

Analisis residual adalah analisis tentang selisih nilai pengamatan Y

Asumsi ini secara ringkas dapat dinyatakan sebagai :  i ~ N (0,  2 )

(1) (2) (3) (4)

ei2 sebagai pendekatannya dan melakukan regresi berikut:

(1) (2) (3) (4)

Lebih jelas dapat dilihat pada Gambar 4 berikut:

Menolak Ho Daerah Daerah Menolak Ho

Multikolinieritas adalah kasus dimana terjadi dependensi yang cukup

1..... r12 ...... r1k 

Selanjutnya untuk mencari nilai eigen yang dilambangkan dengan  (lamda)

Dengan demikian komponen utama ke j untuk variabel standart Z didapatkan

Yi = bo* + b1*W1i + b2*W2i + ... + bq*Wqi

Setelah didapatkan persamaan yang diperoleh dari transformasi variabel asal,

Yi = bo + b1X1i + ... + bkXki, i=1, 2, 3, ....n

9. DETEKSI OUTLIER dan MENENTUKAN INFLUENCE

Untuk memulai pemeriksaan terhadap gugus data, keberadaan pengamaan-

Anda mungkin juga menyukai

Yi = bo* + b1W1i + b2W2i + ... + bq*Wqi