Analisis Korelasi dan Regresi Linier
Analisis Korelasi dan Regresi Linier
Berikut ini pedoman menentukan kuat tidaknya korelasi antara dua variabel
menurut Walpole :
Tabel 1.
Tabel 2.
Hasil dari analisis korelasi menunjukkan kekuatan atau kelemahan dari suatu
hubungan.Nilai koefisien korelasi ini akan berada pada kisaran -1 sampai dengan
+1. Koefisien korelasi minus menunjukkan hubungan yang terbalik, dimana
pengaruh yang terjadi adalah pengaruh negatif. Dalam pengaruh yang negatif ini
kenaikan suatu variabel akan menyebabkan penurunan suatu variabel yang lain,
sedangkan penurunan suatu variabel akan menyebabkan kenaikan variabel yang
lain.
Koefisien korelasi positif menunjukkan hubungan yang searah dari dua variabel,
dimana kenaikan suatu variabel akan menyebabkan kenaikan variabel yang lain
dan sebaliknya penurunan suatu variabel akan menyebabkan penurunan variabel
yang lain.
Koefisien korelasi sebesar nol menunjukkan tidak adanya hubungan antara dua
variabel, dengan kata lain kenaikan atau penurunan suatu variabel tidak
mempengaruhi variabel yang lain, jadi berapapun perubahan harga pada suatu
variabel tidak akan mempengaruhi variabel yang lain karena nilainya yang tetap.
Terdapat bermacam-macam analisis korelasi yang dapat digunakan untuk
mengukur hubungan asosiatif dari suatu variabel. Korelasi yang akan digunakan
tergantung pada jenis data yang akan dianalisis. Korelasi berdasarkan tingkatan
data dapat dilihat pada tabel berikut ini:
Spearman Rank
Ordinal
Kendal Tau
r=
∑ (x − x̄ )( y− ȳ )
√ [ ∑ (x− x̄ )2 ][ ∑ ( y− ȳ )2 ]
Atau: n ∑ xy−∑ x ∑ y
r=
√ [n( ∑ x2 )−(∑ x)2 ][ n( ∑ y2 )−( ∑ y)2 ]
Atau: r =b
√ S xx
=
S xy
S yy √ S xx S yy
dimana:
r = Koefisien Korelasi Sampel
n = Ukuran Sampel
x = Nilai dari Variabel Independen
y = Nilai Variabel dependen
Dari persaamaan korelasi yang terakhir tersebut dapat dilihat adanya hubungan
antara b dan r. r digunakan untuk mengukur hubungan linier antara x dan y,
sedangkan b mengukur perubahan dalam y akibat perubahan setiap unit x.
Dalam kasus dimanai r1 = 0,3 dan r2 = 0,6 hanya berarti bahwa terdapat korelasi
positif dimana r2 lebih kuat daripada r1. Adalah salah jika menyimpulkan bahwa r 2
mengindikasikan hubungan linier dua kali lebih baik dibandingkan dengan r1.
6.2.2.Koefisien Determinansi
Koefisien determinansi adalah salah satu alat analisis yang dapat digunakan untuk
mengetahui lebih jauh hubungan antar variabel. Koefisien determinansi
disimbolkan dalam R2 yang menyatakan proporsi variansi keseluruhan dalam nilai
variabel dependen yang dapat diterangkan oleh hubungan linier dengan variabel
independen atau menunjukkan proporsi total variasi dalam nilai variabel
dependen yang dapat dijelaskan oleh hubungan linier dengan nilai variabel
independen. Nilai koefisien determinansi ini berkisar :0 ≤ R2 ≤ 1
2 2
R juga dapat digunakan untuk mempertimbangkan sebuah model regresi. Jika R
suatu model besar belum tentu model tersebut adalah model yang baik, tetapi jika
MSE model kecil maka model teresbut adalah model regresi yang terbaik.
Koefisien determinasi biasanya dinyatakan dengan persen. Sedangkan
penafsirannya jika 0.994 sehingga R2 = 0.989 atau 98.9% adalah pengaruh
variabel bebas terhadap perubahan variabel terikat adalah 98,9%, sedangkan
sisanya sebesar 1,1% dipengaruhi oleh variabel lain selain variabel bebas X.
Koefisien determinasi banyak digunakan dalam penjelasan tambahan untuk hasil
perhitungan koefisien regresi.
a1 ∑ x1 y +a2 ∑ x 2 y + …+ak ∑ x k y
r y, x ,… , x =
1 n
∑ y2
dengan
∑ X 1∑ Y
∑ x 1 y=∑ X 1 Y − n
∑ Xk ∑ Y
∑ x k y=∑ X k Y − n
(∑ Y )
2
∑ y =∑ Y
2 2
−
n
x 1 x2 y x2 )
Dimana :
r y, x , x = korelasi antara x1 dengan x2 secara bersama-sama dengan variabel y
1 2
Atau H0 :ρ=0
H1 :ρ≠0
Statistik uji:
Statistik uji menggunakan uji-T, yakni dengan menggunakan rumus sebagai
berikut:
=√
b SSR
r √ n−2 t hitung =
t hitung = atau S S
√ 1−r 2
S xx
H 1 : ρ≠ ρ0
Statistik uji:
z hitung =
2 [
√ n−3 ln ( 1+ r ) ( 1− ρ0 )
(1−r ) ( 1+ ρ0 ) ]
z tabel =z α (uji satu sisi) atau z tabel =z α (uji dua sisi)
2
Kriteria uji:
Tolak H0 jika zhitung > ztabel atau zhitung < -ztabel
Kesimpulan
6.4.Analisis Regresi
Dalam kehidupan sehari-hari, seringkali dijumpai kasus yang berhubungan dengan dua
variabel atau lebih. Hubungan tersebut dapat berupa hubungan kausal atau hubungan
fungsional. Hubungan kausal misalnya : hubungan antara panas dengan tingkat muai
panjang, sedangkan hubungan fungsional contohnya: hubungan antara kepemimpinan
dengan tingkat kepuasan kerja pegawai.
Secara umum terdapat dua macam hubungan antara dua variabel atau lebih, yaitu :
Keeratan hubungan dapat diketahui dengan analisis korelasi (bukan hubungan sebab-
akibat)
Bentuk hubungan dapat diketahui dengan analisis regresi
6.4.3. Asumsi
Penggunaan regresi linear sederhana didasarkan pada asumsi diantaranya sbb:
Error (ε) independen secara statistik
Distribusi probabilitas dari Error berdistribusi Normal
Distribusi probabilitas dari Error(*) mempunyai variansi yang konstan
Ada hubungan linier antara kedua variabel
Catatan (*):
Residual adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan
sebenarnya apabila data yang digunakan adalah data sampel.
Error adalah selisih antara nilai duga (predicted value) dengan nilai pengamatan yang
sebenarnya apabila data yang digunakan adalah data populasi.
Persamaan keduanya : merupakan selisih antara nilai duga (predicted value) dengan
pengamatan sebenarnya.
Perbedaan keduanya: residual dari data sampel, error dari data populasi.
dan
n n n
b=
∑ ( x− x̄ )( y −Sȳxy)
atau b= atau
2S xx
∑
( x− x̄ )
n ∑ xy−∑ x ∑ y
atau b=
(∑ x)
2
n∑ x − 2
Dari persamaan di atas disubstitusi, maka diperoleh persamaan untuk menentukan nilai
n n
a: a =
∑ yi ∑ xi
i=1
−b i=1
n n
atau:
a = y – bx
Dimana:
y = rata – rata yi
x = rata – rata xi
S xy =∑ x i y i−n x y
Se = S =
√ n−2 √
∑ ( y−^y )2 = SSE
n−2 √S −b S xy
= yy
n−2
s sε sε
sb = = =
√ S xx √∑ ( x− x̄ )2
√ ( ∑ x )2
∑x − n
2
6.4.5.3. Standar Error untuk y bila nilai x diketahui
Jika nilai x dimasukkan berulang–ulang pada persamaan regresi, maka nilai rata–rata
yang diperoleh tidak akan sama, yang artinya nilai y bervariasi. Sehingga nilai standar
error y dapat ditentukan dengan persamaan berikut (bila x diketahui):
(√( ))
2
Sy = S 1 ( x 0−x )
e +
n S xx
Digunakan untuk menguji apakah parameter β berarti pada model secara parsial.
Tahapan uji yang dilakukan:
Hipotesis:
H0 : β = 0
H1 : β ≠ 0
Statistik Uji:
b−β 0 b− β0
t= =
s / √ S xx Sb
Pengambilan Keputusan:
Kesimpulan
Hipotesis:
H0 : α = 0
H1 : α ≠ 0
Statistik Uji:
a−α
t=
s
√ ∑ xi
n S xx
Pengambilan Keputusan
Tolak H0 jika thitung > t a/2(db= n-2) pada selang kepercayaan α
Kesimpulan
a±t α /2
S √∑ x i
2
√ nS xx
Selang Kepercayaan untuk β:
b±t α /2 s b
6.4.9.Prediksi
√
2
1 (x p − x̄ )
^y ±t α /2 s ε +
n ∑ ( x− x̄ )2
Estimasi selang keyakinan untuk Nilai individual y diberikan pada saat xp
√
2
1 ( x p − x̄ )
^y ±t α /2 s ε 1+ +
n ∑ ( x− x̄ )2
6.5. Pemilihan Model Regresi
Penentuan model regresi linier sederhana ditekankan pada konsep linieritasnya
dengan asumsi awal bahwa hubungan tersebut linier diparamater regresinya.
Pemilihan variabel independen yang kurang tepat dapat menimbulkan bias dalam
estimasinya.
Tahapan uji yang dilakukan:
Hipotesis
H0 : β = 0
H1 : β ≠ 0
Tentukan daerah kritis dengan Level of Significance (α) yang biasa digunakan
adalah 0,01 atau 0,05
Sumber
Variansi SS df MS Fhitung
Regresi SSR 1 MSR = SSR/1 MSR/s2
Error SSE n – S2 = SSE/n-2
Total SST n –
Pengambilan Keputusan
Tolak H0 jika Fhitung > Ftabel(1 , n-2) pada selang kepercayaan (level of significance) α
Kesimpulan
Untuk menguji kelayakan dari suatu model regresi digunakan pendekatan analisis
varians.Analisis varians adaah suatu prosedur membagi variansi total variabel dependen
menjadi dua komponen, yaitu: variansi model sistematik dan variansi error.
6.6. Analisis Residual
Analisis residual dapat dilakukan dengan:
a. Pengujian Unequal variances: Varians pada setiap nilai x harus identik, yaitudengan
melakukan plot e^i dengan ^y , apabila terdapat pola-pola tertentu berarti varians tidak
identik sehingga perlu distabilkan dengan transformasi.
Hipotesis
H0 : Tidak ada LoF
H1 : Ada LoF Model Linier tidak sesuai
Tentukan daerah kritis dengan Level of Significance (α) yang biasa digunakan
adalah 0,01 atau 0,05
Hitung Pure Error sum of square ( SSpe)
k n
SS pe =∑ ∑ ¿ ¿ ¿ ¿ dengan df = n – k
i=1 i=1
Sumber
Variansi SS df MS Fhitung
Regresi SSR 1 MSR = SSR/1 MSR/s2
Error: SSE n – S2 = SSE(/n-2)
2
Lof SSE - SSpe k-2 (SSE – SSpe ¿/(k−2)
Pure error SSpe n-k S2= SSpe /(n-k) SSE−SSpe
2
S (k−2)
Total SST n
Pengambilan Keputusan
Tolak H0 jika Fhitung > Ftabel(k-2 , n-k) pada selang kepercayaan (level of significance) α
Kesimpulan
Contoh 1
nilai 9 mahasiswa dari suatu kelas pada ujian tengah semester (x) dan pada ujian akhir
semester (y) sebagai berikut :
n 1 2 3 4 5 6 7 8 9
xi 7 50 7 72 81 9 96 9 67
yi 8 66 7 34 47 8 99 9 68
n 1 2 3 4 5 6 7 8 9 Σ
xi 77 50 71 72 81 94 96 99 67 707
yi 82 66 78 34 47 85 99 99 68 658
xiyi 6314 3300 5538 2448 3807 7990 9504 9801 4556 53258
xi2 5929 2500 5041 5184 6561 8836 9216 9801 4489 57557
( 9 ) ( 53.258 )−( 707 ) (658)
Sehingga b = = 0,777142
( 9 )( 57.557 )−(707)2
dan
x = 85
x 3,4 2,8 2,5 3,7 3,2 3,1 2,9 3 2,2 2,4 2,7
y 25 20 18 25 21 22 30 22 10 20 17
Jawab :
Σx = 31,9 Σy = 230 Σ xiyi = 675,5
Σ xi2 = 94,49 Σ yi2 = 4866
x = 2,9 y = 20,9091
b = 0,777142
a = 12,06232
Sxx = Σ xi2 – n( x )2 = 1,98
Sxy = Σ xiyi – n( x y )= 8,4997
Syy = Σ yi2 – n( y )2 = 56,9049
SSR = b2 Sxx = 36,4894
SSE = Syy – SSR = 20,4155
Hipotesis
H0 : β = 0
H1 : β ≠ 0
α = 0.05
Tabel Anaysis of Variance
KomponenRe SS d M Fhitung
gresi
Regresi 36,4 1 36, 16,08
9 2
7
6
Error 20,4 9 2,2
2
Total 56,9 1
0
4
9
Pengambilan Keputusan
F tabel = F(0.05;1,9) = 5,12
Karena Fhitung > Ftabel maka Ho ditolak
Kesimpulan:Model Regresi linier sesuai
Contoh 3
Berikut adalah data jumlah biaya promosi (x) dan jumlah penjualan (y) pada perusahaan
ABC.
Tahu
Jumlah Biaya Promosi x) Jumlah Penjualan (y)
n
2005 22 30
2006 36 38
2007 31 35
2008 32 37
2009 31 34
2010 32 38
Jawab:
Jumlah
Jumlah
Biaya Range Range 2
Tahun Penjuala d i=R ( x )−R ( y) di
Promos x y
n (y)
i (x)
2005 22 30 1 1 0 0
∑ 2
6 (2) 12
r s=1− 2
=1− =1−0 , 057=0 , 943
6(6 −1) 210
Uji Hipotesis:
H0 : Tidak ada hubungan yang signifikan antara variabel biaya promosi dengan variabel
penjualan
H1 : Ada hubungan yang signifikan antara variabel biaya promosi dengan variabel
penjualan.
Statistika uji:
r √ n−2 ( 0 ,943 ) √ 6−2 1 , 886
t hitung = 2
= 2
= =17 , 03
1−r 1−( 0 , 943 ) 0 ,11075
t tabel=t =4 ,604
( 0 ,01
2
;4)
LATIHAN SOAL:
1. Data berikut menyatakan IQ=X untuk kelompok anak berumur tertentu dan hasil ujian
prestasi pengetahuan umum (Y).
Xi Yi Xi Yi Yi Yi
114 29 13 71 96 45
110 41 68 89 32
113 48 14 69 105 50
137 73 66 125 57
116 55 13 39 107 59
132 80 78 97 48
90 40 14 49 134 55
121 75 59 106 45
107 43 12 66 99 47
120 64 13 67 98 59
125 53 46 117 47
92 31 10 47 100 49
12
11
12
95
10
X (oC) Y (gram)
0 8 6 8
15 12 10 14
30 25 21 24
45 31 33 28
60 44 39 42
75 48 51 44
Carilah persamaan garis regresi
Gambarkan garis tersebut pada diagram pencar
Taksirlah banyaknya senyawa yang larut dalam 100 g air pada 50oC.
4. Berikut adalah data banyaknya modal (dalam juta rupiah) dan keuntungan yang diperoleh
(dalam juta rupiah) yang dihasilkan dalam waktu 10 bulan.
Modal (x) 189 204 192 214 218 178 189 167 180 194
Keuntungan 10 15 13 17 19 14 13 11 13 15
(y)
a. Hitunglah koefisien korelasi Pearson dan determinasi berdasarkan data di atas dan ujiah!
b. Tentukan apakah pernyataan bahwa koefisien korelasi antara jumlah karyawan dan
keuntungan tidak lebih dari 0,7 adalah benar! Gunakan tingkat kesalahan 5%!
5. Hitunglah koefisien korelasi kondisi temperatur (x) dan kepuasan pekerja (y) serta
apakah
ada hubungan yang signifikan antara keduanya dengan menggunakan teknik korelasi
pearson!
1 8 20
2 12 20
3 10 17
4 7 18
5 8 19
6 7 20
7 12 18
8 10 19
9 12 16
1
9 17
1
10 16
1
12 17
1
12 18
1
12 12
1
12 17
6. Dibawah ini diberikan data yang secara acak diambil dari populasi normal bervariabel
dua (X dan Y).
X Y X Y X Y
15 10 8 56 17 153
13 11 75 6 73
10 10 17 137 8 95
11 20 163 5 26
16 99 12 84 3 24
12 11 18 149 6 50
9 16 140 14 96
12 13 13 137 5 35
4 18 170 15 132
8 97 11 109 16 141
74
98
20.
69
I.1.1 Regresi Linier Berganda
Analisis regresi linier berganda digunakan untuk menganalisis hubungan antara variabel
bebas (x) dan variabel terikat (y). Namun pada regresi linier berganda ini, variabel bebas (x)
yang digunakan lebih dari dari satu. Bentuk persamaan umum untuk model regresi linier
berganda:
^y = a + b 1 x 1+ b2 x 2 +… …+ bn x n
Keterangan:
^y = nilai dari variabel terikat
a = konstata nilai estimasi ^y jika nilai x=0 (intercept)
b i = koefisien regresi gradient garis regresi (slope)
x n = variabel bebas
∑ yi = an + b 1 ∑ x i 1 + b 1 ∑ x i 2
i=1 i=1
n n n n
∑ x 1 i yi = a∑ x 1 i + b 1 ∑ x 2i 1 + b 2 ∑ x i 1 x i 2
i=1 i=1 i=1 i=1
n n n n
∑ x 2 i y i = a∑ x 2 i + b 2 ∑ x 2i 2 + b 1 ∑ x i 1 x 2 i
i=1 i=1 i=1 i=1
Asumsi yang digunakan dalam analisis regresi linier berganda antara lain:
a. Setiap nilai error berdistribusi normal dengan rata–rata 0 dan dan varians σ2
b. Bersifat homoskedastisitas
c. Kovarian error = 0, tidak terjadi autokorelasi
d. Tidak terdapat multikolinieritas, artinya tidak terdapat hubungan linier yang sempurna
diantara variabel–variabel bebas.
Latihan soal
X (oC) Y (gram)
0 8 6 8
15 12 10 14
30 25 21 24
45 31 33 28
60 44 39 42
75 48 51 44
a. Carilah persamaan garis regresi
b. Gambarkan garis tersebut pada diagram pencar
c. Taksirlah banyaknya senyawa yang larut dalam 100 g air pada 50oC.