KOEFISIEN KORELASI
Koefisein korelasi mengukur keeratan hubungan antar dua variabel atau lebih.
Korelasi produk momen antara variabel y dengan x diberikan oleh
()()
,
()
-,
()
-
Korelasi sederhana r ini hanya didefinisikan untuk dua peubah.
Koefisien determinasi parsial (coefficients of partial determination)
A coefficients of partial determination, in contrast, measure the marginal
contribution of one X variable when all others are already included in the model.
Koefisien determinasi parsial, mengukur konstribusi marginal dari sebuah
variabel bebas X, ketika semua variabel lainnya sudah berada di dalam model.
Dua variabel prediktor
Koefisien determinasi marginal (coefficien of partial determination) antara Y
dengan X1, bila diketahui X2 sudah berada didalam model, dinotasikan
(|)
dan didefinisikan sebagai
(|)
) (
)
(
)
(
)
Dengan cara serupa, Koefisien determinasi marginal antara Y dengan X2, bila
diketahui X1 sudah berada didalam model, dinotasikan
(|)
dan didefinisikan
sebagai
(|)
) (
)
(
)
(
)
dimana
SSE = JKG =JKS jumlah kuadrat galat/sisa
SSR = JKR = Jumlah kuadrat regresi
Kasus Umum
Generalisasi koefisien determinasi parsial untuk tiga atau lebih variabel bebas X
didalam model adalah sbb:
2
(|)
)
(
)
(|)
)
(
)
(|)
)
(
)
(|)
)
(
)
Koefisien Korelasi parsial
Misalkan akan diukur korelasi antara sebuah variabel tak bebas dengan sebuah
variabel bebas tertentu, sementara mempertahankan konstan semua variabel
bebas lain yang terkait dengan variabel tak bebas tersebut, dengan kata lain
hendak melihat hubungan antara variabel tak bebas yang dimaksud dengan satu
variabel bebas saja, dan meniadakan pengaruh semua variabel lainnya.
Misalkan terdapat tiga variabel , maka koefisien korelasi parsial antara X
dan Y bila Z dikontrol (dipertahankan konstan) didefinisikan sebagai
Lambang z dibelakang titik pada korelasi parsial menyatakan bahwa varaiabel z
yang dikontrol (dipertahankan konstan)
Jadi korelasi antara dua peubah dengan mengontrol peubah lainnya disebut
korelasi parsial.
Notasi
dengan mengontrol
Misalkan terdapat tiga variabel
dan
dengan
Misalkan terdapat empat variabel
dan
dengan
dan
atau
Lambang 34 dibelakang titik pada korelasi parsial menyatakan bahwa varaiabel
ketiga dan ke empat yang dikontrol (dipertahankan konstan).
3
Hubungan Koefisein determinasi parsial dengan koefisein korelasi parsial
Akar kuadrat dari koefisien determinasi parsial disebut koefisien korelasi parsial.
Jika koefisien determinasi parsial
(|)
)
(
)
, maka koefisien korelasi
parsial antara Y dengan X1, bila X2 dikontrol adalah
(|)
(
)
(
)
Jadi hubungan antara koefiseien determinasi parsial dengan koefisien korelasi
parsial dapa dilihat sebagai berikut, misalnya
(|)
(
(|)
)
)(
(|)
(
(|)
)
(
(|)
(|)
(|)
)
(
(|)
)(
(|)
)
atau ekivalen dengan
(|)
(
(|)
)
(
(|)
(|)
(|)
)
(
(|)
)(
(|)
(|)
(
(|)
)
(
(|)
(|)
(|)
)
(
(|)
)(
(|)
)
atau ekivalen dengan
(|)
(
(|)
)
(
(|)
(|)
(|)
)
(
(|)
)(
(|)
)
Jika terdapat empat variabel
dengan mengontrol
dan
adalah
dimana
Dan koefisien korelasi antara y dan
dengan mengontrol
dan
adalah
dimana
4
Hal ini dapat pula dihitung melalui
(|)
(
(|)
)
)
(
)
dimana
(
) (
) (
)
atau
(
) (
) (
)
Contoh
Data 9 bayi waktu lahir : x = panjang bayi (cm), y =berat bayi (kg) dan z= ukuran
dada bayi (cm)
No x (cm) y (kg) z (cm)
1 48,2 2,75 29,5
2 45,5 2,15 26,5
3 46,3 4,41 32,2
4 49,0 5,52 36,5
5 43,0 3,21 27,2
6 48,0 4,32 27,7
7 48,0 2,31 28,3
8 53,0 4,30 30,3
9 58,0 3,71 28,7
Perhitungan langsung menggunakan rumus diperoleh
Koefisien korelasi antara x dan y bila z dikontrol adalah
()()
()
()
Koefisien korelasi antara y dan z bila x dikontrol adalah
()()
()
()
Koefisien korelasi antara x dan z bila y dikontrol adalah
()()
()
()
Kuadrat koefisien korelasi masing-masing adalah
()
()
()
Setelah dihitung diperoleh
5
Memilih Model Regresi terbaik
Perlu disadari bahwa model terbaik itu belum tentu tunggal dan masing-masing
model mempunyai keunggulan dan kelemahan. Model terbaik mungkin lebih dari
satu model yang mengandung sebagian atau seluruh variabel bebas tadi.
Kesederhanaan dan keefektifan model merupakan pertimbangan yang perlu
diperhatikan dalam memilih model. Bila terdapat dua model atau lebih yang
sama atau hampir sama dalam menjelaskan atau menggambarkan persoalan
yang ingin dibahas, maka sebaiknya memilih yang paling sedikit mengandung
peubah bebas didalamnya (paling sederhana).
Beberapa metode yang dapat digunakan untuk memilih model regresi terbaik
1. Metode Seleksi Maju
2. Metode Penyisihan
3. Metode Bertahap
4. Metode semua Kombinasi yang mungkin
Metode Seleksi Maju
Cara kerja metode ini adalah memasukan peubah bebas satu demi satu ke dalam
model regresi linier berdasarkan urutan besar pengaruhnya terhadap model, dan
berhenti bila semua variabel bebas yang memenuhi syarat telah masuk.
Dimulai dengan memeriksa matriks korelasi dan memilih peubah bebas yang
menghasilkan
kedalam model, dengan kata lain regresikan y terhadap
, diperoleh model
regresi linier
2. Uji hipotesis apakah
diterima pekerjaan berhenti (selesai) semua yang tersedia sama sekali
tidak berguna untuk menerangkan variansi dalam y. Andaikan hipotesis
ditolak, jadi
diperhitungkan atau
6
dikontrol. Hal ini dapat dikerjakan dengan memeriksa nilai
,
yaitu kuadrat korelasi parsial y dengan
dikontrol terhadap
kemudian
ambil
, maka masukkan
apakah signifikan atau tidak.
4. Ulangi langkah 3, hingga semua variabel yang memenuhi syarat masuk ke
dalam model.
Contoh
Diberikan data dalam tabel berikut, Buat model regresi dengan metoda seleksi
maju
Data Fiktif : Tabel 1
No x1 x2 x3 x4 y
1 6 44 12 13,2 86,3
2 7 46 12 15,2 30,9
3 8 70 11 8 163,2
4 8 70 11 8 177,7
5 9 60 11 6 159,6
6 10 40 10 12 107,2
7 10 40 11 2 153,8
8 10 40 10 12 79,3
9 11 55 9 8 155
10 15 42 8 11 146
11 15 42 8 11 160
12 17 50 7 9,2 200,1
13 17 50 7 9,2 237,5
14 18 55 8 13 200,1
15 20 80 3 10 339,4
16 22 56 4 6 291,9
Solusi
Langkah 1. Buat dan periksa matriks korelasinya : yang ditunjukkan pada tabel 2
Tabel 2: Matriks korelasi 5 variabel
x1 x2 x3 x4 y
x1 1
x2 0,1903 1
x3 -0,9527 -0,3319 1
x4 -0,1088 -0,2294 0,1103 1
y 0,8169 0,6248 -0,8664 -0,4235 1
7
Tampak pada tabel 2 bahwa variabel bebas
SUMMARY OUTPUT
Regression statistics
Multiple R
R square (
)
Adjusted R square (
)
Observation
0,8664
0,75066
0,73285
16
Tabel 3: ANOVA
df SS MS F significsnce f
Regression 1 67381,26 67381,26 42,1491 1,41991E-05
Residual 14 22380,94 1598,6389
Total 15 89762,2
Tabel 4 : Koefisien regresi
coefficients standard
error
t-stat P-value
intercept 389,9368 35,6164 10,9482 3,01E-08
variable
) ,
, MSE (RJKG)=
1598,6389
()
, nilai kritis 0,0001. Selanjutnya periksa keberartian
melalui uji hipotesis. Dari statistik yang diberikan ini, terlihat bahwa
(
berbeda dengan nol secara amat berarti). Hal ini dapat diverifikasi melalui uji:
versus
Karena persamaan ini adalah regresi linier sederhana, maka uji keberartian
sbb
( )
Karena
, berarti
Cara lain :
| ( ) maka
terima
, artinya
Langkah 2. Langkah berikutnya adalah memeriksa
dan 4, sebagai
berikut :
8
Tabel 5 :Kuadrat korelasi
dan 4
-0,0561
0,7159
-0,6609
0,0032
0,5125
0,4369
Dari tabel 3 terlihat bahwa calon peubah berikutnya yang masuk ke
dalam model adalah variabel
, karena
dan
, yaitu
SUMMARY OUTPUT
Regression statistics
Multiple R
R square (
)
Adjusted R square (
)
Observation
0,93726
0,8785
0,859758
16
Tabel 6 :ANAVA
df SS MS F significsnce f
Regression 2 78852,24 39426,12 46,979 1,12E-06
Residual 13 10909,96 839,2275
Total 15 89762,2
Tabel 7 : Koefisien regresi
coefficients standard
error
t-stat P-value
intercept 232,4982 49,79318 4,6693 0,000439
variable
-21,3767
2,9585
-7,22547 6,69E-06
Tampak bahwa (
) , (
) ,
,
MSE (RJKG)=
, amat berarti
dengan nilai kritis 0,0001.
Tabel 8
Peubah Koef.regresi Galat baku F(1,13) Nilai kritis
konstanta
2,3851
-21,3767
232,4982
0,6451
2,9585
13,669
52,207
0,0027
0,0001
Tambahan
akibat pemasukan
( ) ketika
dikontrol.
Tabel 9: Kuadrat korelasi parsial
0,4118
-0,7518
0,1696
0,5652
Tampak bahwa
memenuhi syarat masuk kedalam model , F masuk jauh lebih besar dari 3,
misalnya, atau nilai kritis <0,01. Pemasukan
kedalam model
menghasilkan persamaan
SUMMARY OUTPUT
Regression statistics
Multiple R
R square (
)
Adjusted R square (
)
Observation
0,9732
0,9471
0,9339
16
Tabel 10 : ANAVA
df SS MS F significsnce f
Regression 3 85013,173 28337,7244 71,60471 6,28409E-08
Residual 12 4749,0269 395,75224
Total 15 89762,2
Tabel 11: Koefisien korelasi
coefficients standard
error
t-stat P-value
intercept 309,8643 39,4166 7,8613 4,4953E-06
variable
-21,0783
2,0330
-10,3678 2,4207E-07
variable
-6,3177
1,6012
-3,9456 0,0019432
10
Tabel 12
Peubah Koef.regresi Galat baku F(1,12) Nilai kritis
konstanta
2,0178
-21,0783
-6,3177
309,8643
0,4527
2,0320
1,6012
19,867
107,492
15,568
0,0008
0,0001
0,0019
,MSE (RJKG)=
, F masuk =3,75
dengan dk=1 dan 11, dan nilai kritis 0,0856. Bila dipilih ataupun
, maka
, maka
SUMMARY OUTPUT
Regression statistics
Multiple R
R square (
)
Adjusted R square (
)
Observation
0,97982
0,96005
0,94552
16
Tabel 13 : ANAVA
df SS MS F significsnce f
Regression 4 86176,1 21544,02 66,0841 1,28E-07=0,0000128
Residual 11 3586,103 326,0093
Total 15 89762,2
Tabel 14 : Koefisien regresi lengkap
coefficients standard
error
t-stat P-value
intercept 96,3114 118,594 0,812 0,4339
variable
-5,9945
1,4633
-4,0905 0,00177
11
Keterangan
; () ; ()
;
, (
, (
, (
)
Dalam hal ini (
) dan (
)
Uji F keseluruhan (F=71,6047)
Tabel 15 : Koefisien regresi keseluruhan dengan F masuk
Peubah Koef.regresi
Galat
baku
F(1,11) Nilai
kritis
Kuadrat korelasi
parsial
konstanta
6,4943
2,4107
-8,9745
-5,9945
96,3114
3,4385
0,4605
6,6689
1,4633
3,567
27,4001
1,8109
16,7812
0,2449
0,7135
0,1414
0,6040
0,2449
0,7135
0,1414
0,6040
Tampak bahwa
,MSE (RJKG)=
()
)
(
dimana
(
) (
) (
)
F masuk untuk
)
(
dimna (
) (
) (
)
Dengan cara serupa diperoleh
)
(
dimana (
) (
) (
)
12
Dan
)
(
dimana (
) (
) (
)
Rumus umum untuk menguji single
Hji statistk :
)
(
.
If
holds,
( ) Large values of
lead to conclusion
Perhatikan kolom terakhir pada tabel 7 menunjukkan kuadrat korelasi parsial
masing-masing peubah bebas x dengan y bila dikontrol oleh yang lainnya.
Misalnya,
Bagaimana mencari nilai-nilai kuadrat korelasi parsial pada tabel 15 kolom
terakhir.
(|)
(
(|)
)
)
(
dimana (
) (
) (
) (a)
(
) (
) (b)
Rumus (a) (
) atau
Rumus (b) (
(|)
(
(|)
)
)
(
dimana
(
) (
) (
)
atau
(
) (
) (
)
Rumus
(
) (
) (
)
13
(
) (
) (
) ekivalen dengan
(
) (
) (
)
(
) (
) (
) ekivalen dengan
(
) (
) (
)
(
) (
) (
) ekivalen dengan
(
) (
) (
)
(
) (
) (
) ekivalen dengan
(
) (
) (
)
Dimana SSR = JKR = Jumlah kuadrat regresi
SSE = JKE = Jumlah kuadrat error
(
setelah
dan
Mallows
Rumus
)
( )
atau
)
( )
dimana
adalah jumlah kuadrat error pada subset model fit regresi dengan
p parameter [yaitu (p-1) variabel X]. P=total jumlah parameter, p=banyaknya
parameter dalam sub model, n = banyaknya data. Atau
dimana
.
Dari Contoh model regresi pada data 1, diatas, diperoleh
14
)
(
)
(
)
* ()+
* +
adalah
)
(
)
(
)
* ()+
* ()+
adalah
)
(
)
(
)
* ()+
* ()+
adalah
)
(
)
(
)
* ()+
* ()+
Catatan
)
(
)
( )
(
)
(
( )
15
Metode semua kombinasi yang mungkin
Metode ini mengharuskan memeriksa semua kombinasi peubah yang dapat
dibuat model. Bila terdapat k peubah bebas, maka terdapt
persamaan yang
harus diperiksa. Metode ini mempunyai keunggulan lebih dari metode lainnya.
Dalam menilai kebaikan suatu kombinasi atau persamaan peubah bebas,
biasanya digunakan patokan pada : 1.
2. Rataan kuadrat sisa RJKS
3. Statistik
Mallows
Contoh
Dari contoh Data sebelumnya, terdapat 4 variabel bebas
, maka
harus diperiksa
Mallows
MSSE(RJKG)
A 1
2
3
4
66,74
39.03
75,07
17,93
79,6
155,9
56,7
214,0
2132,52
3908,84
1598,64
5261,87
B 1
2
3
4
5
6
89,59
75,15
78,07
87,85
47,32
85,95
18,6
58,4
50,4
23,5
135,1
28,7
718,47
1716,18
1514,52
839,23
3637,63
970,12
C 1
2
3
4
89,91
95,35
86,05
94,71
19,8
4,8
30,4
6,6
754,79
348,04
1043,23
395,75
D 1
Mallows
MSSE
(RJKG)
A 3
A 1
B 1
B 4
C 2
C 4
D 1
75,07
66,74
89,59
87,85
95,35
94,71
96,00
56,7
79,6
18,6
23,5
4,8
6,6
5,0
1598,64
2132,52
718,47
839,23
348,04
395,75
326,01
Model yang terbaik sering tidak ada, tapi ada beberapa model yang baik. Suatu
model mungkin baik untuk suatu tujuan, tetapi model yang lain mungkin lebih
baik untuk tujuan yang lain. Model yang mana sebaiknya digunakan banyak
tergantung pada pemahaman kita tentang permasalahan yang dihadapi dan
untuk apa model itu digunakan. Jika pada contoh diatas kita diperhadapkan
kepada pemilihan satu model saja, maka salah satu dari C2 atau C4 dapat
diambil, karena paling dekat memenuhi 3 kriteria kebaikan. Model yang
kemudian dipilih sebaiknyalah jika mungkin di cobakan pada data lain sebelum
keyakinan kebaikannya diberi bobot yang tinggi.
PR
1. Verifikasi (Hitung) kuadrat korelasi parsial pada kolom terakhir dari tabel 15.
2. Diberikan data
No X1 X2 X3 y
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
80
80
75
62
62
62
62
62
58
58
58
59
58
58
50
50
27
27
25
24
22
23
24
24
23
18
18
17
18
19
18
18
89
88
90
87
87
87
93
93
87
80
89
88
82
93
89
86
42
37
37
28
18
18
19
20
15
14
14
13
11
12
8
7
17
17
18
19
20
21
50
50
50
56
70
19
19
20
20
20
72
79
80
82
91
8
8
9
15
15
X1=aliran udara , X2= suhu air pendingin , X3= Konsentrasi pendingin , y=
Persentasi amoniak yang hilang yang tak terikat.
Pilih model terbaik dengan menggunakan
a. Metode Seleksi Maju
b. Metode semua kombinasi yang mungkin
CAKARAN
Tabel ANAVA dengan dekomposisi SSR untuk 4 varibel bebas X
Source of
variation
SS df MS
Regression (
) 4 (
) 1 (
) 1 (
) 1 (
) 1 (
)
Error (
) n-p=n-5 (
)
Total SSTO n-1
Source of
variation
SS df MS
Regression 86176,1 4 21544,02
67381,94 1 67381,94
78852,24 ? 1 78852,24
85013,17 ? 1 85013,17
86176,1 ? 1 86176,1
Error 3586,103 ? n-p=n-5=11 326,0093
Total 89762,2 ? n-1=15
18
Tabel 1 : Anava untuk regresi sederhana
Sours of
variation
SS df
atau
dk
MS E(MS)
Regression
Error
Total
(
1
n-2
n-1
Tolak
bila
Untuk persoalan diatas, dapat pula digunakan uji t, yaitu
.
Secara umum jika p menyatakan banyaknya parameter dalam model, maka dk
SSE adalah n-p, sedangkan dk SSR adalah p-1, dan dk SSTO (JKT) tidak
tergantung model, sehingga dk SSTO tetap n-1
Contoh 2
Tabel 1a Data
Tinggi badan ayah
(X) inci
65 63 67 64 68 62 70 66 68 67 69 71
Tinggi badan anak laki
(Y) inci
68 66 68 65 69 66 68 65 71 67 68 70
Tabel 1b
X Y XY
Residu
Kuadrat residu
65
63
68
66
4420
4158
4225
3669
4624
4356
66.79
65.84
1.211
0.163
1.46
0.03
19
67
64
68
62
70
66
68
67
69
71
68
65
69
66
68
65
71
67
68
70
4556
4160
4692
4092
4760
4290
4828
4489
4692
4970
4489
4096
4624
3844
4900
4356
4624
4489
4761
5041
4624
4225
4761
4356
4624
4225
5041
4489
4624
4900
67.74
66.31
68.22
65.36
69.17
67.27
68.22
67.74
68.69
69.65
0.258
-1.313
0.782
0.639
-1.171
-2.266
2.781
-0.742
-0.695
0.352
0.07
1.72
0.61
0.41
1.37
5.13
7.74
0.55
0.48
0.12
800 811 54107 53418 54849 0 19.69
Tabel 1c
X Y
65
63
67
64
68
62
70
66
68
67
69
71
68
66
68
65
69
66
68
65
71
67
68
70
66.79
65.84
67.74
66.31
68.22
65.36
69.17
67.27
68.22
67.74
68.69
69.65
0.1739
2.5059
0.1739
6.6719
2.0079
2.5059
0.1739
0.6719
11.6759
0.3399
0.1739
5.8419
1.46562
0.02669
0.06650
1.72395
0.61074
0.40930
1.37185
5.13361
7.73672
0.55075
0.48286
0.12416
0.62985
3.04986
0.02532
1.61292
0.40387
4.94068
2.52257
0.10065
0.40387
0.02532
1.23628
4.26273
38.917 19.703 19.214
,
.
Multiple R
R square
Adjusted R square
Observation
0,7026516
0,4937193
0,443091
12
Anava
df SS MS F Sig.F
Regression 1
19.21391 19.21391 9.75189 0.010822
Residual 10
19.70276 1.970276
Total 11
38.91667
coefficients Standard
error
t-stat P-value
20
intercept
35.824803 10.17795 3.519844 0.00554
Variable x1
0.476378 0.152548 3.122802 0.010822
( )
, berarti
Perhitungan manual
()(
)()()
(
)()
()()
()
()()()
(
)()
()()
()
(
)
(
)
(
)
()
??
()
()()
()()
Koefisien korelasi produk moment
()()
,
()
-,
()
-
()()
()
()
()()