Anda di halaman 1dari 63

BAB I

PENDAHULUAN

1.1 Latar belakang Masalah


Dalam permasalahan pengelolaan dan menejemen seringkali dijumpai
kegiatan peramalan, pendugaan, perkiraan, dan lainnya. Salah satu metode yang
dapat digunakan untuk menyelesaikan masalah tersebut adalah dengan
menggunakan metode statistik. Metode statistika yang digunakan sangat
bergantung pada struktur data atau banyaknya variabel yang akan diamati. Salah
satu metode yang dipakai untuk banyaknya variabel lebih dari satu adalah analisis
regresi.
Analisis regresi adalah suatu metodologi statistika untuk memprediksi
nilai dari satu atau lebih variabel respon (variabel dependen) dari koleksi nilai
variabel prediktor (variabel independen). Analisis ini juga dapat digunakan untuk
memprediksi atau meramal pengaruh dari variabel prediktor (variabel independen)
pada respon. Dalam analisis regresi pun dipelajari bagaimana variabel-variabel
tersebut berhubungan dan dinyatakan dalam sebuah persamaan matematik.
Sayangnya, istilah regresi, diambil dari judul peper pertama dari F. Galton
yang tidak menunjukkan atau menggambarkan pentingnya atau luasnya cakupan
aplikasi dari metodologi ini. Dalam analisis regresi, ada dua jenis variabel yaitu
variabel bebas atau variabel prediktor (dinotasikan dengan X) dan variabel tak
bebas atau variabel respon (dinotasikan dengan Y). Untuk melihat hubungan
antara variabel respon dan sejumlah variabel prediktor secara simultan dapat
digunakan analisis regresi linier dengan variabel respon diukur sekurang-
kurangnya dalam skala interval dam mempunyai distribusi normal.
Pada analisis regresi linier terbagi menjadi dua, yaitu analisis regresi linier
sederhana dan analisis regresi linier berganda. Yang membedakan keduanya
adalah hanya terletak pada variabel bebas atau variabel prediktornya, untuk
analisis regresi linier sederhana variabel bebasnya hanya satu sedangkan untuk
analisis regresi linier berganda banyaknya variabel bebas adalah lebih dari satu.

1
Tetapi bagaimana dengan banyaknya variabel tak bebas atau variabel respon yang
lebih dari satu. Oleh karena itulah, kami mencoba untuk mempelajari lebih jauh
tentang model regresi linier multivariat yang terdapat pada bab 7.
Pada makalah ini, kami akan mencoba mendiskusikan model regresi linier
berganda untuk memprediksi respon tunggal. Model ini kemudian diperumum
untuk membahas prediksi dari beberapa variabel dependen (variabel respon).
Perlakuan penyingkatan kita menyoroti atau membahas asumsi-asumsi regresi dan
konsekuensinya, formula alternatif dari model regresi, dan aplikasi umum dari
teknik regresi pada kasus yang tampaknya berbeda.

1.2 Perumusan Masalah

Berdasarkan pemaparan diatas maka permasalahan yang akan dibahas


dalam penulisan ini adalah bagaimana penjelasan secara terperinci mengenai
model regresi linier multivariat pada bab7 tersebut.

1.3 Batasan Masalah

Dalam penulisan ini kami membatasi masalah sebagai berikut ;


Pemaparan mengenai model regresi linier multivariat hanya akan dibahas sesuai
dengan yang telah kami sampaikan pada persentasi yang telah kami lakukan.

1.4 Tujuan Penulisan

Berdasarkan rumusan masalah diatas, maka tujuan penulisan ini adalah


untuk mengetahui dan mempelajari lebih rinci mengenai model regresi linier
multivariat.

2
BAB II
MODEL REGRESI LINIER MULTIVARIAT

Nama : Adzimattinur Luthfia


Nim : 055372

2.2 MODEL REGRESI LINEAR KLASIK


Model regresi linear dengan respon tunggal mempunyai bentuk
Y = 0 + 1 Z 1 + ... + r Z r +

Dengan Y : variabel respon


Z 1 ,..., Z r : variabel prediktor
0 , 1 ,..., r Z r : parameter yang tidak diketahui
: nilai error (galat)
dengan n observasi independen pada Y dan nilai yang diasosiasi dari Zi maka
model lengkap regresi linier berbentuk

Y1 = 0 + 1 Z11 + 2 Z12 + ... + r Z 1r + 1


Y2 = 0 + 1 Z 21 + 2 Z 22 + ... + r Z 2 r + 2
M (7-1)
Yn = 0 + 1 Z n1 + 2 Z n 2 + ... + r Z nr + n
Dimana errornya diasumsikan memiliki sifat :

1.E ( j ) = 0
2.Var ( j ) = 2 (konstan) (7-2)

3.Cov( j , k ) = 0, j k
persamaan (7-1) dalam bentuk matriks adalah

Y 1 z z12 K z1r 0 1
Y 11

K z 2 r 1 + 2
(7-3)
= 1 z 21 z 22
M M M M O M M M
1 z n1 zn2 L z nr
Y r r
atau
Y = Z +
( n +1) ( n( r +1)) (( r +1)1) ( n1)

3
dengan sifatnya :
1.E ( ) = 0
2.Cov( ) = 2

contoh :
Tentukan bentuk matriks jika model regresi linear sesuai dengan situasi pada
contoh 6.6
jawab :
Kita buat variabel boneka untuk mengatasi 3 rata-rata populasi,
1 = + 1 , 2 = + 2 , dan 3 = + 3 , Kita tentukan

1; Jika observasi berasal dari populasi 1


z1 =
0; Jika observasi berasal dari selain populasi 1
1; Jika observasi berasal dari populasi 2
z2 =
0; Jika observasi berasal dari selain populasi 2
1; Jika observasi berasal dari populasi 3
z3 =
0; Jika observasi berasal dari selain populasi 3
Dan 0 = , 1 = 1 , 2 = 2 , 3 = 3 lalu Y j = 0 + 1 Z j1 + 2 Z j 2 + 3 Z j 3 + j
j = 1, 2, , 8
Ketika kita menyusun nilai-nilai observasi dari 3 populasi dalam barisan, kita
dapatkan vektor respon observasi dan matriks desain

9 1 1 0 0
6 1 1 0 0

9 1 1 0 0

0 1 0 1 0
Y = , Z =
(8 x1) 2 (8 x 4) 1 0 1 0

3 1 0 0 1
1 1 0 0 1

2 1 0 0 1

2.3 PENAKSIR KUADRAT TERKECIL


Misal b adalah nilai taksiran untuk . perhatikan perbedaan
y j b0 b1 z j1 ... br z jr antara y j dan nilai b0 + b1 z j1 + ... + br z jr itu akan
diharapkan jika b adalah vektor parameter sebenarnya. Selisih
y j b0 b1 z j1 ... br z jr

4
tidak akan sama dengan nol karena nilai harapan respon berfluktuasi.
Metoda dari kuadrat terkecil memilih b untuk meminimumkan jumlah
n
kuadrat S(b) = (y
j =1
j b0 b1 z j1 ... br z jr ) 2 = ( y Zb)' ( y Zb)

Koefisien b dipilih berdasarkan kriteria kuadrat terkecil, dan b disebut penaksir


).
kuadrat terkecil dari (b sering dinotasikan

Simpangan j = y j 0 1 z j1 disebut residu.

Hasil 7.1
Misal Z sebanyak r + 1 n . Penaksir kuadrat terkecil dari adalah
= ( Z ' Z ) 1 Z ' y . Misal y = Z = Hy diartikan nilai tertentu dari y, dengan
H = ( Z ' Z ) 1 Z ' disebut matriks Hat . Residunya :
[ ]
= y y = Z ( Z ' Z ) 1 Z ' y = ( H ) y
Memenuhi Z ' = 0 dan y ' = 0. Juga
n
jumlah kuadrat residu kuadrat = ( y j 0 1 Z j1 ... r z jr ) 2 = '
j =1

[ ]
= y ' Z ( Z ' Z ) 1 Z ' y = y ' y y ' Z

Hasil 7.1 menunjukkan bahwa penaksir kuadrat terkecil dan residu dapat
diperoleh dari desain matriks Z dan respon y dengan operasi matriks sederhana.
Contoh :
hitunglah , dan jumlah residu kuadrat untuk model Y j = 0 + 1 z j1 + j

yang cocok dengan data

z1 0 1 2 3 4
y 1 4 3 8 9
Jawab :
1
1 0 4
1 1
1 1 1 1 1 y = 3 5 10
Z = 1 2 Z' = Z'Z =
0 1 2 3 4 8 10 30
1 3 9
1 4

5
0.6 0.2 25
(Z' Z) 1 = Z' y =
0.2 0.1 70
Sehingga

0.6 0.225 1
= 0 = (Z' Z)1 Z' y = 70 = 2


1 0.2 0.1
Dan persamaan yang tepat adalah

y = 1 + 2z
Vektor nilai taksiran adalah 1 0 1
1 1 3
1
y = Z = 1 2 = 5
2
1 3 7
1 4 9
maka 1 1 0
4 3 1

= y y = 3 5 = 2

8 7 1
9 9 0

jumlah kuadrat terkecilnya adalah

0
1

' = [0 1 2 1 0] 2 = 02 +12 + (2)2 +12 + 02 = 6

1
0

JUMLAH DEKOMPOSISI KUADRAT


n
y ' = 0 , jadi jumlah respon total kuadrat y' y =
j=1
y 2
j

memenuhi

y ' y = ( y + y y )' ( y + y y ) = ( y + )( y + ) = y ' y + ' (7-4)


karena kolom pertama dari Z adalah 1, kondisi Z ' = 0 memenuhi persamaan
atau y = y
n n n
0 = 1' = j =
j =1

j =1
yj y
j =1
j

6
jika kedua sisi dari persegi (7-4) dikurangi ny 2 = ny 2 diperoleh dekomposisi
dasar dari jumlah rata-rata kuadrat y ' y ny 2 = y ' y n( y )2 + '
n n n

atau
j =1
( y j y ) 2 = ( y j y ) 2 +
j =1
j =1
2j
jumlah kuadrat diatas menyarankan kualitas dari model yang tepat dapat diukur
dengan menghitung koefisien determinasi yaitu

n n

j =1
2j
j =1
( y j y ) 2
R2 =1 n
= n

j =1
( y j y)2
j =1
( y j y)2

GEOMETRI DARI KUADRAT TERKECIL


berdasarkan model regresi klasik

1 z 11 z1r
1 z
E (Y ) = Z = + z 21 + ... + 2r
0
M 1
M r
M

1 z n1 z nr
E(Y) adalah sebuah kombinasi linear dari kolom Z. Seperti , Z membentuk
model bidang dari semua kombinasi linear. Biasanya vektor observasi y tidak
akan berbaring di dalam model bidang karena nilai error , maka dari itu y
bukanlah suatu kombinasi linear dari kolom Z.
Ketika observasi terjadi, solusi kuadrat terkecil diperoleh dari vektor simpangan
y - Zb = (vektor observasi)-(vektor pada model bidang)
panjang kudrat adalah S(b) kudrat. Seperti yang diilustrasikan pada gambar 7-1
(hal 293), nilai S(b) sekecil mungkin ketika b dipilih maka Zb adalah titik pada
model bidang yang paling dekat ke y. titik terdekat ke y terjadi di ujung dari
proyeksi tegak y pada bidang. Maka dari itu y, untuk pemilihan b = , y = Z
yang merupakan proyeksi dari y pada bidang terdiri dari semua kombinasi linear
dari kolom Z. vektor residu = y y adalah tegak terhadap bidang. Geometri ini
terbentuk walaupun Z bukan rank penuh.

7
Ketika Z memiliki rank penuh, operasi proyeksi ditunjukkan secara analitik
seperti perkalian oleh matrik Z ( Z ' Z ) 1 Z ' . untuk melihatnya, kita gunakan
spektrum dekomposisi (2-16) untuk menulis
Z ' Z = 1e1e1' + 2 e2 e2' + ... + r +1er +1er' +1 dimana 1 2 ... r +1 > 0 adalah nilai

eigen dari ZZ dan e1 , e2 ,..., er +1 adalah vektor eigen yang berkorespondensi.


1 1 1
Jika Z memiliki rank penuh maka ( Z ' Z ) 1 = e1e1' + e2 e2' + ... + er +1er' +1
1 2 r +1
1

Perhatikan q i = i 2 Zei yang merupakan sebuah kombinasi linier dari kolom Z.
1 1

Maka q i' q k = i 2 ki 2 ei' Z ' Zek = 0 jika i k atau 1 jika i = k . Maka dari itu, r+1
vektor secara berbalasan tegak dan memiliki unit panjang. Kombinasi linier
r +1 r +1
dari kolom Z. Dan lagi Z ( Z ' Z ) 1 Z ' = i1 Z ei e1' Z ' = qi q i'
i =1 i =1

Berdasarkan hasil 2A.2 dan definisi 2A.12 proyeksi dari y pada kombinasi linier
r +1
r +1
dari {q1 , q2 ,..., q r +1 } adalah (q y )q'
i i = q i q i' y = Z ( Z ' Z ) 1 Z ' y = Z Jadi
i =1 i =1
perkalian dengan Z ( Z ' Z ) 1 Z ' merencanakan sebuah vektor pada ruang yang
dibentuk oleh kolom Z.

SIFAT SAMPLING DARI PENAKSIR KUADRAT TERKECIL KLASIK


Hasil 7.2
Berdasarkan model regresi linier umum pada (7-3), persamaan kudrat terkecil
= Z ( Z ' Z ) 1 Z ' y mempunyai E ( ) = dan cov( ) = 2 ( Z ' Z ) 1 .
Residu memiliki sifat E ( ) = 0 dan cov( ) = 2 ( I H ) juga

E ( ' ) = (n r 1) 2 ,jadi membatasi

s2 =
'
=
[ =
]
Y I Z ( Z ' Z ) 1 Z ' Y Y ' [I H ]Y
n (r + 1) n r 1 n r 1

Kita punyai E ( s 2 ) = 2 dan lagi dan tidak berkorelasi.

8
Persamaan kuadrat terkecil memiliki varians minimum yang pertama kali
ditetapkan oleh Gauss. Hasil ini mengenai penaksir bagus dari fungsi
parametrik linear dari bentuk c' = c 0 0 + c1 1 + ... + c r r untuk setiap c.

Hasil 7.3 (Teorema Kuadrat Terkecil Gauss)


Misal Y = Z + dengan E ( ) = 0 dan cov( ) = 2 I dan Z memiliki rank penuh

r+1. untuk setiap c, penaksir c' = c 0 0 + c1 1 + ... + c r r dari c' memiliki


varians sekecil mungkin diantara semua penaksir linear dari bentuk
a ' Y = a1Y1 + a 2Y2 + ... + a nYn yang tidak bias untuk c' .

Hasil yang kuat ini menyatakan bahwa subtitusi dari untuk , menuju ke
penaksir terbagus dari c' untuk setiap c.

2.4 KESIMPULAN TENTANG MODEL REGRESI


2.4.1 Kesimpulan mengenai parameter regresi.
Sebelum kita dapat menetapkan arti dari variabel utama dalam fungsi regresi
E (Y ) = 0 + 1 z1 + ... + r z r kita harus menentukan distribusi samping dari dan

jumlah residu kuadrat ' . Untuk itu kita asumsikan memiliki distribusi
normal.
Hasil 7.4
Misal Y = Z + dimana Z memiliki rank penuh r+1 dan berdistribusi normal

N n (0, 2 I ) . Penaksir maximum Likelihood dari adalah sama dengan penaksir

kuadrat terkecil . Dan lagi, = ( Z ' Z ) 1 Z ' Y berdistribusi N r +1 ( , 2 ( Z ' Z ) 1 )

dan didistribusikan secara independen dari residu = Y Z . Selanjutnya

n 2 = ' berdistribusi 2 n r 1 dengan 2 adalah penaksir maximum

Likelihood dari 2
Ellipsoid kepercayaan untuk sangat mudah disusun. Hal ini dapat dinyatakan

dalam batas dari matriks penaksir covarian s 2 ( Z ' Z ) 1 dengan s 2 = ' /(n r 1)

9
Hasil 7.5
Misal Y = Z + dimana Z memiliki rank penuh r+1 dan berdistribusi normal

N n (0, 2 I ) . Daerah kepercayaan 100(1 ) % untuk adalah

( )' Z ' Z ( ) (r + 1) s 2 Fr +1, n r 1 ( ) juga, interval kepercayaan

100(1 ) % untuk i adalah i Var ( i ) (r + 1) Fr +1,n r 1 ( ) , i= 0, 1,, r

Dengan Var ( i ) adalah elemen diagonal dari s 2 ( Z ' Z ) 1 yang berkorespondensi

ke i .

Ellipsoid kepercayaan adalah pusat pada penaksir maximum Likelihood dan


orientasinya dan ukuran ditentukan oleh nilai eigen dan vektor eigen dari Z ' Z .
Jika nilai eigen mendekati nol, ellips kepercayaan akan sangat panjang dalam arah
dari vektor eigen yang berkorespondensi.
Para praktisi sering mengabaikan sifat kepercayaan dari taksiran interval pada
hasil 7-5. mereka mengganti (r + 1) Fr +1,n r 1 dengan nilai t, t n r 1 ( / 2) dan

menggunakan interval i t n r 1 ( 2) Var ( i ) ketika mencari variabel prediktor

utama.
Contoh:
Berdasarkan data pada tabel 7.1, model yang tepat adalah
Y j = 0 + 1 z j1 + 2 z j 2 + j

Pada data ini digunakan metoda kudrat terkecil. Hasil perhitungan komputer
adalah
1.9961 11870.2

dan = ( Z ' Z ) Z ' y = 2634.4
1
(Z ' Z ) = 0.0896 0.0512 1

0.0115 0.0172 0.0067 45.2

Jadi persamaan yang tepat adalah Y j = 11870.2 + 2634.4 z1 + 45.2 z 2 dengan

s = 3473.

10
Jika residu melewati pemeriksaan diagnosa yang dijelaskan pada seksi 7.6,
persamaan yang tepat dapat digunakan untuk memprediksi harga jual dari rumah-
rumah di sekitar berdasarkan ukuran dan nilai yang ditetapkan.
Kita misalkan 95% interval konfidensi untuk 2 adalah

2 t17 (0.025) Var ( 2 ) = 45.2 2.110(285) atau (-556647)


Karena interval konfidensi memuat 2 = 0 variabel z 2 dapat dihilangkan dari
model regresi dan analisis diulang dengan variabel prediktor tunggal z1 .
Dibanding ukuran tempat tinggal, kiranya nilai yang ditetapkan menambah sedikit
pengaruh terhadap prediksi dari harga jual.

Nama : Realita Raymunda


Nim : 055800

2.4.2 Test rasio likelihood untuk parameter Regresi


Salah satu bagian dari analisis regresi terkait dengan menaksir pengaruh
variabel prediktor pada variabel respon. Hiptesis nol menyatakan bahwa ada
bagian dari Zi yang tidak berpengaruh pada respon Y.variabel prediktor ini akan

ditulis dengan zq +1 , zq + 2 ,..., zr . pernyataan yang menyebutkan zq +1 , zq + 2 ,..., zr tidak

mempengaruhi respon Y ditulis dalam hiptesis statistika:


H 0 = q +1 = q + 2 = ... = r = 0


(1)
Aturlah Z = Z M Z , = (( q +1)1)
1 2
( n( q +1)) ( n( r q ))
(( r (2)
q )1)

Maka model regresi umum dapat ditulis sebagai:



(1)
Y = Z + = [ Z1 M Z 2 ] + = Z1 (1) + Z 2 (2) +
(2)

Test rasio likelihood Ho berdasarkan pada:

11
Jumlah kuadrat ekstra
SS Re s ( Z1 ) SS Re s ( Z ) = ( y Z1(1) ) '( y Z1(1) ) ( y Z1 ) '( y Z1(1) )

Result 7.6
Misalkan Z full rank r+1 dan berdistibusi N (0, 2 I ) . Test rasio likelihood
H 0 = q +1 = q + 2 = ... = r = 0 ekuivalent dengan dengan test Ho yang didasarkan

pada jumlah kuadrat pada persamaan


SS Re s ( Z1 ) SS Re s ( Z ) = ( y Z1(1) ) '( y Z1(1) ) ( y Z1 ) '( y Z1(1) ) dan

s 2 = ( y Z1 ) '( y Z1(1) ) /(n r 1) .

Test rasio likelihood menolak Ho jika:


( SS Re s ( Z1 ) SS Re s ( Z )) /( r q )
> Fr q ,n r 1 ( )
s2
Dimana:
s 2 = ( y Z ) '( y Z ) /(n r 1)

Fr q ,n r 1 ( ) dimana r-q dan n-r-1 adalah derajat bebasnya.

Contoh 7.5
Laki-laki dan perempuan yang berlangganan menilai rata-rata pelayanan di tiga
tempat pada sebuah daerah restoran yang luas. Rata-rata pelayanan dikonversikan
pada sebuah nilai indeks. Data disediakan pada tabel 7.2 dibawah. Data
mempunyai n = 18 pelanggan. Tiap data pada tabel dikategorikan sesuai dengan
lokasi (1, 2, 3) dan jenis kelamin (laki-laki = 0, perempuan = 1). Tambahannya
kombinasi antara lokasi satu dengan laki-laki ada lima respon, kombinasi lokasi
dua dengan perempuan ada 2 respon. Kemudian diperkenalkan tiga variabel
dummy untuk lokasi dan dua variabel dummy untuk jenis kelamin. Model regresi
yang menghubungkan antara indeks pelayanan dengan lokasi, jenis kelamin dan
kombinasinya dapat dibuat dalam suatu matriks:

12
1 1 0 0 1 0 1 0 0 0 0 0
1 1 0 0 1 0 1 0 0 0 0 0

1 1 0 0 1 0 1 0 0 0 0 0

1 1 0 0 1 0 1 0 0 0 0 0
1 1 0 0 1 0 1 0 0 0 0 0

1 1 0 0 0 1 0 1 0 0 0 0
1 1 0 0 0 1 0 1 0 0 0 0

1 0 1 0 1 0 0 0 1 0 0 0
1 0 1 0 1 0 0 0 1 0 0 0

1 0 1 0 1 0 0 0 1 0 0 0

1 0 1 0 1 0 0 0 1 0 0 0
1 0 1 0 1 0 0 0 1 0 0 0

1 0 1 0 0 1 0 0 0 1 0 0
1 0 1 0 0 1 0 0 0 1 0 0

1 0 0 1 1 0 0 0 0 0 1 0
1 0 0 1 1 0 0 0 0 0 1 0

1 0 0 1 0 1 0 0 0 0 0 1

1 0 0 1 0 1 0 0 0 0 0 1

Koefisien vektor = [ 0 , 1 , 2 , 3 , 1 , 2 , 11 , 12 , 21 , 22 , 31 , 31 ]
Desain matriks diatas tidak full rank, oleh program komputer diperoleh:
SS res ( Z ) = 2977.4
Rank (Z) = 6, n-Rank (Z) = 12
Model pertama dengan hanya menggunakan 6 kolom pertama dari Z, yaitu tanpa
mempertimbangkan interkasi antara jenis kelamin dan lokasi kita peroleh Z1 dan
SS res ( Z1 ) = 3419.1
Dengan n-rank (Z1) = 18-4 = 14
Hipotesisnya:
H 0 : 11 = 12 = ... = 31 = 32 = 0
Kemudian kita menghitung nilai F
( SS res ( Z1 ) SS res ( Z )) /(6 4)
F=
s2

13
( SS res ( Z1 ) SS res ( Z )) / 2
F=
SS res ( Z ) /12

(3419,1 2977, 4) / 2
F= = 0,89
2977, 4 /12
Kesimpulannya, rata-rata pelayanan tidak dipengaruhi oleh interaksi dari lokasi
dengan jenis kelamin.

2.5 Interferensi dari Fungsi Regresi yang diestimasi


Misalkan sebuah model regresi memenuhi model kecocokan regresi, maka

dapat digunakan untuk memecahkan dua masalah prediksi. Misalkan z0 =

[1, z01 ,..., z0 r ] z0 dan


'
merupakan nilai yang dipilih untuk variabel predictor. Maka

dapat digunakan untuk :

1. Mengestimasi fungsi regresi pada z0

Misalkan Y0 menyatakan nilai respon ketika variabel predictor memiliki nilai z0 =


[1, z01 ,..., z0 r ] . Menurut model 7.3,
'
makan nilai ekspektasi dari Y0 adalah :

E (Y0 Z0 ) = 0 + 1 z01 + ... + r z0 r = z '0 (7-18)

Estimasi nilai terkecilnya adalah z0' ( Z ' Z ) 1 z0 2 .


Result 7.7

Untuk model regresi linier pada model 7.3, z '0 merupakan estimator

linier yang tidak bias dari E (Y0 Z ..) dengan nilai variansi minimum, Var ( z '0 )

= z0' ( Z ' Z ) 1 z0 2 . Jika error berdisribusi normal, maka taraf kepercayaan

100(1 )% untuk E (Y0 Z 0 ) = z '0 adalah:


z '0 tn r 1 ( z0' ( Z ' Z ) 1 z0 ) s 2
2
Dengan tn r 1 ( / 2) sebagai batas atas percentil ke 100( / 2) dari distribusi t dan

derajat bebas n r 1 .

14
2. Meramalkan sebuah obsevasi baru pada zo

Prediksi pada sebuah observasi, misalnya Yo , pada zo = [1, z01 ,..., z0 r ] lebih tidak

pasti daripada mengestimasi nilai harapan dari Yo . Sesuai model regresi pada (7.3)

Yo = z0' + 0

Atau
(Respon baru Yo ) = (nilai harapan baru Yo pada zo ) + (error baru)

Dimana 0 berdistribusi N (0, 2 ) . Nilai mempengaruhi nilai penaksir dan

s 2 melalui nilai variabel respon Y, tetapi tidak mempengaruhi nilai 0

Result 7.8
Misalnya diberikan model regresi linier (7.3), sebuah nilai observasi baru Yo
mempunyai prediktor tidak bias
z0' = 0 + 1 z01 + ... + r z0 r

Variansi dari galat ramalan, Y0 z0' adalah

Var( Y0 z0' ) = 2 (1 + z0' ( Z ' Z ) 1 z0 )

Ketika error berdistribusi normal, maka sebuah interval prediksi 100(1 )%


untuk Yo diberikan sebagai berikut :


z0' tn r 1 s 2 (1 + z0' ( Z ' Z ) 1 z0 )
2
Dengan tn r 1 ( / 2) sebagai batas atas percentil ke 100( / 2) dari distribusi t dan

derajat bebas n r 1 .
Interval prediksi untuk Yo lebih luas dari interval kepercayaan untuk

mengestimasi nilai dari fungsi regresi E (Y0 Z 0 ) = z '0 . Pertambahan

ketidakpastian pada peramalan Yo yang direpresentasikan oleh tambahan

keberadaan s 2 pada pernyataan s 2 (1 + z0' ( Z ' Z ) 1 z0 ) , datang dari keberadaan

istilah error yang tidak dikenal atau diketahui 0

15
Contoh kasus

Sebuah perusahaan menyadari bahwa pembelian perangkat komputer haruslah


terlebih dahulu menaksir kebutuhan masa depan mereka untuk menentukan
perangkat tang tepat. Seorang ilmuwan komputer mengumpulakan data dari tujuh
perusahaan di tempat yang sama sehingga persamaan peramalan dari permintaan
perangkat keras komputer untuk inventaris manajemen dapat ditambah. Datanya
disajikan dalam tabel 7.3

Dengan: z1 = Pesanan pelanggan (dalam ribuan)

z2 = Jumlah tem add-delete (dalam ratusan)

Y = Waktu CPU (dalam jam)

Buatlah sebuah interval kepercayaan 95% untuk rata-rata waktu CPU, E (Y0 Z0 ) =

0 + 1 z01 + 2 z02 pada z0 = [1,130, 7.5]' . Buat juga interval prediksi 95% untuk
permintaan baru fasilitas CPU yang berkorespondensi pada z0 yang sama.

Tabel 7.3. Data Komputer

z1 = Pesanan z2 = Jumlah tem add- Y =

pelanggan delete Waktu CPU

123.5 2.108 141.5


146.1 9.213 168.9
133.9 1.905 154.8
128.5 0.815 146.5
151.5 1.061 172.8
136.2 8.603 160.1
92.0 1.125 108.5

Dengan software, diperoleh fungsi persamaan regresi diestimasi:

y = 8.42 + 1.08 z1 + 0.42 z2

16
8.17969
1
( Z ' Z ) = 0.06411 0.00052

0.08831 0.00107 0.01440

Dengan s = 1.204.

z0' = 8.42 + 1.08(130) + 0.42(7.5) = 151.97

s 2 ( z0' ( Z ' Z ) 1 z0 ) = 1.204(0.58928) = 0.71

t4 (0.025) = 2.776

Jadi, interval kepercayaan untuk rata-rata waktu CPU pada zo adalah

z0' t4 (0.025) s z0' ( Z ' Z ) 1 z0 = 151.97 2.776(0.71) = (150.00, 153.94)

Interval prediksi 95% waktu CPU pada fasilitas baru dengan syarat zo :

s 1 + z0' ( Z ' Z ) 1 z0 = (1.204)(1.16071) = 1.40

Maka: z0' t4 (0.025) s 1 + z0' ( Z ' Z )1 z0 = 151.97 2.776(0.40) = (1.48.08,

155.86)

2.6 Pengecekan Model dan Beberapa Hal Dalam Regresi


Apakah suatu model sudah cocok?
Asumsikan suatu model sudah benar, kita perlu mengestimasi terlebih
dahulu fungsi regresi untuk membuat suatu keputusan. Tentulah sangat penting
untuk memeriksa kecukupan model sebelum fungsi yang diestimasi menjadi
keputusan yang tetap.
Semua informasi kekurangcocokan sampel terkandung pada Residual.

1 = y1 0 1 z11 ... r z1r


2 = y2 0 1 z21 ... r z2 r
.
.
.
n = yn 0 1 zn1 ... r znr
= [ I Z ( Z ' Z )1 Z '] y = [ I H ] y

17
Jika modelnya cocok, tiap residual j adalah estimator dari j yang diasumsikan

merupakan variabel random normal dengan rata-rata nol dan variansi 2 . Banyak
statistikawan menggunakan diagnosa grafik untuk memeriksa residual yang
didasarkan pada residual student. Persamaannya sebagai berikut:
j
j = , j = 1, 2,..., n
s 2 (1 h jj )

Kita mengharapkan residual student ini merupakan gambaran yang mendekati


distribusi normal dengan rata-rata 0 dan variansi 1. Dengan menggunakan
software statistika makan akan diperoleh beberapa grafik gambaran residual
sebagai berikut (hal.309)
1. Plot residual, j ,dengan nilai prediksi, y j = 0 + 1 z j1 + ... + r z jr

Kemungkinanannya akan tampak seperti pada gambar 7.2 a dan 7.2 b. ini
menunjukkan model regresi kita ada yang kurang tepat. Bisa disebabkan
oleh kesalahan penghitungan atau variabel intersepnya dikeluarkan dari
model. Hal lain adalah kemungkinan variansi error yang tidak konstan
yang menyebabkan residualnya membentuk seperti corong. Adanya
fluktuasi yang besar pada nilai-nilai error. Untuk memperbaiki atau
mengkoreksi makan dilakukan transormasi dan atau pendekatan bobot
kuadrat terkecil. Tetapi kedua hal ini tidak dijelaskan lebih lanjut pada
bahasan ini.
Gambaran grafik yang ideal ditunjukkan pada gambar 7.2 d
2. Plot residual, j ,dengan sebuah variabel prediksi, z1 , produk dari

variabel prediktor misalnya z1 z2 atau z12 . Jika hasil dari anlisis ini
menghasilkan grafik seperti gambar 7.2 c maka model regresi yamg kita
peroleh masih belum baik. Situasi ini menyarankan kita untuk menambah
variabel prediktor lain pada model kita.
3. Q-Q plot dan histogram. Untuk membaca hasil yamg diperoleh pada
anlisis ini kita bisa membaca anlisis yang ada pada bab 4.6

18
4. Plot residual dengan waktu. Jika data yang kita peroleh sudah terurut
secara kronologis, plot residual dengan waktu maka akan mungkin muncul
formula yang sistematis. (dalam hal ini mungkin akan muncul asosiasi
antara error). Tambahannya, residual yang bertambah seiring dengan
waktu mengindikasikan keterikatan yang kuat

Beberapa permasalahan tambahan pada Regresi linier


1. Pemilihan variabel prediktor dari sebuah himpunan yang sangat besar
Pada praktek sehari-hari, terkadang sangat sulit untuk membuat formula
yang tepat untuk fungsi regresi liner secara langsung. Pertanyaannya
adalah variabel predictor mana yang harus dimasukkan pada model?
Bentuk regresi seperti apa yang harus dibentuk?
Ketika kita memiliki sebuah himpunan variabel prediktor yang sangat
besar (banyak), semua variabel ini tidak bisa dimasukkan dalam fungsi
regresi. Program komputer menyediakan cara untuk memilih himpunan
bagian variabel prediktor yang terbaik dari himpunan yang tersedia. Pada
program komputer akan menyediakan gambar plot ( C p , p) dimana

Cp =

-(n-2p)
Model yang terbaik dapat dilihat dari koordinat ( C p , p) sekitar 450

2. Kolinier
Jika Z tidak full rank, beberapa kombinasi linier misalnya Za, harus nol.
Pada situasi ini, kolom-kolom dikatakan kolinier. Hal ini mengakibatkan
ZZ tidak memiliki invers. Pada kebanyakan model regresi keadaan Za
tidak mungkin tepat sama dengan nol. Jadi akan muncul kombinasi linier
kolom pada Z dengan nilai dipersekitaran nol. Hal ini akan menyebabkan
kesulitan bagi kita untuk mendeteksi kesignifikanan koefisien parameter
pada model regresi. Hal ini dapat diatasi dengan:
1. Menghapus pasangan prediktor yang berkorelasi kuat

19
2. Menghubungkan variabel respon dengan komponen utama variabel
prediktor.
3. Bias yang disebabkan oleh model yang kurang tepat.
Misalkan beberapa variabel predictor yang penting dikeluarkan dari model
regresi yang dianjurkan. Misalkan model yang tepat dengan Z = [ Z1 M Z 2 ]

dengan rank r + 1 dan


(( q +(1)
Y = Z M Z 1)1)
+
( n( q +1)) ( n( r q )) (2) ( n1)
( n1)
1 2
(( r q )1)

Y = Z1 (1) + Z 2 (2) +
E ( ) = 0
Dimana:
Var ( ) = 2 I
Bagaimanapun, penyelidik tanpa mengetahui telah memenuhi sebuah
model hanya dengan menggunakan q variabel prediktor. Penaksir kuadrat

terkecil dari 1 adalah 1 . 1 = ( Z1' Z1 )1 Z1'Y . Kemudian, tidak sama


dengan situasi ketika modelnya benar,
E ( (1) ) = ( Z1' Z1 )1 Z1' E (Y ) = ( Z1' Z1 )1 Z1' ( Z1 (1) + Z 2 (2) + E ( ))

Jadi, 1 adalah penaksir bias dari 1 . Hal ini menyebabkan taksiran

kuadrat terkecil dari 1 menjadi menyesatkan.

Nama : Adila Sandy Wulandari


Nim : 055518

2.7 Regresi Linier berganda multivariat


Regresi berganda multivariat merupakan hubungan antara m respon,
Y1 , Y2 ,..., Ym dan variabel prediktornya Z1 , Z 2 ,..., Z r , masing-masing respon
diasumsikan memenuhi model regresi :

20
Y1 = 01 + 11 z1 + ... + r 1 z r + 1
Y2 = 02 + 12 z1 + ... + r 2 z r + 2
M
Ym = 0 m + 1 m z1 + ... + rm z r + m

Persamaan error = [1,2,...,m ] ' dengan E( ) = 0 dan Var() =.

Untuk percobaan ke j, variabel predictornya adalah zj0, zj1,..., zjr , himpunan

persamaannya adalah Yj1,Yj2,...,Yjm' , dan himpunan errornya adalah

j = j1, j 2 ,..., jm ' . Dengan model matriknya :

z10 z11 ... z1r


z z ... z2r
Z = 20 21
( nx( r +1)) M M O M

zn0 zn1 ... znr
Dengan persamaan matriks

Y11 Y12 ... Y1m


Y Y ... Y2m
Y = 21 22 = Y M Y(2) M ... M Y(m)
(nxm) M M O M (1)

Yn1 Yn2 ... Ynm

01 02 ... 0m
... 1m
= 11 12 = M (2) M ... M (m)
((r+1) xm) M M O M (1)

r1 r2 ... rm

21
11 12 ... 1m
... 2m
= 21 22 = M (2) M ... M (m)
dan (nxm) M M O M (1)

n1 n2 ... nm

'1
L

'2

= L
M

L
'
n

Model regresi linier multivariatnya adalah

Y ( nxm ) = Z ( nx ( r + 1 )) (( r + 1 ) xm ) + ( nxm )
dengan

E ( (i ) ) = 0 ; Cov((i) , (k ) ) = ik I i, k = 1, 2,..., m
Ket :
m = jumlah observasi ke j
= parameter yang tidak diketahui
Untuk i respon, maka modelnya mengikuti :

Y (i) = Z (i) + (i) i = 1, 2, , m


^ ^
Seperti pada 1 respon menjadi ( i ) = ( Z ' Z ) 1 Z ' Y( i )
Sehingga diperoleh :
^ ^
Nilai prediksinya : Y = Z = Z(Z ' Z)1 Z 'Y
^ ^
Residualnya : = Y Y = [I Z(Z ' Z)1 Z ']Y

22
jumlah kuadrat residualnya dan cross-productnya : ' = Y 'Y ' Z ' Z

contoh 7.8

Yj1 = 01 + 11Z j1 + j1
^ ^ ^
Hitung nilai , Y , dan dengan :

Yj 2 = 02 + 12 Z j1 + j 2 j= 1,2,,5

Digunakan data dua respon Y1 dan Y2 pada contoh 7.3 dengan datanya sebagai
berikut :
z1 0 1 2 3 4
y1 1 4 3 8 9
y2 -1 -1 2 3 2

Penyelesaian :

1 1 1 0
4 1 1 1

1 1 1 1 1 6 2
Y = 3 2 Z = 1 2 Z'= (Z ' Z )1 =
0 1 2 3 4 2 1
8 3 1 3
9 2 1 4

1
1
1 1 1 1 1 5
dan Z ' y(2) = 2 =
0 1 2 3 4 20
3
2

Sehingga

6 2 5 1
(2) = (Z ' Z )1 Z ' y(2) = =
2 1 20 1
Pada contoh 7.3

1
(1) = (Z ' Z )1 Z ' y(1) =
2

23
1 1
Sehingga diperoleh = (1) M (2) = = (Z ' Z )1 Z ' y(1) M y(2)
2 1
Setelah melakukan perhitungan diatas diperoleh persamaan y1 =1+ 2z1 dan
y2 = 1+ z1
Matriks nilai taksiran adalah

1 0 1 1
1 1 3 0
1 1
Y = Z = 1 2 = 5 1
2 1
1 3 7 2
1 4 9 3
dan

0 1 2 1 0
= Y Y =
0 1 1 1 1
Sehingga

1 1
3 0
0 1 2 1 0 0 0
'Y = 5 1 =
0 1 1 1 1 0 0
7 2
9 3

Karena

1 1
4 1
1 4 3 8 9 171 43
Y 'Y = 3 2 = 43 19

1 1 2 3 2
8 3
9 2

165 45 6 2
Y 'Y = dan ' =
45 15 2 4

Jadi sum of square dan cross-productsnya memenuhi : Y 'Y =Y 'Y +'

24
Latihan 7.9 halaman 351
Diberikan data dengan satu variabel predictor z1 dan dua respon Y1 dan Y2

z1 -2 -1 0 1 2
y1 5 3 4 2 1
y2 -3 -1 -1 2 3

Dengan Yj1 = 01 + 11Z j1 + j1

Yj 2 = 02 + 12Z j1 + j 2 j= 1, 2, 3, 4, 5

Hitung matriks untuk Y ,dan residual , dengan Y = [ y1 M y2 ]

Penyelesaian :

5 3 1 2
3 1 1
1 1
1 1 1 1 1 6 0
Y = 4 1 Z = 1 0 Z' = 1
(Z ' Z) =

2 1 0 1 2 0 1
2 2 1 1
8
1 3 1 2

5
3
1 1 1 1 1 15
Z ' y(1) = 4 =
2 1 0 1 2 5
2
1
dan

3
1
1 1 1 1 1 0
Z ' y(2) = 1 = 15
2 1 0 1 2
2
3
Sehingga

25
1 15
0 15
(1) = (Z ' Z )1 Z ' y(1) = 6 = 6
0 1 5 5
8 8

1
6 0 0 0
(2) = (Z ' Z) Z ' y(2) = = 15
1

0 1 15
8 8

15
6 0
Sehingga diperoleh = (1) M (2) = 1
= (Z ' Z ) Z ' y(1) M y(2)
5 15
8 8
15 5
Setelah melakukan perhitungan diatas diperoleh persamaan y1 = + z1 dan
6 8
15
y 2 = 0 + z1
8
Matriks nilai taksiran adalah

15 15
12 4

1 2 45 15
1 1 15 24 8

6 0
15
Y = Z = 1 0 = 0
5 15 6
1 1
8 8 75 15

1 2
24 8
45 15

12 4
dan

45 27 3 27 33
'


= Y Y = 12 24 2 24 12
3 7 1 1 3
4 8 8 4

26
Sehingga

15 15
12 4

45 15
45 27 3 27 33 24 8 945 2745
12 24 2 24 12 15
288 96
'Y =
0 =
3 7 1 1 3 6 765 225
4 8 8 4 75 15 96 32

24 8
45 15

12 4
maka

5 3
3 1
5 3 4 2 1 55 15
Y 'Y = 4 1 = 15 24

3 1 1 2 3
2 2
1 3

Perkiraan Kuadrat Terkecil

Untuk perkiraan kuadrat terkecil determinan = [(1) M(2) M...M(m) ] menurut

model regresi berganda multivariate dengan full rank (Z) = r + 1 < n, adalah

E((i) ) = (i) atau E() =

Dan Cov ( ( i ) , ( k ) ) = ik ( Z ' Z ) 1 i, k = 1, 2, , r + 1

Residual = [ (1) M ( 2 ) M...M ( m ) ] = Y Z memenuhi

E((i) ) = 0 dan E('(i) (k ) ) = (n r 1)ik jadi

'
E () = 0 dan E( )=
(n r 1)

Maka, dan tidak berkorelasi.

27
Perkiraan Maximum Likelihood
Misal model regresi berganda multivariate

Y ( nxm ) = Z ( nx ( r + 1 )) (( r + 1 ) xm ) + ( nxm )
dengan full rank (Z) = r + 1, n > ( r + 1) + m dan missal error berdistribusi
^
normal. Maka = ( Z ' Z ) 1 Z ' Y adalah perkiraan maksimum likelihood dari

dan yang berdistribusi normal dengan

E( ) = dan Cov ( ( i ) , ( k ) ) = ik ( Z ' Z ) . independent dari


1

perkiraan maksimum likelihood dan definit positif diberikan oleh

^
' (Y Z )' (Y Z )
=
n
=
n
^
dan n adalah distribusi Wnr 1 (. | ).

Tes rasio likelihood untuk parameter regresi


Tes ini merupakan rasio likelihood untuk banyak respon, dengan hipotesis bahwa

respon tidak bergantung pada Zq+1, Zq+2 ,...,Zr , sehingga


(1)

((q + 1) xm)
H 0 : (2) = 0 dimana =
( 2)

((r q) xm)

Z1 Z2
dengan Z = M
(nx(q +1)) (nx(r q)) , secara umum model dapat ditulis :

(1)
E(Y ) = Z = [Z1 M Z2 ] = Z1(1) + Z2 (2)

(2)

28
dengan H 0 : ( 2) = 0 , Y = Z 1 (1 ) + dan tes rasio likelihood dari

H 0 berdasarkan pada jumlah yang terkait dalam jumlah kuadrat ekstra dan coss-

products = (Y Z1(1) )'(Y Z1(1) ) (Y Z)'(Y Z)


^ ^
= n( )
(1)

^ (Y Z1(1) )'(Y Z1(1) )


(1) = (Z '1 Z1 ) Z '1 Y dan =
^
1
Dimana
1
n
Dari rasio likelihood ( ) dapat memperlihatkan hubungan umum varian, jadi :

max L ( (1 ) , ) n/2
(1 ) .
L ( (1) , 1 ) | |
= = =
max L ( , ) L ( , ) | |
1
.

Equivalent dengan statistic WilksLambda :

||
2/ n
=
|
| 1

dapat dipergunakan.

Hasil 7.11
Misal model regresi berganda multivariate

Y( nxm ) = Z ( nx ( r +1)) (( r +1) xm ) + ( nxm )


dengan full rank (Z) = r + 1, n > ( r + 1) + m dan misal error berdistribusi

H0 : (2) = 0 , n Wnr 1 (. | ) secara


^
normal. Dengan adalah distribusi

bebas adalah

n(1
) dimana distribusinya Wrq (.| ) . Tes rasio likelihood
dari H 0 equivalent dengan tolak H 0 untuk besar nilai dari :

29
| | | n |
2 Ln = nLn = nLn
|
| + n(
| n )|
1 1

untuk besar nilainya n buah maka statistiknya :

1 | |
n r 1 (m r + q + 1) Ln
2 | 1 |

Menggunakan pendekatan chi kuadrat dengan derajat bebasnya m(r-q).

contoh 7.9
contoh ini merupakan lanjutan yang diberikan pada contoh sebelumnya yaitu pada
contoh 7.5. Dengan menggunakan program computer, sehingga diperoleh :

residual sum of squares



dan cross pruducts

= n = 2977,39 1021,72

1021,72 2050,95

extrar sum of squares



dan cross pruducts

= n( ) = 441,76 246,16

1 246,16 366,12

Misal (2) adalah matriks untuk interaksi parameter dua respon. Diketahui pada

contoh sebelumnya bahwa nilai n= 18 yang dapat dikategorikan tidak terlalu


besar, sehingga diperoleh hipotesis :

H0 : (2) = 0

H1 : (2) 0
Dengan nilai alfa sebesar 0,05, dapat diuji :

1 |
| n
nr1 1 (mr1 +q1 +1)ln
2
| n+n(1 )|

30
1
= 18 5 1 (2 5 + 3 + 1) ln(7605)
2
= 3,28
Dengan menggunakan pendekatan chi-kuadrat, diperoleh nilai pada tabel chi-
kuadrat dengan derajat bebas sebesar m (r1-q1) = 2 (2) = 4 adalah 9,49.
Sehingga nilai hitung akan lebih kecil daripada nilai pada tabel yaitu

3,28 < 42 .(0,05) = 9,49 .


Untuk kriteria hitungnya maka H 0 ditolak pada nilai alfa sebesar 5%. Sehingga

nilai (2) 0 , artinya nilai koefisien untuk (2) berarti dan hubungan interaksi

tidak dibutuhkan.

Nama : Siti Yunengsih


Nim : 055951

2.8 Konsep Dari Regresi Linier


Model regresi linier klasik menghubungkan antara suatu variabel terikat Y
dan kumpulan variabel prediktor z1, z2, zr. Model regresi menganggap bahwa
variabel acak Y bergantung pada variabel tetap z. Rata-rata nya diasumsikan
sebagai fungsi linier dengan koefisien regresi o , 1 , ... , r .

Anggaplah bahwa Y , Z1 , Z 2 , ..., Z r adalah variabel acak yang mempunyai

distribusi sama tidak harus normal, dengan vektor rata-rata dan matrix
( r +1) 1

covariant partisi dan kita tulis sebagai berikut


( r +1) ( r +1)

Y YY ZY '

= (1 1) dan = (11) (1 r ) dengan ZY = YZ1 , YZ2 , ..., YZr
'


( r Z1) ( r ZY1) ( rZZr )

Dalam memprediksi variabel terikat Y digunakan


prediktor linier = b0 + b1 Z1 + + brZr = b0 + bZ
dengan prediksi errornya yaitu

31
prediction error = Y - b0 - b1 Z1 - - brZr =Y - b0 - bZ
karena error ini bersipat acak, biasanya untuk memilih b0 dan b dengan
meminimumkan
Mean square error = E(Y - b0 - bZ)2
Mean square error ini bergantung pada distribusi bersama dari Y dan Z melalui
parameter dan
Akibat 7.12
Prediktor linier 0 + ' Z dengan koefisien

= ZZ1 ZY , 0 = Y ' Z
Memilki rata-rata kuadrat minimum diantara semua prediktor linier respon Y dan
memiliki mean square error yaitu
E (Y 0 ' Z )2 = E (Y Y ZY
'
ZZ1 ( Z Z )) 2 = YY ZY
'
ZZ1 ZY

Juga 0 + ' Z = Y + ZY
'
ZZ1 ( Z Z ) adalah prediktor linier yang memiliki
korelasi maksimum dengan Y
Corr (Y , 0 + ' Z ) = max Corr (Y , b0 + b ' Z )
' ZZ ZY
'
ZZ1 ZY
= =
YY YY

Korelasi antara variabel terikat Y dengan prediktor linier terbaiknya


disebut koeffisien korelasi multiple populasi yang dinotasikan sebagai

ZY
'
ZZ1 ZY
Y ( Z ) = +
YY

kuadrat dari koeffisien ini Y2( Z ) disebut koeffisien determinasi populasi, nilai dari

koeffisien korelasi adalah akar kuadrat positif nya yaitu 0 Y ( Z ) 1 .

Koeffisien determinasi memiliki interpretasi penting. Dari akibat 7.12


mean square error menggunakan 0 + ' Z untuk meramalkan Y adalah

ZY
'
ZZ1 ZY
YY ZY
'
ZZ1 ZY = YY YY = YY (1 Y ( Z ) )
2

YY

32
Jika Y2 ( Z ) = 0 tidak ada kekuatan prediksi dalam Z, perbedaan yang sangat besar

jika Y2( Z ) = 1 mengakibatkan Y dapat diprediksi dengan tepat .

Contoh 7.11
Diberikan vektor rata-rata dan matrik kovarian dari Y , Z1 , Z 2

5 10 1 1
Y '
= = 2 dan = yy ZY = 1 7 3
Z 0 ZY ZY
1 3 2
Tentukan a). prediktor Linier terbaik 0 + 1Z1 + 2 Z 2
b). mean square error
c). koeffisien korelasi multiple
penyelesaian
1
7 3 1 0, 4 0, 6 1 1
= ZY
1
= = =
3 2 1 0, 6 1, 4 1 2
ZZ

2
0 = Y ' Z = 5 [1 2] = 3
0
a). Jadi prediktor linier terbaiknya adalah 0 + 1Z1 + 2 Z 2 = 3 + Z1 2 Z 2
b). mean square errornya
0, 4 0, 6 1
YY ZY
'
ZZ1 ZY = 10 [1 1] = 10 3 = 7
0, 6 1, 4 1

ZY
'
ZZ1 ZY 3
c). koeffisien korelasi multiplenya Y ( Z ) = + = = 0,548
YY 10

Pembatasan prediktor linier dekat dihubungkan dengan assumsi


normalitas, khususnya
Y
Z
1
misalkan kita punya Z 2 berdistribusi N r 1 ( , )

M
Z r

33
maka distribusi bersyarat dari Y dengan memperhatikan nilai z1, z2, ,zr adalah
N ( Y + ZY
'
ZZ1 ( z Z ), YY ZY
' 1
ZZ ZY )
rata-rata dari distribusi bersyarat ini adalah prediktor linier dalam akibat 7.12
E (Y z1 , z2 , ... , zr ) = Y + ZY
'
ZZ1 ( z z )
adalah
= 0 + ' z

dan kita menyimpulkan E (Y z1 , z2 , ... , zr ) adalah prediktor linier tebaik dari Y

ketika populasinya adalah N r +1 ( , ) . Ekspektasi bersyarat ini disebut fungsi

regresi linier.
Ketika populasi tidak normal, fungsi regresi E (Y z1 , z2 , ... , zr ) tidak harus

berbentuk 0 + ' z . Namun, dapat ditunjukan bahwa E (Y z1 , z2 , ... , zr ) apapun

bentuknya, untuk memprediksi Y adalah dengan mean square error terkecil.


Keuntungannya pengoptimalan diantara semua estimator yang dimiliki dengan
prediktor linier adalah ketika populasinya normal.

Akibat 7.13
Anggaplah bahwa distribusi bersama dari Y dan Z adalah N r +1 ( , )
misalkan

Y S S'
= dan S = YY ZY
Z S ZY S ZZ
vektor rata-rata sampel dan matrik kovarian sampel berukuran n dari suatu
populasi, penaksir maksimum likelihood dari koeffisien prediktor liniernya adalah
= S ZZ
1
sZY , 0 = Y sZY
' 1
S ZZ Z = Y ' Z
akibatnya penaksir likelihood untuk fungsi liniernya adalah
0 + ' z = Y + sZY
' 1
S ZZ (z Z )
2
Penaksir maximum lilkelihood dari mean squre errornya E Y 0 ' Z adalah

n 1
YY Z = ( sYY sZY
' 1
S ZZ sZY )
n

34
Biasanya dengan merubah pembagi dari n ke n-(r + 1) dalam estimator
dari means square error diperoleh penaksir tak bias yaitu

(Y )
n 2
0 ' Z j
n 1
j

( sYY sZY S ZZ sZY ) =


' 1 j =1

n r 1 n r 1

Contoh 7.12
Hasil computer data contoh 7.6. dengan data 7 observasi pada Y (CPU
Time), Z1 , Z 2 memberikan vektor rata-rata sampel dan matrik kovarian sampel
yaitu

150, 44 467,913 418, 763 35,983


y s yy sZY
'

= = 130, 24 dan = = 418, 763 377, 200 28,034
Z 3, 547 sZY S ZY
35,983 28, 034 13, 657
assumsikan berdistribusi normal bersama. Tentukan fungsi regresi dan mean
square errornya.?
Penyelesaian
Dari akibat 7.13 penaksir maksimum likelihoodnya adalah
0, 003128 0, 006422 418, 763 1, 079
= S ZZ
1
sZY = =
0, 006422 0, 086404 35, 983 0, 420

130, 24
0 = y ' z = 150, 44 [1, 079 0, 420] = 8, 421
3, 547
jadi fungsi regresinya adalah 0 + ' z = 8, 42 1, 08 z1 + 0, 42 z2
mean square errornya adalah
n 1
YY Z = ( sYY sZY
' 1
S ZZ sZY )
n
6 0, 003128 0, 006422 418, 763
= 467,913 [ 418, 763 35,983]
7 0, 006422 0, 086404 35,983
= 0,894
Prediksi untuk beberapa variabel

35
Perluasan dari akibat sebelumnya untuk prediksi beberapa variabel terikat
Y1 , Y2 , ... , Ym hampir dekat. Perluasan untuk populasi normal anggaplah

Y Y
dengan =
( m 1)
bahwa
( m 1)
berdistribusi N m+ r ( , ) dan
Z
( r 1) ( r Z1)

YY YZ
( m m ) ( m r )
=
ZZ
( r ZY
m) ( rr )
Ekspektasi bersyarat dari [Y1 , Y2 , ... , Ym ] atas sejumlah nilai variabel prediktor

z1 , z2 , ... , zr adalah E Y z1 , z2 , ... , zr = Y + YZ ZZ1 ( z Z )

nilai harapan bersyarat ini, dianggap suatu fungsi atas z1 , z2 , ... , zr yang disebut
dengan regresi multivariate dari vektor Y dalam Z. Fungsi ini terdiri dari m
regresi univariat. Contohnya vektor rata-rata bersyarat dari komponen pertama
adalah
Y + Y Z ZZ1 ( z Z ) = E (Y1 z1 , z2 , ... , zr ) yang meminimumkan mean square
1 1

error dari prediksi Y1. Ukuran m r matrik = YZ ZZ1 disebut matrik koeffisien
regresi.
Kesalahan dari vektor prediksinya Y Y YZ ZZ1 ( Z Z ) mempunyai
kuadrat harapan dan matriks cross produk adalah
'
YY Z = E Y Y YZ ZZ1 ( Z Z ) Y Y YZ ZZ1 ( Z Z )
= YY YZ ZZ1 (YZ )' YZ ZZ1 ZY + YZ ZZ1 ZZ ZZ1 (YZ )'
= YY YZ ZZ1 ZY
karena dan tidak diketahui secara khusus, maka harus diperkirakan dari
sampel acak dalam urutan menyusun prediktor linier multivariate dan menentukan
harapan kesalahan prediksi.

Akibat 7.14

36
Anggaplah Y dan Z berdistribusi N m r ( , ) . Regresi dari vektor Y dalam
Z adalah
0 + z = Y YZ ZZ
1
Z + YZ ZZ1 z = YZ ZZ1 ( z Z )
kuadrat harapan dan matriks cross produk untuk errornya adalah
E (Y 0 Z )(Y 0 Z )' = YY Z = YY YZ ZZ1 ZY
berdasarkan sampel acak ukuran n, estimator maximum likelihood untuk fungsi
regresinya adalah
0 + z = Y + SYZ S ZZ
1
(z Z )

Dan estimator likelihood dari YY Z adalah

n 1 1
YY Z = ( sYY SYZ S ZZ S ZY )
n

Penaksir tak bias dari YY Z adalah

n 1
(Y
j =1
j 0 Z j )(Y j 0 Z j )
1
( SYY SYZ S ZZ S ZY ) =
n r 1 n r 1
Contoh 7.13
Dari hasil komputer data contoh 7.6 dan contoh 7.10 untuk Y1 (CPU time) dan Y2
150, 44

y 327, 79
(Disc I/O Capacity)., diberikan Z1 dan Z2 diperoleh = =

Z 130, 24
3, 547

467, 913 35, 983


1148,556 418, 763

S yy '
S ZY 1148,5563072, 491 1008, 976 140, 558
= =
S ZY S ZY 418, 763
1008,976 377, 200 28, 034

35,983
140, 558 28, 034 13, 657
diasumsikan berdistribusi normal tentukan fungsi regresinya ?

37
0 + z = y + SYZ S ZZ
1
(z z )
150, 44 418, 763 35, 983 0, 003128 0, 006422 z1 130, 24
= +
327, 79 1008, 976 140, 558 0, 006422 0, 086404 z2 3,547
150, 44 1, 079( z1 130, 24) + 0, 420( z2 3,547)
= +
327, 79 2, 254( z1 130, 24) + 5, 665( z2 3, 547)
sehingga predictor mean square error minimum dari Y1 dan Y2adalah
150, 44 + 1, 079( z1 130, 24) + 0, 420( z2 3,547) = 8, 42 + 1, 08 z1 + 0, 42 z2

327, 79 + 2, 254( z1 130, 24) + 5, 665( z2 3,547) = 14,14 + 2, 25 z1 + 5, 67 z2


penaksir maksimum likelihood dari kuadrat harapan dan matrik cross produknya
diberikan oleh

n 1
( SYY SYZ S ZZ S ZY )
1
YY Z =
n
6 467,913 1148,536 418, 763 35,983 0, 003128 0, 006422 418, 763 1008,976
=
7 1148,536 3072, 491 1008,976 140,558 0, 006422 0, 086404 35,983 140,558
6 1, 043 1, 042 0,894 0,893
= =
7 1, 042 2,572 0,893 2, 205
hasil penaksiran pertama fungsi regresi 8, 42 + 1, 08 z1 + 0, 42 z2 memberikan mean
square error 0,894 hasil yang sama dengan contoh 7.12 untuk kasus respon
tunggal. Kita lihat bahwa data dapat diprediksi dari dari variable respon pertama
memilki error yang lebih kecil dibandingkan dengan oleh respon kedua. Kovarian
0,893 menunjukan prediksi yang terlalu jauh dari CPU time yang cenderung
ditemani oleh capasitas disk.

Akibat 7.14 menyatakan bahwa assumsi dari distribusi normal multivariate


bersama untuk kumpulan Y1 , Y2 , ... , Ym , Z1 , Z 2 , ... , Z r mudah untuk memprediksi

y1 = 01 + 11 z1 + ... + r1 zr
y = + z + ... + z
2 02 12 1 r2 r
persamaan
M M M
y m = 0 m + 1m z1 + ... + rm zr
Dengan catatan mengikuti

38
1. Nilai z1 , z2 , ... , zr yang sama digunakan untuk memprediksi tiap nilai

Yi .

2. ik diperkirakan untuk entri ( i, k ) pada matrik koeffisien regresi

= YZ ZZ
1
untuk i, k 1 .

Koefisien Korelasi Parsial


Y1 Y1 Y1Z ZZ1 ( Z Z )
Anggaplah pasangan kesalahan
Y2 Y2 Y2 Z ZZ1 ( Z Z )

diperoleh dari menggunakan prediktor linier terbaik Y1 dan Y2 hubungannya

ditentukan dari matrik kovarian kesalahan YY Z = YY YZ ZZ1 ZY

pengukuran hubungan antara Y1 dan Y2 setelah menghapus pengaruh dari

Z1 , Z 2 , ... , Z r .

koeffisien korelasi parsial antara Y1 dan Y2 dengan menghapuskan

Y Y Z
Z1 , Z 2 , ... , Z r oleh Y1Y2 Z = 1 2

Y Y Z Y Y Z
1 1 2 2

sY1Y2 Z
yang diperkirakan oleh rY1Y2 Z =
sY1Y1 Z sY2Y2 Z

Dimana Y Y Z adalah
i k
entri ( i, k ) dalam matrik

YY Z = YY YZ ZZ1 ZY hubungan koeffisien korelasi parsial sampel adalah

sY1Y2 Z
rY1Y2 Z =
sY1Y1 Z sY2Y2 Z

Dengan sYiYk Z dengan ( i, k ) elemen dari SYY SYZ S ZZ


1
S ZY dengan asumsi

Y dan Z memiliki distribusi normal multivariate bersama. Koeffisien korelasi


parsial sampel diatas adalah penaksir maximum likelihood untuk populasinya.

39
2.9 Membandingkan Dua Perumusan dari Model Regresi
Bentuk Rata-rata yang dikoreksi dari Model Regresi
Untuk beberapa variabel respon Y, model regresi multiple menegaskan
bahwa
Y j = 0 + 1 z1 j + ... + r zrj + j

Variabel prediktor dapat dipusatkan dengan mengurangi rata-ratanya.


Contohnya
1 z1 j = 1 ( z1 j z1 ) + 1 z1 dan kita dapat menulis

Y j = ( 0 + 1 z1 + ... + r zr ) + 1 ( z1 j z1 ) + ... + r ( zrj zr ) + j


= + 1 ( z1 j z1 ) + ... + r ( zrj zr ) + j

Dengan = ( 0 + 1 z1 + ... + r zr )
Desain matrik rata-rata yang dikoreksi dihubungkan dengan pengulangan
1 z11 z1 L z1r zr
1 z21 z1 L z2 r zr
pembentukan parameter adalah Zc =
M M O M

1 zn1 z1 L znr zr

Yang mana kolom r masing-masing tegak lurus terhadap kolom pertama karena
n

1( z
j =1
ji zi ) = 0, i = 1, 2, .... , r

Selanjutnya tentukan Z c = 1 Z c 2 dengan Z c' 21 = 0

Jadi
I 'I I ' Z c 2 n 0'
Z Zc = '
'
c =
Z c 2 I Z c' 2 Z c 2 0 Z c' 2 Z c 2


1 '
1
= ' 1 '
= 0' I y = y
( Z Z
c c ) Z c y

n
' ' 1 '
1 Z y (Z Z ) Zc 2 y
M 0 ( Z c 2 Z c 2 ) c 2 c 2 c 2
'

40
Dengan demikian koeffisien regresi [ 1 , 2 , ... , r ] penaksir tak biasnya
'

(Z Z c 2 ) Z c' 2 y
1
ditaksir oleh '
c2 dan ditaksir oleh y. Karena

koeffisien 1 , 2 , ... , r tetap tidak berubah oleh penggantian parameter penaksir

terbaiknya dihitung dari desain matriks Z c sama dengan yang dihitung desain

matrik Z Sehingga, keadaan c = 1 , 2 , ... , r adalah predictor linier dari Y

dapat ditulis sebagai y = + c' ( z z ) = y + y ' Z c 2 ( Z c' 2 Z c 2 )1 ( z z ) dengan

( z z ) = ( z1 z1 , z2 z2 , ... , zr zr ) akhirnya

Var ( ) 2
Cov( , c ) 0'
= (Zc Zc ) = n
1 2

'

Cov( c , )
Cov( c )

0 ( Z c' 2 Z c 2 ) 1 2

Ulasan: Model Regresi Multiple Multivariate menghasilkan desain matrik rata-


rata yang dikoreksi sama untuk setiap respon. Penaksiran kuadrat terkecil untuk
koeffisien vector (i ) untuk variable respon ke-i diberikan oleh

y(i )
(i ) = ' 1 ' , i = 1, 2, ..., m
( Z Z c 2 ) Z y(i )
c2 c2

Rumus-rumus yang berhubungan


Ketika variable Y , Z1 , Z 2 , ..., Z r berdistribusi normal bersama, kita menentukan
bahwa prediktor penaksir dari Y adalah
)
0 + ' z = y + sZY
' 1
S ZZ ( z z ) = Y + ZY
'
ZZ1 ( z Z ) .
dari bentuk rata-rata yang dikoreksi pada model regresi penaksir linier terbaik dari
prediktor Y adalah y = + c' ( z z ) dengan = y = 0 dan dari persamaan

sebelumnya c' = y ' Z c 2 ( Z c' 2 Z c 2 ) 1 maka diperoleh hubungan


1
'
sZY S ZZ = y ' Z c 2 ( Z c' 2 Z c 2 ) 1
oleh karena itu teori normal rata-rata bersyarat dan model regresi klasik memilki
prediktor linier yang tepatnya sama.

41
Meskipun dua perumusan dari masalah prediksi linier menghasilkan
persamaan predictor yang sama, pada dasarnya adalah berbeda, pada model
regresi klasik variable input diassumsikan ditentukan oleh ekperiment, pada
model regresi linier nilai dari variable predictor adalah variable acak yang
diperoleh dihubungkan dengan nilai dari variable respon. Assumsi untuk
pendekatan kedua lebih ketat tapi tapi menghasilkan predictor optimal diantara
semua pilihan daripada melalui predictor linier yang jarang.
Rumus rumus yang berhubungan dengan regresi linier multivariat secara
keseluruhan dalah sebagai berikut :
Kasus Univariat
Terdapat satu variable respon Y untuk sejumlah data n
maka
Y1 1 z11 L z1r 0 1
Y 1 z L z1r 1 2
2 = 21
+
M M M O M M M

Yn 1 zn1 L z1r r n

model persamaannya Y = Z +
( n1) ( n( r +1) (( r +1)1) ( n1)

dengan metode kuadrat terkecil


penaksir : = ( Z ' Z ) 1 Z ' y
n

( y
j =1
j y )2
koefisien determinasi : R 2 = n

(y
j =1
j y )2


interval kepercayaan : i tn r 1 Var ( i )
2

Test Hipotesis
H 0 : i = 0 ( 1 , 2 , ... , r )
H1 : i 0

42
SSR r
Statistik uji F=
SSE (n r 1)

Dengan SSR = ' Z ' y ny 2 ( ) (


SSE = y ' y ' Z ' y )
Kriteria tolak H 0 jika F > F ,r ,n r 1

(Rencerd;330)
Kasus Multivariat
Misalkan untuk variable respon sebanyak 2 atau terdapat Y1 dan Y2 dan 3
variabel predictor maka
y11 y12 1 z11 z12 z13 01 02 11 12
y y 1 z z22 z23 11 12 21 22
21 22 = 21
+
M M M M M M 21 22 M M

yn1 yn 2 1 zn1 zn 2 zn 3 31 32 n1 n 2

jika teradapat m variable respon Y dan r variable predictor z, maka terdapat


sejumlah persamaan model regresi :

Y1 = 01 + 11 z1 + ... + r1 zr + 1
Y2 = 02 + 12 z1 + ... + r 2 zr + 2
M M M
Ym = 0 m + 1m z1 + ... + m1 zr + m

dengan = [1 , 2 , ..., m ] mempunyai E ( ) = 0, Var ( ) =


'

model Regresi Linear Multivariatnya adalah


Y = Z +
( n m ) ( n( r +1)) (( r +1)m ) ( n m )

dengan E ( (i ) ) = 0, Cov ( (i ) , ( k ) ) = ik I i, k = 1, 2, ... m

dengan menggunakan penaksiran kuadrat terkecil

penaksir : = ( Z ' Z ) 1 Z 'Y dengan = (1) (2) L ( m )


dan Y = Z = Z ( Z ' Z ) 1 Z 'Y dengan Y = Y(1) Y(2) L Y( m )


43
residualnya adalah = Y Y

= = (Y Z ) (Y Z )
' '
dengan matrik kovariannya
n n
interval kepercayaan :
100(1 )% confidence ellipsoid untuk ' z0 adalah
1
' m(n r 1)
( ) n
( z )
' z0 z0' ( Z ' Z ) z0

1
z0 ' z0
' '
n r 1 0
n r m
Fm, n r m ( )


100(1 )% interval kepercayaan simultan untuk E (Y( i ) ) = z0' (i ) adalah

m(n r 1) n
z0' (i ) ' ' 1
Fm ,n r m ( ) z0 ( Z Z ) z0 ii i = 1, 2,..., m
nr m n r 1
Test Hipotesis
H 0 : i = 0 ( 1 , 2 , ... , r )
H1 : i 0

E
statistik uji = dengan E = Y 'Y ' Z 'Y H = ' Z 'Y ny y '
E+H

kriteria Tolak H 0 jika ,m ,r ,n r 1 dimana m menunjukan banyaknya variable

Y, r menunjukan banyaknya variable Z.


Dalam tabel Wilks Lambda m menyatakan p, r menyatakan VH dan n-r-1

menyatakan VE

(Rencerd;344)
Konsep Regresi Linier
Untuk Kasus Univariat
Y
Misalkan terdapat Y , Z1 , Z 2 , ..., Z r dengan =
(1 1)
dan

( r 1)
Z

YY ZY '
(11) (1 r ) '
= dimana ZY = YZ1 , YZ 2 , ..., YZ r

( r ZY1) ( rZZr )

44
prediktor liniernya adalah 0 + 'Z dengan

koefisien = ZZ1 ZY , 0 = Y ' Z


memiliki mean square error yaitu
E (Y 0 ' Z ) 2 = E (Y Y ZY
'
ZZ1 ( Z Z )) 2 = YY ZY
'
ZZ1 ZY

korelasi antara variabel terikat Y dengan prediktor linier terbaiknya disebut


koeffisien korelasi multiple populasi yang dinotasikan sebagai

ZY
'
ZZ1 ZY
Y ( Z ) = +
YY

kuadrat dari koeffisien ini Y2( Z ) disebut koeffisien determinasi populasi, nilai dari

koeffisien korelasi adalah akar kuadrat positif nya yaitu 0 Y ( Z ) 1 .

Untuk Kasus Multivariat


Misalkan teradapat Y1 , Y2 , ... , Ym , Z1 , Z 2 , ... , Z r berdistribusi N m + r ( , )

Y YY YZ
( m 1) ( m m ) ( m r )
dengan = dan =
ZZ
( r Z1) ( r ZY
m) ( rr )
regresi dari vektor Y dalam Z adalah
0 + z = Y YZ ZZ1 Z + YZ ZZ1 z = Y + YZ ZZ1 ( z Z )
kuadrat harapan dan matriks cross produk untuk errornya adalah
E (Y 0 Z )(Y 0 Z ) ' = YY Z = YY YZ ZZ1 ZY

berdasarkan sampel acak ukuran n, estimator maximum likelihood untuk fungsi


regresinya adalah

0 + z = Y + SYZ SZZ
1
(z Z )

dan estimator likelihood dari YY Z adalah

n 1 1
YY Z = ( sYY SYZ S ZZ S ZY )


n
Koeffisien Korelasi Parsial
Y1 Y1 Y1Z ZZ1 ( Z Z )
Anggaplah pasangan kesalahan
Y2 Y2 Y2 Z ZZ1 ( Z Z )

45
diperoleh dari menggunakan prediktor linier terbaik Y1 dan Y2 hubungannya

ditentukan dari matrik kovarian kesalahan YY Z = YY YZ ZZ1 ZY


koeffisien korelasi parsial sampel adalah
sY1Y2 Z
rY1Y2 Z =
sY1Y1 Z sY2Y2 Z

Contoh :
z1 = 0,1, 2,3, 4
Diberikan y1 = 1, 4, 3,8,9 tentukan model persamaan regresi multivariatnya
y2 = 1, 1, 2, 3, 2
Penyelesaian:
Y j1 = 01 + 11 z j1 + j1
Akan ditentukan
Y j 2 = 02 + 12 z j1 + j 2

Dari persoalan diatas maka dinyatakan dalam bentuk matriksnya adalah


1 0 1 1
1 1 4 1

Z = 1 2 Y1 = 3 Y2 = 2

1 3 8 3
1 4 9 2

1 0
1 1
1 1 1 1 1 5 10
Selanjutnya cari ( Z ' Z ) = 1 2 =
0 1 2 3 4 1 3
10 30

1 4

1 30 10
( Z ' Z ) 1 =
150 100 10 5
1 30 10
diperoleh =
50 10 5
0, 6 0, 2
=
0, 2 0,1

Selanjutnya akan ditentukan (1) = ( Z ' Z ) Z 'Y(1) dan (2) = ( Z ' Z ) Z 'Y(2)
1 1

46
1 1
4 1
1 1 1 1 1 25 1 1 1 1 1 5
Z 'Y(1) = 3 = Z 'Y(2) = 2 =
0 1 2 3 4 70 0 1 2 3 4 20
8 3
9 2

(1) = ( Z ' Z ) Z 'Y(1) (2) = ( Z ' Z ) Z 'Y(2)


1 1

0, 6 0, 2 25 0, 6 0, 2 5
= =
0, 2 0,1 70 0, 2 0,1 20
1 1
= =
2 1

Sehingga diperoleh Y1 = 1 + 2 z1 Y2 = 1 + z1

1 1
Jadi matriks = (1) (2) =
2 1

1 0 1 1 1 1 1 1 0 0
1 1 3 0 4 1 3 0 1 1
1 1
Y = Z = 1
2 = 5 1
= Y Y = 3
2 5 1 = 2 1
2 1
1 3 7 2 8 3 7 2 1 1
1 4 9 3 9 2 9 3 0 1

Penaksiran parameter
1 = 0
Hipotesis
1 0
E
Statistik uji = dengan E = Y 'Y ' Z 'Y H = ' Z 'Y ny y '
E+H

1 1
4 1
1 4 3 8 9 171 43
Y 'Y = 3 2 =
1 1 2 3 2 43 19
8 3
9 2

47
1 1
4 1
1 2 1 1 1 1 1
' X 'Y = 3 2
1 1 0 1 2 3 4
8 3 5
ny y ' = 5 [5 1]
9 2 1
1 2 25 5 25 5
= = 5
1 1 70 20 5 1

165 45 125 25
= =
45 15 25 5

E Y 'Y ' X 'Y


= =
E+H Y 'Y ny y '
171 43 165 45
43 19 45 15

=
171 43 125 25
43 19 25 5

6 2
2 4 24 4
= = = 0, 0625
46 18 644 324
18 14
berdasarkan tabel Wilks lambda diperoleh
,m ,r ,n r 1 = 0,05;2;1;3 = 0, 050 (Tabel A.9 Wilks Lambda;567)

kriteria Tolak H 0 jika ,m ,r ,n r 1 karena > ,m ,r ,n r 1 yaitu 0,0625>0,050

kesimpulannya H 0 diterima, jadi koeffisien 1 tidak berarti pada kedua persamaan


diatas.

48
Nama : Siti Habsah
NIM : 055662

2.10 Analisis Jalur


Metode analisis jalur dikembangkan oleh ahli genetika Sewel Wright pada
1918-1921 untuk menjelaskan hubungan sebab akibat dalam genetika populasi.
Aplikasi analisis jalurnya pada 1925 untuk mengawetkan dan memonopoli harga-
harga turut memprakarsai penggunaan persamaan struktural dalam ekonomi.
Tujuan anlisis jalur (atau anlisis persamaan struktural) untuk menyediakan
penjelasan yang logis dari korelasi yang diobservasi dengan mengkonstruksi
model hubungan sebab dan akibat antara variabel-variabel.
Koefisien korelasi signifikan yang tidak menunjukkan hubungan sebab
akibat telah ditegaskan berkali-kali pada diskusi korelasi, seringkali dengan
contoh menggelikan seperti asosiasi positif diantara penjualan permen karet dan
dan angka kriminalitas. Tentu saja sebuah korelasi yang diobservasi tidak pernah
bisa digunakan sebagai bukti hubungan sebab akibat. Argumen meyakinkan untuk
sebab akibat dapat dikonstruksi dari inferensi statistik bersama dalil yang
menyatakan hubungan yang dikembangkan dari ilmu pengetahuan dari subjek
masalah dan pengertian yang berhubungan. Misalnya teori klasik tentang sifat-
sifat harga, kenaikan harga jagung menaikkan permintaan dan menurunkan suplai.
Dalam hal ini variabel permintaan dan suplai diperlakukan sebagai penyebab
perubahan harga jagung.
Ketika satu variabel X1 mendahului variabel lain pada suatu waktu, dapat
disimpulakan X1 menyebabkan X2. Secara diagram kita dapat menulis X1X2.
Dengan mengikutsertakan error dalam hubungan, diagram jalurnya adalah
X2

X1 2
Dalam hubungan model linier, dimana sekarang X1 adalah
variabel penyebab yang tidak dipengaruhi oleh variabel lain. Gagasan hubungan
sebab akibat antara X1 dan X2 mengharuskan semua faktor penyebab lain yang

49
mungkin, dikesampingkan. Secara statistik, kita menetapkan bahwa X1 dan
tidak berkorelasi, dimana menunjukkan akibat bersama dari semua variabel
tidak terukur yang dapat mempengaruhi X1 dan X2.
Lebih spesifik lagi, regresi ditulis dalam bentuk
baku dengan notasi yang jelas

atau

(7-71)
Walaupun error dalam bentuk baku, memiliki sebuah koefisien. Dalam model
baku, parameter koefisien jalur biasa disebut p. Model dalam (7-71)
mengakibatkan

Persamaan kedua menyatakan bahwa kesimpulan sementara diagram jalur itu


sendiri lengkapnya ditentukan oleh variabel-variabel yang di tunjukkan karena
konstribusi pada variansi Z2 berjumlah satu.
Secara matematis, sama logisnya untuk merumuskan bahwa X2
menyebabkan X1 atau merumuskan model ketiga yang memuat sebuah faktor
yang berhubungan, contohnys F3 yang bertanggung jawab atas korelasi yang
diobservasi antara X1 dan X2. Dalam kasus terakhir, korelasi antara X1 dan X2
adalah palsu dan bukan sebuah korelasi sebab akibat. Diagram jalurnya adalah
2
X2

F3

X1
1
dimana kita memperhitungkan error lagi dalam hubungan. Dalam hubungan
variabel-variabel baku, model linier yang diakibatkan oleh diagram jalur di atas
menjadi

50
(7-72)
Dengan error baku 1 dan 2 tidak berkorelasi satu sama lain dengan F3.
Akibatnya, korelasi dihubungkan dengan koefisien jalur oleh

dan

Model sebab akibat yang dirumuskan dalam (7-72) berbeda dari model dalam (7-
71) maka tidak mengejutkan bahwa hubungan antara korelasi dan koefisien jalur
berbeda.
Analisis jalur berisi dua komponen utama: (1) diagram jalur, dan (2)
dekomposisi korelasi yang diobservasi ke sejumlah hubungan koefisien jalur yang
mewakili jalur-jalur sederhana dan gabungan.

2.10.1 Pengkonstruksian Diagram Jalur


Sebuah perbedaan dibuat diantara variabel-variabel yang tidak dipengaruhi oleh
variabel-variabel lain dalam sistem (variabel eksogen) dan variabel-variabel yang
dipengaruhi oleh variabel-variabel lain (variabel endogen). Dengan masing-
masing variabel-variabel terikat terakhir dihubungkan sebuah residual. Aturan
tertentu menentukan penggambaran sebuah diagram jalur. Tanda panah
menunjukkan sebuah jalur. Diagram jalur dikonstruksi sebagai berikut:
1. Tanda panah lurus menunjukkan hubungan sebab antara variabel-variabel
exogenous atau perantara dengan satu variabel terikat atau lebih

2. Tanda panah lurus juga menghubungkan kesalahan (variabel residue) dengan


semua variabel endogenous masing-masing

3. Tanda panah kurva dengan ujung panah ganda digambar diantara masing-
masing pasangan variabel bebas (endogen) yang memiliki korelasi tidak nol.

51
Tanda panah kurva untuk korelasi mengindikasikan koefisien korelasi
alami simetris. Hubungan-hubungan lain yang langsung, seperti diindikasikan
oleh tanda panah dengan ujung tunggal.
Ketika mengkonstruksi diagram jalur, biasanya menggunakan variabel-
variabel yang telah baku yang memiliki rata-rata 0 dan variansi 1. Dalam konteks
regresi berganda, modelnya adalah

atau
(7-73)

dimana koefisien jalur, pk = k kk adalah koefisien regresi untuk

prediktor baku dan p = .

Untuk menilustrasikan pengkostruksian diagram jalur, pertama kita


gambar diagram yang menjelaskan regresi berganda dengan variabel prediktor r =
3.
Ketika masing-masing Zk diperlakukan sebagai variabel penyebab,
korelasi antara pasangan variabel-variabel eksogen ditunjukkan oleh tanda panah
berbentuk kurva dengan ujung ganda. Tanda panah lurus berangkat dari masing-
masing variabel penyebab ke Y. Error dan masing-masing Zk (diasumsikan)
tidak berkorelasi sehingga tidak ada tanda panah yang menghubungkan variabel-
variabel ini. Diagram jalur untuk variabel prediktor r = 3 diberikan dalam gambar
7.6
Z1 pY1
Z2 pY2 Y
Z3 pY3 pY

Gambar 7.6

52
Kesederhanaan lain, masih menarik, kondisi model analisis faktor dengan
satu faktor biasa yang tidak diobservasi. Menurut model ini, faktor tunggal tidak
diobservasi, F, bertanggung jawab atas korelasi antara variabel respon, model
dapat ditulis dalam hubungan variabel-variabel baku F, 1 , 2 , 3 , dan Z1, Z2, Z3
sebagai

(7-74)
dimana F, 1 , 2 , dan 3 semuanya tidak berkorelasi. Diagram jalur ditunjukkan
dalam gambar 7.7 .

Z1

P1F
2
P2 2
F P2F Z2

P3F 3
P3
Z3
Gambar 7.7
Pengkonstruksian diagram jalur dapat membantu peneliti berpikir benar tentang
sebuah masalah dan menggambarkan komponen-komponen penting korelasi yang
diobservasi.

53
2.10.2 Dekomposisi Korelasi yang Diobservasi
Estimasi koefisien jalur akan memungkinkan kita menaksir pengaruh
langsung dan tidak langsung dimana satu variabel memiliki pengaruh pada
variable lain. Dari model linier yang menyatakan hubungan sebab, kita dapat
menemukan pernyataan yang menghubungkan koefisien jalur dan korelasi.
Contoh 7.16 (Analisis Jalur dari Model Regresi)
Dari bentuk baku model regresi berganda ([lihat (7-73)], korelasi antara Y
dan masing-masing Zk dapat di dekomposisi sebagai berikut

r
k = Corr(Y , Z k ) = Cov r pi Zi , Z k = pi ik , k = 1, 2, ..., r (7-75)
i=1 i=1
Juga, ketika diagram jalur memuat dirinya sendiri sehingga Y ditentukan oleh
variabel-variabel dalam diagram, kita menemukan persamaan determinasi
lengkap.

r r
1 = Var(Y ) = Var r pYi Z i + pY = p Yi ik pYk + pY2
i =1 i =1 k =1

r r r
=
i =1
p Yi2 + 2 p
i =1 k = i + 1
Yi ik p Yk + p Y2 (7-76)

Variansi Proporsi variansi Proporsi variansi yg Proporsi variansi


total = yg langsung diberikan + disebabkan interkorelasi + disebabkan error
Y oleh koefisien jalur antara variabel terikat

Keadaan ZY = [ Y 1 , Y 2 ,..., Yr ]T , matriks r x r ZZ = { ik } dan

pY = [ pY 1 , pY 2 ,..., pYr ] . Persamaan (7-75) dapat ditulis dalam notasi matriks


T

sebagai ZY = ZZ pY , sehingga

pY = ZZ
1
ZY
Selain itu, error pY dalam (7-73) memiliki variansi pY2 Var ( ) = pY2 ,
yang berasal dari(7-76) menjadi
pY2 = 1 ' ZY ZZ
1
ZY = 1 ' ZY pY
Kuadrat koefisien jalur pY2 dihubungkan pada koefisien korelasi berganda karena

54
pY2 =
(1 ' ZY ZZ
1
ZY )
= 1 Y2( Z )
1
Untuk data komputer contoh 7.6, kita mengajukan diagram jalur berikut
berdasarkan dugaan hubungan sebab akibat antara Z1, Z2, dan Y:
Z1 pY1
Y
Z2 pY2 pY

Diagram ini membawa pada model linier (dalam bentuk variabel-variabel baku)
Y = pYi Z 1 + pY 2 Z 2 + pY
Akibatnya, persamaan (7-75) dan (7-76) menjadi
Y 1 = pY 1 (1) + pY 2 12
Y 2 = pY 1 12 + pY 2 (1)
dan
1 = Var (Y ) = pY21 + pY2 2 + pY2 + 2 pY 1 12 pY 2
sustitusi korelasi korelasi-korelasi contoh (lihat contoh 7.12 untuk S)
rY 1 = rYZ1 = .997 , rY 2 = rYZ 2 = .450 , dan r12 = rZ1Z 2 = .391 untuk banyaknya

populasi yang berkorespondensi dia atas, kita dapat mengestimasi koefisien jalur
pY 1 dan pY 2 dengan menyelesaikan
.997 = pY 1 + .391 pY 2
.450 = .391 pY 1 + pY 2
Secara ekivalen, kita dapat menggunakan
1
p 1 .391 .997 .969
p Y = Y 1 = ZZ
1
ZY = =
p Y 2 .391 1 .450 .071
Akhirnya
.969
p Y = 1 ' ZY p Y = 1 [.997 .450] = .002
.071

Dengan demikian korelasi yang diobservasiantara respon Y = CPU time


dan variabel prediktor Z1 = permintaan dan Z2 = penambahan-penghapusan item

55
dapat didekmposisi ke dalam bagian-bagian yang mewakili pengaruh langsung
dan tidak langsung. Contohnya, Z1 secara langsung mempengaruhi Y (diwakili
oleh koefisien jalur p Y 1 dan juga mempengaruhi Y secara tidak langsung melalui
Z2 (ditunjukkan oleh hubungan produk 12 p Y 2 . Dengan mensubstitusi bilangan-
bilangan pada diagram jalur, kita punya
Z1 .969
.391 Y
Z2 .071 .044

Tepat menggunakan sebuah tabel untuk menunjukkan pengaruh dekomposisi


variabel-variabel prediktor pada respon.

Indirect effect Direct effect Total effect

Z1 (orders) .028 .969 .997

Z2 (add-del items) .379 .071 .450

Perhatikan bahwa koefisien jalur mengukur pengaruh langsung Zk pada Y adalah


koefisien regresi untuk variabel-variabel baku.

Contoh 7.17 (Analisis Jalur dari Model Analisis Faktor dengan Satu Faktor
Biasa)

Model faktor tunggal dalam (7-74) untuk 3 variabel respon menghasilkan


hubungan untuk dekomposisi korelasi yang diobservasi.

ik = Corr (Z i , Z k ) = Cov ( p iF F + p i i , p kF F + p k k ) = p iF p kF , i k= 1, 2, 3
i k

dan persamaan determinasi lengkap

( )
1 = Var (Z k ) = Var p kF + p k k k = p kF
2
+ p k2 k

56
Enam persamaan ini dengan mudah diselesaikan untukkoefisien jalur dalam
bentuk korelasi yang diestimasi.

Contoh 8.4 memberikan matriks kovarian contoh S untuk dimensi tiga (of
turtle shells), yang mana kita menentukan r12 = .951, r13 = .942, dan r14 = .911.
dengan memngasumsikan faktor tunggal (prtumbuhan) menebabkan shell
dimensions, kita bisa menulis

.951 = p 1F p 2 F

.942 = p 1F p 3 F jadi
(.951)(.942) = p 1F p 2 F p 1F p 3 F
= p 12F
.911 p 2 F p 3 F

.911 = p 2 F p 3 F

dan p 1F = .992 . Juga p 121 = 1 p 12F .017 , dan p 1 1 = .129 . Dengan cara yang

sama, p 2 F = (.951)(.911) /(.942) = .959 , p 2 2 = 1 (.959) 2 = .283 ,

p 3 F = .950 , dan p 3 2 = .312 . Semua koefisien jalur untuk faktur biasa adalah

besar dibandingkan koefisien jalur error. Ini menyatakan sebuah mekanisme sebab
akibat kuat jika model sebab akibat ini tepat. Tambahan, koefisien jalur p kF
hampir sama, walaupun Z1 = ln(length) dipengaruhi lebih sedikit oleh F. Diagram
jalur dengan koefisien jalur yang diestimasi ditampilkan berikut.

.129

.992 .283 Z1

F .959 .312 Z2

.950 Z3

Untuk menyimpulkan, analisis jalur mengambil teori-teori substansif


untuk permintaan-permintaan sebab dan menggunakan diagram jalur untuk
menemukan dekomposisi korelasi yang diobservasi terhadap pengaruh langsung

57
dan tidak langsung. Koefisien-koefisien jalur membantu menentukan pentingnya
pengaruh-pengaruh langsung dan tidak langsung. Kesimpulan analisis jalur akan
bergantung hubungan sebab akibat yang diasumsikan

58
BAB III
KESIMPULAN
MODEL REGRESI LINIER MULTIVARIAT

Kasus Univariat
Terdapat satu variable respon Y untuk sejumlah data n
maka
Y1 1 z11 L z1r 0 1
Y 1 z L z1r 1 2
2 = 21
+
M M M O M M M

Yn 1 zn1 L z1r r n

model persamaannya Y = Z +
( n1) ( n( r +1) (( r +1)1) ( n1)

dengan metode kuadrat terkecil


penaksir : = ( Z ' Z ) 1 Z ' y
n

( y
j =1
j y )2
koefisien determinasi : R 2 = n

(y
j =1
j y )2


interval kepercayaan : i tn r 1 Var ( i )

2
Test Hipotesis
H 0 : i = 0 ( 1 , 2 , ... , r )
H1 : i 0

SSR r
Statistik uji F=
SSE (n r 1)

(
Dengan SSR = ' Z ' y ny 2 ) (
SSE = y ' y ' Z ' y )
Kriteria tolak H 0 jika F > F ,r ,n r 1

(Rencerd;330)

59
Kasus Multivariat
Misalkan untuk variable respon sebanyak 2 atau terdapat Y1 dan Y2 dan 3
variabel predictor maka
y11 y12 1 z11 z12 z13 01 02 11 12
y y 1 z z22 z23 11 12 21 22
21 22 = 21
+
M M M M M M 21 22 M M

yn1 yn 2 1 zn1 zn 2 zn 3 31 32 n1 n 2

jika teradapat m variable respon Y dan r variable predictor z, maka terdapat


sejumlah persamaan model regresi :

Y1 = 01 + 11 z1 + ... + r1 zr + 1
Y2 = 02 + 12 z1 + ... + r 2 zr + 2
M M M
Ym = 0 m + 1m z1 + ... + m1 zr + m

dengan = [1 , 2 , ..., m ] mempunyai E ( ) = 0, Var ( ) =


'

model Regresi Linear Multivariatnya adalah


Y = Z +
( n m ) ( n( r +1)) (( r +1)m ) ( n m )

dengan E ( (i ) ) = 0, Cov ( (i ) , ( k ) ) = ik I i, k = 1, 2, ... m

dengan menggunakan penaksiran kuadrat terkecil

penaksir : = ( Z ' Z ) 1 Z 'Y dengan = (1) (2) L ( m )


dan Y = Z = Z ( Z ' Z ) 1 Z 'Y dengan Y = Y(1) Y(2) L Y( m )


residualnya adalah = Y Y

' (Y Z )' (Y Z )
dengan matrik kovariannya = =
n n
interval kepercayaan :
100(1 )% confidence ellipsoid untuk ' z0 adalah
1
n m(n r 1)
( z ) ( z )
' z0 z0' ( Z ' Z ) z0

' 1
'
z0
'

'
Fm, n r m ( )
n r 1 n r m
0 0

60
100(1 )% interval kepercayaan simultan untuk E (Y( i ) ) = z0' (i ) adalah

m(n r 1) n
z0' (i ) ' ' 1
Fm ,n r m ( ) z0 ( Z Z ) z0 ii i = 1, 2,..., m
nr m n r 1
Test Hipotesis
H 0 : i = 0 ( 1 , 2 , ... , r )
H1 : i 0

E
statistik uji = dengan E = Y 'Y ' Z 'Y H = ' Z 'Y ny y '
E+H

kriteria Tolak H 0 jika ,m ,r ,n r 1 dimana m menunjukan banyaknya variable

Y, r menunjukan banyaknya variable Z.


Dalam tabel Wilks Lambda m menyatakan p, r menyatakan VH dan n-r-1

menyatakan VE

(Rencerd;344)
Konsep Regresi Linier
Untuk Kasus Univariat
Y
Misalkan terdapat Y , Z1 , Z 2 , ..., Z r dengan =
(1 1)
dan

( r 1)
Z

YY ZY '
(11) (1 r ) '
= dimana ZY = YZ1 , YZ 2 , ..., YZ r

( r ZY1) ( rZZr )

prediktor liniernya adalah 0 + 'Z dengan

koefisien = ZZ1 ZY , 0 = Y ' Z


memiliki mean square error yaitu
E (Y 0 ' Z ) 2 = E (Y Y ZY
'
ZZ1 ( Z Z )) 2 = YY ZY
'
ZZ1 ZY

korelasi antara variabel terikat Y dengan prediktor linier terbaiknya disebut


koeffisien korelasi multiple populasi yang dinotasikan sebagai

ZY
'
ZZ1 ZY
Y ( Z ) = +
YY

61
kuadrat dari koeffisien ini Y2( Z ) disebut koeffisien determinasi populasi, nilai dari

koeffisien korelasi adalah akar kuadrat positif nya yaitu 0 Y ( Z ) 1 .

Untuk Kasus Multivariat


Misalkan teradapat Y1 , Y2 , ... , Ym , Z1 , Z 2 , ... , Z r berdistribusi N m + r ( , )

Y YY YZ
( m 1) ( m m ) ( m r )
dengan = dan =
ZY ZZ
( r 1)
Z

( r m ) ( r r )
regresi dari vektor Y dalam Z adalah
0 + z = Y YZ ZZ1 Z + YZ ZZ1 z = Y + YZ ZZ1 ( z Z )
kuadrat harapan dan matriks cross produk untuk errornya adalah
E (Y 0 Z )(Y 0 Z ) ' = YY Z = YY YZ ZZ1 ZY

berdasarkan sampel acak ukuran n, estimator maximum likelihood untuk fungsi


regresinya adalah

0 + z = Y + SYZ SZZ
1
(z Z )

dan estimator likelihood dari YY Z adalah

n 1 1
YY Z = ( sYY SYZ S ZZ S ZY )


n
Koeffisien Korelasi Parsial
Y1 Y1 Y1Z ZZ1 ( Z Z )
Anggaplah pasangan kesalahan
Y2 Y2 Y2 Z ZZ1 ( Z Z )

diperoleh dari menggunakan prediktor linier terbaik Y1 dan Y2 hubungannya

ditentukan dari matrik kovarian kesalahan YY Z = YY YZ ZZ1 ZY

koeffisien korelasi parsial sampel adalah


sY1Y2 Z
rY1Y2 Z =
sY1Y1 Z sY2Y2 Z

62
Analisis jalur

Tujuan anlisis jalur (atau anlisis persamaan struktural) untuk


menyediakan penjelasan yang logis dari korelasi yang diobservasi dengan
mengkonstruksi model hubungan sebab dan akibat antara variabel-variabel.
Analisis jalur berisi dua komponen utama: (1) diagram jalur, dan (2)
dekomposisi korelasi yang diobservasi ke sejumlah hubungan koefisien jalur yang
mewakili jalur-jalur sederhana dan gabungan.
Korelasi antara Y dan masing-masing Zk dapat di dekomposisi sebagai
berikut

r
k = Corr(Y , Z k ) = Cov r pi Zi , Z k = pi ik , k = 1, 2, ..., r
i=1 i=1
dan persamaan determinasi lengkap

r r
1 = Var(Y ) = Var r pYi Z i + pY = p Yi ik pYk + pY2
i =1 i =1 k =1

r r r
=
i =1
p 2
Yi + 2 p
i =1 k = i + 1
Yi ik p Yk + p Y2

Dari kedua persamaan tersebut kita dapat menentukan besar koefisian jalur.

63

Anda mungkin juga menyukai