Review Bab 6

BAB 6
INFERENSI UNTUK REGRESI LINIER BERGANDA
6.1 The Multiple Regression Model Revisited

Model regresi berganda untuk n observasi dengan k peubah penjelas adalah :
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 + 𝜀𝑖 , 𝑖 = 1,2, … , 𝑛 . . . . (6.1.1)
dengan asumsi 𝜀𝑖 adalah 𝑁(0, 𝜎 2 ) untuk setiap i , dan 𝐶𝑜𝑣(𝜀𝑖 , 𝜀𝑗 ) = 0 , 𝑖 ≠ 𝑗
Dalam bentuk matriks :

𝒀 = 𝑿𝜷 + 𝜺 ; 𝜺 ~ 𝑀𝑁(𝟎, 𝜎 2 𝑰) . . . . . (6.1.2 )
𝑌1 1 𝑥11 ⋯ 𝑥1𝑘 𝛽1 𝜀1
𝑌2 1 𝑥21 ⋯ 𝑥2𝑘 𝛽 𝜀2
dimana 𝒀 = [ ],𝑿 = [ ] , 𝜷 = [ 2] , 𝜺 = [ ⋮ ]
⋮ ⋮ ⋮ ⋱ ⋮ ⋮
𝑌𝑛 1 𝑥𝑛1 ⋯ 𝑥𝑛𝑘 𝛽𝑘 𝜀𝑛
dengan vektor respon 𝒀 berukuran 𝑛 × 1, matriks prediktor 𝑿 berukuran 𝑛 × (𝑘 + 1), matriks

parameter 𝜷 berukuran (𝑘 + 1) × 1 dan matriks error model 𝜺 berukuran 𝑛 × 1.
Pada analisa regresi ditandai bahwa matriks X rank penuh, X memiliki rank k + 1 dimana 𝑛 > 𝑘 + 1 ,
k = jumlah peubah penjelas.
Persamaan Normal (Normal equations)

Salah satu metoda estimasi koefisien parameter adalah memininmumkn jumlah kuadrat residual
( ∑𝑛𝑖=1 𝑒𝑖2 , 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖 ) dinamakan metoda Least Square . minimum jumlah kuadrat residual diperoleh
dengan mencari turunan terhadap 𝛽𝑖 sehingga diperoleh Sistim Persamaan Normal (Normal equations ).
Misalkan sampel berukuran n, maka setiap observasi dapat dinyatakan sebagai :
𝑦𝑖 = 𝑏0 + 𝑏1 𝑥𝑖1 + ⋯ + 𝑏𝑘 𝑥𝑖𝑘 + 𝑒𝑖 , 𝑖 = 1,2, … , 𝑛
Ditulis dalam notasi matriks ditulis sebagai :
𝒚 = 𝑿𝒃 + 𝒆
Estimasi parameter dengan metoda kuadrat terkecil mengarah ke persamaan normal:
𝑿′ 𝑿𝒃 = 𝑿′𝒚
dimana pada kasus regresi 𝑿′ 𝑿 merupakan matriks rank penuh sehingga memiliki solusi yang unik :
̂ = 𝒃 = (𝑿′ 𝑿)−𝟏 𝑿′𝒚
𝜷 . . . . . ( 6.1.3)
Estimability
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + ⋯ + 𝑏𝑘 𝑥𝑘
adalah penaksir yang BLUE untuk E(Y), untuk kumpulan nilai dari variabel prediktor 𝑥1 , 𝑥2 , … , 𝑥𝑘
dan elemen dalam b adalah taksiran yang BLUE untuk elemen yang sesuai di dalam 𝜷
Interval kepercayaan
Dari (5.3.6), interval kepercayaan 100(1-𝛼)% untuk fungsi linear 𝓵′ 𝜷 adalah:
𝓵′ 𝒃 ± 𝑡𝛼,𝑛−𝑘−1 , √𝒔𝟐 𝓵′ (𝑿′ 𝑿)−𝟏 𝓵′ . . . . . . (6.1.4)

2
dimana pada kasus full rank, 𝑠 2 = SSe/(n-k-1) dengan SSe = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 = y’y-b’X’y.
Interval kepercayaan 100(1-𝛼)% untuk setiap 𝛽𝑗 , j = 0,1,…,k adalah
𝑏𝑗 ± 𝑡𝛼,𝑛−𝑘−1 √𝑠 2 𝑐𝑗𝑗 ....... (6.1.5)

2
dimana 𝑐𝑗𝑗 adalah elemen diagonal ke-j dari (X’X)-1 dengan j dihitung dari j = 0.
Seperti yang telah disebutkan sebelumnya bahwa √𝒔𝟐 𝓵′ (𝑿′ 𝑿)−𝟏 𝓵′ dan √𝑠 2 𝑐𝑗𝑗 disebut sebagai standard
̂ ) dan Se(𝛽̂𝑗 ) secara berturut-turut.
errors dan dinotasikan dengan simbol Se(𝓵′ 𝜷
t-Tests
Persamaan (5.4.10) memberikan kita statistik untuk menguji
𝐻0 : 𝓵′ 𝜷 = 𝛾 dimana 𝛾 adalah spesifik konstan.
Pada kasus regresi, statistik uji adalah:

𝓵′ 𝒃 −𝜸
t= ~𝑡𝑛−𝑘−1 . . . . . (6.1.6)
√𝒔𝟐 𝓵′ (𝑿′ 𝑿)−𝟏 𝓵
Lebih tepatnya, dibawah hipotesis Ho benar → 𝐻0 : 𝛽𝑗 = 0

Statistik uji adalah
𝑏𝑗
t= ~𝑡𝑛−1−1 , k=1 karena untuk menguji 1 peubah penjelas xj . . . . .(6.1.7)
√𝑠2 𝑐𝑗𝑗
dimana 𝑐𝑗𝑗 adalah elemen diagonal ke-j dari (X’X)-1.
6.2 Computer-Aided Inference in Regression

Model regresi diatas digunakan saat semua peubah penjelas numerik.
Bila terdapat peubah kualitatif biasanya menggunaka skema koding (0,1), menggunakan peubah dummy.
Bila peubah kualitatif dengan k kategorik, digunakan k-1 peubah dummy.
Misal variabel kualitatif “Gender”,dengan koding 1 menunjukkan laki-laki dan 0 untuk perempuan, maka
digunakan 1 peubah dummy , misal x bernilai 0 atau 1 dimana x=0 untuk perempan dan x=1 untuk laki-laki.
Contoh Masalah Diskriminasi Gaji ,
Suatu studi tentang gaji, sebuah perusahaan ingin mengetahui tentang dugaan adanya diskrimasi antara gender.
Investigasi dilakukan dengan mengambil acak 16 pekerja, peubah yang dilibatkan “tingkat pendidikan” dan
“pengalaman kerja”. Diasumsikan bentuk fungsional dari model regresinya adalah :
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝜀𝑖 , 𝑖 = 1,2, . .16 . . . . (6.2.1)

Dimana :
𝑌𝑖 = gaji tahunan dari karyawan ke-i (dibulatkan ke $1000)

1, 𝑗𝑖𝑘𝑎 𝑝𝑟𝑖𝑎
𝑥𝑖1 = {
0, 𝑗𝑖𝑘𝑎 𝑤𝑎𝑛𝑖𝑡𝑎
𝑥𝑖2 = tingkat pendidikan karyawan (dalam tahun)
𝑥𝑖3 = Pengalaman kerja (dalam tahun)
Dari model diatas, dapat dilihat bahwa parameter 𝛽1 menunjukkan perbedaan antara rata-rata gaji antara pria
dan wanita, untuk edukasi dan pengalaman kerja yang sama. Jika 𝛽1 < 0 maka wanita akan memiliki gaji yang
lebih tinggi dari pria untuk edukasi dan pengalaman kerja sama, sedangkan jika 𝛽1 > 0 maka pria memiliki
gaji lebih tinggi. Oleh sebab itu perlu dilakukan uji dengan H0 : 𝛽1 = 0 untuk membuktikan hipotesis bahwa
tidak ada diskriminasi gender dalam gaji yang diperoleh.
Berikut data yang digunakan :
Tabel 6.2.2 , model regresi menggunakan 3 peubah penjelas (k=3) dan jumlah kuadrat variasi yang dijelaskan
oleh ke 3 peubah penjelas (Sum of squares model) = 988,2174276.
2
(∑𝑛
𝑖=1 𝑦𝑖 )
Jumlah kuadrat total terkoreksi = 𝑦 ′ 𝑦 − bernilai 1114,5975 dengan derajat bebas n-1=15.
𝑛
Diperoleh R-Square = r2 = 0,886614 artinya 88,66% variasi model gaji dijelaskan oleh variabel-variabel tsb dan
Jumlah kuadrat residual= 126,38007240 sehingga 𝜎̂2 = s2 = 126,38007240 = 10.53167
12
Berikut adalah uji signifikansi koefisien parameter → 𝐻0 : 𝛽𝑗 = 0 j= 0.1,2,3 vs 𝐻1 : 𝛽𝑗 ≠ 0
𝑏𝑗
Statistic uji : t = ~𝑡𝑛−1−1;𝛼
√𝑠2 𝑐𝑗𝑗
Dari output diatas, didapatkan taksiran regresi dengan metoda least-square :
𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 = −16.477 − 0.190𝑥1 + 2.7.29𝑥2 + 0.554𝑥3
Uji Hipotesis
• Hipotesis
H0 : 𝛽1 = 0
H1 : 𝛽1 ≠ 0
• Tingkat signifikansi, α = 0.05
• Statistik Uji
𝑡 = 𝑏1 /√𝑠 2 𝑐11
Nilai √𝑠 2 𝑐11 dapat dilihat dari output (Std Error of Estimate untuk Sex) yaitu 1.715877, sehingga
𝑡 = 𝑏1 /√𝑠 2 𝑐11 = −0.19/1.715877 = −0.11 . . . . (6.2.4)

• Daerah Kritis
H0 ditolak jika 𝑡 > 𝑡𝛼/2,𝑛−𝑘−1 = 𝑡0.025,12 = 2.179 atau 𝑡 ≤ −𝑡0.25,12 = −2.179
• Aturan Keputusan
Karena nilai 𝑡 = −0.11 > −2.179, maka H0 tidak ditolak.
• Kesimpulan
Tidak ada bukti yang kuat atas klaim adanya diskriminasi gaji antar gender.
̂1 , √𝑠 2 𝑐11,
Perlu diketahui bahwa, selain didapatkan dari output (Std Error of Estimate untuk Sex), standar error 𝛽
bisa didapatkan dari matriks (𝑿′𝑿)−1. Berikut matriks inver(𝑿′𝑿)−1 dihitung dibawah:
Diketahui elemen baris ke-1 kolom ke-1, c11 = 0.27956 dan s2 = 10.53167 sehingga :
√𝑠 2 𝑐11 = √10.53167(0.27956) = 1.715877

Selanjutnya, akan didemonstrasikan menghitung estimasi interval kepercayaan 95% untuk “rata-rata peningkatan
gaji tahunan dari edukasi di setiap tahunnya”.
Diketahui :
b2 = 2.729 yang diubah menjadi dalam dolar yaitu $2,729.
̂2 ) = 0.30014
Se(𝛽
t0.025,12 = 2.179
Interval kepercayaan dari 𝛽2 adalah :
2.729 ±2.179(0.30114) atau (2.073 ; 3.385)
Dalam dolar, interval kepercayaan 95% adalah antara $2,073 dan $3385.
Interval kepercayaan 95 % untuk 𝜇𝑦|𝒙 :
Dari pers 6.1.4 : 𝓵′ 𝒃 ± 𝑡𝛼,𝑛−𝑘−1 , √𝒔𝟐 𝓵′ (𝑿′ 𝑿)−𝟏 𝓵′

2
Ingin diestimasi untuk tingkat Pendidikan 16 tahun dan pengalaman kerja 10 tahun,
Untuk perempuan 𝓵′ = (1,0,16,10) dan untuk laki-laki 𝓵′ = (1 , 1, 16 ,10 )
Sebagai contoh interval kepercayaan 95 % , mean gaji laki dengan pendidikat 16 th dan masa kerja 10 th :
32.728 + 2.179 (1.24627)
Grade Point Prediction Problem
Universitas memerlukan pelamar untuk terlibat dalam proses administrasinya dan diperlukan nilai test
SAT dan ACT. Salah satu informasi yang pernting untuk proses seleksi adalah ranking pelamar dalam kelas dalam
pendidikan. Untuk ilustrasi numerikal selanjutnya, kita akan buat model untuk memprediksi kesuksesan murid
pada universitas berdasarkan ACT dan ranking kelas. Untuk itu, kita harus asumsikan data dengan ukuran sampel
20 murid yang dipilih secara acak di universitas yang terpilih. Model regresi yang digunakan:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖 , 𝑖 = 1,2, … ,20,
dimana
𝑌𝑖 = nilai rata-rata selama tahun pertama oleh pelajar ke-i
𝑥𝑖1 = Nilai ACT pelajar ke-i
𝑥𝑖2 = Percentile rank dari pelajar ke-i di kelas SMAnya
Tabel 6.2.4 dibawah ini merupakan hasil dari SAS GLM :
Taksiran least squarenya dari model diatas:
𝑦̂ = −1.017 + 0.011𝑥1 + 0.044𝑥2 (6.2.5)
𝑟 2 = 0.9291 (dekat dengan 1) dan 𝑠 2 = 0.03355 (dekat dengan 0) mengindikasikan bahwa model (6.2.5)
merupakan model yang cocok dan menjelaskan bahwa hampir 93% nilai rata-rata pelajar dijelaskan oleh variasi
dari kedua peubah. Namun demikian, pada type 3 sum of square nilai ACT = 0,03273082 dengan t = 0.99 dan p-
value = 0.3377 menunjukkan prediktor yang tidak signifikan dalam menggambarkan variabilitas nilai rata-rata
pelajar. Apakah ini berarti bahwa kita dapat melakukan hal yang sama dengan hanya menggunakan rank sebagai
prediktor?
Untuk menginvestigasi ini, kita dapat menjalankan regresi linear model dengan x2 (rank) sebagai variabel
independen. Hasilnya terlihat pada Tabel 6.2.5 dengan estimasi regresi linier
𝑦̂ = −1.029 + 0.048𝑥2
Perhatikan bahwa r2 = 0.9250 dan s2 = 0.03358. bandingkan kedua hasil tersebut dengan model yang diperoleh
model sebelumnya (tabel 6.2.4), tampak bahwa model yang lebih sederhana memiliki tingkat utilitas yang sama
untuk memprediksi keberhasilan di perguruan tinggi seperti model dua pada tabel 6.2.5. Ini tidak berarti bahwa
skor ACT tidak berguna sebagai predictor tingkat prestasi awal di perguruan tinggi. Tabel 6.2.6 memberi tahu
kita sebaliknya, ada hasil regresi sederhana dengan skor ACT sebagai variabel independen. Pada pengujian
parameter ACT, t = 5.58 dengan p-value 0.0001 jelas menunjukkan hubungan linier yang kuat antara variabel
GPA dan ACT. Namun untuk mengulang, dalam data ini menetapkan, skor ACT variabel dengan adanya
peringkat persentil variabel tidak memberikan lebih banyak informasi untuk memperkirakan keberhasilan di
perguruan tinggi. Hal ini dijelaskan oleh suatu kondisi yang dikenal sebagai kolineritas. Multikolinearitas terjadi
ketika variabel independen terkait (berkorelasi) satu sama lain.
Dapat dikatakan bahwa terdapat hubungan linear yang kuat antara GPA dan skor ACT. Pada kasus ini, apabila
terdapat 2 variabel independent (ACT & Peringkat ), variable ACT terlihat tidak memberikan informasi lebih
lanjut dalam menaksir GPA. Anomali ini dapat dikatakan sebagai multikolinearitas dimana terdapat variabel –
variabel prediktor berkorelasi. Hasilnya, informasi variabel respon yang dijelaskan oleh variabel prediktor
menjadi sia-sia disebabkan terdapat variabel prediktor yang berkorelasi.
Type I dan Type III Sum of Squares

Menggunakan Gambar 6.2.3 , 6.2.4, dan 6.2.5 , kita dapat mencari perbedaan antara Type I dan Type III sum of
squares. Pada Gambar 6.2.3, terlihat Type I sum of squares untuk variabel ACT adalah 5.11377 dan untuk RANK
adalah 2.37993 dan sum to the model sum of squares adalah 7.49370. Type I sum of square atribut untuk ACT di
Table 6.2.4 adalah jumlah regresi yang didapatkan dari melakukan simple regresi linier dengan ACT sebagai
variable independen. Maka Type I sum of squares dapat diasosiasikan dengan percentile rank adalah tambahan
dari penjumlahan regresi dari sum of square pada model regresi berganda saat variable RANK dan ACT sebagai
variable independent. Kebalikannya, type III sum of square tidaklah dependen dengan urutan variable
independent. Untuk mencari nilai pada type III sum of square dapat dilakukan dalam hipotesis
𝐻0 ∶ 𝛽1 = 0
𝐻1 ∶ 𝛽1 ≠ 0
Dengan nilai f
(𝑆𝑆𝑒 ∗ − 𝑆𝑆𝑒)/𝑞
𝑓=
𝑠2
Melihat dari kasus sebelumnya, 𝐻0 dapat diekspresukan sebagai bentuk 𝐿𝛽 = 0 , 𝐿 = [0 1 0]. Dan didapat
𝑆𝑆𝑒 = 0.57180, 𝑠 2 = 𝑀𝑆𝑒 = 0.033635. Untuk model tereduksi 𝑌 = 𝛽0∗ + 𝛽2∗ 𝑥2 + 𝜀 ∗ , dengan tabel 6.2.5,
𝑆𝑆𝑒 ∗ = 0.60453. Dan didapat
0.03273
𝑓 = 0.033635 = 0.973 (6.2.6)
Selanjutnya untuk nilai 𝐹 sebesar 70.76 untuk variabel prediktor RANK dapat dicari melalui statistic uji dari
𝐻0 ∶ 𝛽2 = 0
𝐻1 ∶ 𝛽2 ≠ 0
Dengan modelnya :
𝑌 = 𝛽0∗∗ + 𝛽1∗∗ 𝑥1 + 𝜀 ∗∗
Didapatlah 𝑆𝑆𝑒 ∗∗ = 2.95173 dan juga
(2.95173 − 0.57180)/1 2.37993
𝑓= = = 70.758
0.033636 0.033635
6.3 Regression Analysis of Variance
Diberikan model umum regresi berganda (dengan intercept) dimana terdapat k+1 parameter
𝛽0 , 𝛽1 , 𝛽2 , … , 𝛽𝑘 , tabel ANOVA pada inferensi di regresi menunjukkan komponen f-test untuk menguji hipotesis
nol
𝐻0 : 𝛽1 = 𝛽2 = ⋯ = 𝛽𝑘 = 0 . . . . . , (6.3.1)
Hipotesis nol (6.3.1) merupakan hipotesis linier umum dari 𝐻0 : 𝑳𝜷 = 𝟎. Jika L merupakan matriks 𝑘 × (𝑘 + 1)
0 1 0 0 ⋯ 0
0 0 1 0 ⋯ 0
𝐿= 0 0 0 1 ⋯ 0
⋮ ⋮ ⋮ ⋮ ⋱ ⋮
[0 0 0 0 ⋯ 1]
Didapat 𝐻0 : (𝛽1 , 𝛽2 , 𝛽3 , … , 𝛽𝑘 )′ = (0,0,0, … ,0)′ yang ekuivalen dengan 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0. Ingat
bahwa pada regresi matriks L memiliki rank k, selanjutnya 𝑳𝜷 adalah satu set dari k linier independent fungsi
estimable sejak dalam regressi masing-masing 𝛽𝑗 adalah estimable.
Ingat prinsip umum dari tes statistic error kondisional. Dalam kasus q = k, buat formula statistic
(𝑆𝑆𝑒 ∗ − 𝑆𝑆𝑒)/𝑘
𝑓=
𝑠2
Dimana, dari (3.3.2), 𝑆𝑆𝑒 = 𝒚′ 𝒚 − 𝒃′𝑿′𝒚 adalah error sum of squares untuk full model (6.1.1), 𝑠 2 = 𝑆𝑆𝑒/(𝑛 −
𝑘 − 1) disebut mean squares error yang dinotasikan sebagai MSe, dan 𝑆𝑆𝑒 ∗ adalah error sum of squares untuk
reduced model.
𝑌𝑖 = 𝛽0∗ + 𝜀𝑖∗ , 𝑖 = 1,2, … , 𝑛
Mudah untuk menunjukkan bahwa 𝑏0∗ = 𝑦̅ dimana 𝑦̅ = ∑𝑛𝑖=1 𝑦𝑖 /𝑛. (Lihat Ex. 6-12). Oleh karena itu, Jumlah
kuadrat residual (error sum of squares) untuk model terkoreksi ( reduced model ) adalah
𝑛 𝑛
𝑆𝑆𝑒 ∗ = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − 𝑦̅)2 = 𝒚′ 𝒚 − 𝑛𝑦̅ 2

𝑖=1 𝑖=1
Sebagai hasilnya,
𝑆𝑆𝑒 ∗ − 𝑆𝑆𝑒 = (𝒚′ 𝒚 − 𝑛𝑦̅ 2 ) − (𝒚′ 𝒚 − 𝒃′ 𝑿′ 𝒚)
= 𝒃′ 𝑿′ 𝒚 − 𝑛𝑦̅ 2 ......... (6.3.2)
Kuantitas pers (6.3.2) disebut jumlah kuadrat regresi sum of squares, dinotasikan dengan SSr. Ini mengikuti uji
hipotesis nol (6.3.1), statistic uji (6.2.6) dapat ditulis sebagai
𝑆𝑆𝑟/𝑘
𝐹 = 𝑆𝑆𝑒/(𝑛−𝑘−1) (6.3.3)
Dari bagian 5.4, kami tahu bahwa statistik uji (6.3.3) adalah uji berdistribusi F dengan derajat bebas k dan n-k-1.
Karena itu, pada tingkat risiko 𝛼, kami menolak 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0 bila 𝑓 ≥ 𝑓𝛼,𝑘,𝑛−𝑘−1.
Analysis of Variance Table
𝑛
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 𝑡𝑒𝑟𝑘𝑜𝑟𝑒𝑘𝑠𝑖 = ∑(𝑦𝑖 − 𝑦̅)2 = 𝒚′ 𝒚 − 𝑛𝑦̅ 2

𝑖=1
Pada Example 5.1.1, ditunjukkan 𝑆𝑆𝑇/𝜎 2 = ∑𝑛𝑖=1(𝑌𝑖 − 𝑌̅)2 /𝜎 2 berdistribusi Chi-kuadrat derajat bebas n-1.
Terdaftar tiga sums of square yang kami miliki :
1. Jumlah kuadrat regresi (SSr), 𝑆𝑆𝑟 = 𝒃′𝑿′𝒚 − 𝑛𝑦̅ 2 dengan k derajat bebas,
2. Jumlah kuadrat residual( 𝑆𝑆𝑒), 𝑆𝑆𝑒 = 𝒚′ 𝒚 − 𝒃′𝑿′𝒚, dengan n-k-1 derajat bebas,
3. Jumlah kuadrat total (Terkoreksi), 𝑆𝑆𝑡 = 𝒚′ 𝒚 − 𝑛𝑦̅ 2 , dengan n-1 derajat bebas . . . . . . (6.3.4)
Terlihat bahwa : 𝑆𝑆𝑡 = 𝑆𝑆𝑟 + 𝑆𝑆𝑒
𝑆𝑆𝑟/𝑘
Statistic uji F di (6.3.3) : 𝐹 = 𝑆𝑆𝑒/(𝑛−𝑘−1)
error mean square sebagai

𝑠 2 = 𝑀𝑆𝑒 = 𝑆𝑆𝑒/(𝑛 − 𝑘 − 1)
mean square regresi sebagai
𝑀𝑆𝑟 = 𝑆𝑆𝑟/𝑘
Format table ANOVA untuk masalah regresi berganda terlihat dalam table 6.3.1
Example 6.3.1 dalam table 6.2.2, kami lihat SAS GLM regression printout untuk masalah diskriminasi gaji.
ANOVA untuk masalah ini yaitu
Terlihat bahwa SSr = 988.2174, SSe = 126.3801, dan SSt = 1114.5975.

Ingat (6.2.1) diberikan 𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀 sebagai bentuk fungsional dari model yang digunakan
dalam analisis ini. Oleh karena itu, hasil
𝑀𝑆𝑟 329,4058
𝑓= = = 31,28
𝑀𝑆𝑒 10,5317
adalah nilai dari statistik yang digunakan untuk menguji 𝐻0 = 𝛽1 = 𝛽2 = 𝛽3 = 0. Ketika nilai statistic uji (31,28)
lebih besar dari f-tabel (𝑓.01,3,12 = 5,95), cukup alasan untuk menolak 𝐻0 pada level signifikansi 0.01 ( artinya
paling sedikit ada satu 𝛽𝑗 ≠ 0. Pada faktanya dapat dibandingkan p-value yang diperoleh dari hitung computer,
tingkat signifikansi saat kami akan menolak 𝐻0 pada semua level risiko karena p-value < 0,0001.
Coefficient of Determination
Simbol 𝑟 2 menyatakan “koefisien determinasi” yang menggambarkan proporsi dari variasi Y yang
dijelaskan oleh model.
Dengan menunjukkan formula ANOVA sums of squares dalam term summation symbol, terlihat bahwa
𝑆𝑆𝑡𝑜𝑡 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 , 𝑆𝑆𝑟𝑒𝑔 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 , 𝑆𝑆𝑒 = ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 . Menggunakan mean keseluruhan 𝑦̅
sebagai point referensi, logis untuk mengatakan bahwa SSt adalah suatu ukuran dari total variasi dalam 𝑦𝑖 ′𝑠 , SSr
menyatakan ukuran variation explained dan SSe variation unexplained oleh model regresi. Karena SSt = SSr +
SSe, maka
𝑛 𝑛 𝑛
∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦̂𝑖 − 𝑦̅) , + ∑(𝑦𝑖 − 𝑦̂𝑖 )2

2 2
𝑖=1 𝑖=1 𝑖=1
dengan kata lain, 𝑡𝑜𝑡𝑎𝑙 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 = 𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 + 𝑢𝑛𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛
Koefisien determinasi didefinisikan sebagai formula

𝑆𝑆𝑟 𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛
𝑟2 = = (6.3.5)
𝑆𝑆𝑡 𝑡𝑜𝑡𝑎𝑙 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛
Karena sums of squares are non-negative, 0 ≤ 𝑆𝑆𝑟 ≤ 𝑆𝑆𝑡, maka nilai dari 𝑟 2 terbatas pada kisaran 0 sampai 1.
6.4 SS( ) Notation and Adjusted Sum of Squares
Pada bagian ini diperkenalkan notasi yang memberikan cara singkat untuk mengungkapkan asal prosedural dari
sum of squares. Notasi ini akan sangat membantu dalam menyajikan rumus jumlah kuadrat ANOVA pada analisis
regrsi maupun rancangan percobaan.
Sebagai dasar pembahasan, mari pertimbangkan model regresi berganda pada analisis data “diskriminasi gaji” :
𝑌 = 𝛽0 +𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀
Dari Tabel 6.2.1 dan hasil printout tabel 6.2.2 didapat 𝑆𝑆𝑟 = 988,21743 dan 𝑆𝑆𝑒 = 126,38007. Pada skema
notasi SS (), kami menunjukkan jumlah regresi kuadrat untuk model 𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ), di mana kami
mengidentifikasi dalam tanda kurung adalah parameter model. Bila tujuan utama adalah menguji hipotesis
𝐻0 : 𝛽1 = 0, maka kita melakukan tes ini menggunakan prinsip kesalahan bersyarat. Pendekatan ini membutuhkan
kalkulasi 𝑆𝑆𝑒 ∗ − 𝑆𝑆𝑒, di mana 𝑆𝑆𝑒 ∗ adalah jumlah error kuadrat untuk model tereduksi 𝑌 = 𝛽0 ∗ + 𝛽2 ∗ 𝑥2 +
𝛽3 ∗ 𝑥3 + 𝜀 ∗ untuk model tereduksi ini kita tulis 𝑆𝑆𝑟 ∗ = SS(𝛽0 , 𝛽2 , 𝛽3 )= 988,08852 dan 𝑆𝑆𝑒 ∗ = 126,50898).
Sekarang identifikasi 𝑆𝑆𝑡 = 𝑆𝑆𝑟 + 𝑆𝑆𝑒 dan 𝑆𝑆𝑡 = 𝑆𝑆𝑟 ∗ + 𝑆𝑆𝑒 ∗ , 𝑆𝑆𝑒 ∗ − 𝑆𝑆𝑒 = 𝑆𝑆𝑟 − 𝑆𝑆𝑟 ∗ =
𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ) − 𝑆𝑆(𝛽0 , 𝛽2 , 𝛽3 ) = 0,2891. Akan ditunjukkan perbedaan jumlah kuadrat di atas dengan
ekspresi tunggal 𝑆𝑆(𝛽1 |𝛽0 , 𝛽2 , 𝛽3 ) yang dibaca sebagai " jumlah kuadrat untuk 𝛽1 dengan syarat 𝛽0 , 𝛽2 , 𝑑𝑎𝑛 𝛽3
sudah didalam model.
Jumlah kuarat regresi, 𝑆𝑆(𝛽1 |𝛽0 , 𝛽2 , 𝛽3 ) dimaknai sebagai kenaikan jumlah kuadrat regresi ketika kita
memasukkan 𝛽1 dalam model dan parameter 𝛽0 , 𝛽2 , 𝛽3 sudah didalam model. Kita juga dapat memperoleh nilai
𝑆𝑆(𝛽1 |𝛽0 , 𝛽2 , 𝛽3 ) sebagai pengurangan jumlah kesalahan kuadrat karena dimasukkannya 𝛽1 dalam model.
Dengan cara yg sama , ingin diuji Ho : 𝛽2 , = 𝛽3 = 0
Pandang model reduksi : Y = 𝛽0∗∗ + 𝛽1∗∗ +𝜀 ∗∗ → SSreg** = 𝑆𝑆(𝛽0 , 𝛽1 )
𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ) − 𝑆𝑆(𝛽0 , 𝛽1 ) = 𝑆𝑆(𝛽2 , 𝛽3 |𝛽0 , 𝛽1 )
More on SAS Type I and Type III Sums of Squares
Notasi yang telah kami perkenalkan di sini memungkinkan kami untuk memberi label jumlah kuadrat SAS Tipe
I dan Tipe III dan dengan demikian membedakan antara dua tipe dengan cara yang tepat.
Example 6.4.1 Jika kita beralih ke tiga tabel yang terkait dengan masalah nilai poin, kita
menemukan 𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 ) = 7.49370 (𝑇𝑎𝑏𝑙𝑒 6.2.4), 𝑆𝑆(𝛽0 , 𝛽1 ) = 5.11377 (𝑇𝑎𝑏𝑙𝑒 6.2.6), dan 𝑆𝑆(𝛽0 , 𝛽2 ) =
7.46097. Dari pembahasan kita sebelumnya tentang arti jumlah kuadrat Tipe I dan Tipe III, sekarang kita dapat
memberi label output pada Tabel 6.2.4 sebagai berikut:
Type I SS Type III SS

ACT 𝑆𝑆(𝛽0 , 𝛽1 ) 5,11377 ACT 𝑺𝑺(𝛽1|𝛽0 , 𝛽2 ) 0,03273
RANK 𝑆𝑆(𝛽2 |𝛽0 , 𝛽1) 2,37993 RANK 𝑺𝑺(𝛽2 |𝛽0 , 𝛽1 ) 2,37993
Contoh 6.4.2 :
Perhatikan Tabel 6.2.2 yang terkait dengan model regresi 𝑌 = 𝛽0 +𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀.
Menurut definisi, jumlah kuadrat Tipe I dapat dinyatakan sebagai jumlahan partisi dari jumlah kuadrat regresi
berikut:
𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ) = 𝑆𝑆(𝛽0 , 𝛽1 ) + 𝑆𝑆(𝛽2|𝛽0 , 𝛽1 ) + 𝑆𝑆(𝛽3|𝛽0 , 𝛽1 , 𝛽2 )
= 26,26817 + 476,65270 + 485,29656 = 988,21743.
Jumlah kuadrat tipe III merupakan "jumlah kesalahan kuadrat parameter tersebut bersyarat parameter lain telah
ada dalam model", sehingga “jumlah kuadrat tipe III dapat digunakan dalam menguji koefisien 𝛽1 , 𝛽2 , 𝛽3 secara
individual sama dengan nol. Pada model diatas, 𝑆𝑆(𝛽1 |𝛽0 , 𝛽2 , 𝛽3 ) = 0,12891; 𝑆𝑆(𝛽2 |𝛽0 , 𝛽1 , 𝛽3 ) = 864,87096,
dan 𝑆𝑆(𝛽3 |𝛽0 , 𝛽1 , 𝛽2 ) = 485,29656.
6.5 Orthogonal Polinomial

Teorema 6.5.1
Misal intercept untuk model regresi linear untuk n observasi yaitu:
𝒀 = 𝑿𝜷 + 𝜺 dan bentuk untuk sampel 𝒚 = 𝑿𝒃 + 𝒆
Misal matriks X dibentuk oleh vector- vektor kolom:
𝑿 = [𝟏 𝒙𝟏 𝒙𝟐 … 𝒙𝒌 ]
dimana 1 merepresentasikan sebuah vektor kolom dengan semua elemennya adalah satu. Jika vektor kolom X
mutually orthogonal, 𝟏′ 𝒙𝒋 = 𝟎 ∀𝑗 = 1,2, … , 𝑘, dan 𝒙′𝒋 𝒙𝒍 = 𝟎 ∀𝑗 l ,𝑗 ≠ l , sehingga diperoleh hasil berikut:
𝒙′ 𝒚 ∑𝑛
𝑖=1 𝑥𝑖𝑗 𝑦𝑖
1. 𝑏0 = ∑𝑛𝑖=1 𝑦𝑖 /𝑛 dan 𝑏𝑗 = 𝒙′𝑗𝒙 = ∑𝑛 2 , untuk j=1,2,...,k.
𝑗 𝑗 𝑖=1 𝑥𝑖𝑗
2. Sum of squares untuk 𝛽𝑗 , adjusted untuk semua koefisien lainnya dan dinotasikan dengan 𝑆𝑆(𝛽𝑗 ) sebagai
berikut:
2 2
(𝒙𝑗′ 𝒚) ∑𝑛𝑖=1(𝑥𝑖𝑗 𝑦𝑖 )
𝑆𝑆(𝛽𝑗 ) = ′ = 𝑢𝑛𝑡𝑢𝑘 𝑗 = 1,2, … , 𝑘,
𝒙𝑗 𝒙𝑗 ∑𝑛𝑖=1 𝑥𝑖𝑗
2
2
(∑𝑛𝑖=1 𝑦𝑖 )
𝑑𝑎𝑛 𝑆𝑆(𝛽0 ) = = 𝑛𝑦̅.
𝑛
′ ′ 2
3. 𝑆𝑆𝑟 = 𝒃 𝑿 𝒚 − 𝑛𝑦̅ , dapat dipartisi menjadi 𝑆𝑆𝑟 = 𝑆𝑆(𝛽1 ) + 𝑆𝑆(𝛽2 ) + ⋯ + 𝑆𝑆(𝛽𝑘 ).
Teorema 6.5.1
Pertimbangkan model regresi linier dengan intersep untuk n observasi :
𝒀 = 𝑿𝜷 + 𝜺 dan bentuk untuk sampelnya 𝒚 = 𝑿𝒃 + 𝒆.
Tuliskan bentuk matriks X sebagai himpunan dari vector kolom :

𝑿 = [𝟏 𝒙! 𝒙𝟐 ⋯ 𝒙𝒌 ]
1 merepresentasikan vector kolom yang semua elemennya adalah angka 1.
Vektor-vektor kolom yang membangun X dikatakan mutually orthogonal apabila
𝟏′ 𝒙𝒋 = 0 , ∀𝑗, 𝑗 = 1,2, … , 𝑘
dan
𝒙′𝒋 𝒙𝒍 = 0, ∀𝑗 𝑑𝑎𝑛 𝑙, 𝑗 ≠ 𝑙.
Maka, diperoleh ketiga hasil berikut :
𝑦
(1) 𝑏0 = ∑𝑛𝑖=1 𝑛𝑖
𝑥𝑗 ′𝑦 ∑𝑛
𝑏𝑗 = = ∑𝑛
𝑢𝑛𝑡𝑢𝑘 𝑗 = 1,2, … , 𝑘
𝑥𝑗′ 𝑥𝑗 2
𝑖=1 𝑥𝑖𝑗
(2) 𝑆𝑆(𝛽𝑗 ) dalah sum of squares untuk 𝛽𝑗 , disesuaikan untuk semua koefisien lainnya.
∑𝑛
𝑖=1(𝑥𝑖𝑗 𝑦𝑖 )
2
𝑆𝑆(𝐵𝑗 ) = ∑𝑛 2 𝑢𝑛𝑡𝑢𝑘 𝑗 = 1,2, … , 𝑘
𝑖=1 𝑥𝑖𝑗
2
(∑𝑛
𝑖=1 𝑦𝑖 )
𝑆𝑆(𝛽0 ) = 𝑛
= 𝑛𝑦̅ 2 .
(3) Sum of squares regresi dapat dipartisi menjadi :

𝑆𝑆𝑟 = 𝑆𝑆(𝛽1 ) + 𝑆𝑆(𝛽2 ) + ⋯ + 𝑆𝑆(𝛽𝑘 ) .
Pembuktian
Karena kolom-kolom pada matriks X orthogonal, maka X’X berbentuk matriks diagonal :
𝑛 0 0 ⋯ 0
𝑛
2
0 ∑ 𝑥𝑖1 0 ⋯ 0
𝑖=1
𝑛
′ 2
𝑿𝑿= 0 0 ∑ 𝑥𝑖2 ⋯ 0
𝑖=1
⋮ ⋮ ⋮ ⋮ ⋮
𝑛
2
0 0 0 ⋯ ∑ 𝑥𝑖𝑘
[ 𝑖=1 ]
𝒃 = (𝑿′ 𝑿)−𝟏 𝑿′𝒚
𝒚
Maka, 𝒃𝟎 = ∑𝒏𝒊=𝟏 𝒏𝒊
∑𝑛
Dan 𝑏𝑗 = ∑𝑛 2 𝑢𝑛𝑡𝑢𝑘 𝑗 = 1,2, … , 𝑘
𝑖=1 𝑥𝑖𝑗
2
(∑𝑛
𝑖=1 𝑦𝑖 ) ∑𝑛
𝑖=1(𝑥𝑖𝑗 𝑦𝑖 )
2
Entri dari vector 𝒃′𝑿′𝒚 adalah 𝑛
dengan elemen k yang tersisa, ∑𝑛 2 untuk j = 1,2,..,k.
𝑖=1 𝑥𝑖𝑗
Pada regresi linier umum, sum of squares untuk parameter 𝛽𝑗 adalah fungsi dari elemen kolom ke-j dengan elemen vector
y, yang independent dari entri kolom lainnya.
𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 + 𝜀, 𝑖 = 1,2, . . , 𝑛 ……. (6.5.1)
Tuliskan Kembali model (6.5.1) dalam bentuk :
𝑌𝑖 = 𝛼0 + 𝛼1 𝑝1 (𝑥𝑖 ) + 𝛼2 𝑝2 (𝑥𝑖 ) + ⋯ + 𝛼𝑘 𝑝𝑘 (𝑥𝑖 ) + 𝜀, 𝑖 = 1,2, … , 𝑛 ….. (6.5.2)
Dimana 𝑝𝑗 (𝑥𝑖 ), 𝑗 = 1,2, … , 𝑘 adalah polynomial derajat j dalam 𝑥𝑖 . Maka :
∑ 𝑝𝑗 (𝑥𝑖 )𝑝𝑙 (𝑥𝑖 ) = 0 𝑢𝑛𝑡𝑢𝑘 𝑗 𝑑𝑎𝑛 𝑙, 𝑗 ≠ 𝑙

𝑖=1
dan
∑ 𝑝𝑗2 (𝑥𝑖 ) ≠ 0 𝑢𝑛𝑡𝑢𝑘 𝑗 = 1,2, … , 𝑘.

𝑖=1
(6.5.2) dapat ditulis dalam bentuk matriks :
𝒀 = 𝑷𝜶 + 𝜺
Dimana matriks P adalah himpunan kolom vector orthogonal.
𝑷 = [𝟏 𝒑𝟏 𝒑𝟐 ⋯ 𝒑𝒌 ]
Apabila seluruh k+1 kolom dari matriks P mutually orthogonal, maka ∑𝑛𝑖=1 𝑝𝑗 (𝑥𝑖 ) = 0 adalah Batasan yang perlu untuk
𝑝𝑗 (𝑥𝑖 ).
Akan digunakan proses ortogonalisasi Gram-Schmidt untuk memperolah himpunan kolom vector orthogonal P dari matriks
X sesuai dengan (6.5.1)
Contoh :
Misal akan dicocokan polynomial derajat 3 ke dalam observasi dengan n=8 dari Exercise 3-6.
y 1 3 -2 -4 -3 -5 6 4
x 1 1 2 2 3 3 4 4
Data di atas terdiri dari m=4 level dari variable independent X, dengan pengulangan sebanyak r=2.
Pertama, parametrisasi ulang model polynomial orthogonal :
𝑌𝑖 = 𝛼0 + 𝛼1 𝑝1 (𝑥) + 𝛼2 𝑝2 (𝑥) + 𝛼3 𝑝3 (𝑥) + 𝜀
Dimana 𝑝𝑗 (𝑥) adalah polynomial derajat ke-j, j=1,2,3.
Dalam bentuk matriks :
𝒀 = 𝑷𝜶 + 𝜺
Dimana matriks P adalah himpunan kolom vector orthogonal.
𝑷 = [𝟏 𝒑𝟏 𝒑𝟐 ⋯ 𝒑𝒌 ]
Untuk mendapatkan 𝒑𝒋 , akan digunakan Proses Ortogonalisasi Gram-Schmidt.
𝒑𝟎 = 𝒙𝟎
𝒑′𝟎 𝒙𝟏
𝒑𝟏 = 𝒙𝟏 − 𝒑
𝒑′𝟎 𝒑𝟎 𝟎
𝒑′𝟎 𝒙𝟐 𝒑′𝟏 𝒙𝟐
𝒑𝟐 = 𝒙𝟐 − 𝒑 − 𝒑
𝒑′𝟎 𝒑𝟎 𝟎 𝒑′𝟎 𝒑𝟏 𝟏
𝒑′𝟎 𝒙𝟑 𝒑′𝟏 𝒙𝟑 𝒑′𝟐 𝒙𝟑

𝒑𝟑 = 𝒙𝟑 − 𝒑 − 𝒑 − 𝒑
𝒑′𝟎 𝒑𝟎 𝟎 𝒑′𝟏 𝒑𝟏 𝟏 𝒑′𝟐 𝒑𝟐 𝟐
Dalam soal ini, perbedaan level x adalah x = 1, 2, 3, 4. Maka diperoleh :
𝟏 𝟏 𝟏 𝟏
𝟏 𝟐 𝟐 𝟒 𝟑 𝟖
𝒙𝟎 = 𝟏 = [ ] , 𝒙𝟏 = 𝒙 = [ ] , 𝒙𝟐 = 𝒙 = [ ] , 𝒙𝟑 = 𝒙 = [ ]
𝟏 𝟑 𝟗 𝟐𝟕
𝟏 𝟒 𝟏𝟔 𝟔𝟒
Sehingga,
𝟏
𝟏
𝒑𝟎 = [ ]
𝟏
𝟏
𝟑
−𝟐
𝟏
𝟓 −𝟐
𝒑𝟏 = 𝒙𝟏 − 𝒑 =
𝟐 𝟎 𝟏
𝟐
𝟑
[ 𝟐 ]
Pada praktiknya, untuk menghindari pecahan, akan dihitung

−𝟑
−𝟏
𝒑∗𝟏 = 𝟐𝒙𝟏 − 𝟓𝒑𝟎 = [ ]
𝟏
𝟑
𝟏
𝟏𝟓 −𝟏
𝒑𝟐 = 𝒙𝟐 − 𝒑
𝟐 𝟎
− 𝟓𝒑𝟏 = 𝒙𝟐 − 𝟓𝒙𝟏 + 𝟓𝒙𝟎 = [ ]
−𝟏
𝟏
𝟑
−
𝟏𝟎
𝟗
𝟏𝟎𝟒 𝟏𝟓 𝟏𝟓 𝟏𝟔𝟕 𝟐𝟏 𝟏𝟎
𝒑𝟑 = 𝒙𝟑 − 𝟐𝟓𝒑𝟎 − 𝟓
𝒑𝟏 − 𝟐 𝟐
𝒑 = 𝒙𝟑 − 𝟐 𝟐
𝒙 − 𝒙
𝟏𝟎 𝟏
− 𝒙
𝟐 𝟎
= 𝟗
− 𝟏𝟎
𝟑
[ 𝟏𝟎 ]
10
Untuk menghindari pecahan, matriks dikali dengan 𝜆3 = , sehingga diperoleh :
3
−𝟏
𝟏𝟎 𝟑
𝒑∗𝟑 = 𝒑
𝟑 𝟑
=[ ]
−𝟑
𝟏
1 −3 1 −1 1
1 −3 1 −1 3
1 −1 −1 3 −2
1 −1 −1 3 −4
Didapat matriks 𝑷∗ = dan 𝑦 =
1 1 −1 −3 −3
1 1 −1 −3 −5
1 3 1 1 6
[1 3 1 1] [4]
𝟎
𝟐
𝒂𝟎
′ −𝟏
𝟓 𝒂𝟏
𝒂 = (𝑷∗ 𝑷∗ ) 𝑷∗ 𝒚 = 𝟕 = [𝒂 ]
𝟐
𝟐 𝒂𝟑
𝟑
[𝟏𝟎]
Maka, fungsi estimasi regresi untuk polynomial orthogonal adalah :
𝑦̂ = 𝑎0 + 𝑎1 𝑃1∗ (𝑥) + 𝑎2 𝑃2∗ (𝑥) + 𝑎3 𝑃3∗ (𝑥)
2 7 3
𝑦̂ = 𝑃1∗ (𝑥) + 𝑃2∗ (𝑥) + 𝑃3∗ (𝑥)
5 2 10
2 7 3 1
𝑦̂ = (2𝑥 − 5) + (𝑥 2 − 5𝑥 + 5) + [ (10𝑥 3 − 75𝑥 2 + 167𝑥 − 105)] = 5 − 4𝑥 + 𝑥 3
5 2 10 3
6.6 Response Analysis Using Orthogonal Polynomials

Untuk model polynomial orthogonal dengan k derajat bebas dan n titik data, modelnya adalah:
𝑌𝑖 = 𝛼0 + 𝛼1 𝑝1 (𝑥𝑖 ) + 𝛼2 𝑝2 (𝑥𝑖 ) + ⋯ + 𝛼𝑘 𝑝𝑘 (𝑥𝑖 ) + 𝜀, 𝑖 = 1,2,3, … , 𝑛
Dengan Sum of Square Partition:
𝑆𝑆𝑟 = 𝑆𝑆(𝛼1 ) + 𝑆𝑆(𝛼2 ) + ⋯ + 𝑆𝑆(𝛼𝑘 )
Untuk 𝑗 koefisien sum of square, diberikan:
[∑𝑛𝑖=1 𝑝𝑗 (𝑥𝑖 )𝑦𝑖 ]
𝑆𝑆(𝛼𝑗 ) = , 𝑗 = 1,2, … , 𝑘
∑𝑛𝑖=1 𝑝𝑗2 (𝑥𝑖 )
Untuk menjawab apakah ada efek polynomial ke- 𝑗 maka akan diuji 𝐻0 : 𝛼𝑗 = 0 (tidak ada efek polynomial ke- 𝑗)
dengan menerapkan:
𝑆𝑆𝑒 (full model) - 𝑆𝑆𝑒 (reduced model) = 𝑆𝑆(𝛼𝑗 )
Uji statistik untuk 𝐻0 : 𝛼𝑗 = 0 adalah
𝑆𝑆(𝛼𝑗 )
𝑓= , 𝑗 = 1,2, … , 𝑘
𝑠2
Di mana:
𝑠 2 adalah MSE dari fitted model. Dengan derajat bebas Statistik F adalah 1 dan n-k-1
Selanjutnya akan dijelaskan bagaima jika table polinomial tidak dapat digunakan(saat tingkat variable bebas tidak
sama). Dengan menggunakan regresi, agar sesuai dengan polinomial bertingkat.
Misal diketahui full model:
𝑌 = 𝛽0 + 𝛽1 𝑥 + 𝛽2 𝑥 2 + 𝛽3 𝑥 3 + 𝜀
Kemudian fitting reduced model, sehingga:
𝑌 = 𝛽0∗ + 𝛽1∗ 𝑥 + 𝜀 ∗
Sehingga diperoleh:
𝑆𝑆𝑟 ∗ = 𝑆𝑆(𝛽0 , 𝛽1 ) = 𝑆𝑆(𝛼1 )
The fitiing
𝑌 = 𝛽0∗∗ + 𝛽1∗∗ 𝑥 + 𝛽2∗∗ 𝑥 2 + 𝜀 ∗∗
𝑆𝑆(𝛽2 |𝛽0 , 𝛽1 ) = 𝑆𝑆𝑟 ∗∗ − 𝑆𝑆𝑟 ∗ = 𝑆𝑆𝑒 ∗ −𝑆𝑆𝑒 ∗∗ = 𝑆𝑆(𝛼2 )
Maka:
𝑆𝑆(𝛽3 |𝛽0 , 𝛽1 , 𝛽2 ) = 𝑆𝑆𝑟 − 𝑆𝑆𝑟 ∗∗ = 𝑆𝑆𝑒 ∗∗ −𝑆𝑆𝑒 = 𝑆𝑆(𝛼3 )
An Experimental Design Example
Untuk menganalisis data, maka diperoleh model:

𝑌 = 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥22 + 𝛽4 𝑥1 𝑥2 + 𝛽5 𝑥1 𝑥22 + 𝜀
Untuk model polynomial orthogonal:
𝑌 = 𝛼0 + 𝛼1 𝑝1 (𝑥1 ) + 𝛼2 𝑝1 (𝑥2 ) + 𝛼22 𝑝2 (𝑥2 ) + 𝛼12 𝑝1 (𝑥1 )𝑝1 (𝑥2 ) + 𝛼122 𝑝1 (𝑥1 )𝛼2 𝑝2 (𝑥2 ) + 𝜀
Dari tabel, kita dapat memperoleh matriks 𝑷 dan vektor 𝒚 sebagai berikut:
Kemudian SSt diperoleh dengan:
dengan menggunakan formula (6.6.1) menghitung dot product dari vektor 𝒚 dengan orthogonal polynomial dari
kolom matriks 𝑷. Kita dapat menghitung model some of square, dimana:
Sehingga dapar dihitung error sum of square

𝑆𝑆𝑒 − 𝑆𝑆𝑡 − 𝑆𝑆𝑟 = 2.04640
Dengan derajat bebas = 11 – 5 = 6. Kita dapat memperoleh tabel ANOVA sebagai berikut:
Besarnya nilai f = 63.03 menunjukkan bahwa model (6.6.4) menjelaskan sebagian besar variasi dalam respon
terhadap tekanan dan suhu. (Bandingkan dengan 𝑓0.01,5,6 = 8.75) Untuk menentukan sifat matematis dari
pengaruh tekanan dan suhu terhadap respon, kita bandingkan dengan nilai kritis 𝑓0.05,1,6 = 5.99 dan 𝑓0.01,1,6 =
13.7. Sehingga dapat disimpulkan efek linier yang sangat signifikan dari tekanan pada respons (persentase hasil
meningkat dengan peningkatan tekanan). Selain itu, dapat disimpulkan juga bahwa selama domain eksperimen,
pengaruh suhu terhadap hasil adalah linier dan kuadrat (persentase hasil meningkat dengan meningkatnya suhu
tetapi dengan laju yang menurun). Tidak ada istilah produk ("interaksi") dalam model yang signifikan pada
tingkat signifikansi 0.05.
Sehingga contoh ini menggambarkan bahwa "fitting" model matematika adalah inti dari analisis data desain
eksperimen.

Review Bab 6

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Review Bab 6

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB 6

INFERENSI UNTUK REGRESI LINIER BERGANDA

6.1 The Multiple Regression Model Revisited

Dalam bentuk matriks :

dengan vektor respon 𝒀 berukuran 𝑛 × 1, matriks prediktor 𝑿 berukuran 𝑛 × (𝑘 + 1), matriks

Persamaan Normal (Normal equations)

𝓵′ 𝒃 ± 𝑡𝛼,𝑛−𝑘−1 , √𝒔𝟐 𝓵′ (𝑿′ 𝑿)−𝟏 𝓵′ . . . . . . (6.1.4)

Interval kepercayaan 100(1-𝛼)% untuk setiap 𝛽𝑗 , j = 0,1,…,k adalah

𝑏𝑗 ± 𝑡𝛼,𝑛−𝑘−1 √𝑠 2 𝑐𝑗𝑗 ....... (6.1.5)

Pada kasus regresi, statistik uji adalah:

Lebih tepatnya, dibawah hipotesis Ho benar → 𝐻0 : 𝛽𝑗 = 0

dimana 𝑐𝑗𝑗 adalah elemen diagonal ke-j dari (X’X)-1.

6.2 Computer-Aided Inference in Regression

Contoh Masalah Diskriminasi Gaji ,

“pengalaman kerja”. Diasumsikan bentuk fungsional dari model regresinya adalah :

𝑌𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝛽3 𝑥𝑖3 + 𝜀𝑖 , 𝑖 = 1,2, . .16 . . . . (6.2.1)

𝑌𝑖 = gaji tahunan dari karyawan ke-i (dibulatkan ke $1000)

Berikut adalah uji signifikansi koefisien parameter → 𝐻0 : 𝛽𝑗 = 0 j= 0.1,2,3 vs 𝐻1 : 𝛽𝑗 ≠ 0

Dari output diatas, didapatkan taksiran regresi dengan metoda least-square :

𝑦̂ = 𝑏0 + 𝑏1 𝑥1 + 𝑏2 𝑥2 + 𝑏3 𝑥3 = −16.477 − 0.190𝑥1 + 2.7.29𝑥2 + 0.554𝑥3

𝑡 = 𝑏1 /√𝑠 2 𝑐11 = −0.19/1.715877 = −0.11 . . . . (6.2.4)

√𝑠 2 𝑐11 = √10.53167(0.27956) = 1.715877

Interval kepercayaan 95 % untuk 𝜇𝑦|𝒙 :

Dari pers 6.1.4 : 𝓵′ 𝒃 ± 𝑡𝛼,𝑛−𝑘−1 , √𝒔𝟐 𝓵′ (𝑿′ 𝑿)−𝟏 𝓵′

Type I dan Type III Sum of Squares

6.3 Regression Analysis of Variance

𝑆𝑆𝑒 ∗ = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑(𝑦𝑖 − 𝑦̅)2 = 𝒚′ 𝒚 − 𝑛𝑦̅ 2

𝑆𝑆𝑡𝑜𝑡𝑎𝑙 𝑡𝑒𝑟𝑘𝑜𝑟𝑒𝑘𝑠𝑖 = ∑(𝑦𝑖 − 𝑦̅)2 = 𝒚′ 𝒚 − 𝑛𝑦̅ 2

error mean square sebagai

Terlihat bahwa SSr = 988.2174, SSe = 126.3801, dan SSt = 1114.5975.

∑(𝑦𝑖 − 𝑦̅) = ∑(𝑦̂𝑖 − 𝑦̅) , + ∑(𝑦𝑖 − 𝑦̂𝑖 )2

𝑖=1 𝑖=1 𝑖=1

dengan kata lain, 𝑡𝑜𝑡𝑎𝑙 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 = 𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛 + 𝑢𝑛𝑒𝑥𝑝𝑙𝑎𝑖𝑛𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑜𝑛

Koefisien determinasi didefinisikan sebagai formula

Dengan cara yg sama , ingin diuji Ho : 𝛽2 , = 𝛽3 = 0

Pandang model reduksi : Y = 𝛽0∗∗ + 𝛽1∗∗ +𝜀 ∗∗ → SSreg** = 𝑆𝑆(𝛽0 , 𝛽1 )

𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ) − 𝑆𝑆(𝛽0 , 𝛽1 ) = 𝑆𝑆(𝛽2 , 𝛽3 |𝛽0 , 𝛽1 )

More on SAS Type I and Type III Sums of Squares

Type I SS Type III SS

Perhatikan Tabel 6.2.2 yang terkait dengan model regresi 𝑌 = 𝛽0 +𝛽1 𝑥1 + 𝛽2 𝑥2 + 𝛽3 𝑥3 + 𝜀.

𝑆𝑆(𝛽0 , 𝛽1 , 𝛽2 , 𝛽3 ) = 𝑆𝑆(𝛽0 , 𝛽1 ) + 𝑆𝑆(𝛽2|𝛽0 , 𝛽1 ) + 𝑆𝑆(𝛽3|𝛽0 , 𝛽1 , 𝛽2 )

= 26,26817 + 476,65270 + 485,29656 = 988,21743.

6.5 Orthogonal Polinomial

Pertimbangkan model regresi linier dengan intersep untuk n observasi :

𝒀 = 𝑿𝜷 + 𝜺 dan bentuk untuk sampelnya 𝒚 = 𝑿𝒃 + 𝒆.

Tuliskan bentuk matriks X sebagai himpunan dari vector kolom :

1 merepresentasikan vector kolom yang semua elemennya adalah angka 1.

Vektor-vektor kolom yang membangun X dikatakan mutually orthogonal apabila

Maka, diperoleh ketiga hasil berikut :

(3) Sum of squares regresi dapat dipartisi menjadi :

𝒃 = (𝑿′ 𝑿)−𝟏 𝑿′𝒚

𝑌𝑖 = 𝛽𝑜 + 𝛽1 𝑥𝑖 + 𝛽2 𝑥𝑖2 + ⋯ + 𝛽𝑘 𝑥𝑖𝑘 + 𝜀, 𝑖 = 1,2, . . , 𝑛 ……. (6.5.1)

Tuliskan Kembali model (6.5.1) dalam bentuk :

𝑌𝑖 = 𝛼0 + 𝛼1 𝑝1 (𝑥𝑖 ) + 𝛼2 𝑝2 (𝑥𝑖 ) + ⋯ + 𝛼𝑘 𝑝𝑘 (𝑥𝑖 ) + 𝜀, 𝑖 = 1,2, … , 𝑛 ….. (6.5.2)

Dimana 𝑝𝑗 (𝑥𝑖 ), 𝑗 = 1,2, … , 𝑘 adalah polynomial derajat j dalam 𝑥𝑖 . Maka :

∑ 𝑝𝑗 (𝑥𝑖 )𝑝𝑙 (𝑥𝑖 ) = 0 𝑢𝑛𝑡𝑢𝑘 𝑗 𝑑𝑎𝑛 𝑙, 𝑗 ≠ 𝑙

∑ 𝑝𝑗2 (𝑥𝑖 ) ≠ 0 𝑢𝑛𝑡𝑢𝑘 𝑗 = 1,2, … , 𝑘.

(6.5.2) dapat ditulis dalam bentuk matriks :

Dimana matriks P adalah himpunan kolom vector orthogonal.

𝑌𝑖 = 𝛼0 + 𝛼1 𝑝1 (𝑥) + 𝛼2 𝑝2 (𝑥) + 𝛼3 𝑝3 (𝑥) + 𝜀

Dimana 𝑝𝑗 (𝑥) adalah polynomial derajat ke-j, j=1,2,3.

Dalam bentuk matriks :