Anda di halaman 1dari 27

4.

Regresi: Membangun
Model Statistik
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
84
Dalam banyak permasalahan
industri, kita perlu / ingin menyelidiki
hubungan antara satu variabel
dengan variabel lainnya untuk
memahami, meramalkan kelakuan &
mengendalikan proses
Contoh:
bagaimana hubungan kuantitatif
antara luas permukaan & aktivitas
katalis ?
bagaimana hubungan kuantitatif
antara laju keluaran (throughput) vs.
rpm suatu pompa sentrifugal ?
apakah ada hubungan antara
temperatur kukus HP dengan efisiensi
termal keseluruhan pabrik ?
...dan sebagainya.
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
85
Korelasi x-y
korelasi antara X & Y bisa diidentifikasi melalui scatter
plot:
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
86
Regresi Linier Sederhana
Model statistik:
y = |
0
+ |
1
x + c
dimana:
y = variabel dependen/output/respons
x = variabel independen/predictor
c = error/galat
Galat = komponen acak dalam model
Komponen non-acak: |
0
+ |
1
x, menyatakan
harga rata-rata y pada suatu harga x
Sehingga, jika kita nyatakan model linier di
atas secara verbal:
y = (rata2 y utk x tertentu) + galat
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
87
Asumsi-asumsi model regresi
linier sederhana:
1. Hubungan antara x dan
y adalah linier
2. Harga-harga x tertentu
(tidak acak); sumber
ketidaktentuan y adalah
galat c
3. Galat c terdistribusi
secara normal dg rata-
rata 0 & varians o
2
;
galat tiap observasi
tidak terkorelasikan
dengan galat observasi
berikutnya
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
88
Estimasi parameter
Setiap titik data dimodelkan dg: y = |
0
+ |
1
x
+ c
Untuk melengkapi model di atas, kita
harus mengestimasi parameter2 |
0
dan
|
1
Mengapa estimasi ?
Yang kita kerjakan dalam regresi
sebenarnya adalah mencari statistik2
sampel b
i
yang merupakan estimator /
penghampir terbaik bagi |
i
Model dinyatakan dg estimator:
y = b
0
+ b
1
x + e
Kriteria apa yang kita gunakan dalam
mencari parameter terbaik?
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
89
Galat regresi
2 2
1 1

( )
n n
E i i i
i i
SS e y y
= =
= =

Galat = selisih y
data
terhadap y
model
Kriteria parameter: meminimumkan total
galat (baik yang berharga positif
maupun negatif)
Kita ambil penjumlahan kuadrat galat (SS
E
=
sum of squares of errors) sebagai besaran
galat total yg hrs diminimumkan:
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
90
Meminimumkan SS
E
:
1. ambil turunan pertama SS
E
terhadap b
0
&
b
1
2. set SS
E
/ b
0
= SS
E
/ b
1
= 0 (minimize
SS
E
); yang tersusun adalah sistem 2
persamaan dalam 2 variabel bebas ...
normal equations
3. selesaikan secara simultan, sehingga kita
memperoleh b
0
& b
1
0 1
1 1
2
0 1
1 1 1
n n
i i
i i
n n n
i i i i
i i i
y nb b x
x y b x b x
= =
= = =
= +
= +


Persamaan-persamaan normal:
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
91
Solusi persamaan normal
X Y
2
2 2
2
2 2
xy
Sum of squares SS & SS :
( )
( )
( )
( )
Sum of cross products SS :
( )( )
( )( )
x
y
xy
x
SS x x x
n
y
SS y y y
n
x y
SS x x y y xy
n
= =
= =
= =




1
0 1
xy
x
SS
b
SS
b y b x
=
=
Solusi dari sistem persamaan normal
memberikan parameter-parameter berikut:
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
92
Kualitas Hasil Regresi
Varians galat (error variance) o
2
:
ingat bahwa kita mengasumsikan
komponen galat c terdistribusi secara
normal dg varians tetap
varians galat menyatakan tingkat sebaran
titik-titik data di sekitar garis regresi
estimator untuk o
2
adalah Mean Square
Error (MS
E
), S
2
MS
E
= SS
E
/(degree of freedom) = SS
E
/(n-
2)
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
93
Kualitas hasil regresi
Galat baku (standard error) parameter:
menggambarkan akurasi estimasi
parameter
Confidence interval dari parameter:
menyatakan interval yang mengandung
harga sejati untuk |
0
& |
1
2
0 0
( )
Galat baku b : ( )
dimana:
x
s x
s b
nSS
s MSE
=
=

1 1
Galat baku b : ( )
x
s
s b
SS
=
CI dengan tingkat keyakinan
(1-o)100% untuk |
0
:
b
0
t
o/2,n-2
s(b
0
)
CI dengan tingkat keyakinan
(1-o)100% untuk |
1
:
b
1
t
o/2,n-2
s(b
1
)
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
94
Korelasi Statistik
Untuk regresi linier, korelasi statistik
didefinisikan sebagai derajat hubungan linier
antara variabel x & y
Koefisien korelasi r:
=1 ... korelasi linier positif sempurna
= -1 ... korelasi linier negatif sempurna
=0 ... tidak ada korelasi
antara 0-1 ... mencerminkan derajat relatif dari
korelasi linier
xy
x y
SS
r
SS SS
=
Koefisien korelasi
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
95
r = 1 r = -1
r = 0
r = -0.8
r = 0.6
r = -0.9
r = 0.4 r = 0
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
96
Coefficient of determination r
2
koefisien determinasi r
2
merupakan
ukuran seberapa baik model mewakili data
Total deviation = unexplained deviation (error)
+ explained deviation (regression)
(y - y) = (y - y) + (y - y)
2 2 2
1 1 1
( ) ( ) ( )
SST = SSE + SSR
2 1
n n n
i i i i
i i i
y y y y y y
SSR SSE
r
SST SST
= = =
= +
= =

Persentase
variasi y
yang
dijelaskan
model!!
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
97
Interpretasi r
2
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
98
What is a good model?
Resiko dalam penyusunan model:
underfitting vs. overfitting
Underfitting: model terlalu sederhana
untuk dapat mewakili kelakuan data
secara keseluruhan (orde terlalu
rendah)
Overfitting: model terlalu berusaha
untuk menghampiri banyak data
secara eksak (orde terlalu tinggi)
Seharusnya:
Model dapat mewakili kelakuan data
dengan jumlah parameter sesedikit
mungkin
Model yang terlalu sederhana
memberikan R
2
rendah
Model yang terlalu rumit memberikan
R
2
tinggi, namun kehilangan arti fisik!
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
99
Underfitting vs. overfitting
Underfitting:
data nonlinier
dihampiri dengan
model linier
Overfitting:
orde model
terlalu tinggi
interpretasi
fisik?!
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
100
Regresi Linier Multivariabel
Dari mana asalnya?
1. jika y dipengaruhi oleh lebih dari satu
variabel bebas (x
1
,x
2
,x
3
...)
2. jika y merupakan fungsi tak linier (y
= a + bx
1
+ cx
1
2
)
Untuk fungsi tak linier, regresi
multivariabel dapat dilakukan setelah
linierisasi (dalam contoh di atas
misalnya x
2
=x
1
2
)
Asumsi model:
galat setiap observasi (titik data)
terdistribusi secara normal dengan
rata-rata 0 dan varians o
2
variabel tak bebas x merupakan
besaran tertentu (non-acak);
ketidaktentuan nilai y hanya
disebabkan oleh galat c
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
101
Regresi Linier 2-variabel
Sebagai contoh kita tinjau metode regresi
untuk respons y yang dipengaruhi 2 variabel:
x
1
, x
2
y = b
0
+ b
1
x
1
+ b
2
x
2
+ c
dengan menurunkan SS
E
/ b
0
= SS
E
/ b
1
=
SS
E
/ b
2
= 0, kita mendapatkan sistem
persamaan normal:
serupa dengan regresi satu variabel,
parameter-parameter b
0
, b
1
& b
2
dapat dicari
dengan menyelesaikan sistem persamaan
linier di atas secara simultan



+ + =
+ + =
+ + =
2
2 2 2 1 1 2 0 2
2 1 2
2
1 1 1 0 1
2
2
1 1 0
x b x x b x b y x
x x b x b x b y x
x b x b nb y
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
102
Kualitas penghampiran data
Koefisien determinasi R
2
, perhitungan
identik dengan regresi satu variabel
R
2
meningkat jika jumlah parameter
model ditambah (=resiko overfitting)
... peningkatan kualitas yang semu!
Besaran yang mampu mendeteksi
overfitting adalah adjusted R
2
Jika kita mengikutkan suku-suku model
yang tidak relevan, maka nilai R
2
adj
justru akan berkurang
) 1 /(
)] 1 ( /[
1
2

+
=
n SS
k n SS
R
T
E
adj
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
103
Prediksi dengan hasil regresi
Kekuatan dari teknik regresi tentunya
adalah tersedianya model yang
(diharapkan) mewakili kelakuan data
Keampuhan model dapat ditinjau dari
sempit / lebarnya rentang prediksi yang
dihasilkan
prediction interval confidence interval
95% prediction interval: pada tingkat
keyakinan 95%, nilai y
model
jika diberikan
harga x pasti berada di dalam prediction
interval
|
|
.
|

\
|

+ +
|
.
|

\
|

2 ) (
2 ) ( 1
1 2 ,
2
1 ) (
x x
x x
n
MSE n t x y
i
h
h
o
Prediction interval untuk regresi linier
sederhana:
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
104
Interpolasi vs. ekstrapolasi
Prediction interval semakin lebar jika kita
menjauh dari rentang x yang digunakan
untuk menyusun model (ke kiri maupun ke
kanan)... ketidakpastian prediksi meningkat!
Dengan kata lain, model regresi lebih
baik digunakan untuk interpolasi
daripada ekstrapolasi
100 90 80 70
4
3
2
C1
C
2
R-Sq = 0.772
Y = 0.1 + 3.17E-02X
95% PI
95% CI
Regressi on
Regression Plot
CI
PI
Regresi: Studi Kasus
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
106
Kasus 1: Kuat tekan katalis
Kekuatan mekanik katalis yang memadai mutlak
diperlukan untuk mencegah kerusakan / pecahnya
katalis selama charging maupun operasi. Sebagai
bagian dari suatu program pengembangan
kolaboratif dengan supplier katalis, dilakukan
pengukuran kuat tekan diametral suatu tipe catalyst
support sebagai fungsi lama periode sintering dalam
pembuatan.
Data yang diperoleh dapat dilihat di bawah.
Sebelum memulai pemodelan, kelakuan apa yang
sebaiknya diperiksa terlebih dahulu? Lakukan
analisis regresi linier terhadap data ini. Tentukan
confidence interval 95% untuk parameter |
1
.
Mengapa biasanya hanya confidence interval untuk
|
1
yang dicari?
Kuat
tekan
t sintering kuat
tekan
t sintering
160 10 181 20
171 15 188 25
175 15 193 25
182 20 195 28
184 20 200 30
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
107
Kasus 2: Keausan Bantalan Kompresor
Keausan bantalan kompresor gas proses diukur
sebagai fungsi: x1 = viskositas pelumas dan x2 =
beban kompresor. Data yang didapat adalah
sebagai berikut:
Lakukan analisis regresi multivariabel pada data di
atas. Uji kelayakan model Anda dengan meninjau
R
2
, R
2
adj
, serta plot-plot nilai residual. Bagaimana
komentar Anda?
y x1 x2
193 1.6 851
230 15.5 816
172 22.0 1058
91 43.0 1201
113 33.0 1357
125 40.0 1115
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
108
Kasus 3: Laju Korosi Buluh Penukar Panas
Laju korosi (y) buluh penukar panas diukur sebagai fungsi
konsentrasi total asam (x1) dan laju alir cairan (x2) di
dalam buluh. Berikut adalah data yang didapat:
Verifikasi ketaklinieran data di atas terlebih dahulu.
Selanjutnya, coba gunakan model non-linier berikut untuk
mewakili data:
y = |
0
+|
1
x
1
+|
2
x
2
+|
11
x
1
2
+|
22
x
2
2
+|
12
x
1
x
2
+c
Lakukan evaluasi kecukupan model di atas. Apakah jumlah
parameter kurang atau berlebihan?
y x1 x2
26 1.0 1.0
24 1.0 1.0
175 1.5 4.0
160 1.5 4.0
163 1.5 4.0
55 0.5 2.0
62 1.5 2.0
100 0.5 3.0
26 1.0 1.5
30 0.5 1.5
70 1.0 2.5
71 0.5 2.5
Pelatihan Statistika Industrial I -
Departemen Teknik Kimia ITB
109
Kasus 4: Regresi Non-Linier
Berikut adalah data pengukuran konsentrasi produk
sampingan suatu reaksi pada sejumlah temperatur
Lakukan regresi kuadratik pada data tersebut.
Gunakan command Minitab:
Stat>Regression>Fitted Line Plot; simpan hasil
perhitungan residual dan ymodel dengan mengklik
tombol Storage kemudian memilih Residuals dan
Fits
Lakukan analisis residual dengan command
Stat>Regression>Residual Plot. Bagaimana
komentar Anda?
Temperatur,
o
C
50 70 80 90 100
3.3 2.3 2.5 3.0 3.3
2.8 2.6 2.9 3.1 3.5
2.9 2.1 2.4 2.8 3.0

Anda mungkin juga menyukai