Anda di halaman 1dari 3

Transformasi Box Cox

wiwiek@statistika.its.ac.id

Pendahuluan
Pada pemodelan regresi linier, sering didapatkan model yang tidak sesuai. Ketidaksesuaian
dapat berupa :
- pengaruh prediktor tidak bermakna
- koefisien determinasi rendah
- plot residual tidak menunjukkan terpenuhinya asumsi i ~ iidn(0,2).
Apabila terdapat tanda ketidaksesuaian ini, maka dapat dilakukan salahsatu diantara cara-cara
berikut :
- meningkatkan ordo dari pertama menjadi kedua, ketiga, atau disertai interaksi
- transformasi

sebagai berikut :
1. Ditentukan nilai dengan kisaran (-2,2) atau
(-1,1), kemudian ditentukan level-level nilai
, sehingga terdapat sekitar 21 atau 11 level.
Tidak dikehendaki level bernilai 0.
2. Untuk setiap level nilai yang dipilih dihitung :
Lmaks ( ) 12 n ln 2 ( ) ln J ( , Y ) ,
dengan : n
= banyak amatan
2 ( ) = WT(I X(XTX)-1XT)W/n
Kalau diperhatikan,
WT(I X(XTX)-1XT)W = WTWWT X(XTX)-1XTW
= WTWWT Xb
= WTW bT XT W

Pada Tabel Anova, WTW bT XT W ini merupa-

Terdapat beberapa cara transformasi. Satu diantaranya ialah Transformasi Box Cox.

kan jumlah kuadrat error (sum of square error =


SSE) bila variabel respon adalah W dan prediktor
dirangkum di dalam matrik X, sehingga 2 ( ) =

Transformasi Box Cox

SSE/n = MSE(n-k-1)/n, dengan k = banyak prediktor. Ini berarti untuk setiap level yang dipilih
akan muncul nilai respon W = (Y 1) / , matrik X, penaksir koefisien regresi b, Tabel Anova, SSE/n atau 2 ( ) , serta J ( , Y ) , dengan :

Transformasi Box Cox diberlakukan kepada variabel respon, Y, yang harus bertanda positif,
dinyatakan dalam transformasi kuasa dengan
persamaan berikut :
(Y 1) /
ln Y

W=

untuk 0
untuk 0

Setelah Y ditransformasi menjadi W, maka


model menjadi :
W = X + ,
dengan i ~ iidn(0,2). Dengan demikian, pada
model regresi ini parameter yang perlu ditaksir
ialah : dan .
Salah satu metode penaksiran yang dapat digunakan ialah metode maksimum likelihood. Cara penaksiran agak berbeda dengan cara penaksiran yang biasa dilakukan, yaitu dengan menentukan nilai pada kisaran tertentu. Dengan
merujuk buku Analisis Regresi Terapan oleh
Draper & Smith, prosedur penaksiran ialah

J ( , Y ) =

n
Wi

Yi 1

Y
i 1
i 1
i
n

ln J ( , Y ) = ( 1) ln Yi
i 1

3. Dibuat plot Lmaks ( ) terhadap , kemudian


dideteksi nilai Lmaks ( ) tertinggi. Nilai
yang menghasilkan Lmaks ( ) tertinggi inilah
sebagai penaksir yang digunakan untuk
mendapatkan nilai W. Selanjutnya dilakukan
pemodelan regresi dengan variabel respon W
dan prediktor X.
Seringkali peneliti lebih senang menggunakan
nilai berupa bilangan bulat agar mudah. Nilai
ini dapat diperoleh dari selang kepercayaan .
1

C1

C2

C3

C6

C7

C8

C9

lamda

W_1

W2

Lmax(lamda)

26

-1

0,961538

25

-53,7125

38

12

-0,8

0,973684

37

-47,6751

50

24

-0,6

0,98

49

-40,5102

76

36

-0,4

0,986842

75

-31,4609

108

48

-0,2

0,990741

107

-20,0706

157

60

-0,15

0,993631

156

-17,4038

17

10

-0,1

0,941176

16

-15,4672

26

12

10

-0,08

0,961538

25

-15,0188

37

24

10

-0,06

0,972973

36

-14,8001

53

36

10

-0,05

0,981132

52

-14,782

83

48

10

-0,04

0,987952

82

-14,8256

124

60

10

-0,02

0,991935

123

-15,0951

13

20

0,01

0,923077

12

-15,9207

20

12

20

0,05

0,95

19

-17,6498

27

24

20

0,1

0,962963

26

-20,4287

37

36

20

0,2

0,972973

36

-26,534

57

48

20

0,4

0,982456

56

-37,2691

87

60

20

0,6

0,988506

86

-45,691

15

12

30

0,8

0,933333

14

-52,6704

22

24

30

0,954545

21

-58,7957

27

36

30

0,962963

26

41

48

30

0,97561

40

63

60

30

0,984127

62

Pemrograman untuk mendapatkan nilai penaksir dilakukan menggunakan Macro MINITAB,


dengan prosedur penaksiran seperti yang telah
diuraikan di halaman 1.
1. Ditentukan dengan kisaran (-1,1). Level-level dicantumkan pada kolom C6, yang dinamai lamda.
2. Pada setiap level , yang berarti setiap elemen kolom C6, dihitung Lmaks ( ) . Hasilnya
dicantumkan pada C9. Kolom C7 hasil transformasi pertama, yaitu = -1, dan C8 transformasi terakhir dengan = 1.
3. Selanjutnya dibuat plot Lmax(lamda) terhadap lamda.
Penyusunan program adalah sebagai berikut :

Pada Session dituliskan command awal :


let k1=0

Pada command line editor dituliskan rangkaian


command berikut :
let k1=k1+1
let c8=(Y**lamda(k1)-1)/lamda(k1)
name c8 'W2'
regres W2 2 f p;
MSE k2.
let k3=23
name k3 'n'
let k4=k2*(n-3)/n
let k5=(lamda(k1)-1)*sum(loge(Y))
name k5 'lnJacobi'
name k4 'taulamda'
let k6=-0.5*n*loge(taulamda)+lnJacobi
name k6 'Lmaxlamda'
let c9(k1)=Lmaxlamda
MTB > name c9 'Lmax(lamda)'

Rangkaian command ini di submit 20 kali, sebanyak level lamda. Kemudian dibentuk plot
Lmax(lamda) terhadap lamda dengan command
berikut,
MTB > Plot 'Lmax(lamda)'*'lamda';
SUBC>
Symbol;
SUBC>
Connect.
Scatterplot of Lmax(lamda) vs lamda
Scatterplot of Lmax(lamda) vs lamda
-10

-20

Lmax(lamda)

Contoh 1
Contoh ini diambil dari buku Analisis Regresi
Terapan oleh Draper & Smith, halaman 219222. Kolom C1, C2, dan C3 masing-masing adalah variabel respon dan dua prediktor. Nilai
respon tertinggi/terendah = 157/13 = 12,1 > 10.
Ini menunjukkan transformasi terhadap respon
layak diberlakukan.

-30

-40

-50

-60
-1,0

-0,5

0,0
lamda

0,5

1,0

Secara visual Lmax(lamda) tertinggi dicapai


pada bernilai 0, sehingga dapat disimpulkan
bahwa transformasi yang baik ialah W = ln Y.

Predictor
Constant
f
p

Coef
3,21221
0,0308843
-0,0315180

S = 0,0508467

Regression Analysis: Y versus f; p


The regression equation is
Y = 28,2 + 1,56 f - 1,72 p
Predictor
Constant
f
p

Coef
28,184
1,5587
-1,7166

S = 13,8214

SE Coef
6,332
0,1452
0,2640

R-Sq = 87,9%

T
4,45
10,73
-6,50

P
0,000
0,000
0,000

Source
Regression
Residual Error
Total

DF
2
20
22

MS
13921
191

F
72,87

Source
f
p

DF
1
1

Residual Plots for WW


Residual Plots for WW
Normal Probability Plot of the Residuals

P
0,000

Residuals Versus the Fitted Values

99

0,10

90

0,05

50
10
1

-0,10

-0,05

0,00
Residual

0,05

Obs f
Y
Fit
SE Fit Residual St Resid
6 60,0 157,00 121,70 6,55
35,30
2,90R

2,4

-0,08

-0,04

Residual

10

-0,10

0,08

20

30

60
Fitted Value

90

120

Residuals Versus the Order of the Data


30
Residual

1,2

8 10 12 14 16 18 20 22
Observation Order

Lmaks(lamda)=-14,78
0,5 Ki-kuadrat 0,95 db 1
= 1,92

-20
0

4,8

2,4

10

40

3,6

Scatterplot of Lmax(lamda) vs lamda

-10

Histogram of the Residuals

Frequency

0,04

-10

20

Lmax(lamda)

Percent

90

0,0

0,00
Residual

Residuals Versus the Fitted Values


30

0
Residual

0,00

Lmaks ( ) Lmaks ( ) 0,5 12,1

99

-20

0,05

-0,05

1,2

Residual Plots for Y

1
-40

5,4

Selang kepercayaan untuk merupakan himpunan nilai-nilai yang memenuhi pertidaksamaan :

Residual Plots for Y

50

4,8

Selang Kepercayaan

R denotes an observation with a large


standardized residual.

Normal Probability Plot of the Residuals

3,6
4,2
Fitted Value

Residuals Versus the Order of the Data

3,6

0,0

Unusual Observations

3,0

0,10

Residual

Seq SS
19766
8077

0,00
-0,05
-0,10

0,10

Histogram of the Residuals

Frequency

DF
1
1

R-Sq(adj) = 99,5%

Seq SS
7,8287
2,7230

4,8

Source
f
p

P
0,000
0,000
0,000

Source
DF
SS
MS
F
P
Regression
2 10,5517 5,2758 2040,64 0,000
Residual Error 20 0,0517 0,0026
Total
22 10,6034

Percent

SS
27843
3821
31663

T
137,89
57,82
-32,45

Analysis of Variance

R-Sq(adj) = 86,7%

Analysis of Variance

R-Sq = 99,5%

Residual

Berikut ditampilkan hasil pemodelan menggunakan respon sebelum dan sesudah ditransformasi.

SE Coef
0,02330
0,0005342
0,0009712

-30

-40

20
10

-50

0
-10

-60
-10

10
Residual

20

30

8 10 12 14 16 18 20 22
Observation Order

MTB > let C10=loge(Y)


MTB > name c10 'WW'

Regression Analysis: WW versus f; p


The regression equation is
WW = 3,21 + 0,0309 f - 0,0315 p

-1,0

-0,5

0,0
lamda

0,5

1,0

Gambar diatas menyatakan posisi selang kepercayaan 95% untuk ; = 0 masuk di dalam selang, sehingga dapat dipilih bentuk transformasi
W = ln Y.
3