Anda di halaman 1dari 4

Transformasi Box Cox

wiwiek@statistika.its.ac.id

Pendahuluan
Pada pemodelan regresi linier, sering didapatkan model yang tidak sesuai. Ketidaksesuaian dapat berupa : - pengaruh prediktor tidak bermakna - koefisien determinasi rendah - plot residual tidak menunjukkan terpenuhinya asumsi i ~ iidn(0,2). Apabila terdapat tanda ketidaksesuaian ini, maka dapat dilakukan salahsatu diantara cara-cara berikut : - meningkatkan ordo dari pertama menjadi kedua, ketiga, atau disertai interaksi - transformasi Terdapat beberapa cara transformasi. Satu diantaranya ialah Transformasi Box Cox.

sebagai berikut : 1. Ditentukan nilai dengan kisaran (-2,2) atau (-1,1), kemudian ditentukan level-level nilai , sehingga terdapat sekitar 21 atau 11 level. Tidak dikehendaki level bernilai 0. 2. Untuk setiap level nilai yang dipilih dihitung : 2 Lmaks ( ) = 1 2 n ln ( ) + ln J ( , Y ) , dengan : n = banyak amatan 2 () = WT(I X(XTX)-1XT)W/n Kalau diperhatikan,
WT(I X(XTX)-1XT)W = WTWWT X(XTX)-1XTW = WTWWT Xb = WTW bT XT W

Pada Tabel Anova, WTW bT XT W ini merupakan jumlah kuadrat error (sum of square error = SSE) bila variabel respon adalah W dan prediktor 2 () = dirangkum di dalam matrik X, sehingga

Transformasi Box Cox


Transformasi Box Cox diberlakukan kepada variabel respon, Y, yang harus bertanda positif, dinyatakan dalam transformasi kuasa dengan persamaan berikut : W=
(Y 1) / ln Y untuk 0 untuk = 0

SSE/n = MSE(n-k-1)/n, dengan k = banyak prediktor. Ini berarti untuk setiap level yang dipilih akan muncul nilai respon W = (Y 1) / , matrik X, penaksir koefisien regresi b, Tabel Ano 2 () , serta J (, Y ) , va, SSE/n atau dengan :
J (, Y ) =

Setelah Y ditransformasi menjadi W, maka model menjadi : W = X + , dengan i ~ iidn(0,2). Dengan demikian, pada model regresi ini parameter yang perlu ditaksir ialah : dan . Salah satu metode penaksiran yang dapat digunakan ialah metode maksimum likelihood. Cara penaksiran agak berbeda dengan cara penaksiran yang biasa dilakukan, yaitu dengan menentukan nilai pada kisaran tertentu. Dengan merujuk buku Analisis Regresi Terapan oleh Draper & Smith, prosedur penaksiran ialah

Y
i =1

Wi
i

= Yi 1
i =1

ln J (, Y ) = ( 1) ln Yi
i =1

3. Dibuat plot Lmaks () terhadap , kemudian dideteksi nilai Lmaks () tertinggi. Nilai yang menghasilkan Lmaks () tertinggi inilah sebagai penaksir yang digunakan untuk mendapatkan nilai W. Selanjutnya dilakukan pemodelan regresi dengan variabel respon W dan prediktor X.

Seringkali peneliti lebih senang menggunakan nilai berupa bilangan bulat agar mudah. Nilai ini dapat diperoleh dari selang kepercayaan . Contoh 1 Contoh ini diambil dari buku Analisis Regresi Terapan oleh Draper & Smith, halaman 219222. Kolom C1, C2, dan C3 masing-masing adalah variabel respon dan dua prediktor. Nilai respon tertinggi/terendah = 157/13 = 12,1 > 10. Ini menunjukkan transformasi terhadap respon layak diberlakukan.
C1 Y 26 38 50 76 10 8 15 7 17 26 37 53 83 12 4 13 20 27 37 57 87 15 22 27 41 63 C2 f 0 12 24 36 48 60 0 12 24 36 48 60 0 12 24 36 48 60 12 24 36 48 60 C3 p 0 0 0 0 0 0 10 10 10 10 10 10 20 20 20 20 20 20 30 30 30 30 30 C6 lamda -1 -0,8 -0,6 -0,4 -0,2 -0,15 -0,1 -0,08 -0,06 -0,05 -0,04 -0,02 0,01 0,05 0,1 0,2 0,4 0,6 0,8 1 C7 W_1 0,961538 0,973684 0,98 0,986842 0,990741 0,993631 0,941176 0,961538 0,972973 0,981132 0,987952 0,991935 0,923077 0,95 0,962963 0,972973 0,982456 0,988506 0,933333 0,954545 0,962963 0,97561 0,984127 C8 W2 25 37 49 75 10 7 15 6 16 25 36 52 82 12 3 12 19 26 36 56 86 14 21 26 40 62 C9 Lmax(lamda) -53,7125 -47,6751 -40,5102 -31,4609 -20,0706 -17,4038 -15,4672 -15,0188 -14,8001 -14,782 -14,8256 -15,0951 -15,9207 -17,6498 -20,4287 -26,534 -37,2691 -45,691 -52,6704 -58,7957

formasi terakhir dengan = 1. 3. Selanjutnya dibuat plot Lmax(lamda) terhadap lamda. Penyusunan program adalah sebagai berikut : Pada Session dituliskan command awal :
let k1=0

Pada command line editor dituliskan rangkaian command berikut :


let k1=k1+1 let c8=(Y**lamda(k1)-1)/lamda(k1) name c8 'W2' regres W2 2 f p; MSE k2. let k3=23 name k3 'n' let k4=k2*(n-3)/n let k5=(lamda(k1)-1)*sum(loge(Y)) name k5 'lnJacobi' name k4 'taulamda' let k6=-0.5*n*loge(taulamda)+lnJacobi name k6 'Lmaxlamda' let c9(k1)=Lmaxlamda MTB > name c9 'Lmax(lamda)'

Pemrograman untuk mendapatkan nilai penaksir dilakukan menggunakan Macro MINITAB, dengan prosedur penaksiran seperti yang telah diuraikan di halaman 1. 1. Ditentukan dengan kisaran (-1,1). Level-level dicantumkan pada kolom C6, yang dinamai lamda. 2. Pada setiap level , yang berarti setiap elemen kolom C6, dihitung Lmaks () . Hasilnya dicantumkan pada C9. Kolom C7 hasil transformasi pertama, yaitu = -1, dan C8 trans-

Rangkaian command ini di submit 20 kali, sebanyak level lamda. Kemudian dibentuk plot Lmax(lamda) terhadap lamda dengan command berikut,
MTB > Plot 'Lmax(lamda)'*'lamda'; SUBC> Symbol; SUBC> Connect. Scatterplot of Lmax(lamda) vs lamda

Scatterplot of Lmax(lamda) vs lamda


-10

Residual Plots for Y


Normal Probability Plot of the Residuals
99 90 30 Residual 20 10 0 -10 -20 0 Residual 20 40 0 30 60 Fitted Value 90 120

Residuals Versus the Fitted Values

-20

Percent

50 10

Lmax(lamda)

-30

1 -40

-40
4,8 Frequency

Histogram of the Residuals

Residuals Versus the Order of the Data


30 Residual 20 10 0 -10

-50

3,6 2,4 1,2 0,0 -10 0 10 Residual 20 30

-60 -1,0 -0,5 0,0 lamda 0,5 1,0

8 10 12 14 16 18 20 22 Observation Order

Secara visual Lmax(lamda) tertinggi dicapai pada bernilai 0, sehingga dapat disimpulkan bahwa transformasi yang baik ialah W = ln Y. Berikut ditampilkan hasil pemodelan menggunakan respon sebelum dan sesudah ditransformasi.
Regression Analysis: Y versus f; p
The regression equation is Y = 28,2 + 1,56 f - 1,72 p Predictor Constant f p
S = 13,8214

MTB > let C10=loge(Y) MTB > name c10 'WW'

Regression Analysis: WW versus f; p


The regression equation is WW = 3,21 + 0,0309 f - 0,0315 p
Predictor Constant f p Coef 3,21221 0,0308843 -0,0315180 SE Coef 0,02330 0,0005342 0,0009712 T 137,89 57,82 -32,45 P 0,000 0,000 0,000

S = 0,0508467

R-Sq = 99,5%

R-Sq(adj) = 99,5%

Analysis of Variance T 4,45 10,73 -6,50 P 0,000 0,000 0,000


Source DF SS MS F P Regression 2 10,5517 5,2758 2040,64 0,000 Residual Error 20 0,0517 0,0026 Total 22 10,6034

Coef 28,184 1,5587 -1,7166

SE Coef 6,332 0,1452 0,2640

R-Sq = 87,9%

R-Sq(adj) = 86,7%

Analysis of Variance
Source Regression Residual Error Total DF 2 20 22 SS 27843 3821 31663 MS 13921 191 F 72,87 P 0,000

Source f p

DF 1 1

Seq SS 7,8287 2,7230

Residual Plots for WW


Residual Plots for WW
Normal Probability Plot of the Residuals Residuals Versus the Fitted Values
0,10 0,05 0,00 -0,05 -0,10 99 90 50 10 Residual -0,10 -0,05 0,00 Residual 0,05 0,10 Percent

Source f p

DF 1 1

Seq SS 19766 8077

Unusual Observations

3,0

3,6 4,2 Fitted Value

4,8

5,4

Obs f Y Fit SE Fit Residual St Resid 6 60,0 157,00 121,70 6,55 35,30 2,90R
Frequency

Histogram of the Residuals


4,8 Residual -0,08 -0,04 0,00 Residual 0,04 0,08 3,6 2,4 1,2 0,0

Residuals Versus the Order of the Data


0,10 0,05 0,00 -0,05 -0,10

R denotes an observation with a large standardized residual.

Residual Plots for Y

8 10 12 14 16 18 20 22 Observation Order

Selang Kepercayaan
Selang kepercayaan untuk merupakan himpunan nilai-nilai yang memenuhi pertidaksamaan : 3

2 ) L Lmaks ( ) 0,5 maks ( 1,1


Scatterplot of Lmax(lamda) vs lamda
-10 Lmaks(lamda)=-14,78 0,5 Ki-kuadrat 0,95 db 1 = 1,92

-20

Lm ax(lam da)

-30

-40

-50

-60 -1,0 -0,5 0,0 lam da 0,5 1,0

Gambar diatas menyatakan posisi selang kepercayaan 95% untuk ; = 0 masuk di dalam selang, sehingga dapat dipilih bentuk transformasi W = ln Y.