Transformasi dan
Uji Diagnostik
Oleh :
Iswandi
0806470421
iswandi_2k@yahoo.com
Program Pascasarjana
Departemen Biostatistik dan Kependudukan
Fakultas Kesehatan Masyarakat
Universitas Indonesia
Public Health - University of Indonesia Kampus UI, Depok 16424 Indonesia http://www.fkm. ui. ac.id/
Iswandi
1 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
Permasalahan :
Dengan menggunakan data studi ‘framingham.dta’, lakukanlah uji diagnostik terhadap model
garis-lurus regresi hubungan antara bmi (IV), scl (IV), age (IV) dengan sbp (DV) untuk melihat
apakah asumsi regresi linear terpenuhi atau tidak. Selanjutnya lakukanlah transformasi data yang
sesuai dan lakukan pengujian kembali untuk membandingkan hasil yang diperoleh tersebut
sebelum dilakukan transformasi.
Penyelesaian :
Langkah 1 : membuat model persamaan (tanpa transformasi)
. reg sbp bmi scl age
------------------------------------------------------------------------------
sbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
bmi | 1.430483 .0733931 19.49 0.000 1.286598 1.574368
scl | .0456311 .0068878 6.62 0.000 .0321277 .0591344
age | .8691387 .0363358 23.92 0.000 .7979032 .9403741
_cons | 45.68798 2.448022 18.66 0.000 40.8887 50.48726
------------------------------------------------------------------------------
Persamaan regresi hubungan antara indeks mass tubuh (bmi), serum kolesterol (scl), umur (age)
terhadap tekanan darah sistolic (sbp) sebagai berikut :
sbp = 45.687+ 1.430 (bmi) + 0.045 (scl) + 0.869 (age)
Langkah 2 : Melakukan uji diagnostik
1. Uji Normalitas
. predict r, resid
(41 missing values generated)
. kdensity r, normal
Iswandi
2 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
.025
.02
.015
Density
.01
.005
Setelah melakukan predict terhadap residual dan menampilkannya dengan bentuk kernel density
plot seperti di atas. Nampak bahwa garis estimasi kernel tersebut tidak berhimpit dengan garis
fungsi normal, sehingga dapat diduga bahwa residual tidak terdistribusi normal.
. pnorm r
. qnorm r
1.00
150
100
0.75
Normal F[(r-m)/s]
Residuals
50
0.50
0
0.25
-50
0.00
Dari perintah pnorm diperoleh grafik P-P plot (standardized normal probability) sementara qnorm
memperlihatkan grafik invers-nya. Nampak dari kedua grafik tersebut bahwa residual terdistribusi di
sekitar garis normal, akan tetapi juga terlihat banyak titik yang menyimpang jauh dari garis tersebut
sehingga diduga kuat residual, terdistribusi tidak normal.
Iswandi
3 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
. swilk r
Cara lain untuk melihat normalitas dengan menggunakan uji Shapiro wilk, apabila nilai p > 0.05
maka data terdistribusi normal. Nampak pada output di atas nilai p sangat kecil (0.00001) dengan
demikian kita menolak nilai r terdistrusi normal atau dengan kata lain nilai residual tidak
terdistribusi normal.
2. Uji Homoskedastisitas
. rvfplot, yline(0)
150
100
Residuals
50
0
-50
Salah satu cara untuk mendeteksi adanya heteroskedastisitas adalah metode grafik yaitu dengan
memplot residual dengan nilai yang diharapkan. Dari grafik rvfplot di atas nampak bahwa data
terdistribusi tidak seimbang dari titik 0 dan cenderung meruncing kesebelah kiri, hal ini
mengindikasikan adanya heterokedastisitas.
. hettest
chi2(1) = 365.53
Prob > chi2 = 0.0000
Iswandi
4 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
Dari uji di atas, apabila nilai p lebih kecil dari 0.05 maka Ho ditolak yang berarti Hipotesis
alternatif diterima yaitu varians tidak homogen.
Dari hasil output di atas p(0.00001) maka dapat disimpulkan data menunjukkan
heteroskedastisitas.
3. Uji Multikolienaritas
. vif
Dari output vif (variance inflation factor) di atas nampak bahwa seluruh nilai vif-nya lebih kecil dari
10, demikian juga nilai toleransi vif (1/vif) yang mendekati nilai 1, hal ini mengindikasikan tidak
adanya kolinearitas.
Dengan demikian dapat disimpulkan bahwa tidak ada hubungan antara masing-masing variabel
independen di atas.
4. Uji Linearitas
. reg sbp bmi scl age
100
50
0
-50
20 30 40 50 60
Body Mass Index
150
Augmented component plus residual
100
50
0
-50
100
50
0
-50
30 40 50 60 70
Age in Years
Secara umum, baik pada plot pertama, kedua dan ketiga di atas nampak garis sangat dekat
berdekatan dengan garis pola regresi. Walaupun nampak juga pada plot pertama, kedua dan
ketiga ada sedikit masalah yang mungkin disebabkan oleh beberapa titik observasi yang jauh dari
mean. Akan tetapi secara umum, nampak grafik tidak terlalu buruk sehingga dapat diduga
hubungan antar variabel bmi, scl dan age tetap memperlihatkan hubungan yang linear.
. nlcheck bmi scl age
Nonlinearity test:
F( 9, 4645) = 0.94
Prob > F = 0.4881
Iswandi
6 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
Dengan perintah tambahan nlcheck.ado di atas, dapat dilakukan uji non linearitas. Dari perintah
tersebut diperoleh nilai p 0.4881 dengan demikian asumsi linear tidak dapat ditolak atau dengan
kata lain hubungan antar variabel bmi, scl dan age memperlihatkan hubungan yang linear.
Tabel 1 : Kesimpulan uji diagnostik model regresi (tanpa transformasi)
Komponen Asumsi Metode Hasil Pengujian Kesimpulan
6.0e-05
5.0e-04.0015 .0025
.1
.001 .002
4.0e-05
.02.04.06.08
2.0e-05
0
0 50000 100000150000200000 0 1000 2000 3000 4000 20 30 40 50 60
30
2.5
1
Density
2
.2 .4 .6 .8
20
1.5
1
10
.5
0
0
4 5 6 7 8 2.5 3 3.5 4 -.25 -.2 -.15 -.1
2.0e+04
20 40 60 80
200400600800
1.5e+04
1.0e+04
5000
0
0
-.06 -.05 -.04 -.03 -.02 -.004 -.003 -.002 -.001 0 -.00025-.0002
-.00015-.0001
-.00005 0
Berdasarkan output ladder di atas, maka untuk variabel bmi nampak bahwa yang memiliki nilai
chi-square terkecil adalah model 1/sqrt(bmi). Juga pada output gladder, nampak bahwa model
1/sqrt(bmi) akan membantu bmi terdistribusi normal.
Selanjutnya dilakukan proses transformasi
. gen bmi1sqrt = 1/sqrt(bmi)
(9 missing values generated)
20
.08
15
Density
.06
Density
10
.04
.02
5
0
0
10 20 30 40 50 60 .1 .15 .2 .25
Body Mass Index bmi1sqrt
2. Variabel scl
. ladder scl
. gladder scl
2.5e-05
2.0e-05
.01
6.0e-08
.008
1.5e-05
4.0e-08
.006
1.0e-05
.004
2.0e-08
5.0e-06
.002
0
0
0 5.00e+07
1.00e+08
1.50e+08
2.00e+08 0 100000 200000 300000 100 200 300 400 500 600
2
Density
1.5
.2
1
.1
.5
0
8.0e+06
100200300400500
6.0e+06
4.0e+04
4.0e+06
2.0e+04
2.0e+06
0
Serum Cholesterol
Histograms by transformation
Kernel density estimate (sblm transformasi) Kernel density estimate (setelah transformasi)
.01
2
.008
1.5
.006
Density
Density
1
.004
.5
.002
0
0
. gladder age
.01.02.03.04.05
6.0e-04
4.0e-04
5.0e-06
2.0e-04
0
3
Density
2
1
0
8.0e+04
6.0e+04
4.0e+04
2.0e+04
50
0
Age in Years
Histograms by transformation
Iswandi
10 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
Berdasarkan hasil di atas, proses transformasi kurang membantu normalisasi sehingga variabel
age tidak dilakukan transformasi.
4. Variabel sbp
. ladder sbp
. gladder sbp
1.0e-04
8.0e-05
.01 .02
3.0e-07
6.0e-05
2.0e-07
4.0e-05
1.0e-07
2.0e-05
0
0 5000000
1.00e+07
1.50e+07
2.00e+07 0 20000 40000 60000 80000 100 150 200 250 300
20 40 60 80
3
Density
.4
2
.2
1
0
2.0e+06
100200300400
1.5e+06
2.0e+04
1.0e+06
1.0e+04
5.0e+05
0
Kernel density estimate (sebelum transformasi) Kernel density estimate (setelah transformasi)
400
.02
300
.015
Density
Density
200
.01
100
.005
0
0
50 100 150 200 250 300 .004 .006 .008 .01 .012
Systolic Blood Pressure invsbp
Nampak bahwa variabel sbp dapat lebih dinormalisasi dengan inverse transformation.
------------------------------------------------------------------------------
invsbp | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
bmi1sqrt | .021298 .0010273 20.73 0.000 .0192839 .023312
logscl | -.0006378 .0000839 -7.60 0.000 -.0008023 -.0004734
age | -.0000437 1.89e-06 -23.07 0.000 -.0000474 -.00004
_cons | .0089486 .0005122 17.47 0.000 .0079445 .0099528
------------------------------------------------------------------------------
Iswandi
12 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
1. Uji Normalitas
. predict r2, resid
(41 missing values generated)
. kdensity r2, normal
200
100
0
Setelah dilakukan transformasi, nampak bahwa garis residual lebih berhimpit dengan garis fungsi
normal sehingga dapat diduga kuat bahwa residual terdistribusi secara normal.
. pnorm r2
. qnorm r2
1.00
.004
0.75
.002
Normal F[(r2-m)/s]
Residuals
0.50
0
-.002
0.25
-.004
0.00
Setelah dilakukan transformasi, baik grafik P-P plot maupun grafik inversnya memperlihatkan
garis yang lebih baik dibandingkan sebelumnya dimana nampak bahwa garis residual tersebut di
sekitar garis diagonal sehingga diduga kuat residual terdistribusi normal.
. swilk r2
Setelah dilakukan transformasi, uji Shapiro wilk memperlihatkan nilai p yang lebih baik (0.00135)
dibandingkan sebelum transformasi, namun angka tersebut tetaplah signifikan pada 0.05,
sehingga disimpulkan residual tetap tidak terdistribusi normal.
Dalam kasus di atas, ternyata metode grafik dan metode analitis dengan Shapiro wilk
memperlihatkan hasil yang tidak sama. Pada kondisi kasus yang demikian maka peneliti dapat
saja memilih salah satu metode untuk interpretasinya. Dalam latihan ini, penulis memilih
menggunakan metode grafik karena alasan graphic need somewhat of an art.
Dengan demikian disimpulkan bahwa residual terdistribusi secara normal.
2. Uji Homoskedastisitas
. rvfplot, yline(0)
.004
.002
Residuals
0
-.002
-.004
Setelah dilakukan transformasi, maka dari grafik rvfplot nampak data terdistribusi lebih menyebar
simetris tanpa pola tertentu berada di sekitar nilai 0, hal ini mengindikasikan kecenderungan
homoskedastisitas.
. hettest
chi2(1) = 16.24
Prob > chi2 = 0.0001
Dengan uji Breusch-Pagan / Cook-Weisberg di atas, terlihat nilai p yang lebih baik dibandingkan
hasil sebelum dilakukan transformasi pada data. Namun hasil tersebut tetaplah signifikan pada
0.05 sehingga varians disimpulkan tetap tidak homogen.
Akan tetapi sesuai dengan kesepakatan sebelumnya yaitu bahwa pada latihan ini lebih
menekankan penggunaan metode grafik dalam pengambilan keputusan, maka dapat disimpulkan
data menunjukkan homokedastisitas.
3. Uji Multikolienaritas
. vif
Setelah dilakukan transformasi, dari output vif (variance inflation factor) di atas nampak bahwa
seluruh nilai vif-nya lebih kecil dari 10, demikian juga nilai toleransi vif (1/vif) yang mendekati nilai 1,
hal ini mengindikasikan tidak adanya kolinearitas.
Dengan demikian dapat disimpulkan bahwa tidak ada hubungan antarvariabel independen.
. reg invsbp bmi1sqrt logscl age
. acprplot bmi1sqrt, lowess lsopts(bwidth(1))
Iswandi
15 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
.014
Augmented component plus residual
.012
.01
.008
.006
.004
.1 .15 .2 .25
bmi1sqrt
0
-.002
-.004
-.006
-.008
0
-.002
-.004
-.006
30 40 50 60 70
Age in Years
Iswandi
16 Analisis Regresi Linear - Transformasi & Uji Asumsi Regresi NPM : 0806470421 09/05/2009
Setelah dilakukan transformasi, baik pada plot pertama, kedua dan ketiga di atas nampak garis
sangat dekat berdekatan dengan garis pola regresi. Walaupun nampak juga pada plot pertama,
kedua dan ketiga ada sedikit masalah yang mungkin disebabkan oleh beberapa titik observasi
yang jauh dari mean. Akan tetapi secara umum, nampak grafik tidak terlalu buruk sehingga dapat
diduga hubungan antar variabel bmi, scl dan age tetap memperlihatkan hubungan yang linear.
Nonlinearity test:
F( 9, 4645) = 1.43
Prob > F = 0.1687
Setelah proses transformasi, Dari perintah nlcheck di atas diperoleh hasil nilai p 0.1687 dengan
demikian asumsi linear tidak dapat ditolak atau dengan kata lain hubungan antar variabel bmi, scl
dan age memperlihatkan hubungan yang linear.