Anda di halaman 1dari 52

KORELASI DAN ANALISIS REGRESI LINIER

Oleh: Vissia Ardiyani, Ph.D

A. Konsep Dasar

Analisis data adalah suatu proses untuk membuat data mejadi informatif dan bermakna. Di dalam ilmu statistik
analisa data dibagi menjadi tiga, yaitu analisa univariat, analisa bivariat, dan analisa multivariat. Sebelum masuk
ke dalam analisa multivariat, perlu diketahui karakteristik suatu set data yang dimiliki. Oleh karena itu
memerlukan analisa univariat. Sementara itu, analisa bivariat digunakan untuk melihat hubungan antara satu
variabel independen dengan satu variabel dependen dan dilakukan setelah analisa univariate. Selanjutnya
dilakukan analisa multivariat dimana mengikutsertakan semua variabel yang dikontrol sesuai dengan algoritma
di dalam persamaan regresi berganda.

Skala variable penelitan menjadi penting untuk melakukan analisis statistic. Analisa bivariate digunakan untuk
melihat hubungan antar dua variable yang numerik, misalnya usia pasien dengan lama hari rawat inap pasien
tersebut. Analisa data antara dua variable numerik ini disebut analisa korelasi. Setelah mengetahui analisa
bivariate yang akan digunakan untuk uji hipotesis antara independent variable yang numerik dengan dependent
variable yang numerik, grafik diagram tebar dapat dibuat guna melihat pola hubungan antara kedua variabel
numerik tersebut.

1. Diagram tebar

Diagram tebar adalah diagram dengan memakai garis koordinat dengan absis X dan ordinat Y, dimana tiap
pengamatan diwakili oleh satu titik. Diagram tebar ini digunakan untuk melakukan uji linearitas yang
menggambarkan hubungan antara variable independent dan dependennya (Casson and Farmer, 2014). Contoh:
diagram tebar berat badan (weight) dan lama hari rawat (length of hospital stay/LOS). Dalam hal ini tiap pasien,
akan digambarkan sebagai 1 titik, yang mempunyai proyeksi ke absis X, dan ke ordinat Y. Jadi berat badan
dinggap sebagai variable X sementara lama hari rawat dianggap sebagai variable Y. Figure 1 memberikan
contoh diagram tebar untuk variable independent berat badan dan variable dependennya LOS1.

1
Diagram tebar yang dikutip dari Mnatzaganian, G., Ryan, Norman, P., Davidson & Hiller, J. 2012. Length of stay in hospital and all-cause
readmission following elective total joint replacement in elderly men. Orthopedic Research and Reviews.
Figure 1 Diagram tebar berat badan dan lamanya hari rawat (LOS)

Dari diagram tebar dapat dilihat pola hubungan antara variable berat badan dengan lama hari rawat pasien,
apakah hubungannya linear menurut garis lurus, atau menurut garis lengkung, atau tidak terlihat suatu pola
tertentu (Figure 2). Bila polanya linear maka dapat dilihat lebih lanjut apakah linear positif atau negative. Pola
hubungan linear negative berarti makin tinggi satu nilai variable makin rendah nilai variable yang lain.

a b

Figure 2 Contoh diagram tebar. Gambar a menunjukan diagram tebar


dengan arah yang positif, gambar b menunjukan arah melengkung,
gambar c menunjukan hubungan yang negative, dan gambar d
menunjukan tidak ada pola.
c d

Penggunaan diagram tebar ini biasanya digunakan untuk visualisasi antara dua variable saja. Diagram tebar
untuk mevisualisasi lebih dari satu variable independent tidak akan terlihat jelas karena perlu memperhatikan
banyak titik-titik.

2. Koefisien korelasi pearson

Hubungan kedua variable numerik tersebut dapat dilihat lebih lanjut bagaimana kekuatan hubungan antara
keduanya. Untuk tujuan apakah kedua variable tersebut memiliki hubungan atau tidak, nilai P adalah acuan
keputusan menerima atau menolak hipotesis nol. Sementara itu, kekuatan hubungan dapat dikuantifikasi melalui
suatu koefisien yang dikenal sebagai koefisien korelasi pearson (Schober et al., 2018). Koefisien korelasi
pearson (r) akan berkisar antara 0 sampai 1. Besaran koefisien ini menunjukan kekuatan hubungan, yaitu r=0,
bila tidak ada hubungan linear. Bila r = 1 berarti hubungan linier sempurna. Jika nilainya berada di antara 0 dan
1, pemaknaannya diartikan secara kualitatif. Artinya semakin kuat hubungannya semakin mendekati 1
sementara semakin mendekati 0 semakin lemah hubungannya. Pemaknaan koefisien r dapat dilihat di Table 1
(Schober et al., 2018).

Table 1 Koefisien korelasi pearson dan maknanya

Koefisien korelasi (r) Interpretasi


0.00 – 0.10 Tidak ada korelasi
0.10 – 0.39 Korelasi lemah
0.40 – 0.69 Korelasi sedang
0.70 – 0.89 Korelasi kuat
0.90 – 1.00 Korelasi sangat kuat

Untuk memahami aplikasi analisis korelasi pearson pada studi di lapangan, di bawah ini disajikan studi kasus
tentang diet kalsium .

Tipe pertanyaan penelitian: Hubungan antara 2 variabel

Kasus: Seorang mahasiswa kedokteran gizi klinik ingin melihat


hubungan antara asupan kalsium dan pengetahuan tentang
kalsium di kalangan mahasiswa kedokteran olahraga.

Hipotesis nol (H0): Tidak ada hubungan antara asupan kalsium dan tingkat
pengetahuan di kalangan mahasiswa kedokteran olahraga.

Hipotesis alternatif (H1) Tidak ada hubungan antara asupan kalsium dan tingkat
pengetahuan di kalangan mahasiswa kedokteran olahraga.

Langkah-langkah di SPSS:
1) Membuat diagram tebar untuk melihat tren hubungan antar 2 variable

o Klik Graphs  legacy dialogs  Scatter/Dot

o Di kotak dialog pilih Simple Scatter  Define

o Pindahkan variable dependen ke box Y axis

o Pindahkan variable independent ke box X axis

o Klik OK
Output SPSS:
2) Menghitung koefisien korelasi

 Klik Anakyze  Correlate  Bivariate

 Pindahkan variable tahu dan kalsium ke box Variable

 Klik Confidence interval  centang estimate confidence interval of bivariate correlation parameter 
continue
 Output SPSS

Pearson’s
correlation
coefficient, r

p-value

Number of
pairs and
readings

95% CI

Dari output di table correlations, kita lihat bahwa koefisien korelasi (r) = 0,882, artinya korelasi antar dua
variable tersebut kuat. Nilai p-value <0.001 mengindikasikan bahwa Ho ditolak. Jadi hasil ouput tsb dapat
diinterpretasikan bahwa ada bukti hubungan yang kuat dimana pengetahuan di kalangan mahasiswa kedokteran
olahraga berhubungan dengan asupan kalsiumnya (r=0.882, p<0.001)
3. Koefisien determinasi

Dari koefisien korelasi pearson (r), dapat dihitung lebih lanjut yang disebut koefisein determinasi. Koefisien R-
kuadrat (R2) diartikan sebagai besarnya proporsi variasi variable Y yang dapat dijelaskan oleh variable X. Hal
ini didasarkan pemahaman bahwa variasi Y atau perubahan nilai Y dijelaskan oleh variable X yang merupakan
predictor atau factor risiko. Apabila variasi Y dapat dijelaskan 100% oleh variable X, berarti X memang
memegang peran dalam perubahan nilai Y atau dapat dikatakan sebagai penentu variable Y. Bila besar koefisien
r = 1, maka R2 = 100% artinya apabila terjadi perubahan nilai X, maka nilai Y pasti akan berubah.

4. Perbedaan korelasi pearson dan regresi liniear

Korelasi person dan regresi linier dipahami memiliki fungsi yang sama untuk melihat hubungan antar variable.
Kedua uji tersebut tampak sama secara persamaan matematika, akan tetapi mereka sebenarnya berbeda dari segi
tujuan analisa dan asumsinya (Schober et al., 2018). Table 2 memberikan informasi terkait perbedaan korelasi
pearson dan regresi linier.

Table 2 Perbedaan korelasi pearson dan linier regresi

Perbandingan Korelasi Regresi


Makna Ukuran statistic yang menentukan Menggambarkan bagaimana perubahan
hubungan Bersama atau asosiasi 2 variable independent mempengaruhi
variabel. variable dependen.
Pengunaan Hubungan linier untuk 2 variabel. Memperkirakan satu variable berdasarkan
variable lain.
Arah Sejauh mana 2 variabel bergerak Regresi menunjukan dampak perubahan
bersama. unit pada variable yang diketahui (x)
pada variable yang diperkirakan (y).

5. Regresi linear sederhana

Tujuan dari simpel linier regresi ini adalah untuk menemukan seberapa besar pengaruh perubahan variabel
independen terhadap variabel dependen. Besarnya pengaruh dilihat dari koefisien regresinya (nilai B). Variabel
dependen dan independen untuk analisa regresi linier adalah numerik. Yang dimaksud dengan variabel
dependen adalah variabel yang menjadi akibat atau respon. Variabel dependen numerik adalah bila variabel
tersebut masuk ke dalam skala interval atau rasio. Langkah awal yang harus dilakukan untuk mengolah variabel
dependen ini adalah eksplorasi variabel untuk melihat apakah distribusinya menyebar simetris atau normal.
Analisis regresi linier diawali dengan korelasi seperti telah dijelaskan pada sub-bab korelasi pearson.

Setelah dilihat keterkaitan variabel Y dengan X selanjutnya dilihat seberapa besar peran independen variabel
(X) pada prediksi dependen variabel (Y), melalui analisis regresi linier. Persamaan matematika adalah sbb:

Y=a+bX
Persamaan 1 Regresi linier dilihat secara matematis

Keterangan:
a = intercept
b = slope (koefisien regresi)

Contoh 1 (lihat Figure 3):

Y = 2 + 3x Intercept = 2
Slope = 3

Figure 3 Grafik y = 2 + 3x

Dapat dilihat dari Figure 3, untuk persamaan Y = 2 + 3x, Y naik nilai X naik. Intercept-nya adalah 2 yang mana
intercept-nya berada di angka 2 di sumbu y dari titik 0 (0,2). Sementara itu, slope yaitu positif 3. Nilai 3
sebenarnya sama dengan 3/1 yang artinya titiknya akan berada pada 3unit ke atas dan melangkah 1unit ke kanan
(karena positif).

Contoh 2 (

Y = -1 + ¼ x Intercept = -1
Slope = 1/4
Figure 4 Grafik y = -1 + 1/4 x

Dapat dilihat dari Figure 4, untuk persamaan Y = -1 + 1/4x, Y naik nilai X naik. Intercept-nya adalah -1 yang
mana pada intercept-nya berada di angka -1 di sumbu y dari titik 0 (0,-1). Sementara itu, slope yaitu positif ¼
yang artinya titiknya akan berada pada 4unit ke kanan dan melangkah 1unit ke bawah (karena negatif).

Pada analisis regresi linier variabel Y adalah variable tergantung/dependen yang harus berupa variabel random
atau acak, sedangkan variabel X dapat merupakan variabel bebas/predictor/terikat/independen. Akan terlihat
bahwa apabila tebaran-tebaran titik tepat (fit) berada pada satu garis lurus, maka garis yang dibangun adalah
tepat, dan modelnya dikatakan sebagai model determinatif. Apabila tebaran titik-titik tidak selalu berada pada
garis lurus (karena adanya variasi variabel X) maka garis lurus direka agar diperoleh nilai yang tepat, yaitu
dengan melihat residu atau sisaannya yang paling kecil. Model yang dibangun disebut sebagai model statistik
atau stokastik (proses perubahan dalam variable outcome yang disebabkan oleh perubahan parameter/variable
independent).

Metoda kuadrat terkecil atau ordinary least square method (OLS) merupakan metoda yang populer dipakai
untuk membangun garis lurus tersebut dimana jumlah dari kuadrat residu (deviasi ordinat pengamatan dengan
garis rekaan) adalah yang paling kecil (Devore, 2016). Berdasarkan metoda OLS diturunkan rumus guna
menghitung koefisien a dan b sehingga persamaan garis linier dapat dibangun.

Berdasarkan persamaan 1, koefisien b yang adalah slope memiliki makna besarnya perubahan nilai Y apabila
nilai variable X berubah sebesar 1 unit (satuannya). Sementara itu, koefisien a yang adalah intercept dapat
diartikan sebagai besarnya nilai variable Y, bila variable X bernilai nol (Devore, 2016). Berikut di bawah ini
adalah contoh dari pemaknaan persamaan regresi linier.

Lama hari rawat = 1,4 + 0,16 usia pasien

Pemaknaannya adalah sebagai berikut, bila pasien yang dirawat usianya lebih tua satu tahun, maka
kemungkinan lama hari rawatnya akan lebih lama 0,16 hari.

Jika pasien usianya 40 tahun dapat diestimasikan lama hari rawatnya dengan menghitung persamaan regresi
linier di atas yaitu = 1,4 + 0,16 (40) = 7,8 hari. Sedangkan pasien usia 30 tahun = 1,4 + 0,16 (30) = 6,2 hari.
Selisih lama hari rawat pada kedua pasien pasien adalah 1,6 hari untuk selisih usia 10 tahun.

Contoh aplikatif regresi linier sederhana:

Apakah ada hubungan dan seberapa besar pengaruhnya antara tekanan darah dengan umur?
Individual TD Umur Individual TD Umur

(i) (Y) (X) (i) (Y) (X)

1 144 39 16 130 48

2 220 47 17 135 45

3 138 45 18 114 17

4 145 47 19 116 20

5 162 65 20 124 19

6 142 46 21 136 36

7 170 67 22 142 50

8 124 42 23 120 39

9 158 67 24 120 21

10 154 56 25 160 44

11 162 64 26 158 53

12 150 56 27 144 63

13 140 59 28 130 29

14 110 34 29 125 25

15 128 42 30 175 69

Hitung dulu Koefisien Korelasi Pearson (r),

r =n . ∑ Xi Yi−¿ ¿ ¿

Rumus diatas sebenarnya adalah covariance dari X dan Y dibagi dengan perkalian standar deviasi X dan standar
deviasi Y.

S xy
r=
Sx S y

r =∑ X i Y i−¿ ¿ ¿
Individual TD Umur X2 Y2 X.Y

(i) (Y) (X)

1 144 39 1521 20736 5616

2 220 47 2209 48400 10340

3 138 45 2025 19044 6210

4 145 47 2209 21025 6815

5 162 65 4225 26244 10530

6 142 46 2116 20164 6532

7 170 67 4489 28900 11390

8 124 42 1764 15376 5208

9 158 67 4489 24964 10586

10 154 56 3136 23716 8624

11 162 64 4096 26244 10368

12 150 56 3136 22500 8400

13 140 59 3481 19600 8260

14 110 34 1156 12100 3740

15 128 42 1764 16384 5376

16 130 48 2304 16900 6240

17 135 45 2025 18225 6075

18 114 17 289 12996 1938

19 116 20 400 13456 2320

20 124 19 361 15376 2356

21 136 36 1296 18496 4896

22 142 50 2500 20164 7100

23 120 39 1521 14400 4680

24 120 21 441 14400 2520

25 160 44 1936 25600 7040

26 158 53 2809 24964 8374


27 144 63 3969 20736 9072

28 130 29 841 16900 3770

29 125 25 625 15625 3125

30 175 69 4761 30625 12075

n = 30 4276 1354 67894 624260 199576

r =n . ∑ X i Y i −¿ ¿ ¿

(30) x (199576) – [(1354) x (4276)]

r =

[ √ 30(67894)−( 1354 ) ❑2 ] × [ √30(624620)−( 4276 )❑2 ]

5.987.280 – 5.789.704

r =

[ √ 30(67.894)−( 1.354 ) ❑2 ][√ 30(62.4620)−( 4.276 ) ❑2 ]


197.576 197.576 197.576

r = = =

[ √ 203.504 ][ √ 454.424 ] (451,1)(674,1) 304,1

r = 0,65

Berdasarkan koefisien korelasi pearson r = 0,65 dinyatakan sedang hubungannya (Table 1).

Dan tampak dalam scatter plot sbb:


240

220

200

180

sistoloc blood pressure 160

140

120

100
10 20 30 40 50 60 70

umur

Gambar 2. Diagram Tebar (Scatter Plot) TD dengan Umur

Diketahui pula: X = X/n = 1354/30 = 45,13

y = Y/n = 4276/30 = 142,53

Bagaimana persamaan garisnya?


Aslinya:

Rumus regresi sederhana: Yi = β0 + β1 Xi + εi

Y=a+bX Yi : variabel dependen ke-i

Xi : variabel independen ke-i

εi : variabel penganggu ke-i

β0 : konstanta
b = Sxy / Sx β1 :koefisien regresi
= 197.576/203.504 = 0,97

a=y–bх

= 142,53 – (0,97 x 45,13)

= 142,53 – 43,78

= 98,8

Jadi, persamaan regresi-nya: Y = 98,8 + 0,97X


Langkah-Langkah menggunakan SPSS:

Template I

Template II
Template III

Klik statistik
 Estimates
 Convidance Interval
 Model Fit

Template IV

 Continue
 OK

Output SPSS:

Tabel IIa.

Variables Entered/Removedb

Variables Variables
Model Entered Removed Method
1 umur a . Enter
a. All requested variables entered.
b. Dependent Variable: sistoloc blood pressure

Tabel di atas menggambarkan variabel dependen dan variabel independen. Metoda yang digunakan untuk
memasukkan variabel independen yaitu metoda enter.

Tabel IIb.
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,658a ,432 ,412 17,314
a. Predictors: (Constant), umur

Pada tabel ini perhitungan koefisien korelasi pearson antara tekanan darah dan umur muncul (r=0,658). Nilai
koefisien determinasi (R square=0,432) artinya, persamaan garis regresi yang kita peroleh menerangkan 43,2%
variasi tekanan darah dapat dijelaskan oleh faktor umur.

Tabel II.c

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 6394,023 1 6394,023 21,330 ,000a
Residual 8393,444 28 299,766
Total 14787,467 29
a. Predictors: (Constant), umur
b. Dependent Variable: sistoloc blood pressure

Apa arti residual? Beberapa pustaka menyebutkan


SSE (sum of square error) yang menunjukkan
variasi kesalahan kuadrat yang tidak dapat

Tabel IIc. adalah tabel ANOVA dijelaskan oleh garis regresi (unexplained
variation).
yang berguna untuk menguji persamaan

multiple regresi untuk keseluruhan

model. Kita menginginkan nilai

P-value <0,05. Dapat disimpulkan

Bahwa regresi sederhana cocok (fit).

Menghitung SSE (residual):

SSE=∑ Y i2−a ∑ Y i−b ∑ X i Y i

SSE = 624260 – 98,8(4276) – 0,97(199576)

SSE = 624260 – 422,5 – 193588,7

SSE = 430,2  bisa untuk menghitung F atau t hitung


b ×∑ Xi
2 2
2
F=t =
SSE /(n−2)

 t test berguna untuk menguji persamaan regresi untuk setiap variabel


 F test berguna untuk menguji persamaan multiple regresi untuk keseluruhan model

Bagaimana menghitung t-hitung:

r √n−2
t n−2=
√ 1−r 2 Coefficientsa

Unstandardized Standardized
Coefficients Coefficients

0,65 √ 30−2 Model B Std. Error Beta t Sig.


t n−2= 1 (Constant) 98,715 10,000 9,871 ,000

√ 1−0,652 umur ,971 ,210


a. Dependent Variable: sistoloc blood pressure
,658 4,618 ,000

3,44
t n−2= =5,29
√0,4225

 cek t table

Tabel IId.

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 98,715 10,000 9,871 ,000 78,230 119,200
umur ,971 ,210 ,658 4,618 ,000 ,540 1,401
a. Dependent Variable: sistoloc blood pressure

Semakin kecil variabel


penganggu atau standar error,
berarti kenyataan akan
Y = β0 + β1 Xi + εi mendekati harapan yang
terkandung dalam teori.

Tabel IId. menggambarkan kuantifikasi hubungan antara variabel dependen dengan independen. Persamaan
regresinya adalah sbb:
Tekanan darah = 98,715 + 0,971 (umur)

Dengan persamaan tersebut, tekanan darah dapat diperkirakan jika kita tahu nilai umur seseorang. Dari b=0,971
berarti variabel tekanan darah akan bertambah sebesar 0,971 mmHg bila umur seseorang bertambah setahun
(95% CI:0,54-1,401), p-value <0,05. Konstanta 98,715 tidak memberikan arti apa-apa (no practical meaning)
hanya memberikan arti jika umur seseorang 0 tahun maka TD orang tesebut adalah 98,715.

Memprediksi variabel dependen

Dari persamaan garis yang didapat tersebut kita dapat memprediksi variabel dependen (tekanan darah) dengan
variable independen (umur). Misalkan kita ingin mengetahui tekanan darah jika diketahui umur seseorang 50
tahun. Perhitungan dengan SPSS:

 Compute variabel baru (age50 = age – 50)

Output SPSS:

Tabel IIe.

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 147,258 3,322 44,322 ,000 140,452 154,064
AGE50 ,971 ,210 ,658 4,618 ,000 ,540 1,401
a. Dependent Variable: sistoloc blood pressure

Dari tabel IIe didapatkan nilai konstanta untuk umur 50 tahun sebesar 147,258. Artinya jika umur seseorang 50
tahun dapat dipredikasi tekanan darahnya sebesar 147,258 (95%CI: 140,452-154,064). Nilai b pada variabel
independen (age50) tidak berubah pada model regresi yang baru.

Untuk mengikutsertakan garis linier pada diagram tebar (scatter plot). Double click pada plot-nya untuk
memperoleh tamplate chart editor.
 Pada kolom fit line, klik total
 OK

240

220

200

180
sistoloc blood pressure

160

140

120

100
10 20 30 40 50 60 70

umur

Gambar 3. Scatter Plot dengan garis regresi


6. Diagnostik regresi linier

Persamaan garis linier mempunyai asumsi-asumi yang harus dipatuhi. Asumsinya dapat disingkat dengan istilah
HEIL-Gauss. Terdiri dari Homogeneity variance, Existance, Independence, Linearity, serta sebaran Gauss dari
residu. Apabila ketentuan dalam asumsi tersebut tidak terpenuhi, maka pemakaian persamaan garis linier dapat
dikatakan tidak akurat. Dalam hal ini dianjurkan untuk mengantinya dengan jenis statistik yang lain.

Beberapa cara diagnostik asumsi HEIL-Gauss.

Tabel III. Asumsi HEIL-Gauss, Arti, Cara Diagnosis, dan Terapi Ketidakpemenuhan Asumsi

Asumsi Arti Cara Diagnosis Terapi

Homogenity of Variasi variabel Y pada tiap nilai Plot antara nilai residu dengan Y Transformasi variabel Y atau X;
variance X adalah sama dugaan. Bila tidak terdapat pola ttt
(homoscedascity) & menyebar merata disekita garis 1. Square root transformation
titik nol, maka dikatakan asumsi 2. Natural log transformation, kalo
homoscedascity terpenuhi. tidak berhasil poin 1.
3. Log transformation (log10), jika
tidak berhasil poin 3.

Existence Variabel Y adalah random, Analisis deskriptif variabel residual -


sehingga mempunyai sebaran dari model. Bila residual
dengan mean dan varians ttt. menunjukan mean mendekati nilai
Berkaitan dg teknik nol dan ada sebaran (varian atau
pengambilan sampel. Untuk SD) maka asumsi eksistensi
memenuhi asumsi ini, sampel terpenuhi.
harus dilakukan secara random.

Independence Nilai Y antara satu observasi Uji Durbin Watson (DB), bila nilai Analisis runtut waktu,
dengan observasi lain tidak DW terletak pada selang ±2. memasukkan variabel penyebab
saling bergantung. disimpulkan tidak ada korelasi dependensi ke dalam model.
atau independen

Linearity Koefisien a dan b berhubungan Overall F test, melalui anova Transformasi variabel X atau Y
linier regresi. Bila diperoleh p hasil uji F
signifikan (p<α), maka dikatakan 1. Square root
model linier. 2. Center (substract its mean)
before square

Gauss of residual Residu menyebar menurut Residu (E) dihitung dari selisih Y Transformasi variabel X atau Y.
sebaran peluang normal dengan Y duga (berdasarkan
garis linier). Variabel residu
diperiksa kenormalannya dengan
eksplorasi variabel (mis: rvplot
atau normal P Plot)

Untuk mengetahui apakah model regresi linier valid atau tidak, maka dilakukan pemeriksaan nilai pencilan
terhadap model regresi dengan cara melakukan pemeriksaan residu. Satu pengamatan yang extrem berbeda
dengan yang lainnya dapat mempengaruhi hasil dari model regresi. Oleh karena itu dilakukan pemeriksaan
terhadap nilai pencilan residu.

Cara diagnosis:

Jenis Arti Cara Diagnosis


Pemeriksaan
Pengamatan

Leverage Pencilan di ruang variabel X, dengan Nilai leverage = h


melihat jaraj satu titik terhadap centroid
(mean) Dilihat apakah melebihi nilai kritis h=2(k+1)/n

k=jumlah variabel X

n=jumlah observasi

Bila hi > h kritis, maka waspada ada pencilan

Residu Pencilan residu Residu mengikuti sebaran Z atau t, maka diperiksa


apakah diluar nilai selang kepercayaan.

Beberapa macam residu:

 Residu (E)
 Studentized residu: E ditransformasi ke t
 Standardized residu: e ditransformasi ke Z
 Jacknife residu: E dihitung dg menghilangkan satu
pengamatan, dan ditransformasi ke t

Influence Efek pengamatan terhadap garis regresi Melihat pengaruh tidap pengamatan thd persamaan
linier regresi linier.

 Cook distance, dengan batas kritis=1


 DFFITS, dgn batas kritis 2(k+1)/n

Bila terdapat nilai influence melebihi nilai kritisnya


maka diwaspadai ada pencilan.

Tetapi bila ada pengamatan yang mejadi pencilan atau mempengaruhi regresi linier, adalah dengan tidak
mengikutsertakan di dalam analisis.

Aplikasi pada regresi linier sederhana

Residu pada tiap-tiap observasi dapat dilihat pada perbedaan antara nilai observed dan nilai fit pada garis
regresi. Contoh pada gambar 3 diagram tebar, data yang kita punya (observed) pada seseorang yang berumur 50
tahun TD-nya adalah 140 mmHg, tapi nilai fit yang berada pada garis regresi menunjukkan 147,3 mmHg. Jadi,
residu pada orang ini sebesar -7,3 (140-147,3). Dari data ini kita akan mempunyai 30 titik residu.

Untuk persamaan garis regresi yang fit, ada 3 asumsi penting yang digunakan untuk mencek residu:

1. Tidak ada outliers


2. Masing-masing data harus independen
3. Distribusi residu harus normal dan homoscedacity

a. Checking outliers
Dari tamplate 3,
 Klik statistik
 Kolom residual, klik casewise diagnostic
 Continue
 Klik save

Template VI

Output SPSS:

Outliers adalah suatu data yang berada diluar garis linier. Syarat adanya outliers adalah std (standardized)
residual nilai batas kritis ±3.

“The removal of outliers from the data set under analysis can at times dramatically affect the performance of a
regression model. Outliers should be removed if there is reason to believe that other variables not in the model
explain why the outlier cases are unusual.”

Tabel IIIa. Tabel untuk melihat adanya pencilan


Casewise Diagnosticsa

sistoloc blood Predicted


Case Number Std. Residual pressure Value Residual
2 4,370 220 144,35 75,65
a. Dependent Variable: sistoloc blood pressure

1 kasus dicurigai outlier. Kasus Std.residual > batas kritis, artinya terdapat
nomor 2. pencilan.

Studentized residuals and deleted studentized residuals juga digunakan untuk melihat adanya pencilan.
Studentized deleted residual disebut juga "jacknife residual,".

Residuals Statisticsa

Minimum Maximum Mean Std. Deviation N


Predicted Value 115,22 165,70 142,53 14,849 30
Std. Predicted Value -1,839 1,561 ,000 1,000 30
Standard Error of
3,161 6,706 4,319 1,175 30
Predicted Value
Adjusted Predicted Value 115,43 164,47 142,53 14,892 30
Residual -21,72 75,65 ,00 17,013 30
Std. Residual -1,255 4,370 ,000 ,983 30
Stud. Residual -1,288 4,445 ,000 1,003 30
Deleted Residual -22,91 78,30 ,00 17,722 30
Stud. Deleted Residual -1,304 8,048 ,120 1,594 30
Mahal. Distance ,000 3,384 ,967 1,062 30
Cook's Distance ,000 ,346 ,020 ,063 30
Centered Leverage Value ,000 ,117 ,033 ,037 30
a. Dependent Variable: sistoloc blood pressure

Pencilan dari residu nampak, krn nilai


Nilai Leverage max > h kritis Influence tidak ada
max dari sdresid (jacknife residual) >
(0,13), memperlihatkan (Cook’s Distance
titik kritis (3,86).
adanya pencilan. max < 1)

b. Checking independence
Dari tamplate III,
 Klik statistik
 Kolom residual, klik durbin watson
 Continue
 OK

Output SPSS:

Tabel IIIb.

Model Summaryb

Adjusted Std. Error of Durbin-W


Model R R Square R Square the Estimate atson
1 ,658a ,432 ,412 17,314 1,692
a. Predictors: (Constant), umur
b. Dependent Variable: sistoloc blood pressure

Bila nilai Durbin Watson (DB) -2 s.d. +2 berarti asumsi independensi terpenuhi. Pada kasus ini nilai DB sebesar
1,69, sehingga dikatakan masing-masing data independen.

c. Checking normalitas residu

Dari tamplate III,


 Klik Plots

Template VII

Y:*ZRESID dan X:*ZPRED

 Klik histogram
 Klik normal probability

Output SPSS:
Histogram
Dependent Variable: sistoloc blood pressure
14

12

10

6
F requenc y

4
Std. Dev = ,98
2 Mean = 0,00
0 N = 30,00

Regression Standardized Residual

Normal P-P Plot of Regression Standardized Residual


Dependent Variable: sistoloc blood pressure
E x p e c te d C u m P ro b

1,0

,8

,5

,3

0,0
0,0 ,3 ,5 ,8 1,0

Observ ed Cum Prob

Pada kasus ini distribusi tidak normal. Maka perlu dilakukan terapi dengan cara transformasi variabel X atau Y.

Terapi:

1. melakukan transformasi variabel Y: square root

Histogram
Dependent Variable: sistoloc blood pressure
14

12

10

8
F requenc y

4
Std. Dev = ,98
2 Mean = 0,00
0 N = 30,00

Regress ion Standardized Residual


Pada histogram variabel residu, tampak bahwa residu tidak berdistribusi simetris. Secara jelas ditujukan
oleh grafik Normal P Plot residu (gambar di bawah ini) yang menggambarkan tebaran titik berada di
luar garis diagonal.

Normal P-P Plot of Regression Standardized Residual


Dependent Variable: sistoloc blood pressure
1,0
E x p e c te d C u m P r o b

,8

,5

,3

0,0
0,0 ,3 ,5 ,8 1,0

O bs erv ed C um Prob

2. melakukan transformasi variabel Y: natural log

Histogram
Dependent Variable: sistoloc blood pressure
14

12

10

8
F requenc y

4
Std. Dev = ,98
2 Mean = 0,00

0 N = 30,00
-1,50 -,50 ,50 1,50 2,50 3,50
-1,00 0,00 1,00 2,00 3,00 4,00

Regres sion Standardiz ed Res idual

Normal P-P Plot of Regression Standardized Residual


Dependent Variable: sistoloc blood pressure
1,0
E x p e c te d C u m P r o b

,8

,5

,3

0,0
0,0 ,3 ,5 ,8 1,0

O bs erv ed Cum Prob


Transformasi mengalami perbaikan bentuk distribusi. Distribusi mendekati normal. Demikian pula dengan
normal P plot sebaran titik-titik mendekati garis liniernya.

d. Checking homoscedacity

Dari tamplate VII,


 Pilih zresid ke Y box(regression standardized residual)
 Pilih zpresid ke X box (regression standardized predicted value)
 Continue
R e g r e s s io n S t a n d a r d iz e d R e s id u a l

Scatterplot
Dependent Variable: sistoloc blood pressure
5

-1

-2
-2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0

Regr es sion Standardiz ed Predic ted Value

Fokus utama pada scatter diagram ini adalah tidak adanya titik-titik sebar tidak menunjukkan pola tertentu,
sehingga dapat disimpulkan memenuhi homoscedacity. Sebaliknya bila diagram tebar menunjukkan pola ttt
misalnya mengelompok di bawah atau di atas garis tengah nol, maka diduga variannya terjadi heteroscedacity.
Gambar 4.

Gambar 4. Problematic Scatter Plots

r1 r1 r1

0 0 0

Decreasing Variance Increasing Variance Non Linier Relationship


7. Regresi linier ganda

Analisis multiple regression linear atau sering disebut juga analisis regresi linier ganda merupakan perluasan
dari simple linear regression (regresi linier sederhana). Pada analisis simple linear regression hanya ada satu
variabel independen (X) dihubungkan dengan satu variabel dependen (Y). Sedangkan pada multiple linear
regression merupakan analisis hubungan antara beberapa variabel independen (X 1, X2, ..., Xk) dengan satu
variabel dependen (Y).

Dalam regresi linier ganda variabel dependennya harus numerik sedangkan independennya boleh semuanya
numerik dan boleh juga campuran. Model persamaannya:

Y = a + b1X1 + b2X2 + ... + bkKk + e

Kegunaan analisis regresi ganda

Tujuan analisis regresi ganda adalah untuk menemukan model regresi yang paling sesuai menggambarkan
faktor-faktor yang berhubungan dengan variabel dependen. Pada prinsipnya, model regresi ganda dapat berguna
untuk dua hal:

1. Prediksi, memperkirakan variabel dependen dengan menggunakan infomasi yang ada pada sebuah
atau beberapa variabel independen. Disini diketahui secara probabilitas nilai variabel dependen bila
individu mempunyai suatu set variabel dengan independen tertentu. Misalnya, kita melakukan analisis
variabel umur, BB, dan jenis kelamin dihubungkan dengan variabel dependen tekanan darah. Dari hasil
regresi individu dapat diperkirakan tekanan darahnya pada umur, berat badan, dan jenis kelamin
tertentu.

2. Estimasi, mengkuantifikasi hubungan sebuah atau beberapa variabel independen dengan sebuah
variabel dependen. Pada fungsi ini regresi dapat digunakan untuk mengetahui variabel independen apa
saja yang berhubungan dengan variabel dependen. Selain itu kita juga mengetahui seberapa besar
hubungan masing-masing independen terhadap variabel independen lainnya. Dari analisis ini dapat
diketahui variabel mana yang paling besar/dominan mempengaruhi variabel dependen, yang
ditunjukkan dengan koefisien regresi (b) yang sudah distandarisasi yaitu nilai beta.

Pemodelan
Satu hal yang penting dalam memilih variabel independen sehingga terbentuk sebuah model yang sesuai untuk
menggambarkan variabel dependen yang sesungguhnya dalam populasi. Dalam pembuatan model seringkali
dijumpai pandangan yang kurang tepat yaitu memasukkan semua variabel independen ke dalam model.
Alasannya dengan memasukkan sebanyak mungkin variabel independen ke dalam model, maka variabel
dependen diharapkan diprediksi dengan sempurna. Perlu diketahui bahwa penambahan variabel independen
tidak selalu meningkatkan kemampuan prediksi variabel independen terhadap variabel dependen, sebab semakin
banyak variabel independen (lebih-lebih variabel yang tidak relevan) mengakibatkan makin besarnya nilai
standar error (SE). Disamping itu model dengan banyak variabel seringkali menyulitkan dalam interpretasi.

Berdasarkan pertimbangan tersebut pemilihan variabel independen hendaknya memperhatikan aspek statistik
dan substansi. Model yang dihasilkan diharapkan model yang parsimoni, artinya variabel yang masuk dalam
model sebaiknya sedikit jumlahnya, namun cukup baik untuk menjelaskan faktor-faktor penting yang
berhubungan dengan variabel dependen.

Ada beberapa metoda untuk melakukan pemilihan variabel independen dalam analisis multivariat regresi linier
ganda, yaitu:

1. Enter, memasukkan semua variabel independen serentak satu langkah tanpa melewati kriteria
keamanan statistik tertentu.

2. Foward, memasukkan satu per satu variabel dari hasil pengkorelasian variabel dan memenuhi kriteria
kemaknaan statistik untuk masuk ke dalam model, sampai semua variabel yang memenuhi kriteria
tersebut masuk ke dalam model.Variabel yang masuk pertama kali adalah variabel yang mempunyai
korelai parsial terbesar dengan variabel dependen dan yang memenuhi kriteria tertentu untuk dapat
masuk model. Korelasi parsial adalah korelasi antara variabel independen dengan dependen. Kriteria
variabel yang dapat masuk P-in adalah 0,05 artinya variabel yang dapat masuk model bila variabel
tersebut mempunyai nilai P lebih kecil atau sama dengan 0,05.

3. Backward, memasukkan semua variabel ke dalam model tetapi kemudian satu persatu variabel
independen dikeluarkan dari model berdasarkan kriteria kemaknaan tertentu. Variabel yang pertama
kali dikeluarkan adalah variabel yang mempunyai korelai parsial terkecil dengan variabel dependen.
Kriteria pengeluaran atau P-out adalah 0,10, artinya variabel yang mempunyai nilai P lebih besar atau
sama dengan 0,1 dikeluarkan dari model

Aplikasi Analisis Regresi Linier Ganda pada Penelitian Kesehatan

Kasus: Low Birth Weight

Pada ujian ini ingin diketahui hubungan antara. Analisis data dilakukan dengan menggunakan software STATA.

C.1. Langkah Pertama: Seleksi Bivariat

 Seleksi bivar2iat masing-masing variabel independen dengan variabel dependen.


 Variabel yang pertama kali masuk adalah variabel yang analisis bivariatnya mempunyai nilai ρ <
0,25 masuk ke tahap multivariat. Namun jika secara substansi dianggap penting, maka variabel tsb
masuk ke dalam model.
 Pada analisis bivariat didapatkan:

reg bwt age

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 1, 248) = 2.86
Model | 1679536.12 1 1679536.12 Prob > F = 0.0923
Residual | 145868269 248 588178.504 R-squared = 0.0114
-------------+------------------------------ Adj R-squared = 0.0074
Total | 147547805 249 592561.466 Root MSE = 766.93

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 15.75872 9.325688 1.69 0.092 -2.608927 34.12637
_cons | 2585.194 222.1997 11.63 0.000 2147.555 3022.833
------------------------------------------------------------------------------

Hasil analisis hubungan bb bayi dengan umur ibu (age) didapatkan p value = 0,092, dengan demikian p value
yang dihasilkan < 0,25 maka variabel umur ibu (age) lanjut ke multivariat.

reg bwt lwt

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 1, 248) = 6.32
Model | 3667178.15 1 3667178.15 Prob > F = 0.0126
Residual | 143880627 248 580163.818 R-squared = 0.0249
-------------+------------------------------ Adj R-squared = 0.0209
Total | 147547805 249 592561.466 Root MSE = 761.68

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 4.096947 1.629557 2.51 0.013 .8874103 7.306483
_cons | 2423.012 215.7002 11.23 0.000 1998.174 2847.849
------------------------------------------------------------------------------
Hasil analisis hubungan bb bayi dengan berat badan ibu di dapatkan p value = 0,013, dengan demikian p value
yang dihasilkan < 0,25 maka variabel berat badan ibu (lwt) lanjut ke multivariat.

reg bwt race


i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 2, 247) = 3.80
Model | 4403463.54 2 2201731.77 Prob > F = 0.0237
Residual | 143144342 247 579531.747 R-squared = 0.0298
-------------+------------------------------ Adj R-squared = 0.0220
Total | 147547805 249 592561.466 Root MSE = 761.27

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_Irace_2 | -294.2098 152.1505 -1.93 0.054 -593.8876 5.46808
_Irace_3 | -256.2134 103.276 -2.48 0.014 -459.6273 -52.79953
_cons | 3094.835 70.98878 43.60 0.000 2955.014 3234.655
------------------------------------------------------------------------------

Hasil uji didapatkan nilai p value dummy pada variabel ras. Untuk race2 p value = 0,054 dan race3 p value =
0,014. Kedua nilai p value < 0,25, maka variabel race masuk ke dalam multivariat.

reg bwt smoke


Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 1, 248) = 9.48
Model | 5430676.3 1 5430676.3 Prob > F = 0.0023
Residual | 142117129 248 573052.939 R-squared = 0.0368
-------------+------------------------------ Adj R-squared = 0.0329
Total | 147547805 249 592561.466 Root MSE = 757

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
smoke | -305.6149 99.27615 -3.08 0.002 -501.1468 -110.083
_cons | 3064.082 60.22389 50.88 0.000 2945.467 3182.698
------------------------------------------------------------------------------

Hasil analisis regresi antara variabel merokok(smoke) dengan bblr (bwt) didapatkan p value = 0,002, berarti p
value < 0,25 sehingga variabel merokok (smoke) dapat lanjut ke multivariat.

reg bwt ptl


Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 1, 248) = 5.59
Model | 3252190.33 1 3252190.33 Prob > F = 0.0188
Residual | 144295615 248 581837.156 R-squared = 0.0220
-------------+------------------------------ Adj R-squared = 0.0181
Total | 147547805 249 592561.466 Root MSE = 762.78

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ptl | -211.6565 89.52501 -2.36 0.019 -387.9828 -35.33023
_cons | 2994.794 51.58381 58.06 0.000 2893.196 3096.392
------------------------------------------------------------------------------

Hasil analisis regresi antara variabel riwayat prematur (ptl) dengan bblr (bwt) didapatkan p value = 0,019,
berarti p value < 0,25 sehingga variabel kehamilan (ptl) dapat lanjut ke multivariat.

reg bwt ht

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 1, 248) = 4.92
Model | 2871837.45 1 2871837.45 Prob > F = 0.0274
Residual | 144675968 248 583370.837 R-squared = 0.0195
-------------+------------------------------ Adj R-squared = 0.0155
Total | 147547805 249 592561.466 Root MSE = 763.79
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ht | -425.743 191.8845 -2.22 0.027 -803.6741 -47.81191
_cons | 2980.567 50.03736 59.57 0.000 2882.014 3079.119
------------------------------------------------------------------------------

Hasil analisis bivariat antara variabel hipertensi dengan berat bayi didapatkan p value = 0,027, berarti p value <
0,25 sehingga hipertensi lanjut ke multivariat.

reg bwt ui
Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 1, 248) = 33.49
Model | 17556654.5 1 17556654.5 Prob > F = 0.0000
Residual | 129991151 248 524157.866 R-squared = 0.1190
-------------+------------------------------ Adj R-squared = 0.1154
Total | 147547805 249 592561.466 Root MSE = 723.99

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ui | -738.1271 127.5385 -5.79 0.000 -989.3238 -486.9304
_cons | 3063.811 49.72366 61.62 0.000 2965.877 3161.746
------------------------------------------------------------------------------

Hasil analisis bivariat antara variabel ui dengan berat bayi didapatkan p value = 0,000, berarti p value < 0,25
sehingga ui lanjut ke multivariat.

reg bwt ftv


Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 1, 248) = 0.76
Model | 450573.849 1 450573.849 Prob > F = 0.3843
Residual | 147097231 248 593133.997 R-squared = 0.0031
-------------+------------------------------ Adj R-squared = -0.0010
Total | 147547805 249 592561.466 Root MSE = 770.15

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ftv | 42.86137 49.17671 0.87 0.384 -53.99588 139.7186
_cons | 2921.099 59.98753 48.70 0.000 2802.949 3039.249
------------------------------------------------------------------------------

Hasil analisis bivariat antara variabel ftv dengan berat bayi didapatkan p value = 0,384, berarti p value > 0,25
sehingga ftv tidak dapat lanjut ke multivariat.

C.2. Langkah kedua: pemodelan multivariat

Untuk menentukan variabel yang akan masuk ke dalam model yaitu dengan cara melihat nilai ρ value <0,05
secara bertahap dan melihat perubahan koefisien β (lebih dari 10%). Bila variabel yang ρ value >0,05 dan
perubahan koefisien β <10%, maka variabel itu tidak masuk ke dalam model. Namun bila perubahan koefisien
β kurang dari 10% dan variabel mempunyai nilai ρ value <0,05, maka variabel itu tetap dipertahankan di dalam
model. Tahapannya adalah semua variabel dimasukkan bersama-sama, kemudian secara bertahap satu per satu
dikeluarkan dimulai dari p value yang paling besar.

xi: reg bwt age lwt i.race smoke ptl ht ui (Model Awal)

i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 8, 241) = 10.70
Model | 38670032.8 8 4833754.09 Prob > F = 0.0000
Residual | 108877772 241 451774.989 R-squared = 0.2621
-------------+------------------------------ Adj R-squared = 0.2376
Total | 147547805 249 592561.466 Root MSE = 672.14

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 3.393153 8.588092 0.40 0.693 -13.52415 20.31046
lwt | 2.744114 1.647945 1.67 0.097 -.5021 5.990328
_Irace_2 | -380.913 139.0552 -2.74 0.007 -654.8319 -106.9942
_Irace_3 | -409.7214 105.1685 -3.90 0.000 -616.8882 -202.5547
smoke | -397.4497 99.86397 -3.98 0.000 -594.1674 -200.732
ptl | -18.29355 85.3984 -0.21 0.831 -186.5161 149.929
ht | -588.2299 177.6869 -3.31 0.001 -938.2475 -238.2124
ui | -753.892 123.6192 -6.10 0.000 -997.4041 -510.3799
_cons | 3040.809 307.015 9.90 0.000 2436.033 3645.584
------------------------------------------------------------------------------
Dari nilai R-square didapatkan nilai sebesar 0,2621, artinya ketujuh variabel independen dapat menjelaskan
variabel berat bayi sebesar 26,21% sedangkan sisanya dijelaskan oleh variabel lain. Dari hasil uji statistik
didapatkan (lihat prob>F) didapatkan P value=0,000 berarti persamaan garis regresi secara keseluruhan sudah
signifikan.

Prinsip pemodelan yang dianut adalah model yang sederhana variabelnya sehingga masing-masing variabel
independent perlu di cek P valuenya, variabel yang P valuenya > 0,05 dikeluarkan dari model. Ternyata dari ke-
7 variabel independen ada 2 variabel yang p valuenya > 0,05, yaitu umur (age) p=0,693 dan riwayat prematur
(ptl) p=0,831. Tahap berikutnya dikeluarkan nilai p value > 0,05 yang terbesar yaitu ptl.

xi: reg bwt age lwt i.race smoke ht ui (tanpa ptl)

i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 7, 242) = 12.27
Model | 38649301.8 7 5521328.83 Prob > F = 0.0000
Residual | 108898503 242 449993.815 R-squared = 0.2619
-------------+------------------------------ Adj R-squared = 0.2406
Total | 147547805 249 592561.466 Root MSE = 670.82

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 3.219169 8.532729 0.38 0.706 -13.58873 20.02707
lwt | 2.80542 1.619701 1.73 0.085 -.3850909 5.995932
_Irace_2 | -381.1813 138.7752 -2.75 0.006 -654.5428 -107.8198
_Irace_3 | -411.3175 104.6972 -3.93 0.000 -617.5516 -205.0833
smoke | -402.9794 96.27962 -4.19 0.000 -592.6325 -213.3264
ht | -587.4643 177.3004 -3.31 0.001 -936.7133 -238.2154
ui | -758.5611 121.4424 -6.25 0.000 -997.7801 -519.342
_cons | 3036.597 305.7802 9.93 0.000 2434.266 3638.927
------------------------------------------------------------------------------

Setelah variabel ptl dikeluarkan dilihat perubahan koefisien B, bila ada perubahan sebesar >10% maka variabel
tersebut tidak jadi dikeluarkan.

Variabel Awal ptl dikeluarkan D coef.

Age 3,39 3,22 5,015

Lwt 2,74 2,81 2,555

Race2 -380,91 -381,18 0,071


Race3 -409,72 -411,32 0,391

Smoke -397,45 -402,98 1,391

Ptl -18,29 0 0

Ht -588,23 -587,46 0,131

Ui -753,89 -758,56 0,619

Dari perhitungan perubahan koefisien ( coef.) pada masing-masing variabel, ternyata tidak ada nilai koefisien
yang berubah > 10%, dengan demikian variabel ptl dikeluarkan dari model.

xi: reg bwt lwt i.race smoke ht ui (tanpa ptl dan age)

i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 6, 243) = 14.34
Model | 38585252 6 6430875.33 Prob > F = 0.0000
Residual | 108962553 243 448405.569 R-squared = 0.2615
-------------+------------------------------ Adj R-squared = 0.2433
Total | 147547805 249 592561.466 Root MSE = 669.63

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------

Setelah variabel age dikeluarkan dilihat perubahan koefisien B, bila ada perubahan sebesar >10% maka variabel
tersebut tidak jadi dikeluarkan. Hasil perhitungannya sebagai berikut:
Variabel awal age dikeluarkan D coef.

Age 3,39 0 0

Lwt 2,74 2,87 4,745

Race2 -380,91 -391,71 2,835

Race3 -409,72 -418,48 2,138

Smoke -397,45 -407,79 2,602

Ptl -18,29 0 0

Ht -588,23 -595,16 1,178

Ui -753,89 -756,16 0,301

Ternyata dari hasil perhitungan tidak ada perubahan koefisien B > 10%. Dengan demikian variabel age tidak
diikutkan model. Kemudian variabel lwt dicoba dikeluarkan dari model

xi: reg bwt i.race smoke ht ui

i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 5, 244) = 16.42
Model | 37155472.1 5 7431094.41 Prob > F = 0.0000
Residual | 110392333 244 452427.595 R-squared = 0.2518
-------------+------------------------------ Adj R-squared = 0.2365
Total | 147547805 249 592561.466 Root MSE = 672.63

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_Irace_2 | -364.6116 135.4503 -2.69 0.008 -631.4127 -97.81049
_Irace_3 | -473.925 98.4174 -4.82 0.000 -667.7811 -280.0689
smoke | -422.7102 95.32191 -4.43 0.000 -610.469 -234.9514
ht | -516.1071 170.9083 -3.02 0.003 -852.751 -179.4631
ui | -793.9832 119.7888 -6.63 0.000 -1029.935 -558.0311
_cons | 3504.881 84.58694 41.44 0.000 3338.268 3671.495
------------------------------------------------------------------------------

Variabel awal lwt dikeluarkan D coef.


Age 3,39 0 0

Lwt 2,74 0 0

Race2 -380,91 -349,84 8,16

Race3 -409,72 -461,38 12,61

Smoke -397,45 -415,04 4,43

Ptl -18,29 0 0

Ht -588,23 -507,32 13,75

Ui -753,89 -795,9 5,57

Dari hasil perhitungan di atas didapatkan perubahan koefisien B sebesar > 10%, yaitu variabel race 3 dan ht.
Karena perubahannya > 10% maka variabel ltw dimasukkan kembali. Variabel lwt berperan sebagai variabel
confounder.

C.3. Uji Interaksi

Uji interaksi dilakukan untuk mengetahui efek satu ekspose pada kejadian penyakit berbeda pada kelompok
ekspose lainnya. Interaksi yang mungkin terjadi pada kasus bblr banyak kemungkinan interaksi. Namun, yang
akan dilakukan uji interaksi adalah berdasarkan pertimbangan substansi biologi pada variabel yang diteliti.

Dari variabel yang ada maka ditemukan 2 interaksi yang secara substansi berinteraski satu dengan yang lainnya,
yaitu: race_lwt dan ht_smoke.

1. Interaksi race dengan lwt

Output:
. xi: reg bwt lwt i.race smoke ht ui race_lwt

i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250

-------------+------------------------------ F( 7, 242) = 13.15

Model | 40657476.5 7 5808210.92 Prob > F = 0.0000


Residual | 106890329 242 441695.573 R-squared = 0.2756

-------------+------------------------------ Adj R-squared = 0.2546

Total | 147547805 249 592561.466 Root MSE = 664.6

------------------------------------------------------------------------------

bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

lwt | -4.143854 3.610178 -1.15 0.252 -11.25524 2.967529

_Irace_2 | -926.4312 281.2173 -3.29 0.001 -1480.377 -372.4851

_Irace_3 | -1395.576 462.5 -3.02 0.003 -2306.615 -484.536

smoke | -424.2602 94.85462 -4.47 0.000 -611.1063 -237.4141

ht | -521.3057 177.7919 -2.93 0.004 -871.5229 -171.0885

ui | -775.4608 120.5074 -6.43 0.000 -1012.838 -538.0835

race_lwt | 3.898681 1.799952 2.17 0.031 .3531091 7.444253

_cons | 3535.974 306.81 11.52 0.000 2931.615 4140.333

2. Interaksi ht dengan smoke

. xi: reg bwt lwt i.race smoke ht ui ht_smoke

i.race _Irace_1-3 (naturally coded; _Irace_1 omitted)

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 7, 242) = 12.55
Model | 39286821.4 7 5612403.05 Prob > F = 0.0000
Residual | 108260984 242 447359.437 R-squared = 0.2663
-------------+------------------------------ Adj R-squared = 0.2450
Total | 147547805 249 592561.466 Root MSE = 668.85

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.487194 1.634662 1.52 0.129 -.7327871 5.707176
_Irace_2 | -361.7243 137.6392 -2.63 0.009 -632.848 -90.60046
_Irace_3 | -405.5035 103.1834 -3.93 0.000 -608.7557 -202.2513
smoke | -434.9234 97.58992 -4.46 0.000 -627.1575 -242.6893
ht | -810.2462 245.6362 -3.30 0.001 -1294.104 -326.3884
ui | -757.9637 120.9608 -6.27 0.000 -996.2342 -519.6932
ht_smoke | 438.5094 350.1643 1.25 0.212 -251.2495 1128.268
_cons | 3158.649 239.9798 13.16 0.000 2685.933 3631.365
------------------------------------------------------------------------------

Berdasarkan hasil interaksi diatas didapatkan 1 interaksi yaitu interaksi variabel race dengan lwt P value=0,031.
Nilai R-square berubah sebesar 5,39%. Dengan demikian dapat disimpulkan model akhir dengan interaksi race
dengan lwt adalah model yang paling sahih. Kemudain dari model akhir ini dilakukan diagnostik linier agar
persamaan garis yang digunakan memprediksi angka yang valid.

C.4. Diagnostik Linuer (Uji Asumsi)

1. Checking Outliers (pencilan)

Kita akan melihat apakah data yang ada terdapat pencilan (outlier) karena jika ada dapat mempengaruhi
hasil regresi. Berikut adalah tampilan scatter plot (grafik 1):

100 150 200 250 0 .5 1 0 .5 1


5000

birth
weight
(grams)

0
250
weight of
200 mother at
last
150 menstrual
period
100 (pounds)
3

race 2

1
1

smoking
.5
status
during
pregnancy
0
1

history
of .5
hypertension

0
1

presence
.5 of uterine
irritability
0
1000

race_lwt 500

0
0 5000 1 2 3 0 .5 1 0 500 1000
Grafik di atas memperlihatkan beberapa pencilan. Untuk lebih jelasnya akan ditampilkan satu per satu:
5000

5000
4990 4990

4593 4593
4238 4238
4153
4000

4111 4153

4000
4054
3997
3983 4111
4054 4054
3969
3941
3912 3940 3997
3983 3997
3969
3884
3860 3884
3856 3940
3912
3884 3941
3884
3799
3790
3770 3756 3856
3799 3860
3790
3728
3699 3756
3728 3770
3651
3629
3614 3643
3637
3629 3699
4000weight (grams)

3600
3586
3572 3572 3651
3643
3637
3629
3614 3629

birth weight (grams)


3544
3487
3475
3473 3600
3586 3572
3544
3460
3459 3444 3487
5000

5000
3374 3430
3374 3473
3460
3459
3430 3444 3475
3317
3274 4990 3331
3321
3317
3303
3260 3374
3317 4990 3374
3317 3331
3321
3303
3234
3232
3225
3203
3175 3234 3274
3260
3232
3225
3203
3000

3104
3090 3175

3000
3080
3062 3076
3033
3005 3090
3080
3076
3062 3062 3104
3090
2977
2920 2992
2977
2948
2920 3033
3005
2992
2977 2977
2877
2835 4593 2906 2906
2877 4593 2948
2920 2877
2750 2821
2782
2769 2835
2821 2835
2733
2722 2782
2769 2750
2733
2722
2637
2622 2663
2665
2600 2663
2665
2637 2637
2551
2523 2557 2600
2557 2622
2551
2495
2450
2438 4238 2495
2466
2424 2495
2466 4238 2523
2495 2495
2466
2450
2395 4153
4111 2410
2381
2367 2424
2410 4153 2438 2395

4000
2325 4054 4054 4111 2381
2367
birth

2282
2240 39833997 3997 2296
2225 2296 4054 4054
2296 2325
2282
3969 2211 2225 3997 39833969 3997 2240
2187 38843940
3912 38843941 2187 2187 3941 2187 3940 2211
2000

2100 3856 3860 2126 3912

2000
2055 3799 3790 2084 2100
2084 3884
38843884
3856 2126 3860 2055
1970
1928 3728 3699 3756 3770
3770 1936
1928 3799
3770
37703770 3756 37901970
1899
1893 3651
36373651
36373643 3651 1885 1936
1928 3728 3699 3651 1928 1899
3600 3629 3629 1885 3629 1893
birth weight (grams)

3614
3586 1818 36373572 35723586 3651
3643
3629

birth weight (grams)


1729 3572 3572
3544 1790 1818
1790 3544 3614 3600
3460
34603473
3430 3459 3444 3475 3487 3487
3475 3444 3460 3473 3459 1729
1588 3317 3374
3317 3374 33173331 3321 3374 3430
3374 1588
1474 3234 3274
32323260 3203
3232 3303 3331
3317 33173321
3317 3303
1474
3203 3225
3175
3175 3274
32323232 3260
3225 3234 3203
3203
3000

1330 3090 3062 3104


3090 3175
3175 1330

3000
3076
30763080
3033 3062 3062 3076 3090 3104
3090
3080
2992 2977 3005
2977 2977
2948 3033 2992 3062 3062 3062 3005
1000

2920 2920 2977 2977 2977 2920

1000
2906 22906
2948
948
1021 2821 2877
2835
2782
2769 2750 2750
2877
2835 1021 2835
2920
2877
2835
2821 2877
2665
2663 2722 2733 2750 2750 2782
2769 2733
2637
2600 2637 2622 2722 2665 2663
2557 2495 2466 24382495 2495
2495 2523 2551 709 2637
2600
2557 26372622 709
24242410 2466
2450 2395 2495
2495 2495 2495 2551 2523
23812381 2325 2367 2466
2450 2438
24242438 2410
23952410 2466
0 2296
2225 .2
2187
2296
2187.42240
2211 2240 2282
.6 .8 1 1 23252381
1.5
2381
2296 2296 2
2282
2367
2.5 3
2126 2211 2240
2240
2225
2000

2084
20842100 smoking
2055status 2055
during pregnancy 21262187
2055 2100 race

2000
1936
1928 1970 1928 2055 2084
2084
1885 1893 1899 1970 1893 1899 1936
1928 1928
1818 1790 1885 1818
1729 1790
1588 1729
1474 1588
1330 1474
1330
1000

1000
1021
1021
709
709
0 200 400 600 800
race_lwt 50 100 150 200 250
weight of mother at last menstrual period (pounds)
5000

4990

4593

4238
4153
4000

4111
4054
3997
3983
3969
3940
3941
3884
3860
3856 3912
3799
3790
3770
3756
3728
3699
3651
3643
3629 3637
birth weight (grams)

3614
3600
3586
3572
3544
3487
3475
3473
3460
3459
3444
3430
3374
3331
3321
3317
3303 3317
3274
3260
3234
3232
3225
3203
3175
3000

3104
3090
3080
3062
3033 3076
3005
2992
2977
2948
2920
2906
2877 2877
2835
2821
2782
2769 2835
2750
2733
2722 2750
2663
2665
2637
2622 2600
2557
2551
2495 2523
2466
2450
2438
2424
2410
2395
2381
2367
2325
2296
2282
2240
2225 2296
2211
2187
2000

2126
2100
2084
2055 2084
2055
1970
1936
1928
1899 1928
1893
1818 1885
1790
1729
1588
1474
1330
1000

1021

709

0 .2 .4 .6 .8 1
presence of uterine irritability

Grafik scatter plot di atas menunjukkan 2 variabel yang terdapat pencilan (outlier). Untuk mendukung scatter
plot di atas, pertama kita coba studentized residuals –dan lihat steam and leaves- sebagai berikut:

. predict r, rstudent

. stem r
Stem-and-leaf plot for r (Studentized residuals)

r rounded to nearest multiple of .01


plot in units of .01

-2** | 63,63
-2** |
-2** |
-2** | 13
-1** | 83,83,82
-1** | 79,79,79,79,79,76,76,70,70,67
-1** | 53,44,44
-1** | 34,34,34,26,26,22,22,22,22
-1** | 19,19,19,15,15,15,15,13,13,13,07,07,07,00,00
-0** | 96,96,96,95,95,95,95,95,95,89,89,89,89,88,87,81,81
-0** | 76,76,74,74,73,73,73,67,64,64,64,61
-0** | 59,58,58,54,53,53,52,50,49,49,48,48,43,42,42
-0** | 39,36,36,36,36,35,34,34,33,33,30,30,30,28,28,23,23,22,22,20,20
-0** | 19,19,19,18,16,16,15,15,10,10,10,09,09,06,04,04,04,02,02
0** | 01,02,02,03,03,03,06,06,07,11,11,15,15,15,16,16,18,18
0** | 20,20,22,23,23,23,25,29,29,30,30,30,30,30,32,34,34,38
0** | 43,44,44,44,44,46,48,51,51,52,53,55,59,59
0** | 65,65,65,70,70,70,70,75,75,77
0** | 80,83,83,85,87,87,87,90,90,91,92,93,93,95,95
1** | 00,00,01,09,09,10,10,13,15,15,15
1** | 20,20,22,22,22,22,28,28,30,30,33,33,33,33,36,36,37,37,37
1** | 43,43,43,56,56,56
1** | 74,74,74,74
1** | 80,87,87,87
2** | 18,18
2** | 32,32

2. Asumsi Eksistensi
Untuk setiap nilai dari variabel X, variabel Y adalah variabel random yang mempunyai mean dan varian
tertentu.
Cara diagnostik:
Melakukan analisis deskriptif variabel residual dari model, bila residual menunjukkan adanya mean
mendekati nilai nol dan ada sebaran (varian atau standar deviasi), maka asumsi eksistensi terpenuhi.
Hasil output:
. sum rstud, detail

Studentized residuals
-------------------------------------------------------------
Percentiles Smallest
1% -2.142348 -2.650226
5% -1.736513 -2.650226
10% -1.316419 -2.142348 Obs 250
25% -.6876451 -1.940556 Sum of Wgt. 250

50% -.0663946 Mean -.0001585


Largest Std. Dev. 1.0059
75% .8229657 2.048427
90% 1.263352 2.048427 Variance 1.011835
95% 1.738161 2.272865 Skewness -.0347291
99% 2.048427 2.272865 Kurtosis 2.493516
--------------------------------------------------------------

Dari hasil di atas menunjukkan angka residual dengan mean 0,000 dan SD 1,006. Dengan demikian asumsi
eksistensi terpenuhi.

3. Test for Multicollinearity


Dalam regresi linier tidak boleh terjadi sesama variabel independen berkolerasi secara kuat
(multicollinearity).
Cara Diagnostik:
Nilai VIF, bila VIF > 20 dan 1/VIF < 0,05 mengindikasikan telah terjadi collinearity.

Hasil Output:
Variable | VIF 1/VIF
-------------+----------------------
_Irace_3 | 29.33 0.034095
race_lwt | 24.86 0.040218
lwt | 6.45 0.155115
_Irace_2 | 5.00 0.200158
smoke | 1.18 0.844309
ht | 1.13 0.881930
ui | 1.06 0.943879
-------------+----------------------
Mean VIF | 9.86

Dari hasil uji asumsi didapatkan nilai VIF lebih dari 20 dan 1/VIF > 0,05, hal ini menunjukkan terdapat
multicolinearity pada model persemaan. Dengan demikian ada multicollinearity antara sesama variabel
independen. VIF dan tolerans (1/VIF) pada variabel _Irace_3 dan race_lwt menunjukkan nilai yang
worrisome. Pada kasus ini, multicollinearity muncul, karena kita memasukkan variabel interaksi race dan
lwt. Jika kita melihat lwt tanpa interaksi didapatkan P value = 0,075 (tidak signifikan) dan SE=1,67 (tabel
1).
Tabel 1. Persamaan tanpa Variabel yang diduga menyebabkan Inflasi

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 6, 243) = 14.34
Model | 38585252 6 6430875.33 Prob > F = 0.0000
Residual | 108962553 243 448405.569 R-squared = 0.2615
-------------+------------------------------ Adj R-squared = 0.2433
Total | 147547805 249 592561.466 Root MSE = 669.63

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------

Setelah dimasukkan variabel race_lwt, nilai P value variabel lwt naik menjadi 0,252 dan SE naik menjadi 3,61
(tabel 2).

Tabel 2. Persamaan tanpa Variabel yang diduga menyebabkan Inflasi

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 7, 242) = 13.15
Model | 40657476.5 7 5808210.92 Prob > F = 0.0000
Residual | 106890329 242 441695.573 R-squared = 0.2756
-------------+------------------------------ Adj R-squared = 0.2546
Total | 147547805 249 592561.466 Root MSE = 664.6

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | -4.143854 3.610178 -1.15 0.252 -11.25524 2.967529
_Irace_2 | -926.4312 281.2173 -3.29 0.001 -1480.377 -372.4851
_Irace_3 | -1395.576 462.5 -3.02 0.003 -2306.615 -484.536
smoke | -424.2602 94.85462 -4.47 0.000 -611.1063 -237.4141
ht | -521.3057 177.7919 -2.93 0.004 -871.5229 -171.0885
ui | -775.4608 120.5074 -6.43 0.000 -1012.838 -538.0835
race_lwt | 3.898681 1.799952 2.17 0.031 .3531091 7.444253
_cons | 3535.974 306.81 11.52 0.000 2931.615 4140.333
------------------------------------------------------------------------------

Diduga variabel lwt menyebabkan nilai VIF dan 1/VIF besar. Oleh karena itu, kita akan mengeluarkan variabel
interaksi antara ras dan lwt dari persamaan, didapatkan nilai VIF sbb:
Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 6, 243) = 14.34
Model | 38585252 6 6430875.33 Prob > F = 0.0000
Residual | 108962553 243 448405.569 R-squared = 0.2615
-------------+------------------------------ Adj R-squared = 0.2433
Total | 147547805 249 592561.466 Root MSE = 669.63

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------

Variable | VIF 1/VIF


-------------+----------------------
_Irace_3 | 1.43 0.700844
lwt | 1.26 0.794147
smoke | 1.18 0.849773
_Irace_2 | 1.15 0.872681
ht | 1.09 0.915606
ui | 1.05 0.948926
-------------+----------------------
Mean VIF | 1.19

Dari hasil regresi persamaan di atas didapatkan penurunan nilai VIF untuk variabel _Irace_3, sehingga
dengan persamaan akhir tanpa interaksi tidak terdapat multicollinearity.

4. Tests for Heteroscedasticity

Varian nilai variabel Y sama untuk semua nilai variabel X.

Cara Diagnostik:
Membuat plot residual. Bila titik tebaran tidak berpola tertentu dan menyebar merata disekitar garis titik
nol maka dapat disebut varian homogen pada setiap nilai X, dengan demikian asumsi homoscedacity
terpenuhi.
Atau dengan melihat hasil hettest, bila hasil menunjukkan nilai p=0,000 (p value < 0,05) berarti terdapat
Heteroscedasticity (asumsi homoscedacity tidak terpenuhi).
Hasil Output:

2000
1000
Residuals
0
-1000
-2000

1500 2000 2500 3000 3500


Fitted values

Untuk mendeteksi adanya heteroscedaticity dapat dilihat pada grafik rvfplot di atas. Didapatkan dari
grafik, titik sebaran tidak menunjukkan pola tertentu dan menyebar merata disekitar garis titik nol, maka
dapat dikatakan varian homogen pada setiap nilai X dengan demikan tidak terdapat heteroscedaticity
(asumsi homoscedaticity terpenuhi).

Kemudian kita lihat hasil hettest

Breusch-Pagan / Cook-Weisberg test for heteroskedasticity

Ho: Constant variance

Variables: fitted values of bwt

chi2(1) = 1.25

Prob > chi2 = 0.2644

Dari hasil hettest menunjukkan nilai p=0,2644, berarti asumsi homoscedacity terpenuhi.

5. Tests for Normality of Residuals

Variabel Y mempunyai distribusi normal untuk setiap pengamatan variabel X.

Cara Diagnostik:
Normal P-P plot residual, bila data menyebar disekitar garis diagonal dan mengikuti arah garis diagonal,
maka model regresi memenuhi asumsi normalitas.
Hasil Output:

K-Density
.4
.3
Density
.2 .1
0

-4 -2 0 2 4
Studentized residuals

Kernel density estimate


Normal density

P-Norm
1.00 0.75
Normal F[(rstud-m)/s]
0.25 0.50
0.00

0.00 0.25 0.50 0.75 1.00


Empirical P[i] = i/(N+1)

Dari grafik k-density dan pnorm di atas menunjukkan data berdistribusi normal.
Model Regresi Linier (Final)
Setelah dilakukan analisis multivariat, ternyata variabel independen yang masuk model regresi adalah lwt (bb
ibu), race (ras), smoke (merokok), ht (hipertensi), ui (uterine irratibility).

Source | SS df MS Number of obs = 250


-------------+------------------------------ F( 6, 243) = 14.34
Model | 38585252 6 6430875.33 Prob > F = 0.0000
Residual | 108962553 243 448405.569 R-squared = 0.2615
-------------+------------------------------ Adj R-squared = 0.2433
Total | 147547805 249 592561.466 Root MSE = 669.63

------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------

Pada tabel regresi akhir terlihat koefisien determinasi (R-square) menunjukkan nilai 0,26% artinya bahwa model
regresi yang diperoleh dapat menjelaskan 25% variasi variabel dependen berat badan bayi sebesar 26%.
Kemudian pada uji ANOVA, hasil uji F menunjukan nilai ρ=0,0000, berarti pada α 5% kita dapat menyatakan
bahwa model regresi cocok (fit) dengan data yang ada. Persamaan regresi yang diperoleh adalah:

Berat Bayi = 3109,3 + 2,9 lwt – 391,7 ras2 – 418,5 ras3 – 407,8 smoke -595,2 ht – 756,4 ui

Interpretasi:
1. R-square = 0,2615 artinya model persamaan ini dapat menjelaskan 20,14% variasi berat badan bayi sisanya
79,89 dijelaskan oleh faktor lain.
2. Setiap kenaikan berat badan ibu sebesar 1 kg, maka bb bayi akan naik sebesar 3 gram setelah dikontrol
variabel smoke, ras, ui, dan ht.
3. Pada ibu yang merokok berat badan bayinya akan lebih rendah sebesar 407,8 gram dibandingkan dengan
ibu yang tidak merokok setelah dikontrol lwt, ras, ht, dan ui.
4. Ibu yang menderita hipertensi bb bayi akan lebih rendah 595,2 gram dibandingkan dengan ibu yang tidak
menderita hipertensi, setelah dikontrol variabel smoke, ras, ui, dan lwt.
5. Untuk ibu-ibu yang mengalami iritasi uterus berat badan bayinya akan lebih rendah 756,4 gram
dibandingkan dengan ibu-ibu yang tidak mengalami iritasi uterus, setelah dikontrol variabel smoke, ras,
lwt, dan ht.
6. Ibu-ibu dari ras hitam memiliki bayi dengan berat lebih rendah 391 gram dari ibu-ibu ras putih, setelah
dikontrol variabel smoke, lwt, ui, dan ht.
7. Ibu-ibu dari ras lainnya (selain hitam dan putih) bayinya memiliki berat badan 418,5 gram lebih rendah
daripada ibu-ibu ras putih, setelah dikontrol variabel smoke, lwt, ui, dan ht.
Daftar Pustaka

Kleinbum et al. 1998. Applied Regression Analysis and Other Multivariable, 3rd edition. Boston: PWS-Kent
Pub.

Leech et al. 2005. SPSS for Intermediate Statistics: Use and Interpretation. New Jersey: Lawrance Erlbum
Ass.Pub.

Chan, Y.H. 2004. Biostatistic 201: Linear Regression Analysis. Singapore Medical Journal, Vol.45 (2):55.

Casson, R. J. & Farmer, L. D. 2014. Understanding and checking the assumptions of linear regression: a primer
for medical researchers.

Devore, J. 2016. Probability and Statistics for Engineering and the Sciences, California Polytechnic State
University.

Mnatzaganian, G., Ryan, Norman, P., Davidson & Hiller, J. 2012. Length of stay in hospital and all-cause
readmission following elective total joint replacement in elderly men. Orthopedic Research and
Reviews.

Schober, P., Boer, C. & Schwarte, L. A. 2018. Correlation Coefficients: Appropriate Use and Interpretation.
Anesth Analg, 126, 1763-1768.

Anda mungkin juga menyukai