A. Konsep Dasar
Analisis data adalah suatu proses untuk membuat data mejadi informatif dan bermakna. Di dalam ilmu statistik
analisa data dibagi menjadi tiga, yaitu analisa univariat, analisa bivariat, dan analisa multivariat. Sebelum masuk
ke dalam analisa multivariat, perlu diketahui karakteristik suatu set data yang dimiliki. Oleh karena itu
memerlukan analisa univariat. Sementara itu, analisa bivariat digunakan untuk melihat hubungan antara satu
variabel independen dengan satu variabel dependen dan dilakukan setelah analisa univariate. Selanjutnya
dilakukan analisa multivariat dimana mengikutsertakan semua variabel yang dikontrol sesuai dengan algoritma
di dalam persamaan regresi berganda.
Skala variable penelitan menjadi penting untuk melakukan analisis statistic. Analisa bivariate digunakan untuk
melihat hubungan antar dua variable yang numerik, misalnya usia pasien dengan lama hari rawat inap pasien
tersebut. Analisa data antara dua variable numerik ini disebut analisa korelasi. Setelah mengetahui analisa
bivariate yang akan digunakan untuk uji hipotesis antara independent variable yang numerik dengan dependent
variable yang numerik, grafik diagram tebar dapat dibuat guna melihat pola hubungan antara kedua variabel
numerik tersebut.
1. Diagram tebar
Diagram tebar adalah diagram dengan memakai garis koordinat dengan absis X dan ordinat Y, dimana tiap
pengamatan diwakili oleh satu titik. Diagram tebar ini digunakan untuk melakukan uji linearitas yang
menggambarkan hubungan antara variable independent dan dependennya (Casson and Farmer, 2014). Contoh:
diagram tebar berat badan (weight) dan lama hari rawat (length of hospital stay/LOS). Dalam hal ini tiap pasien,
akan digambarkan sebagai 1 titik, yang mempunyai proyeksi ke absis X, dan ke ordinat Y. Jadi berat badan
dinggap sebagai variable X sementara lama hari rawat dianggap sebagai variable Y. Figure 1 memberikan
contoh diagram tebar untuk variable independent berat badan dan variable dependennya LOS1.
1
Diagram tebar yang dikutip dari Mnatzaganian, G., Ryan, Norman, P., Davidson & Hiller, J. 2012. Length of stay in hospital and all-cause
readmission following elective total joint replacement in elderly men. Orthopedic Research and Reviews.
Figure 1 Diagram tebar berat badan dan lamanya hari rawat (LOS)
Dari diagram tebar dapat dilihat pola hubungan antara variable berat badan dengan lama hari rawat pasien,
apakah hubungannya linear menurut garis lurus, atau menurut garis lengkung, atau tidak terlihat suatu pola
tertentu (Figure 2). Bila polanya linear maka dapat dilihat lebih lanjut apakah linear positif atau negative. Pola
hubungan linear negative berarti makin tinggi satu nilai variable makin rendah nilai variable yang lain.
a b
Penggunaan diagram tebar ini biasanya digunakan untuk visualisasi antara dua variable saja. Diagram tebar
untuk mevisualisasi lebih dari satu variable independent tidak akan terlihat jelas karena perlu memperhatikan
banyak titik-titik.
Hubungan kedua variable numerik tersebut dapat dilihat lebih lanjut bagaimana kekuatan hubungan antara
keduanya. Untuk tujuan apakah kedua variable tersebut memiliki hubungan atau tidak, nilai P adalah acuan
keputusan menerima atau menolak hipotesis nol. Sementara itu, kekuatan hubungan dapat dikuantifikasi melalui
suatu koefisien yang dikenal sebagai koefisien korelasi pearson (Schober et al., 2018). Koefisien korelasi
pearson (r) akan berkisar antara 0 sampai 1. Besaran koefisien ini menunjukan kekuatan hubungan, yaitu r=0,
bila tidak ada hubungan linear. Bila r = 1 berarti hubungan linier sempurna. Jika nilainya berada di antara 0 dan
1, pemaknaannya diartikan secara kualitatif. Artinya semakin kuat hubungannya semakin mendekati 1
sementara semakin mendekati 0 semakin lemah hubungannya. Pemaknaan koefisien r dapat dilihat di Table 1
(Schober et al., 2018).
Untuk memahami aplikasi analisis korelasi pearson pada studi di lapangan, di bawah ini disajikan studi kasus
tentang diet kalsium .
Hipotesis nol (H0): Tidak ada hubungan antara asupan kalsium dan tingkat
pengetahuan di kalangan mahasiswa kedokteran olahraga.
Hipotesis alternatif (H1) Tidak ada hubungan antara asupan kalsium dan tingkat
pengetahuan di kalangan mahasiswa kedokteran olahraga.
Langkah-langkah di SPSS:
1) Membuat diagram tebar untuk melihat tren hubungan antar 2 variable
o Klik OK
Output SPSS:
2) Menghitung koefisien korelasi
Klik Confidence interval centang estimate confidence interval of bivariate correlation parameter
continue
Output SPSS
Pearson’s
correlation
coefficient, r
p-value
Number of
pairs and
readings
95% CI
Dari output di table correlations, kita lihat bahwa koefisien korelasi (r) = 0,882, artinya korelasi antar dua
variable tersebut kuat. Nilai p-value <0.001 mengindikasikan bahwa Ho ditolak. Jadi hasil ouput tsb dapat
diinterpretasikan bahwa ada bukti hubungan yang kuat dimana pengetahuan di kalangan mahasiswa kedokteran
olahraga berhubungan dengan asupan kalsiumnya (r=0.882, p<0.001)
3. Koefisien determinasi
Dari koefisien korelasi pearson (r), dapat dihitung lebih lanjut yang disebut koefisein determinasi. Koefisien R-
kuadrat (R2) diartikan sebagai besarnya proporsi variasi variable Y yang dapat dijelaskan oleh variable X. Hal
ini didasarkan pemahaman bahwa variasi Y atau perubahan nilai Y dijelaskan oleh variable X yang merupakan
predictor atau factor risiko. Apabila variasi Y dapat dijelaskan 100% oleh variable X, berarti X memang
memegang peran dalam perubahan nilai Y atau dapat dikatakan sebagai penentu variable Y. Bila besar koefisien
r = 1, maka R2 = 100% artinya apabila terjadi perubahan nilai X, maka nilai Y pasti akan berubah.
Korelasi person dan regresi linier dipahami memiliki fungsi yang sama untuk melihat hubungan antar variable.
Kedua uji tersebut tampak sama secara persamaan matematika, akan tetapi mereka sebenarnya berbeda dari segi
tujuan analisa dan asumsinya (Schober et al., 2018). Table 2 memberikan informasi terkait perbedaan korelasi
pearson dan regresi linier.
Tujuan dari simpel linier regresi ini adalah untuk menemukan seberapa besar pengaruh perubahan variabel
independen terhadap variabel dependen. Besarnya pengaruh dilihat dari koefisien regresinya (nilai B). Variabel
dependen dan independen untuk analisa regresi linier adalah numerik. Yang dimaksud dengan variabel
dependen adalah variabel yang menjadi akibat atau respon. Variabel dependen numerik adalah bila variabel
tersebut masuk ke dalam skala interval atau rasio. Langkah awal yang harus dilakukan untuk mengolah variabel
dependen ini adalah eksplorasi variabel untuk melihat apakah distribusinya menyebar simetris atau normal.
Analisis regresi linier diawali dengan korelasi seperti telah dijelaskan pada sub-bab korelasi pearson.
Setelah dilihat keterkaitan variabel Y dengan X selanjutnya dilihat seberapa besar peran independen variabel
(X) pada prediksi dependen variabel (Y), melalui analisis regresi linier. Persamaan matematika adalah sbb:
Y=a+bX
Persamaan 1 Regresi linier dilihat secara matematis
Keterangan:
a = intercept
b = slope (koefisien regresi)
Y = 2 + 3x Intercept = 2
Slope = 3
Figure 3 Grafik y = 2 + 3x
Dapat dilihat dari Figure 3, untuk persamaan Y = 2 + 3x, Y naik nilai X naik. Intercept-nya adalah 2 yang mana
intercept-nya berada di angka 2 di sumbu y dari titik 0 (0,2). Sementara itu, slope yaitu positif 3. Nilai 3
sebenarnya sama dengan 3/1 yang artinya titiknya akan berada pada 3unit ke atas dan melangkah 1unit ke kanan
(karena positif).
Contoh 2 (
Y = -1 + ¼ x Intercept = -1
Slope = 1/4
Figure 4 Grafik y = -1 + 1/4 x
Dapat dilihat dari Figure 4, untuk persamaan Y = -1 + 1/4x, Y naik nilai X naik. Intercept-nya adalah -1 yang
mana pada intercept-nya berada di angka -1 di sumbu y dari titik 0 (0,-1). Sementara itu, slope yaitu positif ¼
yang artinya titiknya akan berada pada 4unit ke kanan dan melangkah 1unit ke bawah (karena negatif).
Pada analisis regresi linier variabel Y adalah variable tergantung/dependen yang harus berupa variabel random
atau acak, sedangkan variabel X dapat merupakan variabel bebas/predictor/terikat/independen. Akan terlihat
bahwa apabila tebaran-tebaran titik tepat (fit) berada pada satu garis lurus, maka garis yang dibangun adalah
tepat, dan modelnya dikatakan sebagai model determinatif. Apabila tebaran titik-titik tidak selalu berada pada
garis lurus (karena adanya variasi variabel X) maka garis lurus direka agar diperoleh nilai yang tepat, yaitu
dengan melihat residu atau sisaannya yang paling kecil. Model yang dibangun disebut sebagai model statistik
atau stokastik (proses perubahan dalam variable outcome yang disebabkan oleh perubahan parameter/variable
independent).
Metoda kuadrat terkecil atau ordinary least square method (OLS) merupakan metoda yang populer dipakai
untuk membangun garis lurus tersebut dimana jumlah dari kuadrat residu (deviasi ordinat pengamatan dengan
garis rekaan) adalah yang paling kecil (Devore, 2016). Berdasarkan metoda OLS diturunkan rumus guna
menghitung koefisien a dan b sehingga persamaan garis linier dapat dibangun.
Berdasarkan persamaan 1, koefisien b yang adalah slope memiliki makna besarnya perubahan nilai Y apabila
nilai variable X berubah sebesar 1 unit (satuannya). Sementara itu, koefisien a yang adalah intercept dapat
diartikan sebagai besarnya nilai variable Y, bila variable X bernilai nol (Devore, 2016). Berikut di bawah ini
adalah contoh dari pemaknaan persamaan regresi linier.
Pemaknaannya adalah sebagai berikut, bila pasien yang dirawat usianya lebih tua satu tahun, maka
kemungkinan lama hari rawatnya akan lebih lama 0,16 hari.
Jika pasien usianya 40 tahun dapat diestimasikan lama hari rawatnya dengan menghitung persamaan regresi
linier di atas yaitu = 1,4 + 0,16 (40) = 7,8 hari. Sedangkan pasien usia 30 tahun = 1,4 + 0,16 (30) = 6,2 hari.
Selisih lama hari rawat pada kedua pasien pasien adalah 1,6 hari untuk selisih usia 10 tahun.
Apakah ada hubungan dan seberapa besar pengaruhnya antara tekanan darah dengan umur?
Individual TD Umur Individual TD Umur
1 144 39 16 130 48
2 220 47 17 135 45
3 138 45 18 114 17
4 145 47 19 116 20
5 162 65 20 124 19
6 142 46 21 136 36
7 170 67 22 142 50
8 124 42 23 120 39
9 158 67 24 120 21
10 154 56 25 160 44
11 162 64 26 158 53
12 150 56 27 144 63
13 140 59 28 130 29
14 110 34 29 125 25
15 128 42 30 175 69
r =n . ∑ Xi Yi−¿ ¿ ¿
Rumus diatas sebenarnya adalah covariance dari X dan Y dibagi dengan perkalian standar deviasi X dan standar
deviasi Y.
S xy
r=
Sx S y
r =∑ X i Y i−¿ ¿ ¿
Individual TD Umur X2 Y2 X.Y
r =n . ∑ X i Y i −¿ ¿ ¿
r =
5.987.280 – 5.789.704
r =
r = = =
r = 0,65
Berdasarkan koefisien korelasi pearson r = 0,65 dinyatakan sedang hubungannya (Table 1).
220
200
180
140
120
100
10 20 30 40 50 60 70
umur
β0 : konstanta
b = Sxy / Sx β1 :koefisien regresi
= 197.576/203.504 = 0,97
a=y–bх
= 142,53 – 43,78
= 98,8
Template I
Template II
Template III
Klik statistik
Estimates
Convidance Interval
Model Fit
Template IV
Continue
OK
Output SPSS:
Tabel IIa.
Variables Entered/Removedb
Variables Variables
Model Entered Removed Method
1 umur a . Enter
a. All requested variables entered.
b. Dependent Variable: sistoloc blood pressure
Tabel di atas menggambarkan variabel dependen dan variabel independen. Metoda yang digunakan untuk
memasukkan variabel independen yaitu metoda enter.
Tabel IIb.
Model Summary
Pada tabel ini perhitungan koefisien korelasi pearson antara tekanan darah dan umur muncul (r=0,658). Nilai
koefisien determinasi (R square=0,432) artinya, persamaan garis regresi yang kita peroleh menerangkan 43,2%
variasi tekanan darah dapat dijelaskan oleh faktor umur.
Tabel II.c
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 6394,023 1 6394,023 21,330 ,000a
Residual 8393,444 28 299,766
Total 14787,467 29
a. Predictors: (Constant), umur
b. Dependent Variable: sistoloc blood pressure
Tabel IIc. adalah tabel ANOVA dijelaskan oleh garis regresi (unexplained
variation).
yang berguna untuk menguji persamaan
r √n−2
t n−2=
√ 1−r 2 Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
3,44
t n−2= =5,29
√0,4225
cek t table
Tabel IId.
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 98,715 10,000 9,871 ,000 78,230 119,200
umur ,971 ,210 ,658 4,618 ,000 ,540 1,401
a. Dependent Variable: sistoloc blood pressure
Tabel IId. menggambarkan kuantifikasi hubungan antara variabel dependen dengan independen. Persamaan
regresinya adalah sbb:
Tekanan darah = 98,715 + 0,971 (umur)
Dengan persamaan tersebut, tekanan darah dapat diperkirakan jika kita tahu nilai umur seseorang. Dari b=0,971
berarti variabel tekanan darah akan bertambah sebesar 0,971 mmHg bila umur seseorang bertambah setahun
(95% CI:0,54-1,401), p-value <0,05. Konstanta 98,715 tidak memberikan arti apa-apa (no practical meaning)
hanya memberikan arti jika umur seseorang 0 tahun maka TD orang tesebut adalah 98,715.
Dari persamaan garis yang didapat tersebut kita dapat memprediksi variabel dependen (tekanan darah) dengan
variable independen (umur). Misalkan kita ingin mengetahui tekanan darah jika diketahui umur seseorang 50
tahun. Perhitungan dengan SPSS:
Output SPSS:
Tabel IIe.
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) 147,258 3,322 44,322 ,000 140,452 154,064
AGE50 ,971 ,210 ,658 4,618 ,000 ,540 1,401
a. Dependent Variable: sistoloc blood pressure
Dari tabel IIe didapatkan nilai konstanta untuk umur 50 tahun sebesar 147,258. Artinya jika umur seseorang 50
tahun dapat dipredikasi tekanan darahnya sebesar 147,258 (95%CI: 140,452-154,064). Nilai b pada variabel
independen (age50) tidak berubah pada model regresi yang baru.
Untuk mengikutsertakan garis linier pada diagram tebar (scatter plot). Double click pada plot-nya untuk
memperoleh tamplate chart editor.
Pada kolom fit line, klik total
OK
240
220
200
180
sistoloc blood pressure
160
140
120
100
10 20 30 40 50 60 70
umur
Persamaan garis linier mempunyai asumsi-asumi yang harus dipatuhi. Asumsinya dapat disingkat dengan istilah
HEIL-Gauss. Terdiri dari Homogeneity variance, Existance, Independence, Linearity, serta sebaran Gauss dari
residu. Apabila ketentuan dalam asumsi tersebut tidak terpenuhi, maka pemakaian persamaan garis linier dapat
dikatakan tidak akurat. Dalam hal ini dianjurkan untuk mengantinya dengan jenis statistik yang lain.
Tabel III. Asumsi HEIL-Gauss, Arti, Cara Diagnosis, dan Terapi Ketidakpemenuhan Asumsi
Homogenity of Variasi variabel Y pada tiap nilai Plot antara nilai residu dengan Y Transformasi variabel Y atau X;
variance X adalah sama dugaan. Bila tidak terdapat pola ttt
(homoscedascity) & menyebar merata disekita garis 1. Square root transformation
titik nol, maka dikatakan asumsi 2. Natural log transformation, kalo
homoscedascity terpenuhi. tidak berhasil poin 1.
3. Log transformation (log10), jika
tidak berhasil poin 3.
Independence Nilai Y antara satu observasi Uji Durbin Watson (DB), bila nilai Analisis runtut waktu,
dengan observasi lain tidak DW terletak pada selang ±2. memasukkan variabel penyebab
saling bergantung. disimpulkan tidak ada korelasi dependensi ke dalam model.
atau independen
Linearity Koefisien a dan b berhubungan Overall F test, melalui anova Transformasi variabel X atau Y
linier regresi. Bila diperoleh p hasil uji F
signifikan (p<α), maka dikatakan 1. Square root
model linier. 2. Center (substract its mean)
before square
Gauss of residual Residu menyebar menurut Residu (E) dihitung dari selisih Y Transformasi variabel X atau Y.
sebaran peluang normal dengan Y duga (berdasarkan
garis linier). Variabel residu
diperiksa kenormalannya dengan
eksplorasi variabel (mis: rvplot
atau normal P Plot)
Untuk mengetahui apakah model regresi linier valid atau tidak, maka dilakukan pemeriksaan nilai pencilan
terhadap model regresi dengan cara melakukan pemeriksaan residu. Satu pengamatan yang extrem berbeda
dengan yang lainnya dapat mempengaruhi hasil dari model regresi. Oleh karena itu dilakukan pemeriksaan
terhadap nilai pencilan residu.
Cara diagnosis:
k=jumlah variabel X
n=jumlah observasi
Residu (E)
Studentized residu: E ditransformasi ke t
Standardized residu: e ditransformasi ke Z
Jacknife residu: E dihitung dg menghilangkan satu
pengamatan, dan ditransformasi ke t
Influence Efek pengamatan terhadap garis regresi Melihat pengaruh tidap pengamatan thd persamaan
linier regresi linier.
Tetapi bila ada pengamatan yang mejadi pencilan atau mempengaruhi regresi linier, adalah dengan tidak
mengikutsertakan di dalam analisis.
Residu pada tiap-tiap observasi dapat dilihat pada perbedaan antara nilai observed dan nilai fit pada garis
regresi. Contoh pada gambar 3 diagram tebar, data yang kita punya (observed) pada seseorang yang berumur 50
tahun TD-nya adalah 140 mmHg, tapi nilai fit yang berada pada garis regresi menunjukkan 147,3 mmHg. Jadi,
residu pada orang ini sebesar -7,3 (140-147,3). Dari data ini kita akan mempunyai 30 titik residu.
Untuk persamaan garis regresi yang fit, ada 3 asumsi penting yang digunakan untuk mencek residu:
a. Checking outliers
Dari tamplate 3,
Klik statistik
Kolom residual, klik casewise diagnostic
Continue
Klik save
Template VI
Output SPSS:
Outliers adalah suatu data yang berada diluar garis linier. Syarat adanya outliers adalah std (standardized)
residual nilai batas kritis ±3.
“The removal of outliers from the data set under analysis can at times dramatically affect the performance of a
regression model. Outliers should be removed if there is reason to believe that other variables not in the model
explain why the outlier cases are unusual.”
1 kasus dicurigai outlier. Kasus Std.residual > batas kritis, artinya terdapat
nomor 2. pencilan.
Studentized residuals and deleted studentized residuals juga digunakan untuk melihat adanya pencilan.
Studentized deleted residual disebut juga "jacknife residual,".
Residuals Statisticsa
b. Checking independence
Dari tamplate III,
Klik statistik
Kolom residual, klik durbin watson
Continue
OK
Output SPSS:
Tabel IIIb.
Model Summaryb
Bila nilai Durbin Watson (DB) -2 s.d. +2 berarti asumsi independensi terpenuhi. Pada kasus ini nilai DB sebesar
1,69, sehingga dikatakan masing-masing data independen.
Template VII
Klik histogram
Klik normal probability
Output SPSS:
Histogram
Dependent Variable: sistoloc blood pressure
14
12
10
6
F requenc y
4
Std. Dev = ,98
2 Mean = 0,00
0 N = 30,00
1,0
,8
,5
,3
0,0
0,0 ,3 ,5 ,8 1,0
Pada kasus ini distribusi tidak normal. Maka perlu dilakukan terapi dengan cara transformasi variabel X atau Y.
Terapi:
Histogram
Dependent Variable: sistoloc blood pressure
14
12
10
8
F requenc y
4
Std. Dev = ,98
2 Mean = 0,00
0 N = 30,00
,8
,5
,3
0,0
0,0 ,3 ,5 ,8 1,0
O bs erv ed C um Prob
Histogram
Dependent Variable: sistoloc blood pressure
14
12
10
8
F requenc y
4
Std. Dev = ,98
2 Mean = 0,00
0 N = 30,00
-1,50 -,50 ,50 1,50 2,50 3,50
-1,00 0,00 1,00 2,00 3,00 4,00
,8
,5
,3
0,0
0,0 ,3 ,5 ,8 1,0
d. Checking homoscedacity
Scatterplot
Dependent Variable: sistoloc blood pressure
5
-1
-2
-2,0 -1,5 -1,0 -,5 0,0 ,5 1,0 1,5 2,0
Fokus utama pada scatter diagram ini adalah tidak adanya titik-titik sebar tidak menunjukkan pola tertentu,
sehingga dapat disimpulkan memenuhi homoscedacity. Sebaliknya bila diagram tebar menunjukkan pola ttt
misalnya mengelompok di bawah atau di atas garis tengah nol, maka diduga variannya terjadi heteroscedacity.
Gambar 4.
r1 r1 r1
0 0 0
Analisis multiple regression linear atau sering disebut juga analisis regresi linier ganda merupakan perluasan
dari simple linear regression (regresi linier sederhana). Pada analisis simple linear regression hanya ada satu
variabel independen (X) dihubungkan dengan satu variabel dependen (Y). Sedangkan pada multiple linear
regression merupakan analisis hubungan antara beberapa variabel independen (X 1, X2, ..., Xk) dengan satu
variabel dependen (Y).
Dalam regresi linier ganda variabel dependennya harus numerik sedangkan independennya boleh semuanya
numerik dan boleh juga campuran. Model persamaannya:
Tujuan analisis regresi ganda adalah untuk menemukan model regresi yang paling sesuai menggambarkan
faktor-faktor yang berhubungan dengan variabel dependen. Pada prinsipnya, model regresi ganda dapat berguna
untuk dua hal:
1. Prediksi, memperkirakan variabel dependen dengan menggunakan infomasi yang ada pada sebuah
atau beberapa variabel independen. Disini diketahui secara probabilitas nilai variabel dependen bila
individu mempunyai suatu set variabel dengan independen tertentu. Misalnya, kita melakukan analisis
variabel umur, BB, dan jenis kelamin dihubungkan dengan variabel dependen tekanan darah. Dari hasil
regresi individu dapat diperkirakan tekanan darahnya pada umur, berat badan, dan jenis kelamin
tertentu.
2. Estimasi, mengkuantifikasi hubungan sebuah atau beberapa variabel independen dengan sebuah
variabel dependen. Pada fungsi ini regresi dapat digunakan untuk mengetahui variabel independen apa
saja yang berhubungan dengan variabel dependen. Selain itu kita juga mengetahui seberapa besar
hubungan masing-masing independen terhadap variabel independen lainnya. Dari analisis ini dapat
diketahui variabel mana yang paling besar/dominan mempengaruhi variabel dependen, yang
ditunjukkan dengan koefisien regresi (b) yang sudah distandarisasi yaitu nilai beta.
Pemodelan
Satu hal yang penting dalam memilih variabel independen sehingga terbentuk sebuah model yang sesuai untuk
menggambarkan variabel dependen yang sesungguhnya dalam populasi. Dalam pembuatan model seringkali
dijumpai pandangan yang kurang tepat yaitu memasukkan semua variabel independen ke dalam model.
Alasannya dengan memasukkan sebanyak mungkin variabel independen ke dalam model, maka variabel
dependen diharapkan diprediksi dengan sempurna. Perlu diketahui bahwa penambahan variabel independen
tidak selalu meningkatkan kemampuan prediksi variabel independen terhadap variabel dependen, sebab semakin
banyak variabel independen (lebih-lebih variabel yang tidak relevan) mengakibatkan makin besarnya nilai
standar error (SE). Disamping itu model dengan banyak variabel seringkali menyulitkan dalam interpretasi.
Berdasarkan pertimbangan tersebut pemilihan variabel independen hendaknya memperhatikan aspek statistik
dan substansi. Model yang dihasilkan diharapkan model yang parsimoni, artinya variabel yang masuk dalam
model sebaiknya sedikit jumlahnya, namun cukup baik untuk menjelaskan faktor-faktor penting yang
berhubungan dengan variabel dependen.
Ada beberapa metoda untuk melakukan pemilihan variabel independen dalam analisis multivariat regresi linier
ganda, yaitu:
1. Enter, memasukkan semua variabel independen serentak satu langkah tanpa melewati kriteria
keamanan statistik tertentu.
2. Foward, memasukkan satu per satu variabel dari hasil pengkorelasian variabel dan memenuhi kriteria
kemaknaan statistik untuk masuk ke dalam model, sampai semua variabel yang memenuhi kriteria
tersebut masuk ke dalam model.Variabel yang masuk pertama kali adalah variabel yang mempunyai
korelai parsial terbesar dengan variabel dependen dan yang memenuhi kriteria tertentu untuk dapat
masuk model. Korelasi parsial adalah korelasi antara variabel independen dengan dependen. Kriteria
variabel yang dapat masuk P-in adalah 0,05 artinya variabel yang dapat masuk model bila variabel
tersebut mempunyai nilai P lebih kecil atau sama dengan 0,05.
3. Backward, memasukkan semua variabel ke dalam model tetapi kemudian satu persatu variabel
independen dikeluarkan dari model berdasarkan kriteria kemaknaan tertentu. Variabel yang pertama
kali dikeluarkan adalah variabel yang mempunyai korelai parsial terkecil dengan variabel dependen.
Kriteria pengeluaran atau P-out adalah 0,10, artinya variabel yang mempunyai nilai P lebih besar atau
sama dengan 0,1 dikeluarkan dari model
Pada ujian ini ingin diketahui hubungan antara. Analisis data dilakukan dengan menggunakan software STATA.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 15.75872 9.325688 1.69 0.092 -2.608927 34.12637
_cons | 2585.194 222.1997 11.63 0.000 2147.555 3022.833
------------------------------------------------------------------------------
Hasil analisis hubungan bb bayi dengan umur ibu (age) didapatkan p value = 0,092, dengan demikian p value
yang dihasilkan < 0,25 maka variabel umur ibu (age) lanjut ke multivariat.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 4.096947 1.629557 2.51 0.013 .8874103 7.306483
_cons | 2423.012 215.7002 11.23 0.000 1998.174 2847.849
------------------------------------------------------------------------------
Hasil analisis hubungan bb bayi dengan berat badan ibu di dapatkan p value = 0,013, dengan demikian p value
yang dihasilkan < 0,25 maka variabel berat badan ibu (lwt) lanjut ke multivariat.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_Irace_2 | -294.2098 152.1505 -1.93 0.054 -593.8876 5.46808
_Irace_3 | -256.2134 103.276 -2.48 0.014 -459.6273 -52.79953
_cons | 3094.835 70.98878 43.60 0.000 2955.014 3234.655
------------------------------------------------------------------------------
Hasil uji didapatkan nilai p value dummy pada variabel ras. Untuk race2 p value = 0,054 dan race3 p value =
0,014. Kedua nilai p value < 0,25, maka variabel race masuk ke dalam multivariat.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
smoke | -305.6149 99.27615 -3.08 0.002 -501.1468 -110.083
_cons | 3064.082 60.22389 50.88 0.000 2945.467 3182.698
------------------------------------------------------------------------------
Hasil analisis regresi antara variabel merokok(smoke) dengan bblr (bwt) didapatkan p value = 0,002, berarti p
value < 0,25 sehingga variabel merokok (smoke) dapat lanjut ke multivariat.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ptl | -211.6565 89.52501 -2.36 0.019 -387.9828 -35.33023
_cons | 2994.794 51.58381 58.06 0.000 2893.196 3096.392
------------------------------------------------------------------------------
Hasil analisis regresi antara variabel riwayat prematur (ptl) dengan bblr (bwt) didapatkan p value = 0,019,
berarti p value < 0,25 sehingga variabel kehamilan (ptl) dapat lanjut ke multivariat.
reg bwt ht
Hasil analisis bivariat antara variabel hipertensi dengan berat bayi didapatkan p value = 0,027, berarti p value <
0,25 sehingga hipertensi lanjut ke multivariat.
reg bwt ui
Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 1, 248) = 33.49
Model | 17556654.5 1 17556654.5 Prob > F = 0.0000
Residual | 129991151 248 524157.866 R-squared = 0.1190
-------------+------------------------------ Adj R-squared = 0.1154
Total | 147547805 249 592561.466 Root MSE = 723.99
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ui | -738.1271 127.5385 -5.79 0.000 -989.3238 -486.9304
_cons | 3063.811 49.72366 61.62 0.000 2965.877 3161.746
------------------------------------------------------------------------------
Hasil analisis bivariat antara variabel ui dengan berat bayi didapatkan p value = 0,000, berarti p value < 0,25
sehingga ui lanjut ke multivariat.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ftv | 42.86137 49.17671 0.87 0.384 -53.99588 139.7186
_cons | 2921.099 59.98753 48.70 0.000 2802.949 3039.249
------------------------------------------------------------------------------
Hasil analisis bivariat antara variabel ftv dengan berat bayi didapatkan p value = 0,384, berarti p value > 0,25
sehingga ftv tidak dapat lanjut ke multivariat.
Untuk menentukan variabel yang akan masuk ke dalam model yaitu dengan cara melihat nilai ρ value <0,05
secara bertahap dan melihat perubahan koefisien β (lebih dari 10%). Bila variabel yang ρ value >0,05 dan
perubahan koefisien β <10%, maka variabel itu tidak masuk ke dalam model. Namun bila perubahan koefisien
β kurang dari 10% dan variabel mempunyai nilai ρ value <0,05, maka variabel itu tetap dipertahankan di dalam
model. Tahapannya adalah semua variabel dimasukkan bersama-sama, kemudian secara bertahap satu per satu
dikeluarkan dimulai dari p value yang paling besar.
xi: reg bwt age lwt i.race smoke ptl ht ui (Model Awal)
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 3.393153 8.588092 0.40 0.693 -13.52415 20.31046
lwt | 2.744114 1.647945 1.67 0.097 -.5021 5.990328
_Irace_2 | -380.913 139.0552 -2.74 0.007 -654.8319 -106.9942
_Irace_3 | -409.7214 105.1685 -3.90 0.000 -616.8882 -202.5547
smoke | -397.4497 99.86397 -3.98 0.000 -594.1674 -200.732
ptl | -18.29355 85.3984 -0.21 0.831 -186.5161 149.929
ht | -588.2299 177.6869 -3.31 0.001 -938.2475 -238.2124
ui | -753.892 123.6192 -6.10 0.000 -997.4041 -510.3799
_cons | 3040.809 307.015 9.90 0.000 2436.033 3645.584
------------------------------------------------------------------------------
Dari nilai R-square didapatkan nilai sebesar 0,2621, artinya ketujuh variabel independen dapat menjelaskan
variabel berat bayi sebesar 26,21% sedangkan sisanya dijelaskan oleh variabel lain. Dari hasil uji statistik
didapatkan (lihat prob>F) didapatkan P value=0,000 berarti persamaan garis regresi secara keseluruhan sudah
signifikan.
Prinsip pemodelan yang dianut adalah model yang sederhana variabelnya sehingga masing-masing variabel
independent perlu di cek P valuenya, variabel yang P valuenya > 0,05 dikeluarkan dari model. Ternyata dari ke-
7 variabel independen ada 2 variabel yang p valuenya > 0,05, yaitu umur (age) p=0,693 dan riwayat prematur
(ptl) p=0,831. Tahap berikutnya dikeluarkan nilai p value > 0,05 yang terbesar yaitu ptl.
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
age | 3.219169 8.532729 0.38 0.706 -13.58873 20.02707
lwt | 2.80542 1.619701 1.73 0.085 -.3850909 5.995932
_Irace_2 | -381.1813 138.7752 -2.75 0.006 -654.5428 -107.8198
_Irace_3 | -411.3175 104.6972 -3.93 0.000 -617.5516 -205.0833
smoke | -402.9794 96.27962 -4.19 0.000 -592.6325 -213.3264
ht | -587.4643 177.3004 -3.31 0.001 -936.7133 -238.2154
ui | -758.5611 121.4424 -6.25 0.000 -997.7801 -519.342
_cons | 3036.597 305.7802 9.93 0.000 2434.266 3638.927
------------------------------------------------------------------------------
Setelah variabel ptl dikeluarkan dilihat perubahan koefisien B, bila ada perubahan sebesar >10% maka variabel
tersebut tidak jadi dikeluarkan.
Ptl -18,29 0 0
Dari perhitungan perubahan koefisien ( coef.) pada masing-masing variabel, ternyata tidak ada nilai koefisien
yang berubah > 10%, dengan demikian variabel ptl dikeluarkan dari model.
xi: reg bwt lwt i.race smoke ht ui (tanpa ptl dan age)
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------
Setelah variabel age dikeluarkan dilihat perubahan koefisien B, bila ada perubahan sebesar >10% maka variabel
tersebut tidak jadi dikeluarkan. Hasil perhitungannya sebagai berikut:
Variabel awal age dikeluarkan D coef.
Age 3,39 0 0
Ptl -18,29 0 0
Ternyata dari hasil perhitungan tidak ada perubahan koefisien B > 10%. Dengan demikian variabel age tidak
diikutkan model. Kemudian variabel lwt dicoba dikeluarkan dari model
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
_Irace_2 | -364.6116 135.4503 -2.69 0.008 -631.4127 -97.81049
_Irace_3 | -473.925 98.4174 -4.82 0.000 -667.7811 -280.0689
smoke | -422.7102 95.32191 -4.43 0.000 -610.469 -234.9514
ht | -516.1071 170.9083 -3.02 0.003 -852.751 -179.4631
ui | -793.9832 119.7888 -6.63 0.000 -1029.935 -558.0311
_cons | 3504.881 84.58694 41.44 0.000 3338.268 3671.495
------------------------------------------------------------------------------
Lwt 2,74 0 0
Ptl -18,29 0 0
Dari hasil perhitungan di atas didapatkan perubahan koefisien B sebesar > 10%, yaitu variabel race 3 dan ht.
Karena perubahannya > 10% maka variabel ltw dimasukkan kembali. Variabel lwt berperan sebagai variabel
confounder.
Uji interaksi dilakukan untuk mengetahui efek satu ekspose pada kejadian penyakit berbeda pada kelompok
ekspose lainnya. Interaksi yang mungkin terjadi pada kasus bblr banyak kemungkinan interaksi. Namun, yang
akan dilakukan uji interaksi adalah berdasarkan pertimbangan substansi biologi pada variabel yang diteliti.
Dari variabel yang ada maka ditemukan 2 interaksi yang secara substansi berinteraski satu dengan yang lainnya,
yaitu: race_lwt dan ht_smoke.
Output:
. xi: reg bwt lwt i.race smoke ht ui race_lwt
------------------------------------------------------------------------------
-------------+----------------------------------------------------------------
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.487194 1.634662 1.52 0.129 -.7327871 5.707176
_Irace_2 | -361.7243 137.6392 -2.63 0.009 -632.848 -90.60046
_Irace_3 | -405.5035 103.1834 -3.93 0.000 -608.7557 -202.2513
smoke | -434.9234 97.58992 -4.46 0.000 -627.1575 -242.6893
ht | -810.2462 245.6362 -3.30 0.001 -1294.104 -326.3884
ui | -757.9637 120.9608 -6.27 0.000 -996.2342 -519.6932
ht_smoke | 438.5094 350.1643 1.25 0.212 -251.2495 1128.268
_cons | 3158.649 239.9798 13.16 0.000 2685.933 3631.365
------------------------------------------------------------------------------
Berdasarkan hasil interaksi diatas didapatkan 1 interaksi yaitu interaksi variabel race dengan lwt P value=0,031.
Nilai R-square berubah sebesar 5,39%. Dengan demikian dapat disimpulkan model akhir dengan interaksi race
dengan lwt adalah model yang paling sahih. Kemudain dari model akhir ini dilakukan diagnostik linier agar
persamaan garis yang digunakan memprediksi angka yang valid.
Kita akan melihat apakah data yang ada terdapat pencilan (outlier) karena jika ada dapat mempengaruhi
hasil regresi. Berikut adalah tampilan scatter plot (grafik 1):
birth
weight
(grams)
0
250
weight of
200 mother at
last
150 menstrual
period
100 (pounds)
3
race 2
1
1
smoking
.5
status
during
pregnancy
0
1
history
of .5
hypertension
0
1
presence
.5 of uterine
irritability
0
1000
race_lwt 500
0
0 5000 1 2 3 0 .5 1 0 500 1000
Grafik di atas memperlihatkan beberapa pencilan. Untuk lebih jelasnya akan ditampilkan satu per satu:
5000
5000
4990 4990
4593 4593
4238 4238
4153
4000
4111 4153
4000
4054
3997
3983 4111
4054 4054
3969
3941
3912 3940 3997
3983 3997
3969
3884
3860 3884
3856 3940
3912
3884 3941
3884
3799
3790
3770 3756 3856
3799 3860
3790
3728
3699 3756
3728 3770
3651
3629
3614 3643
3637
3629 3699
4000weight (grams)
3600
3586
3572 3572 3651
3643
3637
3629
3614 3629
5000
3374 3430
3374 3473
3460
3459
3430 3444 3475
3317
3274 4990 3331
3321
3317
3303
3260 3374
3317 4990 3374
3317 3331
3321
3303
3234
3232
3225
3203
3175 3234 3274
3260
3232
3225
3203
3000
3104
3090 3175
3000
3080
3062 3076
3033
3005 3090
3080
3076
3062 3062 3104
3090
2977
2920 2992
2977
2948
2920 3033
3005
2992
2977 2977
2877
2835 4593 2906 2906
2877 4593 2948
2920 2877
2750 2821
2782
2769 2835
2821 2835
2733
2722 2782
2769 2750
2733
2722
2637
2622 2663
2665
2600 2663
2665
2637 2637
2551
2523 2557 2600
2557 2622
2551
2495
2450
2438 4238 2495
2466
2424 2495
2466 4238 2523
2495 2495
2466
2450
2395 4153
4111 2410
2381
2367 2424
2410 4153 2438 2395
4000
2325 4054 4054 4111 2381
2367
birth
2282
2240 39833997 3997 2296
2225 2296 4054 4054
2296 2325
2282
3969 2211 2225 3997 39833969 3997 2240
2187 38843940
3912 38843941 2187 2187 3941 2187 3940 2211
2000
2000
2055 3799 3790 2084 2100
2084 3884
38843884
3856 2126 3860 2055
1970
1928 3728 3699 3756 3770
3770 1936
1928 3799
3770
37703770 3756 37901970
1899
1893 3651
36373651
36373643 3651 1885 1936
1928 3728 3699 3651 1928 1899
3600 3629 3629 1885 3629 1893
birth weight (grams)
3614
3586 1818 36373572 35723586 3651
3643
3629
3000
3076
30763080
3033 3062 3062 3076 3090 3104
3090
3080
2992 2977 3005
2977 2977
2948 3033 2992 3062 3062 3062 3005
1000
1000
2906 22906
2948
948
1021 2821 2877
2835
2782
2769 2750 2750
2877
2835 1021 2835
2920
2877
2835
2821 2877
2665
2663 2722 2733 2750 2750 2782
2769 2733
2637
2600 2637 2622 2722 2665 2663
2557 2495 2466 24382495 2495
2495 2523 2551 709 2637
2600
2557 26372622 709
24242410 2466
2450 2395 2495
2495 2495 2495 2551 2523
23812381 2325 2367 2466
2450 2438
24242438 2410
23952410 2466
0 2296
2225 .2
2187
2296
2187.42240
2211 2240 2282
.6 .8 1 1 23252381
1.5
2381
2296 2296 2
2282
2367
2.5 3
2126 2211 2240
2240
2225
2000
2084
20842100 smoking
2055status 2055
during pregnancy 21262187
2055 2100 race
2000
1936
1928 1970 1928 2055 2084
2084
1885 1893 1899 1970 1893 1899 1936
1928 1928
1818 1790 1885 1818
1729 1790
1588 1729
1474 1588
1330 1474
1330
1000
1000
1021
1021
709
709
0 200 400 600 800
race_lwt 50 100 150 200 250
weight of mother at last menstrual period (pounds)
5000
4990
4593
4238
4153
4000
4111
4054
3997
3983
3969
3940
3941
3884
3860
3856 3912
3799
3790
3770
3756
3728
3699
3651
3643
3629 3637
birth weight (grams)
3614
3600
3586
3572
3544
3487
3475
3473
3460
3459
3444
3430
3374
3331
3321
3317
3303 3317
3274
3260
3234
3232
3225
3203
3175
3000
3104
3090
3080
3062
3033 3076
3005
2992
2977
2948
2920
2906
2877 2877
2835
2821
2782
2769 2835
2750
2733
2722 2750
2663
2665
2637
2622 2600
2557
2551
2495 2523
2466
2450
2438
2424
2410
2395
2381
2367
2325
2296
2282
2240
2225 2296
2211
2187
2000
2126
2100
2084
2055 2084
2055
1970
1936
1928
1899 1928
1893
1818 1885
1790
1729
1588
1474
1330
1000
1021
709
0 .2 .4 .6 .8 1
presence of uterine irritability
Grafik scatter plot di atas menunjukkan 2 variabel yang terdapat pencilan (outlier). Untuk mendukung scatter
plot di atas, pertama kita coba studentized residuals –dan lihat steam and leaves- sebagai berikut:
. predict r, rstudent
. stem r
Stem-and-leaf plot for r (Studentized residuals)
-2** | 63,63
-2** |
-2** |
-2** | 13
-1** | 83,83,82
-1** | 79,79,79,79,79,76,76,70,70,67
-1** | 53,44,44
-1** | 34,34,34,26,26,22,22,22,22
-1** | 19,19,19,15,15,15,15,13,13,13,07,07,07,00,00
-0** | 96,96,96,95,95,95,95,95,95,89,89,89,89,88,87,81,81
-0** | 76,76,74,74,73,73,73,67,64,64,64,61
-0** | 59,58,58,54,53,53,52,50,49,49,48,48,43,42,42
-0** | 39,36,36,36,36,35,34,34,33,33,30,30,30,28,28,23,23,22,22,20,20
-0** | 19,19,19,18,16,16,15,15,10,10,10,09,09,06,04,04,04,02,02
0** | 01,02,02,03,03,03,06,06,07,11,11,15,15,15,16,16,18,18
0** | 20,20,22,23,23,23,25,29,29,30,30,30,30,30,32,34,34,38
0** | 43,44,44,44,44,46,48,51,51,52,53,55,59,59
0** | 65,65,65,70,70,70,70,75,75,77
0** | 80,83,83,85,87,87,87,90,90,91,92,93,93,95,95
1** | 00,00,01,09,09,10,10,13,15,15,15
1** | 20,20,22,22,22,22,28,28,30,30,33,33,33,33,36,36,37,37,37
1** | 43,43,43,56,56,56
1** | 74,74,74,74
1** | 80,87,87,87
2** | 18,18
2** | 32,32
2. Asumsi Eksistensi
Untuk setiap nilai dari variabel X, variabel Y adalah variabel random yang mempunyai mean dan varian
tertentu.
Cara diagnostik:
Melakukan analisis deskriptif variabel residual dari model, bila residual menunjukkan adanya mean
mendekati nilai nol dan ada sebaran (varian atau standar deviasi), maka asumsi eksistensi terpenuhi.
Hasil output:
. sum rstud, detail
Studentized residuals
-------------------------------------------------------------
Percentiles Smallest
1% -2.142348 -2.650226
5% -1.736513 -2.650226
10% -1.316419 -2.142348 Obs 250
25% -.6876451 -1.940556 Sum of Wgt. 250
Dari hasil di atas menunjukkan angka residual dengan mean 0,000 dan SD 1,006. Dengan demikian asumsi
eksistensi terpenuhi.
Hasil Output:
Variable | VIF 1/VIF
-------------+----------------------
_Irace_3 | 29.33 0.034095
race_lwt | 24.86 0.040218
lwt | 6.45 0.155115
_Irace_2 | 5.00 0.200158
smoke | 1.18 0.844309
ht | 1.13 0.881930
ui | 1.06 0.943879
-------------+----------------------
Mean VIF | 9.86
Dari hasil uji asumsi didapatkan nilai VIF lebih dari 20 dan 1/VIF > 0,05, hal ini menunjukkan terdapat
multicolinearity pada model persemaan. Dengan demikian ada multicollinearity antara sesama variabel
independen. VIF dan tolerans (1/VIF) pada variabel _Irace_3 dan race_lwt menunjukkan nilai yang
worrisome. Pada kasus ini, multicollinearity muncul, karena kita memasukkan variabel interaksi race dan
lwt. Jika kita melihat lwt tanpa interaksi didapatkan P value = 0,075 (tidak signifikan) dan SE=1,67 (tabel
1).
Tabel 1. Persamaan tanpa Variabel yang diduga menyebabkan Inflasi
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------
Setelah dimasukkan variabel race_lwt, nilai P value variabel lwt naik menjadi 0,252 dan SE naik menjadi 3,61
(tabel 2).
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | -4.143854 3.610178 -1.15 0.252 -11.25524 2.967529
_Irace_2 | -926.4312 281.2173 -3.29 0.001 -1480.377 -372.4851
_Irace_3 | -1395.576 462.5 -3.02 0.003 -2306.615 -484.536
smoke | -424.2602 94.85462 -4.47 0.000 -611.1063 -237.4141
ht | -521.3057 177.7919 -2.93 0.004 -871.5229 -171.0885
ui | -775.4608 120.5074 -6.43 0.000 -1012.838 -538.0835
race_lwt | 3.898681 1.799952 2.17 0.031 .3531091 7.444253
_cons | 3535.974 306.81 11.52 0.000 2931.615 4140.333
------------------------------------------------------------------------------
Diduga variabel lwt menyebabkan nilai VIF dan 1/VIF besar. Oleh karena itu, kita akan mengeluarkan variabel
interaksi antara ras dan lwt dari persamaan, didapatkan nilai VIF sbb:
Source | SS df MS Number of obs = 250
-------------+------------------------------ F( 6, 243) = 14.34
Model | 38585252 6 6430875.33 Prob > F = 0.0000
Residual | 108962553 243 448405.569 R-squared = 0.2615
-------------+------------------------------ Adj R-squared = 0.2433
Total | 147547805 249 592561.466 Root MSE = 669.63
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------
Dari hasil regresi persamaan di atas didapatkan penurunan nilai VIF untuk variabel _Irace_3, sehingga
dengan persamaan akhir tanpa interaksi tidak terdapat multicollinearity.
Cara Diagnostik:
Membuat plot residual. Bila titik tebaran tidak berpola tertentu dan menyebar merata disekitar garis titik
nol maka dapat disebut varian homogen pada setiap nilai X, dengan demikian asumsi homoscedacity
terpenuhi.
Atau dengan melihat hasil hettest, bila hasil menunjukkan nilai p=0,000 (p value < 0,05) berarti terdapat
Heteroscedasticity (asumsi homoscedacity tidak terpenuhi).
Hasil Output:
2000
1000
Residuals
0
-1000
-2000
Untuk mendeteksi adanya heteroscedaticity dapat dilihat pada grafik rvfplot di atas. Didapatkan dari
grafik, titik sebaran tidak menunjukkan pola tertentu dan menyebar merata disekitar garis titik nol, maka
dapat dikatakan varian homogen pada setiap nilai X dengan demikan tidak terdapat heteroscedaticity
(asumsi homoscedaticity terpenuhi).
chi2(1) = 1.25
Dari hasil hettest menunjukkan nilai p=0,2644, berarti asumsi homoscedacity terpenuhi.
Cara Diagnostik:
Normal P-P plot residual, bila data menyebar disekitar garis diagonal dan mengikuti arah garis diagonal,
maka model regresi memenuhi asumsi normalitas.
Hasil Output:
K-Density
.4
.3
Density
.2 .1
0
-4 -2 0 2 4
Studentized residuals
P-Norm
1.00 0.75
Normal F[(rstud-m)/s]
0.25 0.50
0.00
Dari grafik k-density dan pnorm di atas menunjukkan data berdistribusi normal.
Model Regresi Linier (Final)
Setelah dilakukan analisis multivariat, ternyata variabel independen yang masuk model regresi adalah lwt (bb
ibu), race (ras), smoke (merokok), ht (hipertensi), ui (uterine irratibility).
------------------------------------------------------------------------------
bwt | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
lwt | 2.870638 1.607605 1.79 0.075 -.2959811 6.037258
_Irace_2 | -391.7132 135.6984 -2.89 0.004 -659.0084 -124.4181
_Irace_3 | -418.475 102.7821 -4.07 0.000 -620.9325 -216.0174
smoke | -407.7853 95.26463 -4.28 0.000 -595.4352 -220.1355
ht | -595.1597 175.8121 -3.39 0.001 -941.4699 -248.8496
ui | -756.424 121.0959 -6.25 0.000 -994.9557 -517.8923
_cons | 3109.298 236.9986 13.12 0.000 2642.464 3576.132
------------------------------------------------------------------------------
Pada tabel regresi akhir terlihat koefisien determinasi (R-square) menunjukkan nilai 0,26% artinya bahwa model
regresi yang diperoleh dapat menjelaskan 25% variasi variabel dependen berat badan bayi sebesar 26%.
Kemudian pada uji ANOVA, hasil uji F menunjukan nilai ρ=0,0000, berarti pada α 5% kita dapat menyatakan
bahwa model regresi cocok (fit) dengan data yang ada. Persamaan regresi yang diperoleh adalah:
Berat Bayi = 3109,3 + 2,9 lwt – 391,7 ras2 – 418,5 ras3 – 407,8 smoke -595,2 ht – 756,4 ui
Interpretasi:
1. R-square = 0,2615 artinya model persamaan ini dapat menjelaskan 20,14% variasi berat badan bayi sisanya
79,89 dijelaskan oleh faktor lain.
2. Setiap kenaikan berat badan ibu sebesar 1 kg, maka bb bayi akan naik sebesar 3 gram setelah dikontrol
variabel smoke, ras, ui, dan ht.
3. Pada ibu yang merokok berat badan bayinya akan lebih rendah sebesar 407,8 gram dibandingkan dengan
ibu yang tidak merokok setelah dikontrol lwt, ras, ht, dan ui.
4. Ibu yang menderita hipertensi bb bayi akan lebih rendah 595,2 gram dibandingkan dengan ibu yang tidak
menderita hipertensi, setelah dikontrol variabel smoke, ras, ui, dan lwt.
5. Untuk ibu-ibu yang mengalami iritasi uterus berat badan bayinya akan lebih rendah 756,4 gram
dibandingkan dengan ibu-ibu yang tidak mengalami iritasi uterus, setelah dikontrol variabel smoke, ras,
lwt, dan ht.
6. Ibu-ibu dari ras hitam memiliki bayi dengan berat lebih rendah 391 gram dari ibu-ibu ras putih, setelah
dikontrol variabel smoke, lwt, ui, dan ht.
7. Ibu-ibu dari ras lainnya (selain hitam dan putih) bayinya memiliki berat badan 418,5 gram lebih rendah
daripada ibu-ibu ras putih, setelah dikontrol variabel smoke, lwt, ui, dan ht.
Daftar Pustaka
Kleinbum et al. 1998. Applied Regression Analysis and Other Multivariable, 3rd edition. Boston: PWS-Kent
Pub.
Leech et al. 2005. SPSS for Intermediate Statistics: Use and Interpretation. New Jersey: Lawrance Erlbum
Ass.Pub.
Chan, Y.H. 2004. Biostatistic 201: Linear Regression Analysis. Singapore Medical Journal, Vol.45 (2):55.
Casson, R. J. & Farmer, L. D. 2014. Understanding and checking the assumptions of linear regression: a primer
for medical researchers.
Devore, J. 2016. Probability and Statistics for Engineering and the Sciences, California Polytechnic State
University.
Mnatzaganian, G., Ryan, Norman, P., Davidson & Hiller, J. 2012. Length of stay in hospital and all-cause
readmission following elective total joint replacement in elderly men. Orthopedic Research and
Reviews.
Schober, P., Boer, C. & Schwarte, L. A. 2018. Correlation Coefficients: Appropriate Use and Interpretation.
Anesth Analg, 126, 1763-1768.