Linier
Multivariat
FERDIANA YUNITA DEPT IKK-IKM
FKUPNVJ 2016
BESRAL:
Departemen Biostatistika
FKM UI, 2012
1 03/28/19
ANALISIS
MULTIVARIAT
Definisi= Menghubungkan beberapa var independen
dng satu var dependen
Kenapa Perlu Multivariat ?
Pada bidang kesmas:
● outcome/akibat --- tak mungkin penyebab tunggal
● outcome/akibat ---multi faktor
Mis: agent, host & lingk
Kontribusi murni masing-masing faktor setelah
mempertimbangkan faktor laindigunakan analis
multivariat
Kegunaan multivariat:
1.Mengetahui pengaruh murni/efek bersih masing-masing
variabel
2.Mengetahui faktor yang paling dominan
2 03/28/19
ANALISIS
MULTIVARIAT
Untuk mengetahui pengaruh murni/efek bersih :
a. Rancangan Eksperimen : variabel lain dikontrol
(misal: subjeknya tikus dari induk yg sama)
b. Rancangan studi: responden dipilih dengan cara
Matching
(misal: subjeknya dari umur yg sama, sex sama, pendidikan
sama, pekerjaan sama, ekonomi sama, tempat tinggal sama)
c. Pengontrol pada tahap analisis statistik ---- ANALISIS
MULTIVARIAT
3 03/28/19
Jenis Analisis Multivariat
1. Metode Dependensi: (independen
dependen)
A. dependen satu variabel
- numerik : regresi linier ganda
- katagorik : regresi Logistik ganda
B. dependen beberapa variabel
- numerik : Manova, GLM-repeated
- kategorik : Kanonikal
2. Metode Interdependensi
: tidak ada var independen dan dependen
: pemetaan/pengelompokan variabel
- numerik : cluster, faktor analisis
- katagorik : Multi dimensional scaling
4 03/28/19
Jenis Analisis
Multivariat
1. Metode Dependensi: (independen dependen)
A. dependen satu variabel
- numerik : regresi linier ganda
- katagorik : regresi Logistik ganda
B. dependen beberapa variabel
- numerik : Manova, GLM-repeated
- kategorik : Kanonikal
2. Metode Interdependensi
: tidak ada var independen dan dependen
: pemetaan/pengelompokan variabel
- numerik : cluster, faktor analisis
- katagorik : Multi dimensional scaling
5 03/28/19
ANALISIS
MULTIVARIAT
1. Regresi linier Ganda
var dependen = numerik
var independen = numerik dan kategorik
2. Regresi logistik Ganda
var dependen = kategorik
var independen = kategorik dan numerik
3. Regresi Cox Ganda
var dependen = time (survival)
var independen = kategorik dan numerik
6 03/28/19
REGRESI LINIER
Regresi linier sederhana:
Y = a + bx
7 03/28/19
FUNGSI REGRESI LINIER
GANDA
1. Menetapkan model matematik yang paling baik utk
menggambarkan hubungan var. indep dan var dep. Sig
< 0,05
2. Menggambarkan hubungan kuantitatif antara var. indep
(x) dng var dep (y) setelah dikontrol var. lain coef.B
3. Mengetahui variabel x yang dominan dlm memprediksi
var. dep Standardized Beta
4. Mengetahui adanya interaksi pada dua atau lebih var.
independen thd variabel dependen
5. Memprediksi var dep (Y) dari beberapa var indep (X)
R 2 harus > 60%
8 03/28/19
ASUMSI REGRESI LINIER
GANDA
1.HOMOSCEDASTICITY
Varian nilai variabel Y sama untuk semua nilai var. X
Homoscedasticity : Plot residual membentuk tebaran
merata diatas dan dibawah garis tengah nol
Heteroscedasticity: tebaran residual mengelompok
dibawah/diatas garis tengah nol
2. EKSISTENSI
Var. dep. Y merupakan variabel random pada setiap
nilai var. independen X. Sampel diambil random,
asumsi ini terpenuhi bila residual menunjukan
nilai : mean = 0.0
9 03/28/19
ASUMSI REGRESI LINIER
GANDA
3. INDEPENDENSI
Masing-masing var Y bebas satu sama lain, tidak boleh diukur dua
kali. Asumsi terpenuhi: angka Durbin Watson antara -2 s/d 2
4. LINEARITAS
Nilai mean dari var. Y untuk suatu kombinasi X1, X2, dst terletak
pada grs linier yg dibentuk persamaan regresi
Asumsi terpenuhi: hasil Uji Anova regresi hasilnya signifikan
5. NORMALITAS
Var. Y berdistribusi normal utk setiap pengamatan variabel X.
Asumsi terpenuhi bila Grafik Normal P-P plot residual, titik
tebarannya menyebar sekitar garis diagonal. Sebaliknya bila
tebaran data menjauhi garis diagonal maka asumsi tidak
terpenuhi
10 03/28/19
PEMODELAN REGRESI
LINIER GANDA
“memasukan sebanyak mungkin variabel indep ?”
- Banyak variabel hanya aspek statistik
- Banyak variabel overfitting, Std.Error terlalu besar
Lalu ?
- Memasukan variabel– ada aspek substansi dan statistik
- Sebaiknya variabel yg masuk sedikit, namun cukup
baik utk menjelaskan hubungannya dng var. dependen
Model yg baik ?
R Square besar namun var. Indep jumlahnya sedikit
11 03/28/19
PEMODELAN REGRESI
LINIER GANDA
Langkah :
1. Melakukan seleksi bivariat: bila p value < 0,25 dapat lanjut ke
multivariat. Namun kalau ada var yang secara substansi penting
walaupun p valuenya > 0,25 variabel tsb dapat masuk ke multivariat
(Metode terkini: Tidak perlu seleksi bivariat)
12 03/28/19
PEMODELAN REGRESI
LINIER GANDA
3.Melakukan Diagnostik regresi linier
a. Pengujian asumsi, termasuk
b. Pengujian Kolinearitas, antar independen terjadi
hub yg sangat kuat : r ≥ 0,8. Atau nilai VIF > 10
4. Uji interaksi
Hubungan antara var. indep dan var. dep, berbeda
menurut tingkat var indep yg lain. Penentuan var
interaksi pertimbangan substansi
5. Reliabilitas Model
Sampel di bagi dua, bila kedua sampel menghasil model
yg sama, maka model regresi sudah reliabel
13 03/28/19
REGRESI LINIER (seleksi
bivariat)
P-value
1. Age-Umur (..th)
0.219
2. lwt-Berat badan (..pound)
0.010
0.009 3. smoke-Merokok (Y/N)
Umur = 0,219,
bera ibu=0,010,
anc=0,425,
prematur =0,034.
Variabel anc p
value > 0,25
namun krn secara
substansi penting,
maka variabel anc
lanjut ke
multivariat
15 03/28/19
Bivariat dng uji t
16 03/28/19
Bivariat uji t
17 03/28/19
Pemodelan Multivariat
1. Umur (..th)
2. Berat badan
(..pound)
3. Merokok (Y/N)
4. Prematur (…kali)
5. Hipertensi (Y/N)
6. anc (…kali)
18 03/28/19
Pemodelan Model R
Model Summary
R Square
Adjusted
R Square
Std. Error of
the Estimate
Multivariat
1 .340a .116 .086 696.829
a. Predictors: (Constant), No physician visits in first
trimester, Smoking status, History of hypertension,
History of premature labor, Age of mother, Weight of
mother (pounds)
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2315.862 299.442 7.734 .000
Age of mother 7.162 10.022 .052 .715 .476
Weight of mother
4.793 1.777 .201 2.698 .008
(pounds)
Smoking status -232.253 105.928 -.156 -2.193 .030
History of premature labor -154.002 106.574 -.104 -1.445 .150
History of hypertension -574.230 215.481 -.193 -2.665 .008
No physician visits in first
-2.847 49.705 -.004 -.057 .954
trimester
a. Dependent Variable: Birth weight (gram)
Tahap berikutnya, evaluasi seleksi variabel dengan batas p value < 0,05
Dari nilai p diatas, variabel umur, prematur, anc memiliki p value > 0,05
shg harus keluar dari model. ANC Pvalue yg tertinggi, maka dikeluarkan
19 terlebih dahulu 03/28/19
Model Summary
Pemodelan Multivariat
a. Predictors: (Constant), History of hypertension,
Smoking status, Age of mother, History of premature
labor, Weight of mother (pounds)
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2317.608 297.074 7.801 .000
Age of mother 7.051 9.807 .051 .719 .473
Weight of mother
4.781 1.759 .201 2.718 .007
(pounds)
Smoking status -232.224 105.638 -.156 -2.198 .029
History of premature labor -153.747 106.191 -.104 -1.448 .149
History of hypertension -573.011 213.841 -.192 -2.680 .008
a. Dependent Variable: Birth weight (gram)
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2449.121 233.779 10.476 .000
Weight of mother
5.035 1.721 .211 2.925 .004
(pounds)
Smoking status -236.420 105.338 -.159 -2.244 .026
History of premature labor -145.412 105.417 -.098 -1.379 .169
History of hypertension -582.566 213.148 -.195 -2.733 .007
a. Dependent Variable: Birth weight (gram)
23 03/28/19
Model tanpa prematur
Model Summary
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 2390.105 230.391 10.374 .000
Weight of mother
5.352 1.710 .224 3.130 .002
(pounds)
Smoking status -263.009 103.812 -.177 -2.534 .012
History of hypertension -586.722 213.646 -.197 -2.746 .007
a. Dependent Variable: Birth weight (gram)
Dari hasil analisis ternyata tidak ada lagi yang p value-nya > 0,05 dengan
demikian proses pencarian variabel yang masuk dalam model telah selesai
dan model yang terakhir adalah sbb, setelah prematur dimasukkan kembali:
25 03/28/19
Model
Model Summaryb
Akhir
Model R R Square R Square the Estimate Watson
1 .336a .113 .094 694.016 .222
a. Predictors: (Constant), History of premature labor, History of
hypertension, Smoking status, Weight of mother (pounds)
b. Dependent Variable: Birth weight (gram)
Coefficientsa
Stand
ardize
d
Unstandardized Coeffi Collinearity
Mo Coefficients cients Statistics
de Tolera
l B Std. Error Beta t Sig. nce VIF
1 (Constant) 2449.121 233.779 10.476 .000
Weight of mother
5.035 1.721 .211 2.925 .004 .925 1.081
(pounds)
Smoking status -236.420 105.338 -.159 -2.244 .026 .964 1.037
History of hypertension -582.566 213.148 -.195 -2.733 .007 .943 1.060
History of premature
-145.412 105.417 -.098 -1.379 .169 .947 1.056
labor
a. Dependent Variable: Birth weight (gram)
26 03/28/19
Uji asumsi
Setelah didapatkan model yang parsimony, maka
1. Eksistensi harus dilakukan pengujian terhadap asumsi regresi
linier ganda
Untuk mengetahui asumsi ini dilakukan uji Durbin Watson, bila nilai
Durbin berkisar –2 s.d +2 berarti asumsi independensi terpenuhi,
sebaliknya bila nilai Durbin < -2 atau > +2 berarti asumsi tidak terpenuhi
Dari hasil uji didapatkan koefisien Durbin Watson 1,452, berarti asumsi independensi
28 terpenuhi.
03/28/19
3. Asumsi liniearitas
Nilai mean dari variabel Y untuk suatu kombinasi X1, X2, X3, …, Xk
terletak pada garis/bidang linier yang dibentuk dari persamaan regresi.
Untuk mengetahui asumsi linieritas dapat
diketahui dari uji ANOVA (overall F test) bila hasilnya signifilan (p value<alpha) maka
moodel berbentuk linier. Hasil uji asumsi :
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regression 11291987 4 2822996.778 5.861 .000a
Residual 88625066 184 481657.965
Total 99917053 188
a. Predictors: (Constant), History of premature labor, History of hypertension, Smoking
status, Weight of mother (pounds)
b. Dependent Variable: Birth weight (gram)
Dari output diatas menghasilkan uji anova 0,000, berarti asumsi linearitas terpenuhi
29 03/28/19
4. Asumsi homoscedascity
Analisa scatter-plot antara Nilai prediksi
standar (ZPRED) dengan nilai residu
standar (ZRESID) Scatterplot
R e g r e s s io n S t u d e n t iz e d R e s id u a l
-1
-2
-3
-4
-3 -2 -1 0 1 2 3
Histogram memperlihatkan distribusi normal & pada P-P plot nilai residual
berhimpit dengan garis diagonal
31 Kedua grafik tersebut menggambarkan asumsi Normalitas terpenuhi 03/28/19
Multicollinearity
Coefficientsa
Stand
ardize
d
Unstandardized Coeffi Collinearity
Mo Coefficients cients Statistics
de Tolera
l B Std. Error Beta t Sig. nce VIF
1 (Constant) 2449.121 233.779 10.476 .000
Weight of mother
5.035 1.721 .211 2.925 .004 .925 1.081
(pounds)
Smoking status -236.420 105.338 -.159 -2.244 .026 .964 1.037
History of hypertension -582.566 213.148 -.195 -2.733 .007 .943 1.060
History of premature
-145.412 105.417 -.098 -1.379 .169 .947 1.056
labor
a. Dependent Variable: Birth weight (gram)
Dari hasil uji asumsi didapatkan nilai VIF tidak lebih dari 10, dengan
demikian tidak ada Multicollinearity antara sesama variabel indepeden
Dari hasil uji asumsi dan uji kolinearitas ternyata semua asumsi terpenuhi
sehingga model dapat digunakan untuk memprediksi berat badan bayi.
32 03/28/19
Model Summaryb
Model Akhir
Adjusted Std. Error of Durbin-
Model R R Square R Square the Estimate Watson
1 .336a .113 .094 694.016 .222
a. Predictors: (Constant), History of premature labor, History of
Model Summaryb hypertension, Smoking status, Weight of mother (pounds)
Adjusted Std. Error of Durbin- b. Dependent Variable: Birth weight (gram)
Model R R Square R Square the Estimate Watson
1 .336a .113 .094 694.016 .222
a. Predictors: (Constant), History of premature labor, History of
hypertension, Smoking status, Weight of mother (pounds)
b. Dependent Variable: Birth weight (gram) Coefficientsa
Stand
ardize
Berat Bayi = 2449,1+5,0 Lwt – 236,4
Berat Bayi = 2449,1+5,0 Lwt – 236,4 smoke smoke d --582Hi
582Hi––145,4
145,4Ptl
Ptl
Unstandardized Coeffi Collinearity
Mo Coefficients cients Statistics
de Tolera
l B Std. Error Beta t Sig. nce VIF
1 (Constant) 2449.121 233.779 10.476 .000
Weight of mother
5.035 1.721 .211 2.925 .004 .925 1.081
(pounds)
Smoking status -236.420 105.338 -.159 -2.244 .026 .964 1.037
History of hypertension -582.566 213.148 -.195 -2.733 .007 .943 1.060
History of premature
-145.412 105.417 -.098 -1.379 .169 .947 1.056
labor
a. Dependent Variable: Birth weight (gram)
Dengan model persamaan ini, kita dapat memperkirakan berat badan bayi ,
33 namun model ini hanya dapat menjelaskan 11,3% variasi pada berat bayi,
88,7% lagi ditentukan oleh variabel lain yang tidak diteliti 03/28/19
Interpretasi
Berat
BeratBayi
Bayi==2449,1+5,0
2449,1+5,0Lwt
Lwt––236,4
236,4smoke
smoke--582Hi
582Hi––145,4
145,4Ptl
Ptl
- Setiap kenaikan berat badan ibu sebesar 1 pound, maka berat badan bayi akan naik
sebesar 5,0 gram setelah dikontrol variabel merokok, hipertensi dan prematur
- Pada ibu yang merokok berat bayinya akan lebih rendah sebesar 236,4 gram setelah
dikontrol variabel berat badan, hipertensi dan prematur.
- Pada ibu yang menderita hipertensi,berat bayinya akan lebih rendah sebesar 582,5
gram setelah dikontrol variabel berat badan ibu,merokok dan prematur.
Kolom Beta dapat digunakan untuk mengetahui variabel mana yang paling besar
peranannya (pengaruhnya) dalam menentukan variabel dependennya (berat badan
bayi). Semakin besar nilai beta semakin besar pengaruh nya terhadap variabel
dependennya. Pada hasil di atas berarti variabel yang paling besar pengaruhnya
terhadap penentuan berat badan bayi adalah berat badan ibu..
34 03/28/19