Anda di halaman 1dari 31

BAB 6

ANALISIS REGRESI
Capaian Pembelajaran
a) Mahasiswa mampu memilih uji analisis statistik sesuai dengan kegunaannya,
b) Mahasiswa mampu melakukan pengujian regresi dengan SPSS
c) Mahasiswa mampu menginterpretasikan hasil SPSS regresi

Indikator Capaian Pembelajaran


a) Mahasiswa mampu memilih uji analisis statistik sesuai dengan rancangan penelitian yang
digunakan dan data yang dimiliki dengan tepat
b) Mahasiswa mampu mengerjakan soal yang diberikan dengan langkah-langkah yang tepat
c) Mahasiswa mampu menginterpretasikan hasil analisis dari soal dengan tepat

A. Analisis regresi
Analisis regresi adalah analisis yang digunakan untuk meramalkan (memprediksi)
variable terikat (Y) jika variable bebas (X) diketahui. Analisis regresi yang sering digunakan
dalam penelitian kesehatan adalah analisis regresi logistic dan regresi linier. Analisi regresi
(dalam hal ini regresi linier) termasuk dalam analisis parametrik yang bertujuan untuk menguji
prediksi/estimasi/ memperkirakan kejadian (variable terikat) atas dasar data kejadian (variable
bebas) yang telah ditentukan. Analisis regresi berbeda dengan analisis korelasi, dimana
Prediksi/estimasi dicari dengan rumus regresi dengan variabel bebas dinotasikan huruf
Y, sedangkan variabel terikat dinotasikan dengan huruf X. Selain Y dan X, dalam rumus
regresi terdapat pula koefisien regresi dari variabel bebas yang digunakan untuk menghitung
estimasi serta koefisien konstanta. Dalam buku ini akan dibahas analisis multivariat prediktif
yaitu regresi logistik dan regresi linier, dimana perbedaan antara keduanya terletak pada
variabel terikatnya. Analisis Regresi Logistik memilki variabel terikat berupa kategorik,
sedangkan Regresi Linier memiliki variabel terikat berupa numerik.
Langkah-langkah dalam analisis regresi sebagai berikut:
1. Melakukan seleksi variabel yang akan dimasukkan dalam analisis multivariat (variabel
yang memiliki nilai p<0.25 pada analsis bivariat)
2. Melakukan analysis regresi. Terdapat beberapa metode, diantaranya metode enter,
forward, dan backward. Ketiga metode tersebut digunakan untuk mengetahui faktor yang
paling berpengaruh. Perbedaannya terdapat pada prosesnya. Metode enter dilakukan secara
manual, sedangkan metode forward dan backward dilakukan secara otomatis. Pada metode
backward, semua variabel dimasukkan ke dalam analisis multivariat secara otomatis.
Kemudian secara bertahap variabel yang tidak berpengaruh akan dikeluarkan hingga tidak
ada variabel yang dapat dikeluarkan dari analisis. Sedangkan proses metode forward
kebalikan dari metode backward.
3. Melakukan interpretasi hasil analisis
a) Variabel bebas yang berpengaruh terhadap variable terikat (berdasarkan nilai p tiap
variable)
b) Urutan kekuatan hubungan dari variable bebas yang berpengaruh terhadap variable
terikat (pada regresi logistic dilihat dari nilain OR, sedangkan pada regeresi linier
dilihat dari nilai r (koefisien korelasi))
c) Membuat model regresi.
i. Model regresi logistic yaitu p =1/(1+e-y).
p : probabilitas terjadinya suatu keadaan
e : bilangan natural = 2,7
y = a + b1x1 + b2x2 + b3x3 ….+ bixi
a : konstanta regresi
b : nilai koefisien tiap variable bebas
x : variable bebas
ii. Model regresi linier yaitu y = a + b1x1 + b2x2 + b3x3 ….+ bixi
y : nilai variable terikat
a : konstanta regresi
b : nilai koefisien tiap variable bebas
x : variable bebas

4. Menilai kualitas rumus dari analisis regresi (kemampuan diskriminasi dan kalibrasi)
✓ Kualitas rumus regresi logistik
• Diskriminasi dinilai dengan mengamati nilai area under the curve (AUC)
menggunakan metode receiver operating curve (ROC). Nilai AUC semakin baik jika
semakin mendekati angka 1.
• Kalibrasi dengan melihat nilai p dari uji Hosmer dan Lameshow. Kalibrasi meningkat
saat nilai p>0,05 dalam pengujian Hosmer dan Lameshow.
✓ Kualitas rumus regresi linier :
• Diskriminasi dinilai dengan melihat nilai Adj R2 . Nilai determinasi meningkat
ketika nilai Adj. R2 .mendekati 1
• Kalibrasi dilihat dari hasil uji ANOVA. Nilai kalibrasi baik ketika nilai p pada uji
ANOVA <0,05.
Model/persamaan regresi linier berganda dapat dikatakan baik (dalam hal ini
memiliki ketepatan dalam estimasi, tidak bias dan konsisten), jika memenuhi asumsi
normalitas, bebas dari multikolinearitas, bebas heteroskedastisitas, dan autokorelasi
(time series/runtut waktu).
5. Menilai asumsi/syarat regresi
Model/persamaan regresi dapat dikatakan baik (dalam hal ini memiliki ketepatan dalam
estimasi, tidak bias dan konsisten), jika memenuhi asumsi regresi.

✓ Analisis Regresi Logistik harus memenuhi syarat multikolineritas (tidak boleh ada
hubungan yang kuat antara sesama variabel bebas).
✓ Analisis Regresi Linier memiliki beberapa syarat yaitu normalitas (distribusi residu
harus normal), independensi (tidak ada hubungan antara residu dengan variabel bebas),
multikolinearitas, linearitas (hubungan variabel bebas dengan variabel terikat bersifat
linear), dan heteroskedisitas (residu tidak memiliki hubungan dengan variabel teirkat).
B. Analisis Regresi Logistik
Analisis regresi logistik (pemodelan logit) merupakan pengembangan dari analisis
multivariat chi-square yang memilki variabel terikat kategorik. Regresi logistik digunakan
untuk memprediksi atau menilai kemungkinan (likelihood) suatu outcome penyakit atau
kondisi kesehatan tertentu (Y) dengan pemodelan berdasarkan factor-faktor risiko (X) yang
diketahui.
Data variabel terikat pada regresi logistik dapat berupa kategorik biner (Ya atau Tidak)
atau Polycotomous (seperti sangat setuju, setuju, biasa, tidak setuju, sangat tidak setuju).
Variabel bebas pada regresi logistic dapat pula berpa interval atau rasio. Pada buku ini hanya
akan dijelaskan Analisis Regresi Logistik dengan data biner /dikotomik atau ada yang
menyebutnya dummy variabel.

Contoh soal :
Seorang peneliti ingin mengetahui faktor-faktor yang dapat dijadikan sebagai prediktor
terjadinya penyakit jantung. Variabel yang diteliti adalah hipertensi, jenis kelmain, merokok,
dan diabetes mellitus. Desain penelitian yang digunakan adalah kohort dengan 200 sampel .
Data penelitian yang diperoleh sebagai berikut (data lengkap terdapat pada lampiran data) :

jenis Jantung_bivari
no hipertensi merokok DM Jantung_reg
kelamin at

1 2 2 2 2 2 0
2 1 2 1 2 2 0
3 2 1 2 1 2 0
4 1 1 1 2 1 1
5 1 1 1 2 2 0
6 2 2 2 2 2 0
7 2 2 2 2 2 0
8 1 1 1 1 1 1
9 2 2 2 1 1 1
10 1 2 1 1 2 0
11 2 2 2 1 1 1
12 1 1 1 1 2 0
13 2 2 2 1 2 0
14 1 1 1 1 2 0
15 2 1 2 2 2 0

200 1 1 1 1 1 1
Tabel Kode Variabel Penelitian
No Variabel Skala Kode dan kategori*
1 Hipertensi Kategorik 1 ya, 2 tidak
2 Jenis kelamin Kategorik 1 laki-laki, 2 perempuan
3 Merokok Kategorik 1 ya, 2 tidak
4 Diabetes mellitus Kategorik 1 ya, 2 tidak
5 Jantung_bivariate (untuk kategorik 1 ya, 2 tidak
analisis bivariat/chi
square)
6 Jantung reg (untuk analisis kategorik 1 ya, 0 tidak
regresi)

*Kode terbesar pada variabel bebas digunakan untuk pembanding. Kode 1 pada
analisis regresi/multivariat digunakan untuk kategori yang akan diprediksi kejadiaan.

Langkah-langkah analisis regresi logistic menggunakan SPSS:


1. Melakukan seleksi variable dengan analisis bivariat (dalam hal ini uji Chi square atau uji
Fisher karena bentuk datanya kategorik-kategorik) untuk mencari variable bebas yang
paling berpengaruh. (langkah-langkahnya ada pada materi sebelumnya). Hasil analisis
bivariat dilihat pada nilai signifikansi. Jika p<0,05 maka dikatakan variable memiliki
pengaruh bermakna, sehingga variable dapat dilanjutkan analisis regresi. Variabel terikat
masih dapat dianalisis regresi jika p<0,25 (Catatan untuk uji bivariat, value variable terikat
yang digunakan harus tidak memiliki kategori 0. Dalam contoh soal ini gunakan variable
jantung_bivariate)

Hasil/output SPSS uji Chi square tiap variable bebas terhadap variable terikat
(kejadian penyakit jantung) sebagai berikut :

a. Hubungan antara jenis_kelamin dengan kejadian_penyakit_jantung

Chi-Square Tests
Asymp. Sig. Exact Sig. Exact Sig.
Value Df (2-sided) (2-sided) (1-sided)
Pearson Chi-Square 24.566a 1 .000
Continuity Correctionb 23.145 1 .000
Likelihood Ratio 25.103 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear
24.443 1 .000
Association
N of Valid Cases 200
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is
36.96.
b. Computed only for a 2x2 table
b. HUbungan anatara Hipertensi dengan kejadian_penyakit_jantung

Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig.
Value df (2-sided) sided) (1-sided)
Pearson Chi-Square 61.191a 1 .000
Continuity Correctionb 58.994 1 .000
Likelihood Ratio 64.992 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear
60.885 1 .000
Association
N of Valid Cases 200
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is
45.60.
b. Computed only for a 2x2 table

c. Hubungan anatara Merokok dengan kejadian_penyakit_jantung

Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig. (1-
Value Df (2-sided) sided) sided)
Pearson Chi-Square 50.261a 1 .000
Continuity Correctionb 48.273 1 .000
Likelihood Ratio 52.673 1 .000
Fisher's Exact Test .000 .000
Linear-by-Linear
50.009 1 .000
Association
N of Valid Cases 200
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count is 47.04.
b. Computed only for a 2x2 table

d. Hubungan antara Diabetes_mellitus dengan kejadian_penyakit_jantung

Chi-Square Tests
Asymp. Sig. Exact Sig. (2- Exact Sig.
Value Df (2-sided) sided) (1-sided)
a
Pearson Chi-Square 9.570 1 .002
Continuity Correctionb 8.714 1 .003
Likelihood Ratio 9.644 1 .002
Fisher's Exact Test .003 .002
Linear-by-Linear
9.522 1 .002
Association
N of Valid Cases 200
a. 0 cells (0.0%) have expected count less than 5. The minimum expected count
is 46.08.
b. Computed only for a 2x2 table

Interpretasi : berdasarkan table-tabel output Chi Square di atas diketahui semua variabel
yang memiliki nilai p< 0,25. Oleh karena itu, dapat dikatakan semua variabel bebas
memiliki hubungan yang bermakna dengan variable terikat sehingga semua variable akan
dianalisis regresi logistik.

2. Analisis logistik biner. Langkah-langkah yang dilakukan


a. Klik analyze --> Regression --> Binary Logistik
b. Masukkan jantung_reg ke dalam kotak Dependent variable
c. Masukkan jenis kelamin (x1), hipertensi (X2), merokok (X3), dan diabetes mellitus
(X4) ke dalam kotak Covariate
d. Pilih metode Backward LR pada Method

Gambar. Tahapan analisis logistic biner dengan menggunakan metode backward LR

e) Klik Options --> klik CL for exp (B)--> klik Hosmer-Lameshow goodness-of-fit →
continue (Langkah ini untuk menilai kualitas rumus regresi yang dihasilkan)
Gambar 1. Analisis loistik regresi dengan menggunakan hosmer-lemeshow goodness-
of-fit

f) Klik Save --> klik Probabilities ---> Continue

Gambar 2. Tahapan analisis probabilitas pada analisis regresi logistik

g) Klik Categorical --> pindahkan jenis kelamin, hipertensi, merokok, dan diabetes
mellitus ke kotak Categorical covariate. Klik Continue --> Ok
Gambar 3. Definisi kelompok variable analisis

Tabel 1. Hasil/output analisis statistik uji regresi logistik

Dependent Variable Encoding

Original Value Internal Value


tidak 0
Ya 1
Pada table Dependent Variabel Encoding, value “tidak” diberi kode 0, sedangkan “ya”
diberi kode 1. Pada contoh ini sudah benar karena pada regresi logistic, kategori yang
akan diprediksi harus diberi kode 1 (dalam contoh ini, peneliti ingin memprediksi adanya
penyakit jantung (Ya), bukan memprediksi tidak adanya penyakit jantung sehingga Ya
harus diberi kode 1)

Categorical Variables Codings


Parameter
coding
Frequency (1)
diabetes_mellitus DM 104 1
tidak DM 96 0
Hipertensi Hipertensi 95 1
tidak hipertensi 105 0
Merokok Merokok 98 1
tidak merokok 102 0
jenis_kelamin laki-laki 123 1
Perempuan 77 0
Pada table Categorical Variables Codings, kode variable bebas untuk kode
“tidak” berubah secara otomatis menjadi 0 ketika dilakukan analsisi regresi logistic.
Sedangkan kategori yang akan diprediksi harus diberi kode 1. Pada variabel jenis
kelamin kode 1 diberikan berdasarkan referensi/pustaka yang menjelaskan laki-laki
lebih rentan terkena penyakit jantung (hanya contoh).

Variables in the Equation


95% C.I.for EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step 1a jenis_kelami
.268 .458 .342 1 .559 1.308 .532 3.211
n(1)
hipertensi(1) 1.731 .462 14.072 1 .000 5.648 2.286 13.955
merokok(1) .844 .549 2.365 1 .124 2.327 .793 6.825
DM(1) .654 .350 3.496 1 .062 1.923 .969 3.817
Constant -1.599 .337 22.480 1 .000 .202
a
Step 2 hipertensi(1) 1.719 .461 13.903 1 .000 5.576 2.260 13.762
merokok(1) 1.024 .457 5.017 1 .025 2.786 1.137 6.827
DM(1) .643 .349 3.399 1 .065 1.903 .960 3.770
Constant -1.512 .299 25.582 1 .000 .221
a. Variable(s) entered on step 1: jenis_kelamin, hipertensi, merokok, DM.

✓ Tabel Variables In Equation (Uji statistic Wald) digunakan untuk mengetahui


koefiesien variable bebas yang memiliki pengaruh terhadap variable terikat. Pada table
tersebut terlihat bahwa variabel jenis kelamin dikeluarkan dari step 2. Hal ini
dikarenakan jenis kelamin memiliki nilai sig paling besar diantara variable bebas
lainnya. Artinya variabel tersebut kurang berpengaruh terhadap kejadian penyakit
jantung dibandingkan variabel hipertensi, merokok dan DM dan selanjutnya tidak
dianalisis lebih lanjut/tidak menjadi variable predictor.
✓ Kekuatan hubungan antara variabel bebas dengan terikat dapat diketahui dari nilai Odd
Rasio/OR (lihat nilai Exp (B)). Kekuatan hubungan terbesar terdapat pada variable
hipertensi (OR=5,576) diikuti oleh variable merokok (OR =2.786) dan variable DM
(OR=1,903).
✓ Selanjutnya dibuat persamaan regresi berdasarkan nilai B pada variable yang
berpengaruh. Persamaan regresi sebagai berikut :
✓ Persamaan untuk memprediksi probabilitas kejadian penyakit jantung yaitu
p = 1/(1+e-y),
Dimana p adalah probabilitas terjadinya penyakit jantung sedangkan y adalah
persamaan regresi
✓ Y = a + b1X1 +b2X2 +b3X3 + ….+biXi
Y= -1,512 + 1,719 (hipertensi) + 1,024 (merokok) + 0,643 (DM).

3. Menilai kualitas analisis regresi logistik.


Kualitas persamaan regresi logistic dapat dinilai dari kalibrasi (kecocokan model) dan
kemampuan diskriminasi. Kalibrasi persamaan regresi dikatakan baik jika nilai Sig. Uji
Hosmer dan Lemeshow lebih dari 0,05 (p>0,05), sedangkan kemampuan diskriminasi
dapat dilihat dari hasil analisis Area Under Curve (AUC). Persamaan regresi dikatakna
memiliki kemampuan diskriminasi yang baik jika nilai AUC mendekati 1.

Output dari uji Hosmer and Lemeshow Test

Tabel 2. Output analisis uji hosmer dan lameshow

Hosmer and Lemeshow Test


Step Chi-square Df Sig.
1 15.416 6 .017
2 20.440 4 .000

Berdasarkan nilai sig Step 2 (step yang dipilih saat membuat persamaan regresi,
lihat table wald sebelumnya) pada Hosmer dan Lemeshow Test diatas menunjukkan
bahwa persamaan yang diperoleh mempunyai kalibrasi kurang baik karena p< 0,05. Hal
ini menunjukkan bahwa pada tingkat kepercayaan 95% model regresi logistic yang
dibuat tidak mampu memprediksi data (tidak sesuai dengan data) sehingga diperlukan
variabel interaksi diantara variable bebasnya.

Langkah menambahkan variable interaksi:

1. Klik Analyzed --> Regression -->Binary Logistik


2. Pilih hipertensi dan merokok bersamaan kemudian klik >a*b>

Gambar 4.analisis regresi dengan menggunakan binary logistik metode Backward LR

3. Lakukan hal yang sama untuk interaksi hipertensi dan DM; dan merokok dan DM
Gambar 5. Pengelopokan kelompok variable dependent

4. Setelah dibuat variable interaksi, selanjutnya dilakukan analisis regresi seperti


sebelumnya.

Tabel 3. Output analisis statistik regresi menggunakan spss

Variables in the Equation


95% C.I.for
EXP(B)
B S.E. Wald df Sig. Exp(B) Lower Upper
Step jenis_kelamin(1) .172 .461 .139 1 .710 1.187 .481 2.929
1a hipertensi(1) .808 .902 .803 1 .370 2.244 .383 13.146
merokok(1) -1.209 1.071 1.274 1 .259 .298 .037 2.437
DM(1) .859 .470 3.336 1 .068 2.361 .939 5.935
hipertensi(1) by
3.623 1.142 10.064 1 .002 37.440 3.993 351.038
merokok(1)
DM(1) by hipertensi(1) -1.613 1.123 2.064 1 .151 .199 .022 1.799
DM(1) by merokok(1) .847 1.136 .556 1 .456 2.333 .252 21.619
Constant -1.442 .384 14.118 1 .000 .236
Step hipertensi(1) .776 .898 .747 1 .387 2.173 .374 12.629
2a merokok(1) -1.109 1.041 1.136 1 .287 .330 .043 2.536
DM(1) .846 .468 3.262 1 .071 2.330 .930 5.837
hipertensi(1) by
3.656 1.139 10.311 1 .001 38.715 4.156 360.647
merokok(1)
DM(1) by hipertensi(1) -1.590 1.121 2.013 1 .156 .204 .023 1.834
DM(1) by merokok(1) .839 1.136 .546 1 .460 2.314 .250 21.437
Constant -1.382 .345 16.002 1 .000 .251
Step hipertensi(1) .484 .832 .338 1 .561 1.622 .318 8.277
3a merokok(1) -.697 .812 .738 1 .390 .498 .101 2.445
DM(1) .917 .460 3.978 1 .046 2.503 1.016 6.164
hipertensi(1) by
3.688 1.112 11.000 1 .001 39.980 4.521 353.557
merokok(1)
DM(1) by hipertensi(1) -.999 .779 1.643 1 .200 .368 .080 1.696
Constant -1.420 .345 16.914 1 .000 .242
Step merokok(1) -.743 .806 .851 1 .356 .476 .098 2.307
a
4 DM(1) .843 .438 3.715 1 .054 2.324 .986 5.479
hipertensi(1) by
4.049 .928 19.044 1 .000 57.322 9.303 353.212
merokok(1)
DM(1) by hipertensi(1) -.782 .683 1.312 1 .252 .458 .120 1.744
Constant -1.343 .312 18.515 1 .000 .261
Step DM(1) .869 .435 3.989 1 .046 2.386 1.016 5.599
5a hipertensi(1) by
3.374 .548 37.867 1 .000 29.184 9.965 85.467
merokok(1)
DM(1) by hipertensi(1) -.780 .684 1.299 1 .254 .458 .120 1.753
Constant -1.429 .302 22.376 1 .000 .240
Step DM(1) .591 .362 2.667 1 .102 1.806 .889 3.670
6a hipertensi(1) by
2.981 .401 55.388 1 .000 19.712 8.990 43.221
merokok(1)
Constant -1.328 .280 22.479 1 .000 .265
Step hipertensi(1) by
3.055 .398 58.879 1 .000 21.213 9.722 46.287
7a merokok(1)
Constant -1.053 .212 24.668 1 .000 .349
a. Variable(s) entered on step 1: jenis_kelamin, hipertensi, merokok, DM, hipertensi *
merokok , DM * hipertensi, DM * merokok.

Tabel 4. Output analisis hosmer dan lameshow

Hosmer and Lemeshow Test


Step Chi-square Df Sig.
1 5.649 6 .464
2 3.751 4 .441
3 2.665 4 .615
4 4.569 4 .334
5 2.476 3 .480
6 .020 2 .990
7 .000 0 .

Dari tabel di atas menunjukkan nilai sig hosmer and lemeshow pada step 1-6 lebih dari
0,05 sehingga dapat dikatakan persamaan yang dibuat dengan data step 1-6 memiliki
kalibrasi baik. Selanjutnya dipilih yang memiliki nilai Sig paling besar, dalam hal ini
tampak pada step 6 sehingga persamaan regresi yang dibuat menggunakan hasil dari step
6. Persamaan regresinya sebagai berikut
p = 1/(1+e-y),
Dimana p adalah probabilitas terjadinya penyakit jantung sedangkan y adalah
persamaan regresi dan nilai e=2,7

y= -1,328+0,591(DM)+2,981(hipertensi)*(merokok)

Selanjutnya dilakukan analisis untuk mendapatakn nilai diskriminasi. Untuk mengetahui


kemampuan diskriminasi dilakukan dengan langkah-langkah berikut:
1. Klik Analyze --> ROC
2. Masukkan jantung_reg pada state variable
3. Masukkan PRE_2 pada Test Variable
4. Masukkan angka 1 pada Value of State Variable
5. Pilih semua kotak yang ada pada Display -->Ok

Gambar 6. Tahapan input data dengan analisis ROC Curve


Hasil/output SPSS:

Tabel 5. Hasil analisis area under curve (AUC)

Area Under the Curve


Test Result Variable(s): Predicted probability
Asymptotic 95% Confidence
Asymptotic Interval
Area Std. Errora Sig.b Lower Bound Upper Bound
.804 .032 .000 .740 .867
The test result variable(s): Predicted probability has at least one tie
between the positive actual state group and the negative actual state
group. Statistik may be biased.
a. Under the nonparametric assumption
b. Null hypothesis: true area = 0.5

Berdasarkan tabel Area Under Curve di atas diketahui nilai AUC nya adalah 0,84
atau 80,4%. Nilai ini kemudian dibandingkan dengan indeks interpretasi di bawah
ini :

Tabel 6. Indeks interpretasi nilai persentase AUC

Nilai AUC Interpretasi


>50%-60% Sangat lemah
>60%-70% Lemah
>70%-80% Sedang
>80%-90% Kuat
>90%-100% Sangat kuat

Berdasarkan tabel di atas nilai AUC kasus ini termasuk kuat secara statistic
sehingga persamaan/model regresi logistic biner pada penelitian ini memiliki
kualitas yang baik.

C. Analisis Regresi Linier


Tujuan dari analisis regresi linier adalah untuk mengetahui pengaruh satu atau lebih
variabel bebas terhadap suatu variabel terikat. Analisis regresi linier dibagi menjadi regresi
linier sederhana dan regresi linier berganda. Regresi linier sederhana memiliki satu variabel
bebas dan satu variabel terikat, sedangkan regresi linier berganda memiliki dua atau lebih
variabel bebas dan satu variabel terikat. Contoh regresi linier berganda faktor-faktor yang
berhubungan dengan tekanan darah sistolik (variabel Y) Analisis dilakukan dengan mengukur
kadar gula darah (variabel X1), kadar kolesterol darah (X2) dan berat badan (X3).
Regresi berganda adalah metode yang digunakan untuk masalah penelitian dengan
variabel terikat Y yang datanya berupa skala interval/rasio (kuantitatif) yang mempengaruhi
atau berhubungan dengan lebih dari satu variabel bebas X yang skala pengukurannya
nominal/ordinal (kualitatif) dan interval/hubungan (kuantitatif). Tujuannya adalah untuk
memperkirakan/memprediksi nilai Y ketika semua variabel bebas diketahui nilainya. Beberapa
persamaan regresi linier dibentuk dengan menggunakan metode kuadrat terkecil (least squares
method). Juga untuk mengetahui besarnya pengaruh masing-masing variabel bebas dalam
persamaan tersebut. Langkah-langkah analisis regresi linier adalah sebagai berikut:
a. Melakukan analisis deskriptif dan uji normalitas untuk mengetahui apakah data memenuhi
syarat analisis regresi
b. Melakukan analisis bivariat dengan uji Pearson atau Spearman
c. Melakukan analisis regresi
d. Menilai kualitas model regresi
e. Menilai asumsi regresi linier

1. Analsis regresi linier sederhana

Contoh kasus :
Seorang peneliti ingin mengetahui apakah usia berpengaruh terhadap tekanan darah
sistolik. Penelitian dilakukan terhadap 30 sampel. Data yang diperoleh sebagai berikut:

Td
No Umur
sistolik
1 39 155
2 47 165
3 45 150
4 47 145
5 66 162
6 46 142
7 42 170
8 57 136
9 42 158
10 56 162
11 55 150
12 48 140
13 56 150
14 45 130
15 32 130
16 23 112
17 34 132
18 27 116
19 45 128
20 27 120
21 24 125
22 30 115
23 50 200
24 44 160
25 35 120
26 30 128
27 22 119
28 24 144
29 29 138
30 26 130

Langkah-langkah penyelesaian :
1. Lakukan entry data
2. Lakukan uji normalitas data.
➢ Klik Analyze → Descriptive statistic →Explore.
➢ Masukkan umur dan tekanan sistolik ke dalam dependent list.
➢ Klik plot→ pilih normality plot with test→continue→ok
➢ Output SPSS

Tabel tes normalitas menunjukkan kedua variable terdistribusi normal sehingga


dapat dilanjutkan ke uji regresi linier sederhana.

3. Lakukan Uji regresi dengan langkah sebagai berikut :


➢ Klik Analyze -->regression --> linear
➢ Masukkan sistolik ke dalam Dependent, sedangkan umur pada independent
➢ Klik ok
Hasil/ output:
Tabel 7.output analisis regresi linear sederhana

Variables Entered/Removeda
Variables Variables
Model Method
Entered Removed
1 umurb . Enter
a. Dependent Variable: tekanan_darah_sistolik
b. All requested variables entered.
Berdasarkan tabel Model Summary diketahui nilai R atau korelasi Pearson product
adalah 0,642, sedangkan nilai Adj. R 2 atau nilai determinan adalah 0,391. Hal ini
menunjukkan .

Berdasarkan tabel ANOVA di atas nilai sig sebesar 0,001 (p < 0,05) sehingga model regresi
dapat digunakan untuk memprediksi tekanan darah sistolik dari umur

Dari tabel Coefficients dapat diketahui nilai konstanta (B) sebesar 98,88 dan
koefisien umur sebesar 1,061 sehingga model regresi sederhana pada kasus ini adalah Y =
98,887 + 1,061 X1, dengan X1 adalah umur.

4. Menilai asumsi regresi linier sederhana.


Asumsi klasik pada regresi linier sederhana yang harus terpenuhi adalah data interval atau
rasio (scale), linearitas, normalitas, homoskedastisitas, dan Autokorelasi (Hanya untuk data
time series atau runtut waktu). Untuk asumsi data scale dan normalitas telah dilakukan dan
pada kasus ini tidak perlu diuji autokorelasi karena bukan data time series sehingga yang
perlu diuji adalah asumsi linearitas, dan homokedastisitas.

Langkah uji liniearitas :


1. Klik Analyze → Compare Means → Means
2. Masukkan Sistolik ke Dependent list, Sedangkan Umur ke Independent List
3. KLik Option→ centang Test of Linearity → Continue → Ok

Output SPSS :

Berdasarkan output diatas, diketahui nilai Signifikansi dari Deviation from linearity yaitu
0,088 (lebih besar dari 0,05) sehingga dapat disimpulkan terdapat hubungan linear secara
signifikan antara umur dengan tekanan sistolik. (Asumsi linearitas terpenuhi)

Langkah uji homoskedastisitas.


1.klik analyze → regression →linier
2. masukkan sistolik ke dependent list, umur ke Blok 1 of 1
3. masukan ZPRED ke Y, dan ZRESID ke X→ continue → OK

Hasil SPSS:

Scatterplot di atas menunjukkan :


➢ Data menyebar di atas dan di bawah atau di sekitar angka o
➢ Titik-titik data tidak mengumpul hanya di atas atau di bawah saja
➢ Penyebaran data tidak membentuk pola tertentu
Berdasarkan scatterplot di atas, dapat disimpulkan tidak terjadi masalah heteroskedastisitas
sehingga model regresi linier baik dan ideal (asumsi homoskedastisitas terpenuhi).

2. Analisis Regresi Linier Ganda


Contoh kasus
Seorang mahasiswa ingin mengetahui apakah usia, dan berat badan dapat menjadi faktor
prediktor tekanan darah sistolik. Data yang diperoleh sebagai berikut:

Berat
No Sistolik Usia
Badan
1 144 39 75
2 178 47 80
3 138 45 70
4 145 47 67
5 162 66 75
6 142 46 60
7 170 42 70
8 124 30 67
9 158 42 76
10 162 56 75
11 150 55 67
12 140 48 65
13 150 56 62
14 110 25 65
15 128 32 60
16 130 23 56
17 135 34 59
18 114 27 57
19 116 24 60
20 124 27 63
21 136 45 64
22 142 50 78
23 120 30 56
24 120 44 60
25 160 35 66
26 158 58 65
27 144 45 61
28 130 29 70
29 124 29 67
30 175 68 69

Langkah-langkah penyelesaian
A. Lakukan uji normalitas data (lihat langkah uji regresi sederhana)
Tabel 8. Output hasil analisis normalitas uji tekanan darah

Tests of Normality
Kolmogorov-Smirnova Shapiro-Wilk
Statistik df Sig. Statistik Df Sig.
tekanan_darah_sistolik .090 30 .200* .970 30 .539
Usia .121 30 .200* .951 30 .185
berat_badan .117 30 .200* .956 30 .250
*. This is a lower bound of the true significance.
a. Lilliefors Significance Correction

Berdasarkan tabel di atas, diketahui nilai sig pada Shapiro-Wilk > 0,05 sehingga dapat
dikatakan data terdistribusi normal.

B. Lakukan analisis bivariat (analisis Pearson correlation)


➢ Klik Analyze → bivariate → masukkan tekanan darah sistolik, usia, dan berat badan ke
Variabel → beri centang Pearson →Ok
Hasil/output:

Tabel 9. Resume hasil analisis korelasi dengan metode korelasi Pearson.

Correlations
tekanan_darah usia
_sistolik berat_badan
**
tekanan_darah_sistolik Pearson Correlation 1 .753 .625**
Sig. (2-tailed) .000 .000
N 30 30 30
Usia Pearson Correlation .753** 1 .462*
Sig. (2-tailed) .000 .010
N 30 30 30
berat_badan Pearson Correlation .625** .462* 1
Sig. (2-tailed) .000 .010
N 30 30 30
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).

Berdasarkan tabel di atas diketahui bahwa korelasi semua variabel bebas dengan variable
terikat memiliki nilai p>0,25, sehingga semua variabel memenuhi syarat untuk dianalisis
regresi linear

C. Lakukan analisis regresi linear berganda. Langkah-langkahnya sebagai berikut :


➢ Klik Analyze--> Regression --> Linear
➢ Masukkan sistolik ke dalam kotak Dependent
➢ Masukkan umur dan berat badan ke dalam kotak independent
➢ Pilih Backward pada kotak Method

Gambar 7. Tahapan analisis regresi linear sederhana dengan menggunakan metode


backward
➢ Klik Statistik
➢ Pilih Estimate → Model Fit → Collinearity diagnostics (untuk uji multikolinearitas) →
Durbin-Watson dan Case-diagnostics (untuk uji autokorelasi) → Continue

Gambar 8. Pilihan metode statistik dengan menggunakan regresi liner sederhana dengan
Durbin-Watson dan Case-diagnostics

➢ Klik Plots --> Histogram dan Normal Probability Plot (uji normalitas)
➢ Pilih Dependent ke Y, dan *ZPRED ke X (untuk mengecek asumsi linear)--> klik Next
Gambar 9. Tahapan pilihan memilihan untuk analisis asumsi linear

➢ Pilih *ZPRED ke Y dan *ZRESID ke X (untuk uji homoskedastisitas)→ Continue →


Ok

Gambar 10. Tahapan analisis asumsi konstan


Output SPSS :

Coefficientsa
Unstandardized Standardized Collinearity
Coefficients Coefficients Statistik
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 39.639 20.892 1.897 .069
Umur .874 .186 .590 4.701 .000 .786 1.272
berat_bada
.983 .351 .352 2.805 .009 .786 1.272
n
a. Dependent Variable: tekanan_darah_sistolik

Selanjutnya untuk menentukan persamaan regresi dapat dilihat dari table Coefficient, nilai
konstanta (Constant) tiap variable dimasukkan ke dalam rumus umum Y = a + b1X1 + b2X2 .
Dengan demikian persamaan regresi linear pada kasus ini adalah
Y = 39,639 + 0,874 X1 + 0,983 X2, dengan Y adalah tekanan darah sistolik, X1 adalah umur,
X2 adalah berat badan.

D. Menilai Asumsi Regresi

Untuk mengetahui apakah persamaan regresi dapat dikatakan valid, maka perlu dilakukan
penilaian terhadap asumsi/syarat regresi. Jika asumsi regresi tidak terpenuhi, maka persamaan
yang dibuat dapat dikatakan kurang valid. Asumsi-asumsi regresi linier berganda yaitu data
interval atau rasio (scale), linearitas, normalitas, homoskedastisitas, multikolinearitas, dan
Autokorelasi (Hanya untuk data time series atau runtut waktu). Hasilnya dapat dilihat dari
output SPSS sebagai berikut:
1. Asumsi normalitas
Gambar 11. Hasil plot analisis distribusi normal
Histogram dan grafik normal p-p plot di atas menunjukkan bahwa residu
terdistribusi normal (mengikuti garis diagonal).

2. Asumsi linearitas berdasarkan scatterplot (dapat pula dilakukan berdasrkan compare


mean seperti regresi sederhana)
Grafik di atas menunjukkan bahwa data terkesan/tampak memiliki linearitas yang
positif (membentuk garis condong ke kanan) antara variabel bebas dengan terikat sehingga
dapat dikatakan syarat linearitas terpenuhi.

3. Asumsi Homoskedastisitas

Grafik di atas menunjukkan sebaran residu menyebar secara konstan dan tidak pola tertentu
sehingga syarat homoskedisitas terpenuhi
4. Asumsi multikolinearitas
Model regresi linier dikatakan baik jika tidak terdapat multikolinearitas. jika nilai
Tolerance < 0,1 dan nilai VIF >10 maka model regresi memiliki multikolinearitas.

Coefficientsa
Unstandardized Standardized Collinearity
Coefficients Coefficients Statistik
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) 39.639 20.892 1.897 .069
Umur .874 .186 .590 4.701 .000 .786 1.272
berat_bada
.983 .351 .352 2.805 .009 .786 1.272
n
a. Dependent Variable: tekanan_darah_sistolik

Berdasrkan table Coefficient Nilai tolerance tiap variable bebas tidak ada yg <0,10 artinya
tidak ada korelasi antar variable bebas yg nilainya lebih dari 95%. Selanjutnya Nilai VIF
tiap variable bebas tidak ada yang lebih dari 10.

5. Asumsi autokorelasi (hanya jika data times series)


Pada soal tidak perlu dilakukan karena bukan data times series. Namun sebagai latihan dapat
dilihat pada uji Durbin-Watson sebagai berikut

Model Summaryb
Adjusted R Std. Error of Durbin-
Model R R Square Square the Estimate Watson
a
1 .816 .665 .640 11.099 2.290
a. Predictors: (Constant), berat_badan, umur
b. Dependent Variable: tekanan_darah_sistolik

Nilai Durbin Watson (d) dibandingkan dengan nilai du yang terdapat pada table Durbin
Watson dengan signifikansi 0,5, n=jumlah data, k=jumlah variable bebas (pada contoh soal
n=30, k=2). Asumsi autokorelasi terpenuhi jika du<d<4-du
Diketahui nilai d=2,290, du=1,566, 4-du=2,434. Dengan demikian asumsi autokorelasi
terpenuhi (1,566<2,290<2,434)
E. Menilai kualitas model regresi
Kualitas model regresi dapat dilihat dari nilai diskriminasi, kalibrasi, dan Uji signifikasi
parameter individual (uji T)
1. Nilai diskriminasi
Nilai diskriminasi/koefisien determinasi digunakan untuk mengukur seberapa jauh
kemampuan model/persamaan dalam menerangkan variasi variable terikat. Nilai
diskkriminasi dapat dilihat dari nilai Adjusted R square (nilainya 0-1). Semakin
mendekati 1 semakin baik nilai diskriminasinya
Output SPSS :
el Summaryb
Adjusted R Std. Error of Durbin-
Model R R Square Square the Estimate Watson
a
1 .816 .665 .640 11.099 2.290
a. Predictors: (Constant), berat_badan, umur
b. Dependent Variable: tekanan_darah_sistolik

Berdasarkan tabel diatas diketahui nilai Adjusted R Square sebesar 0,640, hal ini
menenjukkan bahwa koefisien determinasi berat badan dan usia menjelaskan tekanan
darah sistolik sebesar 64,0%. Dengan kata lain, tekanan darah sistolik dipengaruhin
oleh berat badan dan usia sebesar 64,0%, sisanya (36%) dipengsaruhi oleh factor
lainnya yang tidak diteliti.

2. Kalibrasi
Nilai kalibrasi menunjukkan apakah nilai Y berhubungan linier yang signifikan dengan
X1, X2, X3, dst. Nilai kalibrasi dapat dilihat dari signifikansi uji ANOVA (jika p<0,05
maka ada salah satu atau semua variable bebas (X) signifikan) yang berarti model
regresi terkalibrasi baik
Outpus SPSS :
ANOVAa
Sum of
Model Squares Df Mean Square F Sig.
1 Regression 6604.820 2 3302.410 26.807 .000b
Residual 3326.147 27 123.191
Total 9930.967 29
a. Dependent Variable: tekanan_darah_sistolik
b. Predictors: (Constant), berat_badan, umur

Pada table ANOVA di atas nilai p=0,00 (p<0,05) sehingga dapat dikatakan model
terkalibrasi dengan baik
3. Uji signifikasi parameter individual (uji T)
Uji ini dilakukan untuk mengetahui pengaruh variabel bebas secara inidivual terhadap
variable terikat
Coefficients a
Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -50.619 29.170 -1.735 .094
berat_badan 2.854 .433 .780 6.589 .000
2 (Constant) -40.883 27.707 -1.476 .152
berat_badan 2.363 .463 .646 5.100 .000
umur .582 .265 .279 2.201 .036
a. Dependent Variable: tekanan_darah_sistolik
Pada table Coefficient diketahui nilai signifikansi kedua variable bebas <0,05 sehingga dapat
dikatakan memenuhi uji signifikasi parameter individual.
Kesimpulan :
Berdasarkan sejumlah langkah di atas, dapat disimpulkan persamaan regresi di atas telah
memenuhi asumsi regresi linier berganda dan kualitasnya cukup baik untuk menjelaskan pengaruh
umur dan berat badan terhadap tekanan darah sistolik, dengan persamaan yang diperoleh Y =
39,639 + 0,874 X1 + 0,983 X2.
Y adalah tekanan darah sistolik, X1 adalah umur, X2 adalah berat badan.

Latihan Soal
1. Seorang mahasiswa ingin mengetahui pengaruh antara umur dan tinggi badan terhadap berat
badan siswa SD A. Data yang diperoleh mahasiswa tersebut adalah sebagai berikut:

No. Umur (X1) Tinggi (X2) Berat badan (Y)


1 9 125 37
2 12 137 41
3 6 99 34
4 10 122 39
5 9 129 39
6 10 128 40
7 7 96 37
8 8 104 39
9 11 132 42
10 6 95 35
11 10 114 41
12 8 101 40
13 12 146 43
14 10 132 38
15 7 98 37
16 9 120 40
17 10 130 43
18 8 99 39
19 8 103 40
20 7 100 41

Pertanyaan
a. Tentukan persamaan regresi untuk data di atas?
b. Buktikan apakah terdapat pengaruh yang signifikan antara umur, tinggi badan dan berat
badan pada anak usia SD?
2. Seorang peneliti ingin mengetahui factor-faktor yang mempengaruhi kejadian diabetes
mellitus tipe 2. Beberapa variable yang ingin diteliti adalah jenis kelamin (laki-laki atau
perempuan), merokok, riwayat keluarga (keluarga DM atau tidak), komposisi diet (seimbang
atau tidka seimbang), dan aktivitas fisik (cukup atau kurang). Peneliti menginginkan tingkat
signifikansi 0,05%. (data terlampir)
a. Apakah semua variable predictor memenuhi syarat untuk dianalisis regresi? Jika tidak,
variable apa saja yang dapat dianalisis regresi?
b. Buatlah persamaan regresinya dan nilai kualitas persamaannya
c. Berdasarkan rumus yang diperoleh, berapa probabilitas seseorang mengalami DM jika
orang tersebut memiliki berjenis kelamin laki-laki, merokok, kurang aktivitas fisik tetapi
diet seimbang?
3. Seorang peneliti ingin mengetahui cara memprediksi nilai bersihan kreatinin dengan
menggunakn data berat badan, usia, dan kadar kreatinin serum (data terlampir).
1. Apakah semua variable memenuhi syarat untuk analissi regresi?
2. Buatlah persamaan regresi dari data penelitian tersebut
3. Buatlah penilaian kualitas persamaan regresinya serta asumsi regresinya

Daftar Pustaka
Dahlan, S. 2013. Statistika untuk Kedokteran dan Kesehatan. Salemba Medika. Jakarta
Riduwan. 2020. Dasar-dasar Statistika. Alfabeta. Bandung

Anda mungkin juga menyukai