Anda di halaman 1dari 59

ANALISIS REGRESI

LINIER

Putu Dian Prima Kusuma Dewi

Diadopsi dari slide pelatihan statistika


dr. I Wayan Gede Artawan, M.Epid
UNUD
Korelasi vs Regresi
KORELASI
• Mempelajari keeratan hubungan antar 2 variabel kuantitatif
• Dapat mengetahui arah hubungan yang terjadi (berbanding lurus
jika tandanya positif, dan berbanding terbalik jika tandanya
negatif)
• Nilainya berkisar -1 sampai dengan 1
• Tidak bisa menyatakan hubungan sebab akibat

REGRESI
• Dapat mengukur seberapa besar suatu variabel mempengaruhi
variabel lain
• Dapat menyatakan hubungan sebab akibat
• Dapat digunakan untuk melakukan estimasi nilai suatu variabel
berdasarkan variabel lain
Korelasi
Tujuan
• dapat menggunakan SPSS sebagai alat bantu
analisis korelasi pada berbagai penelitian
kesehatan
• dapat memberikan interpretasi berbagai
output analisis korelasi.
Indikasi
• Analisis korelasi dipakai untuk menganalisis
hubungan variabel X dan Y dimana variabel X dan
y berskala pengukuran interval atau ordinal.
Figure 13-4. Correlation between dietary fat intake and breast cancer by
country.
USA
250
Switzerland
Incidence Ratio per 100,000 Women

Canada
Fed. Repub.
200 Italy Of Germany

Israel UK Denmark
Sweden France
New Zealand
Australia
150 Norway
Finland
Yugoslavia Spain

100 Poland
Romania
Hong Kong Hungary

50
Japan

0 600 800 1000 1200 1400 1600

Prentice RL, Kakar F, Hursting S, et al: Aspects of Per Capita Supply of Fat Calories
the rationale for the Women’s Health Trial. J Natl
Ecological Study Example 1
Cigarette Smoking & Lung Cancer Mortality

Data may be plotted to


show correlation
Correlation between per capita meat
50 consumption and colon cancer
Colon cancer incidence

40
/100 000 women

30

20

10

.00 .00 .00 .00 .00 .00 .00 .00 .00 .00
2 0 7 0 0 0 0 0 0 5 0 0
10 11 14 15 18 18 20 28
per capita consumption -grams
Uji korelasi terdiri dari tiga jenis
• Pearson Correlation
– Variabel X dan Y merupakan variabel numerik atau interval dan berdistribusi
normal (uji normalitas) dan memenuhi asumsi lainnya (linearitas dan
homoskedastisitas) 
• Spearman rank Correlation
– Variabel X dan Y adalah variabel numerik akan tetapi data dari kedua atau salah
satu dari variabel tersebut tidak berdistribusi normal atau keduanya
merupakan variabel ordinal.
– Sumber data harus berasal dari subjek yang berbeda
– Misal pada soal no. 2 di atas, di mana Nilai Ujian Siswa kelas A antara Guru I
dan Guru II berasal dari subjek yang berbeda. Subjeknya yaitu guru, di mana
guru yang memberi nilai ada 2, yaitu guru I dan guru II. Selanjutnya pelajari
lebih lanjut tentang uji spearman rho.
• Kendall
– Variabel X dan Y berskala pengukuran ordinal.
– variabel yang berasal dari subjek yang sama, yaitu siswa yang sama. 
Ilustrasi dalam permasalahan dalam memilih
jenis uji korelasi yang dimaksud di atas misalinya
penelitian dengan judul:
• Hubungan IQ dengan Nilai Ujian.
• Kesesuaian Nilai Ujian siswa kelas A oleh Guru
I dan Guru II.
• Hubungan Tingkat Pengetahuan (Baik, Cukup,
Kurang) dengan Tingkat Pemahaman (Baik,
Cukup, Kurang).
Cara Menilai Hubungan
Var X dan var Y
• Scatter Plot (diagram pencar)
– Scatter Plot variabel X dan Y adalah grafik
koordinat (X,Y) dari setiap sampel
– Arah dan kuat hubungan secara visual
• Koefisien korelasi
– Arah dan kuat hubungan secara kuantitatif
– Koefisien korelasi diberi simbul ‘r’ memiliki
rentang nilai absolutnya dari -1 sampai dengan 1
Scatter plot (diagram pencar)
14.00
17.50

12.00

15.00
10.00

12.50 8.00

Y
Y

6.00

10.00

4.00

7.50
2.00

0.00
5.00

0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00


0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
X
X

r=1 r = -1
15.00
14.00
15.00

12.00 12.00

10.00

9.00 10.00

8.00
Y

Y
Y

6.00 6.00

5.00
4.00

3.00

2.00

0.00 0.00
0.00

0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
X X
X

0<r<1 -1<r<0 r=0


Koefesien korelasi
KUAT HUBUNGAN : BESARAN KOEFISIEN
sempurna: r = |1|
kuat : |0,7 – 0,99|
sedang : |0,4 – 0,69|
lemah : 0,1 – 0,39
tdk ada : |0|
ARAH HUBUNGAN : TANDA KOEFISIEN
+ : se arah atau berbanding lurus
- : berlawalan atau berbanding terbalik

r
 XY   X  Y / n
 X 2
  X  / n Y   Y 
2 2 2

/n
Uji Hipotesa Koefisien Korelasi &
Cara pengambilan kesimpulan
• Hipotesis statistik:
Ho: ρ = 0 (tidak ada hubungan)
Ha: ρ # 0 (ada hubungan)
• Ho diterima bila nilai p > 0,05
• Ho ditolak bila nilai p ≤ 0,05
Procedure Correlate
1. Merekam Data
Tabel 1. Karakteristik faktor risiko CHD di Rumah Sakit X
No. Age Chol BMI No. Age Chol BMI
1 56 292 31.85 16 56 329 20.30
2 48 339 31.06 17 44 349 25.96
3 60 303 30.17 18 29 419 25.40
4 59 269 27.94 19 45 278 26.08
5 58 312 21.43 20 44 354 28.62
6 64 185 32.44 21 34 317 22.67
7 59 303 24.96 22 40 334 24.66
8 47 304 33.05 23 34 345 31.47
9 47 334 23.02 24 39 330 39.54
10 28 328 27.12 25 45 347 25.10
11 54 363 28.46 26 41 339 22.05
12 38 399 26.63 27 57 353 28.59
13 35 321 25.90 28 57 220 25.84
14 64 244 30.83 29 38 385 26.83
15 34 314 24.55 30 45 240 32.73
Procedure Correlate (2)
• Uji Normalitas Data
–menu: Analyze, Nonparametric Test, 1-Sample K-S
–pilih variabel Age, Choles, dan BMI dan masukan ke kotak “Test
Variable List” .
–Pilih test normalitas. Conteng “Normal” pada kotak “Test
Distribution” seperti bagan berikut.
–OK
One-Sample Kolmogorov-Smirnov Test

kolesterol indek masa


umur (tahun) darah (mg/dl) tubuh
N 30 30 30
Normal Parametersa,b Mean 46.63 318.30 27.5088
Std. Deviation 10.572 50.624 4.16408
Most Extreme Absolute .146 .148 .104
Differences Positive .095 .107 .104
Negative -.146 -.148 -.072
Kolmogorov-Smirnov Z .797 .810 .570
Asymp. Sig. (2-tailed) .549 .528 .902
a. Test distribution is Normal.
b. Calculated from data.
Uji Normalitas data
• Ada 4 macam uji normalitas (SW: Shapiro
Wilk, KS: Kolmogorov Smirnov, LF: Lilliefors,
AD: Anderson Darling) dengan Alfa 5%
• Paling umum digunakan Shapiro Wilk (sampel
≤ 50 ) dan Kolmogoriv Smirnov (sampel > 50)
Procedure Correlate (3)
• Interpretasi uji normalitas
–Hipotesis:
Ho: tidak berbeda dengan distribusi normal
Ha: berbeda dengan distribusi normal
–Kesimpulan:
Ho diterima bila nilai p > 0,05 (Distribusi Normal)
Ho ditolak bila nilai p ≤ 0,05 (Disribusi Tidak
Normal)
–Yang dibaca adalah nilai “Asymp. Sig” (nilai p)
–Hasil : nilai p uji normalitas Age, Chol, dan IMT > 0,05
–Kesimpulan: data umur, kolesterol dan IMT
berdistribusi normal
Procedure Correlate (4)
• Membuat Scatter Plot
– Klik menu Graph, Scatter-Plot, maka akan tampak kotak
dialoh
– Pilih chol dan masukan ke kotak “Y Axis” dan age ke “X
Axis” dan setelah itu klik “OK”, maka akan tampak output:

Tampak hubungan negatif


antara umur dengan kolesterol
darah
Procedure Correlate (5)
• Analisis korelasi
– Klik Analyze, Correlate, Bivariate, maka akan tampak kotak dialog
“Bivariate Correlations”
– Pilih dan masukan semua variabel yang akan dikorelasikan ke kotak
variables
– Pilih “Pearson” bila data normal atau “Kendall” bila data ordinal
atau “Spearman” bila data tidak normal
– Klik OK, maka akan muncul output:
Correlations

kolesterol indek masa


umur (tahun) darah (mg/dl) tubuh
umur (tahun) Pearson Correlation 1 -.579** .113
Sig. (2-tailed) .001 .551
N 30 30 30
kolesterol darah (mg/dl) Pearson Correlation -.579** 1 -.257
Sig. (2-tailed) .001 .171
N 30 30 30
indek masa tubuh Pearson Correlation .113 -.257 1
Sig. (2-tailed) .551 .171
N 30 30 30
**. Correlation is significant at the 0.01 level (2-tailed).
INTERPRETASI

Contoh antara variabel Umur dan Kadar Kholesterol


• Dilihat dari nilai Sign (hubungan) Bahwa :
Umur berhubungan dengan kadar kolesterol nilai P value 0.01
• Dilihat dari segi nilai Pearson Correlation :
Umur berhubungan cukup dengan kadar kholesterol (0.579)
• Dilihat dari arah kekuatan :
Arah hubungan negatif umur dengan kadar kholesterol (-0.579)
Disimpulkan bahwa :
“ Umur berhubungan cukup negatif atau tidak searah dengan kadar kholesterol
darah” yang artinya semakin tua umur maka kadar kholestrol makin buruk, sedangkan
semakin muda umur kadar kholesterol makin baik.
Correlations

kolesterol indek mas a


umur (tahun) darah (mg/dl) tubuh
umur (tahun) Pearson Correlation 1 -.579** .113
Sig. (2-tailed) .001 .551
N 30 30 30
k olesterol darah (mg/dl) Pearson Correlation -.579** 1 -.257
Sig. (2-tailed) .001 .171
N 30 30 30
indek mas a tubuh Pearson Correlation .113 -.257 1
Sig. (2-tailed) .551 .171
N 30 30 30
**. Correlation is s ignific ant at the 0.01 lev el (2-tailed).
Regresi
Tujuan
• dapat menggunakan SPSS sebagai alat bantu
analisis regresi pada berbagai penelitian
kesehatan
• dapat memberikan interpretasi berbagai
output analisis regresi.
INDIKASI
Variabel bebas Variabel Tergantung
Prediktor Outcome

X Y
IMT Tensi

• Mempelajari pengaruh variabel bebas “X” terhadap


variabel tergantung “Y”
• Estimasi nilai variabel “Y” dari variabel “X”
• Variabel X dan Y berskala interval (numerik)
MODEL
• SIMPLE LINEAR REGRESSION

X Y
Y = a + biXi + 
Y = var. tergantung
Xi = var.bebas ke i
a = intercept
bi = koefisien regresi variabel bebas ke i
 = residu (eror)
Koefesien regresi
Rerata perubahan nilai variabel Y setiap
terjadi penambahan satu unit nilai variabel
X

Contoh : b = 3
Berarti setiap penambahan satu unit nilai var X,
diperkirakan nilai Y akan bertambah 3 unit.
Cara menghitung nilai b
Koefisien regresi b dihitung dengan rumus :

 XY   X  Y / n
b
 X   X  / n
2 2
Intercept (a)
• Adalah besarnya nilai variabel Y bila nilai X = 0

Contoh : a = 5, artinya bila nilai X = 0, maka nilai Y = 5


• Rumus:

a  Y bX
Koefisien Determinasi R2
(Explanatory power)
Besar Pengaruh Variabel X Terhadap Y
Analisis Pengaruh
Koefisien Determinasi

• Statistik: Koefisien Determinasi yang diberi


simbul “R2”
• R2 menyatakan besar pengaruh variabel bebas
X terhadap variabel tergantung Y
• Besarnya antara 0 sampai 1
Interpretasi R 2

Interpretasi

Misal : R2 = 0,80
Artinya 80% variasi nilai var Y ditentukan oleh
variasi nilai var X dan faktor lain memberi
pengaruh sebesar 20%
Persyaratan (Asumsi yg harus terpenuhi)
1. Homoskedastik:
– Data dari variabel outcome Y, untuk setiap nilai
variabel prediktor X, harus berdistribusi normal
dan memiliki varian yang sama (homogen) serta
memiliki nilai rerata yang terletak dalam satu garis
lurus atau disebut Homoskedastik.
2. Tidak terdapat multikolinearitas:
– Tidak terdapat korelasi yag kuat antar variabel
prediktor
Persyaratan (Asumsi yg harus terpenuhi) (2)
3. Tidak terdapat otokorelasi
– Tidak terdapat korelasi berseri antara variabel
prediktor.
– Umumnya kasus autokorelasi banyak terjadi pada
data time series
4. Linearitas:
– Terdapat hubungan linear dari semua variabel
prediktor Xi dengan variabel outcome Y.
HOMOSKEDASTIK:
Var X : fix atau random
Sub Y|Xi : normal, equal varian, mean satu garis

Y
X1
y|x1
X2
y|x2

X3
y|x3
Y = a + bX
X
Bagaimana mengetahui Homoskedasitas?

• Membuat Sketter Plot antara nilai “ZPRED”


dengan “SRESID”
- ZPRED adalah nilai Z dari Y’ (Y berdasarkan
persamaan regresi atau disebut nilai prediksi)
- SRESID adalah nilai t dari Residu atau (Y-Y’)
• Bila plot menyebar, berarti homoskedatisitas
terpenuhi, sebaliknya bila plot berbentuk elip
berarti homoskedastiksitas tidak terpenuhi
Plot ZPRED dengan SRSID

Plotnya menyebar, berarti Homoskedatisitas terpenuhi


Gambar (a) menunjukkan homoskedastis
Gambar (b),(c),(d), dan (e) menunjukkan pola masing-masing yaitu fluktuasi,
trend,dan logaritma sehingga gambar tersebut heteroskedastis.
Multikolinearitas
• Adanya multikolinearitas antar variabel
prediktor ditentukan dari nilai VIF (Variance
Inflating Factors). Dinyatakan terdapat
multikoliearitas bila nilai VIF > 10.
Oto korelasi
• Otokorelasi dilihat dari statistik Durbin-
Watson. Terjadi otokorelasi bila nilai statistik
Durbin-Watson < 2 atau > 4.
Linearitas
• Dinilai apakah data fit dengan model regresi
linier dengan cara melihat hasil Goodness of
Fit dilihat dari Test Anova
• Linear terpenuhi bila nilai p (Anova)  
Estimate Curve
• Scatter plot dipakai menilai perkiraan curve
hubungan variabel X dan Y

• Nilai statistik Anova dipakai menilai apakah


curve hubungan X dan Y linear
– Linear bila nilai p dari uji Anova ≤ 0,05
– Tidak Linear bila nilai p dari uji Anova > 0,05
Contoh CURVE ESTIMATION

ANOVA

Sum of
Squares df Mean Square F Sig.
Regression 301,745 1 301,745 39,473 ,000
Residual 61,155 8 7,644
Total 362,900 9
The independent variable is X.
Metode seleksi variabel prediktor

1. Method Enter
2. Method Backward
3. Method Forward
4. Method Stepwise
Procedure SPSS
1. Buka file “DM.SAV”
2. Klik “Analyze”, “Regression”, “Linear”
3. Pilih variabel dependent dan pindahkan ke kotak “Dependent:”
4. Pilih variable prediktor dan pindahkan ke kotak “Indepedents:”
5. Memilih metode seleksi
• Metode seleksi variabel prediktor terdiri dari metode “Enter,
Stepwise, Remove, Backward, dan Forward”
6. Memilih statistik
• Klik kotak “Statistics” Klik “Estimate”, “Model fit”, “R square
change”, “Part and partial correlations”, “Collinearity
diagnostics”, dan “Durbin-Watson” dan klik kotak “Continue”
Penjelasan statistik regresi
• Estimates: untuk koefisen regresi (b)
• Model fit: untuk menguji apakah data fit dengan model
regresi linear
• R2 change: untuk menghitung R2 dari setiap variabel
prediktor yang ada dalam model
• Part and partial correlations: menghitung koefisien
korelasi bivariate dan partial
• Collinearity diagnostics: untuk menghitung VIF (uji asumsi
multicollinearity)
• Durbin-Watson: untuk menghitung statastik Durbin-
Watson (uji asumsi oto korelasi)
Procedure SPSS (2)
7. Memilih plot
• Membuat plot antara nilai standar dari prediksi (ZPRED)
dengan nilai studentized dari residu (SRESID)
asumsi homoskedastik terpenuhi atau tidak.
• Klik kotak “Plot”
• Pilih “ZPRED” dan masukkan ke kotak “Y” dan “SRESID”
dimasukkan ke kotak “X”,
• Klik “Continue” untuk kembali ke kotak “Linear Regression”
• Klik “OK”
LATIHAN 1
• Contoh : pertanyaan penelitian
• Bagaimana pengaruh umur dan sistolik
terhadap IMT
• Gunakan data latihan yang dikirimkan
Masukkan variabel terikat dan bebas pada kolom
Pada kolom statistic :
lakukan centang pada
komponen disamping
Pada kolom statistic :
lakukan centang pada
komponen disamping
Pada kolom statistic :
lakukan centang pada
komponen disamping
Pada kolom statistic :
lakukan centang pada
komponen disamping
OUTPUT

Tabel pertama menunjukkan variabel apa saja yang diproses,


Mengecek variabel bebas dan variabel terikat.
Dari hasil korelasi diatas bahwa Sistlolic berhubungan dengan IMT (p 0.02)
Nilai korelasi adalah 0,036. Nilai ini dapat diinterpretasikan bahwa hubungan kedua
variabel penelitian ada di kategori lemah. Melalui tabel ini juga diperoleh nilai R
Square atau koefisien determinasi (KD) yang menunjukkan seberapa bagus model
regresi yang dibentuk oleh interaksi variabel bebas dan variabel terikat. Nilai KD yang
diperoleh adalah 3.6 % yang dapat ditafsirkan bahwa variabel bebas sistolic memiliki
pengaruh kontribusi sebesar 3.6 % terhadap variabel IMT dan 96.4 % lainnya
dipengaruhi oleh faktor-faktor lain diluar variabel Sictolic.
Pada Uji ANOVA menunjukkan nilai p value 0.01 berarti rumus yang digunakan layak
digunakan atau fit utk LInier
Hasil Uji Coefficients, diperoleh nilai konstan =19.861 dan nilai B= 0.04, serta p=0.01.
Artinya setiap penambahan 0.04 sistolic dalam darah maka IMT juga akan
meningkat sebesar 19.861. Tanda + menyatakan arah prediksi yang searah (linier).
TERIMAKASIH

Anda mungkin juga menyukai