Anda di halaman 1dari 64

Analisis Korelasi dan Regresi

Dr. Tanti Novianti


tantinovianti@yahoo.com
08128121907

1
Outline

• Pengenalan analisis hubungan antar variabel

• Koefisien Korelasi

• Model Regresi Linear Sederhana (simple linear regression model)


– Metode memperoleh dugaan model, penilaian terhadap kebaikan model, intrepretasi terhadap
hasil pemodelan, pemanfaatan model

• Model Regresi Linear Berganda (multiple linear regression model)


– Metode memperoleh dugaan model, penilaian terhadap kebaikan model, intrepretasi terhadap
hasil pemodelan, pemanfaatan model

• Beberapa permasalahan yang mengganggu dalam pemodelan

• Strategi umum memperoleh model yang baik

2
Hubungan Antar Variabel

• Dari setiap objek/individu/tempat/dll dapat


diukur/dicatat/diamati lebih dari satu buah
Variabel.

• Nilai dari suatu Variabel bersifat:


– saling bebas dengan Variabel lain
– saling terkait dengan Variabel lain

3
Ilustrasi

• apakah ada hubungan antara harga tingkat


pendidikan masyarakat dan partisipasi dalam
Pilkada?
• apakah ada hubungan antara besarnya PAD
dengan tingkat pengangguran

4
Scatter Plots

• Salah satu cara yang paling mudah untuk melihat hubungan antara dua
variabel numerik adalah dengan menampilkan dalam bentuk grafik/gambar.

• Grafik yang bisa digunakan adalah Scatter Plot (sebagian orang


menggunakan istilah XY Plot)

• Nilai suatu variabel digambarkan pada sumbu horizontal (sumbu X)


sedangkan nilai variabel yang lain dinyatakan pada sumbu vertikal (sumbu Y)

• Titik-titik yang ada pada plot adalah koordinat dari setiap titik data

5
Ilustrasi

800

700

Luas Harga 600


No Rumah Rumah
1 100 500 500

Harga Rumah
2 80 400
3 45 250
4 60 320 400
5 36 200
6 120 710 300

200

100

0
30 40 50 60 70 80 90 100 110 120 130
Luas Rumah

6
Scatter Plots

Linear relationships Curvilinear relationships

y y

x x

y y

x x
7
Scatter Plot Examples

Strong relationships Weak relationships

y y

x x

y y

x x
8
Scatter Plot Examples

No relationship

x
9
Hubungan antar Variabel

berat
badan

suhu
rata-rata

tinggi badan

ketinggian tempat

10
Koefisien Korelasi

• Diperlukan sebuah ukuran yang dapat mencirikan


keeratan hubungan antar dua Variabel.

• Koefisien Korelasi ( ; baca: rho)


– nilainya: -1    1
– tanda menunjukkan arah hubungan
– besar/magnitude menunjukkan kekuatan hubungan
– koefisien korelasi data contoh dinotasikan r

11
Koefisien Korelasi (Pearson)

Jika ada dua Variabel X dan Y, korelasi antara keduanya


adalah
S xy
rxy 
SxS y

S xy 
 ( x  x )( y
i i  y)
n 1

Sx 
 (x  x)
i
2

dan S y 
(y i  y) 2

n 1 n 1
12
Koefisien Korelasi (+)

r = 0.70

r = 0.58

r = 0.95

13
Koefisien Korelasi (-)

r = -0.68

r = -0.58

r = -0.90

14
Ilustrasi Lainnya

y y y

x x x
r = -1 r = -.6 r=0
y y

x x
r = +.3 r = +1 15
Ilustrasi

Tinggi Badan Berat Badan


49 70
165
159 58
65
166 60
173 67 60
179 69
55
164 56
163 53 50
154 51
45
170 60
158 44 40
150 155 160 165 170 175 180

16
Ilustrasi
x y x-xbar y-ybar (x-xbar)2 (y-ybar)2 (x-xbar)(y-ybar)
165 49 -0.1 -7.7 0.01 59.29 0.77
159 58 -6.1 1.3 37.21 1.69 -7.93
166 60 0.9 3.3 0.81 10.89 2.97
173 67 7.9 10.3 62.41 106.09 81.37
179 69 13.9 12.3 193.21 151.29 170.97
164 56 -1.1 -0.7 1.21 0.49 0.77
163 53 -2.1 -3.7 4.41 13.69 7.77
154 51 -11.1 -5.7 123.21 32.49 63.27
170 60 4.9 3.3 24.01 10.89 16.17
158 44 -7.1 -12.7 50.41 161.29 90.17
165.1 56.7 jumlah 496.9 548.1 426.3

426.3
r  0.817
496.9  548.1
17
Bekerja dengan MS EXCEL

18
Prosedur untuk membuat Scatter Plot

19
Prosedur untuk membuat Scatter Plot

20
Memperbaiki Tampilan Scatter Plot

21
Memperbaiki Tampilan Scatter Plot

22
Memperbaiki Tampilan Scatter Plot

23
Prosedur menghitung Koefisien Korelasi

fungsi CORREL dapat digunakan untuk


menghitung nilai koefisien korelasi antara
dua variabel

24
Prosedur menghitung Koefisien Korelasi

25
Prosedur menghitung Koefisien Korelasi

26
Prosedur menghitung Koefisien Korelasi

27
Regresi Linear: Pengantar

• Terdapat 2 (dua) variabel numerik : variabel yang


satu mempengaruhi variabel yang lain

• Variabel yang mempengaruhi  X, variabel bebas,


variabel penjelas

• Variabel yang dipengaruhi  Y, variabel tak bebas,


variabel respon

28
Pengantar

Misalnya ingin melihat hubungan antara


pengeluaran untuk iklan (ads expenditures, X)
dengan penerimaan melalui penjualan (sales
revenue, Y)

Bulan 1 2 3 4 5 6 7 8 9 10
X 10 9 11 12 11 12 13 13 14 15
Y 44 40 42 46 48 52 54 58 56 60

29
Pengantar
65
sales revenue (millions of dollars)

60

55

50

45

40

35
8 9 10 11 12 13 14 15 16 17

ads expenditures (millions of dollars)


Pengantar
65 Ingin dibuat
model
sales revenue (millions of dollars)

60

55
Y = a + bX
Model memuat
50 error, selisih nilai
sebenarnya
45 e dengan dugaan
40 Ŷ berdasar model
Y
35
8 9 10 11 12 13 14 15 16 17
e  Y - Ŷ
ads expenditures (millions of dollars)
Bagaimana mendapatkan a dan b?

Metode yang digunakan : OLS (ordinary least


squares/kuadrat terkecil), mencari a dan b
sehingga jumlah kuadrat error paling kecil

Cari penduga a dan b sehingga

 e   Y - â - b̂X 
n n 2
2
i i i
i 1 i 1

minimum
32
Bagaimana mendapatkan a dan b?

 X i  X Yi  Y 
b̂  i 1
n

 X  X
2
i
i 1

â  Y  b̂X

Rata-rata Y Rata-rata X

33
Ilustrasi Perhitungan

Bulan X Y X-Xbar Y-Ybar (X-Xbar)(Y-Ybar) (X-Xbar)2


1 10 44 -2 -6 12 4
2 9 40 -3 -10 30 9
3 11 42 -1 -8 8 1
4 12 46 0 -4 0 0
5 11 48 -1 -2 2 1
6 12 52 0 2 0 0
7 13 54 1 4 4 1
8 13 58 1 8 8 1
9 14 56 2 6 12 4
10 15 60 3 10 30 9

X  12  X  X Y  Y   106 b = 106 / 30 = 3.533

 X  X 
2
Y  50  30 a = 50 – 3.533 (12) = 7.60
34
65
sales revenue (millions of dollars)

60
f(x) = 3.53333333333333 x + 7.6
55

50

45

40

35
8 9 10 11 12 13 14 15 16 17

ads expenditures (millions of dollars)

35
Interpretasi a dan b

• a = besarnya nilai Y ketika X sebesar 0


• b = besarnya perubahan nilai Y ketika X berubah satu
satuan. Tanda koefisien b menunjukkan arah
hubungan X dan Y

Pada kasus ilustrasi


• a = 7.6  besarnya sales revenue jika tidak ada
belanja iklan adalah 7.6 juta dolar
• b = 3.533  jika belanja iklan dinaikkan 1 juta dolar
maka sales revenue naik 3.533 juta dolar

36
Uji Signifikasi Koefisien b

H0 : b = 0 (artinya X tidak mempengaruhi Y)


H1 : b  0 (artinya X mempengaruhi Y)

 Y  Ŷ 
n
2
statistik uji i i

b̂ s b̂  i 1
n
t
(n  k ) X i  X 
2
s b̂
i 1

Tolak H0 jika nilai t melebihi nilai t pada tabel dengan


derajat bebas (n-2) dengan tingkat kesalahan /2
37
Ukuran Kebaikan Model

• Menggunakan koefisien determinasi (R2, R-


squared)
• R-squared bernilai antara 0 s/d 1
• R-squared adalah persentase keragaman data
yang mampu diterangkan oleh model
• R-squared tinggi adalah indikasi model yang
baik

38
Ukuran Kebaikan Model

R 2

 Ŷ  Y 
i
2

 Y  Y 
2
i

• Model dalam ilustrasi bisa ditunjukkan


memiliki R-squared 0.85 atau 85%

39
Bekerja dengan MS EXCEL

40
Prosedur Regresi Linear

41
Prosedur Regresi Linear

42
Prosedur Regresi Linear: Output

Kita abaikan output ini hingga


pembahasan mengenai regresi linear
berganda (multiple linear regression)

43
Output
Coefficie Standard Lower Upper Lower Upper
  nts Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept 7.600 6.332 1.200 0.264 -7.002 22.202 -7.002 22.202
adv expens 3.533 0.522 6.765 0.000 2.329 4.738 2.329 4.738

• Tabel ini menampilkan dugaan nilai intersep dan slope dari variabel
prediktor
• Nilai intersep = 7.600
• Nilai slope untuk variabel adv expenditure = 3.533
• Dugaan model dengan demikian adalah
SALES = 7.500 + 3.533 Adv

• Kolom p-value menampilkan hasil pengujian apakah pengaruh variabel


prediktor signifikan atau tidak
• Pengaruhnya signifikan jika jika nilai sig < alpha
• alpha biasanya menggunakan nilai 0.05 (atau 5%)

44
Output
Regression Statistics
Multiple R 0.922611577
R Square 0.851212121
Adjusted R Square 0.832613636
Standard Error 2.860652606
Observations 10

• Tabel ini menampilkan nilai R-Square dari dugaan model yang


diperoleh.

45
Regresi Linear Berganda
(multiple linear regression)

46
Pengantar

• Simple Linear Regression (regresi linear sederhana):


hanya ada 1 peubah penjelas. Modelnya:

Y = 0 + 1 X + 

• Multiple Linear Regression (regresi linear berganda):


melibatkan lebih dari satu peubah penjelas. Modelnya:

Y = 0 + 1 X1 + 2 X2 + … + k Xk + 

47
Pengantar

• Harga jual rumah dipengaruhi oleh beberapa


peubah penjelas, misalnya: (1) luas bangunan,
(2) umur bangunan, (3) jarak lokasi rumah ke
jalan raya.

• Tinggi pohon tanaman tertentu dipengaruhi


oleh (1) umur tanaman, (2) dosis pupuk yang
diberikan, (3) kandungan hara tanah, (4) curah
hujan di lokasi penanaman.
48
Notasi Matriks Model Regresi

Y = 0 + 1 X1 + 2 X2 + … + k Xk + 

 y1  1 x11  xk 1    0    1 
 y  1 x    
 xk 2   1   2  
 2   12

            
       
 yn  1 x1n  xkn    k   2 

y  Xβ  ε

49
Penduga Kuadrat Terkecil
(least square estimator)

Penduga OLS (ordinary least squares) bagi 


adalah
ˆβ  (X T X)1 XT y
bersifat BLUE (best linear unbiased estimator) jika

E() = 0
var() = 2
cov(i, j) = 0
 menyebar normal

50
Pengujian Pengaruh Variabel Penjelas

• Uji Simultan
– ANOVA digunakan untuk menguji secara simultan pengaruh seluruh X
terhadap Y
• H0: semua bi = 0 (tidak ada X yang berpengaruh terhadap Y)
• H1: ada bi  0 (ada X yang berpengaruh terhadap Y)

• Jika nilai p-value kecil, disimpulkan tolak H0. dengan kata lain, jika
nilai p-value kecil berarti ada X yang berpengaruh terhadap Y.

• Sebaliknya, jika p-value besar, maka tidak ada X yang pengaruhnya


signifikan.

51
Pengujian Pengaruh Variabel Penjelas

• Uji Parsial  uji t statistik uji



t
s b̂

• Menguji pengaruh setiap variabel penjelas


satu persatu.

• Dilakukan jika uji simultan menyatakan tolak


H0 (signifikan)

52
Kebaikan model regresi

• Dilihat dari nilai koefisien determinasi (R2) 


merupakan ukuran seberapa besar keragaman dari
peubah respon (y) dapat dijelaskan oleh model
(peubah penjelas (x))

• Nilainya antara 0-100%, semakin mendekati 100%


maka semakin bagus
SSR 2 SSE / dfe MSE
2
R  R adj  1  1
SST SST / dft MST

53
Ilustrasi

• Model
– Variabel Respon: Harga (harga jual rumah dalam
satuan juta rupiah)
– Variabel Penjelas:
• Luasbangunan (luas bangunan rumah dalam satuan
meter persegi)
• Umur (umur bangunan dalam satuan tahun)
• Kamarmandi (banyaknya kamar mandi di dalam rumah)

54
Ilustrasi

55
Ilustrasi

56
Ilustrasi

57
Ilustrasi
• Masukkan variabel dependent disini

Masukkan variabel
independent disini

58
Ilustrasi

59
Ilustrasi
ANOVA
Significanc
  df SS MS F eF
Regression 3 472121.4 157373.8 88.87433 1.14E-21
Residual 58 102703.2 1770.745
Total 61 574824.6     

Tabel ANOVA menampilkan hasil uji simultan terhadap pengaruh seluruh


variabel penjelas/prediktor

Nilai SIGNIFICANCE F yang kecil mengindikasikan bahwa


- Ketiga variabel penjelas secara bersama-sama memiliki pengaruh yang
signifikan terhadap nilai harga rumah
- Setidaknya ada satu dari ketiga variabel penjelas tersebut yang signifikan
pengaruhnya

60
Ilustrasi
Harga = 239 + 1.14 Luas Bangunan – 3.86 Umur Bangunan + 1.14 Kamar Mandi

Coefficie Standard Lower Upper Lower Upper


  nts Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept 239.25 19.12 12.51 0.00 200.97 277.52 200.97 277.52
luasbangunan 1.14 0.10 10.90 0.00 0.93 1.35 0.93 1.35
umur -3.86 0.56 -6.91 0.00 -4.98 -2.74 -4.98 -2.74
kamarmandi 1.14 6.77 0.17 0.87 -12.42 14.70 -12.42 14.70

Tabel di atas menampilkan dugaan intersep dan slope dari masing-masing variabel

Pengaruh luas bangunan dan umur signifikan, tetapi kamartidur tidak.

Slope
- Luas Bangunan memiliki slope bernilai positif, yang mengindikasikan bahwa semakin luas rumah,
semakin mahal harganya. Penambahan 1 m 2 luas rumah secara rata-rata menaikkan harga rumah
sebesar 1.14 juta rupiah.
- Umur memiliki slope bernilai negatif, yang mengindikasikan bahwa tua bangunan rumah, semakin
turun harganya. Penambahan 1 tahun umur bangunan rumah secara rata-rata menyebabkan harga
rumah turun sebesar 3.86juta rupiah.
- Banyaknya kamar tidur memiliki slope bernilai positif, yang mengindikasikan bahwa banyak kamar
tidur, semakin mahal harganya. Penambahan satu kamar tidur secara rata-rata menaikkan harga
rumah sebesar 1.14 juta rupiah.
61
Prediksi Harga Rumah

Harga = 239 + 1.14 Luas Bangunan – 3.86 Umur Bangunan + 1.14 Kamar Mandi

Rumah Saya
Luas Bangunan: 45 m2
Umur: 10 tahun
Kamar Tidur: 2 buah

Harga = 239 + 1.14 * 45 – 3.86 * 10 + 1.14 * 2


= 239 + 51.3 – 38.6 + 2.28
= 253.98 juta

62
Ilustrasi

Regression Statistics
Multiple R 0.9063
R Square 0.8213
Adjusted R Square 0.8121
Standard Error 42.0802
Observations 62

• Tabel ini menampilkan nilai R-Square dari dugaan model yang


diperoleh.

63
Terima Kasih