L07-Regression Analysis - Uw - Lec
L07-Regression Analysis - Uw - Lec
Regression Analysis
2
PEMERIKSAAN POLA KORELASIONAL DATA
Analisis Data Visual dan Analisis Korelasi
Penampilan Visual
variabel
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Analisis Data Visual dan Analisis Korelasi
Analisi Korelasi
Analisi Korelasi
1000000
800000
600000
M1
400000
200000
0
0 20 40 60 80 100 120 140
CPI
7
Analisis Data Visual dan Analisis Korelasi
Analisis Korelasi
• Terdapat korelasi kuat antara tenaga kerja dengan PDRB (+), populasi (+), Upah minimu provinsi (-) dan korelasi
lemah dengan indeks harga konsumen (-)
• Angkatan kerja dan populasi memiliki korelasi positif kuat
11
ANALISISI REGRESI SEDERHANA
Bivariate Regression (Simple Linear Regression)
Suku kesalahan acak tidak dapat diamati (not observable), diasumsikan berdisttribusi
normal dengan rata-rata nol dan deviasi standar tertentu s.
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Istilah dalam Analisis Regresi
Models and Parameters
Model terestimasi hasil pencocokan dari data digunkan utk memprediksi the expected
value Y utk nilai X tertentu
^
yi = b0 + b1xi
Koefisien eatimasi (fitted coefficients) adalah:
b0 = dugaan utk intersep
b1 = dugaan utk slope
^
Sisaan/Error : ei = yi - yi.
Residual dapat digunakan utk mengestimasik s, standard deviation dari suku errors.
atau
Jumlah kuadrat residual atu The error sum of squares (SSE) adalah variasi
yg tidak bisa dijelaskan (unexplained variation)
Jika model persamaan regresi adalah bagus, maka SSE akan relative kecil
terhadap SST
Suatu kecocokan yg sempurna antara Y actual dan Y-prediksi adalah jika
SSE = 0.
Besaran SSE bergantung pada n dan unit pengukuran
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Formula Ordinary Least Squares
Koefisien Determiniasi
R2 adalah sebuah ukuran atas Kecocokan Relatif antara Y-aktual dan Y-prediksi berdasarkan
perbandingan SSR dan SST.
0 < R2 < 1
Interpretasi R2: proporsi variance Y (response atau independent) yang dapat dijelaskan
oleh varians X (explanatory atau independent)
Terkadang dinyatakan sebagai persentase, R2 = 1 (i.e., 100%) yg mengindikasikan
kecocokan yg sempurna.
Dalam regresi sederhana atau bivariate regression, R2 = (r)2
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Scatter Plot, and Correlation Coefficient
Example
Scatter Plot Cement and steel consumption
60000
50000
40000
30000
20000
10000
Cement
Year Cement Steel Construction_pdb
(000 ton) (000 ton) (Triliun Rp)
1990 14143.06 5972.21 223.84
1991 15942.38 5832.24 250.75
1992 16238.81 5977.55 275.86 0 5000 10000
steel
15000 20000
60000
50000
40000
30000
20000
10000
Cement
2003 27540.49 5585.92 374.40
2004 30044.81 8893.39 402.45
2005 31471.43 9591.74 432.79
2006 32056.27 7854.26 468.87
2007 34177.73 9746.76 508.87 200 400 600
gdp
800 1000
22
Scatter Plot and Correlation Coefficient
Stata syntax and output of correlation coefficient
Number below a “sample correlation coefficient ” is a p-value related to P(r > |r|)
Statistic correlation coefficient indicate of strong correlation between cement and steel consumption, as well as
cement consumption and GDP
23
Estimation of Model’s Coefficient
Using
formula b1 = 3.417
and we get bo = 269.234
24
Estimation of Model’s Statistic
Estimated Regression Equation:
Cement = 269.069 + 3.417 Steel + error
Calculating R-square
Yhat Error
Year Y X1 (Y – Ybar) (Yhat-Ybar) SST = Sum Square Total
1990 14143 5972 -17834 20673 -6530 -11,303
1991 15942 5832 -16035 20195 -4253 -11,782 SSR = Sum Square regression
1992 16239 5978 -15738 20694 -4455 -11,283
1993 18297 7760 -13680 26782 -8485 -5,194
1994 21479 6748 -10498 23325 -1846 -8,652
SST = Sum Square Error
1995 24176 9521 -7801 32799 -8623 822
……. ……. …. ……. ……. ……. …….
2010 40785 11958 8808 41126 -341 9,149 SST = SSR + SSE
2011 47988 13323 16011 45789 2199 13,813
2012 54969 16163 22992 55493 -524 23,516 5055064001 = 4430162564 + 624901437
2013 58024 17479 26047 59989 -1965 28,012
2014 59909 16278 27932 55886 4023 23,909
2015 61799 15280 29822 52476 9323 20,499
Sum R2=
SumSquare 5055064001 624901437 4430162564
SST SSE SSR
= 0.8764
Ybar
= 31,977
Yhat = 269.069 + 3.417 Steel About 87.64% of Y variance can be
SumSquare = explained by variance X1
25
Estimation of Model’s Statistic
Using Stata Statistical Package, we find more model statistic
26
Contoh Kasus
PDRB dan Tenaga Kerja Provinsi 2015
Spesifikasi model persamaan:
Provinsi TenagaKerja PDRB
(000 orang) (milyar RP)
11 2204 126825
12 6728 512766
13 2411 163995
14 2916 482087
Estimasi menggunakan Paket Excel
15 1721 142995 Tenaga Kerja Coef Std Error t Stat P-value
16 3964 298510
Intercept 1166.815 1572.370 0.742 0.470
PDRB 0.009 0.002 4.524 0.000
17 1038 44171
18 4029 232214
19 701 52212 Persamaan Dugaan
21 901 173689
31 4727 1736196 e
32 20780 1419689
33 17246 941283
34 2118 98027
Setiap kenaikan PDRB sebesar Rp1 milyar, tenaga kerja
35 20450 1563756
bertambah 9 orang (0.009 x 1000). Atau setiap kenaikan
36 5333 433884
PDRB Rp1 trilyun meningkatkan kebutuhan tenaga kerja
9000 orang
27
Koefisien Determinasi (R2)
Koefisien determinasi R2
Dekomposisi Jumlah Kuadrat TenagaKerja (Y)
Deviasi
Observation Aktual Pred Residuals Aktual Pred
[1] [2] [3]=[1]-[2] [4]=[1]-Rerata [5]=[2]-rerata
SS Proporsi
1 2203.70 2350.34 -146.64 -3875.41 -3728.77 SSR 423,438,064 0.594 R2
2 6728.40 5951.94 776.46 649.29 -127.18 SSE 289,677,652 0.406 1- R2
3 2410.50 2697.22 -286.72 -3668.61 -3381.90 SST 713,115,716 1.000
4 2915.60 5665.65 -2750.05 -3163.51 -413.47
5 1721.40 2501.25 -779.85 -4357.71 -3577.87
6 3963.90 3952.50 11.40 -2115.21 -2126.61
7 1037.67 1579.02 -541.35 -5041.44 -4500.09 • Persamaan regresi dugaan
8 4029.25 3333.84 695.41 -2049.86 -2745.28
9 701.40 1654.06 -952.66 -5377.71 -4425.06 memiliki R2 = 0.59
10
11
901.00
4726.80
2787.68
17368.97
-1886.68
-12642.17
-5178.11
-1352.31
-3291.43
11289.85
• Artinya variasi TenagaKerja
12 20779.90 14415.33 6364.57 14700.79 8336.22 dugaan mampu menangkap
13
14
17245.50
2118.40
9950.86
2081.60
7294.64
36.80
11166.39
-3960.71
3871.74
-3997.52
59% variasi TenagaKerja
15 20449.90 15759.77 4690.13 14370.79 9680.65 Aktual
16 5332.50 5215.82 116.68 -746.61 -863.30
Rerata 6079 289,677,652 713,115,716 423,438,064
28
Prediksi
Jika suatu provinsi memiliki PDRB Rp200 T berapa perkiraan
kebutuhan tenaga kerja? (Rp200 T = Rp200000 milyar)
29
MULTIPLE REGRESSION ANALYSIS
Regresi Majemuk atau Multiple Regression
Bivariate or Multivariate?
Regresi berganda (multiple regression) adalah pengembangan dari
regresi sederhana (bivariate regression) yang memasukan lebih dari
satu variable independen
Keterbatasan bivariate regression
sering terlalu disederhanakan, karena factor yang mempengaruhi variable
respon dapat lebih dari satu
Penduga menjadi berbias atau menyimpang jika ada predictor yang relevan
tidak dimasukkan atau dikeluarkan dari model
Rendahnya tingkat kecocokan bukan berarti bahwa X tidak berkorelasi terhadap
Y, tetapi ada variable lain yang turut menjelaskan tidak dimasukkan.
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Regresi Majemuk atau Multiple Regression
Format Data
Provinsi TenagaKerja PDRB UMP industri Perhatikan data berikut ttg Tenaga Kerja Provinsi
11 2204 126825 2700.00 0
12 6728 512766 2132.19 1
(Y=response variable) dan 3 calon potensial untuk
13 2411 163995 2119.07 0 explanatory variables:
14 2916 482087 2464.15 0 X1 = PDRB :
15 1721 142995 2243.72 0 X2 = UMP : Upah Minimum Provinsi
16 3964 298510 2596.00 0
17 1038 44171 1888.74 0 X3 = Variabel Dummy Industri Manufaktur
18 4029 232214 2074.67 0
19 701 52212 2755.44 0
21 901 173689 2563.88 0 Model Persamaan:
31 4727 1736196 3648.04 0
32 20780 1419689 1544.36 1
33 17246 941283 1486.07 1
34 2118 98027 1454.15 0
35 20450 1563756 1508.90 1
36 5333 433884 2099.39 1
Deskripsi variabel
34
Regresi Majemuk atau Multiple Regression
Hasil estimasi koef persamaan dengan software Excel
Persamaan Dugaan:
Koefisien Determinasi R2
• Persamaan regresi dugaan memiliki R2 = 0.914
• Artinya variasi prediksi TenagaKerja mampu menangkap
91,4% variasi pada TenagaKerja Aktual
McGraw-Hill/Irwin
Evaluasi Kecocokan Model secara Global
Koefisien Determinasi (R2) : proses menghitung
0.914
0.914
Koefisien determinasi R2 dapat ditingkatkan dengan cara menambah variable predictor ke dalam
model (k).
Koefisien determinasi R2 akan berkurang jika dilakukan penambahan banyaknya observasi (n)
Koef determinasi yang disesuaikan (oleh k dan n) berguna untuk mempinalti tambahan variable
predictor yang kurang berguna.
Untuk n observations dan k predictor,
16 −1
2
𝑅𝑎𝑑𝑗 =1− (1 − 0.914 ) ( )
16 −3 −1
McGraw-Hill/Irwin
=0.892
© 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Evaluasi Kecocokan Model secara Global
Tabel ANOVA mendekomposisi variasi total respons (Y) ke dalam dua komponen
yaitu SSR dan SSE
Rncangan pada Tabel ANOVA untuk model dengan k-predictor diringkas sbb:
Berikut adalah contoh perhitungan Tabel Anova untuk kasus Permintaan tenaga kerja Provinsi
McGraw-Hill/Irwin
Uji Signifikansi Pengaruh Prediktor secara Parsial
Jika kita tidak dapat menolak hipotesis bhw “Koefisien adalah nol”, berarti predictor tsb
tidak berkontribusi dlm memprediksi Y atau tidak berpengaruh thd Y.
Statistik Uji t
Variabel PDRB dan UMP berpengaruh signifikan terhadap perubahan permintaan tenaga kerja provinsi.
Setiap kenaikan PDRB Rp1 milyar akan meningkatkan permintaan tenga kerja 8 orang, dengan
asumsi variabel lain tidak berubah
Setiap kenaikan Rp1 ribu akan menurunkan permintaan tenaga kerja sekitar 4957 orang, ceteris
paribus
Status provinsi yang didominasi oleh sektor industri pengolahan memiliki permintaan tenaga kerja
3365 ribu orang lebih tinggi dibanding status provinsi lainnya, ceteris paribus
43
Contoh Perilaku Inflasi dalam model Regresi
Spesifikasi persamaan:
Keterangan:
IRINV = tingkat suku bunga investasi
M1 = jumlah uang beredar
gasolinePrice= harga premium
44
MODEL DENGAN DUMMY VARIABLE INDEPENDENT
45
Konsep dan Definisi
Variabel dependent terkadang dipengaruhi tidak hanya oleh variabel kuantitatif,
tetapi juga oleh variabel kualitatif (nominal scale, indicator variables, categorical
variables, or dummy variables)
Variabel kualitatif adalah jenis kelamin, ras, warna kulit, lokasi dan sebagainya.
Variabel kualitatif adalah variabel yang isinya berupa koding dari hasil
yaitu kode perkotaan dan pedesaan. variabel lokasi tempat tinggal harus
dibuat ke dalam bentuk variabel dummy, yang hanya bernilai 1 dan 0.
Misalnya nilai 1 menunjukkan lokasi perkotaan dan 0 menyatakan lokasi
pedesaan.
46
Dummy Independen: Satu variabel Kualitatif dengan dua kategori
Pengeluaran (variabel dependent) dipengaruhi oleh pendapatan dan lokasi tempat tinggal seseorang
(independentnya). Model regresi adalah:
Yi = o + 1Xi + Di + i (1)
dimana
Yi = pengeluaran
Xi = pendapatan
Di = dummy variabel lokasi: bernilai 1 jika lokasi adalah kota dan bernilai 0 jika lokasi adalah desa
o = intersep
1 = koefisien variabel X (marginal propensity to consume)
= koefisien variabel dummy D yang lazim disebut sebagai koefisien pembeda intersep
47
Independen: Satu variabel Kualitatif dengan dua kategori
48
Dummy Independen: Satu variabel Kualitatif dengan dua kategori
Untuk menguji apakah terdapat perbedaan rata-rata pengeluaran (Y) antara penduduk perkotaan dan pedesaan bila
besarnya pendapatan (X) tertentu. Ujinya dilakukan dengan hipotesis:
Ho: = 0 , artinya lokasi tidak mempengaruhi pengeluaran
H1: 0 , artinya lokasi berpengaruh terhadap pengeluaran
Untuk menguji hipotesis ini digunakan statistik uji t. Prosedur pengujiannya tidak berbeda dengan yang dilakukan di
analisis regresi berganda.
49
Perumusan atau Setting Penyusunan Variabel Dummy
Ciri-ciri model regresi dengan variabel dummy:
1. Untuk membedakan kategori perkotaan dan pedesaan dibutuhkan satu variabel dummy. Secara umum jika sebuah variabel
kualitatif mempunyai m kategori, maka dibutuhkan (m-1) variabel dummy untuk membandingkan perilaku antar kategori.
Misal D menyatakan pendidikan tertinggi yang ditamatkan seseorang, yang dikelompokkan menjadi 3 kategori: (1) perguruan
tinggi, (2) sekolah menengah, dan (3) sekolah dasar.
2. Penentuan nilai 1 atau 0 untuk kategori, seperti kota dan desa, perguruan tinggi dan bukan perguruan tinggi boleh dilakukan
tanpa suatu dasar apapun (bersifat arbiter).
3. Namun demikian kategori yang diberi nilai 0 seringkali disebut sebagai kategori dasar, kontrol, pembanding atau yang
diabaikan. Pada contoh di atas kategori sekolah dasar disebut sebagai kategori dasar. Dikatakan kategori dasar karena setiap
pembandingan dibuat terhadap kategori dasar tersebut. Pemilihan kategori dasar ditentukan berdasarkan pertimbangan yang
bersifat apriori.
4. Koefisien variabel dummy disebut koefisien intersep differensial, karena koefisien ini menyatakan besarnya perbedaan intersep
dari kategori yang bernilai satu dengan kategori yang bernilai 0.
50
Dummy Independen: Variabel Kualitatif yang Tersusun Dari Tiga Kategori
Model regresi yang menerangkan hubungan pengeluaran dengan pendapatan dan pendidikan tertinggi yang ditamatkan adalah
sebagai berikut:
Yi = o + 1Xi + 1D1i +2D2i + i (4) Variabel Pendidikan tersusun atas 3
kategori:
1. Sekolah Dasar (kategori Dasar)
dimana 2. Sekolah Menangah
Yi = pengeluaran seseorang 3. Perguruan Tinggi
Xi = pendapatan seseorang
D1i = 1 jika berpendidikan perguruan tinggi
= 0 jika lainnya
D2i = 1 jika berpendidikan sekolah menengah
= 0 jika lainnya
o = intersep yang berasal dari penduduk berpendidikan sekolah dasar
i = koefisien variabel X (pendapatan)
1 = perbedaan intersep antara yang lulus perguruan tinggi dan sekolah dasar
2 = perbedaan intersep antara yang lulus sekolah menengah dan sekolah dasar
51
Independen: Satu Variabel Kualitatif Tersusun Atas Lebih Dari Dua Kategori
52
Independen: Satu Variabel Kualitatif Tersusun Atas Lebih Dari Dua Kategori
53
Membandingkan Slope Dua Kelompok Pengamatan
Dalam model pada pada persamaan (1) dan (4) kita baru mampu melihat pengaruh variabel kualitatif terhadap pergeseran
intersep (konstanta). Bila ingin melihat pengaruh variabel kualitatif terhadap slope/kemiringan garis regresi maka perlu
menambah variabel baru yang merupakan hasil interaksi antara variabel kualitatif dan kuantitatif.
Jadi bila ingin mengetahui perbedaan koefisien variabel X atau marginal propensity to consume (MPC) antara seseorang
yang tinggal di pedesaan dan perkotaan, kita harus memodifikasi persamaan 1 menjadi:
Yi = o + 1Xi + 2(XiDi) + Di + i (8)
dimana
Yi = pengeluaran seseorang
Xi = pendapatan seseorang
Di = variabel lokasi yang bernilai 1 jika seseorang tinggal kota dan 0 jika tinggal di desa
XiDi = perkalian antara variabel X dan variabel D
54
Membandingkan Slope Dua Kelompok Pengamatan
Sehingga dari model pada persamaan di atas dapat dijelaskan hal-hal sebagai berikut:
1. Rata-rata pengeluaran penduduk perkotaan:
E(Yi|Di=1, Xi) = (o+ ) +(1+ 2)Xi (9)
2. Rata-rata pengeluaran penduduk pedesaan
E(Yi|Di=0, Xi) = o + 1Xi (10)
55
Membandingkan Slope Dua Kelompok Pengamatan
Y
o + (1+ 2) x
2
slope di kelompok 2:
1 perkotaan
1
o + 1 x
1 slope di kelompok 1:
perdesaan
1
o+
Perubahan X
o
X
56
APLIKASI INTERAKSI DUMMY
VARIABEL DALAM ANALISIS DID
57
Model Dummy interaksi dua variabel
Model regresi yang menerangkan hubungan pengeluaran dengan Lama Sekolah oleh dummy waktu (pre vs post)
kebijakan dan dummy wilayah (treatment vs non treatment) dan interaksi antara dummy waktu dan dummy wilayah:
59
Aplikasi Dummy Interaksi: Analisis Difference In Difference
Operasional pertambangan Mineral ABC cenderung berdampak lebih besar ke daerah operasional atau tetangga
terdekatnya (lihat gambar) dibanding daerah yang lebih jauh. Kerangka berpikirnya adalah:
- Kabupaten sbg lokasi tambang dan kab tetangga dekatnya memiliki pendapatan per kapita P1 pada baseline survey
(time1), dan P2 pada evaluation survey (time2).
- Kabupaten berlokasi jauh dari pertambangan memiliki pendapatan per kapita lebih rendah yaitu S1 pada baseline
survey dan S2 pada evaluation survey.
- Beda dampak pendapatan dapat diukur dengan konsep interaksi variabel dummy.
60
Model Persamaan Analisis Difference In Difference (DID)
Kita akan memodelkan Pendapatan per kapita (Y) oleh Tingkat Pendidikan kepala rumah tangga dan anggota
rumah tangga (X), kedekatan daerah kab/kota dengan daerah pertambangan (S=Dummy kedekatan), dan
waktu sebelum dan sesudah pertambangan (T=dummy waktu).
dimana,
Y = indicator pendapatan (pengeluaran) perkapita
S = dummy kota/kab yang dekat dengan lokasi ABC
S=0, kab/kota yang lokasinya jauh dari ABC
S=1, kota/kab yang lokasinya dekat dengan ABC
T = dummy waktu tahun 2008 dan 2018
T=0, adalah tahun 2008;
T=1, adalah tahun 2018;
X = Variabel control, yaitu anggota rumah tangga (art) dan rata-rata tahun bersekolah seluruh anggota
keluarga (yrschl).
61
Hasil Estimasi Model Analisis DID
Sumber: data Susenas tahun 2008 dan 2018 yang telah dikonstankan ke harga
dasar tahun 2010.
PerKapita Coef Std.Error T P>|t|
Cons 1122690 1615.024 695.15 0.000
S 78347.12 2874.824 27.25 0.000
T 524914.40 1311.401 400.27 0.000
S*T 132926.90 3392.607 39.18 0.000
ART -223765.20 39.836 -640.49 0.000
YRSCHL 19666.67 349.3655 493.69 0.000
62
Interpretasi Koefisien Model
Pendapatan Koefisien Interpretasi
Perkapita
Pendapatan perkapita kab/kota yang berdekatan dengan pertambangan ABC lebih tinggi
S 78.347,12 Rp78,347,12 dibanding kab/kota lainnya
T 524.914,40 Pendapatan perkapita tahun 2018 lebih tinggi Rp524.914,14 dibanding tahun 2008
Interaksi antara Kedekatan dengan lokasi tambang ABC (S) dan faktor waktu (T) adalah
S*T 132.926,90 Rp132.926,9
Rata-rata Lama Sekolah berhubungan popsitif dengan pendapatan perkapita. Setiap kenaikan 1
YRSCHL 19.666.67 tahun lama sekolah berpotensi meningkatkan pendapatan per kaptias sebesar Rp19.666,67
63
Analisis Difference in Difference
Koefisien persamaan Regresi (Recall)
Variabel Waktu (T)
Pendapatan PerKapita Coef
Peningkatan Difference
Perkapita (Y) 2008 (T=0) 2018 (T=1) Cons 1,122,690.00
64
Selesai
Terima kasih
65