L07-Regression Analysis - Uw - Lec

DATA ANALITIC FOR BUSINESS
Regression Analysis
Dr. Uka Wikarya
FAKULTAS EKONOMI DAN BISNIS

UNIVERSITAS INDONESIA
1
Outline Materi
 Pemeriksaan Pola Korelasional
 Analisis Regersi Sederhana
 Analisis Regresi Majemuk
 Model Regresi dengan Variabel Dummy Independent
2
PEMERIKSAAN POLA KORELASIONAL DATA
Analisis Data Visual dan Analisis Korelasi
Penampilan Visual
 Mulailah analisis data bivariat (yaitu dua variabel)

dengan scatter plot.
 Scatter Plot?
 menampilkan setiap data pasangan yang diamati (xi, yi)
sebagai titik pada bidang X / Y
 menunjukkan secara visual kekuatan hubungan Antara dua
variabel
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Analisi Korelasi
Korelasi positif yg kuat Korelasi positif yg lemah

Analisi Korelasi
Korelasi Negatif kuat
Korelasi negative lemah

Scatter Plot dan korelasi linier antara M1 dan CPI
Koefisien korelasi r = 0.956
1200000
1000000
800000
600000
M1
400000
200000
0
0 20 40 60 80 100 120 140
CPI
M1 : jumlah uang beredar CPI : Indeks Harga Konsumen
7
Analisis Korelasi
Hubungan non linier
Tidak ada Korelasi

Analisis Korelasi
 Koefisien korelasi sampel (r) mengukur derajat

hubungan linier di antara X dan Y
-1 < r < +1
Hubungan negative kuat Hubungan positif kuat
 r = 0 menyatakan tida ada hubungan linier

Analisi Korelasi

Contoh Koefisien Koefisien
Data 16 provinsi tahun 2018, yang meliputi variabel:
TenagaKerja PDRB Angker POP UMP IHK
• Tenagakerja= jumlah tenaga kerja
TenagaKerja 1
PDRB 0.771 1
• PDRB = produk domestik bruto (milyar Rp)
Angker 1.000 0.771 1 • Angker = angkatan kerja (ribu orang)
POP 0.993 0.770 0.996 1 • POP = penduduk (ribu orang)
UMP -0.547 -0.002 -0.544 -0.527 1 • UMP = upah minimum propinsi (ribu rupiah)
IHK -0.379 -0.351 -0.377 -0.373 0.054 1 • IHK = indeks harga konsumsn (2010=100)
• Terdapat korelasi kuat antara tenaga kerja dengan PDRB (+), populasi (+), Upah minimu provinsi (-) dan korelasi
lemah dengan indeks harga konsumen (-)
• Angkatan kerja dan populasi memiliki korelasi positif kuat
11
ANALISISI REGRESI SEDERHANA
Bivariate Regression (Simple Linear Regression)
 Bivariate Regression menganalisis hubungan antara dua

variable (misal Y dan X)
 Yaitu: satu variable dependent atau response (Y) dan satu
variable independen atau predictor (X).
 Hubungan keduanya dapat dihipotesiskan: linier atau non linier
(kuadratik, qubik atau bentuk lainnya)

Bivariate Regression
Bentuk hubungan antara dua variable Y dan X

Istilah dalam Analisis Regresi
Models and Parameters
 Parameter yg tidak diketahui:
b0 = Intercept
b1 = Slope
 Bentuk model hubungan linier, diasumsikan

Yi = b0 + b1Xi + ei
utk semua observasi (i = 1, 2, …, n)
 Suku kesalahan acak tidak dapat diamati (not observable), diasumsikan berdisttribusi
normal dengan rata-rata nol dan deviasi standar tertentu s.
Istilah dalam Analisis Regresi
Models and Parameters
 Model terestimasi hasil pencocokan dari data digunkan utk memprediksi the expected
value Y utk nilai X tertentu
^
yi = b0 + b1xi
 Koefisien eatimasi (fitted coefficients) adalah:
b0 = dugaan utk intersep
b1 = dugaan utk slope
^
 Sisaan/Error : ei = yi - yi.
 Residual dapat digunakan utk mengestimasik s, standard deviation dari suku errors.

Formula Ordinary Least Squares
Slope and Intercept
 Metode ordinary least squares (OLS) mengestimasi slope and intercept dari garis regresi,
sedemikian rupa diperoleh jumlah kuadrat residual yg minimum
 Jumlah residual = 0
 Jumlah kuadart residual (SSE)

Slope dan Intercept
 Penduga OLS utk slope :
atau
 Penduga OLS utk intercep:

Evaluasi Model
 Variasi Y (response) di sekitar rata-ratanya (SST = Total Sums
of Squares)
 Variasi Y di sekitar garis regresi atau Regression sum of

squares (SSR:

Evaluasi Model
 Jumlah kuadrat residual atu The error sum of squares (SSE) adalah variasi
yg tidak bisa dijelaskan (unexplained variation)
 Jika model persamaan regresi adalah bagus, maka SSE akan relative kecil
terhadap SST
 Suatu kecocokan yg sempurna antara Y actual dan Y-prediksi adalah jika
SSE = 0.
 Besaran SSE bergantung pada n dan unit pengukuran
Koefisien Determiniasi
 R2 adalah sebuah ukuran atas Kecocokan Relatif antara Y-aktual dan Y-prediksi berdasarkan
perbandingan SSR dan SST.
0 < R2 < 1
 Interpretasi R2: proporsi variance Y (response atau independent) yang dapat dijelaskan
oleh varians X (explanatory atau independent)
 Terkadang dinyatakan sebagai persentase, R2 = 1 (i.e., 100%) yg mengindikasikan
kecocokan yg sempurna.
 Dalam regresi sederhana atau bivariate regression, R2 = (r)2
Scatter Plot, and Correlation Coefficient
Example
Scatter Plot Cement and steel consumption
60000
50000
40000
30000
20000
10000
Cement
Year Cement Steel Construction_pdb
(000 ton) (000 ton) (Triliun Rp)
1990 14143.06 5972.21 223.84
1991 15942.38 5832.24 250.75
1992 16238.81 5977.55 275.86 0 5000 10000
steel
15000 20000
1993 18296.53 7759.73 309.37

1994 21478.52 6748.28 355.33
1995 24175.53 9521.31 401.23
1996 25420.20 8298.96 452.43
1997 27401.62 8477.33 485.73
1998 19306.90 3453.94 308.71
1999 18746.75 4043.12 302.81
2000 22383.77 7150.75 319.89
2001 25459.63 6455.57 334.54
2002 27191.58 6486.42 352.88
Scatter Plot Cement and GDP
60000
50000
40000
30000
20000
10000
Cement
2003 27540.49 5585.92 374.40
2004 30044.81 8893.39 402.45
2005 31471.43 9591.74 432.79
2006 32056.27 7854.26 468.87
2007 34177.73 9746.76 508.87 200 400 600
gdp
800 1000
2008 38090.28 13027.26 547.31

2009 38353.51 9930.33 586.01
2010 40784.53 11957.62 626.91
2011 47988.20 13323.46 683.42
2012 54969.48 16163.27 728.23
2013 58023.63 17479.33 772.72
2014 59909.50 16278.45 826.62
2015 61799.31 15280.18 879.16
22
Scatter Plot and Correlation Coefficient
Stata syntax and output of correlation coefficient
Statistic sample correlation

coefficient, r
Number below a “sample correlation coefficient ” is a p-value related to P(r > |r|)
Statistic correlation coefficient indicate of strong correlation between cement and steel consumption, as well as
cement consumption and GDP
23
Estimation of Model’s Coefficient
Using
formula b1 = 3.417
and we get bo = 269.234
Computational step for estimating b1 and bo

Year Cement Steel
Y X1 (Yi-Ybar) (Xi-Xbar) (Yi -Ybar)*(Xi-Xbar) (Xi-Xbar)*(Xi-Xbar)
1990 14143 5972 -17833.77 -3308.27 58998910 10944645
1991 15942 5832 -16034.77 -3448.27 55292201 11890561
1992 16239 5978 -15737.77 -3302.27 51970351 10904982
1993 18297 7760 -13679.77 -1520.27 20796932 2311219
1994 21479 6748 -10497.77 -2532.27 26583178 6412387
1995 24176 9521 -7800.77 240.73 -1877885 57951
…. ….. …. …. …. …. ….
2010 40785 11958 8808.23 2677.73 23586071 7170242
2011 47988 13323 16011.23 4042.73 64729095 16343672
2012 54969 16163 22992.23 6882.73 158249334 47371983
2013 58024 17479 26047.23 8198.73 213554232 67219186
2014 59909 16278 27932.23 6997.73 195462231 48968236
2015 61799 15280 29822.23 5999.73 178925356 35996769
Sum 831,396 241,287 1,296,628,278 379,499,593
31,977 9,280
Y-Bar X1-Bar b1 3.417
bo 269.069
24
Estimation of Model’s Statistic
Estimated Regression Equation:
Cement = 269.069 + 3.417 Steel + error
Calculating R-square
Yhat Error
Year Y X1 (Y – Ybar) (Yhat-Ybar) SST = Sum Square Total
1990 14143 5972 -17834 20673 -6530 -11,303
1991 15942 5832 -16035 20195 -4253 -11,782 SSR = Sum Square regression
1992 16239 5978 -15738 20694 -4455 -11,283
1993 18297 7760 -13680 26782 -8485 -5,194
1994 21479 6748 -10498 23325 -1846 -8,652
SST = Sum Square Error
1995 24176 9521 -7801 32799 -8623 822
……. ……. …. ……. ……. ……. …….
2010 40785 11958 8808 41126 -341 9,149 SST = SSR + SSE
2011 47988 13323 16011 45789 2199 13,813
2012 54969 16163 22992 55493 -524 23,516 5055064001 = 4430162564 + 624901437
2013 58024 17479 26047 59989 -1965 28,012
2014 59909 16278 27932 55886 4023 23,909
2015 61799 15280 29822 52476 9323 20,499
Sum R2=
SumSquare 5055064001 624901437 4430162564
SST SSE SSR
= 0.8764
Ybar
= 31,977
Yhat = 269.069 + 3.417 Steel About 87.64% of Y variance can be
SumSquare = explained by variance X1
25
Estimation of Model’s Statistic
Using Stata Statistical Package, we find more model statistic
Estimated Regression equation:

Cement = 269.068 + 3.417 Steel + error
26
Contoh Kasus
PDRB dan Tenaga Kerja Provinsi 2015
Spesifikasi model persamaan:
Provinsi TenagaKerja PDRB
(000 orang) (milyar RP)
11 2204 126825
12 6728 512766
13 2411 163995
14 2916 482087
Estimasi menggunakan Paket Excel
15 1721 142995 Tenaga Kerja Coef Std Error t Stat P-value
16 3964 298510
Intercept 1166.815 1572.370 0.742 0.470
PDRB 0.009 0.002 4.524 0.000
17 1038 44171
18 4029 232214
19 701 52212 Persamaan Dugaan
21 901 173689
31 4727 1736196 e
32 20780 1419689
33 17246 941283
34 2118 98027
Setiap kenaikan PDRB sebesar Rp1 milyar, tenaga kerja
35 20450 1563756
bertambah 9 orang (0.009 x 1000). Atau setiap kenaikan
36 5333 433884
PDRB Rp1 trilyun meningkatkan kebutuhan tenaga kerja
9000 orang
27
Koefisien Determinasi (R2)
 Koefisien determinasi R2
Dekomposisi Jumlah Kuadrat TenagaKerja (Y)
Deviasi
Observation Aktual Pred Residuals Aktual Pred
[1] [2] [3]=[1]-[2] [4]=[1]-Rerata [5]=[2]-rerata
SS Proporsi
1 2203.70 2350.34 -146.64 -3875.41 -3728.77 SSR 423,438,064 0.594 R2
2 6728.40 5951.94 776.46 649.29 -127.18 SSE 289,677,652 0.406 1- R2
3 2410.50 2697.22 -286.72 -3668.61 -3381.90 SST 713,115,716 1.000
4 2915.60 5665.65 -2750.05 -3163.51 -413.47
5 1721.40 2501.25 -779.85 -4357.71 -3577.87
6 3963.90 3952.50 11.40 -2115.21 -2126.61
7 1037.67 1579.02 -541.35 -5041.44 -4500.09 • Persamaan regresi dugaan
8 4029.25 3333.84 695.41 -2049.86 -2745.28
9 701.40 1654.06 -952.66 -5377.71 -4425.06 memiliki R2 = 0.59
10
11
901.00
4726.80
2787.68
17368.97
-1886.68
-12642.17
-5178.11
-1352.31
-3291.43
11289.85
• Artinya variasi TenagaKerja
12 20779.90 14415.33 6364.57 14700.79 8336.22 dugaan mampu menangkap
13
14
17245.50
2118.40
9950.86
2081.60
7294.64
36.80
11166.39
-3960.71
3871.74
-3997.52
59% variasi TenagaKerja
15 20449.90 15759.77 4690.13 14370.79 9680.65 Aktual
16 5332.50 5215.82 116.68 -746.61 -863.30
Rerata 6079 289,677,652 713,115,716 423,438,064
28
Prediksi

Jika suatu provinsi memiliki PDRB Rp200 T berapa perkiraan
kebutuhan tenaga kerja? (Rp200 T = Rp200000 milyar)
= 2966,8 ribu orang

 Provinsi tersebut membutuhkan tenag kerja sekitar 2966.8 ribu
orang atau 2.966.800 orang.
29
MULTIPLE REGRESSION ANALYSIS
Regresi Majemuk atau Multiple Regression
Bivariate or Multivariate?
 Regresi berganda (multiple regression) adalah pengembangan dari
regresi sederhana (bivariate regression) yang memasukan lebih dari
satu variable independen
 Keterbatasan bivariate regression
 sering terlalu disederhanakan, karena factor yang mempengaruhi variable
respon dapat lebih dari satu
 Penduga menjadi berbias atau menyimpang jika ada predictor yang relevan
tidak dimasukkan atau dikeluarkan dari model
 Rendahnya tingkat kecocokan bukan berarti bahwa X tidak berkorelasi terhadap
Y, tetapi ada variable lain yang turut menjelaskan tidak dimasukkan.
Istilah dalam Regressi

 Y adalah variable respon dan diasumsikan berhubungan dengan k
predictor (X1, X2, … Xk) dengan persamaan linier yang disebut population
regression model:
 Persamaan regresi hasil pencocokan dengan data disebut sample

regresson model:

Format Data
 n pengamatan dari variable

respon Y dan calon predictor X1,
X2, … Xk disajikan dalam bentuk
matriks n x k

Kasus Permintaan Tenaga Kejra Provinsi
Provinsi TenagaKerja PDRB UMP industri  Perhatikan data berikut ttg Tenaga Kerja Provinsi
11 2204 126825 2700.00 0
12 6728 512766 2132.19 1
(Y=response variable) dan 3 calon potensial untuk
13 2411 163995 2119.07 0 explanatory variables:
14 2916 482087 2464.15 0 X1 = PDRB :
15 1721 142995 2243.72 0 X2 = UMP : Upah Minimum Provinsi
16 3964 298510 2596.00 0
17 1038 44171 1888.74 0 X3 = Variabel Dummy Industri Manufaktur
18 4029 232214 2074.67 0
19 701 52212 2755.44 0
21 901 173689 2563.88 0 Model Persamaan:
31 4727 1736196 3648.04 0
32 20780 1419689 1544.36 1
33 17246 941283 1486.07 1
34 2118 98027 1454.15 0
35 20450 1563756 1508.90 1
36 5333 433884 2099.39 1
Deskripsi variabel
34
Hasil estimasi koef persamaan dengan software Excel
Persamaan Dugaan:
Koefisien Determinasi R2
• Persamaan regresi dugaan memiliki R2 = 0.914
• Artinya variasi prediksi TenagaKerja mampu menangkap
91,4% variasi pada TenagaKerja Aktual
McGraw-Hill/Irwin
Evaluasi Kecocokan Model secara Global
Koefisien Determinasi (R2) : proses menghitung
 R2, koefisien determinasi, adalah ukuran umum

untuk kecocokan model secara keseluruhan
 Berikut adalah ilustrasi dua cara untuk menghitung
R2
0.914

0.914

Adjusted R2
 Koefisien determinasi R2 dapat ditingkatkan dengan cara menambah variable predictor ke dalam
model (k).
 Koefisien determinasi R2 akan berkurang jika dilakukan penambahan banyaknya observasi (n)
 Koef determinasi yang disesuaikan (oleh k dan n) berguna untuk mempinalti tambahan variable
predictor yang kurang berguna.
 Untuk n observations dan k predictor,
 Untuk kasus permintaan tenaga kerja, adjusted R2 adalah
16 −1
2
𝑅𝑎𝑑𝑗 =1− (1 − 0.914 ) ( )
16 −3 −1
McGraw-Hill/Irwin
=0.892
© 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Uji F untuk Signifikansi Model secara Keseluruhan
 Untuk sebuah regresi dengan k prediktor, hipotesis yang akan diuji:

H0: semua koefisien adalah nol
H1: sedikitnya ada satu koefisien yang bukan nol
dengan kata lain:

H0: b1 = b2 = … = b4 = 0
H1: sedikitnya ada satu koefisien yang bukan nol

 Tabel ANOVA mendekomposisi variasi total respons (Y) ke dalam dua komponen
yaitu SSR dan SSE

 Rncangan pada Tabel ANOVA untuk model dengan k-predictor diringkas sbb:
 Berikut adalah contoh perhitungan Tabel Anova untuk kasus Permintaan tenaga kerja Provinsi
McGraw-Hill/Irwin
Uji Signifikansi Pengaruh Prediktor secara Parsial
Signifikansi dengan Uji t

 Menguji koefisien dugaan dengan maksud untuk melihat apakah koefisien berbeda signifikan
dari nol.
 Hipotesis untuk predictor Xj:
 Jika kita tidak dapat menolak hipotesis bhw “Koefisien adalah nol”, berarti predictor tsb
tidak berkontribusi dlm memprediksi Y atau tidak berpengaruh thd Y.

Statistik Uji t
 Statistik uji koefisien variable predictor Xj adalah:
 Carilah nilai kritis ta pd level signifikansi alpha dan derajat

bebas tertentu pada Tabel
 Tolak H0 jk tj > ta atau jika p-value < a.

Standard Keputusan
TenagaKerja Coefficients t Stat P-value
Error Pengujian
Intercept 11866.114 3062.961 3.874 0.002 Tolak Ho
PDRB 0.008 0.001 5.763 0.000 Tolak Ho
UMP -4.957 1.303 -3.805 0.003 Tolak Ho
industri 3365.209 1901.043 1.770 0.102 Tidak tolak Ho
Variabel PDRB dan UMP berpengaruh signifikan terhadap perubahan permintaan tenaga kerja provinsi.
 Setiap kenaikan PDRB Rp1 milyar akan meningkatkan permintaan tenga kerja 8 orang, dengan
asumsi variabel lain tidak berubah
 Setiap kenaikan Rp1 ribu akan menurunkan permintaan tenaga kerja sekitar 4957 orang, ceteris
paribus
 Status provinsi yang didominasi oleh sektor industri pengolahan memiliki permintaan tenaga kerja
3365 ribu orang lebih tinggi dibanding status provinsi lainnya, ceteris paribus
43
Contoh Perilaku Inflasi dalam model Regresi
Spesifikasi persamaan:
Log(cpi)=b0+b1IRINV+b2log(M2)+b3 log(idrusd)+ b4 log(gasolineprice) + e
Keterangan:
IRINV = tingkat suku bunga investasi
M1 = jumlah uang beredar
gasolinePrice= harga premium
44
MODEL DENGAN DUMMY VARIABLE INDEPENDENT
45
Konsep dan Definisi
 Variabel dependent terkadang dipengaruhi tidak hanya oleh variabel kuantitatif,
tetapi juga oleh variabel kualitatif (nominal scale, indicator variables, categorical
variables, or dummy variables)
 Variabel kualitatif adalah jenis kelamin, ras, warna kulit, lokasi dan sebagainya.
 Variabel kualitatif adalah variabel yang isinya berupa koding dari hasil
kategorisasi terhadap objek/pengamatan bedasarkan kriteria tertentu.

 Contohnya variabel lokasi mungkin hanya berisi dua entiti yang berbeda,
yaitu kode perkotaan dan pedesaan. variabel lokasi tempat tinggal harus
dibuat ke dalam bentuk variabel dummy, yang hanya bernilai 1 dan 0.
Misalnya nilai 1 menunjukkan lokasi perkotaan dan 0 menyatakan lokasi
pedesaan.
46
Dummy Independen: Satu variabel Kualitatif dengan dua kategori
 Pengeluaran (variabel dependent) dipengaruhi oleh pendapatan dan lokasi tempat tinggal seseorang
(independentnya). Model regresi adalah:
Yi = o + 1Xi + Di + i (1)
dimana
Yi = pengeluaran
Xi = pendapatan
Di = dummy variabel lokasi: bernilai 1 jika lokasi adalah kota dan bernilai 0 jika lokasi adalah desa
o = intersep
1 = koefisien variabel X (marginal propensity to consume)
 = koefisien variabel dummy D yang lazim disebut sebagai koefisien pembeda intersep
47
Independen: Satu variabel Kualitatif dengan dua kategori
Dari model pada persamaan di atas dapat diturunkan menjadi:

- Rata-rata pengeluaran penduduk perkotaan: E(Yi|Di=1, Xi) = (o+) +1Xi
- Rata-rata pengeluaran penduduk pedesaan: E(Yi|Di =0, Xi) = o +1Xi
Beda rata-rata perdesaan dan perkotaan: 
48
Dummy Independen: Satu variabel Kualitatif dengan dua kategori
Untuk menguji apakah terdapat perbedaan rata-rata pengeluaran (Y) antara penduduk perkotaan dan pedesaan bila
besarnya pendapatan (X) tertentu. Ujinya dilakukan dengan hipotesis:

Ho:  = 0 , artinya lokasi tidak mempengaruhi pengeluaran
H1:   0 , artinya lokasi berpengaruh terhadap pengeluaran
Untuk menguji hipotesis ini digunakan statistik uji t. Prosedur pengujiannya tidak berbeda dengan yang dilakukan di
analisis regresi berganda.
49
Perumusan atau Setting Penyusunan Variabel Dummy
Ciri-ciri model regresi dengan variabel dummy:
1. Untuk membedakan kategori perkotaan dan pedesaan dibutuhkan satu variabel dummy. Secara umum jika sebuah variabel
kualitatif mempunyai m kategori, maka dibutuhkan (m-1) variabel dummy untuk membandingkan perilaku antar kategori.
Misal D menyatakan pendidikan tertinggi yang ditamatkan seseorang, yang dikelompokkan menjadi 3 kategori: (1) perguruan
tinggi, (2) sekolah menengah, dan (3) sekolah dasar.
Kategori pendidikan tertinggi D1 D2

yang ditamatkan
- Perguruan tinggi 1 0
- Sekolah menengah 0 1
- Sekolah dasar 0 0
2. Penentuan nilai 1 atau 0 untuk kategori, seperti kota dan desa, perguruan tinggi dan bukan perguruan tinggi boleh dilakukan
tanpa suatu dasar apapun (bersifat arbiter).
3. Namun demikian kategori yang diberi nilai 0 seringkali disebut sebagai kategori dasar, kontrol, pembanding atau yang
diabaikan. Pada contoh di atas kategori sekolah dasar disebut sebagai kategori dasar. Dikatakan kategori dasar karena setiap
pembandingan dibuat terhadap kategori dasar tersebut. Pemilihan kategori dasar ditentukan berdasarkan pertimbangan yang
bersifat apriori.
4. Koefisien variabel dummy disebut koefisien intersep differensial, karena koefisien ini menyatakan besarnya perbedaan intersep
dari kategori yang bernilai satu dengan kategori yang bernilai 0.
50
Dummy Independen: Variabel Kualitatif yang Tersusun Dari Tiga Kategori
Model regresi yang menerangkan hubungan pengeluaran dengan pendapatan dan pendidikan tertinggi yang ditamatkan adalah
sebagai berikut:

Yi = o + 1Xi + 1D1i +2D2i + i (4) Variabel Pendidikan tersusun atas 3
kategori:
1. Sekolah Dasar (kategori Dasar)
dimana 2. Sekolah Menangah
Yi = pengeluaran seseorang 3. Perguruan Tinggi
Xi = pendapatan seseorang
D1i = 1 jika berpendidikan perguruan tinggi
= 0 jika lainnya
D2i = 1 jika berpendidikan sekolah menengah
= 0 jika lainnya
o = intersep yang berasal dari penduduk berpendidikan sekolah dasar
i = koefisien variabel X (pendapatan)
1 = perbedaan intersep antara yang lulus perguruan tinggi dan sekolah dasar
2 = perbedaan intersep antara yang lulus sekolah menengah dan sekolah dasar
51
Independen: Satu Variabel Kualitatif Tersusun Atas Lebih Dari Dua Kategori
Dari model di atas dapat diperoleh :

1. Rata-rata pengeluaran bagi penduduk yang berpendidikan tertinggi perguruan tinggi adalah:
E(Yi|D1=1, D2=0, Xi) = (o + 1) + 1Xi (5)

2. Rata-rata pengeluaran bagi penduduk yang berpendidikan tertinggi sekolah menengah:
E(Yi|D1=0, D2=1, Xi) = (o + 2) + 1Xi (6)

3. Rata-rata pengeluaran bagi penduduk yang berpendidikan tertinggi sekolah dasar:
E(Yi|D1=0, D2=0, Xi) = o + 1Xi (7)
52
Independen: Satu Variabel Kualitatif Tersusun Atas Lebih Dari Dua Kategori
53
Membandingkan Slope Dua Kelompok Pengamatan
Dalam model pada pada persamaan (1) dan (4) kita baru mampu melihat pengaruh variabel kualitatif terhadap pergeseran
intersep (konstanta). Bila ingin melihat pengaruh variabel kualitatif terhadap slope/kemiringan garis regresi maka perlu
menambah variabel baru yang merupakan hasil interaksi antara variabel kualitatif dan kuantitatif.
Jadi bila ingin mengetahui perbedaan koefisien variabel X atau marginal propensity to consume (MPC) antara seseorang
yang tinggal di pedesaan dan perkotaan, kita harus memodifikasi persamaan 1 menjadi:
Yi = o + 1Xi + 2(XiDi) + Di + i (8)

dimana
Yi = pengeluaran seseorang
Xi = pendapatan seseorang
Di = variabel lokasi yang bernilai 1 jika seseorang tinggal kota dan 0 jika tinggal di desa
XiDi = perkalian antara variabel X dan variabel D
54
Sehingga dari model pada persamaan di atas dapat dijelaskan hal-hal sebagai berikut:
1. Rata-rata pengeluaran penduduk perkotaan:
E(Yi|Di=1, Xi) = (o+ ) +(1+ 2)Xi (9)
2. Rata-rata pengeluaran penduduk pedesaan
E(Yi|Di=0, Xi) = o + 1Xi (10)
Gambarkan sketsa di halaman selanjutnya.
55
Y
o + (1+ 2) x
2
slope di kelompok 2:
1 perkotaan
1
o + 1 x
1 slope di kelompok 1:
perdesaan
1
o+ 
Perubahan X
o
X
56
APLIKASI INTERAKSI DUMMY
VARIABEL DALAM ANALISIS DID
57
Model Dummy interaksi dua variabel
Model regresi yang menerangkan hubungan pengeluaran dengan Lama Sekolah oleh dummy waktu (pre vs post)
kebijakan dan dummy wilayah (treatment vs non treatment) dan interaksi antara dummy waktu dan dummy wilayah:
Yi = o + 1Xi + 1D1i +2D2i + 3D1i* D2i + i (4)

dimana
Yi = pengeluaran per kapita
Xi = Lama Sekolah
D1i = 1 post program, = 0 pre program
D2i = 1 daerah program, = 0 daerah kontrol
o = intersep
1 = koefisien variabel X (Lama sekolah)
1 = koef var dummy D1, sebelum dan sesudah program
2 = koef var dummy D2, wilayah program dan wilayah control
3 = koef interaksi D1 dan D2
Kerangka Logik: Dummy interaksi dua variabel
Analisis perubahan pengeluaran per kapita, antar-waktu dan antar-wilayah
D1: Dummy Waktu

Pre Post Delta
D2: Dummy Wilayah 0 1
Wilayah Control 0 o + 1Xi o + 1Xi + 1 1
Wilayah Treatment 1 o + 1Xi + 2 o + 1Xi + 1 +2+ 3 1 +  3
Delta 2 2+ 3 3
Nilai harapan (ekspektasi) pengeluaran per kapita untuk orang-orang yang

memiliki angka yang sama dalam rata-rata lama sekolah (X)
59
Aplikasi Dummy Interaksi: Analisis Difference In Difference
Operasional pertambangan Mineral ABC cenderung berdampak lebih besar ke daerah operasional atau tetangga
terdekatnya (lihat gambar) dibanding daerah yang lebih jauh. Kerangka berpikirnya adalah:
- Kabupaten sbg lokasi tambang dan kab tetangga dekatnya memiliki pendapatan per kapita P1 pada baseline survey
(time1), dan P2 pada evaluation survey (time2).
- Kabupaten berlokasi jauh dari pertambangan memiliki pendapatan per kapita lebih rendah yaitu S1 pada baseline
survey dan S2 pada evaluation survey.
- Beda dampak pendapatan dapat diukur dengan konsep interaksi variabel dummy.
- Jika pertambangan tidak berpengaruh

terhadap pendapatan per kapita maka garis
P1P2 sejajar dengan S1S2
- Garis P1P2 yang semakin menjauh dari

S1S2, menggambarkan bahwa peningkatan
pendapatan per kapita lebih tinggi di daerah
pertambangan atau berdekatan
- Kerangka ini akan ditangkap oleh interaksi
60
Model Persamaan Analisis Difference In Difference (DID)
Kita akan memodelkan Pendapatan per kapita (Y) oleh Tingkat Pendidikan kepala rumah tangga dan anggota
rumah tangga (X), kedekatan daerah kab/kota dengan daerah pertambangan (S=Dummy kedekatan), dan
waktu sebelum dan sesudah pertambangan (T=dummy waktu).
dimana,
Y = indicator pendapatan (pengeluaran) perkapita
S = dummy kota/kab yang dekat dengan lokasi ABC
S=0, kab/kota yang lokasinya jauh dari ABC
S=1, kota/kab yang lokasinya dekat dengan ABC
T = dummy waktu tahun 2008 dan 2018
T=0, adalah tahun 2008;
T=1, adalah tahun 2018;
X = Variabel control, yaitu anggota rumah tangga (art) dan rata-rata tahun bersekolah seluruh anggota
keluarga (yrschl).
61
Hasil Estimasi Model Analisis DID
Sumber: data Susenas tahun 2008 dan 2018 yang telah dikonstankan ke harga
dasar tahun 2010.
PerKapita Coef Std.Error T P>|t|
Cons 1122690 1615.024 695.15 0.000
S 78347.12 2874.824 27.25 0.000
T 524914.40 1311.401 400.27 0.000
S*T 132926.90 3392.607 39.18 0.000
ART -223765.20 39.836 -640.49 0.000
YRSCHL 19666.67 349.3655 493.69 0.000
• Nilainya lebih kecil dari 0,05 artinya

pengaruhnya signifikan, semua variabel
yang dimasukkan ke dalam model
memiliki pengaruh yang signifikan
62
Interpretasi Koefisien Model
Pendapatan Koefisien Interpretasi
Perkapita
Cons 1.122.690 ----
Pendapatan perkapita kab/kota yang berdekatan dengan pertambangan ABC lebih tinggi
S 78.347,12 Rp78,347,12 dibanding kab/kota lainnya
T 524.914,40 Pendapatan perkapita tahun 2018 lebih tinggi Rp524.914,14 dibanding tahun 2008
Interaksi antara Kedekatan dengan lokasi tambang ABC (S) dan faktor waktu (T) adalah
S*T 132.926,90 Rp132.926,9
Pendapatan perkapita berhubungan negatif dengan anggota rumah tangga. Penambahan 1

ART -223.765,20 Anggota rumah tangga berpotensi menurunkan pendapatan per kapita Rp223.765,20
Rata-rata Lama Sekolah berhubungan popsitif dengan pendapatan perkapita. Setiap kenaikan 1
YRSCHL 19.666.67 tahun lama sekolah berpotensi meningkatkan pendapatan per kaptias sebesar Rp19.666,67
63
Analisis Difference in Difference
Koefisien persamaan Regresi (Recall)
Variabel Waktu (T)
Pendapatan PerKapita Coef
Peningkatan Difference
Perkapita (Y) 2008 (T=0) 2018 (T=1) Cons 1,122,690.00
Dekat ABC (S=1) 1,201,037 1,858,878 657,841 Diff_1 S 78,347.12
Jauh ABC (S=0) 1,122,690 1,647,604 524,914 Diff_2 T 524,914.40
Perbedaan 78,347 211,274 132,927 (Diff_1 – Diff_2) S*T 132,926.90

ART -223765.20
YRSCHL 19666.67
S=0, T=0  Ykap =1,122,690 (konstanta);

- Kab/Kota dekat dengan ABC (S=1)  Y Perkapita naik Rp657.841,-
Diasumsikan faktor ART dan YRSCHL adalah konstan - Kab/Kota jauh dengan ABC (S=0)  Y Perkapita naik Rp524.914,-
- Dua kelompok Kab/kota mengalami kenaikan Pendapatan
PerKapita, tetapi Kab/kota lebih dekat ke ABC mengalami kenaikan
lebih tinggi, sebesar Rp132.927  sebesar koef interaksi S dan T
64
Selesai
Terima kasih
65

L07-Regression Analysis - Uw - Lec

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

L07-Regression Analysis - Uw - Lec

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA ANALITIC FOR BUSINESS

Dr. Uka Wikarya

FAKULTAS EKONOMI DAN BISNIS

 Mulailah analisis data bivariat (yaitu dua variabel)

Korelasi positif yg kuat Korelasi positif yg lemah

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

Korelasi Negatif kuat

Korelasi negative lemah

M1 : jumlah uang beredar CPI : Indeks Harga Konsumen

Hubungan non linier

Tidak ada Korelasi

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Koefisien korelasi sampel (r) mengukur derajat

 r = 0 menyatakan tida ada hubungan linier

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Bivariate Regression menganalisis hubungan antara dua

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Bentuk model hubungan linier, diasumsikan

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Jumlah kuadart residual (SSE)

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Penduga OLS utk slope :

 Penduga OLS utk intercep:

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Variasi Y di sekitar garis regresi atau Regression sum of

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

1993 18296.53 7759.73 309.37

2008 38090.28 13027.26 547.31

Statistic sample correlation

Computational step for estimating b1 and bo

Estimated Regression equation:

= 2966,8 ribu orang

Istilah dalam Regressi

 Persamaan regresi hasil pencocokan dengan data disebut sample

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 n pengamatan dari variable

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 R2, koefisien determinasi, adalah ukuran umum

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Untuk kasus permintaan tenaga kerja, adjusted R2 adalah

Uji F untuk Signifikansi Model secara Keseluruhan

 Untuk sebuah regresi dengan k prediktor, hipotesis yang akan diuji:

dengan kata lain:

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

Uji F untuk Signifikansi Model secara Keseluruhan

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

Signifikansi dengan Uji t

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

 Statistik uji koefisien variable predictor Xj adalah:

 Carilah nilai kritis ta pd level signifikansi alpha dan derajat

 Tolak H0 jk tj > ta atau jika p-value < a.

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.

Log(cpi)=b0+b1IRINV+b2log(M2)+b3 log(idrusd)+ b4 log(gasolineprice) + e

kategorisasi terhadap objek/pengamatan bedasarkan kriteria tertentu.

Dari model pada persamaan di atas dapat diturunkan menjadi:

Kategori pendidikan tertinggi D1 D2

Dari model di atas dapat diperoleh :

Gambarkan sketsa di halaman selanjutnya.

Yi = o + 1Xi + 1D1i +2D2i + 3D1i* D2i + i (4)

D1: Dummy Waktu

Nilai harapan (ekspektasi) pengeluaran per kapita untuk orang-orang yang

- Jika pertambangan tidak berpengaruh