Anda di halaman 1dari 65

DATA ANALITIC FOR BUSINESS

Regression Analysis

Dr. Uka Wikarya

FAKULTAS EKONOMI DAN BISNIS


UNIVERSITAS INDONESIA
1
Outline Materi
 Pemeriksaan Pola Korelasional
 Analisis Regersi Sederhana
 Analisis Regresi Majemuk
 Model Regresi dengan Variabel Dummy Independent

2
PEMERIKSAAN POLA KORELASIONAL DATA
Analisis Data Visual dan Analisis Korelasi

Penampilan Visual

 Mulailah analisis data bivariat (yaitu dua variabel)


dengan scatter plot.
 Scatter Plot?
 menampilkan setiap data pasangan yang diamati (xi, yi)
sebagai titik pada bidang X / Y
 menunjukkan secara visual kekuatan hubungan Antara dua

variabel
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Analisis Data Visual dan Analisis Korelasi
Analisi Korelasi

Korelasi positif yg kuat Korelasi positif yg lemah

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Analisis Data Visual dan Analisis Korelasi

Analisi Korelasi

Korelasi Negatif kuat

Korelasi negative lemah


McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Scatter Plot dan korelasi linier antara M1 dan CPI
Koefisien korelasi r = 0.956
1200000

1000000

800000

600000
M1

400000

200000

0
0 20 40 60 80 100 120 140

CPI

M1 : jumlah uang beredar CPI : Indeks Harga Konsumen

7
Analisis Data Visual dan Analisis Korelasi
Analisis Korelasi

Hubungan non linier

Tidak ada Korelasi

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Analisis Data Visual dan Analisis Korelasi
Analisis Korelasi

 Koefisien korelasi sampel (r) mengukur derajat


hubungan linier di antara X dan Y
-1 < r < +1
Hubungan negative kuat Hubungan positif kuat

 r = 0 menyatakan tida ada hubungan linier


McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Analisis Data Visual dan Analisis Korelasi
Analisi Korelasi

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Contoh Koefisien Koefisien
Data 16 provinsi tahun 2018, yang meliputi variabel:
  TenagaKerja PDRB Angker POP UMP IHK
• Tenagakerja= jumlah tenaga kerja
TenagaKerja 1
PDRB 0.771 1
• PDRB = produk domestik bruto (milyar Rp)
Angker 1.000 0.771 1 • Angker = angkatan kerja (ribu orang)
POP 0.993 0.770 0.996 1 • POP = penduduk (ribu orang)
UMP -0.547 -0.002 -0.544 -0.527 1 • UMP = upah minimum propinsi (ribu rupiah)
IHK -0.379 -0.351 -0.377 -0.373 0.054 1 • IHK = indeks harga konsumsn (2010=100)

• Terdapat korelasi kuat antara tenaga kerja dengan PDRB (+), populasi (+), Upah minimu provinsi (-) dan korelasi
lemah dengan indeks harga konsumen (-)
• Angkatan kerja dan populasi memiliki korelasi positif kuat

11
ANALISISI REGRESI SEDERHANA
Bivariate Regression (Simple Linear Regression)

 Bivariate Regression menganalisis hubungan antara dua


variable (misal Y dan X)
 Yaitu: satu variable dependent atau response (Y) dan satu
variable independen atau predictor (X).
 Hubungan keduanya dapat dihipotesiskan: linier atau non linier
(kuadratik, qubik atau bentuk lainnya)

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Bivariate Regression
Bentuk hubungan antara dua variable Y dan X

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Istilah dalam Analisis Regresi
Models and Parameters
 Parameter yg tidak diketahui:
b0 = Intercept
b1 = Slope

 Bentuk model hubungan linier, diasumsikan


Yi = b0 + b1Xi + ei
utk semua observasi (i = 1, 2, …, n)

 Suku kesalahan acak tidak dapat diamati (not observable), diasumsikan berdisttribusi
normal dengan rata-rata nol dan deviasi standar tertentu s.
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Istilah dalam Analisis Regresi
Models and Parameters

 Model terestimasi hasil pencocokan dari data digunkan utk memprediksi the expected
value Y utk nilai X tertentu
^
yi = b0 + b1xi
 Koefisien eatimasi (fitted coefficients) adalah:
b0 = dugaan utk intersep
b1 = dugaan utk slope
^
 Sisaan/Error : ei = yi - yi.
 Residual dapat digunakan utk mengestimasik s, standard deviation dari suku errors.

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Formula Ordinary Least Squares
Slope and Intercept
 Metode ordinary least squares (OLS) mengestimasi slope and intercept dari garis regresi,
sedemikian rupa diperoleh jumlah kuadrat residual yg minimum
 Jumlah residual = 0

 Jumlah kuadart residual (SSE)

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Formula Ordinary Least Squares
Slope dan Intercept

 Penduga OLS utk slope :

atau

 Penduga OLS utk intercep:

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Formula Ordinary Least Squares
Evaluasi Model
 Variasi Y (response) di sekitar rata-ratanya (SST = Total Sums
of Squares)

 Variasi Y di sekitar garis regresi atau Regression sum of


squares (SSR:

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Formula Ordinary Least Squares
Evaluasi Model

 Jumlah kuadrat residual atu The error sum of squares (SSE) adalah variasi
yg tidak bisa dijelaskan (unexplained variation)

 Jika model persamaan regresi adalah bagus, maka SSE akan relative kecil
terhadap SST
 Suatu kecocokan yg sempurna antara Y actual dan Y-prediksi adalah jika
SSE = 0.
 Besaran SSE bergantung pada n dan unit pengukuran
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Formula Ordinary Least Squares
Koefisien Determiniasi

 R2 adalah sebuah ukuran atas Kecocokan Relatif antara Y-aktual dan Y-prediksi berdasarkan
perbandingan SSR dan SST.

0 < R2 < 1

 Interpretasi R2: proporsi variance Y (response atau independent) yang dapat dijelaskan
oleh varians X (explanatory atau independent)
 Terkadang dinyatakan sebagai persentase, R2 = 1 (i.e., 100%) yg mengindikasikan
kecocokan yg sempurna.
 Dalam regresi sederhana atau bivariate regression, R2 = (r)2
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Scatter Plot, and Correlation Coefficient
Example
Scatter Plot Cement and steel consumption

60000

50000

40000

30000

20000

10000
Cement
Year Cement Steel Construction_pdb
(000 ton) (000 ton) (Triliun Rp)
1990 14143.06 5972.21 223.84
1991 15942.38 5832.24 250.75
1992 16238.81 5977.55 275.86 0 5000 10000
steel
15000 20000

1993 18296.53 7759.73 309.37


1994 21478.52 6748.28 355.33
1995 24175.53 9521.31 401.23
1996 25420.20 8298.96 452.43
1997 27401.62 8477.33 485.73
1998 19306.90 3453.94 308.71
1999 18746.75 4043.12 302.81
2000 22383.77 7150.75 319.89
2001 25459.63 6455.57 334.54
2002 27191.58 6486.42 352.88
Scatter Plot Cement and GDP

60000

50000

40000

30000

20000

10000
Cement
2003 27540.49 5585.92 374.40
2004 30044.81 8893.39 402.45
2005 31471.43 9591.74 432.79
2006 32056.27 7854.26 468.87
2007 34177.73 9746.76 508.87 200 400 600
gdp
800 1000

2008 38090.28 13027.26 547.31


2009 38353.51 9930.33 586.01
2010 40784.53 11957.62 626.91
2011 47988.20 13323.46 683.42
2012 54969.48 16163.27 728.23
2013 58023.63 17479.33 772.72
2014 59909.50 16278.45 826.62
2015 61799.31 15280.18 879.16

22
Scatter Plot and Correlation Coefficient
Stata syntax and output of correlation coefficient

Statistic sample correlation


coefficient, r

Number below a “sample correlation coefficient ” is a p-value related to P(r > |r|)
Statistic correlation coefficient indicate of strong correlation between cement and steel consumption, as well as
cement consumption and GDP

23
Estimation of Model’s Coefficient
Using
formula b1 = 3.417
and we get bo = 269.234

Computational step for estimating b1 and bo


Year Cement Steel
Y X1 (Yi-Ybar) (Xi-Xbar) (Yi -Ybar)*(Xi-Xbar) (Xi-Xbar)*(Xi-Xbar)
1990 14143 5972 -17833.77 -3308.27 58998910 10944645
1991 15942 5832 -16034.77 -3448.27 55292201 11890561
1992 16239 5978 -15737.77 -3302.27 51970351 10904982
1993 18297 7760 -13679.77 -1520.27 20796932 2311219
1994 21479 6748 -10497.77 -2532.27 26583178 6412387
1995 24176 9521 -7800.77 240.73 -1877885 57951
…. ….. …. …. …. …. ….
2010 40785 11958 8808.23 2677.73 23586071 7170242
2011 47988 13323 16011.23 4042.73 64729095 16343672
2012 54969 16163 22992.23 6882.73 158249334 47371983
2013 58024 17479 26047.23 8198.73 213554232 67219186
2014 59909 16278 27932.23 6997.73 195462231 48968236
2015 61799 15280 29822.23 5999.73 178925356 35996769
Sum 831,396 241,287 1,296,628,278 379,499,593
31,977 9,280
Y-Bar X1-Bar b1 3.417
bo 269.069

24
Estimation of Model’s Statistic
Estimated Regression Equation:
Cement = 269.069 + 3.417 Steel + error

Calculating R-square
Yhat Error
Year Y X1 (Y – Ybar) (Yhat-Ybar) SST = Sum Square Total
1990 14143 5972 -17834 20673 -6530 -11,303
1991 15942 5832 -16035 20195 -4253 -11,782 SSR = Sum Square regression
1992 16239 5978 -15738 20694 -4455 -11,283
1993 18297 7760 -13680 26782 -8485 -5,194
1994 21479 6748 -10498 23325 -1846 -8,652
SST = Sum Square Error
1995 24176 9521 -7801 32799 -8623 822
……. ……. …. ……. ……. ……. …….
2010 40785 11958 8808 41126 -341 9,149 SST = SSR + SSE
2011 47988 13323 16011 45789 2199 13,813
2012 54969 16163 22992 55493 -524 23,516 5055064001 = 4430162564 + 624901437
2013 58024 17479 26047 59989 -1965 28,012
2014 59909 16278 27932 55886 4023 23,909
2015 61799 15280 29822 52476 9323 20,499
Sum R2=
SumSquare 5055064001 624901437 4430162564  
SST SSE SSR
= 0.8764
Ybar
  = 31,977
Yhat = 269.069 + 3.417 Steel About 87.64% of Y variance can be
SumSquare = explained by variance X1

25
Estimation of Model’s Statistic
Using Stata Statistical Package, we find more model statistic

Estimated Regression equation:


Cement = 269.068 + 3.417 Steel + error

26
Contoh Kasus
PDRB dan Tenaga Kerja Provinsi 2015
 Spesifikasi model persamaan:
Provinsi TenagaKerja PDRB
(000 orang) (milyar RP)
11 2204 126825
12 6728 512766
13 2411 163995
14 2916 482087
Estimasi menggunakan Paket Excel
15 1721 142995 Tenaga Kerja Coef Std Error t Stat P-value
16 3964 298510
Intercept 1166.815 1572.370 0.742 0.470
PDRB 0.009 0.002 4.524 0.000
17 1038 44171
18 4029 232214
19 701 52212  Persamaan Dugaan
21 901 173689
31 4727 1736196 e
32 20780 1419689
33 17246 941283
34 2118 98027
Setiap kenaikan PDRB sebesar Rp1 milyar, tenaga kerja
35 20450 1563756
bertambah 9 orang (0.009 x 1000). Atau setiap kenaikan
36 5333 433884
PDRB Rp1 trilyun meningkatkan kebutuhan tenaga kerja
9000 orang
27
Koefisien Determinasi (R2)
 Koefisien determinasi R2
Dekomposisi Jumlah Kuadrat TenagaKerja (Y)
        Deviasi
Observation Aktual Pred Residuals Aktual Pred
[1] [2] [3]=[1]-[2] [4]=[1]-Rerata [5]=[2]-rerata
  SS Proporsi
1 2203.70 2350.34 -146.64 -3875.41 -3728.77 SSR 423,438,064 0.594 R2
2 6728.40 5951.94 776.46 649.29 -127.18 SSE 289,677,652 0.406 1- R2
3 2410.50 2697.22 -286.72 -3668.61 -3381.90 SST 713,115,716 1.000
4 2915.60 5665.65 -2750.05 -3163.51 -413.47
5 1721.40 2501.25 -779.85 -4357.71 -3577.87
6 3963.90 3952.50 11.40 -2115.21 -2126.61
7 1037.67 1579.02 -541.35 -5041.44 -4500.09 • Persamaan regresi dugaan
8 4029.25 3333.84 695.41 -2049.86 -2745.28
9 701.40 1654.06 -952.66 -5377.71 -4425.06 memiliki R2 = 0.59
10
11
901.00
4726.80
2787.68
17368.97
-1886.68
-12642.17
-5178.11
-1352.31
-3291.43
11289.85
• Artinya variasi TenagaKerja
12 20779.90 14415.33 6364.57 14700.79 8336.22 dugaan mampu menangkap
13
14
17245.50
2118.40
9950.86
2081.60
7294.64
36.80
11166.39
-3960.71
3871.74
-3997.52
59% variasi TenagaKerja
15 20449.90 15759.77 4690.13 14370.79 9680.65 Aktual
16 5332.50 5215.82 116.68 -746.61 -863.30
Rerata 6079 289,677,652 713,115,716 423,438,064

28
Prediksi
  
Jika suatu provinsi memiliki PDRB Rp200 T berapa perkiraan
kebutuhan tenaga kerja? (Rp200 T = Rp200000 milyar)

= 2966,8 ribu orang


 Provinsi tersebut membutuhkan tenag kerja sekitar 2966.8 ribu
orang atau 2.966.800 orang.

29
MULTIPLE REGRESSION ANALYSIS
Regresi Majemuk atau Multiple Regression
Bivariate or Multivariate?
 Regresi berganda (multiple regression) adalah pengembangan dari
regresi sederhana (bivariate regression) yang memasukan lebih dari
satu variable independen
 Keterbatasan bivariate regression
 sering terlalu disederhanakan, karena factor yang mempengaruhi variable
respon dapat lebih dari satu
 Penduga menjadi berbias atau menyimpang jika ada predictor yang relevan
tidak dimasukkan atau dikeluarkan dari model
 Rendahnya tingkat kecocokan bukan berarti bahwa X tidak berkorelasi terhadap
Y, tetapi ada variable lain yang turut menjelaskan tidak dimasukkan.
McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Regresi Majemuk atau Multiple Regression

Istilah dalam Regressi


 Y adalah variable respon dan diasumsikan berhubungan dengan k
predictor (X1, X2, … Xk) dengan persamaan linier yang disebut population
regression model:

 Persamaan regresi hasil pencocokan dengan data disebut sample


regresson model:

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Regresi Majemuk atau Multiple Regression

Format Data

 n pengamatan dari variable


respon Y dan calon predictor X1,
X2, … Xk disajikan dalam bentuk
matriks n x k

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Regresi Majemuk atau Multiple Regression
Kasus Permintaan Tenaga Kejra Provinsi

Provinsi TenagaKerja PDRB UMP industri  Perhatikan data berikut ttg Tenaga Kerja Provinsi
11 2204 126825 2700.00 0
12 6728 512766 2132.19 1
(Y=response variable) dan 3 calon potensial untuk
13 2411 163995 2119.07 0 explanatory variables:
14 2916 482087 2464.15 0 X1 = PDRB :
15 1721 142995 2243.72 0 X2 = UMP : Upah Minimum Provinsi
16 3964 298510 2596.00 0
17 1038 44171 1888.74 0 X3 = Variabel Dummy Industri Manufaktur
18 4029 232214 2074.67 0
19 701 52212 2755.44 0
21 901 173689 2563.88 0  Model Persamaan:
31 4727 1736196 3648.04 0
32 20780 1419689 1544.36 1
33 17246 941283 1486.07 1
34 2118 98027 1454.15 0
35 20450 1563756 1508.90 1
36 5333 433884 2099.39 1

Deskripsi variabel

34
Regresi Majemuk atau Multiple Regression
Hasil estimasi koef persamaan dengan software Excel

 Persamaan Dugaan:

Koefisien Determinasi R2
• Persamaan regresi dugaan memiliki R2 = 0.914
• Artinya variasi prediksi TenagaKerja mampu menangkap
91,4% variasi pada TenagaKerja Aktual

McGraw-Hill/Irwin
Evaluasi Kecocokan Model secara Global
Koefisien Determinasi (R2) : proses menghitung

 R2, koefisien determinasi, adalah ukuran umum


untuk kecocokan model secara keseluruhan
 Berikut adalah ilustrasi dua cara untuk menghitung
R2

0.914
 

 
0.914

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Evaluasi Kecocokan Model secara Global
Adjusted R2

 Koefisien determinasi R2 dapat ditingkatkan dengan cara menambah variable predictor ke dalam
model (k).
 Koefisien determinasi R2 akan berkurang jika dilakukan penambahan banyaknya observasi (n)
 Koef determinasi yang disesuaikan (oleh k dan n) berguna untuk mempinalti tambahan variable
predictor yang kurang berguna.
 Untuk n observations dan k predictor,

 Untuk kasus permintaan tenaga kerja, adjusted R2 adalah

  16 −1
2
𝑅𝑎𝑑𝑗 =1− (1 − 0.914 ) ( )
16 −3 −1
McGraw-Hill/Irwin
=0.892
© 2007 The McGraw-Hill Companies, Inc. All rights reserved.
Evaluasi Kecocokan Model secara Global

Uji F untuk Signifikansi Model secara Keseluruhan

 Untuk sebuah regresi dengan k prediktor, hipotesis yang akan diuji:


H0: semua koefisien adalah nol
H1: sedikitnya ada satu koefisien yang bukan nol

dengan kata lain:


H0: b1 = b2 = … = b4 = 0
H1: sedikitnya ada satu koefisien yang bukan nol

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Evaluasi Kecocokan Model secara Global

Uji F untuk Signifikansi Model secara Keseluruhan

 Tabel ANOVA mendekomposisi variasi total respons (Y) ke dalam dua komponen
yaitu SSR dan SSE

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Evaluasi Kecocokan Model secara Global
Uji F untuk Signifikansi Model secara Keseluruhan

 Rncangan pada Tabel ANOVA untuk model dengan k-predictor diringkas sbb:

 Berikut adalah contoh perhitungan Tabel Anova untuk kasus Permintaan tenaga kerja Provinsi

McGraw-Hill/Irwin
Uji Signifikansi Pengaruh Prediktor secara Parsial

Signifikansi dengan Uji t


 Menguji koefisien dugaan dengan maksud untuk melihat apakah koefisien berbeda signifikan
dari nol.
 Hipotesis untuk predictor Xj:

 Jika kita tidak dapat menolak hipotesis bhw “Koefisien adalah nol”, berarti predictor tsb
tidak berkontribusi dlm memprediksi Y atau tidak berpengaruh thd Y.

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Uji Signifikansi Pengaruh Prediktor secara Parsial

Statistik Uji t

 Statistik uji koefisien variable predictor Xj adalah:

 Carilah nilai kritis ta pd level signifikansi alpha dan derajat


bebas tertentu pada Tabel

 Tolak H0 jk tj > ta atau jika p-value < a.

McGraw-Hill/Irwin © 2007 The McGraw-Hill Companies, Inc. All rights reserved.


Uji Signifikansi Pengaruh Prediktor secara Parsial
Standard Keputusan
TenagaKerja Coefficients t Stat P-value
Error Pengujian
Intercept 11866.114 3062.961 3.874 0.002 Tolak Ho
PDRB 0.008 0.001 5.763 0.000 Tolak Ho
UMP -4.957 1.303 -3.805 0.003 Tolak Ho
industri 3365.209 1901.043 1.770 0.102 Tidak tolak Ho

Variabel PDRB dan UMP berpengaruh signifikan terhadap perubahan permintaan tenaga kerja provinsi.
 Setiap kenaikan PDRB Rp1 milyar akan meningkatkan permintaan tenga kerja 8 orang, dengan
asumsi variabel lain tidak berubah
 Setiap kenaikan Rp1 ribu akan menurunkan permintaan tenaga kerja sekitar 4957 orang, ceteris
paribus
 Status provinsi yang didominasi oleh sektor industri pengolahan memiliki permintaan tenaga kerja
3365 ribu orang lebih tinggi dibanding status provinsi lainnya, ceteris paribus

43
Contoh Perilaku Inflasi dalam model Regresi
Spesifikasi persamaan:

Log(cpi)=b0+b1IRINV+b2log(M2)+b3 log(idrusd)+ b4 log(gasolineprice) + e

Keterangan:
IRINV = tingkat suku bunga investasi
M1 = jumlah uang beredar
gasolinePrice= harga premium

44
MODEL DENGAN DUMMY VARIABLE INDEPENDENT

45
Konsep dan Definisi
 Variabel dependent terkadang dipengaruhi tidak hanya oleh variabel kuantitatif,
tetapi juga oleh variabel kualitatif (nominal scale, indicator variables, categorical
variables, or dummy variables)
 Variabel kualitatif adalah jenis kelamin, ras, warna kulit, lokasi dan sebagainya.

 Variabel kualitatif adalah variabel yang isinya berupa koding dari hasil

kategorisasi terhadap objek/pengamatan bedasarkan kriteria tertentu.


 Contohnya variabel lokasi mungkin hanya berisi dua entiti yang berbeda,

yaitu kode perkotaan dan pedesaan. variabel lokasi tempat tinggal harus
dibuat ke dalam bentuk variabel dummy, yang hanya bernilai 1 dan 0.
Misalnya nilai 1 menunjukkan lokasi perkotaan dan 0 menyatakan lokasi
pedesaan.
46
Dummy Independen: Satu variabel Kualitatif dengan dua kategori

 Pengeluaran (variabel dependent) dipengaruhi oleh pendapatan dan lokasi tempat tinggal seseorang
(independentnya). Model regresi adalah:
  Yi = o + 1Xi + Di + i (1)

dimana
Yi = pengeluaran
Xi = pendapatan
Di = dummy variabel lokasi: bernilai 1 jika lokasi adalah kota dan bernilai 0 jika lokasi adalah desa
o = intersep
1 = koefisien variabel X (marginal propensity to consume)
 = koefisien variabel dummy D yang lazim disebut sebagai koefisien pembeda intersep

47
Independen: Satu variabel Kualitatif dengan dua kategori

Dari model pada persamaan di atas dapat diturunkan menjadi:


- Rata-rata pengeluaran penduduk perkotaan: E(Yi|Di=1, Xi) = (o+) +1Xi
- Rata-rata pengeluaran penduduk pedesaan: E(Yi|Di =0, Xi) = o +1Xi
Beda rata-rata perdesaan dan perkotaan: 

48
Dummy Independen: Satu variabel Kualitatif dengan dua kategori

Untuk menguji apakah terdapat perbedaan rata-rata pengeluaran (Y) antara penduduk perkotaan dan pedesaan bila
besarnya pendapatan (X) tertentu. Ujinya dilakukan dengan hipotesis:
 
Ho:  = 0 , artinya lokasi tidak mempengaruhi pengeluaran
H1:   0 , artinya lokasi berpengaruh terhadap pengeluaran

Untuk menguji hipotesis ini digunakan statistik uji t. Prosedur pengujiannya tidak berbeda dengan yang dilakukan di
analisis regresi berganda.

49
Perumusan atau Setting Penyusunan Variabel Dummy
Ciri-ciri model regresi dengan variabel dummy:
1. Untuk membedakan kategori perkotaan dan pedesaan dibutuhkan satu variabel dummy. Secara umum jika sebuah variabel
kualitatif mempunyai m kategori, maka dibutuhkan (m-1) variabel dummy untuk membandingkan perilaku antar kategori.
Misal D menyatakan pendidikan tertinggi yang ditamatkan seseorang, yang dikelompokkan menjadi 3 kategori: (1) perguruan
tinggi, (2) sekolah menengah, dan (3) sekolah dasar.

Kategori pendidikan tertinggi D1 D2


yang ditamatkan
- Perguruan tinggi 1 0
- Sekolah menengah 0 1
- Sekolah dasar 0 0

2. Penentuan nilai 1 atau 0 untuk kategori, seperti kota dan desa, perguruan tinggi dan bukan perguruan tinggi boleh dilakukan
tanpa suatu dasar apapun (bersifat arbiter).
3. Namun demikian kategori yang diberi nilai 0 seringkali disebut sebagai kategori dasar, kontrol, pembanding atau yang
diabaikan. Pada contoh di atas kategori sekolah dasar disebut sebagai kategori dasar. Dikatakan kategori dasar karena setiap
pembandingan dibuat terhadap kategori dasar tersebut. Pemilihan kategori dasar ditentukan berdasarkan pertimbangan yang
bersifat apriori.
4. Koefisien variabel dummy disebut koefisien intersep differensial, karena koefisien ini menyatakan besarnya perbedaan intersep
dari kategori yang bernilai satu dengan kategori yang bernilai 0.

50
Dummy Independen: Variabel Kualitatif yang Tersusun Dari Tiga Kategori

Model regresi yang menerangkan hubungan pengeluaran dengan pendapatan dan pendidikan tertinggi yang ditamatkan adalah
sebagai berikut:
 
Yi = o + 1Xi + 1D1i +2D2i + i (4) Variabel Pendidikan tersusun atas 3
  kategori:
1. Sekolah Dasar (kategori Dasar)
dimana 2. Sekolah Menangah
Yi = pengeluaran seseorang 3. Perguruan Tinggi
Xi = pendapatan seseorang
D1i = 1 jika berpendidikan perguruan tinggi
= 0 jika lainnya
D2i = 1 jika berpendidikan sekolah menengah
= 0 jika lainnya
o = intersep yang berasal dari penduduk berpendidikan sekolah dasar
i = koefisien variabel X (pendapatan)
1 = perbedaan intersep antara yang lulus perguruan tinggi dan sekolah dasar
2 = perbedaan intersep antara yang lulus sekolah menengah dan sekolah dasar

51
Independen: Satu Variabel Kualitatif Tersusun Atas Lebih Dari Dua Kategori

Dari model di atas dapat diperoleh :


1. Rata-rata pengeluaran bagi penduduk yang berpendidikan tertinggi perguruan tinggi adalah:
  E(Yi|D1=1, D2=0, Xi) = (o + 1) + 1Xi (5)
 
2. Rata-rata pengeluaran bagi penduduk yang berpendidikan tertinggi sekolah menengah:
  E(Yi|D1=0, D2=1, Xi) = (o + 2) + 1Xi (6)
 
3. Rata-rata pengeluaran bagi penduduk yang berpendidikan tertinggi sekolah dasar:
  E(Yi|D1=0, D2=0, Xi) = o + 1Xi (7)

52
Independen: Satu Variabel Kualitatif Tersusun Atas Lebih Dari Dua Kategori

53
Membandingkan Slope Dua Kelompok Pengamatan

Dalam model pada pada persamaan (1) dan (4) kita baru mampu melihat pengaruh variabel kualitatif terhadap pergeseran
intersep (konstanta). Bila ingin melihat pengaruh variabel kualitatif terhadap slope/kemiringan garis regresi maka perlu
menambah variabel baru yang merupakan hasil interaksi antara variabel kualitatif dan kuantitatif.

Jadi bila ingin mengetahui perbedaan koefisien variabel X atau marginal propensity to consume (MPC) antara seseorang
yang tinggal di pedesaan dan perkotaan, kita harus memodifikasi persamaan 1 menjadi:
Yi = o + 1Xi + 2(XiDi) + Di + i (8)
 
dimana
Yi = pengeluaran seseorang
Xi = pendapatan seseorang
Di = variabel lokasi yang bernilai 1 jika seseorang tinggal kota dan 0 jika tinggal di desa
XiDi = perkalian antara variabel X dan variabel D

54
Membandingkan Slope Dua Kelompok Pengamatan
Sehingga dari model pada persamaan di atas dapat dijelaskan hal-hal sebagai berikut:
1. Rata-rata pengeluaran penduduk perkotaan:
E(Yi|Di=1, Xi) = (o+ ) +(1+ 2)Xi (9)
 2. Rata-rata pengeluaran penduduk pedesaan
E(Yi|Di=0, Xi) = o + 1Xi (10)

Gambarkan sketsa di halaman selanjutnya.

55
Membandingkan Slope Dua Kelompok Pengamatan
Y

o + (1+ 2) x

2
slope di kelompok 2:
1 perkotaan

1
o + 1 x

1 slope di kelompok 1:
perdesaan
1

o+ 
Perubahan X
o
X

56
APLIKASI INTERAKSI DUMMY
VARIABEL DALAM ANALISIS DID

57
Model Dummy interaksi dua variabel
Model regresi yang menerangkan hubungan pengeluaran dengan Lama Sekolah oleh dummy waktu (pre vs post)
kebijakan dan dummy wilayah (treatment vs non treatment) dan interaksi antara dummy waktu dan dummy wilayah:

 Yi = o + 1Xi + 1D1i +2D2i + 3D1i* D2i + i (4)


 
dimana
Yi = pengeluaran per kapita
Xi = Lama Sekolah
D1i = 1 post program, = 0 pre program
D2i = 1 daerah program, = 0 daerah kontrol
o = intersep
1 = koefisien variabel X (Lama sekolah)
1 = koef var dummy D1, sebelum dan sesudah program
2 = koef var dummy D2, wilayah program dan wilayah control
3 = koef interaksi D1 dan D2
Kerangka Logik: Dummy interaksi dua variabel
Analisis perubahan pengeluaran per kapita, antar-waktu dan antar-wilayah

D1: Dummy Waktu


Pre Post Delta
D2: Dummy Wilayah 0 1
Wilayah Control 0 o + 1Xi o + 1Xi + 1 1
Wilayah Treatment 1 o + 1Xi + 2 o + 1Xi + 1 +2+ 3 1 +  3
Delta 2 2+ 3 3

Nilai harapan (ekspektasi) pengeluaran per kapita untuk orang-orang yang


memiliki angka yang sama dalam rata-rata lama sekolah (X)

59
Aplikasi Dummy Interaksi: Analisis Difference In Difference
Operasional pertambangan Mineral ABC cenderung berdampak lebih besar ke daerah operasional atau tetangga
terdekatnya (lihat gambar) dibanding daerah yang lebih jauh. Kerangka berpikirnya adalah:
- Kabupaten sbg lokasi tambang dan kab tetangga dekatnya memiliki pendapatan per kapita P1 pada baseline survey
(time1), dan P2 pada evaluation survey (time2).
- Kabupaten berlokasi jauh dari pertambangan memiliki pendapatan per kapita lebih rendah yaitu S1 pada baseline
survey dan S2 pada evaluation survey.
- Beda dampak pendapatan dapat diukur dengan konsep interaksi variabel dummy.

- Jika pertambangan tidak berpengaruh


terhadap pendapatan per kapita maka garis
P1P2 sejajar dengan S1S2

- Garis P1P2 yang semakin menjauh dari


S1S2, menggambarkan bahwa peningkatan
pendapatan per kapita lebih tinggi di daerah
pertambangan atau berdekatan

- Kerangka ini akan ditangkap oleh interaksi

60
Model Persamaan Analisis Difference In Difference (DID)
 Kita akan memodelkan Pendapatan per kapita (Y) oleh Tingkat Pendidikan kepala rumah tangga dan anggota
rumah tangga (X), kedekatan daerah kab/kota dengan daerah pertambangan (S=Dummy kedekatan), dan
waktu sebelum dan sesudah pertambangan (T=dummy waktu).

dimana,
Y = indicator pendapatan (pengeluaran) perkapita
S = dummy kota/kab yang dekat dengan lokasi ABC
S=0, kab/kota yang lokasinya jauh dari ABC
S=1, kota/kab yang lokasinya dekat dengan ABC
T = dummy waktu tahun 2008 dan 2018
T=0, adalah tahun 2008;
T=1, adalah tahun 2018;
X = Variabel control, yaitu anggota rumah tangga (art) dan rata-rata tahun bersekolah seluruh anggota
keluarga (yrschl).

61
Hasil Estimasi Model Analisis DID

Sumber: data Susenas tahun 2008 dan 2018 yang telah dikonstankan ke harga
dasar tahun 2010.
PerKapita Coef Std.Error T P>|t|
Cons 1122690 1615.024 695.15 0.000
S 78347.12 2874.824 27.25 0.000
T 524914.40 1311.401 400.27 0.000
S*T 132926.90 3392.607 39.18 0.000
ART -223765.20 39.836 -640.49 0.000
YRSCHL 19666.67 349.3655 493.69 0.000

• Nilainya lebih kecil dari 0,05 artinya


pengaruhnya signifikan, semua variabel
yang dimasukkan ke dalam model
memiliki pengaruh yang signifikan

62
Interpretasi Koefisien Model
Pendapatan Koefisien Interpretasi
Perkapita

Cons 1.122.690 ----

Pendapatan perkapita kab/kota yang berdekatan dengan pertambangan ABC lebih tinggi
S 78.347,12 Rp78,347,12 dibanding kab/kota lainnya

T 524.914,40 Pendapatan perkapita tahun 2018 lebih tinggi Rp524.914,14 dibanding tahun 2008

Interaksi antara Kedekatan dengan lokasi tambang ABC (S) dan faktor waktu (T) adalah
S*T 132.926,90 Rp132.926,9

Pendapatan perkapita berhubungan negatif dengan anggota rumah tangga. Penambahan 1


ART -223.765,20 Anggota rumah tangga berpotensi menurunkan pendapatan per kapita Rp223.765,20

Rata-rata Lama Sekolah berhubungan popsitif dengan pendapatan perkapita. Setiap kenaikan 1
YRSCHL 19.666.67 tahun lama sekolah berpotensi meningkatkan pendapatan per kaptias sebesar Rp19.666,67

63
Analisis Difference in Difference
Koefisien persamaan Regresi (Recall)
Variabel Waktu (T)
Pendapatan PerKapita Coef
Peningkatan Difference
Perkapita (Y) 2008 (T=0) 2018 (T=1) Cons 1,122,690.00

Dekat ABC (S=1) 1,201,037 1,858,878 657,841 Diff_1 S 78,347.12

Jauh ABC (S=0) 1,122,690 1,647,604 524,914 Diff_2 T 524,914.40

Perbedaan 78,347 211,274 132,927 (Diff_1 – Diff_2) S*T 132,926.90


ART -223765.20
YRSCHL 19666.67

S=0, T=0  Ykap =1,122,690 (konstanta);


- Kab/Kota dekat dengan ABC (S=1)  Y Perkapita naik Rp657.841,-
Diasumsikan faktor ART dan YRSCHL adalah konstan - Kab/Kota jauh dengan ABC (S=0)  Y Perkapita naik Rp524.914,-
- Dua kelompok Kab/kota mengalami kenaikan Pendapatan
PerKapita, tetapi Kab/kota lebih dekat ke ABC mengalami kenaikan
lebih tinggi, sebesar Rp132.927  sebesar koef interaksi S dan T

64
Selesai
Terima kasih

65

Anda mungkin juga menyukai