Anda di halaman 1dari 101

05 Regresi Data Panel

Jenis data, fokus, dan penggunaannya


Data runtun waktu Data potong lintang Data panel
(time series) (cross section) (data longitudinal)
Tipe data yang terdiri Tipe data yang Data observasi
dari observasi mengobservasi runtun waktu dari
Definisi terhadap satu subyek banyak subyek pada sejumlah subyek
individu pada titik waktu yang individu pada
berbagai titik waktu sama setiap waktunya
Menganalisis Menganalisis Menganalisis proses
perubahan subyek informasi mengenai perubahan setiap
Penggunaan individu selama suatu suatu isu spesifik subyek individu
interval waktu pada suatu waktu selama rentang
tertentu tertentu waktu tertentu
Kaakteristik data longitudinal
• Intersep (α) dan kemiringan (β) sama di setiap waktu
• Kemiringan (β) sama namun intersep (α) berbeda di setiap individu,
atau di setiap waktu, atau disetiap individu dan waktu
• Kemiringan (β) maupun intersep (α) berbeda di setiap individu dan
waktu
Data panel (data longitudinal)

Data multi dimensi dari observasi yang diukur berulangkali selama


rentang data tertentu

1. Obyek individu yang sama diobservasi berulang-ulang


2. Setiap individu diukur menggunakan berbagai variabel
3. Observasi dilakukan pada berbagai titik waktu
Regresi Data Panel
• gabungan antara data cross section dan data time series,
• Unit cross section yang sama diukur pada waktu yang berbeda  data
panel merupakan data dari beberapa individu sama yang diamati
dalam kurun waktu tertentu. Jika terdapat T periode waktu (t =
1,2,…,T) dan N jumlah individu (i = 1,2,…,N), maka dengan data panel
kita akan memiliki total unit observasi sebanyak NT.
Jenis Data Panel
• Balanced panel: setiap cross-section unit memiliki jumlah observasi
time-series yang sama.
• Unbalanced panel: jumlah observasi berbeda untuk setiap cross-
section unit
Keuntungan menggunakan data panel

Mengandung lebih banyak informasi, lebih banyak variabilitas, dan


lebih efisien daripada hanya data runtun waktu atau data potong
lintang  dapat mendeteksi dan mengukur efek statistik yang tidak
dapat diukur menggunakan data runtun waktu atau data potong
lintang
• Memungkinkan pengukuran besarnya perubahan berbagai individu selama
rentang waktu tertentu
• Memungkinkan pengukuran durasi dari kejadian
• Mencatat waktu terjadinya berbagai kejadian
Keuntungan menggunakan data panel (Hsiao,
2003 dalam Baltagi, 2021)
• Estimasi data panel dapat mencakup masalah heterogenitas
• Data panel memberikan informasi lebih banyak, lebih bervariasi,
mempersedikit kolinieritas antar variabel, dan lebih efisien
• Data panel lebih baik digunakan untuk melihat perubahan yang
bersifat dinamik.
• Data panel dapat mendeteksi dan mengukur efek lebih baik.
• Data panel memungkinkan kita untuk meneliti model yang lebih
kompleks  behavioral models
• Data panel dapat meminimalkan bias
• Menghindari masalah multikolinieritas
Keuntungan menggunakan data panel –
kesimpulan
dapat menjelaskan dua macam informasi:
• informasi cross-section: perbedaan antar subjek,
• informasi time series: merefleksikan perubahan pada subjek waktu.

Ketika kedua informasi tersebut tersedia, maka analisis data


panel dapat digunakan.
Kesulitan dalam menggunakan data panel –
kesimpulan
Faktor pengganggu akan berpotensi mengandung gangguan yang
disebabkan penggunaan observasi runtun waktu, observasi lintas
sektoral, serta gabungan keduanya
• Penggunaan observasi lintas sektoral mempunyai potensi tidak
konsistennya parameter regresi.
• Penggunaan observasi runtun waktu mempunyai potensi autokorelasi
antar observasi.
Contoh klasifikasi cara pengambilan data:
Pada data time series, satu atau lebih Pada data cross-section merupakan
variabel akan diamati pada satu unit amatan dari beberapa unit observasi
observasi dalam kurun waktu tertentu dalam satu titik waktu
Tingkat Inflasi di Indonesia 2013 - 2017 Tingkat Inflasi 5 Negara ASEAN Tahun 2018
Tahun Inflasi Negara Inflasi 2018 (%)
2013 8,4 Indonesia 3,1
2014 8,4 Malaysia 0,3
2015 4,9 Filipina 5,9
2016 3 Singapura 0,5
2017 3,6 Thailand 0,8
Sumber : https://www.bi.go.id Sumber : https://www.bi.go.id
Data Panel adalah gabungan antara data cross section dan data time
series, dimana unit cross section yang sama diukur pada waktu yang
berbeda.

Tingkat Inflasi 5 Negara ASEAN Periode 2013 - 2017


Tahun Indonesia Malaysia Filipina Singapura Thailand

2013 8,4 3,0 3,4 2,0 1,7


2014 8,4 2,8 2,9 -0,1 1,1
2015 4,9 2,6 0,3 -0,7 -0,9
2016 3,0 1,6 2,0 0,0 0,7
2017 3,6 3,5 3,0 0,5 0,9
Sumber : https://www.bi.go.id
Estimasi Data Panel
• Terdapat 3 cara estimasi (Pindyck dan Rubinfeld, 1998)
• Regresi Penggabungan semua data (Pooled OLS)
• Covariance Model (Fixed Effects  Least Squares Dummy Variable (LSDV)
Model
• Error Component Model (Random Effects)
Estimasi Data Panel
Menganggap data sebagai data Menerima bahwa selain variabel X terdapat hal-hal lain
cross sectional sehingga variabel Y seperti perbedaan dalam individu sampel dan variasi dalam
hanya dipengaruhi oleh variabel X waktu mempengaruhi besarnya Y
dan mengabaikan bahwa data
memiliki dimensi waktu dan
individual  asumsi sama dengan Selain dipengaruhi oleh variabel Selain dipengaruhi oleh variabel
regresi OLS X, variabel Y juga dipengaruhi X dan perbedaan dalam individu
oleh perbedaan dalam individu unit analisis (sampel), variabel Y
a unit analisis (sampel) juga dipengaruhi oleh variasi
dalam waktu
Pooled Least Square
(PLS)
Fixed Effect Random Effect
y = a + bx y = bx + fixed effect sampel y = bx + fixed effect sampel
+ efek waktu
Estimasi Data Panel – Pooled Least Square

• Analisis regresi least squares yang mengabaikan kemungkinan data


memiliki kelompok-kelompok yang berbeda
• Hanya mengkombinasikan data time series dan cross section
• Mengasumsikan bahwa koefisien regresi adalah sama untuk setiap
unit cross sectional dan pada semua periode waktu  model regresi
memiliki intersep dan kemiringan yang konstan dan sama
• Data dapat digabungkan dan analisis dilakukan menggunakan regresi
linier biasa
Estimasi Data Panel – Fixed Effects
• Hanya tertarik untuk menganalisis dampak variabel yang bervariasi
dengan berjalannya waktu
• Perbedaan dalam unit cross sectional ditunjukkan dengan perbedaan
dalam intersep (konstanta regresi) yang bervasiasi dalam unit-unit
cross sectional namun kemiringannya sama antar unit yang dianalisis
• Asumsi:
• Terdapat kondisi di sampel individu yang mungkin mangganggu variable
bebas dan karena itu harus dikontrol
• Karakteristik yang tidak berubah bersifat unik untuk setiap sampel dan tidak
berkorelasi dengan karakteristik individual
Estimasi Data Panel – Fixed Effects

Persamaan: 𝑌𝑖𝑡 = 𝛼𝑖 + 𝛽𝑘 𝑋𝑘,𝑖𝑡 + 𝜀𝑖𝑡

i = unit yang dianalisis, t = waktu


𝛼𝑖 = intersep untuk setiap unit yang dianalisis
𝑌𝑖𝑡 = variabel terikat
𝑋𝑘,𝑖𝑡 = vaiabel bebas ke i
𝛽𝑘 = koefisien untuk masing-masing variabel bebas
𝜀𝑖𝑡 = kesalahan regresi
Estimasi Data Panel – Random Effects
• Variasi diantara unit yang analisis (misal: perusahaan) adalah acak dan
tidak berkorelasi dengan variabel bebas
• setiap kelompok memiliki perbedaan intersep yang diakomodasi oleh
residual masing-masing unit yang dianalisis yang tidak berkorelasi
dengan variabel bebas
• Efek individual terdistribusi secara acak diseluruh unit cross section.
Untuk dapat mengangkap efek individual, model regresi hanya
memiliki satu intersep mewakili seluruh konstanta
• Keuntungan: melibatkan variabel yang tidak berubah
Estimasi Data Panel – Random Effects

Persamaan: 𝑌𝑖𝑡 = 𝛼 + 𝛽𝑘 𝑋𝑘,𝑖𝑡 + 𝑢𝑖𝑡 + 𝜀𝑖𝑡

i = unit yang dianalisis, t = waktu


𝛼 = intersep
𝑌𝑖𝑡 = variabel terikat
𝑋𝑘,𝑖𝑡 = vaiabel bebas ke i
𝛽𝑘 = koefisien untuk masing-masing variabel bebas
𝑢𝑖 = dampak individu dari unit analisis ke i, bukan variable yang dapat diukur
𝜀𝑖𝑡 = kesalahan regresi
Persamaan Regresi Data Panel
Persamaan Regresi data panel ada 2 macam , yaitu One Way
Model dan Two Way Model.
One Way Model adalah model satu arah, karena hanya
mempertimbangkan efek individu (αi) dalam model. Berikut
Persamaannya:

Dimana:
α = Konstanta
β = Vektor berukuran P x 1 merupakan parameter hasil estimasi
Xit = Observasi ke-it dari P variabel bebas
αi = efek individu yang berbeda-beda untuk setiap individu ke-i
Eit = error regresi seperti halnya pada model regresi klasik.
Model Data Panel
Two Way Model adalah model yang mempertimbangkan
efek dari waktu atau memasukkan variabel waktu. Berikut
Persamaannya:

Persamaan di atas menunjukkan dimana terdapat


tambahan efek waktu yang dilambangkan
dengan delta yang dapat bersifat tetap ataupun bersifat
acak antar tahunnya.
Asumsi Regresi Data Panel
• Metode Regresi Data Panel akan memberikan hasil pendugaan yang
bersifat Best Linear Unbiased Estimation (BLUE) jika semua
asumsi Gauss Markov terpenuhi diantaranya adalah non-
autcorrelation.
• Non-autocorrelation: sulit terpenuhi pada saat kita melakukan analisis
pada data panel sehingga pendugaan parameter tidak lagi bersifat
BLUE. Jika data panel dianalisis dengan pendekatan model-
model time series seperti fungsi transfer, maka ada informasi
keragaman dari unit cross section yang diabaikan dalam pemodelan.
Salah satu keuntungan dari analisis regresi data panel adalah
mempertimbangkan keragamaan yang terjadi dalam unit cross
section.
Keuntungan Regresi Data Panel
Keuntungan melakukan regresi data panel, antara lain:
• Pertama, dapat memberikan peneliti jumlah pengamatan yang besar,
meningkatkan degree of freedom (derajat kebebasan), data memiliki
variabilitas yang besar dan mengurangi kolinieritas antara variabel
penjelas, di mana dapat menghasilkan estimasi ekonometri yang
efisien.
• Kedua, panel data dapat memberikan informasi lebih banyak yang
tidak dapat diberikan hanya oleh data cross section atau time series
saja.
• Ketiga, panel data dapat memberikan penyelesaian yang lebih baik
dalam inferensi perubahan dinamis dibandingkan data cross section.
Tahapan Regresi Data Panel
Tidak seperti regresi biasanya, regresi data panel harus melalui tahapan penentuan model estimasi yang tepat.
Berikut diagram tahapan dari regresi data panel:
Penentuan Metode Estimasi Regresi Data
Panel
• Uji Chow
• Uji Hausman
• Uji Lagrange Multiplier
Penentuan Metode Estimasi Regresi Data
Panel – Uji Chow
• dilakukan dengan penambahan variabel dummy sehingga dapat
diketahui bahwa intersepnya berbeda dapat diuji dengan uji Statistik F
• digunakan untuk mengetahui apakah teknik regresi data panel
dengan metode Fixed Effect lebih baik dari regresi model data panel
tanpa variabel dummy atau metode Common Effect.
Penentuan Metode Estimasi Regresi Data
Panel – Uji Chow
• Menguji apakah parameter-parameter dari satu kelompok data sama
dengan parameter-parameter dari kelompok data yang lain  jika ya,
maka data dapat digabungkan (di ‘pool’)
• Jika intersep antar kelompok berbeda maka hal ini berarti model Fixed
Effect
Penentuan Metode Estimasi Regresi Data
Panel – Uji Chow
• pengujian untuk menentukan model apakah Pooled Least Square (CE)
ataukah Fixed Effect (FE) yang paling tepat digunakan dalam
mengestimasi data panel.
• Apabila Hasil:
• Menerima H0: Pilih Pooled Least Square (CE)  data dapat digabungkan,
intersep antar kelompok sama
• Menolak H0 : Pilih Fixed Effect (FE)  intersep antar kelompok berbeda
Penentuan Metode Estimasi Regresi Data
Panel – Uji Hausman
• didasarkan pada ide bahwa Least Squares Dummy Variables (LSDV)
dalam metode metode Fixed Effect dan Generalized Least Squares
(GLS) dalam metode Random Effect adalah efisien sedangkan
Ordinary Least Squares (OLS) dalam metode Common Effect tidak
efisien.
Penentuan Metode Estimasi Regresi Data
Panel – Uji Hausman
• Menguji apakah error untuk masing-masing unit berkorelasi dengan
variabel bebas
• H0: error masing-masing unit tidak berkorelasi dengan variabel bebas
• H1: error masing-masing unit berkorelasi dengan variabel bebas
Penentuan Metode Estimasi Regresi Data
Panel – Uji Hausman
• adalah pengujian statistik untuk memilih apakah model Fixed Effect
atau Random Effect yang paling tepat digunakan.
• Apabila Hasil:
• Menerima H0: Pilih Random Effect (CE)
• Menolak H0 : Pilih Fixed Effect (FE)
Penentuan Metode Estimasi Regresi Data
Panel – Uji Lagrange Multiplier
Didasarkan pada nilai residual dari metode Common Effect.
Penentuan Metode Estimasi Regresi Data
Panel – Uji Lagrange Multiplier
Menguji apakah terdapat efek cross section (dalam setiap unit yang
dianalisis) dan waktu dalam data
Penentuan Metode Estimasi Regresi Data
Panel – Uji Lagrange Multiplier
• uji untuk mengetahui apakah model Random Effect lebih baik
daripada metode Common Effect (PLS) digunakan.
• Apabila Hasil:
• Menerima H0: Pilih Pooled Least Square (CE)
• Menolak H0 : Pilih Random Effect (FE)
Dari ketiga uji untuk menentukan Metode Estimasi di atas,
digambarkan dalam grafik di bawah ini:
Contoh hasil regresi
Fixed Effect

Jika menggunakan Eviews akan dapat


ditampilkan hasil dampak perbedaan Cross
Section untuk masing-masing unit yang
dianalisis (untuk mengerjakannya dapat
dilihat melalui link youtube di bawah)

Catatan: jika pengerjaan menggunakan


random effect, dampak perbedaan Cross
Section untuk masing-masing unit juga
dapat dibuat

Cara pengerjaannya adalah dengan


melakukan Unstack, dapat dilihat pada
link berikut (mulai detik ke 26)
https://www.youtube.com/watch?v=Z5
_WIUVqW8E
Contoh regresi data panel – fixed effect
8
Data upah untuk 15 perusahaan (N =
15) selama 7 tahun (T = 7) sehingga
jumlah data = 15 x 7 = 105
7.5
Jika data dianggap sama (mengikuti
Pooled OLS) maka hasil regresi adalah
garis berwarna biru 7

6.5

5.5

5
0 5 10 15 20 25 30 35 40
Contoh regresi data panel – fixed effect
• Jika data diplot untuk setiap
perusahaan maka akan terlihat 8

bahwa masing-masing perusahaan


akan memiliki kelompoknya sendiri
7.5
(terlihat dari warna yang berbeda
untuk masing-masing kelompoknya)
• Dengan demikian pooled least 7

square tidak dapat digunakan di sini


• Hasil plot data juga menunjukkan 6.5
bahwa kemiringan data untuk
masing-masing kelompok adalah
sama sedangkan intersep adalah 6

berbeda
5.5

5
0 5 10 15 20 25 30 35 40
Hasil regresi
dengan Fixed Estimate Std. Error t value Pr(>|t|)
effect X 0.099915 0.005263 18.98<2e-16***
Koefisien regresi
Perusahaan1 5.365268 0.051571 104.04<2e-16***
fixed effect
Perusahaan2 3.201247 0.178413 17.94<2e-16***
Perusahaan3 5.611434 0.062499 89.78<2e-16***
Perusahaan4 2.989852 0.183541 16.29<2e-16***
Perusahaan5 5.605458 0.079650 70.38<2e-16***
Perusahaan6 4.195386 0.157990 26.55<2e-16***
Perusahaan7 4.512411 0.103141 43.75<2e-16***
Konstanta untuk
masing-masing Perusahaan8 3.994000 0.142792 27.97<2e-16***
perusahaan Perusahaan9 6.297705 0.051571 122.12<2e-16***
Perusahaan10 5.912651 0.051571 114.65<2e-16***
Perusahaan11 4.231716 0.147844 28.62<2e-16***
Perusahaan12 4.368264 0.132738 32.91<2e-16***
Perusahaan13 4.267610 0.157990 27.01<2e-16***
Perusahaan14 5.188914 0.103141 50.31<2e-16***
Perusahaan15 4.977247 0.075176 66.21<2e-16***
Contoh regresi data panel – fixed effect
8
Untuk regresi linier biasa, persamaan regresinya adalah:
y = 6.3570963 + 0.014959 * x

Y hasil regresi (Ŷ) untuk perusahan pertama di tahun pertama = 7.5 13


14 6
y = 6.3570963 + 0.014959 * 3 = 6.40173 9 5

Untuk fixed effect, perhitungannya adalah untuk masing-masing 7

perusahaan
Perusahaani: besaran b0 untuk perusahaan ke i + 0.099915xit 6.5
11
12
contoh: untuk perusahaan 1 tahun ke 1, maka besaran Ŷ fixed: 3 8
10 2 4
5.365268 + 0.099915*3 = 5.665013, dst
6
Dapat dilihat bahwa hasil dalam menggunakan fixed effect adalah 7
15
lebih mendekati nilai aktual dari Y (upah)  error menggunakan
1
data panel < error regresi linier biasa
5.5

Hasil regresi dapat dilihat pada grafik berikut. Nomor 1 s/d 15


menunjukkan masing-masing perusahaan
5
Untuk hasil regresi berganda linier biasa dapat dilihat berbentuk 0 5 10 15 20 25 30 35 40
garis lurus panjang (warna biru)
04 Regresi Linier
Sasaran
Keterangan
Pembelajaran
Menguasai prinsip dasar tentang ekonomi, bisnis dan konsep
Program Studi penyusunan informasi akuntansi dengan memanfaatkan teknologi
informasi dan mengkomunikasikan hasilnya.
Mampu menguasai konsep, menganalisis data, dan
Mata Kuliah menginterpretasikan hasil analisis data dalam penelitian
akuntansi

Bukti ketercapaian Ketepatan menggunakan konsep, menganalisis data, dan


pembelajaran menginterpretasikan hasil Regresi Linier
Regresi linier

Adalah pendekatan linier untuk memodelkan hubungan sebab akibat


antara beberapa variabel
Karakteristik kerangka regresi linier

1. Terdapat satu variabel tertentu (sasaran) yang ingin diketahui atau


dibuat model, biasanya dilambangkan dengan Y
2. Terdapat satu (atau lebih) variabel yang diperkirakan akan berguna
dalam memprediksi atau memodelkan variabel yang menjadi
sasaran dilambangkan dengan X (jumlah X sebanyak jumlah variabel
yang digunakan)
Bentuk paling sederhana
• Variabel terikat, atau variabel
dependen, atau variabel endogen, Y = a + bX
atau regresan, atau variabel yang
diprediksi
• Tergantung pada perubahan variabel
lain
• Variabel yang dianggap akan berguna untuk
• Variabel yang menjadi pusat perhatian
memprediksi variabel terikat
(diteliti), merupakan variabel yang
• Disebut sebagai variabel bebas, atau variabel
diukur
independent, atau variabel eksogen, atau
regressor, atau variabel prediktor
Konstanta: menunjukkan
besarnya variabel Y jika
variabel X bernilai 0 (nol)
Koefisien regresi: menunjukkan seberapa besar Y akan
Menunjukkan hubungan antara variabel X dan variabel Y: berubah jika variabel X berubah sebesar 1 unit (jika
• Positif (+): hubungan searah, jika variabel X naik maka variabel Y terdapat lebih dari 1 variabel X, menunjukkan berapa
akan naik, jika variabel X turun, variabel Y akan turun besar variabel Y akan berubah jika salah satu variabel X
• Negatif (-): Hubungan berlawanan arah, jika variabel X naik maka berubah dan seluruh variabel X lainnya bernilai 0)
variabel Y akan turun, jika variabel X turun, variabel Y akan naik
Jenis regresi linier
Jika regresi hanya menggunakan 1 variabel bebas, regresi dikenal
dengan nama Regresi Linier Sederhana

Y = a + bX

Jika regresi menggunakan lebih dari 1 variabel bebas, regresi dikenal


dengan nama Regresi Linier Berganda

Y = a + b1X1 + b2X2 + … + bnXn


Penggunaan regresi linier

• Digunakan dalam analisis prediktif

• Ide utama dalam regresi adalah menguji apakah:


1. Satu/sekelompok variabel bebas dapat memprediksi variabel terikat dengan
baik
2. Variabel bebas yang mana yang terutama menjadi prediktor yang signifikan
terhadap variabel terikat, dan bagaimana variabel-variabel bebas tersebut
mempengaruhi variable terikat
Tiga penggunaan utama regresi linier

• Mengidentifikasi kekuatan dampak dari variabel bebas terhadap variabel terikat


• Dapat digunakan untuk mengestimasi dampak dari perubahan variabel bebas:
regresi linier akam membantu memahami berapa besar variabel terikat akan
berubah jika variabel bebas berubah
• Regresi linier dapat memprediksi tren dan nilai masa depan: analisis regresi linier
dapat digunakan untuk mendapatkan estimasi
Beberapa hal penting dalam melakukan
regresi
• Memahami asumsi dan input yang digunakan akan menentukan hasil interpretasi
temuan: jika melakuan regresi linier tanpa memahami seberapa berpengaruhnya
asumsi yang ada terhadap model, maka akan terjadi kesalahan interpretasi
temuan regresi dan menyesatkan pihak-pihak yang menerima publikasinya
• Jika ingin menyimpulkan menenai hasi regresi linier, harus dipahami apa yang
dilakukan oleh regresi linier
• Jika ingin memahami apa yang ditemukan dengan menggunakan regresi linier,
harus memahami regresi linier
Pengujian asumsi klasik regresi linier

Model regresi linier harus memenuhi kriteria BLUE (Best Linear


Unbiased Estimator)  harus lolos uji asumsi klasik
Pengujian asumsi klasik regresi linier

Metode estimasi paling umum dari model linier adalah Ordinary Least
Squares (OLS)

Jika model yang ada memenuhi asumsi OLS untuk regresi linier, hasil
regresi akan memberikan estimasi terbaik
Pengujian asumsi klasik regresi linier

Tujuan melakukan regresi adalah mengambil sampel acak dari suatu


populasi dan menggunakan sampel tersebut untuk mengestimasi hal-
hal penting mengenai populasi tersebut
Pengujian asumsi klasik regresi linier
Dalam analisis regresi, koefisien-koefisien regresi adalah merupakan
estimasi dari parameter-parameter populasi  estimasi koefisien harus
menjadi estimasi terbaik:
1. Estimasi yang dihasilkan harus tepat sasaran: tidak boleh terlalu tinggi atau
terlalu rendah  secara rata-rata harus tidak bias (harus tepat)
2. Memahami bahwa estimasi tidak mungkin 100% tepat sehingga perbedaan
antara nilai estimasi dan nilai sebenarnya diminimalkan
Pengujian asumsi klasik regresi linier

Berdasar teorema Gauss-Markov, model regresi linier yang memenuhi


asumsi klasik akan menghasilkan estimasi koefisien yang cenderung
mendekati nilai populasi  hasil regresi dengan menggunakan sampel
akan dengan tepat menggambarkan parameter populasi

Jika asumsi-asumsi klasik tidak terpenuhi, tidak mungkin menarik


kesimpulanyang akurat mengenai realitas
Uji normalitas
Pengujian
asumsi Uji multikolinearitas
klasik
regresi Uji autokorelasi
linier Uji heteroskedastisitas
Normalitas
• Data yang mengikuti
distribusi normal dapat
dijelaskan dengan dua
besaran: (1) Rata-rata dan
(2) Deviasi Standar.
• Nilai-nilai ekstrim tidak
memiliki dampak signifikan
terhadap rata-rata
Mengapa asumsi normalitas penting

Berebagai metode statistik memerlukan asumsi normalitas seperti


korelasi, regresi, uji t, dan analisis varians
Walaupun, berdasar Teorema Limit Sentral, untuk data dengan jumlah
besar (lebih dari 100) kondisi normalitas data bukan masalah besar, uji
normalitas harus tetap dilakukan

• Jika data terdistribusi normal, rata-rata dapat


digunakan untuk mewakili data dengan
Hasil uji normalitas digunakan melakukan uji parametrik
untuk menentukan apakah kita • Jika data tidak terdistribusi normal:
• Jika jumlah data kecil (< 30)
dapat menggunakan nilai rata-
• rata-rata tidak dapat digunakan untuk
rata untuk mewakili data mewakili data  menggunakan median dan
dilakukan uji non parametrik.
• data dapat dinormalkan dengan melakukan
transformasi
• Jika jumlah data besar, dapat tetap
menggunakan uji parametrik
Beberapa hal penting mengenai normalitas
Jika data sampel mendekati normal, distribusi
sampling juga akan normal

Jika jumlah sampel besar, distribusi sampel juga


cenderung normal, walaupun data tidak mengikuti
distribusi normal

Rata-rata dari sampel acak dari distribusi apapun


akan memiliki distribusi normal
Menentukan normalitas data

Menggunakan grafik Metode numerik (termasuk uji statistik)


• Keuntungan: memungkinkan penilaian yang baik • Keuntungan: penilaian yang obyektif
untuk memperkirakan normalitas • Kekurangan: tidak cukup sensitif untuk data
• Kekurangan: memerlukan pengalaman yang cukup yang sedikit, terlalu sensitif untuk data
agar tidak salah dalam membuat kesimpulan berukuran besar

Berbagai metode numerik yang tersedia:


• Uji Kolmogorov-Smirnov, uji Shapiro-Wilk, kemencengan, kurtosis, histogram, box plot, P–P Plot, Q–Q Plot,
serta Rata-rata dan Deviasi standar
• Uji normalitas yang paling sering digunakan adalah uji Kolmogorov–Smirnov dan uji Shapiro–Wilk
Penyebab data tidak mengikuti distribusi
normal
1. Adanya data pencilan
2. Data yang digunakan merupakan gabungn dari beberapa kelompok data
3. Kesalahan dalam pembulatan data sehingga ada nilai-nilai tertentu yang tidak
tercakup
4. Jumlah sampel yang terlalu sedikit
5. Data terlalu dekat dengan batasan-batasan tertentu (misal terlalu banyak data
yang mendekati nol)
6. Data yang dipilih agar cocok dengan aturan tertentu
7. Data memang mengikuti distribusi tertentu
Mengatasi masalah ketidak normalan

1. Jika jumlah sampel besar, maka dapat menghilangkan nilai pencilan


dari data
2. Melakukan transformasi data
3. Menggunakan alat analisis nonparametrik
Jenis ketidaknormalan dan bentuk
transformasinya
Bentuk histogram Besaran kemencengan Bentuk tansformasi data
Menceng positif moderat 0,5 s/d 1 SQRT(x)
Menceng positif substantial >1 s/d 2 Log10(x)
Menceng positif parah >2 1/x
Menceng negatif moderat –1 s/d –0,5 SQRT(k – x)
Menceng negatif substantial < –2 s/d < –1 Log10(k – x)
Menceng negatif parah < –2 1/(k – x)
x = data
k = nilai data terbesar
Multikolinearitas

Terjadi jika dalam suatu model regresi dengan dua atau lebih variabel
independen dimana variabel-variabel independen saling memiliki
korelasi yang tinggi satu sama lain

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖
𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖
Penyebab terjadinya multikolinearitas

 Masalah dengan data pada saat dibuat, karena desain eksperimen


yang buruk, data yang sangat observasional, atau ketidakmampuan
memanipulasi data
 Menggunakan variabel yang sebenarnya merupakan gabungan dari
dua variabel lainnya
 Memasukkan variabel yang identik dalam data
 Variabel dummy yang tidak akurat (dikenal dengan nama jebakan
variabel dummy (Dummy variable trap))
 Data yang tidak cukup
Dampak adanya multikolinearitas

Menghasilkan probabilitas yang


Memperlebar interval tidak reliabel dalam hal pengaruh
keyakinan variabel independen terhadap
variabel dependen

Inferensi statistik untuk


model yang memiliki Pengaruh variabel independen
multikolinearitas yang seharusnya signifikan dapat
menjadi tidak dapat menjadi tidak signifikan
dipercaya
Tanda-tanda adanya multikolinearitas

• Suatu koefisien regresi tidak signifikan walaupun secara teoretis variabelnya


memiliki korelasi yang tinggi dengan Y
• Jika salah satu variabel X dibuang, koefisien regresi akan berubah secara dramatis
• Terdapat koefisien regresi yang berlawanan arah dengan teori (misal, koefisien
regresi bertanda negatif walaupun seharusnya bertanda positif, dan sebaliknya;
bertanda positif walaupun harusnya bertanda negatif)
• Variabel-variabel bebas memiliki korelasi yang tinggi diantaranya
Mendeteksi multikolinearitas
Jika koefisien dari variabel secara individu tidak signifikan (hipotesis 0 pada uji t
tidak ditolak) namun secara simultan dapat menjelaskan varians dari variabel
dependen dan dengan demikian signifikan (hipotesis 0 pada uji F ditolak) serta
memiliki koefisien determinasi (R2) yang tinggi, mungkin terjadi multikolinearitas

Menggunakan Variance Inflation Factors (VIF)


Mengapa VIF dapat mendeteksi
multikolinearitas

VIF mengukur seberapa besar varians (atau standard error) dari


koefisien regresi digelembungkan (terinflasi) – dan karena itu interval
keyakinan melebar – karena adanya kolinearitas
VIF dan pengukuran multikolinearitas

1
𝑉𝐼𝐹𝑖 = 𝑅𝑖2 didapat dari mengkorelasikan salah satu variabel
1 − 𝑅𝑖2 independen dengan variabel independen lainnya,
kemudian hasilnya dikuadratkan (menghasilkan
• 𝑉𝐼𝐹𝑖 : VIF untuk variabel koefisien determinasi)
ke i (i – 1 s/d n)
• 𝑅𝑖2 : koefisien determinasi
untuk variabel ke i
VIF dan pengukuran multikolinearitas

• 𝑅𝑖2 akan berkisar antara 0 dan 1


• Semakin besar korelasi antara satu variabel dengan variabel lainnya (R), semakin
besar koefisien determinasi (R2) bagian penyebut dari rasio VIF akan menjadi
kecil, dan sebaliknya jika korelasinya kecil
• Jika korelasi = 1, maka koefisian determinasi akan = 1  VIF akan bernilai ∞
• Jika koefisien determinasi = 0 maka VIF akan bernilai 1
VIF dan interpretasinya

Nilai VIF Interpretasi


1 Tidak ada multikolinearitas
1 < VIF < 5 Variabel bebas memiliki korelasi moderat, namun tidak menjadi
masalah bagi regresi
5 < VIF < 10 Variabel-variabel bebas memiliki korelasi yang tinggi dan dapat
menjadi masalah bagi regresi
> 10 Koefisien regresi akan diprediksi secara buruk karena multikolinearitas
Mengatasi multikolinearitas
• Membuang salah satu variabel bebas yang memiliki korelasi tinggi
dengan variabel bebas lainnya
• Menggunakan metode Partial Least Square Regression atau Principal
Component Analysis yang akan mengurangi sebagian variabel bebas
yang memiliki korelasi tinggi
Autokorelasi

• Mengacu pada seberapa tinggi korelasi antara nilai-nilai dari variabel yang sama
pada berbagai observasi dalam data
• Didiskusikan pada data runtun waktu dimana observasi untuk variabel yang sama
terjadi pada titik waktu yang berbeda
• Mengukur korelasi antara nilai suatu variabel di saat ini dengan nilai variabel
tersebut diperiode sebelumnya
Penyebab terjadinya autokorelasi

1. Inersia pada data runtun waktu ekonomi


2. Adanya variable yang dihilangkan dari persamaan yang seharusnya
3. Kesalahan dalam spesifikasi model
4. Dampak dari fenomena jaring laba-laba
5. Dampak adanya hubungan dengan periode sebelumnya
6. Manipulasi data
7. Masalah non stasionaritas
Dampak autokorelasi
• Estimator dari regresi tetap tidak bias dan konsisten
• Estimator dari regresi menjadi tidak konsisten dan karena itu tidak
lagi memenuhi BLUE
• Variansi dari koefisien regresi yang diestimasi akan menjadi bias dan
tidak konsisten sehingga uji hipotesis menjadi tidak valid
Mendeteksi autokorelasi
• Cara informal: menggunakan grafik
• Cara formal:
• Uji Durbin Watson
• Uji Breusch-Pagan
• Melakukan runs-test
Mengatasi masalah autokorelasi
1. memperbaiki kecocokan model
2. Jika tidak ada lagi variabel yang bisa ditambahkan, tambahkan
variabel yang 1 periode di belakang (lag 1)
Heteroskedastisitas

Situasi di mana varians dari residual regressi tidak sama disepanjang


rentang nilai yang diukur: pada saat regresi dilakukan. Adanya
hterosledastisitas akan menyebabkan penyebaran residual yang tidak
sama
Penyebab terjadinya heteroskedastisitas

• Adanya data pencilan dalam data keseluruhan. Dampaknya,


perubahan yang terjadi pada dta pencilan tidak akan sama dengan
perubahan ada data yang normal
• Mungkin dihasilkan oleh dikeluarkannya satu variabel dari dalam
model
Dampak adanya heteroskedastisitas

• Estimator masih tetap tidak bias, namun estimasi standard errornya


salah. Dampaknya, interval keyakinan dan hasil uji hipotesis tidak
dapat dipercya
• Estimator tidak lagi BLUE
Mengatasi masalah heteroskedastisitas

1. Mentransformasi variabel terikat


2. Meredefinisi variabel terikat
3. Menggunakan regresi terbobot
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.3597
R Square 0.1294
Adjusted R Square 0.0977
Standard Error 0.0719
Observations 58.0000

ANOVA
df SS MS F Significance F
Regression 2.0000 0.0423 0.0211 4.0874 0.0221
Residual 55.0000 0.2846 0.0052
Total 57.0000 0.3269

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 0.0027 0.0095 0.2831 0.7782 -0.0164 0.0218
X Variable 1 0.6385 0.2497 2.5576 0.0133 0.1382 1.1388
X Variable 2 -0.2038 0.1268 -1.6066 0.1139 -0.4579 0.0504
Coefficients
Intercept 0.0027
X Variable 1 0.6385
X Variable 2 -0.2038

Persamaan Regresi

𝑌෠ = 0.0027 + 0.6385𝑋1 ̶ 0.2038𝑋2

• 0,0027 = konstanta; menunjukkan besarnya 𝑌෠ jika 𝑋1 dan 𝑋2 = 0


• 0,6385 = koefisien 𝑋1 , karena nilai 𝑋1 positif, menunjukkan berapa
besar 𝑌෠ akan meningkat jika 𝑋1 meningkat sebesar 1 satuan dan 𝑋2 = 0

• -0,2038 = koefisien 𝑋2 , karena nilai 𝑋2 , menunjukkan berapa besar 𝑌෠


akan turun jika 𝑋2 meningkat sebesar 1 satuan dan 𝑋1 = 0
Uji Simultan (Uji F)
Hipotesis (dalam hal ini jumlah b disesuaikan dengan jumlah X dalam
contoh (=2). Untuk penelitian, jumlah b disesuaikan dengan jumlah variabel
X yang ada):
• H0: b1 = b2 = 0  X1 dan X2 tidak memiliki pengaruh yang signifikan terhadap Y
• H1: Minimal salah satu b ≠ 0  X1 dan X2 memiliki pengaruh yang signifikan terhadap Y
• Menguji kecocokan berbagai model linier dengan data
• Digunakan untuk melihat apakah perubahan yang terjadi pada variabel Y
tidak terjadi secara kebetulan saja
• Dalam regresi, hasil uji F melihat apakah hasil regresi linier cocok dengan
data yang ada: apakah variabel-variabel X yang ada dapat menjelaskan
perubahan yang terjadi pada variabel Y  apakah adanya berbagai
variabel X memberikan penjelasan yang lebih baik mengenai perubahan
pada variabel Y dibandingkan dengan tanpa adanya variabel X
Uji Simultan (Uji F)

𝑆𝑆𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 Τ𝑑𝑓𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑀𝑆𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛


𝐹= =
𝑆𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 Τ𝑑𝑓𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙 𝑀𝑆𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙
0.0423Τ2 0.0211
𝐹= = = 4.0874
0.2846Τ55 0.0052
Uji Simultan (Uji F)
ANOVA
df SS MS F Significance F
Regression 2.0000 0.0423 0.0211 4.0874 0.0221
Residual 55.0000 0.2846 0.0052
Total 57.0000 0.3269
Pengujian signifikansi: dapat dilakukan dengan dua cara:
1. Membandingkan antara Fhitung dengan Ftabel
a. H0 diterima jika: Fhitung ≤ Ftabel Hasil uji F tidak signifikan (variabel-variabel X tidak memiliki
pengaruh signifikan terhadap Y)
b. H0 ditolak jika: Fhitung > Ftabel  Hasil Uji F signifikan (variabel-variabel X memiliki pengaruh
signifikan terhadap Y)
(Catatan: penentuan daerah penerimaan disesuaikan dengan apakah uji dilakukan 1 atau 2 arah)
2. Melihat nilai Significance F
a. H0 diterima: Hasil Uji F tidak signifikan (jika Significance F ≥ 0,05)
b. H0 ditolak: Hasil Uji F signifikan (jika Significance F < 0,05)
Uji Simultan (Uji F)

Fhitung = 4,0874, Ftabel = 3,1650  Hasil uji signifikan karena Fhitung > Ftabel
Significance F = 0,0221  Hasil uji signifikan karena Significance F < 0,05
(Hasil uji menggunakan perbandingan Fhitung dan Ftabel akan sama dengan
hasil uji menggunakan Significance F)

• Untuk mencari Ftabel dapat menggunakan MS Excel


dengan mengetikkan fungsi dan besaran-besaran ini:
=F.INV.RT(probability,deg_freedom1,deg_freedom2)
• Contoh (jika menggunakan contoh soal yang ada
Daerah Daerah disini): probability = 0.05, df1 = 2, df2 = 55.
penerimaan penolakan • Penggunaan fungsi =F.INV.RT(0.05,2,55) akan
H0 H0
menghasilkan angka 3.1650

3,1650 4,0874
Uji Simultan (Uji F)

Kesimpulan:
Model yang digunakan signifikan: Perubahan yang terjadi pada variabel Y
tidak terjadi secara kebetulan saja, variabel-variabel X yang ada dapat
menjelaskan perubahan yang terjadi pada variabel Y  adanya berbagai
variabel X memberikan penjelasan yang lebih baik mengenai perubahan
pada variabel Y dibandingkan dengan tanpa adanya variabel X
Uji koefisien regresi individual (Uji t)

Hipotesis:
• H0: bi = 0  Xi tidak memiliki pengaruh yang signifikan terhadap Y
• H1: bi ≠ 0  Xi memiliki pengaruh yang signifikan terhadap Y

• Uji t digunakan untuk memeriksa signifikansi dari koefisien regresi individual dalam
model regresi linier
• Mengapa melakukan uji t: untuk mengetahui apakah variabel X yang digunakan
menyebabkan model regresi menjadi lebih efektif: Menambahkan variabel yang
signifikan kedalam suatu model regresi akan menyebabkan model menjadi lebih
efektif, sementara menambahkan variabel yang tidak penting akan menyebabkan
model menjadi lebih buruk
𝑋𝑖 − 𝜇
𝑡𝑖 =
𝑆𝑒𝑖

𝑋1 − 𝜇1 0.6385 − 0
𝑡1 = = = 2.5576
𝑆𝑒1 0.2497

𝑋2 − 𝜇2 −0.2038 − 0
𝑡2 = = = −1.6066
𝑆𝑒2 0.1268
Uji Parsial (Uji t)

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 0.0027 0.0095 0.2831 0.7782 -0.0164 0.0218
X Variable 1 0.6385 0.2497 2.5576 0.0133 0.1382 1.1388
X Variable 2 -0.2038 0.1268 -1.6066 0.1139 -0.4579 0.0504

Pengujian signifikansi: dapat dilakukan dengan dua cara:


1. Membandingkan antara thitung (t Stat) dengan ttabel
a. H0 diterima jika thitung ≤ ttabel  Hasil uji t tidak signifikan
b. H0 ditolak jika thitung > ttabel  Hasil Uji t signifikan
(Catatan: penentuan daerah penerimaan disesuaikan dengan degree of freedom)
2. Melihat nilai P-value
a. H0 diterima: Hasil Uji t tidak signifikan (jika P-value ≥ 0,05)
b. H0 ditolak: Hasil Uji t signifikan (jika P-value < 0,05)
Uji Parsial (Uji t)

• t StatX1 = 2,5576, ttabel = ±2,0040  Hasil uji signifikan karena tStatX1 > ttabel
P-valueX1 = 0,0133  Hasil uji signifikan karena P-valueX1 < 0,05
Kesimpulan: X1 memiliki pengaruh signifikan terhadap Y
• t StatX2 = -1,6066, ttabel = ±2,0040  Hasil uji tidak signifikan karena -tStatX1 > -ttabel
P-valueX2 = 0,1139  Hasil uji tidak signifikan karena P-valueX2 < 0,05
Kesimpulan: X2 tidak memiliki pengaruh signifikan terhadap Y

• Untuk mencari ttabel dapat menggunakan MS Excel


dengan mengetikkan fungsi dan besaran-besaran
t2 = ini: =T.INV.2T(probability,deg_freedom).
-1,6066 t1 = • Contoh (jika menggunakan contoh soal yang ada
Daerah disini): probability = 0.05, df = 55.
2,5576
penerimaan • Penggunaan fungsi =T.INV.2T(0.05,55) akan
H0
menghasilkan angka 2.0040.
• 2T di fungsi MS Excel berarti 2 tail (2 arah)
-2,0040 2,0040 sehingga t = ±2,0040
Statistik regresi
• Koefisien korelasi
• Koefisien determinasi
• Koefisien determinasi yang disesuaikan
• Standard error
• Jumlah observasi Regression Statistics
Multiple R 0.3597
R Square 0.1294
Adjusted R Square 0.0977
Standard Error 0.0719
Observations 58.0000
Uji keeratan hubungan (koefisien korelasi) dan kemampuan model
regresi menjelaskan hasil regresi (koefisien determinasi)

Koefisien korelasi menunjukkan seberapa kuat hubungan linier antara 2


variabel dan arah dari hubungan linier tersebut

Skala Nilai korelasi


0.00 < 0.19 Sangat rendah
0.2 ≤ r ≤ 0.39 Rendah
0.4 ≤ r ≤ 0.59 Sedang
0.6 ≤ r ≤ 0.79 Tinggi
0.7 ≤ r < 1.00 Sangat tinggi
Uji keeratan hubungan (koefisien korelasi) dan kemampuan model
regresi menjelaskan hasil regresi (koefisien determinasi + koefisien
determinasi disesuaikan (adjusted R-square))

Koefisien determinasi (R2)


• Suatu besaran yang mengukur kemampuan suatu model regresi
memprediksi atau menjelaskan hasil dari persamaan regresi
• Merupakan besaran statistik dalam suatu model regresi yang
menentukan proposri dari varians dalam variabel dependen yang
dapat dijelaskan oleh variabel independen
• Digunakan untuk menganalisis bagaimana perubahan dalam suatu
variabel dapat dijelaskan oleh perubahan dalam variabel lainnya
2
𝑣𝑎𝑟𝑖𝑎𝑛𝑠 𝑦𝑎𝑛𝑔 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑜𝑙𝑒ℎ 𝑚𝑜𝑑𝑒𝑙
𝑅 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑠 𝑡𝑜𝑡𝑎𝑙

• Besaran R2 antara 0 – 1
• Semakin besar (kecil) R2 berarti semakin besar (kecil) varians yang
dapat dijelaskan oleh model
• Jika R2 = 0 maka tidak ada varians yang dijelaskan oleh model
• Jika R2 = 1 maka seluruh varians yang ada (varians total) dapat
dijelaskan oleh model
Menghitung R2

2
𝑣𝑎𝑟𝑖𝑎𝑛𝑠 𝑦𝑎𝑛𝑔 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑜𝑙𝑒ℎ 𝑚𝑜𝑑𝑒𝑙
𝑅 =
𝑣𝑎𝑟𝑖𝑎𝑛𝑠 𝑡𝑜𝑡𝑎𝑙

2
𝑆𝑆𝑅𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛
𝑅 =
𝑆𝑆𝑇𝑜𝑡𝑎𝑙

2
0,0423
𝑅 = = 0,1294
0,3269
Uji keeratan hubungan (koefisien korelasi) dan kemampuan model
regresi menjelaskan hasil regresi (koefisien determinasi + koefisien
determinasi disesuaikan (adjusted R-square))

Koefisien determinasi disesuaikan (Adjusted R2)


• Versi modifikasi dari koefisien determinasi dengan mempertimbangkan jumlah
variabel independen dalam model
• Dapat memberikan pandangan yang lebih tepat terhadap korelasi dengan
mempertimbangkan berapa banyak variabel independen ditambahkan kedalam
suatu model
• Akan meningkat jika variabel baru memang benar memberikan hasil yang baik
terhadap model (bukan hanya kebetulan), dan akan berkurang jika variabel baru
tidak memberikan perbaikan kepada model
• Dapat bernilai negatif, walaupun pada umumnya positif, namun selalu lebih
rendah dari koefisien determinasi
Standard error

• Menunjukkan jarak rata-rata antara nilai yang diobservasi dengan garis


hasil regresi
• Semakin kecil nilai standard error, semain baik karena menunjukkan
bahwa nilai observasi berada semakin dekat dengan garis hasil regresi
Hasil statistik regresi
Besaran Kesimpulan/Penjelasan
Multiple R 0.3597 Masuk kedalam kategori rendah
Variabel-variabel bebas yang ada hanya
R Square 0.1294 dapat menjelaskan 12,94% variansi dalam
variabel dependen
Penggunaan 2 variabel bebas
Adjusted R
0.0977 menyebabkan kemampuan menjelaskan
Square
dari variabel bebas turun menjadi 9,77%
Rata-rata jarak observasi dengan garis
Standard error 0.0719
regresi adalah 0,0719

Anda mungkin juga menyukai