Anda di halaman 1dari 28

Normality

& Multikolinearitas
Materi 6 – Ekonometrika Terapan
Normality
Normalitas
• Salah satu asumsi penting dalam regresi OLS adalah asumsi
normalitas distribusi error.
• Dalam regresi berganda, hal penting yang perlu diperhatikan bahwa
asumsi distribusi normal pada error term, bukan distribusi normal
pada masing-masing variabel independen.
• Oleh karena itu, proses uji normalitas baru bisa dilakukan setelah
running regresi  sehingga bisa di-generate nilai residual regresinya.
Dampak jika error term tidak terdistribusi normal
• Pelanggaran normalitas menimbulkan masalah dalam uji signifikansi
koefisien (menentukan apakah koefisien model berbeda secara
signifikan dari nol) dan untuk menghitung confidence interval untuk
forecasting (peramalan).
• Uji signifikansi koefisien didasarkan pada asumsi bahwa error
terdistribusi normal  jika tidak terdistribusi normal maka confidence
interval bisa menjadi terlalu lebar atau terlalu sempit.
Testing for Normality
Karakteristik distribusi Normal:
• Nilai Skewness (kemencengan) = 0
• Nilai Kurtosis (ketinggian distribusi) = 3

• Untuk menguji apakah error terdistribusi secara normal (memiliki


distribusi simetris), uji hypothesis:
H0: Error terdistribusi normal
H1: Error tidak terdistribusi normal
• Salah satu pengujian normalitas bisa menggunakan Uji Jarque-Bera
• Uji statistic Jarque-Bera:

• N: Jumlah observasi
• S: Nilai Skewness
• K: Nilai Kurtosis

• Hasil Nilai Hitung statistic JB lalu dibandingkan dengan distribusi Chi-


Square dengan degree of freedom=2.
• Dari proses ini juga diperoleh p-value Uji JB:
H0 ditolak jika p-value JB lebih kecil dibanding Level of Significant yang
dipilih  artinya H0 ditolak  Error tidak terdistribusi Normal.
Uji Normalitas dengan R
• tseries::jarque.bera.test(saved.residual)
Jarque Bera Test

data: res1
X-squared = 1.0924, df = 2, p-value = 0.5791
Contoh aplikasi dengan Gretl
• Buka sample file  Ramanathan  data4-4 tentang penggunaan bis
umum
• Estimasi OLS model regresi:
BUSTRAVEL= a + b1 FARE + b2 GASPRICE + b3 INCOME + b4 POP + b5
DENSITY + b6 LANDAREA + e

Definisi masing-masing variable:


• BUSTRAVL = Demand for urban transportation by bus
in thousands of passenger hours
• FARE = Bus fare in dollars
• GASPRICE = Price of a gallon of gasoline, in $
• INCOME = Average income PER CAPITA
• POP = Population of city in thousands
• DENSITY = Density of city in persons/sq. mile
• LANDAREA = Land area of the city in sq. miles
Setelah diperoleh hasil regresi OLS  Test  Normality of residual
Akan diperoleh dua output: hasil pengujian dan Grafik distribusi residual

Dari hasil pengujian menunjukkan


bahwa:
P-value= 0.045 < level of sig. 5%

Hal ini berarti bahwa, H0: Error


terdistribusi normal ditolak. Error dari
hasil regresi OLS ini TIDAK terdistribusi
normal.
Dari hasil Grafik distribusi error juga
menunjukkan bahwa error (digambarkan
dengan histogram/ diagram batang)
memang memiliki distribusi yang tidak
simetris  bagian kanan lebih panjang.
Pelanggaran asumsi normalitas sering muncul karena:
• (a) distribusi variabel dependen dan / atau independen itu sendiri
secara signifikan tidak normal, dan / atau
• (b) asumsi linearitas dilanggar.
• (c) ada data outlier
Dalam kasus seperti ini, transformasi variabel nonlinier (menjadi
variabel log) dapat digunakan untuk mengatasi masalah normalitas.
Jika jumlah sampel cukup besar, maka Central Limit Theorem
menyatakan bahwa sampling distribution akan approximately normal
Multikolinearitas
Exact or perfect collinearity vs.
Multicollinearity
• Exact or perfect collinearity means an explanatory variable can be
written as a linear combination of other explanatory variables.
• The result is that a numerical solution for the parameter estimates is
not possible from the least squares method.

• Suppose the explanatory variables are highly correlated so that there


is almost perfect collinearity.
• This situation is called multi-collinearity.
Collinearity often arises when the model includes:
• Trending time series
• Lags of the endogenous and explanatory variables
• Many explanatory variables, as the number of regressors increase it is
easier for them to be highly correlated
• Dichotomic/ Binary/ Dummy variables
• when the numerical data for an explanatory variable shows little
variation in the sample  It will be difficult to identify the impact of
this variable even though it may be important to the economic model.
How are the least squares estimation results
affected by multi-collinearity ?
• None of the standard assumptions of the Gauss-Markov
theorem are violated.
• Therefore, the least squares estimator is the best (minimum
variance) estimator compared to any other linear unbiased
estimator.
• That is, the least squares estimator is BLUE.
The problem caused by Multicollinearity
• The problem is that it may be difficult to isolate the separate effects of
the individual explanatory variables with any precision.
• That is, the individual parameter estimates will show relatively large
standard errors and, for some of the slope coefficients, it will be
difficult to reject  uji koefisien parsial tidak signifikan.
• However, an F-statistic for testing the overall significance of the
regression will strongly reject the null hypothesis that all slope
coefficients are zero.  uji simultan signifikan.
How can multi-collinearity be detected ?
Before model estimation:
• Look at the sample correlations among the explanatory variables.
• A correlation greater than, say, |0.8| or |0.9| may suggest the presence
of multi-collinearity.

After model estimation:


• Calculate Variance Inflation Factor (VIF)
• VIF < 5 → weak collinearity
• 5 < VIF < 10 → moderate collinearity
• VIF > 10 → strong collinearity
• Multi-collinearity is a problem with the data set.
• Another sample from the population may show none of the
signs of multi-collinearity.
• Do not remove highly correlated variables from regression,
since it might induce omitted variable bias, which is a larger
problem than multicollinearity
Menghitung VIF dengan R
car::vif(saved.regression)
cyl hp
3.256998 3.256998

VIF < 5 berarti kolinearitas lemah, berarti model tidak mengalami


masalah multikolinearitas
Contoh dengan Gretl
Gunakan data dari sample file  data4-4 dari Ramanathan. Data tentang penggunaan bus umum

File  Open Data  Sample File  Ramathan  data4-4


Dependen Variabel  BUSTRAVEL. Variabel lain adalah variabel Independen.
Blok semua variabel independen  Klik kanan  Pilih Correlation Matrix
Hasil matriks korelasi

Correlation coefficients, using the observations 1 - 40


5% critical value (two-tailed) = 0.3120 for n = 40

FARE GASPRICE INCOME POP DENSITY LANDAREA


1.0000 0.0510 -0.0755 0.0149 -0.1406 0.2621 FARE
1.0000 0.1364 0.3266 0.4553 -0.1083 GASPRICE
1.0000 0.3351 0.4591 0.0076 INCOME
1.0000 0.6362 0.4848 POP
1.0000 -0.2275 DENSITY
1.0000 LANDAREA

Hasil  antar variabel bebas tidak ada nilai korelasi di atas 0.8. Tidak ada indikasi multikolineraitas.
Cara lain  Collinearity Test
Blok semua variabel independen  Klik kanan  Pilih Collinearity
• Pilih “No”  untuk pilihan constant
Jika nilai Condition Number > 50  menunjukkan adanya masalah Multikolinearitas

Anda mungkin juga menyukai