Anda di halaman 1dari 11

Heteroscedasticity

The Nature of Heteroscedasticity


varians dari setiap istilah gangguan ui , tergantung pada nilai yang dipilih chosen dari variabel penjelas,
adalah beberapa bilangan konstan yang sama dengan 2. Ini asumsinya homoskedastisitas, atau sama
(homo) spread (skedastisitas), yaitu varians yang sama.

Secara diagramatis, dalam model regresi dua variabel dapat ditunjukkan homoskedastisitas seperti pada
Gambar 3.4, yang, untuk kenyamanan, direproduksi sebagai Gambar 11.1. Seperti Gambar 11.1
menunjukkan, varians bersyarat dari Yi (yang sama dengan ui ), tergantung pada diberikan Xi , tetap
sama terlepas dari nilai yang diambil oleh variabel X. Sebaliknya, perhatikan Gambar 11.2, yang
menunjukkan bahwa varians bersyarat dari Yi meningkat dengan meningkatnya X. Di sini, varians Yi tidak
sama. Oleh karena itu, ada heteroskedastisitas.

Ada beberapa alasan mengapa varians ui dapat berubah-ubah

1. Mengikuti model pembelajaran kesalahan, ketika orang belajar, kesalahan perilaku mereka menjadi
lebih kecil dari waktu ke waktu atau jumlah kesalahan menjadi lebih konsisten.

2. Seiring pertumbuhan pendapatan, orang memiliki lebih banyak pendapatan bebas2 dan karenanya
lebih banyak ruang lingkup untuk pilihan tentang disposisi pendapatan mereka.

3. Heteroskedastisitas juga dapat timbul akibat adanya outlier. outlier adalah observasi dari populasi
yang berbeda dengan yang menghasilkan pengamatan sampel yang tersisa

4. apa yang tampak seperti heteroskedastisitas mungkin disebabkan oleh fakta bahwa beberapa variabel
penting adalah dihilangkan dari model.
5. Sumber lain dari heteroskedastisitas adalah skewness dalam distribusi satu atau lebih regressor
termasuk dalam model. Contohnya adalah variabel ekonomi seperti pendapatan, kekayaan, dan
pendidikan. Diketahui bahwa distribusi pendapatan dan kekayaan di sebagian besar masyarakat tidak
merata

6. heteroskedastisitas dapat juga muncul karena (1) transformasi data yang salah (misalnya,
transformasi rasio atau perbedaan pertama) dan (2) bentuk fungsional yang salah (misalnya, model
linier versus log-linier).

Consequences
# Estimasi OLS Memungkinkan Heteroskedastisitas

# Estimasi OLS Dengan Mengabaikan Heteroskedastisitas

Singkatnya, jika kita tetap menggunakan pengujian biasa prosedur terlepas dari
heteroskedastisitas, kesimpulan apa pun yang kita tarik atau inferensi yang kita membuat mungkin
sangat menyesatkan. Fitur yang paling mencolok dari hasil ini adalah bahwa OLS, dengan atau tanpa
koreksi untuk heteroskedastisitas, secara konsisten melebih-lebihkan kesalahan standar sebenarnya
yang diperoleh oleh (benar)

Prosedur GLS, terutama untuk nilai yang besar, sehingga menetapkan keunggulan GLS. Hasil ini
juga menunjukkan bahwa jika kita tidak menggunakan GLS dan mengandalkan OLS memungkinkan atau
tidak memungkinkan terjadinya heteroskedastisitas—gambarannya beragam. Kesalahan standar OLS
yang biasa adalah terlalu besar (untuk intersep) atau umumnya terlalu kecil (untuk koefisien kemiringan)
dalam hubungannya dengan yang diperoleh dengan OLS memungkinkan untuk heteroskedastisitas.
Pesannya jelas: Di hadapan heteroskedastisitas, gunakan GLS. Namun, untuk alasan yang dijelaskan
kemudian dalam bab ini, di prakteknya tidak selalu mudah untuk menerapkan GLS. Juga, seperti yang
akan kita bahas nanti, kecuali heteroskedastisitas sangat parah, orang tidak boleh meninggalkan OLS
demi GLS atau WLS.

Meskipun kami telah menyatakan bahwa, dalam kasus heteroskedastisitas, itu adalah GLS,
bukan OLS, yang adalah BIRU, ada contoh di mana OLS bisa menjadi BIRU, meskipun
heteroskedastisitas.8 Tapi contoh seperti itu jarang terjadi dalam praktik.

Testing for Heteroscedasticity


Informal Methods
Nature of the Problem
Graphical Method

Formal Methods
Park Test
Glejser Test
Spearman’s Rank Correlation Test
Goldfeld–Quandt Test
Breusch–Pagan–Godfrey Test
White’s General Heteroscedasticity Test
Koenker–Bassett (KB) test.

Remedial Measures
 Log Transformation. Heteroscedasticity can occur because of the skewness of
one or more variable. ...
 Weighted Least Square. As in the presence of heteroscedasticity, OLS does
not give reliable estimates. ...
 Robust Standard Errors/ White Heteroscedasticity.

When Í2 i Is Known: The Method of Weighted Least Squares
When σi 2 Is Not Known
As noted earlier, if true σ2 i are known,we can use the WLS method to obtain
BLUE estimators. Since the true σ2 i are rarely known, is there a way of obtaining
consistent (in the statistical sense) estimates of the variances and covariances of OLS
estimators even if there is heteroscedasticity? The answer is yes.
White’s Heteroscedasticity-Consistent Variances and Standard Errors
White has shown that this estimate can be performed so that asymptotically valid
(i.e., large-sample) statistical inferences can be made about the true parameter
values.34 We will not present the mathematical details, for they are beyond the scope of
this book. However, Appendix 11A.4 outlines White’s procedure. Nowadays, several
computer packages present White’s heteroscedasticity-corrected variances and
standard errors along with the usual OLS variances and standard errors.35 Incidentally,
White’s heteroscedasticitycorrected standard errors are also known as robust standard
errors.

Multicollinearity
The Nature of Multicollinearity
# Originally it meant the existence of a “perfect,” or exact, linear relationship among some or all
explanatory variables of a regression model.
# The preceding algebraic approach to multicollinearity can be portrayed succinctly by the
Ballentine
Why does the classical linear regression model assume that there is no multicollinearity
among the X’s? The reasoning is this: If multicollinearity is perfect in the sense of Eq. (10.1.1),
the regression coefficients of the X variables are indeterminate and their standard errors are
infinite. If multicollinearity is less than perfect, as in Eq. (10.1.2), the regression coefficients,
although determinate, possess large standard errors (in relation to the coefficients
themselves),which means the coefficients cannot be estimated with great precision or accuracy.
Sources of multicollinearity
 The data collection method employed
 Constraints on the model or in the population being sampled
 Model specification
 An overdetermined model

Consequences
Pertama, benar bahwa bahkan dalam kasus multikolinearitas dekat, penduga
OLS tidak bias. Tetapi ketidakberpihakan adalah properti multisampel atau sampel
berulang. Artinya adalah bahwa, menjaga nilai variabel X tetap, jika seseorang
memperoleh sampel berulang dan menghitung compute penaksir OLS untuk masing-
masing sampel ini, rata-rata nilai sampel akan konvergen ke nilai populasi sebenarnya
dari estimator sebagai jumlah sampel meningkat. Tapi ini tidak mengatakan apa-apa
tentang sifat-sifat estimator dalam sampel yang diberikan
Kedua, juga benar bahwa kolinearitas tidak merusak properti varians minimum:
Di kelas semua penduga tak bias linier, penduga OLS memiliki varians minimum;
yaitu, mereka efisien.
Ketiga, multikolinearitas pada hakikatnya adalah fenomena sampel (regresi)
dalam artian bahwa, bahkan jika variabel X tidak berhubungan linier dalam populasi,
mereka mungkin sangat terkait dalam sampel tertentu yang ada

In cases of near or high multicollinearity, one is likely to encounter the following consequences:
1. Although BLUE, the OLS estimators have large variances and covariances, making precise
estimation difficult.
2. Because of consequence 1, the confidence intervals tend to be much wider, leading to the
acceptance of the “zero null hypothesis” (i.e., the true population coefficient is zero) more
readily.
3. Also because of consequence 1, the t ratio of one or more coefficients tends to be statistically
insignificant.
4. Although the t ratio of one or more coefficients is statistically insignificant, R2, the overall
measure of goodness of fit, can be very high.
5. The OLS estimators and their standard errors can be sensitive to small changes in the data.

Large Variances and Covariances of OLS Estimators


Wider Confidence Intervals
“Insignificant” t Ratios
A High R2 but Few Significant t Ratios
Sensitivity of OLS Estimators and Their Standard Errors to Small Changes in Data
Consequences of Micronumerosity

Testing for Multicollinearity


1. High R2 but few significant t ratios
2. High pair-wise correlations among regressors
3. Examination of partial correlations
4. Auxiliary regressions
5. Eigenvalues and condition index
6. Tolerance and variance inflation factor
7. Scatterplot

Remedial Measures
(1) do nothing : multicollinearity is essentially a data deficiency problem (micronumerosity,
again) and sometimes we have no choice over the data we have available for empirical analysis.
(2) follow some rules of thumb : A priori information, Combining cross-sectional and time
series data, Dropping a variable(s) and specification bias, Transformation of variables,
Additional or new data, Reducing collinearity in polynomial regressions, Other methods of
remedying multicollinearity,

Dummy Variable and Structural Change


Notes : dummy variable jangan kebanyakan, krn bsa ngurangin df
Notes : dummy juga bsa digunakan sebagai dependen, tapi ga disarankan pake OLS
alias pakenya probit/logit
The Nature of Dummy Variables
Variables that assume such 0 and 1 values are called dummy variables.3 Such variables are
thus essentially a device to classify data into mutually exclusive categories such as male or
female.
Dummy variables can be incorporated in regression models just as easily as quantitative
variables. As a matter of fact, a regression model may contain regressors that are all exclusively
dummy, or qualitative, in nature. Such models are called Analysis of Variance (ANOVA)
models.
# If a qualitative variable has m categories, introduce only (m − 1) dummy variables

Seasonal Analysis
The process of removing the seasonal component from a time series is known as
deseasonalization or seasonal adjustment, and the time series thus obtained is called the
deseasonalized, or seasonally adjusted, time series.
# Frisch–Waugh theorem

If the Dependent Variable Is a Dummy Variable?


Can we still use ordinary least squares (OLS) to estimate regression models where the regressand
(dependent) is dummy? Yes, mechanically, we can do so. But there are several statistical
problems that one faces in such models. And since there are alternatives to OLS estimation that
do not face these problems, we will discuss this topic in a later chapter (see Chapter 15 on logit
and probit models). In that chapter we will also discuss models in which the regressand has more
than two categories; for example, the decision to travel to work by car, bus, or train, or the
decision to work part-time, full time, or not work at all. Such models are called polytomous
dependent variable models in contrast to dichotomous dependent variable models in which the
dependent variable has only two categories.

1. Variabel dummy, mengambil nilai 1 dan nol (atau transformasi liniernya), adalah sarana
memperkenalkan regresi kualitatif dalam model regresi.
2. Variabel dummy adalah perangkat pengklasifikasi data yang membagi sampel menjadi
berbagai subkelompok berdasarkan kualitas atau atribut (jenis kelamin, status perkawinan, ras,
agama, dll.) dan secara implisit memungkinkan seseorang untuk menjalankan regresi individual
untuk setiap subkelompok. Jika ada perbedaan respon regresi dan variasi variabel kualitatif
dalam berbagai subkelompok, mereka akan tercermin dalam perbedaan penyadapan atau
koefisien kemiringan, atau keduanya, dari berbagai regresi subkelompok.
3. Meskipun merupakan alat yang serbaguna, teknik variabel dummy perlu ditangani dengan
hati-hati. Pertama, jika regresi mengandung suku konstan, jumlah variabel dummy harus satu
kurang dari jumlah klasifikasi masing-masing variabel kualitatif. Kedua, koefisien yang melekat
pada variabel dummy harus selalu ditafsirkan dalam kaitannya dengan basis, atau referensi, grup
—yaitu, grup yang menerima nilai nol. Dasar dipilih akan tergantung pada tujuan penelitian yang
ada. Akhirnya, jika model memiliki beberapa variabel kualitatif dengan beberapa kelas,
pengenalan variabel dummy dapat mengkonsumsi sejumlah besar derajat kebebasan. Oleh
karena itu, seseorang harus selalu menimbang angkanya variabel dummy yang akan
diperkenalkan terhadap jumlah total pengamatan yang tersedia untuk analisis.
4. Di antara berbagai aplikasinya, bab ini hanya membahas beberapa. Ini termasuk (1)
membandingkan dua (atau lebih) regresi, (2) menghilangkan musim data deret waktu, (3)
interaktif dummy, (4) interpretasi dummy dalam model semilog, dan (4) piecewise model regresi
linier.
5. Kami juga membunyikan catatan peringatan dalam penggunaan variabel dummy dalam situasi
heteroskedastisitas dan autokorelasi. Tapi karena kita akan membahas topik ini sepenuhnya di
bab-bab berikutnya, kita akan meninjau kembali topik-topik ini.

Introduction to Panel Data Analysis


Panel Data Model

Fixed Effects
Random Effects

Hausman Test
Summary
1. Model regresi panel didasarkan pada data panel. Data panel terdiri dari observasi pada
penampang yang sama, atau individu, unit selama beberapa periode waktu.
2. Ada beberapa keuntungan menggunakan data panel. Pertama, mereka meningkatkan ukuran
sampel sangat. Kedua, dengan mempelajari pengamatan penampang berulang, data panel lebih
cocok untuk mempelajari dinamika perubahan. Ketiga, data panel memungkinkan kita untuk
belajar model perilaku yang lebih rumit.
3. Terlepas dari keuntungan substansialnya, data panel menimbulkan beberapa estimasi dan
inferensi masalah. Karena data tersebut melibatkan baik penampang dan dimensi waktu, masalah
yang mengganggu data cross-sectional (misalnya, heteroskedastisitas) dan data deret waktu
(misalnya, autokorelasi) perlu ditangani. Ada beberapa masalah tambahan juga, seperti korelasi
silang dalam unit individu pada titik waktu yang sama.
4. Ada beberapa teknik estimasi untuk mengatasi satu atau lebih masalah ini. Itu dua yang paling
menonjol adalah (1) model efek tetap (FEM) dan (2) efek acak model (REM), atau model
komponen kesalahan (ECM).
5. Dalam FEM, intersep dalam model regresi diperbolehkan berbeda antar individu dalam
pengakuan fakta bahwa setiap individu, atau unit cross-sectional, mungkin memiliki beberapa
karakteristik tersendiri. Untuk memperhitungkan intersep yang berbeda, seseorang dapat
menggunakan dummy variabel. FEM menggunakan variabel dummy dikenal sebagai variabel
dummy kuadrat-terkecil (LSDV). FEM sesuai dalam situasi di mana intersep spesifik individu
mungkin berkorelasi dengan satu atau lebih regressor. Kerugian dari LSDV adalah bahwa ia
mengkonsumsi banyak derajat kebebasan ketika jumlah unit penampang, N, sangat besar, di
kasus mana kita harus memperkenalkan N boneka (tetapi menekan istilah intersep yang umum).
6. Sebuah alternatif untuk FEM adalah ECM. Dalam ECM diasumsikan bahwa intersepsi
individu unit adalah gambar acak dari populasi yang jauh lebih besar dengan nilai rata-rata yang
konstan. Itu intersep individu kemudian dinyatakan sebagai penyimpangan dari nilai rata-rata
konstan ini. Satu keuntungan dari ECM dibandingkan FEM adalah ekonomis dalam derajat
kebebasan, seperti yang tidak kami lakukan harus memperkirakan N perpotongan penampang.
Kita hanya perlu memperkirakan nilai rata-rata dari intersep dan variansnya. ECM sesuai dalam
situasi di mana intersep (acak) dari setiap unit penampang tidak berkorelasi dengan regressor.
Keuntungan lain ECM adalah bahwa kita dapat memperkenalkan variabel seperti jenis kelamin,
agama, dan etnis, yang tetap konstan untuk subjek tertentu. Di FEM kita tidak bisa melakukan itu
karena semua variabel seperti itu kolinear dengan intersep khusus subjek. Terlebih lagi, jika kita
menggunakan grup dalam estimator atau estimator first-difference, semua waktu-invarians
tersebut akan tersapu.
7. Uji Hausman dapat digunakan untuk memutuskan antara FEM dan ECM. Kita juga dapat
menggunakan Tes Breusch-Pagan untuk melihat apakah ECM sesuai.
8. Meskipun popularitasnya meningkat dalam penelitian terapan, dan meskipun ketersediaannya
meningkat data tersebut, regresi data panel mungkin tidak sesuai dalam setiap situasi. Seseorang
harus menggunakan beberapa penilaian praktis dalam setiap kasus.
9. Ada beberapa masalah khusus dengan data panel yang perlu diingat. Itu paling serius adalah
masalah gesekan, di mana, karena satu dan lain alasan, subjek dari panel keluar dari waktu ke
waktu sehingga pada survei berikutnya (atau penampang) lebih sedikit subjek asli tetap berada di
panel. Bahkan jika tidak ada gesekan, dari waktu ke waktu subjek mungkin menolak atau tidak
mau menjawab beberapa pertanyaan.

Model Specification and Diagnostic Tests


Types of Specification Errors
Kesalahan spesifikasi yang terkadang diabaikan adalah interaksi antara regressor, yaitu, efek
perkalian dari satu atau lebih regresi pada regres.
Following specification errors:
 Omission of a relevant variable(s).
 Inclusion of an unnecessary variable(s).
 Adoption of the wrong functional form.
 Errors of measurement.
 Incorrect specification of the stochastic error term.
 Assumption that the error term is normally distributed.

(1) underfitting a model, that is, omitting relevant variables, and (2) overfitting a
model, that is, including unnecessary variables.

The consequences of omitting variable X3 are as follows:


1. If the left-out, or omitted, variable X3 is correlated with the included variable X2, that is, r23,
the correlation coefficient between the two variables is nonzero and ˆα1 and ˆα2 are biased as
well as inconsistent. That is, E(ˆα1) _= β1 and E(ˆα2) _= β2, and the bias does not disappear as
the sample size gets larger.
2. Even if X2 and X3 are not correlated, ˆα1 is biased, although ˆα2 is now unbiased.
3. The disturbance variance σ2 is incorrectly estimated.
4. The conventionally measured variance of ˆα2 ( = σ2/_ x2 2i ) is a biased estimator of the
variance of the true estimator ˆ β2.
5. In consequence, the usual confidence interval and hypothesis-testing procedures are likely to
give misleading conclusions about the statistical significance of the estimated parameters.
6. As another consequence, the forecasts based on the incorrect model and the forecast
(confidence) intervals will be unreliable.

The consequences of overfitting specification error are as follows:


1. The OLS estimators of the parameters of the “incorrect” model are all unbiased and
consistent, that is, E(α1) = β1, E(ˆα2) = β2, and E(ˆα3) = β3 = 0.
2. The error variance σ2 is correctly estimated.
3. The usual confidence interval and hypothesis-testing procedures remain valid.
4. However, the estimated α’s will be generally inefficient, that is, their variances will be
generally larger than those of the ˆ β’s of the true model.

Tests for Specification Errors


Tests for Omitted Variables and Incorrect Functional Form
Examination of Residuals
The Durbin–Watson d Statistic Once Again
Ramsey’s RESET Test
Lagrange Multiplier (LM) Test for Adding Variables

Model Selection Criteria

Tests of Non-Nested Hypothesis


According to Harvey, there are two approaches to testing non-nested hypotheses: (1)
the discrimination approach, where given two or more competing models, one
chooses a model based on some criteria of goodness of fit, and (2) the discerning
approach (our terminology) where, in investigating one model, we take into account
information provided by other models. We consider these approaches briefly.

Introduction to Non-Linear Models


Intrinsically Linear vs. Intrinsically Non-Linear
Estimating Non-Linear Regression Model
Introduction to Probit/Logit Analysis

Anda mungkin juga menyukai