Anda di halaman 1dari 6

Nama: M.

Habibi Rahmatullah Nim:


23.B1.0096
HeteroskedastisitasdalamAnalisisRegresi

Heteroskedastisitasberartipenyebaranyangtidakmerata.Dalamanalisisregresi,kitaberbicara
tentang heteroskedastisitas dalam konteks residu atau istilah kesalahan. Secara khusus,
heteroskedastisitas adalah perubahan sistematis dalam penyebaran residu pada rentang nilai
yangdiukur. Heteroskedastisitasmenjadimasalahkarenaregresikuadratterkecilbiasa(OLS)
mengasumsikan bahwa semua residu diambil dari suatu populasi yang mempunyai varian
konstan (homoskedastisitas).
Untukmemenuhiasumsiregresidandapatmempercayaihasilnya,residuharusmemilikivarian
yang konstan. Dalam postingan blog ini, saya menunjukkan cara mengidentifikasi
heteroskedastisitas, menjelaskan apa yang menyebabkannya, masalah yang ditimbulkannya,
dan memberikan contoh untuk menunjukkan beberapa solusi.

1. CaraMengidentifikasiHeteroskedastisitasdengan PlotResidual
Heteroskedastisitas menghasilkan bentuk kipas atau kerucut yang khas pada plot sisa. Untuk
memeriksa heteroskedastisitas, Anda perlu menilai residu dengan plot nilai yang disesuaikan
secaraspesifik.Biasanya,polayangmenunjukkanheteroskedastisitasadalahketikanilaiyang
dipasang meningkat, varians dari residu juga meningkat.
Dapatdilihatcontohpolaberbentukkerucutinipadaresidudenganplotnilaiyangdipasangdi bawah.
Perhatikan bagaimana rentang vertikal dari residu meningkat seiring dengan meningkatnya
nilai yang dipasang. Nanti di postingan ini, kita akan kembali ke model yang menghasilkan
plot ini ketika kita mencoba memperbaiki masalah dan menghasilkan homoskedastisitas.

2. ApaPenyebab Heteroskedastisitas?
Heteroskedastisitas, juga disebut heteroskedastisitas, lebih sering terjadi pada kumpulan data
yangmemilikirentangbesarantaranilaiobservasiterbesardanterkecil.Meskipunadabanyak alasan
mengapa heteroskedastisitas bisa terjadi, penjelasan umum adalah bahwa varians kesalahan
berubah secara proporsional dengan suatu faktor . Faktor ini mungkin merupakan variabel
dalam model. Dalam beberapa kasus, varians meningkat secara proporsional dengan
faktorininamuntetapkonstandalampersentase.Misalnya,perubahan10%padaangkaseperti
100 jauh lebih kecil dibandingkan perubahan 10% pada angka besar seperti 100.000. Dalam
skenario ini, Anda memperkirakan akan melihat residu yang lebih besar terkait dengan nilai
yanglebihtinggi.ItusebabnyaAndaharusberhati-hatisaatbekerjadenganrentangnilaiyang luas!
Karena rentang yang besar dikaitkan dengan masalah ini, beberapa jenis model lebih rentan
terhadap heteroskedastisitas.

3. Heteroskedastisitasdalamstudicross-sectional
Studi cross-sectional seringkali memiliki nilai yang sangat kecil dan besar sehingga lebih
cenderung memiliki heteroskedastisitas. Misalnya, studi cross-sectional yang melibatkan
Amerika Serikat dapat memberikan nilai yang sangat rendah untuk Delaware dan nilai yang
sangat tinggi untuk California. Demikian pula, studi cross-sectional mengenai pendapatan
dapat mencakup rentang kemiskinan hingga miliarder.

4. Heteroskedastisitasdalammodelderetwaktu
Suatumodelderetwaktudapatmengalamiheteroskedastisitasjikavariabelterikatnyaberubah
secara signifikan dari awal hingga akhir deret. Misalnya, jika kita memodelkan penjualan
pemutar DVD dari penjualan pertamanya pada tahun 2000 hingga saat ini, jumlah unit yang
terjualakansangatberbeda.Selainitu,jikaAndamemodelkandataderetwaktudankesalahan
pengukuran berubah seiring waktu, heteroskedastisitas dapat terjadi karena analisis regresi
menyertakan kesalahan pengukuran dalam istilah kesalahan. Misalnya, jika kesalahan
pengukuranmenurunseiringberjalannyawaktuseiringdengandiperkenalkannyametodeyang
lebih baik, Anda akan memperkirakan varians kesalahan juga akan berkurang seiring waktu.

Contoh heteroskedastisitas
Mari kita lihat contoh klasik heteroskedastisitas. Jika Anda memodelkan konsumsi rumah
tangga berdasarkan pendapatan, Anda akan menemukan bahwa variabilitas konsumsi
meningkat seiring dengan peningkatan pendapatan. Rumah tangga berpendapatan rendah
mempunyaivariabelyanglebihkecilsecaraabsolutkarenamerekaharusfokuspadakebutuhan dan
terbatasnya ruang untuk melakukan kebiasaan belanja yang berbeda. Rumah tangga
berpendapatan tinggi dapat membeli berbagai macam barang mewah, atau tidak, yang
berdampak pada penyebaran kebiasaan belanja yang lebih luas.

5. Heteroskedastisitasmurniversustidakmurni
HeteroskedastisitasdapatAndakategorikanmenjadiduatipeumum.
- Heteroskedastisitas murni mengacu pada kasus di mana Anda menentukan model yang
benar namunAnda mengamati varians yang tidak konstan pada plot sisa.
- Heteroskedastisitas tidak murni mengacu pada kasus di mana Anda salah menentukan
model,danhalitumenyebabkanvarianstidakkonstan.SaatAnda mengeluarkanvariabel
penting dari model, efek yang dihilangkan akan diserap ke dalam istilah kesalahan. Jika
pengaruh variabel yang dihilangkan bervariasi di seluruh rentang data yang diamati, hal
ini dapat menghasilkan tanda-tanda heteroskedastisitas pada plot residu.
Saat Anda mengamati heteroskedastisitas pada plot sisa, penting untuk menentukan apakah
Andamemilikiheteroskedastisitasmurniatautidakmurnikarenasolusinyaberbeda.JikaAnda
memilikibentuktidakmurni,Andaperlumengidentifikasivariabel-variabelpentingyangtidak
disertakan dalam model dan menyesuaikan model dengan variabel-variabel tersebut. Untuk
sisa postingan blog ini, saya berbicara tentang bentuk murni heteroskedastisitas.
Penyebab heteroskedastisitas sangat bervariasi menurut bidang studi. Jika Anda mendeteksi
heteroskedastisitasdalammodelAnda,AndaperlumenggunakankeahlianAndauntuk
memahami mengapa hal itu terjadi. Seringkali, kuncinya adalah mengidentifikasi faktor
proporsional yang terkait dengan perubahan varians.

6. MasalahApayangDisebabkanHeteroskedastisitas?
Seperti yang saya sebutkan sebelumnya, regresi linier mengasumsikan bahwa penyebaran
residu di seluruh plot adalah konstan. Kapan pun Anda melanggar asumsi, ada kemungkinan
Anda tidak dapat mempercayai hasil statistiknya.
Mengapa memperbaiki masalah ini? Ada dua alasan utama mengapa Anda menginginkan
homoskedastisitas:
- Meskipun heteroskedastisitas tidak menyebabkan bias dalam estimasi koefisien , hal
ini membuat estimasi koefisien menjadi kurang tepat. Presisi yang lebih rendah
meningkatkan kemungkinan estimasi koefisien jauh dari nilai populasi yang benar.
- Heteroskedastisitas cenderung menghasilkan nilai p lebih kecil dari yang seharusnya.
Efek ini terjadi karena heteroskedastisitas meningkatkan varians estimasi koefisien
namun prosedur OLS tidak mendeteksi peningkatan tersebut. Akibatnya, OLS
menghitungnilaitdannilaiFmenggunakanjumlahvariansyangdiremehkan.Masalah
inidapatmengarahkanAndauntukmenyimpulkanbahwasuatuistilahmodelsignifikan
secara statistik padahal sebenarnya tidak signifikan.

7. CaraMemperbaikiHeteroskedastisitas
Jika ingin mengetahui alasan terjadinya heteroskedastisitas, Anda mungkin dapat
memperbaikinyadanmenyempurnakanmodelAnda.Sayaakanmenunjukkantigapendekatan
umum untuk mengubah heteroskedastisitas menjadi homoskedastisitas.
Untuk mengilustrasikan cara kerja solusi ini, kita akan menggunakan contoh studi cross-
sectional untuk memodelkan jumlah kecelakaan mobil menurut populasi kota. Data ini fiktif,
namun menggambarkan masalah dan cara mengatasinya dengan tepat. Anda dapat
mendownload file data CSV untuk mencobanya sendiri: Heteroskedastisitas . Kami akan
menggunakan Kecelakaan sebagai variabel terikat dan Populasi sebagai variabel bebas.
Bayangkan kita hanya menyesuaikan model dan membuat plot sisa. Biasanya, Anda melihat
heteroskedastisitas pada plot residu berdasarkan nilai yang disesuaikan. Jadi, ketika kita
melihat plot yang ditampilkan sebelumnya di postingan ini, kita tahu bahwa kita punya
masalah.
Penelitian cross-sectional memiliki risiko lebih besar terjadinya residu dengan variansi tidak
konstan karena disparitas antara nilai terbesar dan terkecil semakin besar. Untuk penelitian
kami, bayangkan banyaknya populasi dari kota kecil hingga kota besar!
Secaraumum,Andaharusmengidentifikasisumbervarianstidakkonstanuntukmenyelesaikan
masalah. Tempat yang baik untuk memulai adalah variabel yang memiliki rentang yang luas.
Kitasudahmendeteksiheteroskedastisitas,sekarangapayangbisakitalakukan?Adaberbagai
metodeuntukmengatasi masalahini.Sayaakanmembahastigametode yangsaya cantumkan
dalamurutanpreferensisaya.Preferensisayadidasarkanpadameminimalkanjumlah
manipulasidata.Andamungkinperlumencobabeberapapendekatanuntukmelihatmanayang paling
berhasil. Metode ini sesuai untuk heteroskedastisitas murni namun belum tentu validuntuk
bentuk tidak murni.

8. Mendefinisikanulangvariable
JikamodelAndaadalahmodelcross-sectional yangmencakupperbedaanbesarantaraukuran
observasi, Anda dapat menemukan cara berbeda untuk menentukan model yang mengurangi
dampak perbedaan ukuran. Untuk melakukan hal ini, ubah model dari menggunakan ukuran
mentahmenjadimenggunakantarifdannilaiperkapita.Tentusaja, modeljenisini menjawab
pertanyaan yang sedikitberbeda. Andaharusmenentukanapakahpendekataninicocokuntuk data
Anda dan apa yang perlu Anda pelajari.
Saya lebih suka metode ini jika diperlukan karena metode ini hanya melibatkan sedikit
perubahan pada data asli. Anda hanya menyesuaikan variabel spesifik yang perlu diubah
dengancarayangmasukakal.Memangbenar,praktikinimemaksaAndamemikirkanberbagai
carauntukmenentukanmodelAnda, yangseringkalimeningkatkanmodeltersebutlebihdari
sekadar menghilangkan heteroskedastisitas.
Untukmodelawalkami,kamimenggunakanpopulasiuntukmemprediksijumlahkecelakaan.
Jikadipikir-pikir,tidakmengherankanjikakota-kotabesarmemilikilebihbanyakkecelakaan. Itu
tidak terlalu mencerahkan.
Namun, kita dapat mengubah modelnya sehingga kita menggunakan populasi untuk
memprediksi tingkat kecelakaan. Pendekatan ini mengabaikan dampak skala dan menyentuh
perilakumendasar.Marikitacobadengancontohkumpulandatakita.Sayaakanmenggunakan
TingkatKecelakaansebagaivariabelterikatdanJumlahPenduduksebagaivariabelbebas.Plot sisa
ada di bawah.

Residu berdasarkan plot nilai pas terlihat lebih baik. Jika bukan karena beberapa nilai buruk
dalam kisaran yang sangat tinggi, itu akan bisa digunakan. Jika pendekatan ini menghasilkan
homoskedastisitas, saya akan tetap menggunakan solusi ini dan tidak menggunakan metode
berikut.

9. Regresitertimbang
Regresi tertimbang adalah metode yang memberikan bobot pada setiap titik data berdasarkan
varians dari nilai yang dipasang. Idenya adalah memberikan bobot kecil pada observasi yang
terkait dengan varians lebih tinggi untuk memperkecil residu kuadratnya. Regresi tertimbang
meminimalkan jumlah sisa kuadrat tertimbang. Jika Anda menggunakan bobot yang benar,
heteroskedastisitas digantikan oleh homoskedastisitas.
Saya lebih suka pendekatan ini daripada mendefinisikan ulang variabel. Salah satu alasannya
adalah regresi berbobot melibatkan lebih banyak manipulasi data karena menerapkan bobot
pada semua variabel. Ini juga kurang intuitif. Dan jika Anda langsung membahasnya, Anda
mungkin kehilangan kesempatan untuk menentukan model yang lebih bermakna dengan
mendefinisikan ulang variabel.
Berdasarkan data kami, kami mengetahui bahwa populasi yang lebih tinggi dikaitkan dengan
varianyanglebihtinggi.Olehkarenaitu,kitaperlumemberikanbobotyanglebihrendahpada
observasi populasi besar. Menemukan berat badan yang secara teori benar bisa jadi sulit.
Namun, ketika Anda dapat mengidentifikasi variabel yang terkait dengan perubahan varians,
pendekatanyangumumdilakukanadalahmenggunakaninversvariabeltersebutsebagaibobot.
Dalam kasus kami, kolom Bobot dalam kumpulan data sama dengan 1 / Populasi.
Saya akan kembali menggunakan Kecelakaan sebagai variabel terikat dan Populasi sebagai
variabel bebas. Namun, saya akan memberitahu perangkat lunak untuk melakukan regresi
tertimbang dan menerapkan kolom bobot. Plot sisa ada di bawah. Untuk regresi tertimbang,
penting untuk menilai residu terstandar karena hanya jenis residu tersebut yang akan
menunjukkan kepada kita bahwa regresi tertimbang memperbaiki heteroskedastisitas.
Variansdariresiduadalahkonstandiseluruhrentangnilaiyangdipasang,Homoskedastisitas.

10. Transformasikanvariabelterikat
Saya selalu menyimpan transformasi data sebagai pilihan terakhir karena ini melibatkan
manipulasipalingbanyak.Halinijugamembuatinterpretasihasilmenjadisangatsulitkarena unit
data Anda hilang. Idenya adalah Anda mengubah data asli menjadi nilai berbeda yang
menghasilkan sisa yang bagus. Jika tidak ada yang berhasil, cobalah transformasi untuk
menghasilkan homoskedastisitas.
SayaakanmereparasimodelaslinyatetapimenggunakantransformasiBox-Coxpadavariabel
dependen.
Sepertiyang Andalihat,transformasidatatidakmenghasilkanhomoskedastisitaspadadataset ini.
Itu bagus karena saya tidak ingin menggunakan pendekatan ini! Kami akan tetap
menggunakan model regresi tertimbang.
Perlu diingat bahwa ada banyak alasan berbeda untuk terjadinya heteroskedastisitas.
Mengidentifikasi penyebab dan menyelesaikan masalah untuk menghasilkan
homoskedastisitas memerlukan pengetahuan subjek yang luas. Dalam kebanyakan kasus,
tindakanperbaikanuntukheteroskedastisitasparahdiperlukan.Namun,jikatujuanutamaAnda
adalah memprediksi jumlah total variabel dependen dibandingkan memperkirakan dampak
spesifik variabel independen, Anda mungkin tidak perlu mengoreksi varians non-konstan.

Anda mungkin juga menyukai