Analisis Regresi

TUGAS
LITERATUR REVIEW
Dr. SUJONO, SE.M.Si
OLEH
REZKI QORILANI
B2B123038
PROGRAM STUDI MANAJEMEN (S2)
FAKULTAS EKONOMI DAN BISNIS
UNIVERSITAS HALUOLEO
KENDARI
2023.1
DAFTAR ISI
Cover.........................................................................................................................................
Daftar Isi....................................................................................................................................
Regresi Berganda di Era Big Data...........................................................................................1
Regresi Sederhana..................................................................................................................3
Kesalahan Standar Estimasi....................................................................................................5
Penilaian Keseluruhan Model..................................................................................................6
Dampak Ukuran Daya Prediktif................................................................................................6
Variabel Favorit dengan Multikollinearita
Rendah.....................................................................................................................................6
Proses Keputusan Analisis Regresi Berganda.........................................................................7
Perbandingan Model................................................................................................................8
Ukuran Sampel........................................................................................................................11
Kekuatan Statistik dan Ukuran Sampel Ukuran......................................................................11
Generalisasi dan Ukuran Sampel...........................................................................................12
Metode Diagnosis...................................................................................................................15
Diagnostik Grafis....................................................................................................................15
Linearitas Fenomena..............................................................................................................16
Varians Konstan dari Jangka Kesalahan.................................................................................17
Normalitas Distribusi Istilah Kesalahan...................................................................................18

Independen Terhadap Istilah Kesalahan................................................................................19
Pemilihan Variabel..................................................................................................................21
Spesifikasi Konfirmator dan Stimulan Pendekatan.................................................................22
Pendekatan Kombinatorial......................................................................................................24
Ukuran Korelasi yang Memasukkan Multikorinealitas.............................................................26
Mengidentifikasi Multikorinealitas............................................................................................30
Dekomposisi Multikorinealitas..................................................................................................31
Korelasi Biraviat......................................................................................................................32
Toleransi atau VIF..................................................................................................................33
Koefisien Struktur...................................................................................................................34
Analisis Dominasi....................................................................................................................34
Sampel Tambahan atau Terpisah...........................................................................................35
Permalan dengan Model.........................................................................................................36
Model Multilevel......................................................................................................................37
Model Panel............................................................................................................................39
Jenis Variabel..........................................................................................................................41
Jenis Model.............................................................................................................................42
Kesalahan Baku Koefisien......................................................................................................43
Ikhtisar Proses Bertahap.........................................................................................................44
Analisis Prot Regresi Linear....................................................................................................45
ii
Interprestasi Koefisien Regresi Tugas Pertama......................................................................46
Menilai Kepentingan Variabel..................................................................................................47
Mengukur Derajat dan Dampak Multikolinearitas....................................................................47
Ukuran Pentingnya Variabel....................................................................................................48
Korelasi Biraviat......................................................................................................................49
Koefisien Struktur....................................................................................................................50
Analisis Keumumaran..............................................................................................................51
Analisis Dominasi.....................................................................................................................51
Daftar Pustaka.........................................................................................................................v
iii
iv
1. Ringkasan Bahan Kajian
Analisis regresi berganda merupakan suatu teknik statistik yang dapat digunakan
untuk menganalisis hubungan antara satu variabel terikat (kriteria) dan beberapa variabel
bebas (prediktor). Tujuan analisis regresi berganda adalah menggunakan variabel
independen yang nilainya diketahui untuk memprediksi nilai dependen tunggal yang dipilih
peneliti. Setiap variabel independen diberi bobot dengan prosedur analisis regresi untuk
memastikan prediksi maksimal dari kumpulan variabel independen. Bobot menunjukkan
kontribusi relatif dari variabel independen terhadap keseluruhan prediksi dan memfasilitasi
interpretasi mengenai pengaruh masing-masing variabel dalam membuat prediksi,
meskipun korelasi antar variabel independen mempersulit proses interpretasi. Dengan
demikian, sama-sama dapat mencapai tujuan prediksi atau penjelasan. Himpunan variabel
independen tertimbang membentuk variat regresi, yaitu kombinasi linier dari variabel
independen yang paling baik dalam memprediksi variabel dependen.
Sebagaimana disebutkan dalam Bab 1, analisis regresi berganda adalah teknik
ketergantungan. Oleh karena itu, untuk menggunakannya, seseorang harus bisa membagi
variabel menjadi variabel terikat dan variabel bebas. Analisis regresi juga merupakan alat
statistik yang sebaiknya digunakan hanya jika variabel terikat dan bebasnya berbentuk
metrik. Namun, dalam keadaan tertentu dimungkinkan untuk memasukkan data nonmetrik
baik sebagai variabel independen (dengan mentransformasikan data ordinal atau nominal
dengan pengkodean variabel dummy) atau variabel dependen (dengan menggunakan
ukuran biner dalam teknik khusus regresi logistik).
 Regresi Berganda di Era Big Data
Regresi berganda tidak diragukan lagi telah menjadi teknik analisis yang dominan
bagi para peneliti di era penjelasan ilmiah dan ketergantungan pada metode kuantitatif.
Namun ada satu pertanyaan yang dihadapi semua peneliti. Namun regresi berganda adalah
contoh utama dari jenis model yang berlawanan, yaitu model statistik/data, yang
1
berorientasi pada konfirmasi model yang diusulkan dengan penekanan pada penjelasan.
Dan penekanan pada penjelasan ini membuat regresi berganda sangat cocok untuk
beberapa bidang analisis utama. Yang pertama adalah peramalan, dimana pemahaman
tentang “penyebab” dasar suatu proses diperlukan sebelum membuat proyeksi ke masa
depan.
Regresi berganda dan varian pemodelan deret waktu dan pemodelan persamaan
struktural memberikan kerangka kerja untuk pemahaman mendalam tentang proses yang
sedang diselidiki. Hal ini penting untuk melakukan peramalan dimana model diharapkan
dapat melakukan ekstrapolasi ke kondisi masa depan yang mungkin belum pernah terjadi di
masa lalu. Bidang analitik kedua yang sangat cocok untuk regresi berganda adalah bidang
akademik dan manajerial. Dalam penelitian akademis, penciptaan pengetahuan adalah
tujuan mendasar dan dengan demikian model statistik/data akan selalu diutamakan. Dan
dalam bidang manajerial, organisasi perlu memahami bagaimana “mengelola” prosesnya.
Sangat sulit untuk memberi insentif kepada manajer dalam meningkatkan kepuasan
pelanggan atau meningkatkan kinerja perusahaan jika tidak ada model obyektif yang
memberikan wawasan tentang bagaimana hal ini dilakukan. Hal ini juga merupakan peran
regresi berganda, untuk memberikan cara obyektif dalam mengukur dampak faktor-faktor
potensial terhadap hasil terte Era Big Data menghadirkan regresi berganda dengan banyak
tantangan, mulai dari banyaknya jenis variabel, banyaknya variabel (bahkan ketika jumlah
variabel melebihi ukuran sampel) hingga jumlah observasi yang dipertimbangkan [120].
Namun bahkan dengan tantangan-tantangan ini, regresi berganda masih memberikan dasar
model statistik/data yang cocok untuk berbagai masalah penelitian yang berfokus pada
prediksi dan penjelasan. Hal ini bukan berarti mengabaikan peran kumpulan teknik
penambangan data/algoritmik yang sedang berkembang, namun regresi berganda masih
memiliki peran utama dalam analisis saat ini dan di masa depan.
2
Contoh Regresi Sederhana dan Berganda
 Prediksi Menggunakan Variabel Independen Tunggal: REGRESI SEDERHANA
Titik awal dalam setiap analisis regresi adalah mengidentifikasi satu
variabel independen yang menghasilkan prediksi terbaik dari ukuran dependen.
Berdasarkan konsep meminimalkan jumlah kesalahan kuadrat dalam prediksi,
kita dapat memilih variabel independen “terbaik” berdasarkan koefisien
korelasinya, karena semakin tinggi koefisien korelasinya, semakin kuat
hubungannya dan semakin besar akurasi prediksinya. Dalam persamaan
regresi, kami merepresentasikan titik potong sebagai b0 . Besarnya perubahan
variabel terikat akibat variabel bebas dilambangkan dengan istilah b1 , disebut
juga koefisien regresi. Dengan menggunakan prosedur matematika yang dikenal
sebagai kuadrat terkecil, kita dapat memperkirakan nilai b0 dan b1 sedemikian
rupa sehingga jumlah kesalahan kuadrat prediksi 1SSE 2 diminimalkan.
Kesalahan prediksi, selisih antara nilai aktual dan nilai prediksi variabel terikat
disebut residu (e atau P).
Menafsirkan Model Regresi Sederhana Dengan estimasi koefisien intersep
dan regresi menggunakan prosedur kuadrat terkecil, perhatian kini beralih ke
interpretasi kedua nilai berikut:
Koefisien Regresi Estimasi perubahan variabel terikat sebesar satuan perubahan
variabel bebas.
Jika koefisien regresi ternyata signifikan secara statistik (yaitu koefisien
berbeda secara signifikan dari nol), nilai koefisien regresi menunjukkan sejauh mana
variabel bebas berhubungan dengan variabel terikat.
3
intercept Interpretasi dari intersep agak berbeda. Intersep hanya memiliki nilai
penjelas dalam rentang nilai variabel independen. Selain itu interpretasinya
didasarkan pada karakteristik variabel independen:
 Secara sederhana, intersep memiliki nilai interpretasi hanya jika nol adalah
nilai yang valid secara konseptual untuk independen variabel penyok (yaitu,
variabel independen dapat mempunyai nilai nol dan tetap mempertahankan
relevansi praktisnya). Misalnya, asumsikan bahwa variabel independen
adalah dana periklanan. Jika realistis bahwa, dalam beberapa situasi, tidak
ada iklan yang dilakukan, maka intersep akan mewakili nilai variabel terikat
ketika iklan bernilai nol.
 Jika nilai independen mewakili ukuran yang tidak pernah mempunyai nilai
sebenarnya nol (misalnya, sikap atau persepsi tions), bantuan intersepsi
dalam meningkatkan proses prediksi, tetapi tidak memiliki nilai penjelasan.
Untuk beberapa situasi khusus dimana hubungan spesifik diketahui
melewati titik asal, suku intersep dapat dihilangkan (disebut regresi melalui titik asal).
Dalam kasus ini, interpretasi residu dan koefisien regresi sedikit berubah.
KESALAHAN STANDAR ESTIMASI
Ukuran akurasi prediksi lainnya adalah variasi yang diharapkan dalam nilai prediksi,
yang disebut kesalahan standar estimasi (SEE ). Didefinisikan secara sederhana sebagai
deviasi standar dari nilai prediksi, hal ini memungkinkan peneliti untuk memahami interval
kepercayaan yang dapat diharapkan untuk setiap prediksi dari model regresi. Jelas, interval
kepercayaan yang lebih kecil menunjukkan akurasi prediksi yang lebih besar. Hal ini
menjadi sangat penting sebagai “pemeriksaan” kesesuaian model. Penelitian terbaru
mensurvei peneliti dengan hasil dari berbagai tingkat kesesuaian model dan seringkali
hasilnya dianggap lebih dapat diprediksi daripada yang dapat dibenarkan oleh model [110].
4
Pemeriksaan SEE memberikan ukuran tambahan yang meningkatkan penilaian model. Oleh
karena itu, ukuran relevansi praktis ini penting dalam evaluasi model secara keseluruhan.
PENILAIAN KESELURUHAN MODEL
Kedua ukuran keakuratan prediksi ini sekarang dapat digunakan untuk menilai tidak
hanya model regresi sederhana ini, namun juga perbaikan yang dilakukan ketika lebih
banyak variabel independen ditambahkan dalam model regresi berganda.
PREDIKSI MENGGUNAKAN BEBERAPA VARIABEL INDEPENDEN: REGRESI
BERGANDA
Dampak Multikolinearita; Kemampuan suatu variabel independen tambahan untuk
meningkatkan prediksi variabel dependen tidak hanya terkait dengan korelasinya terhadap
variabel dependen, tetapi juga dengan korelasi variabel independen tambahan terhadap
variabel independen. ) sudah ada dalam persamaan regresi. Kolinearitas adalah hubungan,
diukur sebagai korelasi, antara dua variabel independen. Multikolinearitas mengacu pada
korelasi antara tiga atau lebih variabel independen (terbukti ketika salah satu variabel
diregresi terhadap variabel lainnya).
Meskipun ada perbedaan yang jelas antara kedua konsep ini dalam istilah statistik,
penggunaan istilah-istilah tersebut secara bergantian merupakan praktik yang umum.
Seperti yang diharapkan, korelasi antar variabel independen dapat mempunyai dampak
yang besar terhadap regresi model dalam beberapa aspek berbeda:
DAMPAK UKURAN DAYA PREDIKTIF
Dampak multikolinearitas adalah mengurangi daya prediksi unik suatu variabel
independen sebesar sejauh mana variabel tersebut dikaitkan dengan variabel independen
lainnya. Ketika kolinearitas meningkat, varian unik yang dijelaskan oleh masing-masing
variabel independen menurun dan persentase usia prediksi bersama meningkat. Karena
prediksi bersama ini hanya dapat dihitung satu kali, maka hal ini mempunyai dua efek yang
5
nyata: (a) efek prediksi yang disebabkan oleh salah satu variabel independen hanya
didasarkan pada kekuatan prediksi uniknya, sehingga multikolinearitas berdampak pada
penurunan koefisien regresi variabel yang terkena dampak, dan (b) keakuratan prediksi
masih ditingkatkan melalui peningkatan varians bersama, namun variabel-variabel yang
sangat berlebihan hanya akan menambah varians bersama secara bertahap melebihi apa
yang akan ditambahkan oleh satu variabel secara individual. Dengan demikian, prediksi
keseluruhan meningkat jauh lebih lambat seiring dengan ditambahkannya variabel
independen dengan multikolinearitas tinggi.
VARIABEL FAVORIT DENGAN MULTIKOLLINEARITAS RENDAH
Untuk memaksimalkan prediksi dari sejumlah variabel independen tertentu, peneliti
harus mencari variabel independen yang memiliki multikolinearitas rendah dengan variabel
independen lainnya tetapi juga memiliki korelasi yang tinggi dengan variabel dependen.
Persamaan Regresi Berganda
Seperti disebutkan sebelumnya, regresi berganda adalah penggunaan dua atau lebih
variabel independen dalam memprediksi variabel dependen. Tugas peneliti adalah
memperluas model regresi sederhana dengan menambahkan variabel independen yang
memiliki daya prediksi tambahan terbesar. Meskipun kita dapat menentukan hubungan
variabel independen dengan variabel dependen melalui koefisien korelasi, besarnya daya
prediksi tambahan untuk variabel tambahan berkali- kali lipat ditentukan oleh
multikolinearitasnya dengan variabel lain yang sudah ada dalam persamaan regresi. Kita
dapat melihat contoh kartu kredit untuk mendemonstrasikan konsep ini.
Menambahkan Variabel Independen Ketiga
Kita telah melihat peningkatan akurasi prediksi yang diperoleh dari peralihan dari
persamaan regresi sederhana ke persamaan regresi berganda, namun kita juga harus
mencatat bahwa pada titik tertentu penambahan variabel independen akan menjadi kurang
6
menguntungkan dan bahkan dalam beberapa kasus kontraproduktif. Penambahan lebih
banyak variabel independen didasarkan pada trade-off antara peningkatan daya prediksi
versus model regresi yang terlalu kompleks dan bahkan berpotensi menyesatkan. Survei
penggunaan kartu kredit memberikan satu lagi kemungkinan tambahan pada persamaan
regresi berganda, yaitu jumlah mobil yang dimiliki 1V3 2. Jika sekarang kita menentukan
persamaan regresi untuk memasukkan ketiga variabel independen Dengan demikian, kita
dapat melihat beberapa perbaikan dalam persamaan regresi, namun tidak sebesar yang
terlihat sebelum2nya. R nilainya meningkat menjadi 0,87, hanya meningkat 0,01
dibandingkan model regresi berganda sebelumnya.
 Proses Keputusan untuk Analisis Regresi Berganda
Tahap 1: tujuan Regresi Berganda
Analisis regresi berganda, suatu bentuk model linier umum, adalah teknik statistik
multivariat yang digunakan untuk menguji hubungan antara satu variabel terikat dan
sekumpulan variabel bebas. Titik awal yang diperlukan dalam regresi berganda, seperti
halnya semua teknik statistik multivariat, adalah masalah penelitian. Fleksibilitas dan
kemampuan beradaptasi dari regresi berganda memungkinkan penggunaannya dengan
hampir semua hubungan ketergantungan.
Dalam memilih penerapan regresi berganda yang sesuai, peneliti harus mempertimbangkan
tiga isu utama:
 Kesesuaian masalah penelitian
 Spesifikasi hubungan statistik
 Pemilihan variabel terikat dan bebas
MASALAH PENELITIAN YANG COCOK UNTUK REGRESI BERGANDA
Regresi berganda sejauh ini merupakan teknik multivariat yang paling banyak
digunakan dari teknik yang dibahas dalam teks ini. Dengan penerapannya yang luas,
7
regresi berganda telah digunakan untuk berbagai tujuan. Penerapan regresi berganda yang
semakin meluas terbagi dalam dua kelompok besar masalah penelitian: prediksi dan
penjelasan. Prediksi menyangkut sejauh mana variate regresi (satu atau lebih variabel
independen) dapat memprediksi variabel dependen. Penjelasan mengkaji koefisien regresi
(besarnya, tanda, dan signifikansi statistiknya) untuk setiap variabel independen dan
berupaya mengembangkan alasan substantif atau teoretis atas pengaruh variabel
independen. Masalah-masalah penelitian ini tidak berdiri sendiri-sendiri, dan penerapan
analisis regresi berganda dapat mengatasi salah satu atau kedua jenis masalah penelitian
tersebut.
Prediksi dengan Regresi Berganda
Salah satu tujuan mendasar dari regresi berganda adalah untuk memprediksi variabel
terikat dengan sekumpulan variabel bebas. Dengan demikian, regresi berganda memenuhi
salah satu dari dua tujuan:
MAKSIMALKAN KEAKURATAN PREDIKTI
Tujuan pertama adalah memaksimalkan daya prediksi keseluruhan variabel
independen sebagaimana direpresentasikan dalam variat. Seperti yang ditunjukkan dalam
contoh sebelumnya dalam memprediksi penggunaan kartu kredit, variat dibentuk dengan
memperkirakan koefisien regresi untuk setiap variabel independen sehingga menjadi
prediktor optimal dari ukuran dependen. Keakuratan prediksi selalu penting untuk
memastikan validit Ukuran akurasi prediksi dikembangkan dan uji statistik digunakan untuk
menilai signifikansi kekuatan prediksi.
Dalam aplikasi tertentu yang hanya berfokus pada prediksi, peneliti terutama tertarik untuk
mencapai prediksi maksimal, dan menafsirkan koefisien regresi relatif tidak penting.
Sebaliknya, peneliti menggunakan banyak pilihan baik dalam bentuk maupun spesifikasi
variabel independen yang dapat memodifikasi variat untuk meningkatkan kekuatan
prediksinya, seringkali memaksimalkan prediksi dengan mengorbankan interpretasi.
8
PERBANDINGAN MODEL
Regresi berganda juga dapat mencapai tujuan kedua yaitu membandingkan dua atau
lebih kumpulan variabel independen untuk memastikan kekuatan prediksi setiap varian.
Sebagai ilustrasi pendekatan konfirmatori terhadap pemodelan, penggunaan regresi
berganda ini berkaitan dengan perbandingan hasil dari dua atau lebih model alternatif atau
model yang bersaing. Fokus utama dari jenis analisis ini adalah kekuatan prediksi relatif
antar model, meskipun dalam situasi apa pun prediksi model yang dipilih harus
menunjukkan signifikansi statistik dan praktis.
PENTINGNYA RELATIF VARIABEL INDEPENDEN
Interpretasi paling langsung dari variat regresi adalah penentuan kepentingan relatif
setiap variabel independen dalam prediksi ukuran dependen. Dalam semua penerapan,
pemilihan variabel independen harus didasarkan pada hubungan teoretisnya dengan
variabel dependen. Analisis regresi kemudian memberikan cara untuk menilai secara
objektif besaran dan arah (positif atau negatif) hubungan masing-masing variabel
independen. Karakter regresi berganda yang membedakannya dengan regresi univariat
adalah penilaian hubungan secara simultan antara masing-masing variabel independen dan
ukuran dependen. Dalam melakukan penilaian simultan ini, kepentingan relatif dari masing-
masing variabel independen ditentukan.
Sifat Hubungan Dengan Variabel Dependen Selain menilai pentingnya setiap
variabel, regresi berganda juga memberi peneliti sarana untuk menilai sifat hubungan antara
variabel independen dan variabel dependen. Hubungan yang diasumsikan merupakan
hubungan linier berdasarkan korelasi antara variabel independen dan ukuran dependen.
9
MENENTUKAN HUBUNGAN STATISTIK
Regresi berganda cocok jika peneliti tertarik pada hubungan statistik, bukan
hubungan fungsional. Misalnya, mari kita periksa hubungan berikut:
Total biaya 5 Biaya variabel 1 Biaya tetap
Jika biaya variabel adalah $2 per unit, biaya tetap adalah $500, dan kita
memproduksi 100 unit, kita asumsikan bahwa biaya total akan tepat $700 dan setiap
penyimpangan dari $700 disebabkan oleh ketidakmampuan kita mengukur biaya karena
hubungan antar biaya. telah diperbaiki. Disebut hubungan fungsional karena kita
mengharapkan tidak ada kesalahan dalam prediksi kita. Oleh karena itu, kita selalu
mengetahui dampak dari setiap variabel dalam menghitung ukuran hasil.
Namun dalam contoh sebelumnya yang berhubungan dengan data sampel yang
mewakili perilaku manusia, kami berasumsi bahwa deskripsi kami tentang penggunaan
kartu kredit hanyalah perkiraan dan bukan prediksi sempurna. Ini didefinisikan sebagai
hubungan statistik karena beberapa komponen acak selalu ada dalam hubungan yang
diperiksa. Hubungan statistik dicirikan oleh dua elemen:
1. Ketika beberapa observasi dikumpulkan, lebih dari satu nilai dari nilai dependen
biasanya akan diamati untuk setiap nilai variabel independen.
2. Berdasarkan penggunaan sampel acak, kesalahan dalam memprediksi variabel
terikat juga diasumsikan acak, dan untuk variabel independen tertentu kita hanya
dapat berharap untuk memperkirakan nilai rata-rata dari variabel dependen yang
terkait dengannya.
Misalnya, dalam contoh regresi sederhana, kami menemukan dua keluarga dengan
dua anggota, dua keluarga dengan empat anggota, dan seterusnya, yang memiliki nomor
kartu kredit berbeda. Dua keluarga dengan empat anggota rata-rata memiliki 6,5 kartu
kredit, dan prediksi kami adalah 6,75. Prediksi kami memang tidak seakurat yang kami
10
inginkan, namun lebih baik dibandingkan hanya menggunakan rata-rata 7 kartu kredit.
Kesalahan tersebut diasumsikan sebagai akibat dari perilaku acak di antara pemegang
kartu kredit. Singkatnya, hubungan fungsional menghitung nilai eksak, sedangkan
hubungan statistik memperkirakan nilai rata-rata.
PEMILIHAN VARIABEL INDEPENDEN DAN INDEPENDEN
Keberhasilan akhir dari setiap teknik multivariat, termasuk regresi berganda, dimulai
dengan pemilihan variabel yang akan digunakan dalam analisis. Karena regresi berganda
merupakan teknik ketergantungan, maka peneliti harus menentukan variabel mana yang
merupakan variabel terikat dan variabel mana yang merupakan variabel bebas. Meskipun
sering kali pilihan-pilihan tersebut tampak jelas, peneliti harus selalu mempertimbangkan
tiga masalah yang dapat mempengaruhi keputusan apa pun: teori yang kuat, kesalahan
pengukuran, dan kesalahan spesifikasi.
Tahap 2: Desain Penelitian Analisis Regresi Berganda
Kemampuan beradaptasi dan fleksibilitas adalah dua alasan utama meluasnya
penggunaan regresi berganda di berbagai macam aplikasi. Seperti yang akan dilihat di
bagian berikut, regresi berganda dapat mewakili berbagai hubungan ketergantungan. Dalam
melakukannya, peneliti menggabungkan tiga fitur:
 Ukuran sampel. Regresi berganda mempertahankan tingkat kekuatan statistik yang
diperlukan dan signifikansi praktis/statistik di berbagai ukuran sampel.
 Elemen unik dari hubungan ketergantungan. Meskipun variabel independen
diasumsikan bersifat metrik dan memiliki hubungan linier dengan variabel dependen,
kedua asumsi tersebut dapat dilonggarkan dengan membuat variabel tambahan
untuk mewakili aspek khusus dari hubungan tersebut.
 Sifat hubungan variabel independen. Penggunaan moderasi dan mediasi
memberikan peneliti dengan efek tambahan di luar hubungan langsung antara
variabel independen dan dependen.
11
Masing-masing fitur ini memainkan peran kunci dalam penerapan regresi berganda
pada berbagai jenis pertanyaan penelitian sambil mempertahankan tingkat signifikansi
statistik dan praktis yang diperlukan.
Ukuran sampel
Ukuran sampel yang digunakan dalam regresi berganda mungkin merupakan satu-
satunya elemen paling berpengaruh yang berada di bawah kendali peneliti dalam
merancang analisis. Pengaruh ukuran sampel terlihat paling langsung pada kekuatan
statistik pengujian signifikansi dan kemampuan generalisasi hasil. Kedua masalah tersebut
dibahas di bagian berikut.
Kekuatan Statistik dan Ukuran Sampel Ukuran
Sampel memiliki dampak langsung pada kesesuaian dan kekuatan statistik regresi
berganda. Sampel kecil, biasanya dicirikan memiliki kurang dari 30 observasi, hanya cocok
untuk dianalisis dengan menggunakan metode regresi berganda. regresi sederhana dengan
satu variabel independen. Bahkan dalam situasi seperti ini, hanya hubungan kuat yang
dapat dideteksi dengan tingkat kepastian apa pun. Demikian pula, sampel besar yang terdiri
dari
1.000 observasi atau lebih membuat uji signifikansi statistik menjadi terlalu sensitif, sering
kali menunjukkan bahwa hampir semua hubungan signifikan secara statistik. Dengan
sampel yang begitu besar, peneliti harus memastikan bahwa kriteria signifikansi praktis dan
signifikansi statistik terpenuhi.
Generalisasi dan Ukuran Sampel
Selain berperan dalam menentukan kekuatan statistik, ukuran sampel juga
mempengaruhi generalisasi hasil melalui rasio observasi terhadap variabel independen.
Aturan umumnya adalah rasio tidak boleh turun di bawah 5:1, artinya lima observasi
dilakukan untuk setiap variabel independen dalam variate. Meskipun rasio minimumnya
12
adalah 5:1, tingkat yang diinginkan adalah antara 15 hingga 20 observasi untuk setiap
variabel independen. Ketika tingkat ini tercapai, hasilnya harus dapat digeneralisasikan jika
sampelnya representatif. Namun, jika prosedur bertahap digunakan, tingkat yang
direkomendasikan meningkat menjadi 50:1 karena teknik ini hanya memilih hubungan
terkuat dalam kumpulan data dan memiliki kecenderungan lebih besar untuk menjadi
sampel spesifik [125]. Jika sampel yang tersedia tidak memenuhi kriteria ini, peneliti harus
yakin untuk memvalidasi generalisasi hasil.
Menentukan Derajat Kebebasan
Karena rasio ini turun di bawah 5:1, peneliti menghadapi risiko penyesuaian variasi
yang berlebihan terhadap sampel, sehingga hasilnya terlalu spesifik untuk sampel sehingga
kurang dapat digeneralisasikan. Dalam memahami konsep overfitting, kita perlu membahas
konsep statistik derajat kebebasan. Dalam prosedur estimasi statistik apa pun, peneliti
membuat estimasi parameter dari data sampel. Dalam kasus regresi, parameternya adalah
koefisien regresi untuk setiap variabel independen dan suku konstanta. Seperti yang telah
dijelaskan sebelumnya, koefisien regresi merupakan bobot yang digunakan dalam
menghitung variat regresi dan menunjukkan kontribusi masing-masing variabel independen
terhadap nilai prediksi. Lalu, apa hubungan antara jumlah observasi dan variabelnya? Mari
kita lihat tampilan sederhana dalam memperkirakan parameter untuk mendapatkan
gambaran mengenai masalah ini.
MENCIPTAKAN VARIABEL TAMBAHAN
Hubungan dasar yang direpresentasikan dalam regresi berganda adalah hubungan
linier antara variabel terikat metrik dan variabel bebas berdasarkan korelasi product-
moment. Salah satu masalah yang sering dihadapi peneliti adalah keinginan untuk
memasukkan data nonmetrik, seperti gender atau pekerjaan, ke dalam persamaan regresi.
Namun, seperti yang telah kita bahas, regresi terbatas pada data metrik. Selain itu,
ketidakmampuan regresi untuk secara langsung memodelkan hubungan nonlinier dapat
13
menghambat peneliti ketika dihadapkan pada situasi di mana hubungan nonlinier (misalnya,
berbentuk h) disarankan oleh teori atau terdeteksi ketika memeriksa data.
Transformasi Data Dalam situasi ini, variabel baru harus dibuat melalui transformasi, karena
regresi berganda sepenuhnya bergantung pada pembuatan variabel baru dalam model
untuk memasukkan variabel nonmetrik atau mewakili efek apa pun selain hubungan linier.
1. Meningkatkan atau mengubah hubungan antara variabel independen dan dependen
2. Aktifkan penggunaan variabel nonmetrik dalam variasi regresi.
Memasukkan Data Nonmetrik dengan Variabel Dummy
Salah satu situasi umum yang dihadapi peneliti adalah keinginan untuk
memanfaatkan variabel independen nonmetrik. Namun, sampai saat ini, semua ilustrasi
kami mengasumsikan pengukuran metrik untuk variabel independen dan dependen. Ketika
variabel dependen diukur sebagai variabel dikotomi (0, 1), maka analisis diskriminan atau
bentuk regresi khusus (regresi logistik), pengganti variabel independen. Setiap variabel
dummy mewakili satu kategori dari variabel independen nonmetrik, dan setiap variabel
nonmetrik dengan k kategori dapat direpresentasikan sebagai k 2 1 variabel dummy.
Pengkodean indikator: format yang paling umum Dari dua bentuk pengkodean
variabel dummy, yang paling umum adalah pengkodean indikator di mana setiap kategori
variabel nonmetrik diwakili oleh 1 atau 0. Koefisien regresi untuk variabel dummy mewakili
perbedaan pada variabel dummy. variabel terikat untuk setiap kelompok responden dari
kategori referensi (yaitu, kelompok yang dihilangkan yang menerima semua angka nol).
Perbedaan kelompok ini dapat dinilai secara langsung, karena koefisiennya berada pada
satuan yang sama dengan variabel terikat.
Bentuk pengkodean variabel dummy ini dapat digambarkan sebagai intersep yang
berbeda-beda untuk berbagai kelompok, dengan kategori acuan direpresentasikan dalam
suku konstan model regresi. Dalam contoh ini, variabel nonmetrik tiga kategori diwakili oleh
14
dua variabel dummy (D1 dan D2 ) yang mewakili kelompok 1 dan 2, dengan kelompok 3
sebagai kategori referensi. Koefisien regresinya adalah 2,0 untuk D1 dan 23,0 untuk D2 .
Koefisien ini diterjemahkan ke dalam tiga garis sejajar. Kelompok referensi (dalam hal ini
kelompok 3) ditentukan oleh persamaan regresi dengan kedua variabel dummy sama
dengan nol. Garis kelompok 1 berada dua satuan di atas garis kelompok acuan. Garis Grup
2 berada tiga satuan di bawah garis referensi grup 3. Garis sejajar menunjukkan bahwa
variabel dummy tidak mengubah sifat hubungan, namun hanya menyediakan intersep yang
berbeda antar grup.
30
20
10
0
5 6 7 8 9 10 11 12 13 14
X
Persamaan Regresi dengan Variabel Dummy (D1 dan D2 )
Ditentukan Y = a + b1X + b2D1 + b3D2
Diperkirakan
Y = 2 + 1,2X + 2D1 – 3D2
Keseluruhan
Spesifik Grup
Y = 2 + 1,2X + 2(1)
Kelompok 2 (D1 = 0, D2 = 1) Y = 2 + 1,2X – 3(1)

Kelompok 1 (D1 = 1, D2 = 0)
Golongan 3 (D1 = 0, D2 = 0) Y = 2 + 1,2X
Bentuk pengkodean ini paling tepat bila terdapat kelompok referensi logis,
misalnya dalam eksperimen. Setiap kali pengkodean variabel dummy digunakan, kita harus
mengetahui kelompok pembanding dan mengingat bahwa koefisien mewakili perbedaan
rata-rata kelompok dari kelompok ini. Pengkodean efek Sebuah metode alternatif
15
pengkodean variabel dummy disebut pengkodean efek. Hal ini sama dengan pengkodean
indikator, hanya saja kelompok pembanding atau yang dihilangkan (kelompok yang semua
angkanya nol) diberi nilai 21, bukan 0 untuk variabel dummy. Sekarang koefisien-koefisien
tersebut mewakili perbedaan- perbedaan untuk setiap kelompok dari rata-rata semua
kelompok dan bukan dari kelompok yang dihilangkan. Kedua bentuk pengkodean variabel
dummy tersebut akan memberikan hasil prediksi, koefisien determinasi, dan koefisien
regresi yang sama untuk variabel kontinu. Perbedaannya hanya terletak pada penafsiran
koefisien variabel dummy.
Tahap 3: Asumsi dalam Analisis Regresi Berganda
MENILAI VARIABEL INDIVIDU VERSUS VARIABEL
Sebelum membahas asumsi individual, pertama-tama kita harus memahami bahwa
asumsi yang mendasari analisis regresi berganda berlaku baik terhadap variabel individual
(dependen dan independen) dan hubungan secara keseluruhan. Bab 2 membahas metode
yang tersedia untuk menilai asumsi untuk masing-masing variabel. Dalam regresi berganda,
setelah suatu variat diturunkan, ia bertindak secara kolektif dalam memprediksi variabel
terikat, sehingga memerlukan penilaian asumsi tidak hanya untuk variabel individual tetapi
juga untuk variat itu sendiri. Bagian ini berfokus pada pengujian variate dan hubungannya
dengan variabel dependen untuk memenuhi asumsi regresi berganda. Analisis ini
sebenarnya harus dilakukan setelah model regresi diestimasi pada Tahap 4. Oleh karena
itu, pengujian asumsi harus dilakukan tidak hanya pada tahap awal regresi, tetapi juga
setelah model diestimasi.
METODE DIAGNOSIS
Ukuran utama kesalahan prediksi untuk suatu variate adalah residu—selisih antara
nilai observasi dan nilai prediksi untuk variabel dependen. Saat memeriksa residu, beberapa
bentuk standardisasi direkomendasikan untuk membuat residu dapat dibandingkan secara
langsung. (Dalam bentuk aslinya, nilai prediksi yang lebih besar secara alami memiliki
16
residu yang lebih besar.) Pendekatan standardisasi yang paling banyak digunakan adalah
residu yang dipelajari, yang berbeda dari metode lain dalam cara menghitung deviasi
standar. Untuk meminimalkan pengaruh observasi terhadap proses standarisasi, standar
deviasi dari sisa observasi dihitung dari estimasi regresi tanpa menyertakan observasi ke-i
dalam penghitungan estimasi regresi. Nilai residu yang dipelajari sesuai dengan nilai t,
sehingga cukup mudah untuk menilai signifikansi statistik dari residu yang sangat besar.
Diagnostik Grafis
Memplot residu versus variabel independen atau prediksi adalah metode dasar untuk
mengidentifikasi pelanggaran asumsi untuk hubungan secara keseluruhan. Namun,
penggunaan plot sisa bergantung pada beberapa pertimbangan utama. Plot Residual Dasar
Plot residu yang paling umum melibatkan residu 1ri 2 versus nilai dependen yang diprediksi
1Yi 2. Untuk model regresi sederhana, residu dapat diplot terhadap variabel dependen atau
independen, karena keduanya berhubungan langsung. Namun, dalam regresi berganda,
hanya nilai dependen yang diprediksi yang mewakili pengaruh total variasi regresi. Jadi,
kecuali jika analisis residu bermaksud untuk berkonsentrasi hanya pada satu variabel, maka
variabel dependen yang diprediksi akan digunakan.
MENILAI PELANGGARAN
Pelanggaran terhadap setiap asumsi dapat diidentifikasi melalui pola residu tertentu.
Gambar berisi sejumlah plot sisa yang menjawab asumsi dasar yang dibahas pada bagian
berikut. Salah satu plot yang menarik perhatian adalah plot nol, yaitu plot residu ketika
semua asumsi terpenuhi. Plot nol menunjukkan residu yang jatuh secara acak, dengan
penyebaran yang relatif sama di sekitar nol dan tidak ada kecenderungan kuat untuk lebih
besar atau lebih kecil dari nol. Demikian pula, tidak ditemukan pola untuk nilai besar versus
kecil dari variabel bebas. Plot sisa yang tersisa akan digunakan untuk mengilustrasikan
metode pemeriksaan pelanggaran asumsi yang mendasari analisis regresi. Pada bagian
17
berikut, kami menguji serangkaian uji statistik yang dapat melengkapi pemeriksaan visual
pada plot sisa.
Linearitas FENOMENA
Linieritas hubungan antara variabel terikat dan bebas menunjukkan sejauh mana
perubahan variabel terikat dikaitkan dengan variabel bebas. Koefisien regresi diasumsikan
konstan pada rentang nilai variabel independen. Konsep korelasi, ukuran hubungan yang
mendasari analisis regresi, didasarkan pada hubungan linier, sehingga menjadikannya isu
penting dalam merepresentasikan hubungan “sebenarnya” antar variabel dalam analisis.
Selain itu, pelanggaran asumsi linearitas tidak dapat diatasi dengan meningkatkan ukuran
sampel, seperti halnya asumsi lainnya (misalnya normalitas).
Linearitas hubungan bivariat dapat dengan mudah diperiksa melalui plot sisa. Setiap
pola lengkung yang konsisten dalam residu menunjukkan bahwa tindakan perbaikan akan
meningkatkan akurasi prediksi model dan validitas estimasi koefisien. Tindakan korektif
dapat mengambil salah satu dari tiga bentuk berikut:
 Transformasi nilai data (misalnya logaritma, akar kuadrat, dll.) dari satu atau lebih
variabel independen untuk mencapai linearitas [83].
 Memasukkan secara langsung hubungan nonlinier ke dalam model
regresi, misalnya melalui pembuatan suku polinomial seperti yang
dibahas pada Tahap 2.
 Menggunakan metode khusus seperti regresi nonlinier yang dirancang khusus
untuk mengakomodasi kurvalinier efek variabel independen atau hubungan
nonlinier yang lebih kompleks.
VARIAN KONSTAN DARI JANGKA KESALAHAN
Adanya variansi yang tidak sama (heteroskedastisitas) merupakan salah satu
pelanggaran asumsi yang paling sering terjadi. Dalam kasus ini, suku kesalahan (residual)
18
tidak konstan di seluruh rentang variabel independen. Kurangnya variansi yang konstan
dalam residu tidak membuat koefisien estimasi menjadi bias, namun hal ini menyebabkan
estimasi kesalahan standar estimasi yang tidak akurat (paling sering diremehkan). Hal ini
dapat menyebabkan tingkat kesalahan Tipe I yang meningkat atau penurunan kekuatan
statistik [98].
Diagnosis dibuat dengan plot sisa atau uji statistik sederhana. Merencanakan
residu (yang dipelajari) terhadap nilai dependen yang diprediksi dan membandingkannya
dengan plot nol menunjukkan pola yang konsisten jika variansnya tidak konstan. Mungkin
pola yang paling umum adalah berbentuk segitiga di kedua arah. Pola berbentuk wajik
dapat diharapkan dalam kasus persentase dimana lebih banyak variasi diperkirakan terjadi
pada rentang tengah dibandingkan pada bagian ekor. Seringkali sejumlah pelanggaran
terjadi secara bersamaan, seperti pada nonlinier dan heteroskedastisitas. Perbaikan
terhadap salah satu pelanggaran seringkali juga memperbaiki permasalahan di bidang lain.
Setiap program komputer statistik mempunyai uji statistik untuk heteroskedastisitas.
Misalnya, IBM SPSS menyediakan uji Levene untuk homogenitas varians, yang mengukur
kesetaraan varians untuk sepasang variabel tunggal. Penggunaannya sangat disarankan
karena tidak terlalu terpengaruh oleh penyimpangan dari keadaan normal, yang merupakan
masalah lain yang sering terjadi dalam regresi.
NORMALITAS DISTRIBUSI ISTILAH KESALAHAN
Meskipun secara teknis asumsi normalitas hanya berlaku pada syarat/sisa
kesalahan, setiap upaya untuk memperbaiki ketidaknormalan melibatkan penilaian
ketidaknormalan variabel independen atau variabel dependen atau keduanya [105].
Diagnostik paling sederhana untuk himpunan variabel independen dalam persamaan adalah
histogram residu, dengan pemeriksaan visual untuk distribusi yang mendekati distribusi
normal. Meskipun menarik karena kesederhanaannya, metode ini sangat sulit dilakukan
pada sampel yang lebih kecil, dimana distribusinya seringkali tidak normal. Metode yang
19
lebih baik adalah penggunaan plot probabilitas normal. Plot ini berbeda dengan plot residu
karena residu terstandar dibandingkan dengan distribusi normal. Distribusi normal membuat
garis diagonal lurus, dan residu yang diplot dibandingkan dengan diagonal. Jika suatu
distribusi normal, garis sisa mengikuti diagonal. Prosedur yang sama dapat
membandingkan variabel dependen atau independen secara terpisah hingga berdistribusi
normal [33].
Analisis regresi umumnya dianggap kuat terhadap pelanggaran normalitas ketika
ukuran sampel melebihi 200 pengamatan, namun peneliti selalu didorong untuk melakukan
penilaian terhadap normalitas residu untuk mengidentifikasi masalah yang bermasalah.
Dalam sampel yang lebih kecil, variabel dapat ditransformasikan untuk mencapai normalitas
guna mengoreksi pelanggaran asumsi. Ketika variabel terikat diketahui mengikuti distribusi
yang tidak normal (misalnya, jumlah, proporsi atau probabilitas, variabel biner), peneliti
didorong untuk mengeksplorasi penggunaan model linier umum (lihat Bab 1 untuk
pembahasan lebih lanjut) yang secara eksplisit menggabungkan distribusi istilah kesalahan
ini. selain distribusi normal. Hal ini memberi peneliti metode untuk menghindari transformasi
ukuran dependen hanya untuk mencapai normalitas.
INDEPENDENSI TERHADAP ISTILAH KESALAHAN
Kami berasumsi dalam regresi bahwa setiap nilai prediksi bersifat independen,
artinya nilai prediksi tidak terkait dengan prediksi lainnya; artinya, mereka tidak
dikelompokkan atau diurutkan berdasarkan variabel apa pun. Kita dapat mengidentifikasi
kejadian seperti itu dengan memplot residu terhadap kemungkinan pengelompokan atau
variabel sekuensing. Jika residunya independen, polanya akan tampak acak dan mirip
dengan plot nol dari residu. Pelanggaran akan diidentifikasi melalui pola yang konsisten
dalam residu. Jenis variabel pengelompokan atau pengurutan terbagi dalam dua kelas
dasar: data deret waktu dan observasi berkerumun. Data deret waktu mewakili pengamatan
20
pada unit yang sama (misalnya orang atau objek) dalam beberapa kesempatan. Hal ini
mirip dengan pengukuran berulang dalam banyak situasi eksperimental.
Tipe kedua dari variabel pengelompokan/pengurutan ditemukan ketika data
terdistribusi secara hierarkis (yaitu, terdapat kelompok observasi yang membentuk struktur
bersarang di dalam data). Contoh klasiknya adalah dalam lingkungan pendidikan, di mana
setiap siswa dapat dikelompokkan berdasarkan kelas, kemudian kelas dalam sekolah, dan
seterusnya. Kelompok-kelompok ini semuanya dapat saling terkait dalam kelompok tersebut
(misalnya, dampak umum antara satu guru dengan guru lainnya) dan dengan demikian
melanggar peraturan. asumsi independensi. Sekelompok model yang disebut model
multilevel atau hierarki telah dikembangkan untuk secara khusus mengatasi masalah ini dan
memberikan solusi atas ketergantungan antar observasi. Kelompok model ini juga akan
dibahas nanti dalam bab ini bersama dengan model panel sebagai perluasan analisis
regresi untuk mengatasi situasi penelitian seperti ini.
Tahap 4: Memperkirakan Model Regresi dan Menilai secara keseluruhan Model Cocok
Pada tahap ini, peneliti harus menyelesaikan tiga tugas dasar:
1. Pilih metode untuk menentukan model regresi yang akan diestimasi.
2. Menilai signifikansi statistik model keseluruhan dalam memprediksi variabel terikat.
3. Tentukan apakah observasi mana pun memberikan pengaruh yang tidak semestinya
terhadap hasil.
MENGELOLA VARIASI
Mungkin tugas paling penting dalam analisis regresi apa pun adalah spesifikasi
variat yang benar dalam model akhir. Seperti yang telah kita bahas sebelumnya,
permasalahan seperti multikolinearitas dan kesalahan spesifikasi memainkan peran penting
dalam hasil analisis regresi dan sebagian besar permasalahan ini diselesaikan melalui
penilaian peneliti dan hilangnya solusi empiris. Pada Bab 1, kami memperkenalkan
21
kerangka kerja Mengelola Variasi (lihat Gambar 5.13) yang akan kami bahas kembali di sini
karena mencakup masalah spesifikasi variabel (keputusan pra-analisis) dan pemilihan
variabel (menentukan variasi selama proses estimasi). Bagian berikut akan memberikan
rincian lebih lanjut tentang berbagai pilihan yang tersedia bagi peneliti di masing-masing
bidang pengambilan keputusan.
SPESIFIKASI VARIABEL
Keputusan dasar yang dihadapi peneliti pada tahap ini adalah apakah akan
menggunakan variabel independen dalam bentuk aslinya atau melakukan suatu bentuk
pengurangan dimensi pada himpunan variabel independen. Penggunaan variabel asli
memberikan peneliti pengukuran langsung terhadap variabel yang diteliti, yang mungkin
sangat penting karena penjelasan menjadi tujuan yang penting. Namun seiring
bertambahnya jumlah variabel, masalah interpretabilitas muncul seperti yang dijelaskan
pada Tahap 1, terutama ketika peneliti berupaya menghindari kesalahan spesifikasi dengan
tidak memasukkan variabel yang relevan.
Jika reduksi dimensi dilakukan, peneliti kembali dapat memilih salah satu dari dua
pilihan: melakukan reduksi dimensi sebelum analisis dilakukan melalui beberapa bentuk
analisis faktor eksplorasi (atau menggunakan pendekatan yang dikendalikan perangkat
lunak. seperti regresi komponen utama di mana perangkat lunak melakukan reduksi dimensi
tanpa campur tangan peneliti. Keuntungan reduksi dimensi dalam bentuk apapun telah
dibahas sebelumnya ketika mengatasi masalah yang terkait dengan multikolinearitas dan
kesalahan pengukuran. Untuk mengatasi multikolinearitas, variabel redundan dibentuk
menjadi suatu bentuk variabel gabungan yang kemudian menggantikan variabel individual
dalam analisis. Efeknya adalah memusatkan seluruh efek prediktif ke dalam satu ukuran
dibandingkan dengan memiliki beberapa ukuran yang semuanya “berbagi” dalam efek
tersebut. Misalnya, gabungan kesalahan pengukuran memberikan keandalan dan validitas
yang lebih besar mengenai konsep utama yang mendasari variabel, dengan mengandalkan
“konvergensi” variabel untuk mewakili perspektif bersama mengenai konsep yang jauh lebih
22
kuat daripada Masalah pengurangan kesalahan pengukuran melalui komposit merupakan
elemen mendasar dari pemodelan persamaan struktural. Pilihan yang tepat terlihat jelas
dalam situasi ekstrem—variabel yang jumlahnya sangat sedikit atau sangat besar. Namun
sebagian besar situasi penelitian berada pada kondisi ekstrem dan penilaian peneliti
mempunyai dampak yang besar. Jadi kami merekomendasikan para peneliti untuk
mengeksplorasi semua alternatif untuk memahami implikasi dari setiap pendekatan.
Pemilihan VARIABEL
Dalam sebagian besar kasus regresi berganda, peneliti memiliki sejumlah
kemungkinan variabel independen yang dapat dipilih untuk dimasukkan ke dalam
persamaan regresi. Terkadang kumpulan variabel independen ditentukan secara tepat dan
model regresi pada dasarnya digunakan dalam pendekatan konfirmatori. Namun dalam
kebanyakan kasus, peneliti dapat memilih untuk menentukan variabel yang akan
dimasukkan dalam variate (dengan spesifikasi eksplisit atau menggunakan pendekatan
kombinatorial) atau menggunakan teknik estimasi untuk memilih di antara kumpulan
variabel independen dengan pencarian sekuensial atau dibatasi. proses. Tujuannya harus
selalu untuk menemukan model regresi terbaik, baik melalui satu atau lebih pendekatan
berikut. Masing-masing dari empat pendekatan dasar ini akan dibahas selanjutnya.
Spesifikasi Konfirmatori atau Simultan Pendekatan
Yang paling sederhana, namun mungkin paling menuntut, untuk menentukan
model regresi adalah dengan menggunakan pendekatan konfirmatori (juga dikenal sebagai
pendekatan simultan) di mana peneliti menentukan kumpulan variabel independen yang
akan dimasukkan. Dibandingkan dengan pendekatan lain yang akan dibahas selanjutnya,
peneliti memiliki kendali penuh atas pemilihan variabel. Meskipun spesifikasi konfirmatori
memiliki konsep yang sederhana, peneliti sepenuhnya bertanggung jawab atas trade-off
antara variabel yang lebih independen dan akurasi prediksi yang lebih besar dibandingkan
kekikiran model, multikolinearitas, dan penjelasan ringkas. Yang paling bermasalah adalah
23
kesalahan spesifikasi baik penghilangan atau penyertaan yang dibahas sebelumnya pada
Tahap 1.
Pendekatan Kombinatorial
Bentuk lain dari pemilihan variabel yang dikendalikan pengguna adalah pendekatan
kombinatorial, yang pada dasarnya merupakan proses pencarian umum pada semua
kemungkinan kombinasi variabel independen. Prosedur yang paling terkenal adalah regresi
semua subset yang mungkin, persis seperti namanya. Semua kemungkinan kombinasi
variabel independen diperiksa, dan kumpulan variabel yang paling sesuai diidentifikasi.
Misalnya, model dengan 10 variabel independen memiliki 1.024 kemungkinan regresi (1
persamaan dengan konstanta saja, 10 persamaan dengan satu variabel independen, 45
persamaan dengan semua kombinasi dua variabel, dan seterusnya). Dengan prosedur
estimasi yang terkomputerisasi, proses ini kini dapat dikelola bahkan untuk permasalahan
yang cukup besar, sehingga dapat mengidentifikasi persamaan regresi keseluruhan yang
terbaik untuk sejumlah ukuran kecocoka Penggunaan pendekatan ini mengalami penurunan
karena kritik terhadap (1) sifat atheoretis dan (2) kurangnya pertimbangan faktor-faktor
seperti multikolinearitas, identifikasi outlier dan pengaruh, dan interpretasi hasil.
Ketika isu-isu ini dipertimbangkan, persamaan “terbaik” mungkin melibatkan
permasalahan serius yang mempengaruhi kesesuaiannya, dan model lain pada akhirnya
dapat dipilih. Namun pendekatan ini dapat memberikan wawasan mengenai jumlah model
regresi yang memiliki kekuatan prediksi yang setara, namun memiliki kombinasi variabel
independen yang sangat berbeda.
Metode Pencarian Sekuensial Berbeda dengan pendekatan yang dikontrol
pengguna, metode pencarian sekuensial memiliki kesamaan yaitu pendekatan umum dalam
memperkirakan persamaan regresi dengan mempertimbangkan sekumpulan variabel yang
ditentukan oleh peneliti, dan kemudian algoritma perangkat lunak secara selektif
menambahkan atau menghapus di antara variabel-variabel tersebut. variabel sampai
24
beberapa ukuran kriteria secara keseluruhan tercapai. Pendekatan ini memberikan metode
obyektif untuk memilih variabel yang memaksimalkan prediksi sambil menggunakan jumlah
variabel terkecil. Dua jenis pendekatan pencarian sekuensial adalah (1) estimasi bertahap
dan (2) penambahan maju dan eliminasi mundur. Dalam setiap pendekatan, variabel dinilai
secara individual kontribusinya terhadap prediksi variabel dependen dan ditambahkan atau
dihapus dari model regresi berdasarkan kontribusi relatifnya. Prosedur bertahap dibahas
dan kemudian dikontraskan dengan prosedur penjumlahan maju dan eliminasi mundur.
ESTIMASI LANGKAH
Mungkin pendekatan sekuensial yang paling populer dalam pemilihan variabel adalah
estimasi bertahap. Pendekatan ini memungkinkan peneliti untuk menguji kontribusi masing-
masing variabel independen terhadap model regresi. Setiap variabel dipertimbangkan untuk
dimasukkan sebelum mengembangkan persamaan.
PENAMBAHAN KE DEPAN DAN PENGHILANGAN KEBELAKANG
Prosedur penjumlahan ke depan dan eliminasi ke belakang sebagian besar merupakan
proses trial-and-error untuk menemukan estimasi regresi terbaik. Model penjumlahan maju
mirip dengan prosedur bertahap yaitu membangun persamaan regresi yang dimulai dengan
satu variabel independen, sedangkan prosedur eliminasi ke belakang dimulai dengan
persamaan regresi yang mencakup semua variabel independen dan kemudian menghapus
variabel independen yang tidak memberikan kontribusi signifikan. . Perbedaan utama
pendekatan bertahap dengan prosedur penjumlahan maju dan eliminasi mundur adalah
kemampuannya untuk menambah atau menghapus variabel pada setiap tahap. Setelah
variabel ditambahkan atau dihapus dalam skema penambahan maju atau eliminasi mundur,
tindakan tersebut tidak dapat dibatalkan pada tahap berikutnya. Dengan demikian,
kemampuan metode bertahap untuk menambah dan menghapus menjadikannya metode
yang disukai sebagian besar peneliti.
25
PERINGATAN TERHADAP METODE PENCARIAN SEKUENSIAL
Bagi banyak peneliti, metode pencarian sekuensial tampaknya merupakan solusi
sempurna terhadap dilema yang dihadapi dalam pendekatan konfirmatori dengan mencapai
daya prediksi maksimum hanya dengan variabel-variabel yang berkontribusi dalam jumlah
yang signifikan secara statistik. Namun dalam pemilihan variabel untuk dimasukkan ke
dalam varian regresi, ada tiga hal penting yang sangat mempengaruhi persamaan regresi
yang dihasilkan.
Dampak Multikolinearitas antar variabel independen mempunyai dampak besar
terhadap spesifikasi akhir model. Kriteria untuk dimasukkan atau dihapusnya pendekatan ini
adalah memaksimalkan daya prediksi tambahan dari variabel tambahan. Jika salah satu
variabel tersebut masuk ke dalam model regresi, kecil kemungkinan variabel lainnya juga
ikut masuk karena variabel-variabel tersebut sangat berkorelasi dan secara terpisah
menunjukkan varian unik yang kecil (lihat pembahasan selanjutnya mengenai
multikolinearitas). Oleh karena itu, peneliti harus menilai pengaruh multikolinearitas dalam
interpretasi model dengan tidak hanya menguji persamaan regresi akhir, tetapi juga menguji
korelasi langsung seluruh variabel independen potensial. Pengetahuan ini akan membantu
peneliti untuk menghindari kesimpulan bahwa variabel-variabel independen yang tidak
dimasukkan dalam model adalah tidak penting padahal sebenarnya variabel-variabel
tersebut mungkin sangat terkait dengan variabel dependen, tetapi juga berkorelasi dengan
variabel-variabel yang sudah ada dalam model. Meskipun pendekatan pencarian sekuensial
akan memaksimalkan kemampuan prediksi model regresi, namun peneliti harus berhati-hati
dalam menggunakan metode tersebut dalam menetapkan dampak variabel independen
tanpa mempertimbangkan multikolinearitas antar variabel independen.
Metode yang Dibatasi
Pendekatan terakhir terhadap pemilihan variabel adalah serangkaian teknik yang
muncul berdasarkan estimasi regresi aktual untuk “menyusutkan” estimasi berdasarkan
26
variansnya. Teknik ini sangat berguna ketika (a) terdapat derajat multikolinearitas yang
tinggi atau (b) jumlah variabel melebihi jumlah observasi dalam sampel.
Tinjauan Pendekatan Pemilihan Model
Apakah pengguna melakukan kontrol atas proses pemilihan variabel atau
menggunakan metode yang dikendalikan perangkat lunak, kriteria yang paling penting
adalah pengetahuan substantif peneliti tentang konteks penelitian dan landasan teoretis apa
pun yang memungkinkan perspektif objektif dan terinformasi. mengenai variabel-variabel
yang akan dimasukkan serta tanda-tanda yang diharapkan dan besaran koefisiennya.
Tanpa pengetahuan ini, hasil regresi dapat memiliki akurasi prediksi yang tinggi
namun relevansi manajerial atau teoritisnya kecil. Masing-masing metode estimasi
mempunyai kelebihan dan kekurangan, sehingga tidak ada satu metode yang selalu
diunggulkan dibandingkan pendekatan lainnya. Oleh karena itu, peneliti tidak boleh
sepenuhnya mengandalkan salah satu dari pendekatan ini tanpa memahami bagaimana
implikasi metode estimasi berhubungan dengan tujuan peneliti dalam prediksi dan
penjelasan serta landasan teoritis penelitian. Seringkali penggunaan dua atau lebih metode
secara bersamaan dapat memberikan perspektif yang lebih seimbang bagi peneliti
dibandingkan hanya menggunakan satu metode dan mencoba mengatasi semua masalah
yang mempengaruhi hasil.
MENGUJI VARIASI REGRESI UNTUK MEMENUHI ASUMSI REGRESI
Dengan memilih variabel independen dan memperkirakan koefisien regresi, peneliti
sekarang harus menilai model estimasi untuk memenuhi asumsi yang mendasari regresi
berganda. Uji Signifikansi Koefisien Regresi Pengujian signifikansi statistik untuk estimasi
koefisien dalam analisis regresi adalah tepat dan diperlukan bila analisis didasarkan pada
sampel populasi dan bukan pada sensus. Saat menggunakan sampel, peneliti tidak hanya
tertarik pada estimasi koefisien regresi untuk sampel tersebut, namun juga tertarik pada
bagaimana koefisien diharapkan bervariasi antar sampel yang diulang. Pembaca yang
27
tertarik dapat menemukan pembahasan lebih rinci tentang penghitungan yang mendasari uji
signifikansi koefisien regresi dalam lampiran Statistik Dasar di situs web teks.
MEMBUAT INTERVAL KEPERCAYAAN
Pengujian signifikansi koefisien regresi adalah estimasi probabilitas berbasis statistik
mengenai apakah estimasi koefisien pada sejumlah besar sampel dengan ukuran tertentu
memang akan berbeda dari nol. Untuk membuat penilaian ini, interval kepercayaan harus
ditetapkan di sekitar koefisien estimasi. Jika selang kepercayaan tidak memuat nilai nol,
maka dapat dikatakan selisih koefisien dengan nol signifikan secara statistik.
MEMAHAMI PENGAMATAN YANG BERPENGARUH
Hingga saat ini, kami fokus pada mengidentifikasi pola umum dalam seluruh rangkaian
pengamatan. Di sini kami mengalihkan perhatian kami ke observasi individual, dengan
tujuan menemukan observasi yang:
 berada di luar pola umum kumpulan data atau
 sangat mempengaruhi hasil regresi.
Pengamatan ini belum tentu “buruk” dalam arti harus dihapus. Dalam banyak kasus,
mereka mewakili elemen khas dari kumpulan data. Namun, kita harus mengidentifikasinya
terlebih dahulu dan menilai dampaknya sebelum melanjutkan [13]. Bagian ini
memperkenalkan konsep observasi yang berpengaruh dan potensi dampaknya terhadap
hasil regresi.
Jenis-Jenis Pengamatan yang Berpengaruh Pengamatan yang berpengaruh dalam arti
luas mencakup semua pengamatan yang mempunyai pengaruh tidak proporsional terhadap
hasil regresi. Tiga tipe dasar didasarkan pada sifat dampaknya terhadap hasil regresi
UTLIER Pengamatan yang memiliki nilai residu besar dan hanya dapat diidentifikasi
sehubungan dengan model regresi tertentu adalah outlier [2]. Outlier secara tradisional
merupakan satu-satunya bentuk observasi berpengaruh yang dipertimbangkan dalam
28
model regresi, dan metode regresi khusus (misalnya, regresi kuat) bahkan dikembangkan
untuk menangani secara khusus dampak outlier pada hasil regresi [8, 100].
Dampak Pengamatan yang Berpengaruh
Pengamatan yang berpengaruh sering kali sulit diidentifikasi melalui analisis residu
tradisional ketika mencari outlier. Pola residunya tidak akan terdeteksi karena residu untuk
titik-titik berpengaruh (jarak tegak lurus dari titik perkiraan garis regresi) tidak akan terlalu
besar untuk diklasifikasikan sebagai outlier. Oleh karena itu, berfokus hanya pada residu
yang besar biasanya akan mengabaikan observasi yang berpengaruh ini.
Mengidentifikasi Pengamatan yang Berpengaruh
Dalam diskusi berikut, kita membahas proses empat langkah untuk mengidentifikasi
outlier, poin leverage, dan pengamatan yang berpengaruh. Seperti disebutkan sebelumnya,
observasi mungkin termasuk dalam satu atau
lebih kelas-kelas ini, dan tindakan yang diambil bergantung pada penilaian peneliti,
berdasarkan bukti terbaik yang ada.
LANGKAH 1: MENELITI RESIDUAL DAN PLOT REGRESI
Parsial Residual berperan penting dalam mendeteksi pelanggaran asumsi model, dan
juga berperan dalam mengidentifikasi observasi yang merupakan outlier pada variabel
dependen setelah model diestimasi. Kami menggunakan dua metode deteksi: analisis
residu dan plot regresi parsial.
 Kasus yang digunakan dalam menghitung residu. Kita telah melihat bagaimana kita
menghitung sisa menggunakan semua observasi, tetapi bentuk kedua, residu yang
dihapus, berbeda dari residu normal karena observasi ke-i dihilangkan ketika
memperkirakan persamaan regresi yang digunakan untuk menghitung nilai prediksi
observasi tersebut. Dengan demikian, setiap observasi tidak berdampak pada nilai
29
prediksinya sendiri dalam sisa yang dihapus. Residu yang dihapus lebih jarang
digunakan, meskipun memiliki manfaat mengurangi pengaruh observasi terhadap
perhitungannya.
 Standarisasi residu. Prosedur kedua dalam mendefinisikan residu melibatkan
apakah akan membakukan residu tersebut. Residu yang tidak terstandarisasi berada
dalam skala variabel terikat, yang berguna dalam interpretasi tetapi tidak
memberikan gambaran mengenai apa yang terlalu besar atau terlalu kecil untuk
tidak dipertimbangkan. Residual terstandar merupakan hasil proses pembuatan
skala umum dengan membagi setiap residu dengan simpangan baku residu. Setelah
standarisasi, residu memiliki rata-rata nol dan simpangan baku satu. Dengan ukuran
sampel yang cukup besar (50 atau lebih), residu terstandarisasi kira-kira mengikuti
distribusi t, sehingga residu yang melebihi ambang batas seperti 1,96 (nilai t kritis
pada tingkat kepercayaan 0,05) dapat dianggap signifikan secara statistik. Uji
signifikansi yang lebih ketat juga telah diusulkan, yang memperhitungkan beberapa
perbandingan yang dilakukan pada berbagai ukuran sampel [18].
LANGKAH 2: MENGIDENTIFIKASI POIN PENINGKATAN
Langkah kita berikutnya adalah menemukan observasi-observasi yang secara
substansial berbeda dari observasi-observasi lainnya pada satu atau lebih variabel
independen. Kasus-kasus ini disebut titik pengaruh (leverage point) karena kasus-kasus
tersebut dapat “mengungkit” hubungan ke arahnya karena perbedaannya dengan observasi-
observasi lainnya. Ada dua ukuran yang umumnya digunakan untuk mengidentifikasi titik
leverage: nilai Hat dan jarak Mahalan.
Jarak Mahalanobis Ukuran yang sebanding dengan nilai topi adalah jarak
Mahalanobis (D2 ), yang hanya mempertimbangkan jarak observasi dari nilai rata-rata
variabel independen dan bukan dampaknya terhadap nilai prediksi. Jarak Mahalanobis
adalah cara lain untuk mengidentifikasi outlier. Tujuan ini terbatas karena nilai ambang
batas bergantung pada sejumlah faktor, dan nilai ambang batas aturan praktis tidak
mungkin dilakukan. Namun, signifikansi statistik jarak Mahalanobis dapat ditentukan dari
30
tabel yang dipublikasikan [8]. Namun bahkan tanpa tabel yang dipublikasikan, peneliti dapat
melihat nilai-nilai tersebut dan mengidentifikasi observasi apa pun yang nilainya jauh lebih
tinggi dibandingkan observasi lainnya. Misalnya, sekumpulan kecil pengamatan dengan nilai
Mahalanobis tertinggi yang dua hingga tiga kali nilai tertinggi berikutnya akan menyebabkan
perpecahan besar dalam distribusi dan indikasi lain mengenai kemungkinan pengaruh.
LANGKAH 3: DIAGNOSTIK KASE TUNGGAL
Sampai saat ini kami telah menemukan titik-titik terpencil pada variabel prediktor dan
kriteria namun belum secara formal memperkirakan pengaruh satu pengamatan terhadap
hasil. Pada langkah ketiga ini, semua metode mengandalkan proposisi umum: ukuran
pengaruh yang paling langsung melibatkan penghapusan satu atau lebih pengamatan dan
mengamati perubahan dalam hasil regresi dalam hal residu, koefisien individual, atau
Peneliti kemudian hanya perlu memeriksa nilai-nilai dan memilih pengamatan yang melebihi
nilai yang ditentukan. Kita telah membahas salah satu pengukuran tersebut, yaitu residu
yang dihapuskan secara pelajar, namun sekarang kita akan mengeksplorasi beberapa
pengukuran lain yang sesuai untuk mendiagnosis kasus-kasus individual.
Pengukuran Pengaruh Secara Keseluruhan Langkah-langkah ini menilai dampak
terhadap kesesuaian model secara keseluruhan. Jarak Cook (Di ) dianggap sebagai ukuran
yang paling representatif. Ini menangkap dampak observasi dari dua sumber perubahan
nilai prediksi ketika kasus dihilangkan (outlying studentized residual) serta jarak observasi
dari observasi lainnya (leverage). Aturan praktisnya adalah mengidentifikasi pengamatan
dengan jarak Cook 1,0 atau lebih besar, meskipun ambang batas 4/1n 2 k 2 12 , di mana n
adalah ukuran sampel dan k adalah jumlah variabel independen, disarankan sebagai lebih
banyak ukuran konservatif dalam sampel kecil atau untuk digunakan dengan kumpulan data
yang lebih besar. Sekalipun tidak ada pengamatan yang melebihi ambang batas ini,
perhatian tambahan akan diberikan jika sekelompok kecil pengamatan memiliki nilai yang
jauh lebih tinggi dibandingkan pengamatan lainnya.
Ukuran serupa adalah COVRATIO, yang memperkirakan pengaruh observasi
terhadap efisiensi proses estimasi. Secara khusus, COVRATIO mewakili sejauh mana suatu
31
observasi berdampak pada kesalahan standar koefisien regresi. Hal ini berbeda dengan
DFBETA dan SDFBETA karena mempertimbangkan semua koefisien secara kolektif dan
bukan setiap koefisien secara individual. Ambang batas dapat ditetapkan pada 1 6 3p/n.
Nilai di atas ambang batas 1 1 3p/n membuat proses estimasi menjadi lebih efisien,
sedangkan nilai yang kurang dari 1 2 3p/n mengurangi efisiensi estimasi. Hal ini
memungkinkan COVRATIO untuk bertindak sebagai indikator observasi lain yang memiliki
pengaruh besar baik secara positif maupun negatif pada kumpulan koefisien.
Ukuran ketiga adalah SDFFIT, yaitu sejauh mana nilai yang dipasang berubah
ketika kasus dihapus. Nilai batas 2"1k 1 12/1n 2 k 2 12of telah disarankan untuk mendeteksi
pengaruh yang besar. Meskipun jarak Cook dan SDFFIT adalah ukuran kesesuaian secara
keseluruhan, keduanya harus dilengkapi dengan ukuran langkah 1 dan 2 untuk
memungkinkan kami menentukan apakah pengaruh timbul dari residu, leverage, atau
keduanya. Versi tidak standar (DFFIT) juga tersedia.
LANGKAH 4: MEMILIH PENGAMATAN YANG BERPENGARUH
Identifikasi observasi yang berpengaruh lebih merupakan proses konvergensi
dengan berbagai metode dibandingkan mengandalkan satu ukuran saja. Karena tidak ada
satu ukuran pun yang benar-benar mewakili semua dimensi pengaruh, maka hal ini
tergantung pada penafsirannya, meskipun ukuran-ukuran ini biasanya mengidentifikasi
sejumlah kecil pengamatan.
Tahap 5: menafsirkan Variasi Regresi
MENGGUNAKAN KOEFISIEN REGRESI
Koefisien regresi yang diperkirakan, disebut koefisien b, mewakili jenis hubungan (positif
atau negatif) dan kekuatan hubungan antara variabel independen dan dependen dalam
variabel regresi. Tanda koefisien menunjukkan hubungan positif atau negatif, dan nilai
koefisien menunjukkan perubahan nilai terikat setiap kali variabel bebas berubah sebesar
satu satuan.
32
Prediksi
Prediksi merupakan elemen integral dalam analisis regresi, baik dalam proses estimasi
maupun dalam situasi peramalan. Seperti yang dijelaskan di bagian pertama bab ini, regresi
melibatkan penggunaan variate (model regresi) untuk memperkirakan nilai tunggal untuk
variabel dependen. Proses ini digunakan tidak hanya untuk menghitung nilai prediksi dalam
prosedur estimasi, namun juga dengan sampel tambahan yang digunakan untuk validasi
tujuan.
MENILAI MULTIKOLLINEARITAS
Masalah utama dalam menafsirkan variasi regresi adalah korelasi antar variabel
independen. Masalah ini adalah masalah data, bukan spesifikasi model. Situasi ideal bagi
seorang peneliti adalah memiliki sejumlah variabel independen yang berkorelasi tinggi
dengan variabel dependen, namun memiliki sedikit korelasi di antara variabel-variabel
tersebut. Namun dalam sebagian besar situasi, khususnya situasi yang melibatkan data
respons konsumen, multikolinieritas pada tingkat tertentu tidak dapat dihindari. Pada
beberapa kesempatan lain, seperti menggunakan variabel dummy untuk mewakili variabel
nonmetrik atau istilah poli nomial untuk efek nonlinier, peneliti menciptakan situasi
multikolinearitas tinggi. Tugas peneliti antara lain sebagai berikut:
 Memahami ukuran korelasi baru yang menggabungkan multikolinearitas.
 Menilai tingkat multikolinearitas.
 Tentukan dampaknya terhadap hasil.
 Terapkan solusi yang diperlukan jika diperlukan.
Ukuran Korelasi yang Memasukkan Multikolinearitas
Kita telah membahas beberapa kali dampak multikolinearitas yang
menciptakan variansi bersama dengan variabel lain, namun belum membahas
bagaimana hal ini dapat diukur. Korelasi Pearson yang biasa kita gunakan adalah
korelasi bivariat atau korelasi orde nol. Ini hanya mewakili hubungan antara dua
33
variabel, tidak memperhitungkan variasi yang dimiliki oleh variabel lain dan
merupakan jenis korelasi yang muncul dalam matriks korelasi.
Ada dua bentuk korelasi lain yang mencerminkan derajat variansi bersama dari
multikolinearitas. Pertama, korelasi bivariat atau nol antara X2 dan Y mencakup b (varian
unik) dan c (varian bersama) seperti yang telah kita bahas. Hal ini berbeda dengan korelasi
semi-parsial atau sebagian yang hanya memuat varian unik (b). Korelasi parsial juga hanya
mempunyai varian unik (b), namun berbeda karena penyebutnya bukan varian total Y,
melainkan hanya sebagian Y yang tidak dijelaskan oleh variabel lain 1d 1 b2 .
Perbedaan ini penting, seperti yang akan dilihat nanti, bahwa korelasi semi-parsial
kuadrat mengkuantifikasi jumlah yang akan berkurang ketika variabel dihilangkan,
2
sedangkan korelasi parsial R digunakan dalam regresi bertahap untuk memilih variabel
tambahan untuk ditambahkan ke model. Dengan demikian, masing-masing korelasi ini
memberikan perspektif spesifik mengenai dampak multikolinearitas pada korelasi bivariat.
Mengidentifikasi Multikolinearitas
Cara paling sederhana dan paling jelas untuk mengidentifikasi kolinearitas adalah
dengan menguji matriks korelasi untuk variabel independen. Kita dapat mencari variabel lain
yang berkorelasi tinggi dengan variabel independen tertentu, namun hal tersebut hanya
mencerminkan kolinearitas. Adanya korelasi yang tinggi (umumnya 0,70 dan lebih tinggi)
merupakan indikasi pertama adanya kolinearitas yang substansial. Namun, kurangnya nilai
korelasi yang tinggi tidak menjamin kurangnya kolinearitas. Kolinearitas mungkin
disebabkan oleh pengaruh gabungan dari dua atau lebih variabel independen lainnya
(disebut multikolinearitas).
Untuk menilai multikolinearitas, kita memerlukan suatu ukuran yang menyatakan
sejauh mana setiap variabel independen dapat dijelaskan oleh sekumpulan variabel
independen lainnya. Secara sederhana, setiap variabel independen menjadi variabel
dependen dan diregresi terhadap variabel independen lainnya. Ada dua pendekatan yang
34
tersedia untuk menilai multikolinearitas. Pertama, ukuran keseluruhan (toleransi dan
kebalikannya, faktor variance inflasi) dari multikolinearitas menunjukkan tingkat
multikolinearitas untuk masing-masing variabel. Kedua, dekomposisi multikolinearitas antar
variabel dapat mengidentifikasi kumpulan variabel tertentu yang mungkin menjadi asal
muasal multikolinieritas.
DEKOMPOSISI MULTIKOLLINEARITAS
Metode dekomposisi memberikan peneliti sarana untuk mengidentifikasi kumpulan
variabel yang memiliki multikolinearitas tinggi [13]. Ada dua komponen yang
menggambarkan tingkat multikolinearitas secara keseluruhan serta keberadaannya di
seluruh variabel independen:
 Indeks kondisi. Ini mewakili kolinearitas kombinasi variabel dalam kumpulan data.
 Matriks varians-dekomposisi koefisien regresi. Ini menunjukkan proporsi varians
untuk setiap regresi koefisien (dan variabel independen terkaitnya) yang dapat
diatribusikan pada setiap indeks kondisi.
Penerapan metode dekomposisi hanya diperlukan jika terdapat indikasi
multikolinearitas tinggi. Namun hal ini memberikan cara untuk mengidentifikasi kumpulan
variabel yang harus diperiksa lebih dekat jika terdapat kebutuhan untuk mengatasi
multikolinearitas.
DAMPAK TERHADAP PENJELASAN
Dampak pada penjelasan terutama berkaitan dengan kemampuan prosedur regresi
dan peneliti dalam merepresentasikan dan memahami pengaruh masing-masing variabel
bebas dalam variat regresi. Ketika multikolinearitas terjadi (bahkan pada tingkat yang relatif
rendah yaitu 0,30 atau lebih) proses untuk mengidentifikasi efek unik dari variabel
independen menjadi semakin sulit. Hal ini berdampak pada beberapa aspek penjelasan.
Interpretasi Koefisien Ingatlah bahwa koefisien regresi mewakili jumlah varian unik yang
dijelaskan oleh masing- masing variabel independen. Karena multikolinearitas menghasilkan
35
porsi variansi bersama yang lebih besar dan tingkat varian unik yang lebih rendah, pengaruh
masing-masing variabel independen menjadi kurang dapat dibedakan.
Bahkan dimungkinkan untuk menemukan situasi di mana multikolinearitas sangat
tinggi sehingga tidak ada satu pun koefisien regresi independen yang signifikan secara
statistik, namun model regresi secara keseluruhan memiliki tingkat akurasi prediksi yang
signifikan. Kita akan membahas ukuran-ukuran yang relatif penting di bagian selanjutnya
yang menggambarkan varian unik dan varian bersama dari suatu variabel independen.
EFEK YANG TIDAK DAPAT DIABAIKAN
Ada situasi di mana tingkat multikolinearitas yang tinggi mungkin diharapkan dan
karenanya diabaikan. Yang paling umum adalah ketika istilah interaksi dimasukkan dalam
analisis (misalnya, efek moderasi). Karena suku interaksi merupakan hasil perkalian dua
variabel lain dalam persamaan, maka diharapkan terjadi multikolinearitas. Demikian pula,
ketika polinomial dimasukkan untuk mewakili efek non-linear dari variabel, maka akan terjadi
multikolinearitas yang tinggi. Inilah sebabnya mengapa berkali-kali uji signifikansi untuk
interaksi atau suku polinomial dilakukan melalui uji signifikansi tambahan yang sesuai.
Selain itu, mungkin terdapat multikolinearitas di antara variabel dummy yang digunakan
untuk mewakili variabel nonmetrik. Terakhir, jika ada variabel yang dimasukkan sebagai
variabel kontrol, maka tidak perlu dilakukan interpretasi dan dapat menunjukkan
multikolinearitas yang tinggi pula.
Setiap peneliti harus menentukan derajat kolinearitas yang dapat diterima, karena
sebagian besar standar atau ambang batas yang direkomendasikan masih memungkinkan
terjadinya kolinearitas yang substansial. Beberapa pedoman yang disarankan untuk
mengikuti bivariat dan multikolin.
KORELASI BIVARIAT
Saat menilai korelasi bivariat, ada dua hal yang harus dipertimbangkan. Pertama,
korelasi sebesar 0,70 (yang mewakili varian “bersama” sebesar 50%) dapat berdampak
pada penjelasan dan estimasi hasil regresi. Selain itu, bahkan korelasi yang lebih rendah
pun dapat berdampak jika korelasi antara dua variabel independen lebih besar daripada
36
korelasi variabel independen dengan ukuran dependen (misalnya, situasi pada contoh
pembalikan tanda sebelumnya). Pola-pola ini harus diperiksa untuk setiap variabel dengan
dua atau tiga korelasi tertinggi, terutama jika variabel tersebut melibatkan korelasi dengan
tanda yang berbeda [128].
TOLERANSI ATAU VIF
Batas yang disarankan untuk nilai toleransi adalah 0,10 (atau VIF terkait sebesar
10,0), yang berkorelasi dengan korelasi berganda sebesar 0,95 dengan variabel independen
lainnya. Ketika nilai-nilai pada tingkat ini ditemui, masalah multikolinearitas sangat mungkin
terjadi. Namun, permasalahannya kemungkinan besar juga terjadi pada tingkat yang lebih
rendah [88]. Misalnya, VIF sebesar 5,3 berarti korelasi berganda sebesar 0,9 antara satu
variabel independen dan semua variabel independen lainnya. Bahkan VIP sebesar 3,0
mewakili korelasi berganda sebesar 0,82, yang akan dianggap tinggi jika antara variabel
dependen dan independen.
PENTINGNYA RELATIF VARIABEL INDEPENDEN
Seperti yang telah kita lihat pada pembahasan sebelumnya, adanya multikolinearitas
mempersulit penafsiran koefisien regresi, terutama ketika menilai dampak variabel
independen terhadap ukuran dependen. Sesuatu yang sederhana seperti korelasi bivariat
melebih-lebihkan dampak masing-masing variabel, namun hanya menggunakan
estimasi koefisien regresi juga dapat menimbulkan komplikasi. Untuk mencapai tujuan ini
serangkaian tindakan baru yang relat telah dikembangkan untuk memberikan penilaian
terhadap dampak keseluruhan dari variabel-variabel independen, memperhitungkan
penjelasan varians yang dimiliki bersama dan unik serta dalam ukuran yang sebanding di
seluruh variabel independen [69]. Langkah-langkah baru ini membantu memperjelas
variabel independen mana yang berkontribusi paling besar terhadap model regresi dengan
memberikan informasi tambahan pada hasil regresi tradisional.
Pembahasan berikut ini pertama-tama akan mengulas ukuran langsung yang tersedia
mengenai kepentingan variabel yang tersedia dari hasil regresi dan korelasi yang digunakan
dalam proses estimasi. Kemudian serangkaian ukuran relatif penting akan dibahas yang
37
memperluas hasil dasar regresi dengan melakukan serangkaian model regresi atau
melakukan beberapa transformasi variabel independen.
Pengukuran Langsung Pentingnya Variabel
Para peneliti telah lama mengandalkan hasil regresi dan ukuran korelasi untuk
membuat penilaian pentingnya variabel. Kami akan segera meninjau langkah-langkah
tersebut dan mendiskusikan kelebihan dan keterbatasannya.
KORELASI BIVARIAT
Ukuran dampak suatu variabel yang pertama dan paling mendasar adalah korelasi
bivariat dengan variabel dependen. Ini mewakili hubungan mendasar dari analisis regresi
dan karenanya harus selalu dipertimbangkan. Dalam beberapa hal, ini mewakili informasi
paling mendasar tentang hubungan yang digunakan dalam analisis regresi dan dengan
demikian memberikan titik awal untuk memahami dampak suatu variabel. Namun hal ini
terbatas, seperti yang telah kita lihat dalam diskusi sebelumnya dengan adanya
multikolinearitas.
Ukuran Kepentingan Relatif
Ukuran kepentingan relatif yang dibahas di bawah ini memberikan perspektif yang
berbeda mengenai
(a) dampak unik dan bersama dari suatu variabel independen terhadap ukuran-ukuran
dependen, sementara (b) menyatakan dampak-dampak ini sedemikian rupa sehingga dapat
dibandingkan secara langsung.
KOEFISIEN STRUKTUR
Koefisien struktur merupakan korelasi bivariat setiap variabel independen dengan
nilai prediksinya, bukan variabel dependen seperti yang terlihat pada matriks korelasi input
[32]. Dengan demikian, nilai tersebut merupakan ukuran kontribusi relatif terhadap nilai
prediksi. Mereka tidak membuat perbedaan apa pun antara varian unik dan varian bersama,
seperti halnya korelasi bivariat dengan variabel terikat. Namun hubungannya dengan nilai
prediksi membuatnya cukup berguna jika dibandingkan dengan bobot regresi. Variabel
dengan bobot regresi kecil namun koefisien struktur kuadratnya besar mempunyai efek
38
prediksi bersama yang tinggi, namun efek uniknya kecil. Dalam situasi yang berlawanan,
bobot regresi yang besar tetapi koefisien struktur yang kecil menunjukkan variabel yang
mungkin menunjukkan efek penekanan [87].
ANALISIS DOMINASI
Metode analisis dominasi juga didasarkan pada semua subset regresi yang
mungkin, namun memberikan perbandingan yang berbeda antar variabel independen [23,
24]. Ukuran dasar dampak adalah rata-rata kuadrat korelasi semi-parsial di seluruh model
regresi yang memasukkan variabel tersebut. Juga disediakan dua ukuran dominasi antara
masing-masing pasangan variabel: (a) dominasi lengkap adalah ketika satu variabel selalu
memiliki korelasi semi-parsial kuadrat yang lebih besar, tidak peduli variabel apa pun yang
ada dalam model, (b) dominasi bersyarat adalah ketika salah satu variabel berada dalam
model. variabel melebihi yang lain dalam beberapa spesifikasi model, tetapi sebaliknya
dalam spesifikasi model lainnya. Ukuran ketiga dari dominasi umum hanya berfokus pada
bobot kepentingan secara keseluruhan dan bukan pada kombinasi spesifik.
Tahap 6: Validasi Hasil
Setelah mengidentifikasi model regresi terbaik, langkah terakhir adalah memastikan
bahwa model tersebut mewakili populasi umum (gener alizability) dan sesuai dengan situasi
di mana model tersebut akan digunakan (transferability). Pedoman terbaik adalah sejauh
mana model regresi cocok dengan model teoritis yang ada atau serangkaian hasil yang
telah divalidasi sebelumnya pada topik yang sama. Namun dalam banyak kasus, hasil atau
teori sebelumnya tidak tersedia. Oleh karena itu, kami juga membahas pendekatan empiris
untuk validasi model.
SAMPEL TAMBAHAN ATAU TERPISAH
Pendekatan validasi empiris yang paling tepat adalah dengan menguji model regresi
pada sampel baru yang diambil dari populasi umum. Sampel baru akan memastikan
keterwakilan dan dapat digunakan dalam beberapa cara. Pertama, model asli dapat
memprediksi nilai dalam sampel baru dan kecocokan prediktif dapat dihitung. Kedua, model
terpisah dapat diestimasi dengan sampel baru dan kemudian dibandingkan dengan
39
persamaan asli mengenai karakteristik seperti variabel signifikan yang dimasukkan; tanda,
ukuran, dan kepentingan relatif suatu variabel; dan akurasi prediksi. Dalam kedua kasus
tersebut, peneliti menentukan validitas model asli dengan membandingkannya dengan
model regresi yang diestimasi dengan sampel baru.
Seringkali kemampuan untuk mengumpulkan data baru dibatasi atau dihalangi oleh
faktor-faktor seperti biaya, tekanan waktu, atau ketersediaan responden. Kemudian, peneliti
dapat membagi sampel menjadi dua bagian: subsampel estimasi untuk membuat model
regresi dan subsampel ketidaksepakatan atau validasi yang digunakan untuk menguji
persamaan. Banyak prosedur, baik acak maupun sistematis, tersedia untuk memisahkan
data, masing-masing mengambil dua sampel independen dari satu dataset. Semua paket
statistik populer menyertakan opsi khusus untuk memungkinkan estimasi dan validasi pada
subsampel terpisah.
MENGHITUNG STATISTIK PERS
Pendekatan alternatif untuk mendapatkan sampel tambahan untuk tujuan validasi
adalah dengan menggunakan sampel asli secara khusus dengan menghitung statistik
PRESS (Prediction Sum of Squares), suatu ukuran yang mirip dengan R digunakan untuk
menilai keakuratan prediksi model regresi yang diperkirakan. Hal ini berbeda dari
pendekatan sebelumnya karena tidak hanya satu, tetapi n 2 1 model regresi diestimasi
dengan prosedur yang mirip dengan pendekatan validasi jackknife. Prosedur tersebut
menghilangkan satu observasi dalam estimasi model regresi dan kemudian memprediksi
observasi yang dihilangkan dengan model estimasi. Dengan demikian, observasi tidak dapat
mempengaruhi koefisien model yang digunakan untuk menghitung nilai prediksinya.
Prosedur tersebut diterapkan kembali, menghilangkan observasi lain, memperkirakan model
baru, dan membuat prediksi. Residual untuk pengamatan “tahan” kemudian dapat
dijumlahkan untuk memberikan ukuran kecocokan prediktif secara keseluruhan serta
dibandingkan dengan model asli untuk menilai peningkatan jumlah kuadrat residu karena
prosedur validasi.
PERAMALAN DENGAN MODEL
40
Perkiraan selalu dapat dibuat dengan menerapkan model estimasi pada sekumpulan
nilai variabel independen baru dan menghitung nilai variabel dependen. Namun, dalam
melakukannya, kita harus mempertimbangkan beberapa faktor yang dapat berdampak
serius pada kualitas prediksi baru:
 Saat menerapkan model pada sampel baru, kita harus ingat bahwa prediksi kini tidak
hanya mencakup variasi pengambilan sampel dari sampel asli, namun juga variasi
sampel yang baru diambil. Oleh karena itu, kita harus selalu menghitung interval
kepercayaan dari prediksi kita selain estimasi titik untuk melihat kisaran nilai variabel
dependen yang diharapkan.
 Kita harus memastikan bahwa kondisi dan hubungan yang diukur pada saat
pengambilan sampel asli tidak berubah secara material.
Misalnya, dalam contoh kartu kredit kita, jika sebagian besar perusahaan mulai
membebankan biaya yang lebih tinggi untuk kartu mereka, kepemilikan kartu kredit
sebenarnya mungkin akan berubah secara substansial, namun informasi ini tidak
akan disertakan dalam model.
 Terakhir, jangan menggunakan model untuk memperkirakan di luar rentang variabel
independen yang ditemukan dalam sampel. Misalnya, dalam contoh kartu kredit kita,
jika keluarga terbesar memiliki 6 anggota, mungkin tidak bijaksana untuk
memprediksi kepemilikan kartu kredit untuk keluarga dengan 10 anggota. Kita tidak
dapat berasumsi bahwa hubungannya adalah sama untuk nilai-nilai variabel
independen yang jauh lebih besar atau lebih kecil dibandingkan dengan nilai dalam
sampel estimasi awal.
Memperluas Regresi Berganda
Seperti yang diharapkan, meluasnya penggunaan regresi berganda di seluruh bidang
analitik, baik akademis maupun organisasi, telah melahirkan beragam varian untuk
mengatasi berbagai masalah, banyak di antaranya telah dibahas. Di antara yang paling
banyak digunakan adalah sebagai berikut: regresi kuat untuk menangani outlier tanpa
41
penghapusannya, regresi kuantil di mana variabel terikat dibagi menjadi beberapa
subkelompok dan model diestimasi untuk masing-masing subkelompok, regresi terbatas di
mana batasan ditempatkan pada rentang atau bahkan arah param estimasi eter, regresi
dengan data hasil yang disensor atau terpotong (mirip dengan analisis kelangsungan hidup),
regresi dengan koreksi kesalahan pengukuran dan beberapa model regresi persamaan
berganda lainnya regresi yang tampaknya tidak berhubungan dan regresi multivariat. Bab ini
tidak membahas semua metode ini, namun peneliti harus menyadari bahwa ada beragam
model berbasis regresi untuk menangani berbagai pertanyaan penelitian yang berbeda.
MODEL MULTILEVEL
Munculnya model multilevel di berbagai disiplin ilmu telah mengakui bahwa efek
multilevel atau hierarki (1) mengembangkan kerangka teoritis yang lebih sesuai untuk
banyak situasi aktual di mana model tersebut dipelajari, serta (2) memberikan kerangka
terpadu untuk mengatasi permasalahan yang ada. banyak masalah statistik yang terjadi
secara alami ketika ada struktur data hierarki. Selain itu, perangkat lunak dan sumber daya
untuk pemodelan bertingkat telah berkembang hingga setiap peneliti harus memasukkan
pemodelan bertingkat jika diperlukan. Diskusi berikut berfokus pada pertama-tama
memberikan pengenalan pemodelan multilevel, pentingnya efek kontekstual dan struktur
data hierarki yang dihasilkan, tingkat efek dalam model hierarki dan penggunaannya secara
luas di seluruh disiplin ilmu dan sumber daya dasar yang tersedia. Bagian selanjutnya
merinci beberapa konsep dasar dalam pemodelan bertingkat, mencocokkan properti
pengukuran dengan level, korelasi intrakelas, efek acak versus tetap, pertimbangan ukuran
sampel, sedangkan bagian terakhir menjelaskan strategi pemodelan lima tahap untuk
mengembangkan model bertingkat.
Sebelum pengembangan model bertingkat, peneliti dipaksa melakukan dua
kompromi. Pertama, pelanggaran terhadap asumsi independensi secara umum diabaikan.
Kedua, variabel-variabel yang menjadi ciri wilayah dimasukkan langsung ke dalam
42
persamaan regresi tunggal yang dikumpulkan di seluruh wilayah, meskipun variabel-variabel
tersebut diukur pada tingkat yang berbeda dan dengan demikian nilai tunggal suatu wilayah
digunakan untuk semua individu dalam wilayah tersebut. Kedua tindakan ini melanggar
prinsip dasar regresi berganda, namun merupakan satu-satunya tindakan pada saat itu.
Pendekatan Model Multilevel Model multilevel mendekati masalah dengan cara yang agak
lebih kompleks, namun pada dasarnya sederhana—persamaan terpisah untuk setiap level
yang kemudian digabungkan. Persamaan Level-1 sama seperti model regresi dasar kami
sebelumnya, bervariasi menurut wilayah:
MANFAAT MLM
Manfaat MLM bersifat metodologis dan konseptual [58]. Dari sudut pandang
metodologis, perbaikan yang paling penting adalah penggabungan ketergantungan antar
observasi yang diperkenalkan oleh struktur data bertingkat. Ketergantungan ini menciptakan
dua masalah statistik bila tidak diperbaiki dengan menggunakan MLM.
Pertama, kesalahan standar koefisien dibiaskan ke bawah (yaitu lebih kecil),
sehingga memudahkan untuk menemukan signifikansi statistik daripada yang seharusnya
[107]. Hal ini terutama menjadi masalah untuk variabel tingkat tinggi yang berkali- kali lipat
menjadi variabel kunci yang menjadi perhatian [77]. Kedua, ukuran sampel efektif yang
sebaiknya digunakan lebih kecil dibandingkan sampel keseluruhan karena struktur data
yang disarangkan [112]. Hal ini berdampak pada estimasi kekuatan statistik dan melebih-
lebihkan tingkat kekuatan statistik yang sebenarnya dicapai. Selain mengatasi
permasalahan ini, MLM dapat secara langsung menggabungkan data pengukuran berulang
serta diterapkan langsung pada rencana pengambilan sampel bertingkat yang lebih rumit
yang memiliki efek bersarang.
Dari perspektif konseptual, MLM memungkinkan dimasukkannya karakteristik dari
berbagai tingkat model konseptual sambil tetap mempertahankan sifat hierarki dari efeknya.
Banyak model konseptual yang diteorikan dalam struktur hierarki (misalnya, hasil
43
pendidikan, perilaku organisasi, kelompok sosial dan politik, dll.). MLM menyediakan metode
yang “mempertahankan” pengaruh tingkat terhadap hubungan dalam tingkat tersebut (yaitu,
variabel independen dalam persamaan tingkat hanyalah variabel yang diukur pada tingkat
tersebut). Hal ini juga memungkinkan adanya pembagian dampak ke berbagai tingkat yang
sebelumnya tidak tersedia. Terakhir, seperti yang akan dibahas pada bagian efek tetap
versus efek acak, penggunaan efek acak memungkinkan terjadinya generalisasi dampak
terhadap populasi yang tidak mungkin dilakukan dengan efek tetap.
SUMBER DAYA UNTUK MLM
Salah satu manfaat paling positif dari pengembangan multi-disiplin MLM adalah
keragaman perangkat lunak yang tersedia. Software pertama yang banyak digunakan untuk
MLM adalah HLM yang masih banyak digunakan hingga saat ini [93]. Perkembangan yang
lebih baru adalah MLwiN [26] dan modul bertingkat tersedia di banyak program statistik
(Stata, MPLUS) atau melalui metode statistik dasar (misalnya, model MIXED di IBM SPSS
dan SAS).
Selain kemampuan ketersediaan perangkat lunak, ada beberapa teks bagus dengan
penjelasan lebih rinci tentang MLM dari berbagai sudut pandang [62, 45, 47, 108, 6] serta
teks yang berorientasi pada perangkat lunak tertentu – IBM SPSS [58], SAS [ 12 Stata [91]
dan R [42].
MODEL PANEL
Dalam kerangka analisis yang agak mirip dengan model bertingkat, model panel atau
analisis panel adalah teknik analisis berbasis regresi yang dirancang untuk menangani
analisis cross-sectional dari data longitudinal atau data deret waktu. Dalam perspektif cross-
sectional, ini mengakomodasi analisis regresi tipikal dengan serangkaian variabel
independen yang terkait dengan variabel hasil. Analisisnya bisa menganalisis individu,
perusahaan, merek, sekolah, negara atau unit analisis lainnya, dan faktor apa saja yang
44
mempengaruhi hasilnya. Namun elemen unik dari model panel adalah bahwa model
tersebut juga mengakomodasi data longitudinal baik untuk variabel dependen maupun
independen. Jadi, daripada harus melakukan analisis terpisah setiap tahunnya atau
menggabungkan data-data tersebut dari tahun ke tahun dengan cara tertentu, model panel
dirancang untuk memenuhi karakteristik yang diperlukan dari jenis data ini.
Kesamaan dengan Model Bertingkat
Dengan menggunakan terminologi model bertingkat, setiap unit analisis (misalnya,
individu, perusahaan, sekolah, dll.) membentuk suatu kelompok (yaitu, Tingkat-2), dengan
data longitudinal untuk unit analisis tersebut berupa observasi dalam kelompok tersebut
(yaitu, Tingkat -1). Dalam model bertingkat kami memperhatikan ketergantungan dalam
grup. Dengan data longitudinal kita mengetahui bahwa kita mempunyai beberapa pola
korelasi serial yang harus diperhitungkan. Model panel akan menggunakan banyak konsep
yang sama, khususnya efek tetap versus efek acak, untuk menganalisis bentuk data
kelompok yang spesifik ini.
Manfaat Model Panel
Kemampuan untuk mengintegrasikan analisis cross-sectional dan longitudinal ke
dalam satu kerangka kerja memiliki beberapa keunggulan dibandingkan metode lainnya.
Pertama, dengan menggunakan estimasi efek tetap untuk suatu efek, permasalahan
variabel yang dihilangkan (endogenitas) diperhitungkan. Dengan melakukan hal ini, model
juga dapat menjelaskan heterogenitas di antara unit-unit analisis. Kombinasi penggunaan
efek tetap dan acak memungkinkan kontrol yang tepat atas variasi karena heterogenitas
antar unit analisis dan ketergantungan dalam kelompok.
Model Panel Latar Belakang
Model Panel Latar Belakang memberikan alternatif terhadap sejumlah teknik analisis
lain yang ditujukan untuk data jangka panjang. Pendekatan pertama adalah model cross-
45
sectional yang diulang-ulang, yang mengalami ketidakmampuan untuk “menghubungkan”
analisis selama bertahun-tahun yang kita bahas di bagian model multilevel. Pendekatan
kedua adalah model sejarah peristiwa, yang mencakup teknik-teknik seperti analisis
kelangsungan hidup, analisis waktu kegagalan, dan model bahaya atau risiko.
Jenis model ini cukup dapat diterapkan pada proses tertentu (misalnya
kelangsungan hidup) dan metode yang muncul memfasilitasi masuknya lebih banyak
kovariat (yaitu variabel independen). Namun model-model ini masih memiliki kelemahan
karena terbatasnya variasi yang dapat diakomodasi dan mengakibatkan fokus pada prediksi
dibandingkan penjelasan, serta beberapa masalah pengelolaan data yang kompleks.
Metode alternatif ketiga adalah analisis deret waktu, yang paling baik dicirikan sebagai
beberapa variabel, banyak periode waktu. Ia memiliki keunggulan unik dalam prosedur
analitis ekstensif untuk estimasi dan prediksi serta wawasan terperinci mengenai pola
sepanjang waktu.
Permasalahan Dasar
Beberapa permasalahan mendasar yang terlibat dalam model panel dan memaparkan
kepada pembaca jenis permasalahan yang harus ditangani dalam metode ini. Pada bagian
di bawah ini kita akan membahas jenis-jenis variabel yang dapat dimasukkan ke dalam
model panel, jenis-jenis model yang dapat diestimasi dengan menggabungkan efek-efek
tetap dan acak, beberapa pertanyaan dasar ketika memilih efek-efek tetap versus acak dan
kemampuan untuk menambahkan dimensi waktu.
JENIS VARIABEL
Ada empat tipe dasar variabel yang dapat digunakan dalam model panel. Yang
pertama adalah variabel yang berbeda antar unit analisis, namun tidak berubah seiring
berjalannya waktu (misalnya ras dan gender, jenis perusahaan atau tingkat sekolah). Jenis
variabel kedua dapat berubah seiring berjalannya waktu, namun sama untuk semua unit
analisis pada periode waktu tertentu (misalnya, indikator perekonomian nasional).
46
REFERENCES
Aguinis H., JC Beaty, RJ Boik, dan CA Pierce. 2005. Ukuran Efek dan Kekuatan dalam
Menilai Efek Moderasi Variabel Kategori Menggunakan Regresi Berganda: Tinjauan 30
Tahun. Jurnal Psikologi Terapan 90: 94–107.
Aguinis, H., RK Gottfredson, dan H. Joo. 2013. Rekomendasi Praktik Terbaik untuk
Mendefinisikan,Mengidentifikasi, dan Menangani Pencilan. Metode Penelitian
Organisasi 16: 270–301.
Akaike, H. 1974. Pandangan Baru pada Model Statistik Identifikasi. Transaksi IEEE pada
Kontrol Otomatis 19: 716–23.
Alkharusi, H. 2012. Variabel Kategorikal dalam Analisis Regresi: Perbandingan Dummy dan
Effect Coding. Jurnal Pendidikan Internasional 4: 202–10.
Baltagi, B. 2008. Analisis Ekonometrika Data Panel. New York: Wiley.
Banerjee, S., BP Carlin, dan AE Gelfan. 2014. Pemodelan dan Analisis Hirarki untuk Data
Spasial. Boca Raton, FL: Pers CRC.
Barcikowski, RS 1981. Kekuatan Statistik dengan Mean Grup sebagai Unit Analisis. Jurnal
Statistik Pendidikan 6: 267–85.
Barnett, V., dan T. Lewis. 1994. Pencilan dalam Data Statistik, edisi ke-3. New York: Wiley.
Beck, Natanael. 2001. Data Rangkaian Waktu–Penampang: Apa yang Telah Kita Pelajari
dalam Beberapa Tahun Terakhir? Tahunan
Review Ilmu Politik 4: 271–93.
iii
Beckstead, JW 2012. Mengisolasi dan Mengkaji Sumber Supresi dan Multikolinearitas pada
Regresi Linier Berganda. Penelitian Perilaku Multivariat 47: 224–46.
Bell, A., dan K. Jones. 2015. Penjelasan Fixed Effect: Pemodelan Random Effects dari Data
Time-Series Cross- Sectional dan Panel. Penelitian dan Metode Ilmu Politik 3:133–53.
Belsley, DA, E. Kuh, dan E. Welsch. 1980. Diagnostik Regresi: Mengidentifikasi Data yang
Berpengaruh dan Sumber Kolinearitas. New York: Wiley.
Blalock, HM 1984. Model Efek Kontekstual: Masalah Teoritis dan Metodologis. Review
Tahunan Sosiologi 10: 353–72.
Bliese, PD, dan PJ Hanges. 2004. Menjadi Terlalu Liberal dan Terlalu Konservatif: Bahaya
Memperlakukan Data Kelompok Seolah-olah Mereka Independen. Metode Penelitian
Organisasi 7: 400–17.
BMDP Statistical Software, Inc. 1991. SOLO Power Anal ysis.Los Angeles: BMDP.
Bock, RD (edisi). 2014. Analisis Bertingkat Data Pendidikan. Amsterdam: Elsevier.
Merek Bollen, KA, dan JE. 2010. Model Panel Umum dengan Efek Acak dan Tetap:
Pendekatan Persamaan Struktural. Kekuatan Sosial 89: 1–34.
Kotak, GEP, dan DR Cox. 1964. Analisis Transformasi. Jurnal Royal Statistical Society B 26:
211–43.
Boyd, LH, dan GR Iversen. 1979. Analisis Kontekstual: Konsep dan Teknik Statistik.
Belmont, CA: Wadsworth.
iv
Bryk, AS, dan SW Raudenbush. 1988. Menuju Konseptualisasi Penelitian Pengaruh Sekolah
yang Lebih Tepat: Model Linier Hirarki Tiga Tingkat. Jurnal Pendidikan Amerika 97: 65–
108.
Bryk, AS, dan SW Raudenbush. 1989. Metodologi Penelitian Organisasi Lintas Tingkat.
Dalam SB Bacha rach (ed.), Penelitian Sosiologi Organisasi, Vol. 1, Greenwich, CT:
JAI Press, hlm.233–73.
Bryk, AS, dan SW Raudenbush. 1992. Model Linier Hirarki. Taman Newbury, CA: Sage.
Budescu DV 1993. Analisis Dominasi: Pendekatan Baru terhadap Masalah Pentingnya
Relatif Prediktor dalam Regresi Berganda. Buletin Psikologis 114: 542–51.
Budescu DV, dan R.Azen. 2004. Melampaui Ukuran Global yang Pentingnya Relatif:
Wawasan dari Analisis Dominasi. Metode Penelitian Organisasi 7: 341–50.
Capraro, RM dan MM Capraro, 2001. Analisis Kesamaan: Memahami Kontribusi Varians
terhadap Korelasi Kanonik Keseluruhan Pengaruh Sikap Terhadap Matematika pada
Prestasi Geometri. Sudut Pandang Regresi Linier Berganda 27: 16–23.
Charlton, C., J. Rasbash, WJ Browne, M. Healy, dan B. Cameron. 2017.MLwiN Versi 3.00.
Pusat Pemodelan Bertingkat, Universitas Bristol.
Clark, TS, dan DA Linzer. 2015. Haruskah Saya Menggunakan Efek Tetap atau Acak?
Penelitian dan Metode Ilmu Politik 3: 399–408.

Analisis Regresi

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Regresi

Diunggah oleh

Hak Cipta:

Format Tersedia

TUGAS

Dr. SUJONO, SE.M.Si

PROGRAM STUDI MANAJEMEN (S2)

FAKULTAS EKONOMI DAN BISNIS

Regresi Berganda di Era Big Data...........................................................................................1

Kesalahan Standar Estimasi....................................................................................................5

Penilaian Keseluruhan Model..................................................................................................6

Dampak Ukuran Daya Prediktif................................................................................................6

Variabel Favorit dengan Multikollinearita

Proses Keputusan Analisis Regresi Berganda.........................................................................7

Kekuatan Statistik dan Ukuran Sampel Ukuran......................................................................11

Generalisasi dan Ukuran Sampel...........................................................................................12

Varians Konstan dari Jangka Kesalahan.................................................................................17

Normalitas Distribusi Istilah Kesalahan...................................................................................18

Spesifikasi Konfirmator dan Stimulan Pendekatan.................................................................22

Ukuran Korelasi yang Memasukkan Multikorinealitas.............................................................26

Toleransi atau VIF..................................................................................................................33

Sampel Tambahan atau Terpisah...........................................................................................35

Permalan dengan Model.........................................................................................................36

Kesalahan Baku Koefisien......................................................................................................43

Ikhtisar Proses Bertahap.........................................................................................................44

Analisis Prot Regresi Linear....................................................................................................45

Menilai Kepentingan Variabel..................................................................................................47

Mengukur Derajat dan Dampak Multikolinearitas....................................................................47

Ukuran Pentingnya Variabel....................................................................................................48

bebas (prediktor). Tujuan analisis regresi berganda adalah menggunakan variabel

memastikan prediksi maksimal dari kumpulan variabel independen. Bobot menunjukkan

interpretasi mengenai pengaruh masing-masing variabel dalam membuat prediksi,

meskipun korelasi antar variabel independen mempersulit proses interpretasi. Dengan

independen yang paling baik dalam memprediksi variabel dependen.

Sebagaimana disebutkan dalam Bab 1, analisis regresi berganda adalah teknik

dengan pengkodean variabel dummy) atau variabel dependen (dengan menggunakan

ukuran biner dalam teknik khusus regresi logistik).

 Regresi Berganda di Era Big Data

akademik dan manajerial. Dalam penelitian akademis, penciptaan pengetahuan adalah

dalam bidang manajerial, organisasi perlu memahami bagaimana “mengelola” prosesnya.

penambangan data/algoritmik yang sedang berkembang, namun regresi berganda masih

 Prediksi Menggunakan Variabel Independen Tunggal: REGRESI SEDERHANA

Titik awal dalam setiap analisis regresi adalah mengidentifikasi satu

variabel independen yang menghasilkan prediksi terbaik dari ukuran dependen.

Berdasarkan konsep meminimalkan jumlah kesalahan kuadrat dalam prediksi,

kita dapat memilih variabel independen “terbaik” berdasarkan koefisien

korelasinya, karena semakin tinggi koefisien korelasinya, semakin kuat

hubungannya dan semakin besar akurasi prediksinya. Dalam persamaan

regresi, kami merepresentasikan titik potong sebagai b0 . Besarnya perubahan

variabel terikat akibat variabel bebas dilambangkan dengan istilah b1 , disebut

juga koefisien regresi. Dengan menggunakan prosedur matematika yang dikenal

sebagai kuadrat terkecil, kita dapat memperkirakan nilai b0 dan b1 sedemikian

rupa sehingga jumlah kesalahan kuadrat prediksi 1SSE 2 diminimalkan.

disebut residu (e atau P).

Menafsirkan Model Regresi Sederhana Dengan estimasi koefisien intersep

dan regresi menggunakan prosedur kuadrat terkecil, perhatian kini beralih ke

interpretasi kedua nilai berikut:

Koefisien Regresi Estimasi perubahan variabel terikat sebesar satuan perubahan

Jika koefisien regresi ternyata signifikan secara statistik (yaitu koefisien

variabel bebas berhubungan dengan variabel terikat.

penjelas dalam rentang nilai variabel independen. Selain itu interpretasinya

didasarkan pada karakteristik variabel independen:

variabel independen dapat mempunyai nilai nol dan tetap mempertahankan

relevansi praktisnya). Misalnya, asumsikan bahwa variabel independen

ketika iklan bernilai nol.

sebenarnya nol (misalnya, sikap atau persepsi tions), bantuan intersepsi

dalam meningkatkan proses prediksi, tetapi tidak memiliki nilai penjelasan.