Anda di halaman 1dari 8

2. Berapa banyak variabel penjelas untuk memasukkan .

Membuat keputusan dalam


hal ini , beberapa faktor faktor yang akan diambil ke dalam pertimbangan :
• Apakah ada alasan teoritis yang kuat untuk memasukkan variabel yang
diberikan,atau penting untuk pengujian kebijakan dengan model ?
• Apakah tanda estimasi koefisien konsisten dengan teori atau intuisi dan apakah
variabel signifikan (mis. Apakah Hrejected dalam uji-t?) ?
Jika ragu, salah satu cara maju adalah mengambil variabel yang
dipermasalahkan dan memperkirakan kembali regresi untuk menguji pengaruh
penghapusannya terhadap sisa koefisien; jika ini tidak terlalu penting, variabel
dapat ditinggalkan untuk kekikiran (model lebih sederhana dan sisa parameter
dapat diperkirakan lebih akurat). Paket perangkat lunak komersial menyediakan
prosedur 'otomatis' untuk mengatasi masalah ini (pendekatan bertahap); Namun,
ini dapat menyebabkan beberapa masalah, karena kami akan berkomentar di
bawah ini. Kami akan kembali ke masalah umum ini di bagian 8.4 (Tabel 8.1)
ketika membahas masalah spesifikasi model pilihan diskrit.
3. Koefisien determinasi. Ini memiliki bentuk yang sama dengan (4.11). Namun,
dalam hal ini dimasukkannya regressor lain selalu meningkatkan R2; untuk
menghilangkan masalah ini, R2 yang dikoreksi didefinisikan sebagai:
R2= [R2− k/(n − 1)][(n − 1)/(n − k − 1)]
di mana n adalah ukuran sampel seperti sebelumnya dan k adalah jumlah
regressorˆb.
Dalam pemodelan generasi perjalanan metode regresi berganda telah
digunakan baik dengan data agregat (zona) dan terpilah (rumah tangga dan
pribadi). Pendekatan pertama praktis telah ditinggalkan dalam hal produksi
perjalanan, tetapi masih merupakan metode utama untuk memodelkan atraksi
perjalanan. Dalam pengertian ini, perlu dicatat bahwa ekspresi (4.11) dan (4.12)
akan memiliki nilai antara 0 dan 1 jika dan hanya jika model kuadrat terkecil
mempertimbangkan intersep, yaitu, jika model (4.4) tidak dipaksa untuk
mempertimbangkan sama dengan nol. Juga, (4.12) adalah alat yang baik untuk
membandingkan model selama variabel Y yang digunakan untuk kasus yang
dianalisis adalah sama. Sebagai contoh, jika analis ingin membandingkan model
untuk jumlah perjalanan sebagai fungsi dari atribut zona dan yang lain
menggunakan logaritma dari jumlah perjalanan, langkah-langkah tidak tepat
karena penyebut dalam (4.11) tidak sama untuk kedua model .
4. Pengujian hipotesis. Jika analis tertarik untuk menguji hipotesis mengenai penduga
tertentu, uji-t yang dijelaskan dalam (4.8) dapat digunakan. Namun, jika hipotesis
melibatkan pembatasan linear antara banyak penduga, maka uji-F harus
digunakan. Dalam hal ini kita perlu memperkirakan model terbatas, di mana
pembatasan yang akan diuji menahan dan menghitung Jumlah Residu Kuadrat dari
model Terbatas (SSRR) yang sama dengan ε I = (Y I-YI) 2 dan sering sebuah
output dari perangkat lunak regresi. Kedua, kita perlu memperkirakan model tidak
terbatas (yaitu di mana pembatasan tidak dikenakan) dan menghitung SSR
Kemudian, statistik F dihitung sebagai berikut, di mana k adalah jumlah variabel
dalam model tidak dibatasi, dan r adalah jumlah pembatasan yang diberlakukan:

Statistik ini mengikuti distribusi F dengan derajat kebebasan r dan n-k. Intuisi
ujian adalah sebagai berikut: jika batasannya benar, SSR R harus mirip dengan
SSR dan statistik seharusnya mendekati nol. Sebaliknya, jika statistik lebih besar
dari F r, n-k U hipotesis nol dapat ditolak untuk beberapa tingkat kepercayaan
yang diinginkan.

4.2.2 Regresi Berganda Berbasis Zonal


Dalam hal ini upaya dilakukan untuk menemukan hubungan linear antara jumlah
perjalanan yang dihasilkan atau tertarik oleh zona dan karakteristik sosial ekonomi
rata-rata rumah tangga di setiap zona. Itu berikut ini beberapa pertimbangan
menarik:
1. Model zona hanya dapat menjelaskan variasi dalam perilaku membuat
perjalanan antar zona. Untuk alasan ini mereka hanya bisa berhasil jika variasi
antar-zona cukup mencerminkan alasan sebenarnya di balik variabilitas
perjalanan. Agar hal ini terjadi, perlu bahwa zona tidak hanya memiliki
homogen Komposisi sosial ekonomi, tetapi mewakili seluas mungkin
berbagai kondisi. Utama Masalahnya adalah bahwa variasi utama dalam data
perjalanan orang terjadi di tingkat intra-zonal.
2. Peran intersep. Orang akan mengharapkan garis regresi yang diperkirakan
melewati titik asal; namun, nilai intersep besar (mis. dibandingkan dengan
produk dari nilai rata-rata variabel apa pun dan koefisiennya) sering diperoleh.
Jika ini terjadi persamaan dapat ditolak; jika di sebaliknya, intersep tidak jauh
berbeda dari nol, mungkin informatif untuk memperkirakan ulang garis,
memaksanya melewati titik asal.
3. Zona kosong. Ada kemungkinan bahwa zona tertentu tidak menawarkan
informasi tentang variabel dependen tertentu (mis. tidak mungkin ada
perjalanan HB yang dihasilkan di zona non-perumahan). Zona kosong harus
dikecualikan dari analisis; meskipun inklusi mereka seharusnya tidak sangat
mempengaruhi estimasi koefisien (karena persamaan harus melewati titik
asal), suatu kenaikan sewenang-wenang dalam jumlah zona yang tidak
memberikan data yang berguna akan cenderung menghasilkan statistik yang
terlalu tinggi keakuratannya estimasi regresi.
4. Total zonal versus zonal berarti. Saat merumuskan model, analis tampaknya
memiliki pilihan antara menggunakan variabel agregat atau total, seperti
perjalanan per zona dan mobil per zona, atau tarif seperti perjalanan per
rumah tangga per zona dan mobil per rumah tangga per zona. Dalam kasus
pertama model regresi akan menjadi:
sedangkan model yang menggunakan tarif adalah:

dengan y i = Yi / Hi ; x si = X i/ H saya ; e i = E i / H i dan H i jumlah rumah


tangga di zona i.
Kedua persamaan itu hampir identik, dalam arti mereka berusaha
menjelaskan variabilitas perjalanan membuat perilaku antar zona, dan dalam
kedua kasus parameter memiliki arti yang sama. Mereka perbedaan yang unik
dan mendasar berkaitan dengan distribusi istilah kesalahan dalam setiap
kasus; sudah jelas itu kondisi varians konstan dari model tidak dapat berlaku
dalam kedua kasus, kecuali H itu sendiri konstan untuk semua zona i.
Sekarang, karena variabel agregat langsung mencerminkan ukuran
zona, penggunaannya harus menyiratkan itu besarnya kesalahan sebenarnya
tergantung pada ukuran zona; heteroskedastisitas ini (variabilitas dari ariance)
memang telah ditemukan dalam praktek. Menggunakan pengganda, seperti 1 /
H , memungkinkan heteroskedastisitas harus dikurangi karena model dibuat
independen dari ukuran zona. Dalam nada yang sama, juga menemukan
bahwa variabel agregat cenderung memiliki interkorelasi yang lebih tinggi
(yaitu multikolinearitas) daripada tarif. Penting untuk dicatat bahwa model
yang menggunakan variabel agregat sering menghasilkan nilai R yang lebih
tinggi saya ,tapi ini hanya efek palsu karena ukuran zona jelas membantu
menjelaskan jumlah total perjalanan (lihat Douglas dan Lewis 1970). Yang
pasti tidak sehat adalah campuran tingkat dan variabel agregat dalam model
tunggal.
Untuk mengakhiri tema ini, penting untuk berkomentar bahwa bahkan
ketika tarif digunakan, regresi berbasis zonal dikondisikan oleh sifat dan
ukuran zona (mis. masalah agregasi spasial). Ini jelas dicontohkan oleh fakta
bahwa variabilitas antar zona berkurang dengan ukuran zona seperti yang
ditunjukkan pada Tabel 4.2, dibangun dengan data dari Perth (Douglas dan
Lewis 1970).
4.2.3 Household-based Regression
Variasi intra-zonal dapat dikurangi dengan mengurangi ukuran zona, terutama jika
zonanya homogen. Namun, zona yang lebih kecil menyiratkan jumlah yang lebih
besar dari mereka dan ini memiliki dua konsekuensi:
 model yang lebih mahal dalam hal pengumpulan data, kalibrasi dan operasi;
 kesalahan pengambilan sampel yang lebih besar, yang dianggap tidak ada oleh
model regresi linier berganda.
Untuk alasan ini, tampaknya logis untuk mengemukakan model yang tidak
tergantung pada batas zona. Di awal tahun 1970 diyakini bahwa unit analisis yang
paling tepat dalam kasus ini adalah rumah tangga (dan bukan individu); dikatakan
bahwa serangkaian interaksi interpersonal yang penting di dalam rumah tangga tidak
dapat dimasukkan bahkan secara implisit dalam model individu (mis. ketersediaan
mobil, yaitu, yang anggota telah menggunakan mobil). Tesis ini kemudian ditentang
seperti yang akan kita lihat di bagian 4.3.3, tetapi dengan sedikit keberhasilan praktis.
Dalam aplikasi berbasis rumah tangga, setiap rumah diambil sebagai vektor data
input untuk dibawa masuk model semua rentang variabilitas yang diamati tentang
karakteristik rumah tangga dan perjalanannya tingkah laku. Proses kalibrasi, seperti
dalam kasus model zona, dapat dilanjutkan secara bertahap, masing-masing menguji
variabel penjelas potensial pada gilirannya sampai model terbaik (dalam hal beberapa
statistik ringkasan untuk a diberikan tingkat kepercayaan) diperoleh. Perawatan harus
diambil dengan paket komputer bertahap otomatis karena mereka dapat
meninggalkan variabel yang merupakan prediktor sedikit lebih buruk daripada yang
lain yang tersisa dalam model, tetapi yang mungkin terbukti lebih mudah untuk
diperkirakan.
Pada kenyataannya, metode bertahap tidak direkomendasikan; lebih baik untuk
melanjutkan sebaliknya, yaitu menguji model dengan semua variabel yang tersedia
dan mengambil yang tidak penting (secara teoritis atau alasan kebijakan) dan
memiliki signifikansi rendah atau tanda yang salah.
Contoh 4.3 Pertimbangkan variabel perjalanan per rumah tangga (Y), jumlah
pekerja (X 2 1 ). Tabel 4.3 menyajikan hasil langkah-langkah berturut-turut dari
estimasi model bertahap; baris terakhir juga menunjukkan (dalam tanda kurung) nilai
untuk t-rasio (persamaan 4.9). Dengan asumsi ukuran sampel besar, sesuai jumlah
derajat kebebasan (n - 2) juga banyak sehingga nilai-t dapat dibandingkan dengan
nilai kritis 1,645 untuk tingkat signifikansi 95% pada tes satu sisi (kita tahu hipotesis
nol adalah unilateral dalam hal ini karena Y harus meningkat dengan kedua X 1 dan
X 2 ).

Model ketiga adalah persamaan yang masuk akal meskipun R rendah 2 . Intercept
0.91 tidak besar (bandingkan dengan 1,44 kali jumlah pekerja, misalnya) dan
koefisien regresi secara signifikan berbeda dari nol (H ditolak dalam semua kasus).
Model mungkin bisa diuntungkan dari dimasukkannya variabel lebih lanjut jika
tersedia.
Indikasi seberapa baik model ini dapat diperoleh dari membandingkan diamati dan
dimodelkan perjalanan untuk beberapa pengelompokan data (lihat Tabel 4.4). Ini
lebih baik daripada membandingkan total karena di dalamnya kasus kesalahan yang
berbeda dapat mengkompensasi dan bias tidak akan terdeteksi. Seperti yang bisa
dilihat, mayoritas sel menunjukkan perkiraan yang masuk akal (mis. kesalahan
kurang dari 30%). Jika bias besar terlihat itu akan diperlukan untuk menyesuaikan
parameter model; Namun, ini tidak mudah karena tidak ada yang jelas aturan untuk
melakukannya, dan itu sangat tergantung pada konteks.

4.2.4 The Problem of Non-Linearity


Seperti yang telah kita lihat, model regresi linier mengasumsikan bahwa setiap
variabel independen menggunakan linear mempengaruhi variabel dependen. Tidak
mudah mendeteksi non-linearitas karena tampaknya linear relasi bisa berubah
menjadi non-linear ketika kehadiran variabel lain diizinkan dalam model. Grafik
multivarian berguna dalam hal ini; contoh Gambar 4.9 menyajikan data untuk rumah
tangga dikelompokkan berdasarkan kepemilikan mobil dan jumlah pekerja. Dapat
dilihat bahwa perilaku perjalanan adalah non-linear dengan menghormati ukuran
keluarga.

Penting untuk disebutkan bahwa ada kelas variabel, variabel yang bersifat
kualitatif, yang biasanya menunjukkan perilaku non-linear (mis. jenis tempat tinggal,
pekerjaan kepala rumah tangga, usia, jenis kelamin). Secara umum ada dua metode
untuk memasukkan variabel non-linear ke dalam model:

Anda mungkin juga menyukai