Anda di halaman 1dari 13

BAB 13

Analisis kuantitatif

Chris Leishman
Pengantar

Bab ini memperkenalkan sejumlah konsep dalam analisis kuantitatif. Fokusnya


adalah pada statistik inferensial dan pemodelan ekonometrik. Tujuan bab ini adalah untuk
menetapkan pengantar untuk berbagai metode kuantitatif yang berpotensi bermanfaat
dalam penelitian lingkungan binaan daripada untuk mencakup setiap aspek yang mungkin
dari pendekatan yang diperiksa di sini. Memang, para peneliti lingkungan yang serius
dalam melakukan penelitian kuantitatif didesak untuk melangkah lebih jauh setelah
membaca buku ini dan mempertimbangkan untuk membaca teks ekonometrik yang lebih
khusus seperti Green (1997) atau Pindyck and Rubinfeld (1997). Bagi mereka yang belum
cukup siap untuk mengambil langkah berikutnya ke dalam ranah teori ekonometrik yang
agak rumit, saya membuat yang lebih rinci tetapi saya berharap masih versi bawah dari bab
ini dalam Leishman (2003).

Sebagian besar peneliti menggunakan data kuantitatif akan menggunakan kombinasi


statistik deskriptif dan inferensial tetapi, pada akhirnya, jawaban atas pertanyaan penelitian
yang ditetapkan hampir selalu ditetapkan dengan referensi ke statistik inferensial, yaitu
yang bergantung pada teori sampling daripada deskripsi. Umumnya, ada hubungan yang
seimbang antara statistik deskriptif dan inferensial. Analisis awal menggambar pada
statistik deskriptif adalah langkah yang berguna dalam melakukan pekerjaan empiris yang
lebih rinci. Sebagai contoh, ketika menyelidiki apakah variabel Y'is dipengaruhi oleh
variabel X maka sebagai bagian dari penyelidikan empiris akan berguna untuk mengetahui
nilai minimum, maksimum, median dan mean dari variabel-variabel ini. Ukuran lain yang
menarik adalah varians (atau standar deviasi) dan korelasi. Secara kolektif, langkah-
langkah akan menunjukkan penyebaran data dan apakah ada hubungan antara dua variabel.
Tentu saja, batasan utama statistik deskriptif adalah bahwa mereka tidak menjawab
pertanyaan sebab dan akibat.

Bab ini mengkaji penggunaan dan penerapan metode kuantitatif dalam penelitian
Lingkungan Buatan. Diasumsikan bahwa penelitian ini berkaitan dengan bisnis menguji
hipotesis atau teori sebab akibat dan teori dan bahwa peneliti akan bekerja dengan mengacu
pada hukum probabilitas (teori sampling)! Setelah pemeriksaan yang sangat singkat dari
teori sampling dan pengujian hipotesis, berbagai aplikasi dipertimbangkan mulai dari
aplikasi pengujian parametrik yang relatif sederhana melalui model regresi sederhana
hingga model regresi yang lebih rumit termasuk model pilihan, rangkaian waktu dan model
panel. Yang terakhir hanya diperiksa secara sepintas karena masalah teoritis dan praktis
yang diajukan oleh pendekatan ini membutuhkan perawatan yang jauh lebih komprehensif
daripada yang mungkin dilakukan.

Inti Dari Teori Sampling

Kunci untuk menjawab pertanyaan dalam penelitian adalah fakta bahwa analisis
statistik dari satu jenis atau lainnya dilakukan pada sampel data, sering dikumpulkan untuk
tujuan spesifik analisis dalam kaitannya dengan proyek penelitian yang diberikan. Dalam
proyek semacam itu, statistik sering dihitung menggunakan sampel data dan hasil analisis
statistik ini digunakan untuk membuat kesimpulan tentang populasi. Yang terakhir, tentu
saja, memiliki arti penting dan terkenal dalam statistik dan secara sederhana berarti
penjumlahan dari semua pengamatan atau kasus di mana hipotesis dapat diduga untuk
dipegang.

Kasus untuk mendasarkan analisis pada sampel data daripada populasi cukup sederhana
bahwa itu akan sering setidaknya tidak praktis, dan mungkin tidak mungkin, serta hampir
selalu tidak efisien untuk mengumpulkan data untuk suatu populasi. Sampel adalah
sekumpulan kecil data yang diambil dari suatu populasi. Dalam kebanyakan kasus peneliti
akan memilih metode pengumpulan data sedemikian rupa sehingga sampel cukup dan
terbukti representatif populasi untuk memungkinkan analisis sampel yang akan digunakan
untuk membentuk kesimpulan tentang populasi.

Banyak, tetapi tidak semua, variabel yang digunakan dalam analisis kuantitatif akan
terdistribusi secara normal (atau memiliki distribusi yang mendekati distribusi Normal).
Apa artinya ini? Distribusi adalah pengaturan nilai-nilai variabel dalam kaitannya dengan
nilai rata-rata dari variabel. Dalam distribusi normal standar, mean sama dengan nol dan
distribusi simetris. Yang penting, ini berarti bahwa nilai individual yang diambil dari
distribusi sama-sama cenderung positif atau negatif. Suatu distribusi dapat digambarkan
oleh kurva atau oleh fungsi kepadatan probabilitas (pdf). Fungsi kepadatan probabilitas
kumulatif untuk distribusi Normal mengambil bentuk berikut:

Pada Gambar 13.1, garis f (x) memanjang dari - ke + x tetapi harus cukup jelas
bahwa probabilitas hampir nol ketika standar deviasi adalah -3 dan hampir satu ketika
standar deviasi adalah +3. Ketika standar deviasi adalah 'nol, probabilitasnya adalah 0,5.
Fakta-fakta ini berarti bahwa harus ada 50 persen probabilitas bahwa nilai x yang ditarik
secara acak akan berada dalam rentang -oo hingga 0 deviasi standar. Dengan kata lain, ada
50 persen kemungkinan bahwa nilai akan berada dalam kisaran 0 hingga 00 standar deviasi
dari nol. Bentuk dan posisi distribusi Normal ditentukan oleh mean dan standar deviasi (p
dan 6). Distribusi Normal berikut (Gambar 13.2) memiliki mean nol dan deviasi standar 1.

Gambar 13.2 Distribusi normal dengan standar deviasi 1,00.


Teori sampling memberi tahu kita bahwa area di bawah kurva antara -1,96 dan +1,96
standar deviasi mean adalah sama dengan 0,95. Untuk menempatkan ini dengan cara lain,
jika kita secara acak menggambar nilai x maka ada "probabilitas 95 persen bahwa nilainya
akan berada di antara -1,96 dan 1,96.

Kami sekarang telah mengambil kembali fakta-fakta yang cukup dari teori sampling
untuk mengingatkan kita bagaimana pengujian hipotesis bekerja. Berikut ini contohnya.
Misalkan kita diberi nilai dari beberapa variabel yang tidak diketahui dan bertanya apakah
ada kemungkinan bahwa angka ini, pada kenyataannya, pengamatan variabel x. Sekarang
anggaplah bahwa mean dari variabel acak kontinu x adalah 0 dan standar deviasi adalah 1.
Jika nilai variabel yang tidak diketahui adalah 3 maka kita dapat mengatakan dengan lebih
dari 97,5 persen kepastian bahwa ini tidak mungkin menjadi pengamatan x .

Logika ini merupakan jantung dari salah satu bentuk pengujian hipotesis yang
paling sederhana - uji z (skor z adalah konsep yang terkait erat). Jika kita menyatakan nilai
variabel yang diamati sebagai 'jarak' dari populasi hipotesis berarti maka kita dapat
menimbang apakah pengamatan mungkin berasal dari populasi hipotesis tersebut. Sebagai
contoh, jika kita memiliki sampel yang berarti 50 dan standar deviasi 10 maka kita dapat
mempertimbangkan nilai variabel baru (misalkan itu adalah 75) dalam kaitannya dengan
itu. Skor z untuk variabel baru adalah 75 - 50 = 25 = 10 = 2,5. Jadi, nilai variabel mewakili
2,5 deviasi standar dari rata-rata dari sampel induk hipotesis (populasi) dan oleh karena itu
kurang dari 2,5 persen kemungkinan .. bahwa nilai milik distribusi ini. Tes sederhana ini
tetap berpotensi sangat berguna dan juga memiliki nilai dalam membantu pemahaman kita
tentang uji statistik yang lebih kompleks. Sebagai aturan, uji z dapat digunakan ketika kita
memiliki sampel besar (setidaknya 30, tetapi lebih disukai jauh lebih besar) dan data adalah
sekitar didistribusikan secara normal. Persamaan-untuk statistik z adalah sebagai berikut:

X-u
z . s/.,/n (13.1)

dimana

z z statistik

x mean sampel yang diamati

u populasi hipotesis berarti

n jumlah total pengamatan dalam sampel

s perkiraan standar deviasi populasi

Bentuk uji hipotesis umum lainnya

Meskipun ztest berguna dari sudut pandang demonstratif, ttest jauh lebih umum
digunakan dalam praktik. Cara termudah untuk membuat konsep distribusi t adalah dengan
mempertimbangkannya sebagai distribusi Normal yang telah disesuaikan untuk
memperhitungkan ketidakakuratan yang dapat muncul ketika berhadapan dengan sampel
kecil. Uji statistik berdasarkan distribusi Normal tidak kuat sehubungan dengan ukuran
sampel sehingga dalam banyak kasus distribusi t memberikan alternatif yang lebih kuat.
Nilai t kritis berbeda secara substansial dari distribusi Normal ketika jumlah derajat
kebebasannya kecil tetapi perbedaannya secara berangsur-angsur berkurang ketika derajat
kebebasan meningkat. Ketika sekitar seribu derajat kebebasan tersedia perbedaan antara t
dan nilai kritis Normal menjadi tidak berarti.
Salah satu aplikasi dari distribusi t hanya untuk menggunakan t nilai kritis
menggantikan nilai-nilai kritis z untuk tujuan menguji hipotesis mengenai observasi
tunggal dan distribusi induk yang diduga. Aplikasi umum lainnya adalah paired ttest. Ini
tepat ketika kita membangun hipotesis tentang satu sampel, biasanya sebelum dan sesudah
beberapa kejadian atau pengaruh. Cukup sering, tujuan dari tes semacam itu adalah untuk
mengetahui apakah peristiwa atau pengaruh tersebut memiliki pengaruh yang signifikan.
Misalnya, kita mungkin menggunakan uji t berpasangan untuk `membandingkan waktu
putaran terbaik dari sekelompok atlet sebelum dan sesudah perubahan ke rezim latihan
mereka untuk menguji pengaruh perubahan. Rumus untuk menghitung statistik t adalah
sebagai berikut:

d-u
t = sly (13.2)

dimana
t t statistik -
d mengamati perbedaan rata-rata, yaitu penjumlahan dari (x2i-x11) di mana x2i adalah
pengamatan ke- i dari sampel kedua dan x1, adalah pengamatan ke-1 dari sampel pertama
u mean populasi yang dihipotesiskan (biasanya ini sama dengan nol)
n jumlah total pengamatan dalam sampel
s perkiraan standar deviasi populasi

Bentuk tes hipotesis sederhana yang paling favorit dengan banyak peneliti yang
tertarik untuk mengintegrasikan metode kualitatif dan kuantitatif adalah uji chi-square
(diucapkan 'kye square') atau tes x2. Statistik chi-square berguna untuk menguji hipotesis
yang menggambarkan data atau proporsi kategoris. Statistik uji dihitung sebagai jumlah
residual kuadrat dibagi dengan prediksi atau:

X2 _ (Observed - Expected) (13.3)


Expected
Proporsi 'yang diharapkan' sering ditetapkan sebagai patokan yang ditetapkan secara acak
untuk memungkinkan tes untuk fokus pada beberapa kelompok kedua. Tujuannya biasanya
untuk menentukan apakah kelompok kedua mengikuti proporsi yang diharapkan dari
kelompok pertama, patokan. Sebagai contoh, misalkan kita telah mensurvei sampel
profesional konstruksi (n = 40) dan hipotesis kami adalah bahwa profesi konstruksi
'berpengalaman' lebih cenderung percaya bahwa mereka tidak memerlukan pelatihan lebih
lanjut daripada profesional yang tidak berpengalaman. Misalkan 22 sampel 'berpengalaman'
dan 16 menyatakan pandangan ini sementara 18 sampel 'tidak berpengalaman' dan 10
menyatakan pandangan yang sama. Yang jelas, proporsinya masing-masing adalah 72,7
persen dan 55,6 persen sehingga mereka berbeda.
statistik chi-square. Bagaimana kami menghitungnya tergantung pada bagaimana hipotesis
nol ditetapkan. Sebagai contoh:

Ho: 50 persen dari setiap kelompok percaya bahwa mereka tidak memerlukan pelatihan
lebih lanjut:
2_ (72.7 -50) 2 (55.6 -50) 2
X
50 + 50
= 10.933
Atau
Ho: Proporsi yang sama dari kelompok berpengalaman sebagai kelompok yang tidak
berpengalaman akan percaya bahwa mereka tidak memerlukan pelatihan lebih lanjut.

2 _ (72.7 - 55.6)2 + (55.6 - 55.6)?


X 55.6 55.6
= 5.259

Hipotesis dapat diuji secara formal dengan membandingkan statistik chi-square


dengan nilai kritisnya (dari tabel statistik). Sampel data mengandung dua derajat kebebasan
dan oleh karena itu kita harus mencari nilai kritis chi-kuadrat untuk 2 - 1 = 1 derajat
kebebasan. Ini adalah sumber umum kebingungan dalam tes chi-square tetapi untuk
membuatnya lebih sederhana, setiap responden dalam kumpulan data yang telah kami
kumpulkan dapat diringkas menggunakan dua bagian informasi: apakah mereka
berpengalaman (atau tidak berpengalaman) dan apakah (atau tidak) mereka menyatakan
pandangan bahwa mereka tidak memerlukan pelatihan lebih lanjut. Jadi, ada dua derajat
kebebasan dan bukan 40 (ukuran sampel)! Pilihan nilai kritis chi-kuadrat yang pendek
direproduksi pada Tabel 13.1.
Dalam hal ini, kedua hipotesis nol yang kami definisikan ditolak. Dalam kasus
pertama, kita dapat menolak nol bahwa kedua kelompok itu 50 persen kemungkinan untuk
mengekspresikan pandangan; dalam kasus kedua, kami menolak nol bahwa proporsi yang
sama dari kelompok yang berpengalaman menyatakan pandangan yang sama dengan
kelompok yang tidak berpengalaman. Namun, perhatikan bahwa nol tidak dapat ditolak
pada tingkat signifikansi 1 persen dalam kasus terakhir.

Inferensi dan kausalitas - model regresi dasar

Mahasiswa pascasarjana yang terlibat dalam penelitian lingkungan binaan


kuantitatif cenderung mempertimbangkan untuk melangkah lebih jauh di luar statistik
deskriptif dan pengujian hipotesis ke area yang lebih luas dari pemodelan ekonometrik.
Langkah dari deskriptif untuk statistik inferensial (termasuk pengujian hipotesis)
memungkinkan peneliti untuk bergerak di luar diskusi tentang hasil dan mulai membuat
pernyataan dan kesimpulan yang lebih ilmiah. Salah satu faktor pembatas utama dalam
pengujian hipotesis adalah kesederhanaan relatif dari proses: biasanya peneliti menetapkan
hipotesis nol dan alternatif. Hipotesis ini biasanya di sepanjang garis 'X menyebabkan Y.
Proses pengujian akan memimpin peneliti untuk dapat menolak hipotesis nol, atau gagal
untuk menolaknya. Meskipun sangat bermanfaat bagi peneliti untuk dapat membuat
kesimpulan ilmiah seperti ini, prosesnya; masih sangat membatasi. Sebagai contoh, jika ada
banyak pengaruh atau determinan potensial dari Y (dan bukan hanya satu variabel, X) maka
peneliti akan perlu melakukan serangkaian uji hipotesis, masing-masing melibatkan
pengujian apakah variabel X yang berbeda adalah secara statistik terkait dengan Y.
Meskipun sifat yang melelahkan ini tidak menarik dalam dirinya sendiri, ada masalah yang
lebih jauh jangkauannya yaitu bahwa peneliti secara implisit mengasumsikan bahwa tidak
ada hubungan antara X ketika mengikuti pendekatan semacam itu. Selain itu, batasan
pendekatan pengujian hipotesis adalah sedemikian rupa sehingga proses tidak akan
menghasilkan informasi apa pun pada kekuatan hubungan masing-masing antara berbagai
variabel X dan Y. Hal ini tidak valid, misalnya, untuk menarik penilaian tentang ukuran
relatif statistik uji ketika melakukan serangkaian tes.
Pembatasan ini sering menyebabkan peneliti menggunakan metode statistik yang
lebih fleksibel dan kuat. Di sisa bab ini, kita akan secara singkat memeriksa analisis regresi
atau pemodelan ekonometrik. Pemeriksaan ini singkat karena bidangnya - sangat
berkembang dengan baik dan istilah 'pemodelan ekonometrik' menggambarkan bidang luas
yang mencakup pendekatan spasial, time series, cross-sectional dan panel. Kebijakan
ekonomi adalah disiplin akademik yang mapan dalam dirinya sendiri dan bab ini tidak lebih
dari memikirkan logika dasar pendekatan ekonometrik. Bab 5 membahas pendekatan untuk
pemodelan dan analisis ekonomi dan aplikasinya ke lingkungan binaan.
Mungkin perbedaan konseptual yang paling signifikan antara analisis statistik
deskriptif dan inferensial adalah fakta bahwa para peneliti yang menggunakan pendekatan
ekonometrik mencari model. 'Model' memiliki makna yang khusus dan signifikan dalam
penelitian akademis tetapi, jelas, model adalah penyederhanaan, atau abstraksi dari, realitas
yang mempertahankan aspek-aspek penting atau hubungan yang terlibat. Idealnya, model
statistik harus mampu menjelaskan secara memuaskan bagaimana aspek realitas yang kita
pilih bekerja. Kedua, model harus mampu memprediksi yang memuaskan. Model regresi,
sebagai sebuah konsep, oleh karenanya memiliki daya tarik yang besar bagi peneliti. Model
ekonometrik yang baik akan menghasilkan informasi tentang variabel mana yang
menentukan variabel minat (disebut sebagai variabel dependen). Setelah estimasi, model
ekonometrik dapat digunakan untuk memprediksi atau memodelkan data. Diberikan nilai-
nilai baru dari variabel independen atau penjelasan, itu juga mungkin untuk menggunakan
Model yang diperkirakan untuk mengetahui nilai yang tidak diketahui dari variabel
dependen. Namun, model ekonometrik memerlukan pengujian dan pemeriksaan yang jauh
lebih luas daripada pengujian hipotesis sederhana dan, sebagai pengamatan biasa, perlu
dicatat bahwa ada banyak literatur yang berfokus pada identifikasi masalah yang
disebabkan (dan solusi) ketika model ekonometrik salah .
Model ekonometrik yang paling kompleks masih berpijak pada asumsi awal
bahwa garis kesesuaian terbaik dapat digunakan untuk menggambarkan hubungan antara
dua variabel, X dan Y, atau variabel independen dan dependen:

Yi = a + bXi + ui (13.4)
dimana
Yi estimasi nilai dari variabel dependen untuk pengamatan ke-1 sebuah konstanta (sama
untuk semua pengamatan)
b kemiringan atau gradien garis regresi (sama untuk semua pengamatan)

Xi nilai variabel independen untuk pengamatan ke dua u1 istilah kesalahan atau sisa untuk
pengamatan ke dua.
Kesalahan atau gangguan istilah (u) hadir untuk `memastikan bahwa (semoga)
perbedaan kecil antara dijelaskan atau diprediksi vailues variabel dependen dan nilai-nilai
yang diamati dapat dianggap berasal di suatu tempat; Dengan kata lain, istilah kesalahan
adalah variabel yang mengambil elemen apa pun dari variabel dependen yang tidak
dijelaskan oleh model.
Bahkan, istilah kesalahan sebenarnya adalah kunci untuk menentukan garis yang
paling cocok karena garis regresi didefinisikan sebagai garis yang meminimalkan jumlah
variasi yang tidak dapat dijelaskan dalam variabel dependen (Y). Total variasi dalam
variabel dependen Y didefinisikan sebagai berikut:

(Y; - Y)2 (13.5)

Ini dikenal sebagai jumlah total kuadrat (TSS) dan mengukur dispersi dari nilai yang
diamati untuk Y tentang nilai rata-rata Y. Total variasi yang dijelaskan dalam variabel
dependen Y dikenal sebagai jumlah regresi dari kuadrat (RSS) karena mengukur dispersi
dari nilai perkiraan untuk Yabout Y. Ini didefinisikan sebagai

(Y; - Y )2 (13.6)

Variasi yang tidak dapat dijelaskan dalam variabel dependen Y dikenal sebagai jumlah
kesalahan kuadrat (ESS) karena mengukur dispersi nilai-nilai yang diamati untuk Y tentang
nilai estimasi untuk Y. Definisi adalah

E (Y; - Y;)2 (13.7)

Oleh karena itu, dalam ringkasan, solusi untuk garis regresi (nilai perkiraan untuk a dan b)
ditentukan dengan memasang garis ke sebar data sehingga ESS diminimalkan dan tidak ada
posisi atau gradien lain yang akan menguranginya lebih lanjut. Karena kami memiliki tiga
ukuran dispersi dalam data (variasi total atau TSS, variasi yang dijelaskan atau RSS dan
variasi yang tidak dapat dijelaskan atau ESS), kami juga dapat membuat statistik yang
mengukur rasio yang dijelaskan ke variasi total. Ini dikenal sebagai statistik R squared dan
didefinisikan sebagai berikut:

R2 _ RSS
TSS (13.8)
Ketika titik data terletak dekat dengan garis regresi maka varian dijelaskan oleh garis akan
dekat dengan total varians dalam data dan statistik R squared akan mendekati 1. Ketika data
tersebar luas tentang garis maka R kuadrat statistik akan mendekati nol.

Model regresi berganda


Analisis regresi berganda berbeda dari regresi sederhana di mana lebih dari satu variabel
penjelas atau independen digunakan untuk menjelaskan dan memprediksi variabel
dependen, yaitu kombinasi variabel independen bersama-sama menentukan variabel
dependen. Sebagian besar aplikasi ekonometrik akan menggunakan analisis regresi
berganda, bukan sederhana. Dalam analisis regresi berganda, lebih umum menggunakan R2
yang disesuaikan daripada statistik R2. Ini karena statistik R2 tidak dapat dikurangi dengan
dimasukkannya lebih banyak variabel penjelas. R2 yang disesuaikan hanyalah statistik R2
tertimbang untuk memperhitungkan jumlah parameter yang diperkirakan

R2=1 -(1 -R2)N-k (13.9)

dimana
N jumlah observasi
k jumlah variabel independen
Statistik R2 yang disesuaikan dapat meningkat atau menurun dengan penambahan variabel
penjelas 'baru' sehingga peneliti sering menggunakan statistik secara iteratif untuk
mengukur (kasar) apakah spesifikasi model telah dioptimalkan atau tidak.
Peneliti menggunakan metode regresi berganda juga menggunakan Fstatistik untuk menguji
apakah persamaan regresi secara keseluruhan signifikan secara statistik. Hipotesis nol
adalah bahwa semua parameter persamaan sama dengan nol. Jika kita menolak hipotesis ini
maka kita gagal untuk menolak hipotesis alternatif bahwa persamaan adalah beberapa
digunakan dalam menjelaskan dan memprediksi variabel dependen. Fstatistik dihitung
sebagai berikut

172/ (k-
R2)
1) Fk-1,n-k = (1 - /
(n - k)
(13.10)
Nilai kritis untuk statistik uji ditemukan dalam distribusi F dengan derajat kebebasan sama
dengan jumlah parameter kurang satu (pembilang) dan jumlah pengamatan dikurangi
jumlah parameter (penyebut).
Dalam analisis regresi berganda, peneliti sering menggunakan R squared, adjusted R
squared dan statistik F bersama, dan dalam proses iteratif, untuk menentukan apakah model
memiliki nilai keseluruhan. Nilai termasuk variabel individu dalam persamaan regresi
ditentukan terutama dalam kaitannya dengan statistik t. Tidak seperti R square, adjusted R
square dan F statistics, yang menguji persamaan secara keseluruhan, output regresi standar
akan menghasilkan satu t statistik untuk setiap variabel yang termasuk dalam model.
Statistik t adalah statistik uji, yang pada saat itu digunakan untuk menguji hipotesis (bahwa
nilai sebenarnya dari parameter adalah nol). Untuk setiap parameter, statistik uji adalah
parameter yang diramalkan (koefisien) dikurangi dengan nilai populasi 'benar' yang
hipotesis (nol), semuanya dinyatakan sebagai proporsi deviasi standar estimasi parameter:

t= _____
b-b
Sb

Nilai kritis tergantung pada jumlah derajat kebebasan karena kita bekerja dengan distribusi
t tetapi, sebagai aturan kasar, kita mungkin mengharapkan signifikansi statistik ketika t
statistik lebih besar dari 2 atau lebih kecil dari -2. Hasil seperti itu menyiratkan bahwa
parameter estimasi dari variabel yang bersangkutan lebih dari 2 standar deviasi yang jauh
dari nol, sehingga kita dapat menolak hipotesis nol bahwa koefisien tidak nol secara
kebetulan dan mungkin nol jika kita mengumpulkan sampel yang berbeda. data dan
estimasi parameter lagi.
Penggunaan dan interpretasi statistik t lebih penting daripada analisis regresi sederhana.
Dalam yang terakhir, jelas bahwa variabel independen signifikan secara statistik jika model
memiliki kesesuaian (R2 tinggi dan Fstatistik). Dalam analisis regresi berganda
dimungkinkan untuk menentukan dan memperkirakan model yang memiliki kecocokan
yang baik tetapi tidak semua (atau bahkan relatif sedikit) dari variabel penjelas adalah
signifikan. Memeriksa statistik t memungkinkan identifikasi variabel penjelas yang
signifikan. Variabel yang tidak signifikan biasanya dijatuhkan dan analisis diulangi, suatu
proses yang dapat membantu mengidentifikasi spesifikasi model dengan kekuatan penjelas
yang lebih tinggi.
Seperti beberapa diskusi sebelumnya menunjukkan, peneliti sering bekerja dengan cara
iteratif, terutama ketika menggunakan metode ekonometrik. Daya tariknya terletak pada
kemampuan untuk menyempurnakan model yang sudah menunjukkan beberapa janji dan
hasil tidak jauh dari harapan sebelumnya. Dengan kata lain, ada garis tipis antara praktik
yang baik dalam optimasi model dan penambangan data! Yang terakhir ini umumnya
dianggap sebagai praktik yang buruk dalam penerapan model ekonometrik, meskipun
metode tersebut mungkin memiliki tempat di tempat lain. Tugas seorang peneliti dalam
memastikan bahwa model ekonometrik yang sehat telah diperkirakan jauh melampaui
perawatan dalam penyempurnaan model. Secara khusus, model ekonomi hanya berlaku
ketika seperangkat asumsi dan aturan yang penting telah dilestarikan. Asumsinya adalah
sebagai berikut:
Istilah kesalahan diasumsikan memiliki mean nol dan terdistribusi secara normal. Ini berarti
bahwa akan ada banyak nilai positif sebagai negatif sementara mayoritas residu akan
didistribusikan dekat nol. Kesalahan harus memiliki variasi konstan; variabel independen
diasumsikan tidak berkorelasi dengan residual dan, akhirnya, diasumsikan tidak ada
hubungan yang pasti antara variabel independen.
Ketika kesalahan tidak terdistribusi secara normal, ini menimbulkan keraguan pada
kesalahan standar dan. meningkatkan risiko salah menolak satu atau lebih hipotesis nol
mengenai signifikansi perkiraan parameter. Dengan kata lain, model yang diperkirakan
dapat muncul lebih baik daripada yang sebenarnya!
Dalam beberapa kasus, pelanggaran asumsi regresi adalah sugestif model mispesifikasi
(atau bentuk fungsional yang salah). Misalnya, anggap itu benar
hubungan adalah kuadratik antara Y, Xand X2, yaitu Y = a + biXand b2 X2. Sekarang
anggaplah bahwa kita mundur Yon X dan gagal untuk mengamati X2 atau memasukkannya
ke dalam model. Apa yang mungkin terjadi? Karena ada hubungan antara X dan Y, kita
harus mendapatkan disesuaikan R square, F dan t statistik yang menunjukkan bahwa model
memiliki beberapa kekuatan penjelas. Namun, jika kami memeriksa residual, terutama jika
kami memesannya sehubungan dengan X, kami akan menemukan hubungan dalam seri. Ini
hanya karena bagian kuadrat dari fungsi tidak diperhitungkan dalam persamaan regresi,
maka elemen ini hubungan antara X dan Y tetap di residual. Gejala heteroskedastisitas
adalah perkiraan yang salah dari kesalahan standar. Jika residu bersifat heteroskedastis
maka kita tidak bisa lagi mengandalkan statistik uji kami. Gambar 13.3 merangkum satu
kemungkinan pola visual residu heteroscedastic.
Pengujian untuk h eterosced asti city relatif mudah dan sebagian besar paket perangkat
lunak statistik menawarkan opsi yang cukup mudah diakses. Tes umum termasuk
Goldfeld-Quandt, Breusch-Pagan dan White tests (lihat Green, 1997; Pindyck dan
Rubinfeld, 1997 untuk diskusi penuh). Tes Goldfeld-Quandt adalah salah satu cara
termudah untuk membuat konsep. Data yang diperintahkan sehubungan dengan salah satu
variabel independen dan regresi terpisah dijalankan untuk nilai rendah dan tinggi. Kadang-
kadang sejumlah kecil pengamatan tengah dapat dihilangkan sama sekali. Rasio jumlah
kesalahan kuadrat dari regresi kedua (melibatkan nilai tinggi dari variabel pemesanan
independen) untuk yang pertama diuji terhadap distribusi F. Ketika rasio lebih tinggi dari
nilai kritis hipotesis nol dari homoscedasticity ditolak (heteroskedastisitas tidak dapat
dikesampingkan).
Korelasi antara variabel independen adalah kegagalan umum model ekonometrik,
khususnya model cross-sectional. Hubungan linear yang tepat antara variabel penjelas
disebut sebagai collinearity sempurna dan akan membuat estimasi parameter tidak
mungkin. Namun, itu tinggi, daripada sempurna, collinearity antara variabel independen
yang menyebabkan lebih banyak masalah empiris dalam prakteknya. Ketika ini terjadi,
mungkin untuk memperkirakan parameter regresi tetapi hasilnya mungkin menyesatkan.
Fenomena ini, yang dikenal sebagai multikolinieritas, mungkin sulit dideteksi. Satu set
gejala umum adalah kehadiran bersama statistik R2 dan F tinggi tetapi statistik t rendah
untuk beberapa atau semua variabel penjelas (hasil yang tidak logis). Indikasi umum
lainnya adalah parameter variabel volatil sehubungan dengan spesifikasi model. Dengan
kata lain, ketika beberapa koefisien variabel berubah secara signifikan tergantung pada
variabel lain yang juga termasuk dalam model, maka ada beberapa saran dari
multikolinieritas.
Ini adalah praktik umum untuk menghasilkan matriks koefisien korelasi sebelum (atau
bahkan setelah) memperkirakan parameter regresi. Matriks korelasi dapat membantu untuk
mengidentifikasi pasangan variabel penjelas yang sangat berkorelasi. Solusi
multikolinieritas umum lainnya adalah dengan memasukkan diagnosa collinearity dalam
output estimasi model dan menggunakan ini untuk memandu spesifikasi model akhir.
Pernyataan Penutup
Tujuan bab ini bukan untuk memberikan panduan rinci untuk melakukan analisis kuantitatif
tetapi untuk menawarkan beberapa wawasan dan saran bagi para peneliti
mempertimbangkan pendekatan kuantitatif. Bab ini telah membahas teori sampling,
pengujian hipotesis dan konsep dasar dalam regresi ordinary-square (OLS) biasa. Ini harus
memberikan pembaca dengan latar belakang yang cukup untuk memulai analisis eksplorasi
ditambah dengan bacaan lebih lanjut yang dirancang untuk memberikan pemahaman yang
lebih dalam dari beberapa masalah yang dieksplorasi.
Tentu saja, kesulitan lain yang dihadapi oleh banyak peneliti yang mempertimbangkan
metode kuantitatif adalah akses ke, atau pilihan, perangkat lunak. Merekomendasikan
perangkat lunak yang sesuai selalu sulit karena ada sejumlah besar statistik
dan perangkat lunak ekonometrik dan kelebihan dan kekurangan masing-masing dapat
halus. Namun, para peneliti dengan latar belakang yang sangat terbatas dalam statistik
mungkin ingin mempertimbangkan paket seperti Excel untuk memulai. Ini adalah paket
perangkat lunak undervalued ketika melakukan analisis statistik dan ekonometrik. Namun,
ia memiliki kemampuan yang berguna dalam pengujian hipotesis, statistik deskriptif dan
estimasi regresi. Sementara itu, SPSS adalah aplikasi pekerja keras yang telah diuji coba
untuk banyak siswa dan peneliti profesional dan tidak ada pembahasan perangkat lunak
statistik akan lengkap tanpa menyebutkannya. Hampir semua universitas, dan banyak
organisasi penelitian publik dan swasta, memiliki lisensi situs untuk SPSS dan bagi banyak
pembaca, ini adalah perangkat lunak yang paling mudah diakses. Akhirnya, aspek lain dari
pemodelan ekonometrik diperiksa dalam Bab 5 dan harus dicatat bahwa baik Excel maupun
SPSS secara khusus dirancang untuk menangani rangkaian waktu, pendekatan ekonometrik
spasial atau panel. Ini, lebih khusus, aplikasi jauh di luar lingkup buku ini dan pembaca
yang tertarik disebut Greene (1997) atau Pindyck dan Rubinfeld (1997) untuk diskusi
menyeluruh.

Referensi
Greene, W.H. (1997) Analisis Ekonometrik, Prentice-Hall, New Jersey.
Leishman, C. (2003) Penelitian dan Analisis Pasar Real Estate, Palgrave Macmillan,
Basingstoke.
Pindyck, R.S. dan Rubinfeld, D.L. (1997) Model Ekonometrik dan Ramalan Ekonomi,
McGraw-Hill, Boston.

Anda mungkin juga menyukai