Anda di halaman 1dari 30

Pemilihan Model Pada Saat Terjadi Nonstasioneritas Jae-Young Kim School of Economics, Seoul National University, Seoul, 151-742,

South Korea Journal of Econometrics 169 (2012) 247-257 Abstrak Paper ini mempelajari metode pemilihan model ketika muncul nonstasioneritas. Penelitian difokuskan pada aturan pemilihan model Bayesian dan membandingkannya dengan kriteria lain yang sering digunakan dalam praktek ekonomi. Pertama, kita mencoba mendapatkan setiap kriteria yang digunakan dalam situasi dimana masalah nonstasioneritas muncul. Secara umum, kita mempelajari aturan pemilihan model Bayesian dengan lebih terperinci dan mendapatkan tiga bentuk alternatif yang berbeda pada saat muncul permasalahan yang sama. Salah satu keistimewaan Bayesian Model Selection Criterion (BSMC) yang sangat penting adalah kriteria tersebut memberikan pembobotan terhadap komponen stasioner dan nonstasioner dari model, suatu hal yang tidak dapat diberikan oleh kriteria lainnya. Keistimewaan tersebut menyebabkan BSMC menjadi alat yang sangat disukai dalam seleksi model ketika muncul nonstasioneritas. Kedua, kita membadingkan kriteria-kriteria tersebut dengan mempertimbangkan parsimony dan power. Dari hasil penelitian diketahui bahwa BSMC memiliki parsimony tertinggi, AIC di peringkat kedua, sedangkan Cp dan R 2 yang memiliki tingkat parsimony yang sama berada pada peringkat ketiga. Berdasarkan pertimbangan power, urutan peringkat yang didapatkan tidak begitu jelas. Bagaimanapun, ketika jumlah sampel yang digunakan meningkat, BSMC menjadi sangat unggul dibandingkan dengan kriteria lainnya. Tanpa adanya penyesuaian jumlah sampel, urutan peringkat dalam power berbanding terbalik dengan parsimonynya. Selain itu juga ditemukan bahwa BSMC merupakan aturan pemilihan model yang konsisten dibandingkan dengan yang lainnya. Ketiga, kita mempergunakan empat kasus dari praktek yang menarik dimana BSMC dan kriteria-kriteria lainnya dapat diterapkan . Kita akan mendiskusikan bagaimana BSMC dapat digunakan pada kasus-kasus tersebut. Hasil dari penggunaan simulasi Monte Carlo secara ekstensif untuk memilih model pada empat kasus tersebut menunjukkan bahwa BSMC mengungguli kriteria lainnya.

1. Pendahuluan Masalah pemilihan model telah menjadi suatu subjek yang penting dalam ekonometrika dan berbagai ilmu pengetahuan lainnya. Disamping pertimbangan teoritis adalam pembentukan model, pertimbangan mengenai bagaimana suatu model dapat secara tepat dengan data yang tersedia merupakan suatu tuntunan penting dalam pemilihan model. Sims (1988), Phillips dan Ploberger (1996), telah mencatat bahwa strategi kembali dalam ketika pemilihan muncul model ekonometrik perlu ini dipertimbangkan nonstasioneritas. Penelitian

bertujuan untuk memeriksa dan membangun kembali kriteria pemilihan model ketika muncul nonstasioneritas. Beberapa kriteria pemilihan model telah di pelajari dalam literatur: Theil (1961) menyarankan Adjusted R 2 Akaike (1973) menyedakan suatu information (AIC) Schwarz (1978) menyediakan Bayesian Indormation Criterion Mallows (1973) menyediakan suatu kriteria prediksi (Cp) criterion dari Hannan dan Quinn (1979) criterion dari Geweke dan Messe (1981) Kullback information criterion dari Cavanaugh (1999) Deviance Information Criterion dari Spiegelhalter et al (2002) Metode pemilihan model dalam permodelan time series dari Tsay (1984), serta Hurvich dan Tsai (1989), dan Potscher (1989) Moment selection dari Andrews (1999), Andrews dan Lu (2001) serta Hong et al. (2003) Keseluruhan model tersebut terkait dengan parsimony, sebagaimana ditekankan oleh Zellner et al. (2001), sebagaimana halnya tingkat akurasi atau power dalam pemilihan model. Dalam paper ini kita mempertimbangkan empat pendekatan yang berbeda dalam pemilihan model yang sering digunakan dalam praktek

ekonometrik termasuk pendekatan Bayesian, AIC, Mallows Cp dan R 2 . Kita mendapatkan setiap kriteria tersebut ketika muncul nonstasioneritas. Secara umum, kita mempelajari aturan pemilihan model Bayesian dengan lebih terperinci dan mendapatkan tiga bentuk alternatif yang berbeda pada saat muncul permasalahan yang sama. Satu dari tiga bentuk dari Bayesian Model Selection Method sama dengan PIC dalam Phillips (1996). Salah satu keistimewaan dari Bayesian Model Selection Criterion (BMSC) adalah bahwa metode tersebut memberikan pembobotan yang berbeda

terhadap komponen stasioner dan nonstasioner dari sebuah model ketika metode lainnya tidak. Keistimewaan tersebut menyebabkan BSMC menjadi alat yang sangat disukai dalam seleksi model ketika muncul nonstasioneritas. Hal ini menyebabkan berbagai tingkatan parsimony yang berbeda harus diterapkan dalam komponen stasioner dan nonstasioner suatu model. Fakta bahwa bobot yang berbeda harus diberikan terhadap komponen nonstasioner dan komponen stasioner dikemukakan oleh Sims (1988), Phillips dan Ploberger (1996), dan Kim (1998). Dalam paper ini kita juga membandingkan antar kriteria dalam hal parsimony dan power. Metode pemilihan model secara eksplisit maupun implisit memerlukan parsimony, yaitu jika dua model fit terhadap data dengan sama baiknya, maka dipilih model yang paling sederhana (Zellner et al. 2001). Berdasarkan beberapa analisis secara teoritis, sebelumnya telah diketahui bahwa BSMC menunjukkan parsimony yang tertinggi, diikuti oleh AIC, dan Cp serta R 2 yang memiliki tingkat parsimony yang sama pada peringkat terakhir. Temuan teoritis ini sejalan dengan hasil penelitian yang kami lakukan menggunakan study Monte Carlo. Pada pihak lain, tingkat akurasi dari kriteria pemilihan model diselidiki dengan menguji nilai power dari kriteria tersebut, dimana power didefinisikan sebagai peluang untuk memilih suatu model, ketika model tersebut benar. Dengan mempertimbangkan power dari kriteria yang diuji, ternyata diperoleh bahwa pemeringkatan tidak dapat dilakukan secara jelas. Namun, saat jumlah sampel disesuaikan dengan cara ditingkatkan, BSMC menjadi sangat dominan dibandingkan dengan kriteria lainnya. Tanpa penyesuaian jumlah sampel, peringkat power yang didapatkan berbanding terbalik dengan parsimony. Dua temuan tersebut mengindikasikan bahwa nilai power yang tinggi pada AIC, Cp, serta R 2 didapatkan dengan mengorbankan parsimony. Implikasi lainnya adalah kriteria AIC, Cp, serta R 2 boleh jadi overfit terhadap model dengan mengizinkan adanya tingkat eror tipe I yang terlalu berlebihan. Selain itu ditemukan juga bahwa BSMC merupakan aturan pemilihan model yang paling konsisten dibandingkan ketiga kriteria lainnya. Studi Monte Carlo terhadap beberapa kasus menarik memberitahukan bahwa BSMC memiliki power yang lebih baik dibandingkan ketiga kriteria lainnya.

Selanjutnya dengan mempertimbangkan empat kasus yang berbeda dimana BSMC dengan sebagian atau seluruh kriteria yang dipelajari dalam studi ini dapat diterapkan yaitu: (i) Pemilihan keputusan diantara I(1) dan I(0) (ii) Penentuan jumlah patahan strukturals pada model yang mengandung patahan tren (iii)Vektor error correction model dan penentuan rank dari hubungan kointegrasi (iv) Penentuan orde pada autoregresi

Kita mendiskusikan bagaimana BSMC dapat diterapkan pada kasus-kasus tersebut. Selain itu, kita juga menemukan bahwa BIC Schwarz adalah merupakan BIC yang kurang tepat dan kurang pantas untuk digunakan ketika muncul nonstasioneritas.

2. Aturan Pemilihan Model Secara Umum Jika merupakan ruang probabilita. merupakan keluarga

dari sub ruang dari F. Jika {yt ( )} merupakan proses stokastik yang mendefinisikan yang beradaptasi dengan Ft. Yn = merupakan yang dan

segmen ke n dari {yt}. Jika Yn memiliki fungsi distribusi kepekatannya dilambangkan dengan untuk merupakan ruang probabilita dimana didefinisikan. Suatu kumpulan Suatu model untuk setiap

terdiri atas kandidat model untuk Yn dimana terdapat terkait dengan ruang parameter yang berdimensi

ketidakpastian terkait dengan kesesuaian dengan model yang sebenarnya.

dimana

dengan I merupakan bilangan positif.

Diasumsikan bahwa untuk setiap mi yang merupakan anggota fungsi distribusi dengan kepekatan yang didefinisikan pada ruang terukur .

2.1. Bayesian Information Criterion (BIC)

2.1.1. Kerangka Kerja Umum Pendekatan umum pemilihan model dalam kerangka kerja Bayesian adalah memilih model mi yang memiliki posterior probability terbesar. Maka Jika

Pr(mi | Yn ) merupakan posterior probability dimana


berdasarkan aturan Bayesian

mi adalah benar, maka

(2.1) dimana Pr(mi ) merupakan prior probability bahwa mi adalah benar. Sementara itu merupakan marginalisasi likelihood termarginalisasi yang didapatkan : dengan

dari likelihood

untuk model

(2.2) dimana merupakan kepekatan prior yang terkait dengan model . Lebih

jauh jika diasumsikan bahwa Pr(m j ) adalah sama untuk setiap j, aturan pemilihan model adalah untuk memilih mi yang memiliki memperkenalkan suatu dimensi alternatif terbesar. Phillips (1996) sebagai pembenaran dalam

menggunakan pendekatan Bayesian dalam pemilihan model berdasarkan dugaan dari pengukuran model Bayesian.

2.1.2. Pendekatan Jika sedemikian hingga (2.3)

Maximum likelihood estimator (MLE) dari berdasarkan merupakan vektor-k dari suatu bilangan real. Sementara norm Euclidean. Maka luasnya ditentukan oleh sehingga wilayah melambangkan yang

merupakan suatu wilayah di sekitar . Jika deret

menjadi semakin mengecil ketika

akan menyusut ketika n semakin besar. untuk setiap . Hasil , suatu norm dari merupakan

Diasumsikan bahwa log-likelihood

, dapat diturunkan sebanyak dua kali terhadap pada turunan dilambangkan dengan . Juga diberikan notasi

matriks A berukuran m x m, dimana norm Euclidean pada .

, dengan

Selanjutnya diberikan suatu kondisi (C1) dan (C2). (C1) a) Jika positif sedemikian hingga terdapat suatu deret untuk setiap

b) Jika

dengan n yang memenuhi (C1) (a), maka nilai absolut memiliki kecenderungan peluang P

dari setiab elemen vektor

menuju tak hingga ketika n menuju tak hingga (C2) Jika merupakan posterior yang terbentuk dari likelihood pn dan

suatu prior . Maka untuk n yang memenuhi (C1)

(2.4) Pada peluang P ketika n menuju tak hingga. Misalnya terkonsentrasi pada hingga. Kondisi (C1) dan (C2) meliputi keragaman yang sangat luas mengenai model yang mengandung komponen nonstasioner. Kedua kondisi tersebut dalam peluang P ketika n menuju tak

disatukan dengan keadaan bahwa suatu adalah cukup untuk statistik posterior yang akan asimptot normal jika terdapat kemungkinan nonstasioneritas (Kim, 1998). Daerah menangani masalah yang menyusut tersebut merupakan kunci dalam kemungkinan munculnya nonstasioneritas dalam

mempelajari aturan pemilihan model Bayesian pada paper ini. Keistimewaan yang utama dari penyusutan tersebut adalah bahwa kecepatan penyusutan setiap komponen dalam dapat

berbeda untuk i yang berbeda. Keadaan ini merupakan karakteristik yang penting dalam suatumodel yang mengandung nonstasioneritas: Pada suatu model yang mengandung variabel stasioner dan nonstasioner, informasi mengenai sampel terkumpul dalam kecepatan yang berbeda pada variabel yang berbeda, secara umum, parameter yang mengandung variabel stasioner dan parameter yang mengandung variabel nonstasioner. Hal ini menyebabkan suatu estimator dari parameter yang terkandung dalam variabel stasioner memiliki kecepatan yang berbeda untuk konvergen dibandingkan dengan estimator dari suatu parameter mengandung variabel nonstasioner. Selain itu, kecepatan penyusutan likelihood (atau posterior) dalam setiap parameter yang berbeda juga berbeda satu sama lain. Pendekatan metode penyusutan wilayah ini sangat terkait dengan keistimewaan penting dari kriteria pemilihan model Bayesian, yaitu pemberian bobot yang berbeda pada komponen stasioner dan nonstasioner pada model. Kondisi yang menyerupai (C1) dan (C2) digunakan dalam Chen (1985), Sweeting dan Adekola (1987), serta Crowder (1988) untuk menunjukkan asimptotik normal pada posterior. Namun, kondisi yang dihadapi dalam paper ini adalah sistem wilayah baik yang bersifat tetap maupun menyusut dengan kecepatan yang seragam pada setiap i yang berbeda ketika jumlah sampel meningkat. Situasi semacam ini tidak dapat digunakan sebagai karakteristik yang penting dalam model nonstasioner sebagaimana telah dijelaskan sebelumnya, yaitu peluang bahwa informasi akan terkumpul dalam kecepatan yang berbeda pada saat muncul nonstasioneritas. Dalam kenyataannya, untuk alasan yang terkait dengan keadaan yang dibuat dalam sistem wilayah baik yang bersifat tetap maupun menyusut dengan kecepatan yang seragam pada setiap i tidak memenuhi untuk mendapatkan

asimpototik normal posterior dari suatu model dengan variabel stasioner dan nonstasioner. Maka kondisi semacam ini tidak dapat mnyediakan kerangka kerja untuk mendapatkan kriteria pemilihan model yang memiliki sifat-sifat yang diinginkan, yaitu suatu kriteria yang memberikan pembobotan yang berbeda pada komponen stasioner dan nonstasioner pada model. Di sisi lain, pendekatan yang dilakukan oleh Sweeting (1992) dan Kim (1988) justru menyatakan bahwa hal tersebut dapat dilakukan. Maka analisis akan dilakukan berdasarkan pendekatan dari kedua penelitian tersebut. Jika 0 merupakan nilai sebenarnya dari . Berdasarkan kondisi (C1) dan (C2) kita mendapatkan kondisi berikut Lemma 2.1. Asumsikan bahwa prior berdasarkan asumsi (C1) dan (C2) kontinyu di dan terbatas 0. Maka

Berdasarkan lemma tersebut, maka bentuk umum dari Bayesian information criterion adalah (GBIC (I)) pilih model j yang memaksimalkan (2.5) Perhatikan bahwa kriteria tersebut didapatkan berdasarkan pendekatan

yang serupa dengan PIC dalam Phillips (1996), Phillips dan Ploberger (1994) berdasarkan Pengukuran Model Bayes. Oleh karena itu, pendekatan BIC pada (2.5) mendapatkan pembenaran dari basis teori alternatif sebagaimana didiskusikan dalam Phillips (1996). Kita bisa mendapatkan bentuk alternatif dari BIC dalam suatu kondisi sebagaimana Lemma 2.2. Jika untuk i=1,,k merupakan bilangan real yang , dan

didefinisikan dalam suatu himpunan bilangan asli

Lemma 2.2. Misalkan terdapat si suatu fungsi bernilai real yang didefinisikan pada untuk setiap i= 1,,k sedemikian hingga , maka

(2.6) Pada kenyataannya, merupakan kecepatan konvergensi dari pada

komponen ke-i dari MLE . Misalnya stasioner,

digunakan untuk komponen untuk

digunakan untuk komponen unit root, dan

komponen trend, dsb. Berdasarkan lemma 2.2., suatu bentuk alternatif dari BIC (2.5) didapatkan sbb (GBIC (II)) Pilih model j yang memaksimalkan

(2.7) Perbedaan antara kriteria GBIC(I) dan GBIC(II) adalah pada term kedua, dibandingkan dengan . Perhatikan bahwa GBIC(II)

menggunakan angka yang tersedia tanpa perlu estimasi terhadap model, sementara GBIC(I) menggunakan angka yang tersedia setelah

estimasi terhadap model. Dengan demikian dapat diambil kesimpulan bahwa performa relatif kedua GBIC tersebut akan sangat tergantung kepada tingkat akurasi estimasi model. Jika eror hasil estimasi besar untuk model dan data yang diberikan, maka GBIC(II) akan menunjukkan performa yang lebih baik dibandingkan dengan GBIC(I), dan sebaliknya. Analisis yang dilakukan pada subseksi ini adalah untuk memperkirakan asimptotik pada faktor Bayes berdasarkan kerangka kerja dari Kim (1998). Sementara Kim (1998) mempertimbangkan suatu regresi dengan kemungkinan adanya akar unit. Pada bagian ini kita mempertimbangkan model secara umum termasuk yang terdapat dalam Kim (1998). Sekarang pertimbangkan model regresi linier berikut: (2.8)

Dimana Xt adalah vektor variabel, dan adalah vektor parameter. Vektor mungkin mengandung komponen nonstasioner. Faktor gangguan t adalah variabel random yang identik dan independen serta berdistribusi normal Jika sebagai berikut: (GBIC 1) pilih model j yang meminimumkan (2.9) (GBIC 2) pilih model j yang meminimumkan .

untuk (2.8), maka kriteria (2.5) dan (2.7) menjadi

(2.10) Perhatikan bahwa Schwarz Bayesian information criterion memilih model yang meminimumkan (2.11) Merupakan kasus khusus dari GBIC2 (2.10): Jika untuk setiap i = 1,

,k, yaitu setiap komponen Xt stasioner, maka GBIC2 akan berubah menjadi Kriteria Schwarz (2.11). Hal ini berarti Sczwarz criterion merupakan kriteria asimptotik Bayesian yang valid ketika seluruh komponen Xt stasioner. Sebaliknya Kriteria Schwarz bukan merupakan kriteria Bayesian yang valid ketika Xt mengandung komponen nonstasioner karena nilai untuk komponen nonstasioner. digunakan

2.2. Akaike Information Criterion Jika terdapat dua model yang akan diperbandingkan m0 dan m1, dimana m1 memiliki batasan nol di .

Dimana 1 merupakan k1 vektor parameter, dan 0 merupakan (k-k1) vektor nol.

Akaike (1973) menyarankan untuk menggunakan fungsi pengurang sebagai berikut

(2.12)

Dimana 1,0 dan 1 merupakan nilai sebenarnya, dan MLE dari


merupakan likelihood dimana m1 diuji pada 1,0 . Ln (2.12) 1 diperlakukan sebagai konsatanta dalam proses integrasi. Karena

tergantung kepada

% parameter yang tidak diketahui, maka Akaike menyarankan penggunaan l 1


dalam l :

(2.13)

Dimana adalah MLE dari . Perhatikan bahwa

ketika

pada m1.

% Akaike (1973) mencoba untuk meningkatkan l 1 dengan menggunakan fungsi


yang sederhana, yaitu (2.14)

% Ketika terjadi peningkatan pada l 1 dimana 0 merupakan nilai sebenarnya dari


dan

(2.15)

% Maka l 2 menyediakan suatu perkiraan terhadap


ditunjukkan bahwa

pada (2.12), sehingga

% Akaike menjelaskan rasionalisasi penggunaan l 2 melalui tiga langkah


berikut. (1) Dengan menggunakan ekspansi Taylor untuk , dengan

mempertimbangkan 1 di sekitar 1,0 maka didapatkan

(2.16)

Dimana bentuk pertama dari ekspansi tersebut adalah nol karena 0. (2) Dengan menggunakan ekspansi Taylor untuk dan

di sekitar dan 1, kita mendapatkan


(2.17) Dimana bentuk pertama dari ekspansi tersebut adalah nol karena

ketika merupakan MLE dari , dan

(2.18) Karena sisi kiri pada (2.17) dan (2.18) sama untuk m1, maka (2.19) Dari (2.16) dan (2.19) kita mendapatkan (2.14) karena

Sebagai penunjang dari (1) dan (2), Akaike mengadopsi kondisi (3) (2.20) Pada kenyataannya, kondisi dan (2.20) akan melemah untuk terhadap .

Berdasarkan (2.20) kita mendapatkan AIC dari (2.14) sebagai berikut

(2.21) Yang perlu diminimalkan. Proses minimalisasi AIC pada (2.21) setara dengan maksimalisasi AIC* sebagaimana

Terdapat dua prasyarat agar (2.20) dapat menajdi valid. Pertama, adanya

dan Kedua, normalitas asimptotik dari (atau kondisi lain yang serupa) untuk

(2.20) dapat dipertahankan. Namun, ketika muncul nonstasioneritas, tidak satupun dari kedua prasyarat diatas dapat dipertahankan untuk (2.20). Bagaimanapun, untuk model regresi yang memiliki kondisi tertentu, (2.20) dapat tersedia dalam berbagai cara lain. Maka, jika model regresi (2.8) ditambahkan dengan asumsi yang lebih spesifik pada Xt dan t (2.22) Dimana dan memenuhi kondisi Lemma 2.3 asumsikan bahwa

Lemma 2.3. Dari Model (2.22), jika

Dimana

dan

, maka benar bahwa

Dengan demikian, untuk model (2.22) dengan kondisi yang terdapat pada Lemma 2.3 kondisi (2.20) dapat dipertahankan, sehingga AIC (2.21) merupakan kriteria Akaike yang valid. Jika komponen stasioner disertakan dalam Xt, maka kita memerlukan kondisi yang saling bebas antara t dan variabel stasioner. Ketika Xt dan t dan U2t pada (2.22) tidak saling bebas, (2.20) tidak dapat

dipertahankan, dan AIC (2.21) bukan merupakan kriteria Akaike yang valid. Dalam kasus ini, bentuk kedua dari AIC harus dibuat sedemikian rupa sehingga

(2.23) Proses integrasi (2.23) tidak dapat dihitung secara langsung dan oleh karenanya tidak berguna secara praktis. Cara untuk mendapatkan perkiraan yang dapat dihitung untuk integrasi pada (2.23) untuk model dengan nonstasioneritas berdasarkan kondisi pada Lemma 2.3 tidak dapat dipertahankan ditinggalkan sebagai pertanyaan terbuka. Akaike (1973) secara implisit mengasumsikan bahwa jarak antara 0 dan subspace yang didefinisikan oleh m1 berada pada suatu urutan untuk setiap model. Asumsi bahwa jarak yang dimiliki sebesar memvalidasi AIC yang didapatkan berdasarkan asumsi implisit bahwa m1 merupakan model yang sebenarnya. Perhatikan bahwa merupakan , yang

merupakan suatu kondisi dimana validitas dalam penerapan (2.12) dan (2.14)

model yang sebenarnya, sehingga dalam situasi ini AIC bisa didapatkan berdasarkan asumsi bahwa model m0 dan m1 merupakan model yang benar. Asumsi yang terakhir ini mengadopsi baik implisitas pada Akaike (1973) maupun eksplisitas sebagaimana Amemiya (1980). Ketika jarak antara dua model m0 dan m1 secara berurutan lebih besar dari , kita tidak dapat

menjalankan prosedur diatas untuk mendapatkan AIC, yang berakibat bahwa AIC (2.21) bukan merupakan kriteria Akaike yang valid. Dengan demikian penerapan AIC (2.21) untuk kasus seperti ini makan mendorong kepada pendugaan yang tidak tepat. Asumsi mengenai jarak antara dua model sebesar , bagaimanapun

akan sulit untuk dipenuhi , atau diperiksa ketika muncul nonstasioneritas. Untuk membuktikannya, pertimbangkan suatu model regresi (2.22) dimana dan Xt merupakan vektor tiga dimensi, yaitu Misalkan merupakan tren linier dan dan .

Dalam kasus ini perbedaan . Selain itu, jika

antara dua model m0 dan m1 adalah merupakan suatu variabel m1 adalah

yang merupakan

, dan jika

, maka selisih antara m0 dan . Perhatikan juga bahwa jika

yang merupakan

merupakan variabel adalah

dan jika .

, maka selisih antara m0 dan m1

yang merupakan

Jarak antara m0 dan m1 yang diperkenalkan dalam Akaike (1973) terkait dengan jarak antara dua model. Dengan demikian, di saat nonstasioneritas berpeluang muncul, jarak antara dua model m 0 dan m1 dapat berupa selisih satu orde dibandingkan jika nonstasioneritas tidak muncul. Selain itu asumsi mengenai jarak antara dua model sebesar akan sulit untuk diperiksa jika

muncul nonstasioneritas, ketika dimensi dan lokasi dari nonstasioneritas tidak diketahui. Oleh karena itu pada saat muncul kemungkinan nonstasioneritas, pengambilan keputusan untuk pemilihan model berdasarkan AIC tidak dapat diandalkan. (Lihat contoh simulasi pada bagian 4.5)

2.3.1. Kriteria R 2 Theil Karena baik R 2 maupun Cp cukup untuk model regresi, pembahasan dibatasi pada model regresi linier (2.24) Dimana t merupakan white noise dengan . Perhatikan bahwa model

(2.24) merupakan model regresi (2.8) dengan kondisi yang lebih lemah pada t. Yaitu t pada (2.24) white noise yang distribusinya mungkin tidak diketahui. Jika terdapat dua model yang akan dibandingkan m0 dan m1, dimana m1 memiliki batasan nol pada parameter .

Dimana 1 merupakan suatu vektor parameter k1, dan 0 merupakan vektor nol (k-k1). Jika bj merupakan estimator kuadrat terkecil dari pada model j. Karena

R2

dimana

dan

(2.25)

Jika diberikan

, kita dapat menginterpretasikan R 2 sebagai suatu kasus khusus

% dari l 1 yang didefinisikan pada (2.13) dengan

(2.26) Dimana 2 merupakan konstatanta diantara model yang berbeda. Hal ini menyebabkan kriteria R 2 dapat diinterpretasikan sebagai suatu kasus khusus

% dari kriteria Akaike, dimana perkiraan fungsi loss l 1 digunakan dengan pn


sebagaimana dalam (2.26). Perhatikan bahwa bentuk R 2 tidak berubah ketika muncul nonstasioneritas.

2.3.2. Kriteria Prediksi Bersyarat Mallows Cp Untuk (2.24), kriteria prediksi bersyarat Cp yang diajukan oleh Mallows didefinisikan sebagai Dimana b1 merupakan estimator OLS dari parameter 1, dan X1 merupakan matriks regressor untuk model m1 ketika X merupakan regressor dari m0. Berdasarkan asumsi bahwa eror saling bebas dengan regressor, Cp dijelaskan sbb

(2.27) Dimana dan , serta

merupakan vektor regressor dari model m1. Dengan cara yang sama pada Lemma 2.3, kita dapat menunjukkan bahwa (2.27) dapat diterima terlepas dari apakah terdapat konponen nonstasioner dalam jika eror dan regressor

saling bebas. Aturan pemilihan model Mallows memilih model sedemikian hingga . Untuk penggunaan berikutnya, definisikan

Perhatikan bahwa mendapatkan

meliputi kriteria Cp dan R 2 . Sebagai contoh, kita akan jika dan hanya jika .

3. Perbandingan 3.1. Parsimony

Suatu metode pemilihan model secara implisit maupun eksplisit memerlukan parsimony, sebagaimana dijelaskan oleh Zellner et al. (2001). Yaitu, jika dua model fit pada data sama baiknya, maka dipilihlah model yang lebih sederhana. Pertama kita tunjukkan terlebih dahulu bahwa terdapat hubungan teoritis tertentu antara setiap kriteria yang telah disebutkan sebelumnya dengan statistik rasio likelihood (LR). Dengan demikian, sifat dan performa dari kriteria pemilihan model dapat diuji dengan LR. Metode ini memberikan fasilitas untuk analisis perbandingan kriteria yang berbeda, terkait dengan parsimony dan power. Untuk lebih mudahnya, kta mempertimbangkan suatu regresi linier (2.24) dengan suatu kondisi tertentu, yaitu: Kondisi GBIC pada (2.8), Kondisi AIC pada (2.22), atau kondisi Cp dan R 2 pada (2.24). Kta gunakan notasi (2.24*) untuk regresi (2.24) yang memenuhi kondisi tersebut. Kemudian kita memilih antara model dengan regressor X sebanyak k, dinotasikan dengan m 0 dan model dengan subset X1 sebanyak k1 dari model m0, yang dilambangkan dengan m1. Maka kita dapat dengan mudah menyatakan hubungan antara LR dengan setiap kriteria yang telah dipelajari sebelumnya. Kita menggunakan notasi likelihood dari mi. Pertama, untuk GBIC untuk

(3.1)

Sebagaimana telah dijelaskan dari definisi (2.5) dan (2.7). Sebagaimana GBIC, untuk AIC

(3.2) Definisi 3.1. Jika CRA dan CRB merupakan dua kriteria pemilihan model, kita mendefinisikan bahwa CRA lebih parsimony dari CRB jika

Ketika sehingga

perhatikan bahwa

(3.3) (3.4) Untuk AIC

(3.5) Perhatikan bahwa dan sehingga pada (3.3)-

(3.5) dimana setiap kriteria dibandingkan dengan LR, kita menggunakan GBIC dibandingkan dengan nAIC, bukan AIC. Lemma 3.1. Jika terdapat model (2.24*). Untuk setiap n dimana 2 log , maka GBIC = GBIC(I), GBIC(II)

Lemma 3.1. Menunjukkan bahwa GBIC lebih parsimony dibandingkan dengan AIC pada kondisi yang ditentukan. merupakan kondisi Perhatikan yang lemah bahwa untuk

diterima baik pada n yang kecil maupun besar. Maka untuk Cp dan R 2 , perhatikan bahwa (3.6)

(3.7) Maka kita dapat menunjukkan bahwa Cp dan R 2 memiliki tingkatan yang sama berdasarkan Lemma 3.2. Untuk (2.24*) adalah benar bahwa (3.8) Maka ketika kita akan membandingkan AIC dengan Cp atau R 2 , untuk model (2.24*), statistik LR terkait dengan R 2 adalah sbb

(3.9) Dimana kita dapat menunjukkan bahwa untuk jumlah n yang cukup besar AIC lebih parsimony dibandingkan Cp atau R 2 , untuk model (2.24*) dengan eror normal. Lemma 3.3. Untuk Model (2.24*) adalah benar bahwa (3.10) Untuk n sedemikian hingga Perhatikan bahwa untuk n yang besar, ekspansi Taylor sehingga

. Dengan demikian, ketika n besar maka Lemma 3.3 dapat dipertahankan.

3.2.

Power dan Konsistensi

Power suatu uji didefinisikan sebagai kuasa atau peluang untuk menerima suatu alternatif yang benar. Kita mendefiniskan power sebagai suatu aturan pemilihan model untuk memilih m0 ketika m0 benar, dimana peluang dari keputusan tersebut dapat dituliskan sebagai

Maka untuk suatu kriteria CR yang memaksimalkan hasil dari persamaan tersebut didapatkan

Dimana

merupakan peluang bahwa A berada dalam mi; CRi adalah nilai dari

kriteria CR yang diuji pada model mi. Perhatikan bahwa power yang didefinisikan diatas adalah sama dengan (Eror tipe II) Pada bagian ini kita mempelajari power untuk setiap jenis kriteria seleksi model. Pertama, kita mempertimbangkan power tanpa penyesuaian jumlah sampel. Kemudian kita akan mendiskusikan mengenai konsistensi kriteria seleksi model yang dipelajari dalam paper ini. Selanjutnya kta akan mempelajari bagaimana power dari setiap metode seleksi model ketika dilakukan penyesuaian jumlah sampel. Dalam membandingkan sifat power dari prosedur pengujian yang berbeda, atau dengan kata lain, untuk prosedur pengambilan keputusan yang berbeda, akan sangat berarti jika kita mempertimbangkan prosedur penyesuaian jumlah sampel. Berdasarkan hubungan antara setiap kriteria dan LR pada (3.1), (3.2), dan (3.9), kita dapat mengetahui power dengan jumlah sampel yang belum disesuaikan untuk berbagai kriteria berikut

Untuk GBIC(I)

Untuk GBIC(II)

Untuk AIC

untuk Dimana

(3.11)

. Perhatikan bahwa untuk jumlah n yang besar

Dari (3.10) kita mengetahui bahwa jika LR merupakan sebuah orde yang lebih besar dari log n sebagimana dalam (2.8), maka power dari setiap kriteria dengan jumlah sampel yang belum disesuaikan cenderung menyatu ketika jumlah sampel menjadi besar. Dari (3.10) kita juga mengetahui peringkat power dari kriteria pemilihan sampel jika tanpa adanya penyesuaian jumlah sampel dari yang tertinggi sampai terendah yaitu; (1) Cp dan R 2 terikat secara bersamasama, (2) AIC, dan (3) GBIC. Dengan demikian peringkat dari power pada kriteria dengan jumlah sampel yang belum disesuaikan berbanding terbalik dengan parsimony. Temuan ini bersama dengan Lemma 3.6 mengimplikasikan bahwa power yang tinggi pada AIC, Cp, dan R 2 didapatkan dengan mengorbankan parsimony. Hal ini memiliki implikasi lanjutan bahwa AIC, Cp, dan R 2 boleh jadi overfit pada model dengan mengizinkan adanya tingkat eror tipe I yang berlebihan. Selanjutnya kita akan mendiskusikan mengenai konsistensi dari suatu kriteria. Sebuah kriteria pemilihan model disebut kriteria yang konsisten jika baik eror tipe I maupun eror tipe II kovergen ke nol. Karena power pada m0 cenderung menyatu untuk setiap kriteria sebagaimana dibuktikan pada (3.10), kita dapat mengkonfirmasikan bahwa eror tipe II konvergen ke nol. Maka dalam rangka menunjukkan konsistensi suatu kriteria, kita hanya perlu menunjukkan bahwa eror tipe I konvergen ke nol. Perhatikan bahwa peluang untuk memilih m1 dibandingkan m0 ketika m1 benar adalah sebanding dengan eror tipe I. Dengan demikian, kita perlu menemukan peluang untuk memilih m1 dibandingkan dengan m0 ketika m1 benar cenderung untuk menyatu. Hal ini diberikan pada Lemma 3.4. Lemma 3.4 Pada model (2.24*) Adalah benar bahwa sedangkan Lemma 3.4 dan (3.10) mengimplikasikan bahwa GBIC(I) dan GBIC (II) merupakan kriteria yang konsisten, sedangkan AIC merupakan kriteria yang tidak konsisten. Kembali ke permasalahan penyesuaian jumlah sampel. Ketika

menyesuaikan jumlah sampel, kita perlu ikut menyesuaikan titik kritis daerah tolah H0 pada setiap kriteria. Untuk mendapatkan titik kritis pada level signifikansi yang diberikan, kita menggunakan hubungan antara kriteria dan LR sebagaimana (3.1), (3.2), dan (3.9). Selanjutnya, suatu titik kritis dari uji rasio

likelihood 100% ditandai dengan x, sementara ukuran power yang telah disesuaikan ditandai dengan : Pr[memilih m0 dibandingkan m1 | m0 benar] pada ukuran 100% Untuk setiap kriteria, GBIC(I), GBIC(II), AIC, dan yang telah disesuaikan diberikan oleh Lemma berikut Lemma 3.5. Untuk model (2.24*), ukuran power yang telah disesuaikan pada kriteria GBIC(I), GBIC(II), AIC, dan , adalah sebagai berikut , ukuran power

(3.12) Dimana kita menyesuaikan skala setiap persamaan dalam kurung, sehingga banyaknya muncul pada setiap persamaan. Karena distribusi dari statistik LR

pada kriteria tersebut biasanya tidak tersedia pada m0, analisis perbandingan power pada ukuran sampel yang telah disesuaikan tidak dimungkinkan. Namun demikian untuk mengatasinya dapat digunakan simulasi. Di sisi lain berdasarkan (3.12) kita dapat menunjukkan bahwa nilai power pada GBIC konvergen pada suatu kesatuan, ketika kriteria lainnya tidak demikian pada kasus Lemma 3.6. Pada model (2.24*) adalah benar bahwa ketika n menuju tak hingga. Sementara itu AIC, Cp, dan R 2 nilai setiap n. untuk GBIC untuk

4. Contoh dan Studi Simulasi

Pada bagian ini kita akan mempelajari beberapa contoh model dimana sebagian atau seluruh kriteria dapat diterapkan. Terdapat empat jenis studi yang dipertimbangkan (i) Keputusan antara I(1) dan I(0) (ii) Penentuan jumlah patahan struktural pada model yang mengandung trand patahans (iii)Suatu vektor error correction model dan penentuan rank pada hubungan kointegrasi (iv) Urutan penentuan dalam autoregresi

Hasil penentuan model berdasarkan kriteria yang dipelajari pada bagian 2 untuk kasus (i) dan (ii), akan dipelajari menggunakan simulasi Monte Carlo.

4.1. Penentuan Keputusan antara I(1) dan I(0) dalam model AR Kriteria Bayesian GBIC dapat diaplikasikan untuk memilih keputusan antara I(1) dan I(0) pada time series. Kita membandingkan GBIC dengan uji Augmented Dickey-Fuller (ADF) sebagai suatu uji yang paling banyak digunakan dalam pengambilan keputusan tersebut. Selain itu kita juga membandingkan hasil yang didapatkan oleh GBIC dengan kriteria Schwarz. Misalkan suatu proses stokastik yt mengikuti AR(p)

Dimana

, maka dapat dibuat suatu bentuk alternatif dari proses yt

(4.1) Dimana dan karakteristik merupakan parameter dampak autoregresif jangka panjang merupakan ikutan sementara yang dinamis. Jika persamaan memiliki akar unit, maka =1, sehingga yt dapat

diartikan sebagai proses I(1). Maka model (4.1) dapat ditransformasikan lebih jauh menjadi

(4.1) Dimana antara H0 H1 : Model (4.1) dengan 1 = 0, dengan : Model (4.1) dengan 1 < 0 (4.2) Kriteria keputusan GBIC1 (2.9) untuk hipotesis (4.2) adalah memilih model yang meminimumkan (4.3) Dimana . Maka keputusan antara I(1) dan I(0) adalah untuk memilih

untuk j=0, dan untuk j=1

4.2. Penentuan jumlah patahan tren Kita mempertimbangkan penerapan GBIC untuk menentukan jumlah patahan tren pada suatu time series yang memiliki tren. Kita membandingkan hasil dari GBIC dengan AIC dan kriteria Schwarz. Misalkan bahwa terdapat beberapa kejadian bersejarah yang masing-masing memberikan perubahan permanen pada tren dari suatu time series yang linier. Maka kita mempertimbangkan model berikut

(4.4) Dimana I(.) merupakan indikator fungsi dan merupakan watu terjadinya , pergeseran tren pada

patahan yang tidak diketahui. Pada waktu patahan jumlah i Untuk lebih mudahnya, kita asumsikan bahwa , maka kita memiliki kasus ini adalah Memilih model j yang meminimumkan

. Untuk , ketika si

merupakan kecepatan konvergensi dari i. Dengan demikian GBIC2 (2.10) dalam

(4.5) Dimana qj merupakan jumlah dari patahan struktural pada model j, sementara GBIC1 sebagaimana dalam (2.9) dengan

4.3. VECM dan penentuan rank kointegrasi Pada subbagian ini kita mempelajari tentang kriteria GBIC Bayesian untuk pendugaan rank kointegrasi suatu vektor error correction model (VECM). Penelitian terkait telah dilakukan oleh Chao dan Phillips (1998, 1999). Misalkan suatu m-vektor I(1) dari suatu proses yt dapat digolongkan melalui suatu vektor autoregresi dengan ordo p. Maka kita dapat menulisnya dalam suatu bentuk error correction

(4.6) Dimana . Pada hipotesis Hr dimana terdapat sebanyak terbatas pada , dimana B

hubungan kointegrasi pada yt, matriks

merupakan suatu matriks (m x r), dan A merupakan matriks (r x m). Dengan menggunakan matriks A dab B maka kita dapat menuliskan kembali persamaan (4.6) menjadi

(4.7) Jika yang dibentuk dengan Hr, berdasarkan , dimana menumpuk turunan melambangkan vektor semua parameter dari dalam (.). Maka adalah kedua log-likelihood

sedemikian hingga matriks kovarians menjadi (4.8) Dimana Xr merupakan matriks X untuk model Hr dan berdasarkan Hr. Berdasarkan dugaan Full Information Maximum Likelihood (FIML) dari system (4.7) dalam Johnsen (1991) kita mendapatkan bentuk likelihood yang dimaksimalkan dari (4.7) berdasarkan Hr: merupakan MLE dari

(4.9) Dimana matriks (4.10) Dimana dan dan untuk i=1,..,r merupakan eigenvalue terbesar ke-I dari

, dimana u

dan v merupakan residual dari regresi berikut


untuk t = 1, , n untuk t = 1, , n Dimana hat melambangkan penduga kuadrat terkecil Perhatikan bahwa tiga bentuk pertama dari GBIC(I) untuk menentukan rank kointegrasi r adalah Pilih model Hr yang meminimumkan pada (4.9) tidak

bergantung kepada dimensi kointegrasi r. Maka berdasarkan (4.8) dan (4.9),

(4.11) Sementara GBIC(II) Pilih model Hr yang meminimumkan

(4.12) Dimana k merupakan jumlah elemen pada

4.4. Suatu regresi dengan eror non-i.i.d. Pertimbangkan bentuk regresi (2.24), namun memiliki eror yang berkorelasi antar pengamatan (4.13) Jika , suatu vektor (ak x 1). Maka GBIC(I) untuk model (4.13)

adalah untuk meminimumkan

(4.14) Dimana untuk . Pada sisi lain, kriteria Schwarz yang

berdasarkan pada pendugaan kuadrat terkecil pada regresi (4.13) adalah untuk memilih model yang meminimumkan

(4.15) Sebagaimana ditunjukkan pada bagian (2.1), Kriteria Schwarz (4.15) pada saat muncul nonstasioneritas bukan merupakan kriteria Bayesian yang valid, sementara GBIC (4.14) merupakan kriteria yang valid. Bahkan jika tidak muncul adanya nonstasioneritas, dapat dilihat berdasarkan (4.14) dan (4.15) bahwa GBIC akan menghasilkan jawaban yang berbeda untuk pemilihan model berdasarkan Kriteria Schwarz. Kita dapat menyimpulkan bahwa GBIC (4.14) akan menghasilkan jawaban yang lebih akurat daripada kriteria Schwarz (4.15) karena

GBIC menggunakan model yang tepat, yang memberikan perlakuan khusus terhadap struktur autoregresif dari eror, sedangkan kriteria Schwarz tidak.

4.5. Studi Monte Carlo Kita menguji hasil dari GBIC1 (4.3), untuk mendapatkan keputusan antara I(1) dan I(0) dibandingkan dengan model (4.1) yang didapatkan berdasarkan simulasi Monte Carlo. Pertama kita menguji peluang untuk memilih model sebenarnya H dibandingkan dengan H0: = 1 untuk berbagai variabel dari 0 sampai dengan 1. Model yang digunakan adalah AR(2) dengan dan bergerak dari 0,5 sampai 0,7 sehingga jangkauan dari akar adalah dari 0,8 sampai dengan 1. Jumlah sampel sebesar 100 dengan 5000 pengulangan. Hasilnya dilaporkan pada tabel 4.1.1. Berdasarkan studi tersebut ditemukan bahwa secara seragam di , GBIC memiliki frekuensi lebih tinggi untuk memilih model yang benar dibandingkan dengan kriteria Schwarz. Perbedaan antara GBIC dan kriteria Scwarz menjadi semakin jelas ketika nilai semakin besar. Kriteria Schwarz memiliki bias yang semakin besar dalam memilih H0 saat yang lebih besar.

Pada tahap kedua kita membandingkan power dari GBIC with dua kriteria pemilihan model lainnya yaitu kriteria Schwarz dan uji Augmented Dickey-Fuller. Sebagaimana biasa, kita mendefinisikan power sebagai peluang untuk memilih model sebenarnya. Nilai kritis GBIC dan SBIC didapatkan berdasarkan metode yang dipelajari pada bagian 3. Model yang digunakan untuk simulasi adalah sama dengan simulasi pertama, dan hasilnya disajikan 4.1.2. Ternyata GBIC (4.3)

memiliki power yang jauh lebih baik dibandingkan dengan kriteria Schwarz dan uji-t augmented Dickey-Fuller.

Selanjutnya, simulasi Monte Carlo dilakukan terhadap model (4.4) untuk menentukan jumlah patahan tren untuk menguji hasil dari GBIC dan AIC. Kita mempertimbangkan nilai sebenarnya untuk q yang bergerak dari 0 sampai 2. Pada simulasi model (4.4) ini digunakan model dengan q = 1, 4.2. Sementara dan dan untuk dengan

jumlah sampel sebesar 200 dan 2000 pengulangan. Hasilnya dilaporkan pada

Dari simulasi kedua tersebut ditemukan bahwa kriteria Schwarz memiliki bias yang lebih besar dalam memilih model dengan lebih banyak patahan yang dilaporkan daripada model sebenarnya. Di sisi lain, GBIC2 memilih model yang sebenarnya memiliki frekuensi relatif sebanyak satu dari tiga kasus pemilihan q

yang sebenarnya dari 0 sampai 2. Hasil yang didapatkan dengan GBIC1 tidak seberapa baik jika dibandingkan dengan GBIC2, namun lebih baik jika dibandingkan dengan kriteria Schwarz. Hasil yang didapatkan dengan menggunakan AIC sangat buruk,

sebaimana ditunjukkan pada tabel 4.2. Hal ini merupakan suatu bukti bahwa AIC tidak dapat menyediakan hasil yang dapat diandalkan untuk memilih model ketika jarak antara model yang sebenarnya dengan model yang diasumsikan terlalu lebar. Model (4.4) merupakan model dengan komponen nonstasioner (tren dan patahans dari tren) dengan dimensi dari nonstasioneritas, jumlah dari patahan tidak diketahui. Dalam kasus ini, jarak antara model sebenarnya dengan model alternatif mungkin lebih besar daripada yang diasumsikan dalam Akaike (1973) orde

Anda mungkin juga menyukai