Kita mungkin menjalankan analisis regresi dengan memperhatikan asumsi data yang menyebar
normal, tapi pada beberapa kasus kita mungkin menemukan data yang tidak menyebar normal.
Hal ini tentunya dapat kita atasi dengan transformasi data. Tapi adakalanya transformasi data
yang kita lakukan tetap saja menghasilkan data yang tidak menyebar normal, hal ini dapat
menyebabkan prinsip kenormalan dilanggar. Kita mengenal beberapa tipe data seperti nominal,
ordinal, interval, dan mungkin data deret hitung (count). Untuk data deret hitung biasanya kita
temukan pada suatu kasus atau pada sampel percobaan. Data jenis ini paling sering menyebabkan
data tidak menyebar normal. Pendekatan yang sering digunakan adalah dengan regresi logistik,
dengan menyusun kategori variabel misalnya 1=terpilih, 2=tidak terpilih, hal ini bisa dilakukan
tetapi kita akan kehilangan informasi riil yang mendekati kenyataan, hasilnya menjadi bias, atau
bahkan kekurangan power dalam pengujian. Contoh data deret hitung (count) yang sering kita
temui antara lain:
Jumlah pertandingan sepakbola yang tertunda karena hujan pada satu musim liga, dan
lain-lain.
Ketika variabel respon (bebas) berada dalam bentuk deret hitung (count), kita dapat
menggunakan regresi poisson dimana datanya bernilai > 0 dan bernilai absolute (positif). Regresi
poisson mengikuti bentuk data logaritma natural dimana:
loge(Y) = 0 + 1X1 + 2X2.
maka dapat kita tulis dalam bentuk lain
Y = (e0) (e1X1) (e2X2)
Dengan demikian regresi poisson menyatakan hasil dalam bentuk logaritma sebagai fungsi linier
variabel prediktor.
Karakteristik Sebaran Poisson
Jumlah hasil percobaan () pada suatu daerah diketahui (disini daerah dapat berupa
panjang, area, volume atau periode waktu, dan lain-lain)
Probabilitas/peluang hasil percobaan selama selang waktu yang singkat atau dalam suatu
daerah yang kecil proporsional terhadap besar-kecilnya daerah, bukan pada banyaknya
hasil percobaan yang terjadi di luar selang waktu atau daerah tersebut.
Rata-rata banyaknya hasil percobaan yang terjadi selama selang waktu tertentu
dinotasikan dengan .
Banyaknya hasil percobaan dalam suatu percobaan poisson dinotasikan dengan x dan
biasa disebut sebagai peubah acak X.
P(x; ): dapat dijelaskan sebagai x hasil yang muncul pada percobaan poisson, dimana
jumlah rataan banyaknya hasil adalah sebesar .
Jika diketahui rataan jumlah hasil () yang terjadi pada suatu daerah, kita dapat menghitung
peluang poisson berdasarkan rumus berikut,
P(x; ) = (e-) (x) / x!
Dimana x adalah jumlah hasil aktual yang dihasilkan dari percobaan, sedangkan e merupakan
konstanta = 2.71828.
Percobaan Poisson dapat saja digunakan untuk menentukan hasil pengamatan-pengamatan
mengenai dering telepon per jam, jumlah tikus di sawah per hektar, jumlah kelahiran Caesar di
rumah sakit, kejadian kematian akibat kangker, dan banyaknya pembelian suatu merk kosmetik
tertentu di sebuah pusat perbelanjaan.
Ilustrasi
Seorang salesman yang bernama mamat yang menjual panci dalam satu bulan dapat menjual
rata-rata 2 unit panci per hari (jyaaahhh,,panci pake unit). Berapa kemungkinan panci akan
terjual 3 unit esok harinya?
Dengan Notasi sebaran poisson dapat kita tulis sebagai berikut:
x = 3; karena kita akan melihat kecenderungan salesman mamat akan menjual 3 panci
esok harinya.
Kemudian kita akan memasukkan penjualan mamat ke dalam rumus sebagai berikut:
P(x; ) = (e-) (x) / x!
P(3; 2) = (2.71828-2) (23) / 3!
P(3; 2) = (0,1353) (8) / 6
P(3; 2) = 0.180
Jadi peluang salesman mamat menjual 3 unit panci esok harinya adalah 0,180.
Atau dalam bentuk lain dengan menggunakan tabel sebaran poisson yang biasanya terdapat
dalam buku wajib para statistikawan Pengantar Statistika Edisi ke-3 karangan Ronald E.Walpole,
maka rumus peluang mamat menjual 3 unit panci esok harinya adalah:
P(3; 2) = (e-2) (23) / 3!
maka:
Kita akan menghitung agregat dari peluang-peluang yang terjadi antara lain: P(0; 5) + P(1; 5) +
P(2; 5) + P(3; 5).
P(x < 3, 5)
P(x < 3, 5)
P(x < 3, 5)
= [ (0.006738)(1) / 1 ] + [ (0.006738)(5) / 1 ] + [ (0.006738)(25) / 2 ] +
[ (0.006738)(125) / 6 ]
P(x < 3, 5)
P(x < 3, 5)
= 0.2650
Jadi peluang lipstik cantik berseri akan terjual kurang dari 4 pada hari minggu kemudian
adalah 0.2650.
Selanjutnya akan kita bahas trik menjalankan regresi poisson dengan SPSS.
Sumber:
Anonim. ____. Research Method II: Multivariate Analysis, Poisson Regression Analysis.
Walpolle, E. Ronald. 1995. Pengantar Statistika, Edisi Ketiga cetakan keenam. Gramedia
Pustaka Utama. Jakarta.
Berk R, MacDonald J. 2007. Overdispersion and Poisson Regression. Department of
Criminolgy, University of Pennsylvania: Pennsylvania.
2012
02/20
KATEGORI
teknik regresi
Tulis komentar
Korelasi Biserial
Sehubungan dengan banyaknya permintaan bahasan mengenai korelasi biserial, maka akan
diulas sedikit di Statistik 4 Life berikut ini.
Korelasi biserial merupakan alat yang paling sering digunakan dalam dunia pendidikan, dimana
korelasi ini melihat hubungan antara skor atau hasil jawaban pada masing-masing item
pertanyaan yang diberikan dalam tes. Korelasi biserial efektif diberikan pada tipe tes multiple
choice atau pilihan berganda tetapi bisa juga untuk tipe tes lainnya. Hasilnya para pendidik dapat
mengetahui karaktristik siswa dalam memberikan jawaban terhadap soal tes yang kita berikan.
Korelasi biserial dapat digunakan untuk melihat fenomena dalam pola jawaban siswa, seringkali
pengajar dihadapkan pada kenyataan bahwa siswa tertentu akan memberikan jawaban yang
benar terhadap pertanyaan yang sulit dan sebaliknya pada pertanyaan mudah ia akan
memberikan jawaban yang salah. Sah-sah aja seh, nebak kali ya jawabnya, penulis aja neh klo
ujian suka nebak juga..heheheh.
Seperti halnya pada pengujian korelasi tentunya kita mengenal istilah koefisien korelasi dan nilai
signifikansi atau p-value. Prinsipnya sama saja, pada korelasi biserial nilai koefisien yang besar
dan positif akan mengindikasikan bahwa siswa dapat menjawab dengan baik item pertanyaan
tersebut, sebaliknya poin biserial yang kecil mengindikasikan bahwa item pertanyaan tidak dapat
dijawab dengan baik oleh siswa.
Untuk mempersingkat waktu (heheh..kaya hajatan aja, sambutannya dibawain pa lurah) mari
kita lihat ilustrasi berikut ini:
Berikut ini adalah hasil tes siswa di Sekolah Dasar MARI BERDENDANG yang akreditasinya
ga keluar-keluar (hehe, ngapain aja ya tu sekolahan) yang diberikan dengan data matriks untuk
11 item pertanyaan dan 30 siswa yang mengikuti ulangan. Nilai 1 diberikan untuk siswa yang
menjawab benar, dan nilai 0 diberikan untuk siswa yang menjawab salah.
Dari matriks di
atas kita ketahui bahwa siswa B dan F menjawab dengan benar semua item pertanyaan kecuali
untuk item nomor 8, sedangkan siswa J hanya menjawab 2 pertanyaan dengan benar yaitu item
nomor 1 dan 4, dan seterusnya. Kemudian kita akan menghitung poin biserial untuk masingmasing item. Dalam bahasan ini kita akan menggunakan bantuan perangkat lunak excell.
Setelah data tersedia dalam jendela excell, kita akan totalkan menurut item (ke bawah) maupun
menurut siswa (ke samping) dengan fungsi SUM,
Dari tabel dapat kita lihat bahwa total pada item pertanyaan 1 yang mengindikasikan jumlah
jawaban benar adalah 9, sedangkan total jawaban benar yang dijawab oleh siswa A adalah 6, dan
seterusnya.
Kemudian berikutnya total skor siswa dikurangi dengan skor masing-masing siswa pada setiap
kolom item pertanyaan, maka didapat hasil sebagai berikut:
langkah
kemudian adalah mengkorelasikan setiap skor tersebut per item pertanyaan terhadap data skor
awal masing-masing jawaban tadi dengan fungsi correl pada excell, skor pada item pertanyaan 1
kita korelasikan untuk semua siswa seperti berikut:
untuk yang
belum jelas menggunakan fungsi correl dalam excel, ketik sama dengan di salah satu sell
kemudian pada sisi kiri atas jendela excel (pada kotak formula pilih correl function).
setelah kita
korelasikan maka akan ditampilkan hasil koefisien korelasi berikut ini:
Sedangkan untuk
menghitung p-value adalah dengan membagi total skor per item terhadap total skor per siswa,
misalnya untuk p-value item A dapat dilakukan dengan membagi total skor item A terhadap
jumlah anak yang mengikuti tes (9/10), seperti berikut ini:
dengan demikian
nilai signifikansi yang kita peroleh adalah sebagai berikut:
maka kita
dapatkan hasil selengkapnya seperti berikut:
Dari hasil
korelasi di atas, nilai p-value biasanya mengindikasikan tingkat kesulitan item pertanyaan
sedangkan nilai biserial mengindikasikan kualitan item/tes yang diberikan atau biasa diketahui
sebagai indicator item pertanyaan yang bermasalah.
Nilai negatif pada item 4, 8, dan 10 menunjukkan bahwa item-item tersebut kemungkinan
bermasalah atau kurang sesuai terhadap tujuan dari tes yang dilakukan. Selain itu item nomor 6
dan 8 juga menunjukkan nilai biserial rendah juga mengindikasikan terdapat permasalahan pada
item pertanyaan tersebut, tentunya pendidik akan mengkaji kesesuaian item-item ini terhadap
tujuan tes yang dilakukan.
Sedangkan pada item nomor 5 menunjukkan nilai biserial tertinggi dan nilai p-value yang relatif
tinggi mengindikasikan bahwa item pertanyaan dapat dijawab secara baik dan cukup merata oleh
siswa karena nilai keduanya tidak terpaut jauh, 0,72 dan 0,7. Ini ditunjukkan dengan jumlah
siswa yang menjawab benar sama dengan jumlah siswa yang menjawab salah, ini menunjukkan
item yang tidak mengandung masalah.
Item nomor 2 merupakan pertanyaan yang paling banyak dijawab salah oleh siswa, hanya
dijawab benar oleh 5 siswa, sedangkan 6 siswa menjawab salah. Hal ini sesuai dengan kriteria
statistik karena item nomor 2 memiliki nilai p-value terendah 0,5, jika item ini memiliki nilai pvalue yang tinggi, maka kita dapat saja menyimpulkan bahwa siswa hanya menebak-nebak
jawaban.
Nilai biserial dan signifikansi yang relatif tinggi secara berturut-turut adalah item nomor 5, 3, 2,
9, dan 2 menunjukkan kualitas item pertanyaan yang baik dan tingkat kesulitan yang baik.(yoz)
2011
07/07
KATEGORI
teknik-teknik statistik
1 komentar
X1
X2
X3
Dengan data yang tersedia kita akan mencoba menggunakan regresi linier berganda dengan
SPSS.
Regresi linier berganda dapat dilakukan pada menu analyze-regression-linear pada jendela SPSS
(jika anda belum jelas mengenai analisis regresi linier berganda anda dapat melihatnya di bab
sebelumnya disini>>> )
Setelah dijalankan, hasilnya akan seperti ini:
Dari nilai statistik Durbin Watson sebesar 1,350 kita ketahui bahwa model tidak mengandung
masalah autokorelasi. Jika belum jelas anda dapat melihat penjelasannya dalam bahasan
mengenai masalah autokorelasi pada bab sebelumnya disini>>>.
Hasil regresi di
atas menunjukkan bahwa tidak ada satupun prediktor yang digunakan signifikan mempengaruhi
sales tanaman hias karena nilai signifikansinya masih lebih besar dari nilai kritik 0,05.
Setelah kita jalankan regresi linier berganda seperti di atas, maka akan kita dapatkan nilai
residual pada jendela SPSS, dengan nilai residual tersebut kita akan mengecek kembali
stasioneritas data karena pengujian dengan data time series diasumsikan tidak mengandung
regresi lancung atau bersifat spurious.
Berikut ini adalah indikasi bahwa data tidak stasioner yang dapat merusak asumsi analisis data
time series:
1. Grafik autokorelasi pada lag pertama berada di luar garis bartlett dan terus menurun
sehingga pada lag terakhir akan keluar lagi dari garis bartlett,
2. Nilai probabilitas dari lag pertama hingga terakhir akan mendekati nol dan lebih kecil
dari nilai kritik =0,05.
Uji stasioneritas data juga dapat dilakukan dengan uji akar unit, selanjutnya dapat anda lihat
disini>>>.
Adapun prosedur menjalankan uji autokorelasi dapat dijalankan dengan SPSS sebagai berikut:
1. Setelah melakukan analisis regresi linier berganda (dengan tidak lupa untuk save residual)
maka kita akan mendapatkan nilai residual pada kolom paling akhir di jendela SPSS kita seperti
berikut:
nah, data residual tersebut akan kita gunakan untuk melakukan uji autokorelasi dan autokorelasi
parsial.
2. Pada menu kita pilih analyze-forecasting-autocorrelation seperti berikut ini:
Output yang
didapatkan setelah kita melakukan uji stasioneritas adalah sebagai berikut:
Dari output
autokorelasi baik pada lag pertama maupun lag ke-16 tidak keluar dari garis bartlett.
Pada grafik autokorelasi parsial juga baik pada lag pertama hingga ke-16 tidak keluar dari garis
bartlett, dengan demikian dapat kita simpulkan bahwa data sudah stasioner sehingga layak untuk
dilakukan pengujian time series. Hal ini juga ditegaskan dengan hasil pengujian autokorelasi
Durbin-Watson yang menjelaskan bahwa model tidak mengandung masalah autokorelasi.
Model autoregresif dapat ditulis sebagai berikut:
Yt = 0 + 1X1t-1 + 2X2t-1 + 3X3t-1 + et
Dimana:
Yt
= konstanta
X1t-1
X2t-1
X3t-1
Model autoregresif atau yang biasa disebut dengan AR mengidentifikasi bahwa suatu kejadian
tidak selalu dipengaruhi faktor-faktor yang terjadi pada waktu yang sama, tetapi juga pada waktu
sebelumnya yang kita kenal dengan lag. Model sales tanaman hias yang kita jalankan tidak
memberikan prediktor yang baik dengan nilai koefisien masing-masing variabel yang tidak
signifikan, karena itu model autoregresif diharapkan dapat memperbaikinya. Untuk mencari
prediktor yang paling signifikan, kita akan menggunakan data variabel-variabel pada minggu
sebelumnya, atau dengan kata lain lag dari variabel prediktor yang kita gunakan. Oleh karena itu
data yang kita gunakan akan kita rubah ke dalam bentuk AR(1) atau lag data 1 minggu
sebelumnya, untuk ilustrasi kita akan lihat tabel di bawah ini:
Dengan SPSS 17
kita dapat membuat data lag melalui menu transform-create time series seperti berikut,
Kemudian
outputnya dapat kita lihat pada kolom paling ujung jendela SPSS kita, nah variabel autoregresif
tingkat pertama telah kita dapatkan.
Setelah itu kita dapat running regresi linier dengan data sales dan lag ketiga variabel tadi dengan
menu analyze-regression-linear, sehingga didapatkan output sebagai berikut:
Dari hasil
analisis dapat kita simpulkan bahwa prediktor yang palig tepat untuk meramalkan penjualan
adalah kunjungan website pada minggu kemarin (lag_X1) dengan kunjungan ke gerai/nursery
pada minggu sebelumnya (lag_X3) dengan nilai signifikansi kurang dari 0,05.
pada kesempatan lain kita akan membahas penggabungan antara model Autoregresif dengan
Moving Average atau yang kita kenal dengan ARIMA, dan satu lagi yang tidak kalah menarik
yaitu materi tentang interupted time series dengan ARIMA.(yoz)
2011
06/28
KATEGORI
ekonometrika
Tulis komentar
descriptive crosstab (tabulasi silang). Menu crosstab pada SPSS dapat digunakan untuk
menghitung kasus-kasus yang melibatkan banyak variabel dan kombinasi nilai antar variabel
yang berbeda.
Tahapan menjalankan crosstab dengan SPSS adalah dengan memilih analyze-descriptivecrosstab seperti berikut ini:
Output:
Model Holt-Winters
Seringkali data time series menunjukkan gejala musiman. Musiman mengacu pada
kecenderungan data time series menunjukkan gejala berulang pada setiap periode waktu tertentu
atau pada setiap periode T. Sebagai contoh, harga daging sapi akan melonjak tinggi pada musim
lebaran, atau harga cabe akan membumbung tinggi setiap bulan Desember. Pola ini akan terus
berulang setiap tahunnya. Akan tetapi nilai kenaikan tersebut akan berubah secara relatif dari
tahun ke tahun, walaupun tetap dengan pola yang sama.
Model Holt-Winters digunakan untuk memodelkan data dengan pola musiman, baik
mengandung trend maupun tidak. Titik berat metode ini adalah pada nilai ramalan (),
kemiringan slope (), maupun efek musiman ().
Ilustrasi berikut ini akan membandingkan nilai aktual dengan nilai peramalan pada metode HoltWinters pada data pendapatan dari perusahaan supplier sayuran HIS FARM periode tahun 1990
hingga 2006: Untuk menghitung nilai estimasi peramalan, maka kita perlu mengestimasi terlebih
dahulu nilai tingkat pemulusan dan nilai trend dalam model Holt-Winters, dengan model sebagai
berikut:
Dimana:
Ei = tingkat pemulusan pada periode i
Ei-1 = tingkat pemulusan pada periode i-1
Ti = nilai komponen trend pada periode i
2. Multiplicative Holt-Winters
Metode ini dapat diterapkan pada data time series musiman sama halnya dengan additive, tetapi
pada model ini diasumsikan bahwa komponen-komponen time series (pemulusan data, trend, dan
musiman), dikalikan satu sama lain sehingga menghasilkan data time series yang lebih aktif.
Model yang digunakan adalah:
yt = (b1 +b2t) St + t
dimana :
b1 merupakan komponen dasar/konstanta (0<b1<1)
b2 adalah komponen trend linier