Anda di halaman 1dari 316

D alam beberapa tahun terakhir, penggunaan metode statistik untuk

data kategorik telah meningkat secara dramatis, terutama untuk

Pengantar Analisis Data Kategorik


aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan
perkembangan selama beberapa dekade terakhir mengenai analisis data
kategorik. Hal ini juga mencerminkan meningkatnya kecanggihan metodologi
yang diterapkan para ilmuwan dan ahli statistika, yang kebanyakkan sekarang
menyadari bahwa pendekatan data kontinu seringkali tidak tepat untuk
diaplikasikan pada data kategorik.
Pengantar Analisis
Buku ini menyajikan metode yang penting untuk menganalisis data kategorik.
Secara ringkas, yang memainkan peranan penting dalam analisis data
kategorik adalah uji chi-kuadrat. Kami memberikan penekanan pembahasan
Data Kategorik
pada pemodelan, khususnya untuk regresi logistik. Buku ini akan membantu
Metode dan Aplikasi Menggunakan Program R

Metode dan Aplikasi Menggunakan Program R


peneliti melakukan analisis yang berkaitan dengan respon kategorik yang
banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu biomedis, serta
dalam kesehatan masyarakat, pemasaran, pendidikan, ilmu biologi dan
pertanian, dan kontrol kualitas industri.

Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2
membahas pengertian istilah-istilah yang digunakan dan dasar-dasar
inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik
untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5
membahas model Poisson untuk respon cacah dan model loglinear untuk
tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model
(GLM) yang merupakan sebuah keluarga besar dari model linear, model
logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas
dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai
software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya
mempunyai pemahaman dasar mengenai sistem pengoperasian program Jaka Nugraha
tersebut.

Kategori :

Penerbit Deepublish (CV BUDI UTAMA)


Jl. Elang 3 No.3, Drono, Sardonoharjo, Ngaglik, Sleman
Jl. Kaliurang Km 9,3 Yogyakarta 55581
Telp/Fax : (0274) 4533427
Email : deepublish@ymail.com
Penerbit Deepublish www.deepublish.co.id @deepublisher
Jaka Nugraha
Pengantar Analisis
Data Kategorik
Metode dan Aplikasi menggunakan Program R
UU No 19 Tahun 2002 Tentang Hak Cipta

Fungsi dan Sifat hak Cipta Pasal 2


1. Hak Cipta merupakan hak eksklusif bagi pencipta atau pemegang Hak
Cipta untuk mengumumkan atau memperbanyak ciptaannya, yang
timbul secara otomatis setelah suatu ciptaan dilahirkan tanpa
mengurangi pembatasan menurut peraturan perundang-undangan yang
berlaku.

Hak Terkait Pasal 49


1. Pelaku memiliki hak eksklusif untuk memberikan izin atau melarang
pihak lain yang tanpa persetujuannya membuat, memperbanyak, atau
menyiarkan rekaman suara dan/atau gambar pertunjukannya.

Sanksi Pelanggaran Pasal 72


1. Barangsiapa dengan sengaja dan tanpa hak melakukan perbuatan
sebagaimana dimaksud dalam pasal 2 ayat (1) atau pasal 49 ayat (2)
dipidana dengan pidana penjara masing-masing paling singkat 1 (satu)
bulan dan/atau denda paling sedikit Rp 1.000.000,00 (satu juta rupiah),
atau pidana penjara paling lama 7 (tujuh) tahun dan/atau denda paling
banyak Rp 5.000.000.000,00 (lima miliar rupiah).
2. Barangsiapa dengan sengaja menyiarkan, memamerkan, mengedarkan,
atau menjual kepada umum suatu ciptaan atau barang hasil pelanggaran
Hak Cipta sebagaimana dimaksud dalam ayat (1), dipidana dengan
pidana penjara paling lama 5 (lima) tahun dan/atau denda paling
banyak Rp 500.000.000,00 (lima ratus juta rupiah)

ii
Pengantar Analisis
Data Kategorik
Metode dan Aplikasi menggunakan Program R

Dr. Jaka Nugraha

iii
Jl. Elang 3, No 3, Drono, Sardonoharjo, Ngaglik, Sleman
Jl.Kaliurang Km.9,3 – Yogyakarta 55581
Telp/Faks: (0274) 4533427
Hotline: 0838-2316-8088
Website: www.deepublish.co.id
e-mail: deepublish@ymail.com

Katalog Dalam Terbitan (KDT)

NUGRAHA, Jaka
Pengantar Analisis Data Kategorik/oleh Jaka Nugraha.--Ed.1, Cet. 1--
Yogyakarta: Deepublish, September 2013.
xvi, 299 hlm.; 23 cm

ISBN 978-602-280-095-8

1. Pemrosesan Data I. Judul


004

Desain cover : Herlambang Rahmadhani


Penata letak : Suryadi Pradana Dewanto

PENERBIT DEEPUBLISH
(Grup Penerbitan CV BUDI UTAMA)
Anggota IKAPI (076/DIY/2012)
Isi diluar tanggungjawab percetakan
Hak cipta dilindungi undang-undang
Dilarang keras menerjemahkan, memfotokopi, atau
memperbanyak sebagian atau seluruh isi buku ini
tanpa izin tertulis dari Penerbit.

iv
KATA PENGANTAR

Dalam beberapa tahun terakhir, penggunaan metode statistik


untuk data kategorik telah meningkat secara dramatis, terutama
untuk aplikasi di biomedis dan ilmu sosial. Hal ini mencerminkan
perkembangan selama beberapa dekade terakhir mengenai analisis
data kategorik. Hal ini juga mencerminkan meningkatnya
kecanggihan metodologi yang diterapkan para ilmuwan dan ahli
statistika, yang kebanyakkan sekarang menyadari bahwa
pendekatan data kontinu seringkali tidak tepat untuk diaplikasikan
pada data kategorik. Buku ini menyajikan metode yang penting
untuk menganalisis data kategorik. Secara ringkas, yang
memainkan peranan penting dalam analisis data kategorik adalah
uji chi-kuadrat. Kami memberikan penekanan pembahasan pada
pemodelan, khususnya untuk regresi logistik.
Dalam buku ini tidak dibahas secara teoritis tetapi lebih
ditekankan pada penggunaan secara teknis sehingga tidak
memerlukan pemahaman khusus seperti kalkulus atau aljabar
matriks. Pembaca harus memiliki latar belakang yang meliputi
materi metode statistika yang mencakup estimasi parameter dan
uji signifikansi dan model regresi. Kami berharap bahwa buku ini
menjadi buku ajar untuk matakuliah Analisis Data Kategorik pada
jurusan Statistika. Disamping itu buku ini akan membantu peneliti
melakukan analisis yang berkaitan dengan respon kategorik yang
banyak ditemukan di bidang sosial, perilaku, dan ilmu-ilmu
biomedis, serta dalam kesehatan masyarakat, pemasaran,
pendidikan, ilmu biologi dan pertanian, dan kontrol kualitas
industri.
Saya berharap bahwa ini akan menarik bagi pembaca yang
lebih suka pada sisi aplikasi. Buku ini tidak membahas pembuktian

v
persamaan maupun pembuktian distribusi asimtotis. Saya
menghindari rincian tentang perhitungan yang rumit. Untuk
membantu perhitungan, sebagian dari materi dalam buku ini sudah
tersedia secara luas di sebagian besar paket-paket komersial seperti
S Plus, SAS, SPSS maupun MINITAB. Akan tetapi saya lebih fokus
pada penggunaan software R, mengingat software ini dapat diakses
secara bebas oleh siapapun.
Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6.
Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang
digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3
memperkenalkan model regresi logistik untuk data biner maupun
regresi logistik multinomial. Bab 4 dan Bab 5 membahas model
Poisson untuk respon cacah dan model loglinear untuk tabel
kontigensi. Bab 6 memperkenalkan model Generalized Linear Model
(GLM) yang merupakan sebuah keluarga besar dari model linear,
model logistik, model log linear dan beberapa model lain. Khusus
Bab 7 membahas dasar dasar pemrogramam software R. Bagi
pembaca yang belum menguasai software R, disarankan membaca
Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman
dasar mengenai sistem pengoperasian program tersebut.
Semoga buku ini membantu mahasiswa dalam memahami
analisis data kategorik dan membantuk para peneliti yang
berkaitan dengan data kategori.

Yogyakarta, 11 April 2013


Penulis

Jaka Nugraha
Jurusan Statistika UII
jk.nugraha@gmail.com
jnugraha@uii.ac.id

vi
DAFTAR ISI

KATA PENGANTAR............................................................................. v

DAFTAR ISI...........................................................................................vii

DAFTAR TABEL.................................................................................. xiii

BAB I PENDAHULUAN .............................................................. 1


1.1. Pengertian Statistika .......................................................... 1
1.2. Populasi dan Sampel. ........................................................ 3
1.3. Parameter dan Statistik ..................................................... 4
1.4. Data dan Variabel .............................................................. 5
1.5. Variabel Random.............................................................. 16
1.6. Fungsi Peluang Diskrit dan Fungsi Distribusi ............. 18
1.7. Distribusi Khusus............................................................. 20
1.8. Distribusi Lain-Lain ......................................................... 26
1.9. Distribusi Probabilitas dalam Program R ..................... 29
1.10. Plot Data dan Grafik dalam R ........................................ 33
1.11. Inferensi untuk Parameter Proporsi () ........................ 36
1.12. Fungsi Likelihood dan Maximum Likelihood
Estimator (MLE) ............................................................... 40
1.13. Uji Proporsi dengan Pendekatan Distribusi
Normal ............................................................................... 41
1.14. Interval Konfidensi Proporsi dengan
Pendekatan Distribusi Normal....................................... 43
1.15. Statistik Wald dan Statistik Rasio Likelihood .............. 44
1.16. Inferensi dan Interval Konfidensi Proporsi
Menggunakan Program R ............................................... 46
1.17. Interval Konfidensi Eksak Menggunakan
Program R ......................................................................... 47
1.18. Latihan ............................................................................... 48

vii
BAB II TABEL KONTIGENSI...................................................... 51
2.1. Tabel Kontigensi 2x2 ........................................................ 52
2.2. Membandingkan Dua Proporsi dalam Tabel
2x2 ....................................................................................... 66
2.3. Menghitung RR dan OR Menggunakan
Program R.......................................................................... 70
2.4. Tabel Kontigensi bxk ...................................................... 70
2.5. Uji Eksak untuk Sampel Kecil ........................................ 83
2.6. Ukuran Assosiasi .............................................................. 86
2.7. Uji Cochran-Mantel-Haenszel Untuk Tabel
2x2xJ ................................................................................... 90
2.8. Uji Chi Kuadrat pada Tabel Kontigensi
Multidimensi ..................................................................... 92
2.9. Soal Latihan ....................................................................... 98
BAB III MODEL LOG LINEAR PADA
TABEL KONTIGENSI..................................................... 99
3.1. Model Log Linear Dalam Tabel Kontigensi Dua
Arah .................................................................................. 100
3.2. Model Log Linear untuk Tabel Kontigensi Tiga
Arah .................................................................................. 107
3.3. Contoh Data I .................................................................. 111
3.4. Contoh Data II................................................................. 114
3.5. Model Log Linear pada Tabel Kontigensi Multi
Arah .................................................................................. 118
3.6. Program R untuk Model Log Linear ........................... 119
3.7. Soal Latihan ..................................................................... 126
BAB IV REGRESI LOGISTIK ...................................................... 129
4.1. Distribusi Binomial dan Regresi Logistik ................... 129
4.2. Model Regresi Logistik dengan Variabel
Independen Tunggal ...................................................... 130

viii
4.3. Model Regresi Logistik dengan Variabel
Independen Banyak ....................................................... 133
4.4. Maximum Likelihood Estimator untuk Regresi
Logistik ............................................................................ 133
4.5. Inferensi Regresi Logistik ............................................. 136
4.6. Regresi Logistik Multivariabel ..................................... 147
4.7. Strategi Pemilihan Model.............................................. 148
4.8. Regresi Rogistik dalam Program R.............................. 154
4.9. Model Logistik pada Respon Multi Kategori ............. 157
4.10. Model Pilihan Diskrit .................................................... 175
4.11. Soal Latihan..................................................................... 182
BAB V REGRESI POISSON ....................................................... 183
5.1. Distribusi Poisson .......................................................... 183
5.2. Model Regresi Poisson .................................................. 185
5.3. Estimasi Parameter ........................................................ 186
5.4. Pemilihan model Terbaik .............................................. 188
5.5. Contoh Data I................................................................. 192
5.6. Contoh Data II ................................................................ 198
5.7. Contoh Data III ............................................................... 203
5.8. Soal latihan ...................................................................... 205
BAB VI GENERALIZED LINEAR MODEL (GLM) ................ 209
6.1. Pendahuluan ................................................................... 209
6.2. Fungsi Penghubung (Link) dan Keluarga
Eksponensial ................................................................... 210
6.3. Estimasi Parameter ..................................................... 212
6.4. Inferensi Parameter ‛erdasarkan Fungsi
Likelihood ....................................................................... 215
6.5. Uji Kecocokan Model Dengan Nilai Devians............. 216
6.6. Estimasi Interval dengan GLM .................................... 218
6.7. GLM pada Program R ................................................... 221

ix
BAB VII PENGANTAR PROGRAM R....................................... 227
7.1. Pendahuluan ................................................................... 227
7.2. Manipulasi Data ............................................................. 228
7.3. Operasi Matematika ....................................................... 231
7.4. Vektor ............................................................................... 232
7.5. Array dan Matrik............................................................ 233
7.6. Data Frame ...................................................................... 234
7.7. List .................................................................................... 235
7.8. Variabel Waktu (Dates) ................................................. 235
7.9. Penggabungan Data frame............................................ 236
7.10. Membuka File Data ........................................................ 237
7.11. Editing Data Secara Langsung ..................................... 237
7.12. Membuat Plots ................................................................ 238
7.13. Membuat Plots dari Distribusi Empiris ...................... 239
7.14. Plot Kontur (Contour Plots) ......................................... 240
7.15. Menambahkan Legend dan Stuff ................................. 241
7.16. Menambahkan Panah, Teks dan Penanda .................. 242
7.17. Multiple Plots .................................................................. 243
7.18. Menyimpan Plots ........................................................... 243
7.19. Menambahkan Tulisan Miring dan Simbol
Matematik dalam Plots .................................................. 245
7.20. Statistik............................................................................. 246
7.21. Matematika dalam R ...................................................... 248
7.22. Menyusun Program ....................................................... 252
7.23. Menyimpan Data ............................................................ 254
7.24. Menyimpan Output ....................................................... 254
7.25. Maximum Likelihood Estimation (MLE) .................... 255
BAB VIII APLIKASI STATISTIKA MENGGUNAKAN
R-COMMANDER ........................................................... 257
8.1. Memulai R-Commander................................................ 257
8.2. Input data ........................................................................ 260

x
8.3. Menggunakan Comannder R untuk
Diskripsikan Data .......................................................... 262
8.4. Memodifikasi Dataset .................................................... 264
8.5. Membagi data ................................................................. 266
8.6. Menggunakan Comannder R untuk
Mengeksplorasi Data ..................................................... 267
8.7. Menggunakan Comannder R untuk
menerapkan uji statistik ................................................ 271
8.8. Uji Non-parametrik........................................................ 275
8.9. Korelasi dan Regresi ...................................................... 277
8.10. Menyimpan Grafik......................................................... 282
8.11. Menyimpan Hasil Perhitungan .................................... 283
8.12. Menu pada R Commander (version 1.4-10) ............... 284

DAFTAR PUSTAKA ................................................................ 295


GLOSARIUM ...................................................................................... 297
PROFIL PENULIS.............................................................................. 301

xi
xii
DAFTAR TABEL

Tabel 1.1. Tabel distribusi probabilitas pelemparan dua


buah dadu ......................................................................... 19

Tabel 1.2. Tabel distribusi probabilitas lulusan ............................. 20

Tabel 1.3. Distribusi Binomial dengan n=10 dan


=0.2,0.5,0.8 ....................................................................... 22

Tabel 1.4. Daftar penulisan distribusi dalam program R ............. 29

Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:
>0.50 ................................................................................. 38

Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:
<0.50 ................................................................................. 40

Tabel 2.1. Tabel kontigensi Faktor A dan Faktor B ....................... 52

Tabel 2.2. Penggunaan Aspirin terhadap sakit kepala ................. 53

Tabel 2.3. Kontigensi proporsi  ...................................................... 55

Tabel 2.4. Kontigensi proprorsi p .................................................... 55

Tabel 2.5. Tabel proporsi penggunaan aspirin .............................. 56

Tabel 2.6. Kontigensi proporsi Variabel X dan Y .......................... 57

Tabel 2.7. Distribusi marginal penggunaan aspirin ...................... 58

Tabel 2.8. Hasil pengujian keberadaan narkoba dalam tas. ........ 60

Tabel 2.9. Tabel kontigensi dua arah............................................... 71

Tabel 2.10. Proporsi pada tabel kontigensi dua arah ...................... 71

xiii
Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan
dan jenis pekerjaan .......................................................... 72

Tabel 2.12. Nilai Harapan penggunaan aspirin ............................... 73

Tabel 2.13. Frekuensi harapan klasifikansi karayawan


menurut pendidikan dan jenis pekerjaan ..................... 74

Tabel 2.14. Tabel kontigensi bxk Faktor A dan Faktor B ................ 74

Tabel 2.15. Data gender dan partai afiliasi ....................................... 82

Tabel 2.16. Data Fisher Tea€ ............................................................... 84

Tabel 2.17. Probabilitas dan P-value data Fisher Tea€ ................... 85

Tabel 2.18. Tabel kontigensi 2x2xJ untuk faktor A, B dan C .......... 90

Tabel 2.19. Data keputusan hakim..................................................... 91

Tabel 2.20. Tabel kontigensi tiga arah untuk faktor A, B


dan C .................................................................................. 93

Tabel 2.21. Tabel kontigensi penggunaan helm dan status


luka ..................................................................................... 98

Tabel 2.22. Tabel kontigensi Faktor Kearifan dan Umur................ 98

Tabel 3.1. Tabel kontigensi bxk Faktor A dan Faktor B .............. 100

Tabel 3.2. Nilai harapan ..................................................... 103

Tabel 3.3. Tabel kontigensi tiga arah untuk sampel


distribusi multinomial ................................................... 107

Tabel 3.4. Tabel penggunaan Alkohol, Rokok dan Film


Porno di SLTA ............................................................... 111

xiv
Tabel 3.5. Nilai harapan untuk model loglinear.......................... 112

Tabel 3.6. Uji Goodnes of fit untuk model loglinear ................... 112

Tabel 3.7. Data kecelakaan dan estimasi frekuensi model


loglinear menggunakan model
(GI,GL,GS,IL,IS,LS) dan model (GLS,GI,IL,IS). ......... 114

Tabel 3.8. Nilai G2 pada beberapa model loglinear..................... 114

Tabel 3.9. Hasil Surver kepuasan tempat tinggal ........................ 127

Tabel 3.10. Survey Rencana studi lanjut pelajar SLTA ................. 127

Tabel 4.1. Data Kepiting Ladam Kuda betina .............................. 139

Tabel 4.2. Rata-rata banyaknya satelite.......................................... 142

Tabel 4.3. Prediksi banyaknya satelite berdasar variabel


lebar cangkang................................................................ 145

Tabel 4.4. Variabel indikator untuk variabel warna ................... 147

Tabel 4.5. Estimasi parameter Data Kepiting............................... 150

Tabel 4.6. Tabel nilai devians ......................................................... 153

Tabel 4.7. Data pengamatan panjang Aligator (dalam


meter) dan makanan utama.......................................... 162

Tabel 4.8. Estimasi parameter model logit Data Aligator .......... 165

Tabel 4.9. Data Kepercayaan menurut Gender dan Ras ........... 166

Tabel 4.10. Estimasi Parameter Data Kepercayaan ....................... 167

Tabel 4.11. Estimasi Probabilitas Data Kepercayaan .................... 168

Tabel 4.12. Data penggunaan Kontrasepsi ..................................... 169

xv
Tabel 4.13. Estimasi parameter dalam model logit
kuadratik ......................................................................... 171

Tabel 5.1. Data banyaknya pecahan pada lapisan atas


tambang batubara........................................................... 193

Tabel 5.2. Estimasi parameter model 1 untuk data


tambang ........................................................................... 195

Tabel 5.3. Estimasi parameter model 2 untuk data


tambang ........................................................................... 195

Tabel 5.4. Perhitungan keberartian parameter............................. 195

Tabel 5.5. Pengujian hipotesis untuk masing – masing


kombinasi model ............................................................ 196

Tabel 5.6. Data obeservasi Jumlah Possum (kus kus) ................. 198

Tabel 5.7. Data banyaknya kanker kulit ...................................... 203

Tabel 5.8. Data Banyaknya perkawinan yang sukses pada


gajah pejantan ................................................................. 206

Tabel 5.9. Data kanker kulit non-melanoma di Dallas-Ft.


Worth ............................................................................... 208

Tabel 6.1. Parameter pada Distribusi Keluarga


Eksponensial ................................................................... 211

Tabel 6.2. Fungsi devians pada distribusi keluarga


eksponensial. ................................................................... 216

Tabel 6.3. Data Vonis hukuman mati ............................................ 224

Tabel 8.1. Operator dan simbolnya................................................ 264

xvi
BAB I
PENDAHULUAN

Kata statistika memiliki banyak arti. Banyak istilah atau


terminologi yang dapat digunakan untuk menyatakan ilmu
statistika, banyak kata dalam berbagai bahasa yang sehari-hari
digunakan dan sebetulnya tidak lain adalah statistika. Definisi yang
paling tepat akan diungkapkan dalam bab ini, sehingga selanjutnya
tidak akan ada definisi ganda atau istilah-istilah yang
menyebabkan kerancuan dalam pembahasan selanjutnya. Dalam
bab ini mula-mula akan didefinisikan istilah-istilah dasar seperti
statistika, populasi dan sampel, parameter, statistik, data, variabel,
variabel random, variabel diskrit, variabel kontinu, distribusi
frekuensi. Hal ini perlu dipelajari karena dalam mempelajari ilmu
yang lain, definisi dasar dari istilah-istilah tersebutlah yang paling
penting dipahami. Selanjutnya akan dibahas distribusi khusus yang
berkaitan dengan data kategorik dan inferensi parameter proporsi
dalam distribusi binomial.

1.1. Pengertian Statistika


Statistika adalah sekumpulan konsep dan metode yang
digunakan untuk mengumpulkan dan menginterprestasikan data
tentang bidang kegiatan tertentu dan mengambil kesimpulan
dalam situasi dimana ada ketidakpastian dan variasi. Dalam
mempelajari statistika, kita pada dasarnya berkepentingan dengan
penyajian dan penafsiran kejadian yang bersifat peluang yang
terjadi dalam suatu penyelidikan terencana ataupun penelitian

1
ilmiah. Misalnya kita mencatat berapa orang yang mengidap
penyakit tertentu yang dapat disembuhkan oleh jenis obat baru,
ataupun meneliti banyaknya endapan yang terbentuk dalam suatu
reaksi kimia. Statistika dapat juga didefinisikan sebagai
sekumpulan konsep dan metode yang digunakan untuk
mengumpulkan dan menginterprestasikan data tentang bidang
kegiatan tertentu dan mengambil kesimpulan dalam situasi di
mana ada ketidak pastian dan variasi.
Kita dapat mengelompokkan statistika kedalam dua kelompok
besar yaitu statistika diskriptif dan statistika inferensia. Statistika
deskriptif adalah metode metode yang berkaitan dengan
pengumpulan dan penyajian suatu gugus data sehingga
memberikan informasi yang berguna. Perlu kiranya dimengerti
bahwa statistika diskriptif memberikan informasi hanya mengenai
data yang dipunyai dan sama sekali tidak menarik inferensia atau
kesimpulan apapun tentang gugus data induknya yang lebih besar.
Penyusunan tabel, diagram, grafik dan besaran besaran lain di
majalah dan koran-koran termasuk dalam kategori statistika
diskriptif ini.
Statistika inferensia mencakup semua metode yang
berhubungan dengan analisis sebagian data untuk kemudian
sampai pada peramalan atau penarikan kesimpulan mengenai
keseluruhan gugus data induknya. Generalisasi yang berhubungan
dengan inferensia statistika selalu mempunyai sifat tak pasti,
karena kita hanya mendasarkan pada informasi parsial yang
diperoleh Untuk pemperhitungkan ketidakpastian ini, pengetahuan
mengenai teori peluang mutlak diperlukan.

2
1.2. Populasi dan Sampel
Keseluruhan objek pengamatan yang menjadi perhatian kita
baik tak terhingga maupun terhingga disebut populasi. Semua
anggota yang ada dalam populasi disebut anggota populasi dan
banyaknya anggota disebut ukuran populasi. Di waktu lampau
populasi€ mengandung makna pengamatan yang diperoleh dari
penelitian statistika yang berhubungan dengan orang banyak.
Dimasa kini, statistikawan menggunakan istilah itu bagi sebarang
pengamatan yang menarik perhatian kita, apakah itu sekelompok
orang, binatang, atau benda apa saja. Dalam inferensi statitika kita
ingin memperoleh kesimpulan mengenai populasi, meskipun kita
tidak mungkin atau tidak praktis untuk mengamati keseluruhan
individu yang menyusun populasi. Biaya yang besar lebih sering
menjadi faktor penghalang untuk mengamati semua anggota
populasi. Oleh karena itu, kita terpaksa menggantungkan pada
sebagian anggota populasi untuk membantu kita menarik
kesimpulan mengenai populasi tersebut. Ini membawa kita pada
pengertian sampel.
Sampel adalah suatu himpunan bagian dari populasi. Sampel
diharapkan akan mewakili keadaan populasi (representatif).
Banyaknya anggota dalam sampel disebut ukuran sampel.
Keterwakilan populasi dipengaruhi oleh ukuran sampel, cara
pengambilan sampel, cara memperoleh data atau mengumpulkan
data dan ketelitian (dalam tingkat kekekeliruan dan ketidak
pastian) kesimpulan yang diinginkan. Oleh karena itu dalam
memilih sampel harus mengikuti prosedur tertentu yang dipelajari
dalam teknik sampling. Prosedur pengambilan sampel sangat
banyak, yang paling sederhana adalah sampel acak sederhana.

3
Suatu sampel acak sederhana n pengamatan adalah suatu sampel
yang dipilih sedemikian rupa sehingga setiap himpunan bagian
yang berukuran n dari populasi tersebut mempunyai peluang yang
sama.

1.3. Parameter dan Statistik


Terminologi dan notasi yang digunakan statistikawan dalam
mengolah data statistik sepenuhnya tergantung pada apakah data
tersebut merupakan populasi atau sampel yang diambil dari suatu
populasi. Sebarang nilai yang menjelaskan ciri populasi disebut
parameter. Sebagai contoh, berat rata-rata tablet yang dihasilkan
dalam suatu produksi di suatu industri obat atau rata-rata tekanan
darah penduduk di suatu daerah. Parameter umumnya dinotasikan
dengan huruf yunani, sebagai contoh untuk nilai mean. Mean
dinotasikan dengan . Perlu dicatat bahwa parameter bersifat
karakteristik dari suatu populasi, dan mungkin nilai yang dimiliki
tidak kita ketahui. Sedangkan sebarang nilai yang menjelaskan ciri
sampel disebut statistik. Kuantitas yang diberikan dari suatu
sampel disebut dengan statistik sampel. Berkaitan dengan rerata
sesungguhnya dari berat obat yang dihasilkan di industri obat
adalah rata-rata berat yang diperoleh dari sampel yang diambil.
Parameter merupakan suatu nilai pasti, tidak bervariasi sedangkan
statistik sampel bersifat variabel, nilainya tergantung pada sampel
yang dipilih dan variabilitas pengukuran. Rata-rata berat dari 10
tablet akan berbeda dari suatu sampel dengan sampel lain, karena:
1. Dipilih 10 tablet pada setiap sampling
2. Kemampuan pembacaan neraca tidak secara pasti

4
Bagian penting dalam proses statistika adalah melakukan
karakterisasi populasi melalui estimasi parameter-parameter.
Parameter dapat diestimasi melalui statistik sampel yang sesuai.
Untuk menyelidiki segugus data akan sangat membantu bila
kita mendefinisikan ukuran-ukuran numeris yang menjelaskan ciri-
ciri data yang penting. Sebarang ukuran yang menunjukkan pusat
segugus data yang telah diurutkan disebut ukuran lokasi pusat
atau ukuran pemusatan. Ukuran pemusatan yang paling banyak
digunakan adalah nilai tengah (mean), median dan modus.
Sedangkan ukuran yang menunjukkan sebaran atau variabilitas
data biasanya digunakan parameter range, variansi, deviasi
standar.

1.4. Data dan Variabel


Data merupakan keterangan yang berhasil dicatat atau
direkam mengenai suatu hal. Data dapat didefinisikan sekumpulan
informasi atau nilai yang diperoleh dari pengamatan (observasi)
suatu obyek, data dapat berupa angka dan dapat pula merupakan
lambang atau sifat. Data umumnya diartikan sebagai kumpulan
hasil pengamatan tentang atribut dari suatu subjek. Misalnya untuk
subjek mahasiswa, atribut yang dapat manjadi perhatian di
antaranya adalah tinggi badan, berat badan, jenis kelamin, nilai
suatu matakuliah, IP (Indeks Prestasi) semester dan lain
sebagainya. Karakteristik yang menjadi perhatian biasa disebut
sebagai variabel. Hasil observasi dari masing masing peubah dapat
berupa angka (kuantitatf) atau berupa label pengelompokan, atau
deskriptor lain (misalnya laki-perempuan, dalam kota dan luar

5
kota). Jadi data dapat pula diartikan sebagai kumpulan dari
variabel-variabel beserta deskriptornya.
Data dapat berupa tulisan, gambar/foto, audio atau film. Data
tersebut dapat berupa atau dinyatakan dalam bilangan atau bukan
bilangan. Data berupa bilangan disebut data kuantitatif sedangkan
data bukan bilangan disebut data kualitatif. Kita mengenal istilah
data kontinu, data diskrit, data kualitatif, data kuantitatif. Data
kontinu diperoleh dari hasil pengukuran sedangkan data diskrit
diperoleh dari hasil menghitung atau membilang bukan mengukur.
Data kualitatif adalah data yang berbentuk kalimat, kata, gambar.
Data kuantitatif adalah data yang berbentuk angka atau data
kualitatif yang diangkakan.
Data biasanya merupakan kumpulan dari beberapa variabel
yang merupakan hasil pengukuran dalam suatu eksperimen atau
pengamatan. Variabel adalah suatu karakteristik yang nilainya
antar objek pengamatan atau antar waktu pada objek yang sama
bisa berbeda beda. Variabel memuat data-data yang akan
digunakan untuk keperluan analisis dan mendeskripsikan
populasi, dan diintrepetasikan dalam laporan atau publikasi.
Sebagai contoh variabel antara lain : usia, berat badan, suhu, status
perkawinan (married, single, divorced), Golongan darah (A, B, AB
atau O), pendidikan.

1.4.1. Variabel Kontinu dan Variabel Diskrit


Variabel dapat diklasifikasikan sebagai variabel kontinu dan
variabel diskrit, hal ini tergantung domain dari variabel tersebut.
Dalam prakteknya, variabel yang mempunyai kemungkinan nilai
terbatas (anggota domainnya terbatas) dikelompokkan dalam
variabel diskrit. Sebaliknya jika kemungkinan nilainya tak

6
terhitung (bagian dari bilangan real) maka termasuk dalam
variabel kontinu.
Variabel kontinu adalah salah satu yang diambil dari
sebuah nilai dalam suatu range atau interval (sebagai contoh
spesifikasi batas bahwah atau batas atas). Ketika menimbang tablet
atau mengukur tekanan darah, ada beberapa bilangan tidak
terbatas yang mungkin diperoleh jika data dapat dinyatakan dalam
bilangan desimal tidak terbatas. Namun, karena timbangan hanya
memiliki sensitifitas sampai miligram, maka data seolah-olah
menjadi berupa nilai diskret. Untuk tablet yang ditarget 1 gram dan
digunakan timbangan dalam skala miligram, mungkin diperoleh
berat dalam range antara 900 mg sampai 1100 mg, total ada 201
kemungkinan (900, 901, 902,903,...., 1098, 1099,1100). Untuk
beberapa tablet yang sama menggunakan timbangan yang lebih
sensitif, medekati 0,1 mg misalnya, maka kemungkinan nilai yang
diperoleh antara 899,5 sampai 1100,4 diperoleh 2010 kemungkinan
nilai, dan seterusnya. Namun demikian, pada prinsipnya data berat
tablet ataupun tekanan darah tersebut merupakan data kontinu.
Dikarenakan keterbatasan alat ukur, sehingga data kontinu seolah-
olah merupakan data diskrit. Pada umumnya data kontinu
diperoleh dari proses mengukur menggunakan suatu
instrumen/alat ukur tertentu seperti timbangan, mistar, termometer
dan lain-lain.
Seringkali variabel kontinu tidak mudah diukur tetapi dapat
diranking berdasarkan nilainya. Dalam studi klinik, pengukuran
kecapekan pasien, pengukuran secara numerik akan sulit
dilakukan, tetapi pasien dapat diminta menjelaskan apakah
kecapekannya berada pada tingkat sedang, sangat capek, dan

7
seterusnya. Skor didasarkan pada tingkat kecapekan, misalnya
tidak capek = 0, agak capek =1, cukup capek = 2, dan sangat capek =
3. meskipun skor tidak dapat menyatakan karakteristik capek
secara tepat, nilai 3 merepresentasikan nilai lebih intensif
dibandingkan 0, 1 dan 2. Sistem skoring seperti tersebut di atas
merepresentasikan variabel kontinu dengan skor€ yang bersifat
diskret dengan maksud melakukan rasionalisasi atau merangking
data. hal itu umumnya dikenal sebagai skala rating (rating scale)
dan data yang dirangking adalah skala ordinal. Skala rating adalah
suatu usaha untuk mengkuantisasi variabel kontinu, tetapi
subjektif.
Variabel kontinu dapat selalu diklasifikasikan melalui kelas
diskret dimana kelompok atau kelas disebut order. Sebagai contoh
pasien dapat dikategorikan berdasarkan kriteria berat dibawah
rata-rata (underweight €, berat rata-rata (normal weight € atau berat
di atas rata-rata (overweight €. Overweight merepresentasikan
kondisi lebih besar dibandingkan underweight. Usia dapat diberi
satuan waktu seperti jam, hari, bulan atau tahun. Usia dapat juga
dikelompokan menjadi anak-anak, remaja, dewasa. Demikian juga
variabel suhu dapat diberi satuan derajad atau dapat juga
dikelompokan menjadi dingin, hangat, panas.
Variabel diskrit dapat juga diperoleh karena kemungkinan
nilai terbatas, seperti agama, jenis kelamin, tingkat pendidikan,
jumlah anak dan lain-lain.

1.4.2. Skala Pengukuran


Pengukuran merupakan aturan-aturan pemberian angka
untuk berbagai objek sedemikian rupa sehingga angka ini mewakili

8
nilai variabel. Terdapat empat jenis skala yang dapat digunakan
untuk mengukur variabel, yaitu: skala nominal, skala ordinal, skala
interval, dan skala ratio.
a. Skala nominal
Merupakan salah satu jenis pengukuran dimana angka
dikenakan untuk objek atau kelas objek untuk tujuan
identifikasi. Skala nominal hanya mempunyai makna
membedakan seperti:
i. agama : Islam, Katolik, Yahudi dll,
ii. mode transportasi : bus, taxi, mobil pribadi.
iii. aliran politik : liberal,moderat, konservatif.
iv. tempat tinggal : rumah, apartemen, kondominium dll.

Demikian juga, jika dalam suatu penelitian tertentu pria


diberikan kode 1 dan wanita mendapat kode 2, untuk
mengetahui jenis kelamin seseorang adalah melihat apakah
orang ini berkode 1 atau 2. Angka-angka tersebut tidak mewakili
hal lain kecuali jenis kelamin seseorang. Wanita, meskipun
mendapat angka yang lebih tinggi, tidak berarti lebih baik€
dibanding pria, atau lebih banyak€ dari pria. Kita boleh saja
membalik prosedur pemberian kode sehingga wanita berkode 1
dan pria berkode 2.

b. Skala ordinal
Skala ordinal mempunyai makna membedakan sekalikus
urutan/ranking, seperti:
- rendah, sedang dan tinggi.
- peringkat setuju, ragu-ragu dan tidak setuju.
- tingkat kemiskinan (prasejahtera, sejahtera 1 dan sejahtera 2)

9
Skala ordinal merupakan salah satu jenis pengukuran
dimana angka dikenakan terhadap databerdasarkan urutan dari
objek. Misalkan peringkat setuju diberikan kode 1, ragu-ragu
mendapat kode 2 dan tidak setuju mempunyai kode 3. Disini
angka 2 lebih besar dari 1, bahwa angka 3 lebih besar dari 2
maupun 1. Angka 1, 2, 3, adalah berurut, dan semakin besar
angkanya semakin besar propertinya. Namun kita juga bisa
memakai angka 1 untuk mewakili peringkat setuju, 3 untuk
ragu-ragu, 5 untuk tidak setuju. Walaupun demikian, dalam
skala ordinal tidak berlaku sifat penjumlahan maupun
pengurangan. + ≠ , yang berarti setuju ditambah ragu-ragu
tidak sama dengan tidak setuju.

c. Skala interval
Merupakan salah satu jenis pengukuran dimana angka-
angka yang dikenakan memungkinkan kita untuk
membandingkan ukuran dari selisih antara angka-angka. Selisih
antara 1 dan 2 setara dengan selisih antara 2 dan 3, selisih antara
2 dan 4 dua kali lebih besar dari selisih antara 1 dan 2. Contoh
adalah skala temperature, misalnya temperature yang rendah
pada suatu hari adalah 40o F dan temperature yang tinggi adalah
80o F. Disini kita tidak dapat mengatakan bahwa temperature
yang tinggi dua kali lebih panas dibandingkan temperature yang
rendah karena jika skala Fahrenheit menjadi skala Celsius,
dimana C = (5F – 160) / 9, sehingga temperature yang rendah
adalah 4,4o C dan temperature yang tinggi adalah 26,6o C. Skala
interval tidak memiliki nilai nol mutlak. Misalkan suhunya 00C,
nilai nol tidak berarti suhunya tidak ada tetapi mempunyai
derajad nol.

10
d. Skala ratio
Merupakan salah satu jenis pengukuran yang memiliki nol
alamiah atau nol absolute, sehingga memungkinkan kita
membandingkan magnitude angka-angka absolute. Tinggi dan
berat adalah dua contoh nyata disini. Seseorang yang memiliki
berat 100 kg boleh dikatakan dua kali lebih berat dibandingkan
seseorang yang memiliki berat 50 kg, dan seseorang yang
memiliki berat 150 kg tiga kali lebih berat dibandingkan
seseorang yang beratnya 50 kg. Dalam skala ratio nol memiliki
makna empiris absolute berarti tidak satu pun dari variabel yang
diukur benar-benar eksis. Misal beratnya nol, berarti tidak
mempunyai berat.

1.4.3. Skala Sikap


Terdapat beberapa cara untuk mengukur sikap, diantaranya
adalah self-report. Self report merupakan metode penilaian sikap
dimana responden ditanya secara langsung tentang keyakinan
atau perasaan mereka terhadap suatu objek atau kelas objek.
a. Skala Likert
Merupakan teknik self report bagi pengukuran sikap dimana
subjek diminta untuk mengindikasikan tingkat kesetujuan atau
ketidaksetujuan mereka terhadap masing masing pernyataan.
Skala likert adalah salah satu teknik pengukuran sikap yang
paling sering digunakan dalam riset pemasaran. Dalam
pembuatan skala likert, peneliti membuat beberapa pernyataan
yang berhubungan dengan suatu isu atau objek, lalu subjek atau
responden diminta untuk mengindikasikan tingkat kesetujuan
atau ketidaksetujuan mereka terhadap masing-masing

11
pernyataan. Contoh: skala likert digunakan untuk mengukur
sikap, pendapat, dan persepsi seseorang atau sekelompok orang
tentang fenomena sosial. Skala likert bisa 3, 4, 5, 6, 7, skala
tergantung kebutuhan.

1 2 3 4 5
Sangat Tidak Ragu-ragu/ Setuju Sangat
tidak setuju setuju Netral setuju
Sangat Tidak Ragu-ragu/ Puas Sangat
tidak puas puas Netral puas
Sangat Kurang Cukup Baik Sangat
tidak baik baik baik

b. Skala semantic differential


Merupakan salah satu teknik self report untuk pengukuran
sikap dimana subjek diminta memilih satu kata sifat atau frase
dari sekelompok pasangan kata sifat atau pasangan frase yang
disediakan yang paling mampu menggambarkan perasaan
mereka terhadap suatu objek. Skala ini digunakan untuk
mengukur sikap, hanya bentuknya bukan pilihan ganda atau
checklist, tetapi tersusun dalam satu garis kontinum yang
jawaban positifnya terletak di bagian kiri dan jawaban negatif
terletak di bagian kanan. Atau sebaliknya.
Misalnya kita kembali menggunakan persoalan pengukuran
sikap terhadap bank. Periset perlu membuat daftar pasangan
kata sifat atau pasangan frase berkutub-dua. Skala yang telah
dibuat kemudian disebarkan pada suatu sampel responden.
Setiap responden diminta membaca seluruh frase berkutup dua
dan menandai sel yang paling mampu menggambarkan

12
perasaannya. Responden biasanya diberi tahu bahwa sel-sel
ujung adalah sel-sel objek paling deskriptif, sel tengah adalah sel
netral, dan sel-sel antara sebagai sel agak deskriptif serta sel
cukup deskriptif. Jadi sebagai contoh, jika seorang responden
merasa bahwa pelayanan bank A berkualitas sedang, maka dia
akan menandai sel keenam dari kiri.
Contoh:
Pelayanan tidak berkualitas :----:----: Pelayanan berkualitas
Lokasi tidak menyusahkan :----:----: Lokasi menyusahkan
Jam kerja menyusahkan :----:----:Jam kerja tidak menyusahkan
Suku bunga kredit tinggi :----:----:Suku bunga kredit rendah

Contoh: peneliti ingin menanyakan persepsi pelanggan terhadap


pelayanan sebuah hotel.
Skor
Cepat 5 4 3 2 1 Lambat
Ramah 5 4 3 2 1 Tidak ramah
Memuaskan 5 4 3 2 1 Tidak memuaskan

c. Skala Guttman: skala guttman dilakukan jika peneliti ingin


mendapatkan jawaban tegas terhadap suatu permasalahan
yang ditanyakan.
Skor 1 0
Pertanyaan Ya Tidak
Setuju Tidak Setuju
Puas Tidak Puas

13
d. Rating Scale: bila ketiga skala di atas merubah bentuk
kualitatif menjadi kuantitif (angka/skor), maka rating scale
sebaliknya.

Contoh: seberapa perhatian pemimpin/atasan Anda


terhadap kondisi bawahan:
 Angka 3 : Sangat Perhatian,
 Angka 2 : Cukup perhatian,
 Angka 1 : Kurang perhatian

Sebagaimana kebiasaanya dalam hal pekerjaan ukur


mengukur, selalu memerlukan kehati-hatian dan ketelitian,
untuk memperoleh hasil pengukuran yang sah dan tepat. Oleh
karena itu membuat alat ukur, terutama alat ukur fenomena
sosial haruslah sedemikian rupa mempunyai kemantapan yang
canggih. Inti sari dari penyusunan alat ukur fenomena sosial itu
adalah penentuan mata skala yang paling tepat, melalui cara
penentuan dimensi variabel-variabelnya itu untuk hal ini
keterampilan analisis faktor perlu dikuasai oleh para peneliti ilmu
sosial. Selain hal itu, perlu pula diperhatikan bahwa meskipun
telah dimiliki alat ukur yang jitu, masih ada sumber-sumber
kesesatan lain yang berpengaruh terhadap pengukuran itu;
antara lain subyek pengukur, obyek yang diukur dan mungkin
pula hal lain misalnya situasi dan kondisi di mana pengukuran itu
dilakukan. Sampai berapa jauh gangguan sumber-sumber
kesesatan dalam pengukuran mengganggu ketepatan dan
keabsahan pengukuran, hampir seluruh kepustakaan
metodologi penelitian membahasnya sebagai topik yang tidak
boleh ketinggalan. Oleh karena itu dianjurkan untuk

14
memperdalamnya melalui kepustakaankepustakaan yang
dimaksud. Pada akhirnya perlu pula diketahui, terutama pada
penelitian yang menggunakan kuesioner (daftar pertanyaan),
angket, dan sebagainya, skala ukur variabel itu merupakan
penjabaran dari points€ mata-mata) skala pada bentuk
pertanyaan-pertanyaan jadi menyusun daftar pertanyaan tidak
dilakukan semaunya atau seingatnya, melainkan dilakukan
dengan sistematik sesuai dengan skala ukur (ingat kembali,
bahwa skala ukur terdiri dari dimensidimensi, komponen-
komponen atau indikator-indikator variabel). Sekali lagi betapa
penting/urgentnya penentuan pengukuran dan penyusunan
skala itu bagi proses penelitian selanjutnya.

1.4.4. Variabel Kategorik


Suatu variabel yang nilainya merupakan salah satu dari
sekumpulan kategori disebut variabel kategorik. Variabel kategorik
nilainya berupa label atau sering diberi label angka tetapi tidak
mempunyai numerik. Variabel kategorik yang mempunyai dua
kelompok atau dua level (dikotomi) atau lebih spesifik adalah
variabel biner (0/1). Misalnya kategorisasi menurut jenis kelamin
perempuan€ atau laki-laki€, status pasien sakit  atau sehat€.
Variabel kategorik mempunyai dua tipe skala pengukuran
yaitu skala ordinal dan skala nominal. Metode yang dirancang
untuk data ordinal tidak dapat digunakan untuk data nominal.
tetapi sebaliknya metode yang dirancang untuk data nominal dapat
digunakan pada data ordinal. Jika hal ini dilakukan maka akan
kehilangan informasi yang berkaitan dengan urutan. Oleh karena
itu paling tepat menggunakan metode sesuai skala data yang

15
sebenarnya. Variabel kategorik sering disebut dengan variabel
diskrit.

1.4.5. Variabel Dependen dan Variabel Independen


Dalam pemodelan statistik (analisis dependensi) muncul
istilah variabel explanatory dan variabel respon. Variabel respon
kadang disebut dengan variabel dependen (variabel Y) dan variabel
eksplanatory disebut dengan variabel independen (variabel X). Suatu
variabel termasuk variabel dependen berarti nilai variabel itu
dipengaruhi oleh variabel yang lain yaitu variabel independen.
Misalkan setiap pasien diamati variabel tekanan darah dan variabel
usia. Jika usia mempengaruhi tekanan darah, maka tekanan darah
merupakan variabel dependen sedangkan usia merupakan variabel
independen. Dalam analisis data kategorik, variabel respon berupa
data kategorik, sedangkan variabel explanatory dapat berupa data
kontinu maupun kategorik (diskrit)

1.5. Variabel Random


Dalam terminologi statistika, suatu observasi yang nilainya
belum pasti lebih tepat disebut dengan istilah variabel random.
Variabel random merupakan nilai, atau bilangan yang mengacu
pada fungsi probabilitas yang merupakan observasi dari suatu
eksperimen. Pengukuran-pengukuran dalam eksperimen mungkin
menghasilkan nilai-nilai yang berbeda, perlakuan yang sama atau
perulangan pada kondisi yang sama memungkinkan diperoleh data
yang tidak identik. Sebagai contoh, penentuan kandungan serum
dalam darah setelah seorang pasien mengkonsumsi obat selama 1
jam memungkinkan perolehan data yang berbeda dalam beberapa
perulangan. Hal ini dapat dipengaruhi oleh beberapa hal seperti

16
(a) sampel darah yang diambil
(b) pengukuran dari orang yang berbeda atau
(c) pengukuran pada orang yang sama dengan kondisi yang
berbeda.

Variasi adalah karakteristik yang selalu muncul dalam data


eksperimen. Untuk mengisolasi dan untuk mengidentifikasi
sebagian penyebab dari variabilitas diperlukan desain eksperimen
dan analisis data. Variasi dalam observasi mengacu pada sejumlah
sebab. Tanpa adanya variabilitas, eksperimen ilmiah menjadi
singkat dan sederhana, interpretasi hasil eksperimen dari desain
eksperimen yang diketahui berupa kesimpulan pasti. Akan tetapi
pada kenyataannya, tanpa variabilitas, observasi tunggal sering
cukup menunjukkan atau menggambarkan sifat materi atau sistem.
Pada beberapa hal, jika memungkinkan, proses dapat dianggap
absolut tidak memiliki variansi. Pengolahan data lebih cenderung
digunakan untuk menyimpulkan atau mendefinisikan data asli,
dan untuk mengambil keputusan atau inferensi berdasarkan data
eksperimen.
Jika dikaitkan dengan distribusi probabilitas, maka variabel
random (X) adalah suatu fungsi yang nilainya berupa bilangan real
yang ditentukan oleh setiap unsur dalam ruang sampel. X(e) = x
untuk setiap e  S (Ruang Sampel) dan x  R (bilangan Real). Bila
suatu ruang sampel mengandung jumlah titik sampel yang
terhingga atau suatu barisan unsur yang tidak pernah berakhir
tetapi banyaknya sama dengan bilangan cacah dinamakan Variabel
Random Diskrit.

17
Contoh 1.1
Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak
lulus (G). Jika terdapat 3 calon maka ruang sampelnya adalah

S = {LLL, LLG, LGL, GLL, LGG, GLG, GGL, GGG}

dan variabel random X adalah banyaknya calon yang lulus, maka X


= {0,1,2,3}.

Bila suatu ruang sampel mengandung jumlah titik sampel yang


tak-terhingga yang sama dengan banyaknya titik di garis bilangan
dinamakan variabel random kontinu.

Contoh 1.2.
Mengukur berat tinggi badan calon mahasiswa baru, maka
hasil pengukuran untuk seorang calon adalah

S = {x | x > 0}
banyaknya anggota S adalah tak terhingga. Variabel random X
yaitu tinggi mahasiswa adalah

X = {x | x >0}

banyaknya anggota X adalah tak terhingga.

1.6. Fungsi Peluang Diskrit dan Fungsi Distribusi


Suatu variabel random diskrit X yang bernilai x1, x2, ,xn.
mempunyai fungsi peluang P(x1), P(x2 , , P xn). Bila X adalah
variabel random, maka fungsi distribusinya (fungsi distribusi
kumulatif) didefinisikan sebagai

FX(x) = P X x , untuk semua x

18
sehingga

a. FX(x) kontinu dari kanan


b. FX(X=-)=0 dan FX(X=)=1

Jika varibel random X telah diurutkan ( xi > xi-1) maka p(X=xi) =


F(xi) – F(xi-1). Suatu fungsi P(x) disebut suatu fungsi peluang
(distribusi peluang) jika dan hanya jika P x untuk semua x dan

 P( x )  1 .
i 0
i

Contoh 1.3
Bila sepasang dadu dilemparkan, maka ruang sampelnya adalah

S ={ , , .., }.

Variabel random X adalah jumlah bilangan pada muka yang


tampak
X={2,3,4,5,6,7,8,9,10,11,12}.

Distribusi peluangnya dapat dituliskan dalam tabel berikut ;


Tabel 1.1. Tabel distribusi probabilitas pelemparan dua buah dadu
X 2 3 4 5 6 7 8 9 10 11 12
P(X) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
F(X) 1/36 3/36 6/36 10/36 15/36 21/36 26/36 30/36 33/36 35/36 36/36

Contoh 1.4
Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak lulus
(G). Jika terdapat 3 calon maka ruang sampel nya

S = {LLL, LLG, LGL, GLL, LGG, GLG, GGL, GGG}

19
S adalah ruang sampel yang merupakan himpunan semua
kemungkinan kejadian (hasil). Variabel random X yaitu banyaknya
calon yang lulus, maka
X = {0, 1, 2, 3}

P(X) adalah banyaknya X=x dalam ruang sampel dibagi banyaknya


anggota keseluruhan ruang sampel. Distribusi peluangnya dapat
dituliskan dalam tabel berikut

Tabel 1.2. Tabel distribusi probabilitas lulusan


X 0 1 2 3
P(X) 1/8 3/8 3/8 1/8
F(X) 1/8 4/8 7/8 8/8

Contoh 1.5
Mengukur berat tinggi badan calon mahasiswa baru, maka hasil
pengukuran untuk seorang calon adalah

S = {x | x > 0} banyaknya anggota S adalah tak terhingga

Variabel random X yaitu tinggi mahasiswa

X = {x | x >0} banyaknya anggota X adalah tak terhingga

Peluang X=x adalah


P(X=x) = 1/  0

1.7. Distribusi Khusus


Terdapat tiga distribusi yang akan banyak dibahas disini yaitu
distribusi binomial, multinomial dan Poisson.

20
1.7.1. Distribusi Binomial
Seringkali, data kategori diperoleh dari pengamatan
sebanyak n yang saling independen dan identik yang mempunyai
dua kemungkinan hasil yaitu sukses€ dan gagal€. Jika hasil suatu
pengamatan tidak berpengaruh terhadap hasil pada pengamatan
lain maka dapat dikatakan n pengamatan saling independen. Yang
dimaksud dengan pengamatan identik adalah pengamatan
dilakukan pada kasus dan kondisi yang sama. Pada kejadian
sukses€ dan gagal€, pengamatan saling independen disebut
Bernoulli trials. Misalkan π menyatakan probabilitas sukses dan X
adalah banyaknya sukses dari n pengamatan. Dengan asumsi n
pengamatan saling independen dan identik, Variabel random X
mempunyai distribusi binomial dengan parameter π.
Jadi, suatu percobaan atau pengamatan masuk kedalam
distribusi binomial jika memiliki ciri-ciri
a. Percobaan terdiri atas n ulangan
b. ulangan-ulangan itu bersifat bebas satu sama lain
c. dalam setiap ulangan hasilnya dapat digolongkan sebagai
berhasil atau gagal
d. peluang berhasil dilambangkan π dan untuk setiap ulangan
adalah sama (tidak berubah-ubah)

Sebaran peluang binom dapat nyatakan ke dalam rumus:


 n  x
  (1   ) ; x  0, 1, ...., n
n x

P( x)   x  dengan 0    1
0
 untuk x yang lainnya

21
Contoh 1.6
Sebuah pertanyaan (kuis) yang terdiri dari 10 pilihan ganda
yang masing-masing mempunyai 5 alternatif dan hanya satu plihan
yang benar. X menyatakan banyaknya jawaban yang benar.
Probabilitas jawaban benar untuk masing-masing pertanyaan
adalah 0.20 maka
n=10 dan π= 0. 0
Probabilitas semua jawaban salah (x=0 ) sama dengan
10 
P( X  0)   0.20 (1  0.2)10 0  0.107
0 
Probabilitas banyaknya jawaban yang benar kurang dari 7 (x<7 )
sama dengan
 
6 10
P( X  7)  P( X  6)    0.2 x (1  0.2)10 x  0.9991356
x 0  x 

Pada tabel berikut disampaikan distribusi binomial untuk =0.5 dan


=0.8.
Tabel 1.3. Distribusi Binomial dengan n=10 dan =0.2,0.5,0.8
Y P(y) pada =0.2 P(y) pada =0.5 P(y) pada =0.8
0 0.107 0.001 0.000
1 0.268 0.010 0.000
2 0.302 0.044 0.000
3 0.201 0.117 0.001
4 0.088 0.205 0.005
5 0.027 0.246 0.027
6 0.005 0.205 0.088
7 0.001 0.117 0.201

22
Y P(y) pada =0.2 P(y) pada =0.5 P(y) pada =0.8
8 0.000 0.044 0.302
9 0.000 0.010 0.268
10 0.000 0.001 0.107

Distribusi binomial simetrik ketika =0.5. Jika <0.5 maka menceng


ke 0 sebaliknya jika >0.5 maka menceng ke 1. Distribusi binomial
mempunyai mean dan variansi
E(X) = n dan Var(X)=n(1-)

Ketika n besar, distribusi binomial dapat didekati dengan distribusi


normal dengan
 = n dan 2 = n(1-).

Pendekatan dengan distribusi normal akan baik jika n  5 dan n(1-


) 5. Jadi jika =0.5 maka n 10. Jika =0.1 atau =0.9 maka n 50.
Jika  mendekati 0 atau 1 maka untuk menggunakan pendekatan
normal dibutuhkan sampel yang lebih besar.

1.7.2. Distribusi Multinomial


Kejadian binomial hanya terdapat dua kemungkinan hasil
(sukses atau gagal). Jika terdapat lebih dari dua kemungkinan hasil
maka termasuk kejadian multinomial. Ciri-ciri selengkapnya:
a. Percobaan terdiri atas n ulangan
b. ulangan-ulangan itu bersifat bebas satu sama lain
c. dalam setiap ulangan hasilnya dapat digolongkan kedalam
beberapa sifat (misal k sifat).
d. peluang berhasil untuk sifaf ke-i dilambangkan pi dan untuk
setiap ulangan adalah sama (tidak berubah-ubah)

23
Sebaran peluang multinom dapat nyatakan ke dalam rumus:

 n  x1 k k

  1 ,...,  kxk ; dengan  x i  n dan   i  1


f ( x1 ,..., xk ;  1 ,...,  k ; n)   x1 ,..., xk  i 1 i 1
0
 untuk x yang lainnya
dengan 0   i  1

Contoh 1.7
Menurut teori genetika, persilangan anggrek putih dan anggrek
merah akan menghasilkan anggrek putih, orange dan merah
dengan perbandingan 8:4:4. Berapa peluang dari 8 keturunan
terdapat 5 putih, 2 orange dan 1 merah?
Jawab:
Diketahui n=8, x1=5, x2=2, x3=1, 1=0.5, 2=0.25, 3 =0.25
8!
P( X 1 5; X 2  2; X 3  1)  (0.5) 5 (0.25) 2 (0.25)1 = 0.08203125
5!2!1!

Multinomial adalah distribusi multivariat. Distribusi marginal


untuk satu kategori adalah binomial. Untuk kategori j, mempunyai
mean nj dan variansi nj(1-j). Pembahasan lebih lanjut untuk
distribusi binomial dan distribusi multinomial akan dibahas pada
model logitik dan model log-linear.

1.7.3. Distribusi Poisson


Percobaan Poisson memiliki ciri-ciri sebagai berikut
a. banyaknya hasil percobaan yang terjadi dalam selang waktu
atau suatu daerah tertentu, tidak tergantung pada

24
banyaknya hasil percobaan yang terjadi pada selang waktu
atau daerah lain yang terpisah
b. peluang terjadinya suatu hasil percobaan selama suatu
selang waktu yang singkat sekali atau dalam suatu daerah
yang kecil, sebanding dengan panjang selang waktu atau
besarnya daerah tersebut, dan tidak tergantung pada
banyaknya hasil percobaan yang terjadi diluar selang waktu
atau daerah tersebut.
c. peluang bahwa lebih dari satu hasil percobaan akan terjadi
dalam selang waktu yang singkat tersebut atau dalam
daerah yang kecil tersebut, dapat diabaikan.

Sebaran poisson dapat dituliskan ke dalam rumus


 e   x
 ; x  0, 1, ....
P( x)   x!
0
 untuk x yang lainnya
e = 2,71828 dan  adalah rata-rata banyaknya hasil percobaan
yanga terjadi selama selang waktu atau dalam daerah yang
dinyatakan

Contoh 1.8
Seorang sekretaris rata-rata melakukan 2 kesalahan ketik per
halaman. Berapa peluangnya bahwa dia akan melakukan kesalahan
sebanyak
a. 2 atau lebih kesalahan?
b. tidak satupun kesalahan?

25
Jawab:
diketahui =2

exp( 2)2 x
a. P( X  2)  
x2 x!
1
exp( 2)2 x
= 1 
x 0 x!
= 1 - 0.4060058
=0.5939942
exp( 2)2 0
b. P( X  0)   0.1353353
0!

1.8. Distribusi Lain-Lain


1.8.1. Distribusi Hipergeometrik
Bila dalam populasi N objek terdapat k benda diantaranya
diberi label berhasil€ dan N-k objek lainya diberi label gagal€
maka sebaran peluang bagi peubah acak hipergeometrik X yang
menyatakan banyaknya keberhasilan dalam sampel acak berukuran
n, adalah  k  N  k 
  
 x  n  x 
h( x; N ; n; k )  , untuk x  0,1,2, ..., k
N
 
1.8.2. Distribusi Hipergeometrik  n Peubah Ganda
Bila dalam populasi N objek disekat menjadi k sel, masing-
masing dengan a1, ...,ak unsur, maka sebaran peubah acak X1, ..., Xk
yang masing-masing menyatakan banyaknya unsur yang terambil
dari masing-masing sel bila populasi diambil sebanyak n, maka
distribusi peluangnya adalah

26
 a1   ak 
 ..... 
h( x1 ,..., xk ; N ; n; a1 ,..., ak )   1   k  , dimana  x i  n dan  a i  N
k k
x x
N i 1 i 1
 
 
n

1.8.3. Distribusi Binomial Negatif


Bila ulangan yang bebas dan berulang-ulang dapat
menghasilkan dengan keberhasilan dengan peluang π, maka
sebaran bagi peubah acak X yaitu banyaknya ulangan sampai
diperoleh k keberhasilan diberikan dengan rumus

 x  1 k
B( x; k ;  )    (1   ) x k dimana x  k, k  1, .....
 k  1 

1.8.4. Distribusi Geometrik


Bila pengamatan berulang yang bebas dan masing-masing
mempunyai peluang keberhasilan sukses sebesar π, maka sebaran
bagi peubah acak X yaitu banyaknya ulangan sampai diperoleh
keberhasilan yang pertama diberikan dengan rumus

g xp =π -π x-1 untuk x=1,2,3,...

1.8.5. Distribusi Normal


Bila variabel random X mempunyai nilai rata-rata  dan
variansi 2 maka persamaan kurva normalnya (fungsi kepadatan
peluang) adalah

1 x
2
1
f ( x)  exp(    )
2 2 2  
dalam hal ini  = 3,14159 dan exp(.) = 2,72(.).

27
1.8.6. Distribusi Chi Kuadrat
Densitas dari distribusi Chi Kuadrat adalah

 1
 n/2 ( x) n / 2 1 e  x / 2 untuk 0  x  
f X ( x)   2 (n / 2)
0
 untuk x yang lain

Distribusi Chi Kuadrat disimbolkan dengan 2n untuk suatu


bilangan bulat n.

1.8.7. Distribusi F
Distribusi F disimbulkan dengan F(m;n) untuk suatu
bilangan positif m dan n (derajad kebebasan) mempunyai densitas

  m  n  m  m / 2
   
  2  n  x (n - 2)/2
 (m n) / 2
untuk 0  x  
f X ( x)   m n
   1  m x 
  2  2  n 


0 untuk x yang lain

1.8.8. Distribusi Student-t


Densitas dari distribui t dengan derajad bebas n adalah

  n 1
  2 
   1
 ( n 1) / 2
untuk 0  x  
f X ( x)   n  n   x2 
1  
  2   n


0 untuk x yang lain

28
1.9. Distribusi Probabilitas dalam Program R
Dalam program R, kita dapat mengitung probabilitas
kumulatif, nilai densitas, kuantil dan membangkitkan bilangan
random dari densitas tertentu menggunakan perintah :
dbinom(x, size, prob) : menghitung densitas dari distribusi
binomial
pbinom(x, size, prob) : menghitung densitas kumulatif dari
distribusi binomial
qbinom(p, size, prob) : menghitung kuantil ke-p dari distribusi
binomial
rbinom(n, size,prob) : membangkitkan n bilangan random dari
distribusi binomial

‚walan d€ berarti densitas, awalan p€ berarti densitas


kumulatif (CDF:cumulative density function , awalan q€ berarti
kuantil (quantile , awalan r€ berarti random. Distribusi yang lain
dapat dilihat pada tabel 1.4.

Tabel 1.4. Daftar penulisan distribusi dalam program R


Distribusi Nama argumen
Beta Beta shape1, shape2, ncp
Binomial binom size, prob
Cauchy cauchy location, scale
chi-squared chisq df, ncp
Exponential Exp Rate
F F df1, df2, ncp
Gamma gamma shape, scale
Geometric Geom. Prob
Hypergeometric hyper m, n, k

29
Distribusi Nama argumen
log-normal Lnorm meanlog, sdlog
Logistic Logis location, scale
negative binomial nbinom size, prob
Normal Norm mean, sd
Poisson Pois Lambda
Student s t T df, ncp
Uniform Unif df, ncp
Weibull weibull shape, scale
Wilcoxon wilcox m, n

Pembahasan lebih lengkap mengenai program R dapat dibaca


di Bab VII.

Contoh 1.9
Variabel random X berdistribusi binomial, X~ binom(n,p), maka
P(X=x) dihitung menggunakan fungsi dbinom(x,n,p)
P(Xx) dihitung menggunakan fungsi pbinom(x,n,p)
P(Xx)> q dihitung menggunakan fungsi qbinom(q,n,p)
a. P(X=3|n=12,=0.9) = 1.6038e-07
> dbinom(3,12,0.9);
[1] 1.6038e-07
b. P(X3|n=12,=0.9) =1.65835e-07
> pbinom(3,12,0.9);
[1] 1.65835e-07
c. P(Xx|n=12,=0.9)>0.5 maka x=12
> qbinom(0.5,12,0.9);
[1] 11

30
d. P(Xx|n=12,=0.5)>0.9 maka x=11
> qbinom(0.5,12,0.9);
[1] 11
e. Dari contoh 1.7.
P(X=x|n=10,=0.2) =0.1073742
> dbinom(0,10,0.2);
[1] 0.1073742
P(X6|n=10,=0.2)
> pbinom(6,10,0.2);
[1] 0.9991356

Contoh 1.10
Variabel random X berdistribusi Poisson, X~Pois() :
P(X=x) dihitung menggunakan fungsi dpois(x, )
P(Xx) dihitung menggunakan fungsi ppois(x, )
P(Xx)> q dihitung menggunakan fungsi qpois(q,)
a. P(X=2|=4)= 0.1465251
> dpois(2,4);
[1] 0.1465251
b. P(X2|=4)= 0.2381033
> ppois(2,4);
[1] 0.2381033
c. P(Xx|=4)>0.5 maka x = 4
> qpois(0.5,4);
[1] 4

31
Contoh 1.11
Variabel random X berdistribusi Normal, X~N(,2) :
P(X=x) dihitung menggunakan fungsi dnorm(x,,)
P(Xx) dihitung menggunakan fungsi pnorm(x,,)
P(Xx)> q dihitung menggunakan fungsi qnorm(q,,)
a. P(X=2|=1,=4)= 0.09666703
> dnorm(2,1,4);
[1] 0.09666703
b. P(X<2|=1,=4)= 0.5987063
> pnorm(2,1,4);
[1] 0.5987063
c. P(Xx|=1,=4)>0.5 maka x = 1
> qnorm(0.5,1,4);
[1] 1
Sementara itu untuk distribusi multinomial dapat diperoleh dari
library combinat yaitu menggunakan fungsi

>dmnom(x,size,prob)

dengan x berupa vektor, size adalah total pengamatan, prob adalah


parameter probabilitas (i).

Contoh 1.12
Pengamatan multinomial yang dapat dikategorikan menjadi 4
kelompok terhadap objek. Diketahui π1= . , π2= . , π3=0.3 dan
π4=0.3. Hitung peluang dari diperoleh x1=1, x2=1,x3=4 dan x4=4.
>library(combinat);
>dmnom(c(1,1,4,4),10,c(0.2,0.2,0.3,0.3));
[1] 0.01653372

32
Pengamatan multinomial yang dapat dikategorikan menjadi 3
kelompok terhadap objek. Diketahui π1= . , π2= . , π3=0.25.
Hitung peluang dari diperoleh x1=1, x2=5,x3=2 dan x4=1.
>dmnom(c(5,2,1),8,c(0.5,0.25,0.25));
[1] 0.08203125

Untuk membangkitkan data yang berdistribusi multinomial dapat


digunakan library multinomRob yaitu menggunakan fungsi
rmultinomial(n, p, rows=max(c(length(n),
nrow(p))))
rmultz2(n, p, draws=length(n))

Contoh 1.13
>library(multinomRob)
>rmultz2(n=5, p= c(0.2,0.3, 0.5), draws=10);
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 2 0 0 1 0 2 1 1 1 2
[2,] 2 2 1 1 1 2 2 1 2 2
[3,] 1 3 4 3 4 1 2 3 2 1

1.10. Plot Data dan Grafik dalam R


Penyajian data dilakukan dalam rangka memperjelas secara
visual kondisi data yang bermanfaat dalam pengambilan
kesimpulan baik secara deskriptif maupun inferensi. Banyak cara
menyajikan data, seperti dalam tabel maupun gambar (diagram).
Histogram dan Diagram batang adalah visualisasi data frekuensi
yang seringa diguanakan. Diagram ini dicirikan dengan adanya
sumbu datar dan sumbu tegak. Salah satu sumbu menjelaskan
ferkuensi dan sumbu lain menerangkan kategori. Tinggi/panjang
batang pada suatu tingkat kategori menyatakan frekuensi tingkat
itu. Fungsi yang digunakan untuk membuat histogram adalah
hist(x,...). x adalah data yang disajikan dalam vektor.

33
Contoh 1.14
> x=c(1,2,1,3,2,4,5,3,2,1,3,4,5,3,2,1,3,4,5,3,2,1);
> hist(x);
Dipeloleh gambar sebagai berikut :
Histogram of x

6
5
4
Frequency

3
2
1
0

1 2 3 4 5

Untuk membuat grafik maupun plot data dapat digunakan


beberapa fungsi : plot, lines, abline, points, curve.
a. plot(x) : plot data x (dalam vektor) berdasarkan urutan data
b. plot(x,y) : plot data x terhadap y
c. plot(fx,a,b) : plot fungsi fx pada interval a sampai dengan b.
d. curve(fy,add=TRUE) : menyisipkan grafik dari fungsi fy pada
kurva sebelumya

Contoh 1.15
> x=c(1,2,4,5,6,7,12,17,19);
> y=c(0,6,4,5,8,7,2,7,9);
> plot(x)

34
> plot(x,y,xlab="nilai MX", ylab="nilai BX",type="l");

> fx<-function(x)dnorm(x,1,3)
> fy<-function(x)dnorm(x,2,4)
> plot(fx,-10,10)

35
> curve(fy,add=TRUE)

1.11. Inferensi untuk Parameter Proporsi ()


Dalam praktek, nilai parameter dalam distribusi binomial dan
distribusi multinomial tidak diketahui. Estimasi parameter
dilakukan menggunakan data sampel Salah satu metode yang

36
digunakan untuk mengestimasi parameter adalah Maximum
Likelihood Estimator (MLE).
Terdapat dua cara untuk inferensi parameter , yaitu metode
eksak dan metode pendekatan distribusi normal. Metode eksak
digunakan pada sampel kecil dan metode pendekatan distribusi
normal digunakan ketika jumlah sampel besar.
Dalam inferensi statistik, kita mengenal nilai  yang
merupakan probabilitas kesalahan Tipe I yang biasa disebut
dengan tingkat signifikansi. Untuk menguji hipotesis H0, peneliti
menetapkan nilai  yang digunakan. Nilai  terkecil sedemikian
hingga dapat menolak H0 disebut P-value. P-value dapat dihitung
berdasarkan distribusi statistiknya. Pada distribusi probabilitas
diskrit, penggunaaan P-value bersifat konservatif. Artinya, tidak
dimungkinkan bagi P-value untuk mencapai nilai signifikansi yang
diinginkan secara tepat. Sehingga probabilitas sesungguhnya dari
kesalahan tipe I bernilai kurang dari 0.05. Sebagai contoh,
dimisalkan pengujian

H0:  =0.50 melawan H1 :  > 0.50

Dari 10 pengujian klinik diperoleh sukses sebanyak y=9. Kejadian


ini mempunyai probabilitas
P-value = P(Y=9) + P(Y=10)
= 0.010 + 0.001 = 0.011.

Oleh karena itu probabilitas mendapatkan nilai P-value sebesar


0.011 lebih kecil dari 0.05. Sementara itu tingkat signifikansi yang
diinginkan adalah 0.05 dan probabilitas aktual kesalahan tipe I
adalah 0.011. Oleh karena P-value . pada y = 9 atau 10, hal ini
berarti bahwa H0 akan ditolak.

37
Tabel 1.3 menunjukkan distribusi binomial dengan n= 10 dan
 =0.5, 0.2, 0.8. Tabel 1.5 menunjukkan korespondesi distribusi
binomial terhadap nilai P-value (probabilitas sisi kanan) pada
beberapa nilai Y.
Untuk statistik uji pada distribusi kontinu, P-value
mempunyai distribusi uniform pada interval [0, 1]. Ketika H0 benar,
P-value dapat bernilai antara 0 dan 1. Kita bisa menemukan nilai
statistik uji sedemikian hingga nilai P-value sesuai dengan yang
kita inginkan. Akan tetapi pada distribusi diskret, nilai hal itu tidak
bisa dilakukan. Sebagai contoh untuk uji satu sisi,
P-value = 1.000 ekuivalen dengan P(y=0) = 0.001,
P-value = 0.999 ekuivalen dengan P(y=1) = 0.010,
...
P-value = 0.001 ekuivalen dengan P(y=10) = 0.010.

Lengkapnya disajikan pada Tabel 1.5 berikut:


Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: >0.50
Y P(y) P-value Mid P-value
0 0.001 1.000 1.000
1 0.010 0.999 0.994
2 0.044 0.989 0.967
3 0.117 0.945 0.887
4 0.205 0.828 0.726
5 0.246 0.623 0.500
6 0.205 0.377 0.274
7 0.117 0.172 0.113
8 0.044 0.055 0.033
9 0.010 0.011 0.006
10 0.001 0.001 0.001

38
Pada sample data diskret berukuran kecil, ahli statistika
memilih menggunakan tipe lain dari P-value yang disebut sebagai
Mid P-value. Nilai ini hanya diperoleh melalui penambahan separuh
probabilitas dari hasil observasi kepada probabilitas dari hasil yang
lebih ekstrim. Untuk mengilustrasikannya, sebagai contoh untuk y
=9 pada n=10 pengulangan dengan hipotesis

H1 π > .
Maka nilai P–value adalah:
P–value = P(9) + P(10) = 0.010 + 0.001 = 0.011.

Nilai Mid P-value nya adalah:


mid P-value = P(9)/2 + P(10) = 0.010/2 + 0.001 = 0.006.

Tabel 1.5 juga menunjukkan mid P-values untuk berbagai niai y


pada n = 10. Dengan menggunakan nilai mid P-values, H0 akan
ditolak jika data sampel diperoleh y , sebab nilai mid P-values
nya
P(8)/2 + P(9) + P(10) =0.022+ 0.010 + 0.001 = 0.033.

Sedangkan untuk nilai P-values, H0 akan ditolak jika data sampel


diperoleh y .
Selanjutnya untuk hopotesis
H1: π < 0.50

Misalkan dengan n=10, dari data sample diperoleh y = 9, maka


P-value = P(y=0) + P(y=1)+· · ·+P(y=9) = 0.999
Mid P-value = P(y=0) + P(y=1)+· · ·+ P(y=9)/2 = 0.994

Sehingga dapat disimpulkan bahwa H0 tidak ditolak.

39
Untuk berbagai nilai y, nilai P-values dan mid P-values pada
n=10 disajikan pada Tabel 1.6.
Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: <0.50
y P(y) P-value Mid P-value
0 0.001 0.001 0.001
1 0.010 0.011 0.006
2 0.044 0.055 0.033
3 0.117 0.172 0.113
4 0.205 0.377 0.274
5 0.246 0.623 0.500
6 0.205 0.828 0.726
7 0.117 0.945 0.887
8 0.044 0.989 0.967
9 0.010 0.999 0.994
10 0.001 1.000 1.000

Dari Tabel 1.6, disimpulkan bahwa H0 ditolak jika dari data sampel
diperoleh y .

1.12. Fungsi Likelihood dan Maximum Likelihood Estimator


(MLE)
Pendekatan parametrik untuk pemodelan statistik
menggunakan asumsi distribusi probabilitas untuk variabel
responnya. Nilai probabilitas tergantung pada parameter . Sebagai
contoh kejadian binomial dengan n=10 terdapat sukses x=0 dan 
adalah probabilitas sukses, maka
10! 0
P(0)   (1   )10  (1   )10
0!10!

40
Probabilitas ini didefinisikan untuk  yang bernilai antara nol dan
satu.
Fungsi likelihood merupakan probabilitas yang didefinisikan
sebagai fungsi dari parameter .

 n!  y
L() =    .(1-)n-y
 (n  y )! y! 
Pada distribusi binomial dengan y=0 dan n=10 maka fungsi
likelihoodnya adalah
 10!  0
L() =    .(1-)10-0 = (1-)10
 (10  0)!0! 

MLE adalah sebuah nilai parameter yang memaksimumkan


fungsi likelihood berdasarkan data sampel (y). Pada y=0, fungsi
L(π) mencapai nilai maksimum pada π = 0.0. Secara umum MLE
untuk parameter π pada distribusi binomial adalah
y
ˆ  p 
n

sehingga pada y=6, MLE parameter π sama dengan


6
ˆ   0.6
10

1.13. Uji Proporsi dengan Pendekatan Distribusi Normal


Untuk distribusi binomial, MLE untuk parameter  adalah
p=y/n. Distribusi sampling untuk proporsi sampel p mempunyai
mean dan deviasi standar
 (1   )
E ( p)   dan Var ( p) 
n

41
Semakin besar n maka Var(p) mendekati nol, yang berarti bahwa
sampel proporsi p cukup dekat dengan parameter π. Distribusi
sampling p mendekati distribusi normal untuk n besar. Inferensi
terhadap parameter π dapat menggunakan pendekatan sampel
besar. Hipotesis yang akan diuji adalah

H0: π = π0
Hipotesis tersebut menyatakan bahwa parameter π nilainya sama
dengan π0. Statistik uji yang digunakan adalah
(p 0)
Z 
 0 (1   0 )
n

Statistik Z berdistribusi normal standar (mean nol dan variansi


satu).
Sebagai contoh kejadian binomial dengan n=100 dan y=60.
Hipotesis yang akan diuji adalah

H0: π = 0.5 Vs H1: π > 0.5

Diperoleh statistik uji


60
(  0.5)
Z  100 2
0.5(1  0.5)
100

H0 ditolak jika Z > z . Jika digunakan = 0.05 maka dari tabel


normal standar diperoleh

z = z0.05 = 1.65.

sehingga dapat disimpulkan bahwa H0 ditolak.

42
1.14. Interval Konfidensi Proporsi dengan Pendekatan Distribusi
Normal.
Interval konfidensi untuk parameter  dengan tingkat
kepercayaan 100( − )% dengan menggunakan pendekatan sampel
besar adalah
p(1  p)
p  z / 2 .SE dengan SE 
n

dengan z /2 menyatakan persentil distribusi normal standar yang


mempunyai probabilitas sisi kanan sama dengan /2. Sebagai
contoh untuk kepercayaan 95%, berarti = 0.05,

z /2 = z0.025 = 1.96.

Sebagai contoh kejadian binomial dengan n=100 dan y=60. Interval


konfidensi 95% untuk parameter  adalah

0.6(1  0.6)
0.6  1.96.  0.6  0.04899
100

atau dapat dinyatakan sebagai

0.55101 <  < 0.64899

Jika digunakan interval konfidensi 99% untuk parameter  adalah

0.6(1  0.6)
0.6  2.576.  0.6  0.126
100

atau dapat dinyatakan sebagai

0.474 <  < 0.726

43
Dengan konfidensi semakin besar (signifikansi semakin kecil),
maka interval yang diperoleh juga semakin lebar.

1.15. Statistik Wald dan Statistik Rasio Likelihood


Misalkan parameter yang akan diuji adalah dengan
hipotesis
H 0: = 0 lawan H1:  0

0 adalah suatu konstanta yang diketahui nilainya. Statistik uji


yang paling sederhana adalah menggunakan pendekatan sampel
besar (pendekatan normal). Ketika H0 benar, maka statistik Wald,
( ˆ   0 )
z
SE
mendekati distribusi normal standar. ˆ adalah MLE dari
parameter  dan

SE  var( ˆ ) .

Sehingga z2 berdistribusi chi kuadrat dengan derajad bebas satu


(df=1). Statistik z dinamakan statistik Wald.
Cara lain untuk menguji hipotesis H0 adalah menggunakan
fungsi likelihood, yaitu rasio likelihood. Statistik rasio likelihood
adalah
 L0 
 2 log 
 L1 
L0 adalah nilai fungsi likelihood pada kondisi H0 benar
L0 = L(0)

44
L1 adalah nilai fungsi likelihood dari penaksir MLE ( ˆ ) .
L1= L( ˆ )
Karena L( ˆ ) < L() untuk semua , maka
L1 > L0
L(  0 )
0 1
L( ˆ )

Statistik rasio likelihood berdistribusi Chi kuadrat dengan df=1. Jika


 merupakan vektor, maka df-nya sama dengan banyaknya
parameter yang diuji.
Statistik uji yang lain adalah Score Test. Pada uji proporsi
binomial
( p  p0 )  0 (1   0 )
z dengan SE 
SE n
mendekati distribusi normal standar.
Sebagai contoh inferensi berdasarkan statistik Wald, Score dan rasio
likelihood menggunakan contoh hipotesis

H0: π = 0.50 vs H1: π  0.50

Dari n=10 terdapat 9 sukses, sehingga proporsi sampelnya p = 0.90.


Untuk uji Wald :

0.9(1  0.9) 0.9  0.5


SE   0.095 sehingga z   4.22 atau z2 =
10 0.095
(4.22)2 =17.8

45
Untuk uji Score :
0.50(1  0.50) 0.9  0.5
SE   0.158 sehingga z   2.53 atau z2 =
10 0.158
(2.53)2 =6.4
Untuk uji rasio likelihood :

10!
L0  (0.5) 9 (0.5)1  0.00977
9!1!

dan
10!
p=0.9 sehingga L1  (0.9) 9 (0.1)1  0.3874
9!1!
 L0   0.00977 
 2 log   2 log   2 log( 0.0252)  7.36
 L1   0.3874 

Dapat disimpulkan bahwa pada kasus ini (sampel kecil) statistik


Wald adalah yang paling powerfull. Statistik rasio likelihood lebih
powerfull pada kasus sampel besar.

1.16. Inferensi dan Interval Konfidensi Proporsi Menggunakan


Program R
Statistik Wald dapat diperoleh melalui fungsi binconf dalam
library Hmisc dengan menu option dipilih method= asymptotic€.
>library(Hmisc, T)
>binconf(x=3, n=25, method="asymptotic")
PointEst Lower Upper
0.12 -0.007382581 0.2473826

Untuk mencari interval konfidensi yang didasarkan pada


statistik Score dapat menggunakan fungsi prop.test.

46
>prop.test(x=3,n=25,conf.level=0.95,correct=F)
1-sample proportions test without continuity
correction
data: 3 out of 25, null probability 0.5
X-squared = 14.44, df = 1, p-value = 0.0001447
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.04166817 0.29955794
sample estimates:
p
0.12
Selain itu juga menggunakan fungsi binconf dalam library
Hmisc. Pada menu option, pilih method= wilson
>library(Hmisc, T)
>binconf(x=3, n=25, alpha=.05, method="wilson")
PointEst Lower Upper
0.12 0.04166817 0.2995579

1.17. Interval Konfidensi Eksak Menggunakan Program R


Terdapat beberapa fungsi yang dapat digunakan untuk
menghitung interval konfidensi eksak. Jika diketahui banyaknya
sukses kejadian binomial x=0 dari pengamatan n=25, maka interval
konfidensinya dapat dihitung menggunakan perintah
a. fungsi binom.test
>binom.test(x=3, n=25, conf.level=.95) # R
Exact binomial test
data: 3 and 25
number of successes = 3, number of trials = 25,
p-value = 0.0001565
alternative hypothesis: true probability of
success is not equal to 0.5
95 percent confidence interval:

47
0.0254654 0.3121903
sample estimates:
probability of success
0.12
b. fungsi binconf dalam library Hmisc menggunakan metode
exact€.
>library(Hmisc, T)
>binconf(x =30, n = 25, alpha = .05, method =
"exact")
PointEst Lower Upper
0.12 0.0254654 0.3121903
c. Statistik Pearson’s Chi-Squared dapat diperoleh
menggunakan fungsi chisq.test
>chisq.test(x=c(6022,2001),p=c(.75,.25))
Chi-squared test for given probabilities
data: c(6022, 2001)
X-squared = 0.015, df = 1, p-value = 0.9025

1.18. Latihan
1.1 Pada contoh-contoh berikut, lakukan identifikasi variabel
respon, variabel independen dan skala pengukuranya :
a. Sikap terhadap undang undang pornografi (suka, tidak
suka), gender (laki-laki, perempuan), pendidikan orang
tua ( Sekolah menengah, perguruan tinggi).
b. Penyakit jantung (ya, tidak), tekanan darah, kadar
kolesterol.
c. Pendidikan (SD, SLTA, Diploma, Sarjana), agama (Islam,
katolik, yahudi, protestan), suara untuk pemilihan
presiden (Golkar, Demokrat, PDIP,PKS, PKB, PAN,
lainnya), pendapatan per tahun.

48
d. Status pernikahan (menikah, belum menikan,
janda/duda), kualitas hidup (sangat bagus, bagus, cukup,
kurang).
1.2 Mana skala pengukuran berikut ini yang paling sesuai,
nomial atau ordinal?
a. Keikut sertaan dalam partai politik (Golkar, Demokrat,
PDIP, lainnya)
b. Pendidikan terakhir (tidak punya, sekolah menengah,
sarjana, master, doktor)
c. Kondisi pasien (bagus, cukup, serius, kritis)
d. Minuman favorit ( bir, jus, susu, soft drink, anggur,
lainnya)
e. Berapa sering mengalami depresi (tidak pernah, kadang-
kadang, sering, selalu).
1.3 Terdapat 100 pertanyaan pilihan ganda, masing-masing soal
terdapat 4 jawaban tetapi hanya satu jawaban yang benar.
Untuk setiap pertanyaan, seorang siswa memilih satu
jawaban
a. Tentukanlah distribusi jumlah siswa memilih jawaban
yang benar dalam ujian
b. Berdasar nilai mean dan deviasi standar dari distribusi,
apakah merupakan suatu yang menggembirakan jika
siswa membuat paling sedikit 50 jawaban yang benar?
Jelaskan alasannya.
1.4 Di sebuah kota, dari data kepolisian diketahui rata-rata
banyaknya pencurian motor sebesar 4 kasus per bulan.
Berapa peluangnya bahwa di kota tersebut pada bulan
Januari akan terjadi pencurian motor sebanyak

49
a. kurang dari 3 kasus?
b. tidak satupun kasus?
1.5 Misalkan, peluang seseorang yang terinfeksi virus flu burung
akan meninggal sebesar 0,2. Berapa peluang dari 16 pasien
yang terinfeksi akan terdapat lebih dari 14 pasien sembuh?
1.6 Pengamatan terhadap 20 pasien yang terinfeksi virus flu
burung, terdapat 5 pasien meninggal dunia. Berdasarkan data
tersebut akan dilakukan pengujian terhadap hipotesis yang
menyatakan bahwa peluang sembuh terhadap infeksi virus
flu burung lebih dari 75%.
a. Hitung nilai P-value dan nilai mid P-value.
b. Jika digunakan = . , kesimpulanya apa?
c. Lakukan pengujian menggunakan statistik Wald, Score
dan rasio likelihood.
1.7 Lakukan pengujian seperti soal 1.6, jika dari 150 terdapat 15
pasien meninggal dunia.

50
BAB II
TABEL KONTIGENSI

Tabulasi merupakan salah satu teknik penyajian data agar


mudah difahami dalam waktu singkat. Salah satu bentuk penyajian
tabulasi adalah tabel kontigensi atau tabulasi silang. Tabel
kontigensi adalah merupakan satu bentuk distribusi frekuensi
untuk dua variabel atau lebih. Akan tetapi, tidak semua pengolah
data (penganalisis) mengetahui dengan baik bagaimana menyajikan
tabulasi yang cocok agar suatu laporan dapat berbobot. Apabila
data yang dianalisis memuat dua variabel atau lebih kita dapat
melakukan analisis hubungan antara variabel-variabel tersebut.
Berbicara tentang hubungan (asosiasi) antara dua variabel atau
lebih adalah membahas tentang ada tidaknya hubungan dan
hubungan kausal serta pengaruh faktor interaksi antara variabel
bebas terhadap variabel tak bebas. Dalam analisis data, pada
umumnya peneliti cenderung akan memperhatikan sedemikian
banyak variabel, maka pendekatan analisis asosiasi untuk
multivariat, misalnya analisis tabulasi silang menjadi sangat
penting.
Pada dasarnya analisis hubungan dengan tabel tabulasi silang
dapat dilakukan pada setiap data survey, dengan catatan semua
variabel numerik (skala interval dan rasio) ditransformasi menjadi
variabel kategorik, misalnya variabel Pasangan Usia Subur (15-49
tahun) diubah menjadi variabel kelompok 5 tahunan, yaitu :
kelompok I (15-19), kelompok II (20-24), kelompok III (25-29)
sampai dengan kelompok VII (45-49).

51
Sebuah tabel yang merupakan klasifikasi silang (cross classifies)
dari dua variabel dinamakan tabel kontigensi dua arah. Masing-
masing variabel menempati posisi baris dan kolom. Jika masing-
masing variabel mempunyai level 2 maka akan diperoleh tabel 2x2.
Jika satu variabel baris mempunyai level 5 dan variabel kolom
mempunyai level 3 maka akan diperoleh tabel 5x3. Kita mulai
pembahasan untuk tabel 2x2.

2.1. Tabel Kontigensi 2x2


Pada pengumpulan data sering dijumpai bahwa informasi
yang berasal dari sampel mempunyai struktur yang paling
sederhana, yaitu data diklasifikasikan atau dikategorikan dalam
kelas-kelas, sehingga data berupa frekuensi dari kelas tertentu
(Nugraha, 2003). Contoh dari data yang berupa dua klasifikasi
adalah jenis kelamin (pria, wanita), agama (Islam, non Islam),
kondisi produk (baik, cacat) dll.
Tabel kontigensi 2x2 merupakan klasifikasi objek pengamatan
berdasar dua variabel dan masing masing variabel mempunyai dua
kategori. Tabel 2.1. merepresentasikan frekuensi terobservasi pada
tabel kontigensi 2x2 untuk Variabel I (A) pada posisi baris dan
Variabel II (B) pada posisi kolom.

Tabel 2.1. Tabel kontigensi Faktor A dan Faktor B


Variabel I (A) Variabel II (B) Total
B1 B2
A1 n11 n12 n1o
A2 n21 n22 n2o
Total no1 no2 N

52
Diasumsikan bahwa masing-masing objek memiliki salah satu
sifat/klasifikasi A (A1 atau A2) dan salah satu sifat B (B1 atau B2). nij
adalah banyaknya objek yang memiliki sifat Ai dan Bj untuk i,j=1,2.

noj = n1j + n2j ; nio = ni1 + ni2 dan n = no1 + no2 = n1o + n20

Sebagai contoh data pengobatan sakit kepala dengan


menggunakan obat aspirin dan placebo. Setelah pasien diberi
obat, beberapa saat kemudian ditanyakan apakah masih
merasakan sakit kepala atau tidak.
Tabel 2.2. Penggunaan Aspirin terhadap sakit kepala
Grup Sakit Kepala Total
Ya Tidak
Placebo 189 10845 11034
Aspirin 104 10933 11037
Total 293 21778 22071

2.1.1. Input Data dan Manipulasi Data dalam Program R


Terdapat beberapa cara untuk memasukan data tabel
kontigensi dalam program R.
2.1.1.1. Tabel Dua Arah Sebagai Matrik
Salah satu cara input data adalah menggunakan fungsi
matrix (fungsi ini sama dengan fungsi array). Fungsi matrix dan
fungsi array dibahas pada Bab VII. Sebagai contoh data
penggunaan aspirin, inputing data dapat dilakukan sebagai
berikut:
>MI <- matrix(c(189,10845,104,10933),nrow=2,byrow=TRUE)

53
Untuk memberi nama variabel baris dan kolom, gunakan
perintah sebagai berikut :
> dimnames(MI)<list(c("placebo","aspirin"),c("Ya","Tidak"))

Selanjutnya, memberikan nama variabel baris dan kolom


> names(dimnames(MI)) <- c("Grup","Sakit Kepala")

Menghitung total sampel dan proporsi masing-masing sel,


> tot <- sum(MI)
> MI/tot
Sakit Kepala
Grup Ya Tidak
Placebo 0.008563273 0.4913688
aspirin 0.004712066 0.4953559

Untuk menghitung total baris (nio) dan total kolom (noj) dan total
proporsi (poj dan pio) dapat digunakan fungsi apply.
> rowtot <- apply(MI,1,sum)
> coltot <- apply(MI,2,sum)
> rowpct <- sweep(MI,1,rowtot,"/")
> round(rowpct,3)
Sakit Kepala
Grup Ya Tidak
placebo 0.017 0.983
aspirin 0.009 0.991

2.1.1.2. Tabel Dua Arah Sebagai Data Frame


Selain diperlakukan sebagai data matrik, tabel kontigensi
dua arah juga dapat diperlakukan sebagai data frame yaitu
variabel baris dan variabel kolom sebagai faktor. Kebanyakan
dalam program R, data disajikan dalam bentuk data Frame.
Contoh
> grup <- c("placebo","placebo","aspirin","aspirin")
> myocardial<- c("Ya","Tidak","Ya","Tidak")

54
> Jumlah <- c(189,10845,104,10933)
> MI <- data.frame(grup, Sakit-Kepala,Jumlah)
> MI
Grup Sakit-Kepala Jumlah
1 placebo Ya 189
2 placebo Tidak 10845
3 aspirin Ya 104
4 aspirin Tidak 10933

2.1.2. Struktur Probabilitas dalam Tabel Kontigensi


Berkaitan dengan Tabel 2.1, Tabel 2.3 berikut ini
merepresentasikan proporsi masing masing sel.
Tabel 2.3. Kontigensi proporsi 
Faktor II Total
Faktor I B1 B2
A1 11 12 1o = 11+ 12
A2 21 22 2o = 21 + 22
Total o1 =11+ 21 o2 =12+ 22 1

Misalkan Tabel 2.1 merupakan data populasi, maka


n11 n n n
 11  ;  12  12 ;  21  21 ;  22  22 ;
n n n n
Biasanya data yang dimiliki merupakan data sampel. Pada Tabel
2.4. merepresentasikan proporsi observasi untuk data sampel.
Tabel 2.4. Kontigensi proprorsi p
Faktor II Total
Faktor I B1 B2
A1 p11 p12 p1o = p11 +p12
A2 p21 p22 p2o = p21 + p22
Total po1 =p11+ p21 po2 =p12+ p22 1

55
dengan
n11 n n n
p11  ; p12  12 ; p21  21 ; p22  22 ;
n n n n
Berdasarkan contoh pada Tabel 2.2, maka proporsi observasi
adalah,
Tabel 2.5. Tabel proporsi penggunaan aspirin
Grup Sakit Kepala Total
Ya Tidak
Placebo 0.0086 0.4914 .4999
Aspirin 0.0047 0.4954 .5001
Total 0.0133 0.9867 1.0000

Nilai pada masing-masing sel merepresentasikan distribusi


bersama yaitu berdistribusi multinomial dengan empat kategori.
Nilai pada kolom terakhir dan baris terakhir merepresentasikan
distribusi marginal yang berdistribusi binomial.
Probabilitas dalam tabel kontigensi dapat dikelompokan
menjadi 3 jenis, yaitu
a. Probabilitas bersama.
Pada Tabel 2.3, probabilitas bersamanya merupakan
distribusi multinomial yang terdiri atas 4 kelompok (sel).
Masing-masing sel mempunyai probabilitas
P(A1B1) = 11, P(A1B2) = 12, P(A2B1) = 21, P(A2B2) =22.
b. Probabilitas marginal.
Pada tabel kontigensi dua arah (baris dan kolom) terdapat
dua distribusi marginal. Dari Tabel 2.3, probabilitas
marginalnya merupakan distribusi binomial karena hanya

56
terdapat dua kemungkinan hasil (dua kelompok). Untuk
distribusi marginal baris, nilai probabilitasnya adalah
P(A1) = 1o dan P(A2) = 2o

Untuk distribusi marginal kolom, nilai probabilitasnya


adalah
P(B1) = o1 dan P(B2) =o2

Probabilitas marginal kolom dihitung pada masing-masing


kolom tanpa memperhatikan variabel baris.
c. Probabilitas bersyarat (conditional)
Dalam beberapa tabel kontigensi, satu variabel (variabel
kolom, Y) sebagai variabel respons atau variabel dependen
dan variabel yang lain (variabel baris, X) sebagai variabel
independen (eksplanatori). Dalam kasus ini maka dapat
dikontruksi distribusi probabilitas Y pada masing-masing X.
Distribusi ini dinamakan distribusi bersyarat Y pada
masing-masing X yang dituliskan sebagai P(Y|X).
Tabel 2.6. Kontigensi proporsi Variabel X dan Y
Y Total
X Y1 Y2
X1 11 12 1o = 11+ 12
X2 21 22 2o = 21 + 22
Total o1 =11+ 21 o2 =12+ 22 1
11 
P(Y  Y1 | X  X 1 )  dan P(Y  Y2 | X  X 1 )  12
 10 10
sehingga
P(Y  Y2 | X  X1 )  P(Y  Y2 | X  X1 )  1 .

57
Demikian juga
 21 
P(Y  Y1 | X  X 2 )  dan P(Y  Y2 | X  X 2 )  22
 20  20

sehingga
P(Y  Y2 | X  X 2 )  P(Y  Y2 | X  X 2 )  1 .

Dari contoh pada Tabel 2.5 , probabilitas bersyarat untuk


masing-masing grup adalah
0.0086
P(Y  Y1 | X  X 1 )   0.0172 atau
0.4999
189
P(Y  Y1 | X  X 1 )   0.0172
11034

sehingga tabel probabilitas bersyaratnya adalah


Tabel 2.7. Distribusi marginal penggunaan aspirin
Grup Sakit Kepala Total
Ya Tidak
Placebo 0.0172 0.9829 1
Aspirin 0.0094 0.9906 1

2.1.3. Independensi
Dua variabel dikatakan independen secara statistik jika
distribusi bersyarat untuk variabel Y pada semua level X adalah
indentik. Ketika dua variabel independen, maka
P(Y  Y1 | X  X 2 )  P(Y  Y1 | X  X 2 )

Berdasarkan distribusi bersama, maka X dan Y independen


jika ij = iooj

58
Pada umumnya ij merupakan parameter (nilainya tidak
diketahui) dan diduga menggunakan data sampel yaitu pij.
Selanjutnya independensi dua variabel ini harus diuji.
Pembahasan uji independensi berdasarkan tabel kontigensi akan
dibahas di sub bab 2.5.

2.1.4. Sensitifitas dan Spesifikasi dalam Uji diagnosa


Dalam kesehatan, hasil diagnosa dikatakan positif jika alat
menyatakan bahwa penyakit ada/terdeteksi dan negatif jika alat
menyatakan tidak mendeteksi adanya penyakit. Akurasi suatu
alat sering kali diukur pada dua probabilitas bersyarat, yaitu
a. Alat diujikan pada pasien yang diketahui mengidap
penyakit, probabilitas hasil uji adalah positif dinamakan
sensitifitas.
b. Alat diujikan pada pasien yang diketahui tidak mengidap
penyakit, probabilitas hasil uji menyatakan negatif disebut
spesifikasi.

Misalkan X menyatakan keadaan yang sebenarnya


mengenai pasien, dengan kategori
X = 1 (sakit) dan X=0 (tidak sakit)

dan Y menyatakan hasil diagnosa dengan kategori


Y = 1 (positif) dan Y=0 (negatif)
maka
sensitivitas = P(Y = 1|X = 1)

dan
spesifikasi = P(Y = 0|X = 0)

59
Suatu diagnosa/alat dikatakan baik jika nilai sensitivitas dan
spesifikasi sangat tinggi (mendekati satu).

Contoh :
Sebuah alat untuk mendeteksi keberadaan narkoba dalam
sebuah tas tertutup. Dari beberapa kali pengujian terhadap tas
yang memuat narkoba maupun terhadap tas yang tidak memuat
narkoba diperoleh hasil sebagai berikut:
Tabel 2.8. Hasil pengujian keberadaan narkoba dalam tas.
Kondisi Hasil Pengujian (Y) Jumlah
sesungguhnya (X) Ada Tidak Ada
Ada 92 8 100
Tidak Ada 1 99 100
Jumlah 93 107 100

Berdasarkan data ini, maka diperoleh nilai


Sensitivitas = P(Y=ada|X=ada) = 92/100 = 0.92
Spesifikasi = P(Y=tidak ada|X=tidak ada) = 99/100 = 0.99

2.1.5. Sampling Binomial dan Multinomial


Sebelumnya sudah dijelaskan mengenai distribusi Binomial,
distribusi Multinomial, dan distribusi Poisson. Pada distribusi
Binomial dan Multinomial, banyaknya sampel ditentukan
(ditetapkan) sebelum penelitian dilakukan. Pada distribusi
Poisson, banyaknya sampel tidak ditetapkan, bahkan tidak
diketahui. Yang ditetapkan adalah pengamatan pada interval
waktu atau daerah tertentu. Pada Tabel 2.1, jika banyaknya
pengamatan pada masing-masing baris (n1o dan n2o) ditetapkan

60
jumlahnya maka hal ini menjamin sampel yang diamati
mempunyai sifat/karakteristik A1 maupun A2. Pengamatan
seperti ini dapat disebut sebagai pengamatan dua populasi yaitu
populasi A1 dan populasi A2. Pada pengamatan seperti ini,
distribusi bersama antara A dan B tidak mempunyai makna,
tetapi yang digunakan adalah distribusi bersyarat. Alokasi
sampel seperti ini digunakan untuk menguji kesamaan proporsi
B diantara level A. Jika B mempunyai dua kategori maka
disebut sampling binomial. Jika B mempunyai lebih dari dua
kategori maka disebut sampling multinomial.
Desain pengamatan yang lain adalah banyaknya
pengamatan pada masing-masing baris tidak ditetapkan tetapi
hanya menetapkan total pengamatan n. Pengamatan seperti ini
merupakan sampling multinomial, sebab pada tabel 2x2 unit
sampelnya mempunyai empat kategori. Pengamatan seperti ini
dilakukan untuk mengetahui independensi antara A dan B atau
untuk mengetahui pengaruh satu variabel terhadap variabel
yang lain.

2.1.6. Resiko Relatif (RR)


RR dalam tabel 2x2 adalah rasio probabilitas sukses diantara
dua kelompok (grup). 11 adalah probabilitas sukses pada
kelompok I dan 21 adalah probabilitas sukses pada kelompok 2,
maka nilai RR-nya adalah
 11
RR 
 21

Jika berdasarkan data sampel pada Tabel 2.5.,

61
p11 0.0086
RR    1.82
p21 0.0047

Proporsi terjadinya myocardial infarction pada kelompok


placebo adalah 82% lebih tinggi dari kelompok aspirin.
Sebaliknya,
p 21 0.0047
RR    0.55
p11 0.0086

Proporsi sampel untuk myocardial infarction pada kelompok


aspirin adalah 45% lebih rendah dari kelompok placebo.

2.1.7. Odds Ratio (OR)


Sebelumnya perlu kita definisikan pengertian odds. Odds
adalah cara penyajian probabilitas, yang menjelaskan probabilitas
bahwa kejadian tersebut akan terjadi dibagi dengan probabilitas
bahwa kejadian itu tidak akan terjadi. Odds adalah rasio
probabilitas sukses () terhadap probabilitas gagal (1-). Pada
data populasi, nilai odds-nya adalah

odds 
1 
sedangkan untuk sampel dihitung menggunakan rumus
p
odds  .
1 p
Odds bernilai positif,
0<odds<

Ketika odds bernilai satu, berarti probabilitas sukses sama


dengan probabilitas gagal. Ketika odds bernilai kurang dari satu

62
berarti probabilitas sukses lebih kecil daripada probabilitas
gagal. Demikian juga sebaliknya jika odds lebih dari satu berarti
probabilitas sukse lebih besar daripada probabilitas gagal.
Sebagai contoh, jika π = 0.75, maka odds = 0.75/0.25 = 3,
berarti bahwa probabilitas sukses besarnya tiga kali probabilitas
gagal. Diantara 4 pengamatan terdapat 3 kali sukses dan 1 kali
gagal. Jika odds = 1/4, berarti probabilitas gagal empat kali lebih
besar daripada probabilitas sukses. Probabilitas sukses (π)
merupakan fungsi dari odds, yaitu
odds

(odds  1)
Misalkan
Jika odds = 3, maka π = 3/(3 + 1) = 0.75.
Jika odds = 4, maka π = 4/(4 + 1) = 0.8.

Rasio odds adalah salah satu dari berbagai statistik yang


digunakan untuk menilai risiko kejadian tertentu (seperti
penyakit) jika suatu faktor tertentu ada. Rasio odds digunakan
sebagai statistik deskriptif, dan memainkan peran penting dalam
regresi logistik. Odds rasio (OR) merupakan rasio dari dua odds.
odds1
OR 
odds 2
Untuk data populasi,
 1 /(1   1 )  1 (1   2 )
OR  
 2 /(1   2 )  2 (1   1 )
Untuk data sampel,
p /(1  p1 ) p1 (1  p 2 )
Oˆ R  1 
p 2 /(1  p 2 ) p 2 (1  p1 )

63
Dari contoh pada Tabel 2.5,
0.0086 / 0.9914
Oˆ R   1.832
0.0047 / 09954

OR dapat juga dihitung menggunakan rumus


n n
Oˆ R  11 22
n12 n21
sehingga
189 *10933
Oˆ R   1.832
10845 *104

Ketika OR=1 berarti odds pada grup satu sama dengan odds
pada grup dua. Ketika OR>1 berarti odds grup satu lebih besar
daripada odds pada grup dua. Ketika OR < 1 berarti odds grup
satu lebih kecil daripada odds pada grup dua.
OR dapat digunakan untuk menjelaskan kekuatan asosiasi
dua variabel. Ketika X dan Y adalah independen, π1 = π2,
sehingga odds1 = odds2 dan OR = odds1/odds2 = 1.
Nilai independen yaitu OR = 1 sebagai baseline untuk
perbandingan. Sebagai contoh OR=4, berarti odds pada baris
pertama adalah empat kali odds pada baris kedua, yang
mempunyai makna π1 > π2. Jika OR=4, maka kekuatan asosiasi
antara X dan Y lebih kuat dibandingkan dengan asosiasi X dan Y
pada OR=2. Jika OR=0.2, maka kekuatan asosiasi antara X dan Y
lebih kuat dibandingkan dengan asosiasi X dan Y pada OR=0.4.
Ketika p1 dan p2 , kedua sangat kecil, nilai odds rasio
mendekati nilai resiko relatif. Odds ratio dapat diperoleh dari
nilai resiko relatif menggunakan rumus

64
(1  p 2 )
OR  RR
(1  p1 )

2.1.8. Inferensi untuk OR dan Log OR


Jika ukuran sampelnya sangat besar maka distribusi dari OR
menjadi sangat tidak simetris. Oleh karena itu digunakan
transformasi natural logaritma (log) terhadap odds rasio,
log(OR)

sehingga OR = 1 (independen) adalah equivalen dengan log(OR)


=0
OR = 2 maka log(OR) =0.7
OR = 0.5 maka log(OR) = -0.7

Menggunakan pendekatan distribusi normal, mean dan


deviasi standar untuk log(OR) adalah
log( Oˆ R)  log( n11 )  log( n22 )  log( n12 )  log( n21 )
1 1 1 1
SE    
n11 n12 n21 n22

Nilai SE semakin kecil jika frekuensi masing-masing sel


semakin besar. Karena distribusi sampling untuk log( Oˆ R) lebih

mendekati distribusi normal dibandingkan dengan statistik ÔR ,


maka lebih baik menggunakan statistik log( Oˆ R) untuk inferensi
aupun mendapatkan estimasi interval. Interval konfidensi
log( Oˆ R) untuk sampel besar adalah
log( Oˆ R)  z / 2 (SE )

65
Dengan menggunakan transformasi eksponensial, diperoleh
interval konfidensi ÔR untuk sampel besar yaitu
exp log( Oˆ R)  z
 /2  
(SE ) , exp log( Oˆ R)  z / 2 (SE ) 
Berdasarkan tabel 2.5, maka
0.0086 / 0.9914
Oˆ R   1.832
0.0047 / 0.9954
1 1 1 1
SE      0.123
189 10.933 104 10.845

Interval konfidensi 95% untuk log(OR) adalah


(0.605 ± 1.96(0.123)) atau (0.365, 0.846).

sehingga interval konfidensi untuk OR adalah


(exp(0.365), exp(0.846)) = (1.44, 2.33)

Oleh karena interval konfidensi (1.44, 2.33) untuk OR tidak


memuat 1.0, maka parameter odds untuk Sakit-Kepala nampak
berbeda untuk kedua grup. Estimasi odds untuk Sakit-Kepala
adalah paling tidak 44% lebih tinggi untuk subjek yang diberi
obat placebo dibandingkan dengan subjek yang diberi aspirin.

2.2. Membandingkan Dua Proporsi dalam Tabel 2x2


Variabel respon yang mempunyai dua kategori dinamakan
variabel biner. Sebagai contoh, kepercayaan akan hari akhir yang
diukur dengan kategori (ya, tidak). Banyak penelitian yang
membandingkan dua grup pada respon biner Y. Data dapat
disajikan dalam tabel kontigensi 2x2 dimana variabel dalam baris

66
mempunyai dua grup, demikian juga variabel respon yang
diletakan pada kolom juga mempunyai dua grup.

2.2.1. Selisih Dua Proporsi


Sebagai mana dalam distribusi binomial, yang dinyatakan
dalam sukses dan gagal. 1 menyatakan probabilitas sukses pada
baris satu dan 2 menyatakan probabilitas sukses pada baris dua.
Sampel diambil dari masing-masing populasi, misalkan sampel-
1 dinyatakan dalam baris ke-1 dan sampel-2 dinyatakan dalam
baris ke-2.
Selisih proporsi sukses antara populasi 1 (baris 1) terhadap
populasi 2 (baris 2) yaitu
1 − 2

yang merupakan perbandingan probabilitas sukses pada kedua


baris. Selisih proporsi ini nilai terletak antara -1 dan 1. Jika π1 =
π2 maka selisih proporsinya bernilai nol. Misalkan p1 dan p2
masing-masing menyatakan proporsi sukses untuk data sampel
1 dan data sampel 2,
x1 x
p1  dan p 2  2
n1 n2
dengan x1 menyatakan banyaknya sukses dari sampel 1 yang
berukuran n1 dan x2 menyatakan banyaknya sukses dari sampel
2 yang berukuran n2. Selisih proporsi (p1−p2) mengestimasi
(π1−π2 . Pada sampel besar, interval konfidensi − )%
untuk (π1−π2) adalah
( p1  p2 )  z / 2 (SE )

dengan

67
p1 (1  p1 ) p 2 (1  p 2 )
SE  
n1 n2

n1 adalah banyaknya sampel pada baris satu dan n2 adalah


banyaknya sampel pada baris 2.

Sebagai contoh data dalam Tabel 2.2. diperoleh


n1= 11034 x1=189 n2=11037 x2=104

sehingga proporsi sebagaimana dalam Tabel 2.7


p1 = 0.0172 p2 = 0.0094
0.0172(1  0.0172) 0.0094(1  0.0094)
SE   =0.00154
11034 11037

dengan =0.05 diperoleh


(0.0172-0.0094) ± 1.96(0.00154)  0.0078 ± 0.0153

Dari hasil estimasi interval ini, dapat juga disimpulkan


bahwa proporsi Sakit Kepala pada kedua grup (aspirin dan
placebo) tidak berbeda.

2.2.2. Menguji Selisih Dua Proporsi Menggunakan Program R


Terdapat bermacam-macam cara menguji selisih proporsi
dalam program R. Dalam contoh Tabel 2, akan digunakan data
dalam bentuk matrik.
> MI <-
matrix(c(189,10845,104,10933),byrow=TRUE,ncol=2)
> prop.test(MI)
2-sample test for equality of proportions with
continuity correction
data: MI

68
X-squared = 24.4291, df = 1, p-value = 7.71e-07
alternative hypothesis: two.sided
95 percent confidence interval:
0.004597134 0.010814914
sample estimates:
prop 1 prop 2
0.01712887 0.00942285

Pengujian di atas menggunakan koreksi kekontinuan. Jika


tidak menggunakan koreksi kekontinuan, maka
> prop.test(MI,correct=F)
2-sample test for equality of proportions without
continuity correction
data: MI
X-squared = 25.0139, df = 1, p-value = 5.692e-07
alternative hypothesis: two.sided
95 percent confidence interval:
0.004687751 0.010724297

sample estimates:
prop 1 prop 2
0.01712887 0.00942285

Cara pengujian yang lain dapat dilakukan dengan


mentransformasi data sebagai berikut
> MI.test <- prop.test(MI)
> names(MI.test)
[1] "statistic" "parameter" "p.value" "estimate"
"null.value"
[6] "conf.int" "alternative" "method"
"data.name"
> MI.test$estimate
prop 1 prop 2
0.01712887 0.00942285
> MI.test$conf.int

69
[1] 0.004597134 0.010814914
attr(,"conf.level")
[1] 0.95
> round(MI.test$conf.int,3)
[1] 0.005 0.011
attr(,"conf.level")
[1] 0.95
> MI.test$estimate[1]/MI.test$estimate[2] %
relative risk
prop 1
1.817802

2.3. Menghitung RR dan OR Menggunakan Program R


RR dan OR cukup mudah dihitung. Bermacam-macam langkah
bisa dilakukan. Misalkan dari data Tabel 2.2,
> MI.test$estimate
prop 1 prop 2
0.01712887 0.00942285
> odds <- MI.test$estimate/(1-MI.test$estimate)
> odds[1]/odds[2]
prop 1
1.832054
> (MI[1,1]*MI[2,2])/(MI[2,1]*MI[1,2])
[1] 1.832054

Interval konfidensi untuk OR:


> theta <- odds[1]/odds[2]
> ASE <- sqrt(sum(1/MI))
> logtheta.CI <- log(theta) + c(-1,1)*1.96*ASE
> exp(logtheta.CI)
[1] 1.440036 2.330790

2.4. Tabel Kontigensi bxk


Dalam suatu penelitian, observasi terhadap obyek penelitian
tidak hanya satu variabel akan tetapi lebih dari satu variabel. Jika

70
setiap obyek dilakukan observasi lebih dari satu variabel kategori,
maka data hasil observasi dapat disajikan dalam bentuk tabel yang
disebut tabel tabulasi silang. Misalkan observasi terhadap
karyawan perusahaan, variabel kategori yang dapat diobservasi
adalah jenis kelamin, status perkawinan, pendidikan dan lain-lain.
Pada Tabel tabulasi silang, jika dilakukan analisis lebih lanjut,
akan diperoleh informasi tentang ada tidaknya keterkaitan antara
variabel kategori satu dengan variabel kategori yang lain dengan
menggunakan uji independensi. Bentuk tabel tabulasi silang dari
suatu observasi adalah sebagai berikut :
Tabel 2.9. Tabel kontigensi dua arah
Kategori I Kategori II Total
1 2 k
1 n11 n12 n1L n1.
2 n21 n21 n2L n2.

B nk1 nk1 n2L nk.


Total n.1 n.2 n.L N

Proporsi masing-masing sel disajikan dalam tabel 2.10.


Tabel 2.10. Proporsi pada tabel kontigensi dua arah
Kategori I Kategori II Total
1 2 k
1 π11 π12 π1k π1o
2 π21 π21 π2k π2o

B πb1 πb1 πbk πbo


Total Πo1 Πo2 Πok 1
Contoh: Suatu survey tentang ketenagakerjaan ingin mengetahui
apakah tingkat pendidikan (SMP, SMA, D3 dan S1) mempunyai
hubungan dengan jenis pekerjaan (Adm, Penjualan, Operator,

71
Teknisi) yang diharapkan. Dari sampel sebanyak 200 pencari kerja,
data hasil observasi dapat ditabelkan sebagai berikut :
Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan dan
jenis pekerjaan
Pendidikan Jenis Pekerjaan Total
Adm. Penjualan Operator Teknisi
SMP 5 6 7 22 40
SMA 6 10 30 14 60
D3 8 35 20 7 70
S1 24 4 2 0 30
Total 43 55 59 43 200

2.4.1. Nilai Frekuensi Harapan


Nilai frekuensi harapan dihitung berdasarkan asumsi
bahwa variabel baris (grup) dan variabel kolom saling
independen atau proporsi sukses pada kedua grup adalah sama.
Dengan asumsi independen, berarti distribusi bersama (joint
distribution) dapat dihitung menggunakan distribusi
marginalnya. Probabilitas dua kejadian yang saling independen
mempunyai sifat
P(A & B) = P(A)*P(B).

Dengan kata lain, Jika kategori I (baris) dan kategori II


(kolom) saling bebas, maka nilai proporsi baris ke i kolom ke j
(sel (i,j)) adalah perkalian proporsi baris ke i dengan proporsi
kolom ke j atau
ij =io x oj

72
ni 0 n 0 j
 ij  x
n n

Nilai harapan dengan asumsi independen pada masing-


masing sel dihitung mengunakan rumus
nio .noj
eij  n ij 
n
eij adalah nilai harapan pada baris i dan kolom j atau sel (i,j).

Misalkan dari data pada Tabel 2.2. nilai harapan pada baris
pertama dan kolom pertama,
11034 x293
e11   146.48
22071
Hasil selengkapnya disajikan pada Tabel 2.12.
Tabel 2.12. Nilai Harapan penggunaan aspirin
Grup Sakit Kepala Total
Ya Tidak
Placebo 146.48 10887.52 11034
Aspirin 146.52 1089.48 11037
Total 293 21778 22071

Nilai harapan dari Tabel 2.11 adalah disajikan dalam Tabel


2.13 sebagai berikut :

73
Tabel 2.13. Frekuensi harapan klasifikansi karayawan menurut
pendidikan dan jenis pekerjaan

Pendidikan Jenis Pekerjaan Total

Adm. Penjualan Operator Teknisi


SMP 8.60 11.00 11.80 8.60 40
SMA 12.90 19.50 17.70 12.90 60
D3 15.05 19.25 20.65 15.05 70
S1 6.45 8.25 8.85 6.45 30
Total 43 55 59 43 200

2.4.2. Chi-Kuadrat untuk Uji Independensi


Tabel kontigensi dua arah secara umum disajikan dalam
tabel berikut
Tabel 2.14. Tabel kontigensi bxk Faktor A dan Faktor B
Faktor II
Faktor I Jumlah
B1 B2 ..... Bk
A1 n11 n12 ..... n1k n1o
A2 n21 n22 ...... n1k n2o
. ..... ..... ..... ..... ......
. ..... ..... ..... ..... .....
Ab nb1 nb2 nbk nbo
Jumlah no1 no2 ........ nok N

Berkaitan dengan tabel tersebut, kita ingin menguji apakah


Faktor satu dan Faktor II saling independen yang dapat
dihipotesiskan sebagai berikut :

74
H0 : Faktor I dan Faktor II independen
H1 : Faktor I dan Faktor II tidak independen

Penjelasan hipotesis statistik dan statistik uji akan


disampaikan pada pembahasan berikutnya.
Dalam tabel kontigensi dua arah, Chi-Kuadrat dapat
digunakan untuk menguji independensi dua variabel marginal.
Uji Chi-Kuadrat sering dinamakan goodness-of-fit test tetapi
sebenarnya yang diuji adalah badness-of-fit test, karena besarnya
nilai Chi-Kuadrat mengindikasikan ketidak sesuaian antar
frekuensi observasi (nij) dan frekuensi harapan (eij). Terdapat dua
statistik Chi-Kuadrat yaitu Pearson Chi-Kuadrat (2) dan
likelihood ratio Chi-Kuadrat (G2).

2.4.2.1. Statistik Chi-Kuadrat Pearson


Statistik Pearson Chi-Kuadrat adalah
b k (nij   ij ) 2
  
2

i 1 j 1  ij

nij adalah frekuensi observasi sel pada baris ke i dan kolom ke j.


ij merupakan parameter dari rata rata frekuensi sel pada baris
ke i dan kolom ke j. Statistik 2 digunakan untuk menguji H0
(variabel baris dan kolom saling independen), Statistik ini
disampaikan pada tahun 1900 oleh Karl Pearson. Statistik ini
mempunyai nilai minimum nol ketika nij = ij . Pada sampel
terbatas, besarnya nilai selisih (nij − ij ) menghasilkan nilai 2
yang besar dan bertentangan dengan H0. Oleh karena itu nilai
2 yang besar mengindikasikan bahwa sampel tidak sesuai
dengan H0. Pada sampel besar 2 mempunyai distribusi

75
mendekati distribusi Chi-Kuadrat dengan derajad bebas (b-1)(k-
1). Pendekatan ini akan baik jika ij semakin besar dan ij .
Distribusi Chi-Kuadrat mempunyai mean sama dengan derajat
bebasnya (df = degrees of freedom) dan variansinya sama dengan
2 kali df. Semakin besar df maka semakin mendekati distribusi
normal. Sebagaimana dalam gambar berikut merupakan grafik
distribusi Chi-Kuadrat pada df = 1, 5, 10, dan 20.

Grafik 2.1. Distribusi Chi-Kuadrat

Grafik di atas dapat diperoleh menggunakan perintah


>fx<-function (x)dchisq(x,df=5)
>curve(fx,0,40,type = "l",ylab="Probability
Density")

76
>fx1<-function (x)dchisq(x,df=1)
>curve(fx1,type = "l",add=TRUE)

>fx2<-function (x)dchisq(x,df=10)
>curve(fx2,type = "l",add=TRUE)

77
>fx3<-function (x)dchisq(x,df=20)
>curve(fx3,type = "l",add=TRUE)
0.15
0.10
Probability Density

0.05
0.00

0 10 20 30 40

2.4.2.2. Statistik Rasio Likelihood


Uji rasio likelihood menentukan nilai parameter yang
memaksimumkan fungsi likelihood dibawah asumsi H0 benar.
Statistik ujinya merupakan logaritma dari rasio fungsi
likelihood

78
b k  nij 
G 2  2 nij log 
 
i 1 j 1  ij 
Statistik uji ini mempunyai nilai non negatif dan berdistribusi
Chi-Kuadrat dengan derajad bebas (b-1)(k-1). G2 disebut
statistik likelihood-ratio Chi-Kuadrat yang bernilai besar
ketika H0 salah. G mempunyai nilai minimum nol ketika nij =
2

ij. Besarnya nilai G2 menandakan besarnya kecenderungan


menolak H0. Ketika H0 benar dan ij besar, statistik 2 dan G2
mempunyai distribusi yang sama yaitu Chi-Kuadrat dan
nilainyapun juga relatif sama.

2.4.2.3. Uji Independensi


Dalam tabel kontigensi dua arah dengan probabilitas bersama
ij , hipotesis nol untuk menguji independensi dua variabel
(baris dan kolom) adalah
H0 : ij = i00j untuk semua i dan j.

Biasanya i0 dan 0j tidak diketahui, sehingga diestimasi


menggunakan data sampel.
ni 0 n0 j ni 0 n0 j
eij  ˆ  npio poj  n 
n n n

Sehingga statistik uji untuk 2 dan G2 adalah


b k (nij  eij ) 2 b k  nij 
.  
2
 eij
dan G 2  2  n ij log
e


i 1 j 1 i 1 j 1  ij 

79
Kedua statistik ini mempunyai distribusi Chi-Kuadrat dengan
derajad bebas sama dengan (b-1)(k-1). H0 ditolak pada tingkat
sign  jika 2 > 2(:(b-1)(k-1)). Rumus di atas dapat disajikan dalam
bentuk :
 1 nij2 1 n22 j 1 nbj2 
 2  N
 n10  
n0 j n2..
 n0 j
 ..... 
nb 0
n  1

 .0 

Derajad bebas ini merupakan selisih banyaknya parameter


dalam H0 dan H1. Pada variabel baris diketahui bahwa
b


i 1
i0  1 sehingga terdapat (b-1) dari i0 yang nilainya bebas

dipilih. Demikian juga pada variabel kolom diketahui bahwa


k


j 1
0j  1 sehingga terdapat (k-1) dari i0 yang nilainya bebas

dipilih. Jadi dibawah H0 benar, terdapat parameter sebanyak


((b-1) + (k-1)). Pada hipotesis alternatif (H1) menyatakan
variabel baris dan variabel kolom tidak independen. Dari sel
b k
sebanyak bk dan  
i 1 j 1
ij  1 , terdapat derajad bebas (bk -1).

Derajad bebas adalah selisih banyaknya parameter dalam H0


dan H1 yaitu
df = (bk − 1) − [(b − 1) + (k − 1)] = bk − b − k + 1 = (b − 1)(k − 1)

Pendekatan distribusi Normal


Fisher dan Yates membuktikan bahwa jika derajat bebas cukup
besar , (b-1)(k-1) > 30, ternyata bentu 2  2 mendekati

80
distribusi normal dengan rataan 2(b  1)(k  1)  1 dan
simpangan baku 1. Oleh karena itu
Z= 2 2 - 2(b  1)(k  1)  1

Z berdistribusi normal standart. Pendekatan ini hanya dapat


dipertanggung-jawabkan jika eij cukup besar. Jika eij harganya
kecil-kecil maka dapat digunakan pendekatan lain (oleh
Haldane), yaitu jika derajat babas cukup besar (lebih dari 30)
dan harga eij kecil-kecil, maka statistik 2 mendekati distribusi
normal dengan rata-rata
n(b  1)(k  1)

n 1

sedangkan variansinya
2n n2
2  (n1  1 )(n2   2 )  1  2
n3 n 1

dengan
(b  1)(n  b)
n1  , n2  (b  1)(n  k )
(n  1) (n  1)

 1   
 n  b 2   n 1  k 2 
 
1   ,
ni 0 n0 j
2   
(n  2) (n  2)

Selanjutnya pengujian dengan distribusi normal standar


2 
z

Contoh : Akan diuji apakah jenis kelamin (Gender) berasosiasi
dengan partai yang dianut (Demokrat, Agama, Republik). Dari

81
responden sebanyak 2757, dapat diklasifikasikan sebagai
berikut
Tabel 2.15. Data gender dan partai afiliasi
Gender Partai
Demokrat Agama Republik Total
Wanita 762 327 468 1557
(703.7) (319.6) (533.7)
Laki 484 239 477 1200
(542.3) (246.4) (411.3)
Total 1246 566 945 2757
Keterangan : frekuensi harapan dinyatakan dalam tanda
kurung.

Dalam program R, untuk menghitung statistik Pearson s Chi-


Kuadrat dapat digunakan fungsi chisq.test
> gender <-
matrix(c(762,327,468,484,239,477),byrow=TRUE,nrow=2)
>dimnames(gender) <- list(Gender=c("Wanita","Laki"),
Party=c("Demokrat","Agama","Republik"))
> chisq.test(gender)
Pearson's Chi-squared test

data: gender
X-squared = 30.0701, df = 2, p-value = 2.954e-07

Dalam beberapa kasus, nilai P-value dapat didekati


menggunakan simulasi.
> chisq.test(gender,simulate.p.value=TRUE,B=10000)
Pearson's Chi-squared test with simulated p-value (based
on 10000 replicates)
data: gender
X-squared = 30.0701, df = NA, p-value = 1e-04

82
2.5. Uji Eksak untuk Sampel Kecil
Sejauh ini, interval konfidensi dan statistik uji yang dibahas
didasarkan pada metode sampel besar. Statistik 2 maupun G2
sesuai untuk sampel besar. Ketika n kecil, lebih baik menggunakan
distribusi eksak dibanding dengan pendekatan sampel besar.
2.5.1. Uji Eksak Fisher’s untuk Tabel 2 × 2
Uji chi kuadrat merupakan uji pendekatan(bukan eksak).
Untuk uji eksak dikemukakan oleh Fisher. Didasarkan atas
sampling tanpa pengembalian dari distribusi hipergeometrik. H 0
benar (kedua pengamatan independen), peluang komposisi
pengamatan seperti Tabel 2.1 (dengan asumsi jumlah margin
tetap ) adalah
 n10  n20 
  
 n11  n01  n11  n !n !n !n !
P(n11 )   10 20 02 01
n  n11!n12!n21!n22!n!
 
 n01 

P-value merupakan jumlah semua nilai probabilitas P(n11)


yang mendukung H1. Selanjutnya Ho ditolak jika P-value lebih
kecil dari . Statistik uji ini disebut uji eksak Fisher s yang
disampaikan oleh R. A. Fisher pada tahun 1934.

Contoh Data Fisher Tea


Fisher memberkan contoh percobaan sebagai berikut : Ketika
minum teh dicampur milk, teman Fisher di Rothamsted
Experiment Station dekat London disuruh menebak minuman apa
yang dituang pertama kali dalam gelas, milk atau teh. Fisher
membuat rancangan percobaan dengan delapan gelas, empat

83
diantaranya teh yang dituang duluan dan empat gelas yang
lainnya adalah milk. Selanjutnya delapan gelas tersebut
disajikan secara random dan diperoleh hasil dalam tabel berikut
ini,
Tabel . . Data Fisher Tea€
Dituang I Dugaan Total
Milk Tea
Milk 3 1 4
Tea 1 3 4
Total 4 4 8

Distribusi untuk percobaan tersebut adalah hipergeometrik


yang total margin pada baris pertama dan kedua masing-masing
sama dengan 4. Nilai n11 yang mungkin adalah (0, 1,2, 3, 4).
Berdasarkan Tabel 2.12, terdapat tiga pendugaan yang benar
diantara empat gelas dengan milk yang dituang duluan.
Probabilitas susunan tersebut sama dengan

 4  4  4! 4!
  
P(3)      3!1! 1!3! 
3 1 16
 0.229
8  8! 70
 
 4 4!4!

Selanjutnya hanya terdapat satu susunan ekstrem yang


mendukung hipotesis H1 yaitu jika dugaannya sama dengan n11
= n22 = 4 dan n12 = n21 = 0, dan probabilitasnya

84
 4  4 
  
P(4)     
4 0 1
 0.014
8  70
 
 4

Tabel 2.13 memberikan nilai probabilitas pada berbagai


nilai n11. P-value untuk H1 adalah
P = P(3) + P(4) = 0.257.

Dari hasil ini berarti dapat disimpulkan H0 tidak ditolak.


Tabel 2.17. Probabilitas dan P-value data Fisher Tea€
n11 Probabilitas P-Value Exac 2 2 Chi
tabel
0 0.014 1.000 diterima 8.0 3.84 Ditolak
1 0.229 0.986 diterima 2.0 Diterima
2 0.514 0.757 diterima 0.0 Diterima
3 0.229 0.243 diterima 2.0 Diterima
4 0.014 0.014 ditolak 8.0 Ditolak

Jika H0 ditolak maka faktor baris dan kolom tidak independen


yang dapat diartikan bahwa rasa minuman dipengaruhi oleh
urutan/cara menuangkan.

2.5.2. Program R untuk Uji Eksak Fisher’s


Uji Eksak Fisher~s dalam program R dapat diakses melalui
fungsi fisher.test.
> teh <- matrix(c(3,1,1,3),ncol=2)
> fisher.test(teh)
Fisher's Exact Test for Count Data
data: teh
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:

85
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309
> fisher.test(teh,alternative="greater")
Fisher's Exact Test for Count Data
data: teh
p-value = 0.2429
alternative hypothesis: true odds ratio is greater than 1
95 percent confidence interval:
0.3135693 Inf
sample estimates:
odds ratio
6.408309

Pengujian independensi dua faktor secara eksak dapat juga


diimplementasikan pada tabel dua arah yang berukuran axb
dengan menggunakan fungsi fisher.test tersebut. Pengujian ini
merupakan generalisasi dari Fisher~s exact test pada tabel x .

> library(ctest)

Dari contoh Tabel 2.10, pengujian eksak Fisher adalah


sebagai berikut
> fisher.test(gender)
Fisher’s Exact Test for Count Data
data: gendergap
p-value = 0.03115
alternative hypothesis: two.sided

2.6. Ukuran Assosiasi


Untuk mengetahui derajad keeratan hubungan antara dua
faktor dapat digunakan beberapa ukuran asosisi berikut yang
didasarkan pada statistik Chi squred.

86
a. Koefisien kontigensi kuadrat tengah (2)
2
2  , 0 < 2 < 
n
b. Koefisien kontigensi Pearson (P)
2 n
2  ,0<P<1
(1   2 n)

P= 0 menyatakan adanya independen sempurna dan P = 1


adanya dependensi.

c. Koefisien kontigensi Kendall-Stuart (K)


2 /n
K ,0<K<1
(b  1)(k  1)

K = 0 berarti independen sempurna dan K = 1 berarti dependen


sempurna hanya jika (b=k). Jika bk angka 1 tak pernah
tercapai.

d. Koefisien kontigensi Cramer (C)

2 /n
C
min (b  1); (k  1)

Jika b = k maka C = K, sedangkan jika bk maka C > K.

e. Koefisien kontigensi tau-Kendall


Ukuran asosiasi ini diturunkan dari data peringkat. Langkah
pertama adalah dicara banyaknya pengematan yang dibentuk
oleh pasangan kategori dengan peringkat searah/serasi (yang
disebut pasangan konkordan) dan pasangan kategori dengan
peringkat berlawanan arah (yang disebut diskonkordan).

87
Jumlah pasangan konkordan dinyatakan dengan M dan jumlah
pasangan diskonkordan dinyatakan dengan N. Selanjutnya

Q = M-N
Dari Q dturunkan tiga macam statistik tau (ukuran tau-
Kendall)
2Q
a  N
n(n  1)
2Q
b 
( M  N  X 0 )(M  N  Y0 )
dengan
X0 : jumlah pengamatan seri hanya pada variabel pertama
Y0 : jumlah pengamatan seri hanya pada variabel kedua
2mQ
c  2
n (m  1)

dengan m = min(b;k). a tidak berlaku jika terdapat pengamatan


seri, karena itu tidak berlaku untuk tabel kontigensi.
Sedangkan b dan c untuk menghitung assosiasi dua variabel
dengan kategori peringkat.

Kelima ukuran ini tidak memiliki pengertian probabilistik,


seperti halnya koefisien korelasi. Ukuran assosiasi yang memiliki
pengertian probabilistik sehingga dapat digunakan untuk prediktif
adalah
a. Lambda Goodman-Kruskal
Identifikasi dahulu faktor prediktornya. Jika faktor baris
sebagai perediktor maka ukuran assosiasinya B sedangkan
faktor kolom sebagai Prediktor maka ukuran assosiasinya K

88
k

 max( n
b

j 1
ij )  max( ni. )  max( n ij )  max( n. j . )
B  , B  i 1

n  max( ni. ) n  max( n. j )

0 < B< 1 demikian juga 0 < K< 1. Ukuran simetri (koefisien


simetri)
b k

 max( n
i 1
ij )   max( nij )  max( n. j . )  max( n.i. )
j 1
 
2n  max( n. j )  max( ni. )

b. Gamma Goodman-Kruskal
Ukuran assosiasi ini diturunkan dari statistik Q dalam statistik
tau kendall.
Rumusnya :

  ( MQ N )
 = 1 terjadi dependensi sempurna dan =0 terjadi independensi
sempurna.

c. d Somers
Jika kita mempunyai dua variabel yang satu sebagai prediktor
dan yang lain sebagai respon , masing-masing variabel kategori
peringkat, maka ukuran assosiasinya dihitung dengan statistik
d Somers. X sebagai prediktor dan Y sebagai respon , statistik
ini dinotasikan
Q
d YX 
(M  N  X o )

Y sebagai prediktor dan X sebagai respon, statistik ini


dinotasikan

89
Q
d XY 
( M  N  Yo )

Antara tau kendal (2b ) dengan d Somers berlaku


2b = 4dxydyx

2.7. Uji Cochran-Mantel-Haenszel Untuk Tabel 2x2xJ


Cochran–Mantel–Haenszel (CMH) test adalah salah satu alternatif
uji independensi dua faktor bersyarat dalam tabel kontigensi 2x2xJ.
Tabel 2.18. Tabel kontigensi 2x2xJ untuk faktor A, B dan C
Faktor C Faktor B faktor A Jumlah
A1 A2
C1 B1 n111 n121 n101
B2 n211 n221 n201
jumlah n011 n021 n001
.... .... .... ...
Cj B1 n11j n12j n10j
B2 n21j n22j n20j
jumlah n01j n02j n00j
.... .... .... ....
CJ B1 n11J n12J n10J
B2 n21J n22J n20J
jumlah n01J n02J n00J

Uji independensi dilakukan pada masing-masing tabel kontigensi


2x2 untuk faktor C tertentu. H0 merupakan hipotesis bahwa faktor
A dan faktor B independen untuk semua level C, atau dapat
dinyatakan sebagai
n10 j n01 j
H0 : e11 j  untuk semuak j=1,...,J
n00 j

90
Statistik uji yang digunakan adalah
2
 J 
  (n11 j  e11 j ) 
  n10 j n20 j n01 j n02 j
CMH   j 1  dengan Var ( n ) 
j ( n00 j  1)
11 j 2
J n00
 Var
j 1
( n11 j )

Untuk sampel yang sangat besar, statistik CMH mendekati


distribusi Chi-Kuadrat dengan derajad bebas satu (df=1).
Cochran–Mantel–Haenszel (CMH) test dapat dikembangkan untuk
tabel bxkxJ.
Uji independensi tabel kontigensi bxk untuk semua j=1,...,J.
Misalkan,
nj = (n11j,n12j,...,n1(k-1)j,....,n(b-1)(k-1)j ~
merupakan vektor dari sel observasi dan
mj = (n10jn01j, n10jn02j,..., n(b-1)0jn0(k-1)j ~/n00j
yang merupakan nilai ekspektasi. Cochran-Mantel-Haenszel test telah
diimplementasikan dalam program R menggunakan fungsi
mantelhaen.test dalam ctest library. Sebagai contoh data mengenai
keputusan hakim tentang hukuman mati dikaitkan dengan
ras/suku korban dan terdakwa. Data sebagai berikut :
Tabel 2.19. Data keputusan hakim
Hukum Korban
Terdakwa
mati Suku A Suku B
Ya 19 0
Suku A
Tidak 132 9
Ya 11 6
Suku B
Tidak 52 97

91
Langkah-langkah analisis menggunakan program R adalah :
> dp <- c(19, 132, 0,9,11,52,6,97)
> dp <- array(dp, dim=c(2,2,2))
> dimnames(dp) <- list(Hukum.Mati=c("ya","tidak"),
Korban=c("Suku A"," Suku B "), Terdakwa=c("Suku A"," Suku
B"))
> mantelhaen.test(dp)
Mantel-Haenszel chi-squared test with continuity
correction
data: dp
Mantel-Haenszel X-squared = 5.8062, df = 1, p-value =
0.01597
alternative hypothesis: true common odds ratio is not
equal to 1
95 percent confidence interval:
1.397771 11.381078
sample estimates:
common odds ratio
3.988502
> mantelhaen.test(dp,correct=FALSE)
Mantel-Haenszel chi-squared test without continuity
correction
data: dp
Mantel-Haenszel X-squared = 6.9964, df = 1, p-value =
0.008168
alternative hypothesis: true common odds ratio is not
equal to 1
95 percent confidence interval:
1.397771 11.381078
sample estimates:
common odds ratio
3.988502

2.8. Uji Chi Kuadrat pada Tabel Kontigensi Multidimensi


Seringkali masing-masing objek diamati lebih dari dua variabel
sehingga ketika disajikan kedalam tabel menjadi tabel kontigensi
multidimensi. Uji Chi Kuadrat hanya dapat digunakan untuk
menguji asosiasi dua variabel, satu ada pada baris dan satu variabel

92
lainnya ada di kolom. Namun, dalam praktek banyak pula
dijumpai penggunaan lebih dari dua variabel, khususnya jika
diperlukan variabel kontrol. Pada software SPSS menyediakan
fasilitas Layer untuk variabel yang berfungsi sebagai pengendali.
Sebagi contoh, akan diambil kasus tiga variabel, yaitu kerja, didik,
dan gender. Sekarang akan diketahui hubungan antara Pekerjaan
Konsumen dengan Tingkat Pendidikan Konsumen, dengan variabel
pengendali adalah Gender. Jadi, akan diteliti apakah ada pengaruh
antara Pekerjaan Konsumen dengan Tingkat Pendidikannya untuk
dua jenis gender, yakni konsumen pria dan konsumen wanita.
Penyajian tabel kontigensi bxkxl dapat dituliskan sebagai berikut:

Tabel 2.20. Tabel kontigensi tiga arah untuk faktor A, B dan C


Faktor A Faktor B Factor C Jumlah
C1 ... Cr
A1 B1 n111 ... n11r n11o
... ... ... .... ....
Bk n1k1 ... n1kr n1ko
jumlah n1o1 ... n1or n1oo
.... .... .... ... ... ....
Ai B1 ni11 ... ni1r ni1o
.... .... .... .... ....
Bk nik1 ... nikr nik0
jumlah nio1 ... nior nioo
.... .... .... ... .... ....
Ab B1 nb11 ... nb1r nb1o
.... .... .... .... ....
Bk nbk1 ... nbkr nbko
jumlah nbo1 ... nbor nboo

93
Jika tabel 2.20, merupakan data populasi, maka peluang sel (i,j,l)
dinyatakan dengan πijl yang ditaksir dengan ̂ berdasarkan data
pengamatan. Demikian juga peluang-peluang marginal untuk
masing-masing faktor sebagai berikut
 πioo adalah peluang marginal untuk faktor A pada kategori ke-i
 πojo adalah peluang marginal untuk faktor ‛ pada kategori
ke-j
 πool adalah peluang marginal untuk faktor C pada kategori
ke-l.

Taksiran peluang-peluang marginal tersebut adalah


̂ ;̂ ;̂

Diantara dua faktor berasosiasi berarti tidak independen.


Asosiasi yang mungkin terjadi diantara ketika faktor adalah
a. Ketiga faktor saling independen atau sebaiknya ketiga faktor
tidak saling independen
b. Faktor pertama tidak independen dengan faktor kedua tetapi
faktor ketiga independen dengan dua faktor lainnya. Keadaan
ini disebut independen parsial.
c. Faktor pertama dan faktor kedua saling independen pada
setiap kategori faktor ketiga, tetapi faktor pertama tidak
independen dengan faktor ketiga, demikian faktor kedua tidak
independen terhadap faktor ketiga. Keadaan ini disebut
independen bersyarat.

Selanjutnya, beberapa masalah yang dapat diuji menggunakan


statistik Chi Kuadrat adalah

94
a. Apakah ketiga faktor(Faktor A, Faktor B dan Faktor C) saling
independen
b. Apakah Faktor pertama independen terhadap Faktor kedua
dan Faktor ketiga.
c. Apakah Faktor pertama dan Faktor kedua saling independen
pada masing-masing level di Faktor ketiga.

Uji Hipotesis ketiga faktor saling independen adalah


Ho : Ketiga faktor saling independen
H1 : Ketiga faktor, sebagian atau seluruhnya tidak saling
independen

Hipotesis ini dapat dinyatakan dalam bentuk probabilitas


sebagai berikut
Ho πijl = πioo .πoj0 .πool
Ho πijl ≠ πioo .πoj0 .πool

Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah


̂ ̂ ̂ atau

Selanjutnya sebagaimana dalam tabel kontigensi dua dimensi,


statistik uji hipotesis di atas adalah

∑∑∑

Statistik X2 berdistribusi normal dengan derajad bebas df= bkr-b-k-


r+2. Oleh karena itu Ho ditolak jika X2 lebih besar dari nilai tabel Chi
Kuadrat.

95
Pada masalah independensi parsial, perumusan hipotesisnya
adalah sebagai berikut
a. Hipotesis bahwa Faktor A independen terhadap Faktor B dan
Faktor C
Ho πijl = πioo. πojl melawan hipotesis tandingan
H1 πijl ≠ πioo. πojl
Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah
̂ ̂ atau

Statistik uji hipotesisnya adalah

∑∑∑

Statistik X2 berdistribusi normal dengan derajad bebas df= bkr-


b-kr+1. Oleh karena itu Ho ditolak jika X2 lebih besar dari nilai
tabel Chi Kuadrat.

b. Hipotesis bahwa Faktor B independen terhadap Faktor A dan


Faktor C
Ho πijl = πojo. πiol melawan hipotesis tandingan
H1 πijl ≠ πojo. πiol
Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah
̂ ̂ atau

Statistik uji hipotesisnya adalah

∑∑∑

96
Statistik X2 berdistribusi normal dengan derajad bebas df= bkr-
k-br+1. Oleh karena itu Ho ditolak jika X2 lebih besar dari nilai
tabel Chi Kuadrat.
c. Hipotesis bahwa Faktor C independen terhadap Faktor A dan
Faktor B
Ho πijl = πool. πijo melawan hipotesis tandingan
H1 : πijl ≠ πool. πijo
Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah
̂ ̂ atau

Statistik uji hipotesisnya adalah

∑∑∑

Statistik X2 berdistribusi normal dengan derajad bebas df= bkr-


r-bk+1. Oleh karena itu Ho ditolak jika X2 lebih besar dari nilai
tabel Chi Kuadrat.

Pada kasus uji independen bersyarat, pengujian dilakukan


sebagaimana uji independensi dua faktor pada masing-masing
kategori faktor ketiga. Rumusan uji independensi Faktor A dan
Faktor B pada masing-masing kategori ke-l Faktor C adalah
Ho πijl = πojl. πiol melawan hipotesis tandingan H1 πijl ≠ πojl. πiol

Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah

̂ ̂ atau

97
Statistik uji hipotesisnya adalah

∑∑∑

Statistik X2 berdistribusi normal dengan derajad bebas df= bk-k-b+1.


Oleh karena itu Ho ditolak jika X2 lebih besar dari nilai tabel Chi
Kuadrat.

2.9. Soal Latihan


1. Data penggunaan helm dan status luka pengendara motor
disajikan dalam Tabel berikut:
Tabel 2.21. Tabel kontigensi penggunaan helm dan status luka
Helm Luka
Fatal Tidak Fatal
Ya 1601 162527
Tidak 510 412368

Lakukan analisis, apakah memang benar pemakaian helm


mengurangi resiko kecelakaan?

2. Penelitian Kearifan sekelompok orang laki-laki menurut umur


Tabel 2.22. Tabel kontigensi Faktor Kearifan dan Umur
Kearifan Umur

anak-anak remaja Pemuda dewasa Tua


Ya 6 18 19 27 25
Tidak 15 31 31 32 19

Apakah umur mempengaruhi kearifan seseorang?

98
BAB III
MODEL LOG LINEAR PADA TABEL KONTIGENSI

Sampai akhir 1960-an, tabel kontingensi atau tabel dua arah


dua-arah yang dibentuk oleh klasifikasi variabel baris dan variabel
kolom, biasanya dianalisis menggunakan statistik chi-kuadrat
untuk pengujian kebebasan antara variabel baris dan kolom. Ketika
tabel terdiri dari lebih dari dua variabel, peneliti akan menghitung
statistik chi-kuadrat untuk tabel dua arah dan kemudian kembali
untuk beberapa sub-tabel terbentuk dalam rangka untuk
menentukan apakah ada asosiasi atau interaksi yang terjadi antara
variabel-variabel tersebut. Pada tahun 1970-an analisis table
kontigensi berubah cukup dramatis dengan munculnya model
loglinear oleh L. A. Goodman. Sekarang ini, aplikasi model linear
sudah sangat luas dan banyak software yang sudah memuat
analisis loglinear.
Model loglinear adalah salah satu kasus khusus dari Generalized
Linear Model (GLM). Analisis Loglinear merupakan pengembangan
dari analisis tabel kontingensi dua arah atau lebih. Walaupun
model loglinear dapat digunakan untuk menganalisa hubungan
antara dua variabel kategori (tabel kontigensi dua arah), tetapi
biasanya digunakan untuk mengevaluasi multi arah dari tabel
kontingensi yang melibatkan tiga atau lebih variabel. Dalam
analisis ini tidak membedakan antara variabel respon dan
prediktornya. Oleh karena itu, hanya model loglinear menunjukkan
hubungan antara variabel-variabel. Jika satu atau lebih variabel
diperlakukan sebagai variabel dependen dan variabel lain sebagai

99
variabel independen, maka regresi logistik akan lebih tepat
digunakan.
Analisis dengan model log linear dilakukan untuk mempelajari
pola assosiasi antara sekelompok variabel. Disamping itu juga
digunakan untuk memperkirakan banyaknya observasi yang
diharapkan dalam tiap sel tabel kontigensi. Selanjutnya
berdasarkan nilai harapan itu dapat dihitung beberapa statistik
penting seperti proporsi, statistik rasio kecenderungan.

3.1. Model Log Linear Dalam Tabel Kontigensi Dua Arah


Pemodelan loglinear merupakan pemodelan frekuensi
observasi dalam tabulasi silang. Misalkan data dapat disajikan
dalam tabel kontigensi dua arah berukuran bxk. b adalah
banyaknya baris dan k adalah banyaknya kolom sebagaimana
Tabel 3.1.

Tabel 3.1. Tabel kontigensi bxk Faktor A dan Faktor B


Faktor B Jumlah
Faktor A
B1 B2 ..... Bk
A1 n11 n12 ..... n1k n1o
11 12 1k 1o
A2 n21 n22 ...... n1k n2o
21 22 1k 2o
. ..... ..... ..... ..... ......
. ..... ..... ..... ..... .....
Ab nb1 nb2 nbk nbo
b1 b2 bk bo
Jumlah no1 no2 ........ nok n
o1 o2 ok
Keterangan : nij adalah frekuensi observasi sel (i,j) dan ij adalah
peluang pengamatan berada pada sel (i,j).

100
Jika Faktor A dan Faktor B saling independen, maka peluang
pengamatan jatuh pada sel (i,j) yaitu ij sama dengan perkalian
peluang margin baris ke-i (io) dengan peluang margin kolom ke-j
(0j),
ij = i0. oj
log ij = log i0.+ log oj

Berdasarkan frekuensi teoritis,


ij = nij ; i0 = ni0 ; 0j = n0j ;

dengan n adalah total observasi. ij merupakan frekuensi teoritis


sel (i,j), i0 merupakan total frekuensi baris ke-i dan 0j merupakan
total frekuensi kolom ke-j. Oleh karena itu
log (ij)= log (nij) = log (ni0oj)
= log (ni0) + log (noj) – log (n)
= log (i0) + log (oj) – log (n)

Log(.) dibaca sebagai fungsi logaritma natural yaitu log(e) = 1 untuk


e=2,718. Selanjutnya,
a) ∑ ∑

∑ ∑

b) ∑ ∑

∑ ∑

c) ∑ ∑ ∑ ∑ ∑ ∑
∑ ∑

101
∑∑ ∑ ∑

Berdasarkan persamaan (a), (b) dan (c), maka dengan mengambil

∑∑

∑ ∑∑

∑ ∑∑

Akan diperoleh persamaan


log (ij)=  + iA + jB atau ij = exp( + iA + jB)

Persamaan tersebut adalah model log linearnya dengan asumsi


Faktor A dan Faktor B independen.
Penaksir untuk parameter dalam model log-linear adalah

̂ ∑ ∑ ̂ dengan ̂

̂ ∑ ̂ ∑∑ ̂

̂ ∑ ̂ ∑∑ ̂

102
Contoh 3.1
Berdasarkan data pada Tabel 2.3. dan nilai harapan ̂ pada Tabel
2.12 . Selanjutnya dapat disusun tabel nilai harapan ̂
disajikan dalam tabel berikut
Tabel 3.2. Nilai harapan ̂
Grup Sakit Kepala

Ya (1) Tidak (2)


Placebo (A) 4.986889494 9.29537245
Aspirin (B) 4.987161344 9.2956443

Berdasarkan Tabel 3.2, dapat diperoleh diperoleh

̂ , ̂ dan ̂

Jika Faktor A mempunya b level dan Faktor B mempunyai 2


level maka diperoleh tabel bx2. Model logit pada baris ke i adalah
 P( B  1)      
log   log i1   log i1 
 1  P( B  1)   1   i1    i2 
 n   
 log i1   log i1   log i1  log i 2
 n i 2   i 2 
= ( + iA + 1B) - ( + iA + 2B)
= 1B - 2B
nilai logit tidak tergantung pada level i (Faktor A). Jadi Faktor A
tidak mempengaruhi Faktor B.
Andaikan Faktor A dan Faktor B tidak independen, model log
linear untuk dua variabel dapat disajikan sebagai

103
log(ij) =  + iA + jB + ijAB i = 1, ..., b dan j=1,....,k
ij : frekuensi yang diharapkan dalam setiap sel (i,j)
 : parameter rata-rata umum
iA : Parameter pengaruh tingkat ke-i faktor pertama (A)
jB : Parameter pengaruh tingkat ke-j faktor kedua (B)
ijAB: Parameter pengaruh faktor interaksi sel (i,j)

b k b k
dengan syarat  iA  0 ,
i 1
 Bj  0 ,  iAB  0 ,   ABj  0
j 1 i 1 j 1

ijAB menggambarkan hubungan antara faktor A dan faktor B. Jika


ijAB nilainya mendekati nol berarti faktor A dan faktor B cenderung
independen. Model yang memuat semua faktor interaksi disebut
model jenuh (Saturated Model).

Jika diketahui jumlah pengamatan sebanyak


∑ ∑

maka dapat disusun model multinomial dengan probabilitas


masing-masing sel adalah
   
∑ ∑

Hubungan antara nilai log odds rasio dan parameter asosiasi ijAB
pada tabel 2x2 adalah sebagai berikut
  
log   log 11 22   log 11  log 22  log 12  log 21
 2112 

104
= ( + 1A + 1B + 11AB) + ( + 2A + 2B + 22AB) – (  + 1A +
2B + 12AB) - ( + 2A + 1B + 21AB)
= 11AB + 22AB - 12AB - 21AB

Jika parameter ijAB = 0 maka nilai log odds rasio akan bernilai
nol.
Untuk menaksir parameter-parameternya dapat digunakan
metode Maximum Likelihood Estimator (MLE). Misal nio dan n0j
masing-masing merupakan total frekuensi amatan untuk baris ke-i
dan kolom ke-j. n adalah total observasi. Penaksir untuk masing-
masing parameter adalah sebagai berikut
1 k b  nio noj 
̂   log
bk j 1 i1  n 

1 k  nio noj  1 k b  nio noj  1 k n n 


ˆiA   log 
 
   log     log io oj   ˆ
k j 1  n  bk j 1 i1  n  k j 1  n 
1 b  nio n jo  1 K b  nio n jo  1 b  nio n jo  ˆ
ˆBj   log     log     log  
b i 1  n  bk j 1 i 1  n  b i 1  n 
 nio n jo  ˆA ˆB ˆ
ˆijAB  log   i   j  
 n 

untuk setiap i = 1, ...,b dan j=1, ...., k .Sesuai dengan asumsi di atas
bahwa
b k b k

 ̂iA  0 ,
i 1
 ̂Bj  0 ,
j 1
 ̂ijAB  0 dan
i 1
 ̂
j 1
AB
ij 0

Menggunakan contoh data diatas maka


̂11
AB
 4.986889494 – - + = 12.12816

105
Pada model log linear, hipotesis yang diuji adalah
a. Efek utama pada faktor baris (A)
H0 : iA = 0 untuk semua i
H1 : terdapat iA  0 untuk suatu i

Jika H0 tidak ditolak maka iA = 0 untuk semua i . Hal ini berarti
faktor Baris tidak mempengaruhi banyaknya frekuensi sel.
Hipotesis ini identik dengan pengujian kesamaan proporsi
H0 : 10 = ....= b0

b. Efek utama pada faktor kolom (B)


H0 : jB = 0 untuk semua i
H1 : terdapat jB  0 untuk suatu j

Jika H0 tidak ditolak maka jB = 0 untuk semua j . Hal ini berarti
faktor kolom tidak mempengaruhi banyaknya frekuensi sel.
Hipotesis ini identik dengan pengujian kesamaan proporsi
H0 : 01 = ....= 0k

c. Efek interaksi faktor baris dan faktor kolom


H0 : ijAB = 0 untuk semua i dan j
H1 : terdapat ijAB  0 untuk suatu i dan j

Jika H0 maka dapat disimpulkan bahwa Faktor S dan Faktor B


tidak independen. Hipotesis tersebut dapat diuji dengan
statistik likelihood rasio maupun statistik Pearson
b k n  b k (n   ˆ ij ) 2
G 2  2 nij log ij  atau  2  
ij
 ˆ  ˆ ij
i 1 j 1  ij  i 1 j 1

Statistik G2 maupun 2 mempunyai distribusi mendekati


distribusi chi-squared dengan derajad bebas (b-1)(k-1).

106
3.2. Model Log Linear untuk Tabel Kontigensi Tiga Arah
Dalam model log linear dua dimensi (faktor), hanya dua
model kemungkinan yang terjadi, yaitu pertama kedua faktor
saling independen dan yang kedua adalah kedua faktor saling
berasosiasi. Pada tabel kontigensi tiga dimensi, diasumsikan
sampel berukuran n terdistribusi dalam bks sel yang berdistribusi
multinomial. Probabilitas sebuah observasi jatuh dalam sel ke- ijl
adalah πijl untuk untuk i = 1, ..., b dan j=1,....,k dan l=1,......,s. Nilai
harapan pada sel ke- ijl adalah µijl, sehingga

µijl = nπijl
Tabel 3.3. Tabel kontigensi tiga arah untuk sampel distribusi
multinomial
Faktor A Faktor B Faktor C Jumlah
C1 .... Cs
B1 n111 .... n11s n110
π 111 .... π11s π 110
..... .... .... .... ....
A1 Bk n1k1 .... n1ks n1k0
π 1k1 .... π 1ks π 1k0
jumlah n101 .... n10s n100
π 101 .... π 10s π 100
.... .... .... .... ... ....
B1 ni11 .... ni1s ni10
π i11 .... π i1s π i10
.... .... .... .... ....
Ai Bk nik1 .... niks nik0
π ik1 .... π iks π ik0
Jumlah ni01 .... ni0s ni00
π i01 .... π i0s π i00
.... .... .... .... .... ....

107
Faktor A Faktor B Faktor C Jumlah
C1 .... Cs
B1 nb11 .... nb1s nb10
π b11 .... π b1s π b10
.... .... .... .... ....
Ab Bk nbk1 .... nbks nbk0
π b11 .... π b1s π b10
jumlah nb01 .... nb0s nb00
π b01 .... π b0s π b00

Jika ketiga faktor saling independen (mutual independent), maka


πijl = πi00 π0j0 π00l dan µijl = n πi00 π0j0 π00l

Model log linear saling independen untuk tabel kontigensi tiga


arah untuk faktor A mempunyai b level, faktor B mempunyai k
level dan faktor C mempunyai s level dapat dituliskan sebagai
berikut :
log(ijl) =  + iA + jB+ lC

Parameter iA , jB dan lC memenuhi sifat


b k s

 iA  0 ,
i 1
 Bj  0 dan
j 1

l 1
C
j 0

Selanjutnya dengan memasukan suku interaksi ijAB , ilAC, jlBC


dan ijlABC diperoleh model log linear
log(ijl) =  + iA + jB + lC + ijAB + ilAC + jlBC + ijlABC

Penyusunan model ini disebut model hirarkis, yaitu apabila efek


interaksi berorde tinggi dimasukkan dalam model maka semua
efek interaksi orde yang lebih rendah juga masuk dalam model
disamping efek-efek utamanya. Model ini dapat dituliskan

108
menggunakan simbol (ABC). Parameter-parameternya memenuhi
sifat
b k s b s


i 1
A
i  
j 1
B
j  
l 1
C
j   ijAB  ...   ijlABC  0
i 1 l 1

Menggunakan model ini, kita sekarang dapat memformulasikan


struktur interaksi
1. Mutual independence : hanya memuat parameter A , B dan C
2. Partial independence : memuat salah satu parameter XY, X,Y 
{‚,‛,C} dan X≠Y
3. Conditional independence : memuat semua parameter kecuali
ABC dan salah satu parameter XY, X,Y  {‚,‛,C} dan X≠Y
4. Tidak ada interaksi tiga arah : memuat semua parameter
kecuali ABC
5. Interaksi tiga arah : memuat semua parameter. Disebut juga
saturated model (model jenuh).

Jika model hanya memuat efek interaksi dua faktor,


log(ij) =  + iA + jB +kC + ijAB + ikAC + jkBC

dan dapat disimbolkan dengan (AB, AC, BC). Jika model hanya
memuat efek interaksi faktor A dan Faktor B, sedangkan Faktor C
independen terhadap faktor A dan B, maka modelnya menjadi
log(ij) =  + iA + jB +kC + ijAB

dan dapat disimbolkan dengan (AB, C). Untuk model yang


memuat dua interaksi yaitu antara faktor A dengan faktor B dan
interaksi antara faktor A dengan faktor C maka modelnya dapat
disimbolkan dengan (AB, AC) dengan persamaan

109
log(ij) =  + iA + jB +kC + ijAB + ikAC

Sebagaimana dalam tabel kontigensi dua arah, parameter-


parameter dalam model log linear untuk tabel kontigensi dapat
diestimasi dan dilakukan uji hipotesis. Hipotisisnya meliputi
a. Uji efek utama
b. Uji efek interaksi dua faktor
c. Uji efek interaksi tiga faktor.

Sebagaimana dijelaskan diatas, bahwa dari tabel kontigensi tiga


arah terdapat beberapa model yang dapat diuji atau dibandingkan,
seperti (ABC), (AB,AC,BC),....,(A,B,C). Setelah dilakukan pengujian
satu-persatu, sekarang kita harus melakukan evaluasi model mana
yang paling baik, yaitu paling baik menurut kriteria statistik dan
secara subtansi maupun teoritis model ini dapat diterima?€. Setelah
diperoleh model yang diyakini, secara statistik (kuantitatif) atau
data sampel dan secara teoritis, maka berdasarkan model tersebut
dilakukan pengujian model mana yang paling baik?€. Pengujian
dilakukan dengan membandingkan model 1 dan model 2. Jika
Model 2 adalam model yang lebih lengkap dibandingkan model 1
berarti semua parameter dalam model 1 ada pada model 2.
Selanjutnya model dua diletakan dalam H1 dan H0 memuat
model 1.
Ho : Model 1 cocok dengan data
H1 : Model 2 cocok dengan data

Statistik uji menggunakan nilai devians sebagaimana uji goodness of


fit yaitu

110
s   y   n  yijl 
b k
 
D  2  y ijl log ijl   (nijl  yijl ) log ijl
   
i 1 j 1 l 1 
  nijl ijl 
ˆ  nijl  nijl ijl 
ˆ

Statistik D berdistribusi Chi Kuadrat.
Masing masing model dihitung nilai devians D menggunakan
rumus di atas. Misal
D1 : nilai devians model 1
D2 : nilai devians model 2

maka selisih dua nilai devians itu akan berdiatribusi Chi kuadrat.
Derajad bebasnya sama dengan banyaknya selisih parameter dalam
model 1 dan model 2. H0 ditolak jika nilai selisih kedua devians
lebih besar dari nilai tabel Chi Kuadrat.

3.3. Contoh Data I


Tabel 3.4 adalah data dari survei yang dilakukan dibeberapa
kota besar terhadap murid dalam tahun terakhir di SLTA. Survei
berkaitan dengan apakah mereka pernah menggunakan alkohol,
rokok, atau nonton film porno. Data dicatat dalam tabel kontigensi
2 × 2 × 2. Faktor A adalah penggunaan alkohol (ya, tidak), Faktor C
adalah penggunaan rokok (ya, tidak) dan Faktor M adalah pernah
nonton film porno (ya, tidak).

Tabel 3.4. Tabel penggunaan Alkohol, Rokok dan Film Porno di SLTA
Alkohol (A) Rokok C) Film Porno (M)
Ya Tidak
Ya Ya 991 538
Tidak 44 456
Tidak Ya 3 43
Tidak 2 279

Sumber :Agresti (2007)

111
Tabel 3.5. menunjukkan model yang paling cocok dengan data
sampel adalah model (AC, AM,CM) dibandingkan dengan model
yang lain.
Tabel 3.5. Nilai harapan untuk model loglinear
A C M Model log linear
(A,C,M) (AC,M) (AM,CM) (AC,AM, (ACM)
CM)
Ya Ya Ya 550.0 611.2 909.24 910.4 911
Tidak 740.2 837.8 438.84 538.6 538
Tidak Ya 282.1 210.9 45.76 44.6 44
Tidak 386.7 289.1 555.16 455.4 456
Tidak Ya Ya 90.6 19.4 4.76 3.6 3
Tidak 124.2 26.6 142.16 42.4 43
Tidak Ya 47.3 118.5 0.24 1.4 2
Tidak 64.9 162.5 179.84 279.6 279

Table 3.6. menyajikan uji goodness-of-fit beberapa model. Jika


nilai P-values semakin kecil berarti model semakin tidak baik.
Hipotesis yang dapat diuji adalah
H0 : Model yang diuji sesuai dengan data (layak digunakan)
H1 : Model Saturated atau model (ACM) sesuai dengan data.
Dari nilai P-value, ternyata hanya model (AC,AM,CM) yang
layak digunakan disamping dan interaksi ACM tidak signifikan.
Sehingga model yang paling cocok dengan data adalah model
(AC,AM,CM) dengan P-value = 0.54.
Tabel 3.6. Uji Goodnes of fit untuk model loglinear
Model G2 X2 df P-Value*
(A,C,M) 1286.0 1411.4 4 <0.001

112
(A,CM) 534.2 505.6 3 <0.001
(C,AM) 939.6 824.2 3 <0.001
(M,AC) 843.8 704.9 3 <0.001
(AC,AM) 487.4 443.8 2 <0.001
(AC,CM) 92.0 80.8 2 <0.001
(AM,CM) 187.8 177.6 2 <0.001
(AC,AM,CM) 0.4 0.4 1 0.54
(ACM) 0.0 0.0 0 -
*catatan : P-value untuk G2

Dari Tabel 3.6., kita juga dapat menguji efek interaksi tertentu.
Sebagai contoh untuk menguji interaksi AM dengan hipotesis
H0 : ikAM = 0 untuk semua i dan k
(atau Faktor A dan Faktor M saling independen)

dapat digunakan nilai G2 dari beberapa model berikut ini,


a. model (A,C,M) dan model (C,AM) diperoleh
G2 = 1286.0-939.6 = 346.4 dengan db =4-3=1
b. model (M,AC) dan model (AC,AM) diperoleh
G2 = 843.8-497.4 = 346.4 dengan db =3-2=1
c. model (A,CM) dan model (AM,CM) diperoleh
G2 = 534.2 – 187.8=346.4 dengan db =3-2=1

Dari beberapa cara tersebut menghasilkan nilai G2 = 346.4 dan


df=1, sehingga H0 ditolak yang berarti faktor A dan faktor M tidak
independen.

113
3.4. Contoh Data II
Tabel 3.7. adalah data kecelakaan mobil di sebuah propinsi
sebanyak 68.694 penumpang. Penumpang diklasifikasikan menurut
gender (G), Lokasi kecelakaan (L), penggunaan sabuk pengaman (S)
dan luka (I).
Tabel 3.7. Data kecelakaan dan estimasi frekuensi model loglinear
menggunakan model (GI,GL,GS,IL,IS,LS) dan model (GLS,GI,IL,IS).
Gen- Loka- Sa- Luka (GI,GL,GS,IL,IS,LS) (GLS,GI,IL,IS) Proporsi
der si buk Tidak Ya Tidak Ya Tidak Ya Ya
Wa- Urban Tidak 7287 996 7166.4 993.0 7273.2 1009.8 0.12
nita Ya 11587 759 11748.3 721.3 11632.6 713.4 0.06
Rural Tidak 3246 973 3353.8 988.8 3254.7 964.3 0.23
Ya 6137 757 595.5 781.9 6093.5 797.5 0.11
Laki Urban Tidak 10381 812 10471.5 845.1 10358.9 834.1 0.07
Ya 10969 380 10837.8 387.6 10959.2 389.8 0.03
Rural Tidak 6123 1084 6045.3 1038.1 6150.2 1056.8 0.15
Ya 6693 513 6811.4 518.2 6697.6 508.4 0.07

Tabel 3.7. juga menginformasikan proporsi sampel penumpang


yang terluka pada kecelakaan tersebut. Tabel 3.8. adalah ouput
nilai G2 yang dapat digunakan untuk uji kecocokan model.

Tabel 3.8. Nilai G2 pada beberapa model loglinear


Model G2 df P-Value
(G,I,L,S) 2792.8 11 <0.0001
(GI,GL,GS,IL,IS,LS) 23.4 5 <0.001
(GIL,GIS,GLS,ILS) 1.3 1 0.25
(GIL,GS,IS,LS) 18.6 4 0.001
(GIS,GL,IL,LS) 22.8 4 <0.001
(GLS,GI,IL,IS) 7.5 4 0.11
(ILS,GI,GL,GS) 20.6 4 <0.001
(GILS) 0 0

114
Model (G, I, L, S) adalah model mutual independence, keempat
variabel saling independen. Model (GI, GL, GS, IL, IS, LS) memuat
interaksi dua faktor dan efek utama.
Model (GIL, GIS, GLS, ILS) memuat interaksi tiga faktor, dua
faktor dan efek utama. Misalkan kita akan menguji hipotesis
H0 : Model (GI, GL, GS, IL, IS, LS) sesuai dengan data
H1 : Model (GILS) sesuai dengan data

Diperoleh G2 = 23.4 dengan df =5 atau P-value=0.001 sehingga


H0 ditolak yang berarti bahwa Model (GILS) lebih cocok dengan
data.

Dari beberapa model tersebut, model yang layak digunakan


adalah model (GIL, GIS, GLS, ILS) dengan P-value =0.25 dan model
(GLS,GI,IL,IS) dengan P-value =0.11.
Pada model (GIL, GIS, GLS, ILS), kita juga dapat
menyimpulkan bahwa efek interaksi empat faktor GILS tidak
signifikan. Selanjutnya adalah menguji apakah interaksi tiga faktor
signifikan. Berdasarkan model (GI, GL, GS, IL, IS, LS) dan model
(GIL, GIS, GLS, ILS) kita dapat menyimpulkan bahwa terdapat
interaksi dua tiga faktor. Permasalahan adalah interaksi tiga faktor
yang mana yang signifikan. Untuk itu kita dapat melakukan
pengujian masing-masing interaksi tiga faktor.
a. Dari model (GI, GL, GS, IL, IS, LS) dan model (GIL,GS,IS,LS)
diperoleh statistik G2 = 23,4 – 18.6 = 4.8 dengan df=5-4=1. Dari
tabel pada =0.001, 2=10.828 sehingga dapat disimpulkan
interaksi GIL tidak signifikan.

115
b. Dari model (GI, GL, GS, IL, IS, LS) dan model (GIS,GL,IL,LS)
diperoleh statistik G2 = 23,4 – 22.8 = 0.46 dengan df=5-4=1,
sehingga dapat disimpulkan interaksi GIS tidak signifikan.
c. Dari model (GI, GL, GS, IL, IS, LS) dan model (GLS,GI,IL,IS)
diperoleh statistik G2 = 23,4 – 7.5 = 15.9 dengan df=5-4=1,
sehingga dapat disimpulkan interaksi GLS adalah signifikan.
d. Dari model (GI, GL, GS, IL, IS, LS) dan model (ILS,GI,GL,GS)
diperoleh statistik G2 = 23,4 – 20.6 = 2.8 dengan df=5-4=1,
sehingga dapat disimpulkan interaksi ILS tidak signifikan.

Dari pengujian interaksi tiga faktor ini diperoleh kesimpulan


yang sama dengan uji goodses of fit yaitu model (GLS,GI,IL,IS)
adalah model yang layak digunakan. Namun kita perlu menguji
apakah interaksi dua faktor GI, IL dan IS juga signifikan.
Pengujian menggunakan statistik G2 didasarkan pada asumsi
sampel besar. Statistik yang bermanfaat untuk melihat kesesuaian
data dan model adalah ukuran dissimilarity index yaitu
| ni  ˆ i | | p  ˆi |
DI    i
2n n
dengan ni adalah frekuensi observasi ke-i dan ˆ i  nˆi adalah
frekuensi harapan berdasarkan modelnya. Nilai DI terletak antara 0
dan 1. Jika DI mendekati 0 mengindikasikan model cocok dengan
data. Misalkan pada model (GI, GL, GS, IL, IS, LS) mempunyai nilai
DI= 0.008, dan pada model (GLS, GI, IL, IS) mempunyai nilai DI=
0.003. Kedua nilai DI sangat kecil. Biasanya dalam praktek, jika DI
kurang dari 1% model dikatakan sesuai.

116
Mungkin sekali terjadi pertentangan antara model teoritis
dengan model kuantitatif yang ditentukan hanya berdasarkan
sebuah sampel. Oleh karena itu perlu diperhatikan
a. Pemilihan kelompok variabel harus didasarkan pada subtansi
dan landasan teoritis, sehingga model assosiasi teoritis antara
variabel telah dapat dipertanggung jawabkan kebenaran secara
ilmiah.
b. Selanjutnya sebuah data sampel hanya dapat digunakan untuk
megukur/ mempelajari kebenaran model teoritis bukan
membuktikan kebenaran teoritis tersebut. Sebab teori berlaku
untuk populasi sedang model yang disusun hanya berdasarkan
data sampel.
c. Sekiranya hasil analisis atau pengujian hipotesis sebuah data
menolak model teoritis yang dikemukakan, maka janganlah
secara langsung ditafsirkan bahwa model teoritis tersebut
salah. walaupun akan menjadi sangat subjektif, peneliti harus
mengambil kesimpulan model mana yang akan dipakai
sebagai model akhir. Dianjurkan untuk menampilkan kedua
hasil estimasi untuk melihat sejauh mana perbedaanya.
d. Model Empiris/kuantitatif dapat diterima kebenaranya jika
telah dilakukan pengujian berualang kali dengan hasil yang
konsisten. hal ini akan dapat menciptakan model teoritis baru.
e. Disimpulkan sebaiknya penelitian tentang asosiasi ganda
sepatutnya menyajikan beberapa buah model baik empiris
maupun teoritis.

117
3.5. Model Log Linear pada Tabel Kontigensi Multi Arah
Masalah pemilihan model empiris dan model teoritis tersebut
akan bertambah rumit sejalan dengan bertambahnya variabel yang
diperhatikan. Jika ada 5 variabel yang diperhatikan maka sel atau
kelumpok individu yang terbentuk menjadi 25 = 32. Untuk
peristiwa yang sangat jarang terjadi seperti kasus aids, kematian
bayi dsb, banyaknya kasus relatif kecil dibanding banyaknya
kelompok individu, sehingga akan terdapat bayak sel yang kosong.
Oleh karena itu banyaknya variabel harus dibatasi, yaitu dengan
menggabung beberapa variabel yang dapat dinyatakan berasosiasi.
Langkah analisis dalam model tiga arah dapat dikembangkan
untuk analis log linear multi arah. Terdapat dua tujuan penting dari
analisis ini yaitu
a. pembentukan model kuantitatif
b. menguji atau mengukur kebenaran model teoritis

Tahapan pembentukan model kuantitatif meliputi :


- menerapkan model terlengkap
- menyederhanakan model
- penyederhanaan model lanjutan
- pengujian goodness of fit

Secara umum pembentukan model kuantitatif dapat


menggunakan metode pemilihan backward. Prosedur ini akan
membentuk model dengan mengeluarkan faktor interaksi secara
bertahap mulai dengan interaksi orde tinggi. Para peneliti tidak
dianjurkan dengan metode ini karena pembentukan model hanya

118
semata-mata didasarkan pada data tidak didasarkan atas landasan
subtansi dan teoritis.

3.6. Program R untuk Model Log Linear


Berikut ini adalah aplikasi program R dalam analisis model
loglinear. Data diambil dari beberapa contoh diatas.
>tabel.napsa<-data.frame(expand.grid(
film=factor(c("Ya","Tidak"),levels= c("Ya","Tidak")),
rokok=factor(c("Ya","Tidak"), levels=
c("Ya","Tidak")),
alkohol=factor(c("Ya","Tidak"),levels=
c("Ya","Tidak"))),
count=c(911,538,44,456,3,43,2,279))

Model loglinear dapat dilakukan dengan menggunakan


proporsional Iteratif Fitting yang fungsi loglin atau fungsi loglm
yang terdapat dalam library (MASS). Atau dapat juga
menggunakan fungsi glm dengan poisson family. Fungsi loglin,
atau loglm terdapat dalam library (MASS). Fungsi loglm lebih
fleksibel dibanding loglin. Fungsi loglin membutuhkan input berupa
tabel yang diperoleh dari fungsi table() atau dari array.
>library(MASS)
>fitACM<-
loglm(count~alkohol*rokok*film,data=tabel.napsa,param=T,f
it=T) # ACM
>fitAC.AM.CM<-update(fitACM,.~.-alkohol:rokok:film)#AC,AM,CM
>fitAC.AM.CM
Call:
loglm(formula = count ~ alkohol + rokok + film +
alkohol:rokok + alkohol:film + rokok:film, data =
tabel.napsa,param = T, fit = T)

Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0.3739859 1 0.5408396

119
Pearson 0.4010998 1 0.5265218

>fitAM.CM<-update(fitAC.AM.CM,.~.-alkohol: rokok) #AM,CM


Call:
loglm(formula = count ~ alkohol+rokok+film+ alkohol:film +
rokok:film, data = tabel.napsa, param = T, fit = T)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 187.7543 2 0
Pearson 177.6149 2 0

>fitAC.M<-update(fitAC.AM.CM,.~.-alkohol:film-rokok:film)#
AC, M
Call:
loglm(formula = count ~ alkohol+rokok+film+alkohol:rokok,
data = tabel.napsa, param = T, fit = T)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 843.8266 3 0
Pearson 704.9071 3 0

>fitA.C.M<-update(fitAC.M, .~. - alcohol:cigarette)#A, C, M


Call:
loglm(formula=count~alcohol+cigarette+film,data=table.napsa,
param = T, fit = T)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 1286.020 4 0
Pearson 1411.386 4 0

>data.frame(tabel.napsa [,-4], ACM=c(aperm(fitted(fitACM))),


AC.AM.CM=c(aperm(fitted(fitAC.AM.CM))),
AM.CM=c(aperm(fitted(fitAM.CM))),
AC.M=c(aperm(fitted(fitAC.M))),
A.C.M=c(aperm(fitted(fitA.C.M))))
film rokok alkohol ACM AC.AM.CM AM.CM AC.M
A.C.M
1 Ya Ya Ya 911 910.383081 909.2395833 611.17750
611.17750
2 Tidak Ya Ya 538 538.616118 438.8404255 837.82250
837.82250

120
3 Ya Tidak Ya 44 44.616840 45.7604167 210.89631
210.89631
4 Tidak Tidak Ya 456 455.385598 555.1595745 289.10369
289.10369
5 Ya Ya Tidak 3 3.616919 4.7604167 19.40246
19.40246
6 Tidak Ya Tidak 43 42.383882 142.1595745 26.59754
26.59754
7 Ya Tidak Tidak 2 1.383160 0.2395833 118.52373
118.52373
8 Tidak Tidak Tidak 279 279.614402 179.8404255 162.47627
162.47627

>fit.array<-fitted(fitAC.AM.CM)
> fit.array
, , film = Ya
rokok
alkohol Ya Tidak
Ya 910.383081 44.616840
Tidak 3.616919 1.383160
, , film = Tidak
rokok
alkohol Ya Tidak
Ya 538.61612 455.3856
Tidak 42.38388 279.6144

> odds.ratio<-function(x) x[1,1]*x[2,2]/(x[2,1]*x[1,2])


> apply(fit.array,1,odds.ratio)
Ya Tidak
17.25144 17.25144

>apply(fit.array,2, odds.ratio) # AM
Ya Tidak
19.80646 19.80646

>apply(fit.array,3, odds.ratio) # AC
Ya Tidak
7.80295 7.80295

>sum.array<-function(array, perm=c(3,2,1)){
res<-aperm(array,perm)

121
colSums(res)}
>junk<-array(c(matrix(1:4,2,2)), dim=c(2,2,2))
, , 1
[,1] [,2]
[1,] 1 3
[2,] 2 4
, , 2
[,1] [,2]
[1,] 1 3
[2,] 2 4
>sum.array(junk)
[,1] [,2]
[1,] 2 4
[2,] 6 8

>odds.ratio(sum.array(fit.array))
[1] 17.70244
>odds.ratio(sum.array(fit.array, perm=c(1,2,3)))
[1] 25.13620
>odds.ratio(sum.array(fit.array, perm=c(2,1,3)))
[1] 61.87182
>loglin(fitted(fitACM),margin=list(c(1,2),c(2,3), c(1,3)),
param=T,fit=T)
>options(contrasts=c("contr.treatment","contr.poly"))
>fit.glm<-glm(count~.^2, data= tabel.napsa, family=poisson)

Coefficients:
(Intercept) film rokok alkohol film:rokok
5.63342 -5.309042 -1.886669 0.487719 2.847889

film:alkohol rokok:alcohol
2.986014 2.054534

Degrees of Freedom: 8 Total; 1 Residual


Residual Deviance: 0.3739859

Residual devians adalah statistik rasio likelihood sedangkan


statistik Pearson chi-kuadrat dapat dihitung sebagai berikut :
>sum(resid(fit, type="pearson")^2)
[1] 0.4011004

122
Statistik uji rasio Likelihood dapat diperoleh menggunakan fungsi
summary untuk loglm dan glm. Sedangkan fungsi print untuk loglin.
>summary(fitAC.AM.CM)
Formula:
count ~ alkohol + rokok + film + alkohol: rokok +
alkohol:film + rokok:film
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0.3742223 1 0.5407117
Pearson 0.4011002 1 0.5265216
Membandingkan model menggunakan fungsi anova.
>anova(fitAC.M, fitAC.AM.CM, fitAM.CM, fitA.C.M)
LR tests for hierarchical log-linear models
Model 1:
count ~ rokok + alkohol + film
Model 2:
count ~ rokok + alkohol + film
Model 3:
count ~ rokok + alkohol + film
Model 4:
count ~ rokok + alkohol + film
Deviance df Delta(Dev) Delta(df) P(>
Delta(Dev)
Model 1 843.8266437 3
Model 2 843.8266437 3 0.0000000 0 0.00000
Model 3 187.7543029 2 656.0723408 1 0.00000
Model 4 0.3739859 1 187.3803170 1 0.00000
Saturated 0.0000000 0 0.3739859 1 0.54084
>fit.glm2 <- update(fit.glm, contrasts = list(alcohol =
as.matrix(c(1, 0)), film = as.matrix(c(1, 0)), cigarette =
as.matrix(c(1, 0))))
>summary(fit.glm2, cor = F)
Coefficients:
Value Std. Error t value
(Intercept) 5.633420 0.05970077 94.360930
film -5.309042 0.47506865 -11.175316
rokok -1.886669 0.16269584 -11.596294
alkohol 0.487719 0.07576708 6.437083
film: rokok 2.847889 0.16383796 17.382353
film:alkohol2.986014 0.46454749 6.427791
rokok:alkohol 2.054534 0.17406289 11.803401

123
(Dispersion Parameter for Poisson family taken to be 1)
Null Deviance: 2851.461 on 7 degrees of freedom
Residual Deviance: 0.3739859 on 1 degrees of freedom
Number of Fisher Scoring Iterations: 3

Untuk loglm, estimasi parameter menggunakan fungsi model.matrix


>options(contrasts=c("contr.treatment","contr.poly"))
>X<-model.matrix(count~(alcohol+rokok+film)^2,data=
tabel.napsa, contrasts=list(alkohol=as.matrix(c(1,0)),
film=as.matrix(c(1,0)), rokok =as.matrix(c(1,0))))
>sqrt(diag(solve(t(X)%*%diag(c(fitAC.AM.CM$fitted))%*%X)))
(Intercept) alkohol1 rokok1
0.05970110 0.47519394 0.16269591
film1 alkohol1: rokok1 alkohol1:film1 rokok1:film1
0.07576733 0.16383935 0.46467452
0.17406330
>table.napsa<-
data.frame(expand.grid(film=factor(c("ya","tidak"),
levels=c(“tidak”, “ya”)),
rokok=factor(c("ya","tidak"),levels= c("ya","tidak")),
alcohol=factor(c("ya","tidak"),levels=
c("ya","tidak"))), count=c(911,538,44,456,3,43,2,279))

Program berikut berdasar data kecelakaan


>table.kecelakaan<-data.frame(expand.grid(belt=
c("Ya","Tidak"), location=c("Urban","Rural"),
gender=c("Wanita","Laki"), injury= c("ya","tidak")),
count=c(7287,11587,3246,6134,10381,10969,6123,
6693,996, 759, 973, 757, 812, 380, 1084, 513))
>library(MASS)
>fitG.I.L.S<-loglm(count~., data= table.kecelakaan, fit=T,
param=T)
>fitGI.GL.GS.IL.IS.LS<-update(fitG.I.L.S, .~.^2, data=
table.kecelakaan, fit=T, param=T)

124
>fitGIL.GIS.GLS.ILS<-update(fitG.I.L.S, .~.^3, data=
table.kecelakaan, fit=T, param=T)
>anova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS,
fitGIL.GIS.GLS.ILS)
LR tests for hierarchical log-linear models

Model 1:
count ~ belt + location + gender + injury
Model 2:
count ~ belt + location + gender + injury + belt:location
+ belt:gender + belt:injury + location:gender +
location:injury + gender:injury
Model 3:
count ~ belt + location + gender + injury + belt:location
+ belt:gender + belt:injury + location:gender +
location:injury + gender:injury +
belt:location:gender + belt:location:injury +
belt:gender:injury + location:gender:injury
Deviance df Delta(Dev) Delta(df) P(>
Delta(Dev)
Model 1 2792.76245 11
Model 2 23.35137 5 2769.41113 6 0.00000
Model 3 1.32489 1 22.02648 4 0.00020
Saturated 0.00000 0 1.32489 1 0.24972
>fitGI.IL.IS.GLS <- update(fitGI.GL.GS.IL.IS.LS,
.~.gender:location:belt)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 7.462791 4 0.1133613
Pearson 7.487374 4 0.1122673
>fitted(fitGI.IL.IS.GLS)
>fit.array<-fitted(fitGI.IL.IS.GLS)
>odds.ratio<-function(x) x[1,1]*x[2,2]/(x[2,1]*x[1,2])
>apply(fit.array,c(1,4),odds.ratio))
injury
belt Tidak Ya
Tidak 1.326766 1.326766
Ya 1.166682 1.166682
>apply(fit.array,c(2,4),odds.ratio)
injury
location Tidak Ya

125
Urban 0.6614758 0.6614758
Rural 0.5816641 0.5816641
>apply(fit.array,c(3,4),odds.ratio)
injury
gender Tidak Ya
Wanita 1.170603 1.170603
Laki 1.029362 1.029362
>apply(fit.array,c(1,2),odds.ratio)
Urban Rural
Tidak 0.5799410 0.5799411
Ya 0.5799411 0.5799412
>apply(fit.array,c(1,3),odds.ratio)
Wanita Laki
Tidak 2.134127 2.134127
Ya 2.134127 2.134127
>apply(fit.array,c(2,3),odds.ratio)
Wanita Laki
Urban 0.4417123 0.4417123
Rural 0.4417122 0.4417123

Untuk menghitung dissimilarity matrix menggunakan perintah


>Fitted.values <- c(fit.array)
>sum(abs(table.kecelakaan $count - Fitted.values))/(2*
sum(table.kecelakaan $count))
[1] 0.002507361

3.7. Soal Latihan


1. Hasil survei tentang tingkat kepuasan kondisi tempat tinggal
(tower block, apartemen dan rumah). Tingkat kepuasan diukur
berdasarkan derajat kontak mereka dengan penghuni lainnya.
Data dikelompokkan berdasarkan tipe rumah seperti yang
dicantumkan pada Tabel 3.9.

126
Tabel 3.9. Hasil Surver kepuasan tempat tinggal
Derajad Tingkat Kepuasan
Kontak Rendah Sedang Tinggi
Rendah Tinggi Rendah Rendah Rendah Tinggi
Tower 62 30 50 48 101 101
Block
Apartemen 135 140 75 115 112 198
Rumah 62 132 47 107 60 105

Tingkat kepuasan terdiri atas tiga level, yaitu rendah, sedang,


dan tinggi; derajat kontak terdiri atas dua level yaitu rendah
dan tinggi; sedangkan tipe rumah terdiri atas tiga kategori
yaitu tower block, apartment. dan rumah. Lakukan analisis
untuk mengetahui apakan ketiga variabel yaitu derajad kontak,
jenis tempat tinggal dan tingkat kepuasan saling berhubungan.
2. Penelitian dilakukan terhadap pelajar SLTA. Survei berkaitan
dengan strata sosial, pendidikan orang tua dan rencana studi
lanjut.
Tabel 3.10. Survey Rencana studi lanjut pelajar SLTA
Strata sosial Pendidikan Rencana studi lanjut
orang tua Tidak Ya
Pra Sejahtera Rendah 749 35
Tinggi 233 133
Sejahtera 1 Rendah 627 38
Tinggi 330 303
Sejahtera 2 Rendah 420 37
Tinggi 374 467
Berdasarkan data tersebut, lakukan analisis bagaimana pola
hubungan ketiga variabel.

127
128
BAB IV
REGRESI LOGISTIK

Pada bab ini akan dibahas pemodelan statistik untuk variabel


respon berupa data biner, yaitu respons untuk masing-masing
subjek dapat dinyatakan sebagai sukses€ dan gagal€. Model
untuk data biner ini lebih dikenal dengan nama regresi logistik.

4.1. Distribusi Binomial dan Regresi Logistik


Misalkan variabel yi adalah variabel respon berupa data biner
(bernilai nol atau satu)
1 jika " sukses" pada subjek ke - i
yi  
0 jika " gagal" pada subjek ke - i

dengan yi merupakan realisasi dari variabel random Yi. Probabilitas


Yi dapat dinyatakan sebagai
P(Yi=1) = i dan P(Yi=1) = (1-i)

Distribusi Yi merupakan distribusi Bernoulli dengan parameter i


dan dapat dituliskan dalam bentuk
P(Yi  yi )   iyi (1   i )1 yi

untuk yi = 0, 1. Nilai harapan dan variansi Yi masing-masing adalah


E(Yi) = i = i dan Var(Yi) = i(1-i)

Nampak jelas bahwa mean dan variansinya tergantung pada i.


Dalam analisis regresi, parameter i nilai dipengaruhi oleh
variabel X yaitu
i = i(Xi).

129
Variabel Xi disebut variabel independen (prediktor) pada
subjek ke-i. Oleh karena mean dan variansi tergantung pada nilai i
maka model linear tidak dapat digunakan. Model linear
mengasumsikan bahwa prediktor mempengaruhi mean pada
variansi tetap (sama). Kondisi ini tidak dipenuhi pada respon data
biner.
Misalkan variabel X merupakan faktor yang dapat
diklasifikasikan ke dalam k grup, i=1,....,k. Akan dianalisis
pengaruh faktor X terhadap nilai i. Individu/subjek yang terletak
dalam satu grup mempunyai nilai X yang sama. ni menyatakan
banyaknya observasi dalam grup i dan yi menyatakan banyaknya
sukses€ dalam grup i, sehingga yi=0,1,...,ni. Jika ni observasi dalam
masing-masing grup adalah independen dan mempunyai
probabilitas }sukses€ i, maka Yi berdistribusi binomial.
 ni 
P(Yi  yi )    iyi (1   i ) ni  yi
 yi 
Mean dan variansi Yi adalah
E(Yi) = i = nii dan Var(Yi) = nii(1-i)

Distribusi binomial merupakan generalisasi dari distribusi


Bernoulli. Jika ni= 1 maka distribusi binomial akan menjadi
distribusi Bernoulli.

4.2. Model Regresi Logistik dengan Variabel Independen


Tunggal
Berdasarkan data bivariat (X, Y) dimana X variabel prediktor
dan Y variabel respon biner, π x menyatakan probabilitas sukses€
pada nilai x sehingga π x merupakan parameter dalam distribusi

130
binomial. dengan demikian kita akan berbicara tentang peluang
Y=1 yang tergantung pada variabel tak bebas X.
Regresi logistik dapat didefinisikan sebagai sebuah fungsi
exp(  0  1 x)
 ( x) 
1  exp(  0  1 x)

Logit dari probabilitas ini merupakan fungsi linear,


  ( x) 
log it[ ( x)]  log   0  1 x
 1   ( x) 
Transformasi logit merupakan logaritma natural dari nilai
odds. Dari persamaan ini, regresi logistik mengindikasikan bahwa
a. untuk 1>0, kenaikan satu satuan x pengaruhnya terhadap
kenaikan nilai logit. Jika x maka π(x)1 dan Jika x-
maka π(x)0
b. untuk 1<0, kenaikan satu satuan x pengaruhnya terhadap
penurunan nilai logit. Jika x maka π(x)0 dan Jika x-
maka π(x)1
 ( x)
c. terdapat hubungan linear antara log dan variabel X.
1   ( x)
Jika untuk setiap nilai X terdapat cukup banyak observasi
(perulangan pengukuran), maka dapat dibuat diagram pencar
 ( x)
antara nilai log terhadap variabel X untuk melihat pola
1   ( x)
hubunganya. Jika X merupakan variabel indikator satu-nol
maka hubungan linear dengan sendirinya berlaku
 ( x)
x = 0 maka log   0 dan x = 1, maka
1   ( x)

131
 ( x)
log   0  1
1   ( x)

Jika x mendekati nol maka π(x)1/2. Kurva π(x) untuk > 0 dapat
digambarkan sebagai berikut

Gambar 4.1. Grafik  terhadap X

Pada regresi logistik dengan parameter 1, gradien (slope) garis


singgung kurva sama dengan
1π(x) − π(x)].

Misalnya pada π(x) = 0.50 mempunyai slope


1 (0.50)(0.50) = 0.25

Sebaliknya pada π x = 0.90 atau π x = 0.10, mempunyai slope 0.09


1 . Slopenya mendekati nol ketika π x mendekati satu atau nol.
π x = 0.50 terjadi pada x = − 0/ 1 . Nilai x ini biasanya disebut
median effective level (dinotasikan dengan EL50) yang menyatakan
probabilitas sukses sama dengan probabilitas gagal.

132
4.3. Model Regresi Logistik dengan Variabel Independen Banyak
Regresi Logistik adalah regresi yang menggunakan dua nilai
yang berbeda untuk menyatakan variabel responnya (Y), biasanya
digunakan nilai 0 (gagal) dan 1 (sukses). Fungsi distribusi yang
digunakan adalah distribusi logistik dengan notasi (X) untuk
menyatakan mean bersyarat dari Y jika diberikan vektor kovariate
X = (x1,x2, xp)T. Model regresi logistiknya adalah
exp(X Tβ)
(X) = dengan XT= 0+ x11 + . + xpp
1  exp(X Tβ)

 = (0,1, ., p)T adalah vektor parameter. Didefinisikan suatu


transformasi logit (X) yaitu :
π(X)
g(X) = log = XT
1  π(X)

sehingga g(X) linear dalam parameter .

4.4. Maximum Likelihood Estimator untuk Regresi Logistik


Misalkan suatu sampel terdiri n observasi dari pasangan (Xi,yi),
i= , ,n. Model regresi logistik
exp(X iTβ )
(Xi) =
1  exp(X iTβ )

Untuk menentukan model regresi, harga  ditaksir lebih dahulu


dengan menggunakan Metode Kemungkinan Maksimum. Fungsi
log likelihood
n
log L(  )   yi log(  i )  (ni  yi ) log(1   i )
i 1

133
Dari fungsi log likelihood ini dicari derivarif pertama dan
derivarif kedua. Penaksir parameter  merupakan nilai  yang
memaksimumkan fungsi log likelihood pada data sampel (X, Y).
Nilai maksimum dicapat dengan syarat
 log L(  )
0

dan
 2 log L(  )
H ( ) 
 T

matrik H() disebut matrik Hessian yang merupakan matrik


definet negatif.
Berdasarkan kondisi derivatif pertama, penaksir parameter 
menggunakan metode kemungkinan maksimum adalah
penyelesaian dari persamaan
n p n


i 1
[yi - (Xi)] = 0 dan 
j  0 i 1
xij [yi - (Xi)] = 0

untuk j = , .,p.

Derivatif kedua fungsi log likelihood terhadap semua


parameternya disebut matrik Hessian (H) yang mempunyai
elemen
 2 log L(  ) n

 j
2
  
i 1
xij2 i (1   i )

dan
 2 log L(  ) n
  xij xiu  i (1   i )
 j  u i 1

134
Misalkan
 1 x11 ... x1 p 
1 x ... x 2 p 
X   21

... ... ... 


 
 1 x n1 ... x np 
dan matrik V adalah
ˆ1 (1  ˆ1 ) 0 ... 0 
 0 ˆ 2 (1  ˆ 2 ) ... 0 
V  
 ... ... ... 
 
 0 0 ... ˆ n (1  ˆ n )
ˆ i   i (ˆ )

I (ˆ )  X T VX   H (ˆ )

I ( ˆ ) disebut matrik informasi atau biasa disebut informasi Fisher


dan

 
Var ( ˆ )  I ( ˆ )
1

Var ( ˆ j ) adalah elemen diagonal ke-j (baris ke-j dan kolom ke-j)
dari Var ( ˆ ) . Nilai penaksir  dengan menggunakan metode
Newton-Rapson pada langkah ke-t adalah

(t+1) = (t) +  H ( 
(t )
1
) [y -(t)]

exp(X iTβ (t) )


dengan  i(t ) = ,i= , ,n
1  exp(X iTβ (t) )

135
4.5. Inferensi Regresi Logistik
Kita telah mempelajari bagaimana regresi logistik membantu
meggambarkan efek dari prediktor pada variabel respon biner.
Parameter dalam model logistik dapat diestimasi menggunakan
metode Maximum Likelihood Estimator (MLE). Selanjutnya
berdasarkan sifat-sifat penaksir MLE dapat digunakan untuk
melakukan inferensi parameternya.

4.5.1. Interval Konfidensi


Jika jumlah sampelnya besar maka interval konfidensi dari j

dalam model regresi logistik


logit[(x)] = 0+ x11 + . + xp p
adalah
ˆ j  z / 2 Var ( ˆ j ) untuk j=0,1,...,p

4.5.2. Uji Signifikansi


Untuk menguji hipotesis
H0: j =0
pada sampel besar dapat digunakan statistika uji
ˆ j
z
var( ˆ j )
Statistik z beridistribusi normal standar.
2
 ˆ j 
 
z 
2

 var( ˆ j ) 
 
Statistik z2 beridistribusi Chi-Kuadrat dengan df=1. Statistik z ini
disebut statistik uji Wald.

136
Meskipun statistik uji Wald ini cocok untuk sampel besar,
akan tetapi masih lebih powerfull uji likelihood-ratio. uji
likelihood-ratio lebih reliabel dan sering digunakan dalam
praktek.

4.5.3. Uji Kecocokan Model


Andaikan kita ingin menguji apakah model sesuai/cocok
dengan data dan kita ingin menguji seberapa besar kesesuaian
tersebut maka dapat digunakan ukuran devians. Statistik
devians (D) mengukur ketidaksesuaian antara nilai obeservasi
dan nilai yang diprediksi oleh model.

k   n ˆ   n  niˆi 
D  2  y i log i i   (ni  yi ) log i 
i 1   i 
y  in  y i 

atau
k 
 y   n  yi 
D  2  y i log i   (ni  yi ) log i 
i 1   niˆ i   ni  niˆ i 

Statistik D berdistribusi Chi Kuadrat.


Secara lebih umum, misalkan variabel prediktor (X) dipisahkan
menjadi dua kelompok
 1 
X= (X1, X2) dan    
 2 
Vektor  1 terdiri dari p1 parameter dan vektor 2 terdiri dari p2
parameter. Selanjutnya akan diuji hipotesis
H0 :  2 = 0 lawan H0 :  2  0

137
Hipotesis nol (H0) menyatakan bahwa variabel prediktor dalam
kelompok dua (X2) tidak mempengaruhi respon Y. Hal ini
identik dengan menguji signifikansi parameter  2.
Misalkan D( 1) menyatakan nilai devians pada model yang
memasukkan variabel X1 dan D() menyatakan nilai devians
pada model yang memasukkan variabel X = (X1,X2). Selanjutnya
selisih dua nilai devians itu, yaitu
 L( 1 ) 
2 = D( 1) – D() atau   2 Log  
2

 L(  ) 
berdistribusi Chi Kuadrat dengan df=p2 (untuk sampel besar). p2
merupakan selisih banyaknya parameter dalam D( 1) dan D().

4.5.4. Contoh Data


Table 4.1 adalah hasil penelitian mengenai sarang kepiting
horseshoe (J. Brockmann, Ethology, 102: 1–21, 1996). Setiap
kepiting betina terdapat kepitang jantan yang berada di
sekeliling sarangya. Penelitian ini mempelajari faktor-faktor
yang mempengaruhi banyaknya keping jantan yang berada
disekeliling kepiting betina. Kepiting-kepiting jantan ini disebut
dengan satellites, karena berada disekitar sarang betina. Pada
data tersebut mempunyai empat prediktor (variabel
independen) yaitu warna cangkang (empat warna), konsisi
punggung (tiga kondisi), berat cangkang, dan lebar cangkang.

138
Tabel 4.1. Data Kepiting Ladam Kuda betina
Color Spine Width Sate- Weight Color Spine Width Sate- Weight
(C) (S) (W) lite (Wt) (C) (S) (W) lite (Wt)
(Sa) (Sa)
3 3 28.3 8 3050 3 3 26.5 4 2300
4 3 22.5 0 1550 3 3 27.8 3 3250
2 1 26.0 9 2300 3 3 27.0 6 2500
4 3 24.8 0 2100 4 3 25.7 0 2100
4 3 26.0 4 2600 3 3 25.0 2 2100
3 3 23.8 0 2100 3 3 31.9 2 3325
2 1 26.5 0 2350 5 3 23.7 0 1800
4 2 24.7 0 1900 5 3 29.3 12 3225
3 1 23.7 0 1950 4 3 22.0 0 1400
4 3 25.6 0 2150 3 3 25.0 5 2400
4 3 24.3 0 2150 4 3 27.0 6 2500
3 3 25.8 0 2650 4 3 23.8 6 1800
3 3 28.2 11 3050 2 1 30.2 2 3275
5 2 21.0 0 1850 4 3 26.2 0 2225
3 1 26.0 14 2300 3 3 24.2 2 1650
2 1 27.1 8 2950 3 3 27.4 3 2900
3 3 25.2 1 2000 3 2 25.4 0 2300
3 3 29.0 1 3000 4 3 28.4 3 3200
5 3 24.7 0 2200 5 3 22.5 4 1475
3 3 27.4 5 2700 3 3 26.2 2 2025
3 2 23.2 4 1950 3 1 24.9 6 2300
2 2 25.0 3 2300 2 2 24.5 6 1950
3 1 22.5 1 1600 3 3 25.1 0 1800
4 3 26.7 2 2600 3 1 28.0 4 2900
5 3 25.8 3 2000 5 3 25.8 10 2250
5 3 26.2 0 1300 3 3 27.9 7 3050
3 3 28.7 3 3150 3 3 24.9 0 2200
3 1 26.8 5 2700 3 1 28.4 5 3100
5 3 27.5 0 2600 4 3 27.2 5 2400
3 3 24.9 0 2100 3 2 25.0 6 2250
2 1 29.3 4 3200 3 3 27.5 6 2625
2 3 25.8 0 2600 3 1 33.5 7 5200
3 2 25.7 0 2000 3 3 30.5 3 3325

139
Color Spine Width Sate- Weight Color Spine Width Sate- Weight
(C) (S) (W) lite (Wt) (C) (S) (W) lite (Wt)
(Sa) (Sa)
3 1 25.7 8 2000 4 3 29.0 3 2925
3 1 26.7 5 2700 3 1 24.3 0 2000
5 3 23.7 0 1850 3 3 25.8 0 2400
3 3 26.8 0 2650 5 3 25.0 8 2100
3 3 27.5 6 3150 3 1 31.7 4 3725
5 3 23.4 0 1900 3 3 29.5 4 3025
3 3 27.9 6 2800 4 3 24.0 10 1900
4 3 27.5 3 3100 3 3 30.0 9 3000
2 1 26.1 5 2800 3 3 27.6 4 2850
2 1 27.7 6 2500 3 3 26.2 0 2300
3 1 30.0 5 3300 3 1 23.1 0 2000
4 1 28.5 9 3250 3 1 22.9 0 1600
4 3 28.9 4 2800 5 3 24.5 0 1900
3 3 28.2 6 2600 3 3 24.7 4 1950
3 3 25.0 4 2100 3 3 28.3 0 3200
3 3 28.5 3 3000 3 3 23.9 2 1850
3 1 30.3 3 3600 4 3 23.8 0 1800
5 3 24.7 5 2100 4 2 29.8 4 3500
3 3 27.7 5 2900 3 3 26.5 4 2350
2 1 27.4 6 2700 3 3 26.0 3 2275
3 3 22.9 4 1600 3 3 28.2 8 3050
3 1 25.7 5 2000 5 3 25.7 0 2150
3 3 28.3 15 3000 3 3 26.5 7 2750
3 3 27.2 3 2700 3 3 25.8 0 2200
4 3 26.2 3 2300 4 3 24.1 0 1800
3 1 27.8 0 2750 4 3 26.2 2 2175
5 3 25.5 0 2250 4 3 26.1 3 2750
4 3 27.1 0 2550 4 3 29.0 4 3275
4 3 24.5 5 2050 2 1 28.0 0 2625
4 1 27.0 3 2450 5 3 27.0 0 2625
3 3 26.0 5 2150 3 2 24.5 0 2000
3 3 28.0 1 2800 3 1 26.8 0 2550
3 3 30.0 8 3050 5 3 26.7 0 2450
3 3 29.0 10 3200 3 1 28.7 0 3200

140
Color Spine Width Sate- Weight Color Spine Width Sate- Weight
(C) (S) (W) lite (Wt) (C) (S) (W) lite (Wt)
(Sa) (Sa)
3 3 26.2 0 2400 4 3 23.1 0 1550
3 1 26.5 0 1300 3 1 29.0 1 2800
3 3 26.2 3 2400 4 3 25.5 0 2250
4 3 25.6 7 2800 4 3 26.5 1 1967
4 3 23.0 1 1650 4 3 24.5 1 2200
4 3 23.0 0 1800 4 3 28.5 1 3000
3 3 25.4 6 2250 3 3 28.2 1 2867
4 3 24.2 0 1900 3 3 24.5 1 1600
3 2 22.9 0 1600 3 3 27.5 1 2550
4 2 26.0 3 2200 3 2 24.7 4 2550
3 3 25.4 4 2250 3 1 25.2 1 2000
4 3 25.7 0 1200 4 3 27.3 1 2900
3 3 25.1 5 2100 3 3 26.3 1 2400
4 2 24.5 0 2250 3 3 29.0 1 3100
5 3 27.5 0 2900 3 3 25.3 2 1900
4 3 23.1 0 1650 3 3 28.5 0 3050
4 1 25.9 4 2550 5 1 25.5 0 2750
3 3 25.8 0 2300 5 3 23.5 0 1900
5 3 27.0 3 2250 3 2 24.0 0 1700
3 1 29.7 5 3850

Keterangan :
C : variabel warna cangkang (1: medium light, 2: medium,3:
medium dark, 4: dark.
S : variabel kondisi punggung
W : lebar cangkang dalam cm
Wt : berat cangkang dalam kg
Sa : banyaknya satelite

Dalam contoh ini, yang kita bahas adalah lebar cangkang.


Berdasarkan lebar cangkangnya dapat dikelompokan menjadi
beberapa kategori, . , . –24.25, 24.25–25.25, 25.25–26.25,

141
26.25–27.25, 27.25–28.25, 28.25–29.25, >30.25). Tabel frekuensinya
adalah sebagai berikut

Tabel 4.2. Rata-rata banyaknya satelite


W banyaknya banyaknya rata-rata variansi
kasus satelite
<23.25 14 14 1.00 2.77
23.25-24.25 14 20 1.43 8.88
24.25-25.25 28 67 2.39 6.54
25.25-26.25 39 105 2.69 11.38
26.25-27.25 22 63 2.86 6.88
27.25-28.25 24 93 3.87 8.81
28.25-29.25 18 71 3.94 16.88
>29.25 14 72 5.14 8.29

Berdasarkan data Tabel 4.2, dapat disusun model dalam


bentuk probilititas linear
(w) = 0 + w

(w) menyatakan probabilitas bahwa kepiting betina dengan


lebar cangkang w mempunyai sebuah satelit. Menggunakan
fungsi Generalized Linear Model (GLM) pada program R dengan
asumsi distribusi normal diperoleh model regresi

ˆ (w)  1.766  0.092w


Probabilitas meningkat sebesar 0.092 setiap peningkatan 1 cm
W. Model regresi ini tidak menjamin bahwa ˆ ( w) bernilai antara
nol dan satu. Model ini hanya belaku untuk 19.2 <w< 30.065.
Misalkan pada w= 33.5

142
ˆ (w  33.5)  −1.766 + 0.092(33.5) = 1.3.
Selanjutnya, dengan menggunakan model logistik diperoleh

exp( 12.351  0.497 w)


ˆ ( w) 
1  exp( 12.351  0.497 w)

ˆ
Karena 1  0 , jika w semakin besar maka probabilitas  ( w)
ˆ
juga semakin besar. Pada lebar cangkang minimum, w=21.0

exp( 12.351  0.497(21.0))


ˆ ( w  21.0)   0.129
1  exp( 12.351  0.497(21.0))

Pada lebar cangkang maksimum, w=33.5

exp( 12.351  0.497(33.5))


ˆ ( w  33.5)   0.987
1  exp( 12.351  0.497(33.5))

Nilai median ˆ ( w) =0.5 diperoleh pada

ˆ0 12.351
w   24.8
ˆ1 0.497

143
Gambar 4.2. Grafik proporsi observasi dan proporsi harapan
terhadap variabel lebar cangkang (sumbu X).

Pada mean sampel w=26.3 cm,  ( w) =0.674, maka


ˆ
ˆ ˆ (w)(1  ˆ (w))  0.497(0.674)(0.326)  0.11
1

yang merupakan rata-rata perubahan probabilitas pada w


disekitar 26.3. Pada kepiting betina dengan lebar cangkang
disekitar 26.3, setiap peningkatan w sebesar 1 cm maka
probabilitasnya meningkat sebesar 0.11.
Selanjutnya untuk menggambarkan pengaruh w terhadap
banyaknya satelit, maka data dapat disusun menjadi tabel
frekuensi (Tabel 4.3).

144
Tabel 4.3. Prediksi banyaknya satelite berdasar variabel
lebar cangkang
W banyaknya banyaknya proporsi variansi Prediksi
kasus satelite banyaknya
satelite
<23.25 14 5 0.36 0.26 3.6
23.25-24.25 14 4 0.29 0.38 5.3
24.25-25.25 28 17 0.61 0.49 13.8
25.25-26.25 39 21 0.54 0.62 24.2
26.25-27.25 22 15 0.68 0.72 15.9
27.25-28.25 24 20 0.83 0.81 19.4
28.25-29.25 18 15 0.83 0.87 15.6
>29.25 14 14 1.00 0.93 13.1

Telah diperoleh fungsi logitnya adalah


logit[ˆ (w)]  12.35  0.497 x
sehingga estimasi nilai odds :
exp( ˆ )  exp(0.497)  1.64
1

yang berarti bahwa setiap peningkatan w cm maka nilai logitnya


meningkat 64%. Misalkan pada w=26.3 cm,
0.674
ˆ ( w) =0.674 dan odds   2.07
0.326
Pada w=27.3 = 26.3 + 1.0 maka
0.773
ˆ ( w) =0.773 dan odds   3.40
0.227

Disini w meningkat sebesar 1 cm (dari 26.3 ke 27.3) maka nilai odds


meningkat sebesar 64%,
3.40 = 2.07(1.64)

145
Telah diperoleh

ˆ1  0.497 dan SE= var( ˆ1 )  0.102 ,


maka interval konfidensi wald 95% dari 1 adalah
0.497  1.96(0.102) atau (0.298,0.697)

Interval konfidensi untuk rasio likelihood adalah (0.308,0.709).


Interval konfidensi untuk nilai odds adalah
(exp(0.308),exp(0.709)) = (1.36,2.03).

Kita dapat menyimpulkan bahwa peningkatan 1 cm w maka nilai


odds paling tidak meningkat sebesar 36% dan maksimum
meningkat sebesar 100% bahwa kepiting betina memiliki satelit.

Berdasarkan statistik Wald


ˆ1 0.0497
z   4.9 atau P-value < 0.0001
ˆ
var( 1 ) 0.102

z berdistribusi normal standart equivalen dengan z2 yang


berdistribusi Chi-Kuadrat dengan df=1. Dari nilai z mengidikasikan
bahwa variabel W mempengaruhi keberadaan satelit pada kepiting
betina. Sehingga hipotesis
H0 : 1 = 0 vs H1 : 1  0

disimpulkan bahwa H0 ditolak.

Jika didasarkan pada statistik likelihood rasio, diperoleh nilai


log likelihood dibawah H0 benar
L0 = -112.88

146
dan log likelihood untuk model penuh
L1 = -97.23

maka statistik likelihood rasio sama dengan


-2(L0 –L1) = 31.3

berdistribusi Chi-Kuadrat dengan df=1. Kesimpulan sama dengan


penggujian menggunakan statistik Wald, yaitu variabel W
mempengarui keberadaan satelit pada kepiting betina. Nilai
statistik rasio likelihood lebih power full, sebab nilainya lebih besar
dibandingkan dengan statistik Wald.

4.6. Regresi Logistik Multivariabel


Dari contoh di atas, diperoleh hasil bahwa variabel W
mempengaruhi keberadaan satelit. Berikutnya akan diuji variabel
independen yang lain, yaitu variabel warna. Variabel warna
merupakan variabel kategori yang terdiri dari empat kategori yaitu
medium light, medium, medium dark, dark. Variabel warna dapat
ditranformasi menjadi variabel indikator
Tabel 4.4. Variabel indikator untuk variabel warna
Warna (C) Variabel indikator
c1 c2 c3
medium light 1 0 0
medium 0 1 0
medium dark 0 0 1
dark 0 0 0

Model logitnya adalah


logit[P(Y = 1)] = 0 + c +
1 1 c +
2 2 c +
3 3 x,
4

147
Model ini mengasumsikan tidak ada interaksi antara variabel
warna dan variabel W. Estimasi parameternya adalah
ˆ0  12.7151 , ˆ1  1.3299 , ˆ2  1.4023 , ˆ3  1.1061 ,
ˆ4  0.4680
Pada warna dark ,
logit( ˆ ( w) ) = − .715 + 0.468w
Pada warna medium light
logit( ˆ ( w) = − .715 + 1.3299 + 0.468w
= − .385 + 0.468w
Pada warna medium
logit( ˆ ( w) = − .715 + 1.4023 + 0.468w
=− .3121 + 0.468w
Pada warna medium dark
logit( ˆ ( w) = − .715 + 1.1061 + 0.468w
=− .6089 + 0.468w

4.7. Strategi Pemilihan Model


Permasalah yang muncul dalam regresi dengan melibatkan
beberapa variabel independen adalah menseleksi variabel yang
masuk dalam model sehingga diperoleh model yang paling cocok
dengan data. Terdapat dua jenis pemodelan, yaitu konfirmasi dan
eksplanasi. Pemodelan konfirmasi dimaksudkan untuk
memcocokan teori dan data. penelitian ini lebih dimaksudkan
untuk menguji kebenaran teori terhadap data sampel. Jadi dalam
penelitian ini, model disusun sesuai dengan teori yang hedak diuji.
Pada penelitian eksplanasi biasanya peneliti tidak mengetahui pola
hubungan antara variabel independen dan variabel dependen.
Sehingga peneliti menguji beberapa model dan memilih model
yang paling baik.

148
Pada data Tabel 4.1. terdapat empat prediktor, yaitu warna (C),
kondisi punggung (S) , berat (W) dan lebar canggkang (Wt) . Semua
prediktor digunakan untuk memprediksi keberadaan satelite pada
kepiting betina, yaitu y = 1 jika terdapat paling tidak satu satellite,
dan y = 0 jika tidak ada satelite. Misalkan
 Variabel indikator empat warna : {c1, c2, c3}
 Variabel indikator tiga kondisi punggung : {s1, s2}

Model logitnya adalah


logit[P(Y = 1)] = 0 + W+
1 Wt +
2 3c1 + 4c2 + 5 c3 + s1 +
6 7 s2

Uji rasio likelihood untuk menguji semua prediktor secara simultan


H0: 1 =···= 7 = 0.
Statistik ujinya adalah
−2(L − L1) = 40.6 dengan df = 7 (P <0.0001).
Sehingga dapat disimpulkan bahwa paling tidak terdapat satu
variabel independen yang berpengaruh terhadap variabel
independen. Selanjutnya adalah menseleksi variabel yang masuk
dalam model.
Meskipun uji simultan mendapatkan kesimpulan bahwa sangat
siqnifikan, tetapi dari Tabel 4.5 (yang merupakan hasil estimasi
parameter dan nilai deviasi standarnya) menunjukan bahwa
masing-masing variabel mempunyai tingkat signifikansi yang
berbeda. Estimasi untuk variabel weight dan width hanya berbeda
tipis terhadap SE-nya yang mengidikasikan kedua variabel
cenderung tidak signifikan.

149
Tabel 4.5. Estimasi parameter Data Kepiting
Parameter Penaksir SE
Intersep -9.273 3.836
C(1) 1.609 0.936
C(2) 1.506 0.567
C(3) 1.120 0.593
S(1) -0.400 0.503
S(2) -0.496 0.629
W 0.826 0.704
Wt 0.263 0.195

Sebagaimana dalam model linear, terdapat beberapa cara


menseleksi model seperti metode stepwise dan metode backward.

4.7.1. Algoritma Stepwise


Pada prinsipnya pemilihan model terbaik dilakukan melalui
dua cara yaitu
a. Metode Forward, yaitu algoritma menambahkan variabel
secara berurutan berdasarkan kriteria tertentu dan algorima
membuang variabel dari model secara bertahap dimulai dari
model paling sederhana.
b. Metode Backward, yaitu menyusun model lengkap (semua
variabel masuk dalam model). Selanjutnya membuang satu
persatu variabel samapi diperoleh model terbaiknya.

Kriteria yang digunakan dalam eliminasi maupun


memasukkan variabel adalah berdasarkan nilai devians yang
berdistribusi Chi-Kuadrat.

150
4.7.2. Eliminasi Backward
Untuk menguji atau membandingkan dua buah model dapat
dilakukan menggunakan nilai devians. H0 adalah hipotesis yang
memuat model yang lebih sederhana (variabelnya lebih sedikit)
dibandingkan dengan hipotesis H1. Menggunakan statistik uji
rasio likelihood
−2(L − L1)

yang berdistribusi Chi-Kuadrat.


Pada prosedur eliminasi backward, dimulai dari model yang
paling lengkap.
 Model 1 : model yang memuat semua efek utama dan efek
interaksi dua variabel yang disimbulkan dengan C∗S + C∗W
+ S∗W.
 Model 2 : model yang memuat efek utama yang disimbolkan
dengan C + S + W . Model logit 2 dapat dituliskan sebagai :

logit[P(Y = 1)] = 0 + W+
1 2Wt + 3c1 + c2 +
4 5 c3 + s1 +
6 7 s2

Model 1 dan model dua dapat dipakai untuk menguji efek


interaksi dua variabel .
Selisih nilai devians sama dengan
D = D(C+S+W) - D(C∗S+C∗W+S∗W)
= 186. − .7 = 12.9
dengan derajad bebas
df = − = .

Disimpulkan bahwa H0 tidak ditolak atau tidak ada interaksi


dua faktor dengan nilai P-value = 0.30.
Langkah selanjutnya adalah mengeliminasi satu persatu efek
utama dari model. Nilai devians untuk masing-masing model

151
dapat dilihat di Tabel 3.6. Misalkan variabel S dikeluarkan dari
model (model 3c ), maka model (C+W) menghasilkan
D(C+W) = 187.5 dengan df = 169

Maka model 2 dan model 3c dapat digunakan untuk menguji


variabel S, dengan hipotesis
 H0:variabel S pengaruhnya tidak signifikan terhadap respon Y
 H1:variabel S pengaruhnya signifikan terhadap respon Y
D = D(C+W) - D(C+S+W)
= 187.5 -186.6 = 0.9
dengan derajad bebas
df = 167-166 =1

Dapat disimpulkan bahwa H0 tidak ditolak atau variabel S


pengaruhnya tidak signifikan terhadap respon Y. Dengan
dikeluarkannya variabel S dari model, ternyata nilai deviansnya
tidak berkurang banyak.
Jika variabel C dikeluarkan dari model, dari model 4b dan
model 3c maka nilai devians meningkat sebesar 7.0 dengan df = 3
(P = 0.07). Dari Tabel 3.6., kita dapat menguji pengaruh variabel
W terhadap respon Y menggunakan dua cara. Cara pertama
menggunakan selisih devians model 2 dan model 3a diperoleh
D= 208.8 -186 = 22.2 dengan df =167-166 = 1

Cara kedua adalah menggunakan selisih devians model 3c


dan model 4a
D= 212.1 -187.5 = 24.6 dengan df =169-168 = 1

Model yang diperoleh dari cara pertama adalah (C+S+W)


sedangkan dari cara ke dua diperoleh model (C+W). Dari
pengujian sebelumnya telah disimpulkan bahwa variabel S

152
pengaruhnya tidak signifikan, jadi model (C+W) lebih baik
dibandingkan dengan model (C+W+S).
Selanjutnya kita dapat menguji variabel C melalui model 3c
dan model 4b, diperoleh
D= 194.5 -187.5 = 7.0 dengan df =171-168 =3

nilai devians meningkat sebesar 7.0 dengan df = 3 (P = 0.07).


Tabel 4.6. Tabel nilai devians
Model Prediktor Devians Df AIC Model yang selisih
dibandingkan Devians
1 C*S+C*W+S* 173.7 155 209.7 -
W
2 C+S+W 186.6 166 200.6 (2)-(1) 12.9 (df=11)
3A C+S 208.8 167 220.8 (3a)-(2) 22.2 (df=1)
3B S+W 194.4 169 202.4 (3b)-(2) 7.8 (df=3)
3C C+W 187.5 168 197.5 (3c)-(2) 0.9 (df=2)
4A C 212.1 169 220.1 (4a)-(3c) 24.6 (df=1)
4B W 194.5 171 198.5 (4b)-(3c) 7.0 (df=3)
5 C=dark + W 188.0 170 194.0 (5)-(3c) 0.5 (df=2)
6 None 255.8 172 227.8 (6)-(5) 37.8 (df=2)

4.7.3. Statistik AIC


Dalam menseleksi model, kita tidak bisa menemukan sebuah
model yang correct€. ‛iasanya digunakan model yang paling
sederhana. Kriteria kebaikan model dapat menggunakan Akaike
information criterion (AIC). Statistik ini untuk mengukur
seberapa dekat nilai harapan dan nilai observasi. Model yang
paling baik adalah jarak antara nilai harapan dan observasi yang
paling kecil. Statistik AIC adalah

153
‚IC = − (log likelihood − banyaknya parameter dalam model)

Berdasarkan Tabel 3.6, untuk model C + W, yang memuat


variabel C dan variabel W, diperoleh
−2 log likelihood = 187.5.

Terdapat 5 parameter, terdiri dari satu variabel intersep, satu


koefisien W dan tiga variabel dummy C, sehingga
AIC = 187.5 + 2(5) = 197.5.

Nilai AIC pada model C + W adalah yang paling kecil,


sehingga dapat disimpulkan bahwa Berdasarkan nilai AIC,
model C+W adalah yang terbaik.

4.8. Regresi Rogistik dalam Program R


Fungsi GLM dalam program R dapat digunakan untuk
melakukan analisis regresi logistik. Respon merupakan banyaknya
sukses. Data harus disajikan ke dalam data frame.
Misalkan akan disusun model regresi logistik antara
mendengkur dan penyakit jantung.
> ngorok <- data.frame(dengkur= c(0,2,4,5), sakit =
c(24,35,21,30), n = c(1379,638,213,254) )

> ngorok
dengkur sakit n
1 0 24 1379
2 2 35 638
3 4 21 213
4 5 30 254

Model regresi logistik dengan responnya adalah variabel


sakit€ disease dan varabel independenya adalah dengkur€
> dengkur.lg <-glm(sakit/n~ dengkur, weights=n,
family=binomial(), data= dengkur)

154
> dengkur.lg
Call: glm(formula = sakit/n ~ dengkur, family =
binomial(), data=dengkur,weights = n)
Coefficients:
(Intercept) dengkur
-3.8662 0.3973
Degrees of Freedom: 3 Total (i.e. Null); 2 Residual
Null Deviance: 65.9
Residual Deviance: 2.809 AIC: 27.06

Cara lain untuk menggunakan fungsi GLM, adalah dengan


menambah kolom yang menginformasikan banyaknya sukses
(YN.1) dan banyaknya gagal (YN2). Sehingga diperoleh data
framenya menjadi :
> ngorok$YN <- cbind(ngorok$sakit,ngorok$n-
ngorok$sakit)
> ngorok
dengkur sakit n YN.1 YN.2
1 0 24 1379 24 1355
2 2 35 638 35 603
3 4 21 213 21 192
4 5 30 254 30 224
> dengkur.lg <-glm(YN~ dengkur, family=binomial(),
data= ngorok)
> dengkur.lg
Call: glm(formula = YN ~ dengkur, family =
binomial(), data = ngorok)
Coefficients:
(Intercept) dengkur
-3.8662 0.3973
Degrees of Freedom: 3 Total (i.e. Null); 2 Residual
Null Deviance: 65.9
Residual Deviance: 2.809 AIC: 27.06

Contoh berikutnya adalah berdasar data pada Tabel 3.1.


> load("D:\\kepiting.RData")
> names(crabs)
[1] "C" "S" "W" "Y" "Wt"

155
> crabs<-as.dataframe(crabs)
> crabs$psat <- crabs$Y > 0

Model regresi logistik menggunakan fungsi glm dengan


variabel independen weight.
> crabs.lg.1 <- glm(psat~Wt, family=binomial(),
data=crabs)
> summary(crabs.lg.1)
Call:
glm(formula = psat ˜ weight, family = binomial(), data
= crabs)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.1108 -1.0749 0.5426 0.9122 1.6285
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.6946338 0.8779167 -4.208 2.57e-05
***
weight 0.0018151 0.0003755 4.833 1.34e-06
***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be
1)
Null deviance: 225.76 on 172 degrees of freedom
Residual deviance: 195.74 on 171 degrees of freedom
AIC: 199.74

Untuk membandingkan model yang memuat variabel Wt


(dalam H1) dan variabel yang hanya memuat intersep (dalam H0)
kita dapat menggunakan statistik Wald diatas dengan
z = 4.833 dan P-value < 0.0001,

atau menggunakan statistik rasio likelihood.


> crabs.lg.0 <- glm(psat~1, family=binomial(),
data=crabs)
> anova(crabs.lg.0,crabs.lg.1,test="Chisq")

156
Analysis of Deviance Table
Model 1: psat ~ 1
Model 2: psat ~ Wt
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 172 225.76
2 171 195.74 1 30.021 4.273e-08 ***
---
Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05 ‘.’0.1‘ ’
1
> anova(crabs.lg.1,test="Chisq")
Analysis of Deviance Table
Model: binomial, link: logit
Response: psat
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 172 225.76
Wt 1 30.021 171 195.74 4.273e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1

4.9. Model Logistik pada Respon Multi Kategori


Model Regresi Logistik digunakan untuk menggambarkan
hubungan antara variabel independen/prediktor dengan variabel
dependen/respon yang berupa data biner/dikotomi. Variabel
responnya (Y), biasanya digunakan nilai 0 (gagal) dan 1 (sukses).
Pengembangan atas regresi logistik biner adalah regresi logistik
multinomial, yaitu variabel dependen Y bernilai diskrit (1, 2, ...J).
Jenis data untuk variabel Y dapat berbentuk data nominal maupun
ordinal.
Variabel random Yi bernilai diskrit dengan indeks , , J.
ij = P{Yi = j}

merupakan probabilitas responden ke-i memilih kategori ke-j untuk


i=1,2...n dan j=1,2,...J. Diasumsikan antar pilihan adalah saling asing

157
J
sehingga 
j 1
ij  1 untuk setiap i. Sehingga hanya dipunyai J-1

parameter. Dapat disusun distribusi multinomial


 ni  yi1
P{Yi1=yi1, .,YiJ=yiJ} =   i1 .... iJyiJ
 yi1 ,..., yiJ 

Variabel dependen Yij dipengaruhi oleh varaiabel independen Xi.

4.9.1. Model Logit


Untuk menyusun model logit, dilakukan dengan cara salah
satu kategori (biasanya kategori terakhir) dijadikan baseline,
sehingga model logitnya adalah
 ij
ij  log( )  0 j  1 j xi untuk j= , , ., J-1).
 iJ
Model ini analog dengan model regresi logistik, kecuali
bahwa distribusi probabilitas untuk respon adalah multinomial,
bukan binomial dan kita mempunyai persamaan sebanyak J-1,
bukannya satu. Persamaan multinomial logit sebanyak J - 1
persamaan untuk setiap kategori 1, 2, . . . J -1 dengan baseline
kategori J, sedangkan dalam persamaan regresi logistik (sebuah
persamaan) adalah kontras antara sukses dan gagal. Jika J=2,
model multinomial logit akan menjadi model regresi logistik.
Kita hanya membutuhkan J-1 persamaan untuk men-
deskripsikan J respon kategori. Misal terdapat J = 3 kategori,
maka dipunyai kontras antara kategori 1 vs 3 dan kategori 2 vs 3.
Kontras antara 1 vs 3 dapat dengan mudah diperoleh, karena
log(i1/i2) = log(i1/i3) - log(i2/i3).

158
Tedapat (J-1) persamaan logit dan masing-masing logit
memuat parameter (0j+1j). Untuk j=J

 iJ
iJ  log( )  0 sehingga 0J=1J=J
 iJ

Dari persamaan logit tersebut, diperoleh


 ij
 exp(ij )
 iJ
 ij   iJ exp(ij )
J
Karena 
j 1
ij  1 dan iJ = 0 maka

J J

 ij   iJ exp(ij )  1
j 1 j 1
J J


j 1
ij   iJ  exp(ij )  1
j 1

1 exp(ij )
 iJ  J
dan  ij  J

 exp(
k 1
ik )  exp(
k 1
ik )

Sehingga dapat disimpulkan bahwa model probabilitas


responden/individu ke i memilih alternatif j adalah

exp(  0 j  1 j xi )
 ij  J

 exp( 
k 1
0j  1 j xi )

untuk suatu i dan suatu j dimana i= , , n dan j= , ,J

159
Untuk menentukan model regresi, harga  ditaksir lebih
dahulu dengan menggunakan Metode Kemungkinan
Maksimum (Nugraha dkk, 2009).

4.9.2. Fungsi Likelihood dan Estimasi Parameter


Fungsi likelihood dari sampel random berukuran n (n
responden) adalah
n
L(  )    iy1i1 .... iJyiJ
i 1

dengan yij = 1 jika responden i memilih j dan yij=0 jika


responden i memilih selain j. Log dari fungsi likelihood tersebut
adalah
n J
LL() =  y
i 1 j 1
ij ln( ij )

 0 
misalkan X ij  (1, xij ) dan     maka
 1 
n J   J 
LL() =  y  X ij ij   ln   exp( X ij  )  

i 1 j 1   j 1 
n J n   J J 
=  y ij X ij     ln   exp( X ij  )  yij 
 
i 1 j 1 i 1   j 1  j 1 
n J n  J 
=  y X
ij ij    ln   exp( X ij  ) 
 
i 1 j 1 i 1  j 1 

160
Derivatif LL() terhadap  adalah
 
 
LL(  ) = n J n

J exp( X  ) 
  X ij yij    X ij  J ij

  exp( X ij  ) 
i 1 j 1 i 1 j 1

 j 1 

 X y 
n J
= T
ij ij   ij  0
i 1 j 1

Jadi , penaksir parameter  = (1, ,p)t menggunakan metode


kemungkinan maksimum adalah penyelesaian dari persamaan
kemungkinan :

 X y 
n n J


i 1
[yi j - ij ] = 0 dan
i 1 j 1
T
ij ij   ij  0

Penyelesaian dari persamaan penaksir ini dapat digunakan


iterasi dengan menggunakan metode newton raphson dan
metode scoring.
Uji hipotesis dan interval konvidensi untuk parameter (slope)
adalah (Uji untuk masing-masing slope
H0 : j = j(0) didasarkan pada statistik Wald :
ˆ j   0j
Z0 
SE ( ˆ j )
a. Uji untuk beberapa slope
H0 : j =...= q =0 didasarkan pada statistik
X2 = G2model 1 – G2model 2
yang berdistribusi chi kuadrat dengan derajad bebasnya sama
dengan selisih banyaknya parameter dari kedua model. G2
adalah devians yang mempunyai nilai -2log L

161
Untuk menguji kecocokan model dapat digunakan statistik
Pseudo R2 yang identik dengan nilai R2 (koefisien deterministik).
G12
pseudo R2 = 1 
G02
Jika model secara sempurna memprediksi nilai Y (Pi = 1 maka
yi = 1 dan jika Pi=0 maka yi=0) maka log L = 0 (atau nilai
deviansnya nol). Sehingga nilai maksimum dari pseudo R2
adalah satu. Statistik pseudo R2 secara luas digunakan untuk
menjelaskan kecocokan model dalam DCM (Discrete Choice
Models) secara intuitif. Pemasalahan dalam penggunaan pseudo
R2 ini adalah tidak adanya kaidah untuk menyatakan pada nilai
berapa sedemikian hingga model dikatakan baik. Permasalahan
kedua adalah peningkatan nilai pseudo R2 pada penambahan
variabel independen tidak dapat menjelaskan seberapa penting
variabel tersebut.

4.9.3. Contoh Data I


Data penelitian mengenai makanan aligator yang merupakan
hasil pengamatan terhadap 59 aligator liar di danau Florida.
Yang diamati adalah jenis makanan utama (dalam volume) yang
ditemukan dalam perutnya dan Ukuran aligator (panjang).
Terdapat tiga jenis makanan utama, yaitu Ikan (Fish),
Invertebrata, dan Lainnya (Other). Yang termasuk invertebrata
adalah apple snails, aquatic insects, dan crayfish. Yang termasuk
kategori lainnya€ meliputi amphibian, mammal, plant material,
stones reptiles (primarily turtles). Panjang aligator antara 1.24 s/d
3.89 meter. Tabel berikut adalah hasil pengamatannya.

162
Tabel 4.7. Data pengamatan panjang Aligator (dalam meter) dan
makanan utama
No 1 2 3 4 5 6 7 8 9 10
Panjang 1.24 1.45 1.63 1.78 1.98 2.36 2.79 3.68 1.30 1.45
Makanan I I I I I F F O I O
No 11 12 13 14 15 16 17 18 19 20
Panjang 1.65 1.78 2.03 2.39 2.84 3.71 1.30 1.47 1.65 1.78
Makanan O I F F F F I I I O
No 21 22 23 24 25 26 27 28 29 30
Panjang 2.03 2.41 3.25 3.89 1.32 1.47 1.65 1.80 2.16 2.44
Makanan F F O F F F F I F F
No 31 32 33 34 35 36 37 38 39 40
Panjang 3.28 1.32 1.50 1.65 1.80 2.26 2.46 3.33 1.40 1.52
Makanan O F I F F F F F F I
No 41 42 43 44 45 46 47 48 49 50
Panjang 1.68 1.85 2.31 2.56 3.56 1.42 1.55 1.70 1.88 2.31
Makanan F F F O F I I I I F
No 51 52 53 54 55 56 57 58 59 60
Panjang 2.67 3.58 1.42 1.0 1.73 1.93 2.36 2.72 3.66
Makanan F F F I O I F I F
Sumber : Agresti (2007).

Keterangan:
 F : Ikan (Fish)
 I: Invertebrata
 O: lainnya (other)

Misalkan Y = pilihan makanan utama dan x = panjang


alligator. Pilihan lainnya€ sebagai baseline category. MLE nya
adalah (1: ikan....., 2: inver......, 3: other))

163
 ˆ 
log 1   1.618  0.110 x
 ˆ 3 
 ˆ 
log 2   5.697  2.465 x
 ˆ 3 
berdasarkan kedua logit tersebut dapat digunakan untuk
mengestimasi log odds dari ikan dan invertebrata, yaitu

 ˆ 
log 1   (1.618  5.697)  [0.110  (2.645)]x = -4.08 + 2.355x
 ˆ 2 

Aligator yang lebih besar nampaknya lebih menyukai ikan


daripada invertebrata. Masing-masing logit dapat
diinterpresikan sebagi regresi logistik biner bersyarat. Sebagai
contoh, diberikan bahwa jenis makanan utama adalah ikan atau
invertebrata, estimasi probabilitas bahwa aligator memilih ikan
meningkat dengan bertambah panjang x seperti kurva S. Untuk
aligator dengan panjang x + 1 meter, estimasi nilai odds bahwa
makanan utama adalah ikan lebih disukai daripada invertebrata
adalah exp(2.355) = 10.5 kali X meter.
Hipotesis bahwa makanan utama adalah independen
terhadap ukuran x adalah
H0: 1 = 2 =0
Statistik uji likelihood-ratio sama dengan 16.8 dengan df =2
dan nilai P-value= 0.0002 . Sehingga dapat disimpulkan bahwa X
mempengaruhi jenis makanan utama aligator.
Model logit multikategori disajikan dalam probabilitas
respon. Dari contoh pada data Tabel 3.7, karena pilihan 3

164
lainnya€ sebagai baseline maka ˆ03  ˆ13  0 dan estimasi
probabilitasnya adalah
e1.620.11x
ˆ1 
1  e1.620.11x  e 5.702.47 x
e 5.702.47 x
ˆ 2 
1  e1.620.11x  e 5.702.47 x
1
ˆ 3  1.620.11x
1 e  e 5.702.47x

Tabel 4.8. Estimasi parameter model logit Data Aligator


Parameter Logit
(Ikan/lainya) (Invertebrata/lainnya)
Intersep (0) 1.618 5.697
X (1) -0.110(0.517) -2.465(0.900)
Dari model tersebut, dapat dipakai untuk memprrediksi
probabilitas masing-masing pilihan pada nilai x tertentu.
Misalnya pada x = 3.89 meter, probabilitas aligator memilih
makanan lainnya adalah

ˆ 3  1 1  e1.620.11(3.89)  e 5.702.47(3.89)   0.23

demikian juga kita dapat menghitung probilitas untuk pilihan


1 dan plihan 2,

ˆ1  0.76 dan ˆ 2  0.005


4.9.4. Contoh Data II
Ketika variabel independen merupakan data kategorik, maka
data dapat disajikan kedalam tabel kontigensi. Sebagaimana

165
telah dijelaskan pada Bab II mengenai tabel kontigensi, kita
dapat melakukan pengujian goodness of fit menggunakan
statistik X2 atau G2. Sebagai contoh, data survei mengenai
kepercayan akan adanya kehidupan setelah mati. Variabel
dependen
 Y = percaya, dengan kategori (Ya, ragu-ragu, tidak),
dan variabel independenya adalah
o x1 = gender, x1 = 1 untuk perempuan dan 0 untuk laki-laki
o x2 = ras/suku, x2 = 1 untuk ras A dan 0 untuk ras non A.

Pilihan tidak€ sebagai baseline category untuk Y , sehingga


modelnya adalah
 j 
log    j   Gj x1   jR x 2 , untuk j=1,2.
3 
dimana G menyatakan indeks untuk parameter gender dan R
menyatakan indeks untuk parameter ras.
Tabel 4.9. Data Kepercayaan menurut Gender dan Ras
Ras Gender Percaya
ya ragu Tidak
A wanita 371 49 74
laki 250 45 71
Non A wanita 64 9 15
laki 25 5 13

Dari tabel kontigensi tersebut diperoleh nilai goodness-of-fit


X2 = 0.9 and G2 = 0.8

yang dapat disimpulkan bahwa Ras dan Gender saling


independen.

166
Selanjutnya jika digunakan model logit, akan diperoleh dua
model logit untuk masing-masing kombinasi gender-ras.
Terdapat empat kombinasi gender-ras, sehingga diperoleh
delapan model logit. Model tersebut, untuk j=1,2 memuat enam
parameter. sehingga
df = − = .
Akan diuji bahwa terdapat efek interaksi antara gender dan ras
terhadapap Y. Estimasi masing-masing parameter disajikan pada
tabel 3.10.
Tabel 4.10. Estimasi Parameter Data Kepercayaan
Parameter Logit
(Ya/Tidak) (Ragu/Tidak)
Intersep 0.883 (0.243) -0.758 (0.361)
Gender (X1 =1) 0.419 (0.171) 0.105 (0.246)
Ras (X2 =1) 0.342 (0.237) 0.271 (0.354)

Masing-masing parameter merepresentasikan log(OR). Misalkan


ˆ G  0.419
1

merupakan log(OR) gender antara respons kategori 1 (ya) dan


kategori 2 (tidak). Oleh karena itu pada wanita, estimasi nilai
odds antara respons ya€ terhadap respon tidak€ adalah
exp(0.419) = 1.5 kali pada laki-laki. Pada ras A, estimasi odds
untuk respons ya€ dibanding tidak€ adalah exp(0.342) = 1.4
kali ras Non A€.
Uji hipotesis untuk efek gender adalah
H0: 1   2  0
G G

Menggunakan uji rasio likelihood diperoleh


G2 = 0.8 (df = 2) dan G2 = 8.0 (df = 4)

167
Selisih devians
D = 8. − .8 = 7.2 dengan df = − = .

Diperoleh P-value= 0.03 yang menunjukan bahwa gender


berpengaruh terhadap Y.
Sedangan pada efek ras diperoleh
G2 = 2.8 (df = 4), dan G2= 2.0 dengan df = 2.

selisih devians
D= 2.8 -2.0 =0.8 dengan df=4-2=2

yang berarti bahwa ras tidak mempengaruhi Y.


Tabel 4.11. menampilkan estimasi probabilitas untuk tiga
respon kategori. Sebagai gambaran untuk wanita-putih (x1 = x2 =
, estimasi probabilitas memilih alternatif Y= ya€ adalah

= 0.76

Tabel 4.11. Estimasi Probabilitas Data Kepercayaan


Ras Gender Percaya
ya ragu tidak
A wanita 0.76 0.10 0.15
laki 0.68 0.12 0.20
Non A wanita 0.71 0.10 0.19
laki 0.62 0.12 0.26

4.9.5. Contoh Data III


Table 4.12. merupakan hasil survei dari Demographic and
Health Survey conducted di El Salvador pada tahun 1985. Tabel
tersebut menunjukkan bahwa 3165 wanita yang masih menikah

168
yang diklasifikasikan ke dalam usia (dikelompokan dalam
interval 5 tahunan) dan penggunaan kontrasepsi (steril, lainya,
tidak).
Tabel 4.12. Data penggunaan Kontrasepsi
kontrasepsi
usia Steril lainnya tidak
15-19 3 61 232
20-24 80 137 400
25-29 216 131 301
30-34 268 76 203
35-39 197 50 188
40-44 150 24 164
45-49 91 10 183
Sumber : Rodriguez (2001).

Dengan menggunakan uji independensi atas dua variabel


(keduanya dianggap respon) diperoleh nilai rasio likelihood
sebesar 521.1 dengan df=12 (H0 ditolak, kedua variabel saling
dependen).
Dalam contoh ini kita akan memandang penggunaan
kontrasepsi sebagai respon dan usia sebagai prediktor.
Meskipun seharusnya dipandang sebagai distribusi bersama
untuk dua variabel, tetapi kita akan melihat distribusi bersyarat
untuk respon penggunaan kontrasepsi dengan syarat variabel
prediktor (usia). Kedua pendekatan tersebut sangat erat
hubunganya.
Dalam contoh, kita dapat melihat odds steril terhadap
tidak , dan odds lainya ~ terhadap tidak€. Untuk wanita usia

169
45–49, odds nya adalah 91.183 (atau sekitar 1.2) dan 10.183
(atau 1.18).

usia
Gambar 4.3. Grafik fungsi log odds terhadap usia

Gambar 4.3. menunjukkan log-odds empirik untuk €steril€


dan €lainnya menggunakan €tidak€ sebagai kategori referensi)
diplot terhadap nilai tengah dari grup usia. Catatan bahwa log-
odds €steril€ meningkat cepat dan mencapai maksimum pada
grup usia 30–34 dan kemudian menurun tajam. Log-odds untuk
€lainnya mencapai maksimum pada usia 25–29 adan kemudian
menurun tajam.
Dari gambar 3.5, nampak bahwa logit adalah fungsi kuadratis
dari usia. Kita akan menyusun model menjadi
ij   j   j ai   j ai2
dimana ai adalah nilai tengah pada grup usia ke-i dan j = 1, 2
(masing-masing untuk €steril€ dan €lainnya )
Dalam contoh, model logit multinomial kuadratik
menghasilkan nilai devians 20.5 dengan derajad bebas 8 atau

170
diperoleh nilai P-value sebesar 0.009, sehingga dapat
disimpulkan bahwa model signifikan.
Efek kuadratik usia, mempunyai likelihood-ratio 2 = 500.6
dengan df=4 (atau 2 = 521.1 - 20.5 = 500.6 dan df = 12 - 8 = 4),
dan berarti efek ini juga signifikan. Catatan bahwa assosiasi
antara usia dan metode kontrasepsi sebesar 96% atau
(500.6/521.1 = 0.96) yang hanya menggunakan empat parameter.
Tabel 4.13. Estimasi parameter dalam model logit kuadratik
Parameter €steril€ vs €lainnya vs
€tidak€ €tidak€
Konstan () -12.62 -4.552
Linear () 0.7097 0.2641
Kuadratik () -0.009733 -0.004758

Tabel 4.13. menunjukan estimasi parameter untuk dua


persamaan logit multinomial. Kami menggunakan nilai tersebut
untuk menghitung fitted logits untuk masing-masing usia dari
17.5 s/d 47.5, dan diplot bersama-sama dengan empirical logits
dalam gambar 3.5. Dari gambar tersebut dapat disimpulkan
bahwa model cocok, kecuali pada kelompok usia 15–19, dimana
terjadi overestimate untuk probabilitas €steril€.

4.9.6. Aplikasi menggunakan R


Diambil data dari contoh I mengenahi makanan alligator.
Terdapat empat kategori makanan aligator di danau Florida
yaitu ikan, invertebrata, reptil, burung, lainya. Semua variabel
independenya adalah kategorik, yaitu
L = danau,

171
G = gender,
S = ukuran . m, > . m .
>food.labs<-factor(c("ikan
","invert","rep","burung","other"),levels=c("ikan
","invert", "rep", "burung","other"))
>size.labs<-
factor(c("<2.3",">2.3"),levels=c(">2.3","<2.3"))
gender.labs<-factor(c("m","f"),levels=c("m","f"))
> danau.labs<-
factor(c("hancock","oklawaha","trafford","george"),level
s=c("george","hancock", "oklawaha","trafford"))
>table.food<-
expand.grid(food=food.labs,size=ukuran.labs,gender=gende
r.labs, lake= danau.labs)
>temp<-
c(7,1,0,0,5,4,0,0,1,2,16,3,2,2,3,3,0,1,2,3,2,2,0,0,1,13,
7,6,0,0,3,9,1,0,2,0,1,0,1,0,3,7,1,0,1,8,6,6,3,5,2,4,1,1,
4,0,1,0,0,0,13,10,2,2,9,0,0,1,2,3,9,1,0,1,8,1,0,0,1)
> table.food <-structure(.Data= table.food
[rep(1:nrow(table.food),temp),], row.names=1:219) #

Untuk mencari model yang sesuai denga data, digunakan fungsi


multinom dari library (nnet) dan
options(contrasts=c("contr.treatment","contr.poly"))
>fitS<-multinom(food~lake*ukuran*gender,data= table.food)
# saturated model
>fit0<-multinom(food~1,data= table.food) # null
>fit1<-multinom(food~gender,data= table.food) # G
>fit2<-multinom(food~ ukuran,data= table.food) # S
>fit3<-multinom(food~ danau,data= table.food) # L
>fit4<-multinom(food~ ukuran + danau,data= table.food)
#L+S
>fit5<-multinom(food~ ukuran + danau
+gender,table.food)#L+S+G

Nilai likelihood rasio untuk masing-masing model adalah


>deviance(fit1)-deviance(fitS)
>deviance(fit2)-deviance(fitS)
>deviance(fit3)-deviance(fitS)

172
>deviance(fit4)-deviance(fitS)
>deviance(fit5)-deviance(fitS)
>deviance(fit0)-deviance(fitS)
Untuk model tanpa memperhatikan variabel Gender :
# options(contrasts=c("contr.treatment","contr.poly"))
>fitS<-multinom(food~ danau*ukuran,data= table.food) #
saturated model
>fit0<-multinom(food~1,data= table.food) # null
>fit1<-multinom(food~ukuran,data= table.food) # S
>fit2<-multinom(food~ danau,data= table.food) # L
>fit3<-multinom(food~ukuran+ danau,data= table.food) # L +
S
>deviance(fit1)-deviance(fitS)
>deviance(fit2)-deviance(fitS)
>deviance(fit3)-deviance(fitS)
>deviance(fit0)-deviance(fitS)
[1] 66.2129
[1] 38.16723
[1] 17.07983
[1] 81.36247
>marg.counts <- tapply(table.food$food,
list(factor(table.food $ukuran, levels = c("<2.3",
">2.3")),factor(table.food $ danau, levels
=c("hancock", "oklawaha", "trafford", "george"))),
length)
>row.names.food <- rev(expand.grid(dimnames(marg.counts)))
>fitted.counts<-round(as.vector(marg.counts)*
fitted(fit3)[!duplicated(as.data.frame(
fitted(fit3))),],1)
structure(.Data = as.data.frame(fitted.counts),
row.names = apply(row.names.food,1,paste,collapse="
"))
ikan invert rep burung other
hancock >2.3 9.1 0.4 1.1 2.3 3.1
oklawaha <2.3 5.2 12.0 1.5 0.2 1.1
oklawaha >2.3 12.8 7.0 5.5 0.8 1.9
trafford <2.3 4.4 12.4 2.1 0.9 4.2
trafford >2.3 8.6 5.6 5.9 3.1 5.8
george <2.3 18.5 16.9 0.5 1.2 3.8
george >2.3 14.5 3.1 0.5 1.8 2.2

173
Estimasi parameter menggunakan fungsi summary
>library(MASS)
>summary(fit3, cor = F)
>summary(fit3, cor = F)
Coefficients:
(Intercept) ukuran lakehancock lakeoklawaha
laketrafford
invert -1.549021 1.4581457 -1.6581178 0.937237973
1.122002
rep -3.314512 -0.3512702 1.2428408 2.458913302
2.935262
burung -2.093358 -0.6306329 0.6954256 -0.652622721
1.088098
other -1.904343 0.3315514 0.8263115 0.005792737
1.516461
Std. Errors:
(Intercept) ukuran lakehancock lakeoklawaha
laketrafford
invert 0.4249185 0.3959418 0.6128465 0.4719035
0.4905122
rep 1.0530583 0.5800207 1.1854035 1.1181005
1.1163849
bird 0.6622971 0.6424863 0.7813123 1.2020025
0.8417085
lainya 0.5258313 0.4482504 0.5575446 0.7765655
0.6214372

Untuk mengestimasi probabilitas respos, menggunakan


>predict(fit3, type="probs",
newdata=data.frame(size=">2.3", lake="hancock"))
ikan invert rep burung lainya
0.57018414 0.02307664 0.07182898 0.14089666 0.19401358

Data estimasi probabilitas pada nilai kombinasi variabel


independen dan disimpan dalam expand.grid.
>predictions<-predict(fit3, type = "probs", newdata =
expand.grid(size = ukuran.labs, lake = danau.labs))
>cbind(expand.grid(size = ukuran.labs, lake = danau.labs),
predictions)

174
size lake ikan invert rep
burung lainnya
1 <2.3 hancock 0.5352844 0.09311222 0.04745855
0.070402771 0.25374210
2 >2.3 hancock 0.5701841 0.02307664 0.07182898
0.140896663 0.19401358
3 <2.3 oklawaha 0.2581899 0.60188001 0.07723295
0.008820525 0.05387662
4 >2.3 oklawaha 0.4584248 0.24864188 0.19484366
0.029424140 0.06866547
5 <2.3 trafford 0.1843017 0.51682299 0.08877041
0.035897985 0.17420697
6 >2.3 trafford 0.2957470 0.19296047 0.20240167
0.108228505 0.20066230
7 <2.3 george 0.4521217 0.41284674 0.01156715
0.029664777 0.09379957
8 >2.3 george 0.6574619 0.13968168 0.02389991
0.081046954 0.09790956
Fungsi lain yang dapat digunakan adalah vglm dalam library
(VGAM)
>library(vgam)
>fit.vglm<-vglm(food~size+lake,multinomial,
data=Table.food)
>coef(fit.vglm, matrix=T)

4.10. Model Pilihan Diskrit


Dalam bab ini kita akan menjelaskan pengembangan dari
model logit multinomial sebagai pendekatan khusus dalam
pemodelan perilaku pemilihan, dimana variabel penjelas mungkin
termasuk atribut dari masing-masing pilihan (misalkan biaya)
sebagaimana karakteristik individu yang membuat keputusan atau
pilihan (seperti penghasilan).
Setiap manusia, lembaga, perusahaan akan dihadapkan pada
pilihan-pilihan. Kita harus memilih satu dari semua alternatif yang
tersedia, mulai dari satu alternatif saja (tidak ada alternatif lain),

175
dua alternatif sampai dengan banyak alternatif. Banyak hal/faktor
yang digunakan untuk mengambil keputusan. Pertama, faktor
internal yaitu sifat sifat atau karakteristik yang melekat pada diri
pembuat keputusan. Kedua, faktor eksternal yaitu keadaan/ faktor
yang berasal dari luar/lingkungan pembuat keputusan. Kedua
faktor tersebut dapat bersifat kualitatif maupun kuantitatif.
Sementara itu keputusan/pilihan dilakukan berdasarkan atas
asas manfaat dan mudhorot (resiko) bagi pembuat keputusan.
Suatu pilihan dilakukan jika pilihan itu paling menguntungkan
dibandingkan dengan semua alternatif pilihan yang lain, atau bisa
juga karena pilihan itu paling kecil resikonya dibanding dengan
alternatif yang lain.
Disamping itu, kadang kita tertarik untuk menduga nilai
respon yang dikaitkan dengan sekumpulan kovariate dengan
menggunakan fungsi penghubung tertentu. Ketika respon
kontinyu, umumnya dipilih fungsi penghubung identitas,
sedangkan untuk respon biner dipilih fungsi penghubung logit.
Terdapat perbedaan antara analisis regresi logistik ganda dengan
analisis regresi ganda. Analisis regresi ganda digunakan pada
distribusi normal, sedangkan analisis regresi logistik digunakan
untuk data yang berdistribusi binomial.
Regresi logistik pada respon dikotomis tersebut biasa
dinamakan regresi logistik biner. Sering kali respon mempunyai
lebih dari dua alternatif jawaban misalkan tentang warna kesukaan
(merah, kuning, hijau, dsb) atau contoh yang lain tentang penilaian
(sangat baik, baik, cukup, buruk, sangat buruk). Pada data
polikotomis tersebut dapat digunakan analisis regresi multinomial.

176
Model pemilihan diskrit menggambarkan pembuat
keputusan memilih diantara alternatif yang tersedia. Pembuat
keputusan dapat berupa orang, rumah tangga, perusahaan atau
unit pembuat keputusan yang lain. Himpunan semua
pilihan/alternatif disebut Choice set. Model pemilihan diskrit
digunakan untuk menguji pilihan yang mana€, sedangkan model
regresi dipakai untuk menguji berapa banyak€. Walaupun
demikian seringkali model pemilihan diskrit juga dapat dipakai
untuk menguji berapa banyak€. Model pemilihan diskrit biasanya
diturunkan dibawah asumsi manfaat maksimum oleh pembuat
keputusan.
Seorang pembuat keputusan dinotasikan dengan i, yang
berhadapan dengan pilihan sebanyak J anternatif. Pembuat
keputusan mempunyai tingkat utiliti (keuntungan) untuk setiap
alternatif. Misalkan Uij untuk j= , ,J adalah utiliti pembuat
keputusan (responden) i jika memilih alternatif j. Nilai Uij yang
sesungguhya tidak diketahui oleh pengamat (peneliti). Tentunya
pembuat keputusan memilih alternatif yang mempunyai utiliti
terbesar, sehingga memilih alternatif k jika dan hanya jika Uik > Uij
j  k.
Peneliti tidak mengetahui nilai utiliti untuk pembuat
keputusan terhadap setiap alternatif. Peneliti hanya mengamati
atribut yang ada untuk masing-masing alternatifnya, yang
dinotasikan dengan xkj j dan atribut pembuat keputusan yang
dinotasikan dengan si. Secara fungsi dapat dinotasikan sebagai Vij=
V(xij,si) j yang biasa dinamakan representative utility. Karena nilai
utiliti yang sesungguhnya tidak diketahui peneliti maka

Vij  Uij dan Uij = Vij + ij

177
i = (i1, .,iJ) adalah variabel random yang mempunyai densitas
f(i).
Probabilitas pembuat keputusan i memilih alternatif k dapat
dinyatakan sebagai
Pik = P(Uik > Uij j k)
= P(ij - ik < Vik – Vij j k)
=  I ( ij   ik  Vik  Vij j  k ) f ( i )d i

I(.) adalah fungsi indikator, yang bernilai 1 jika pernyataan dalam


kurung benar dan bernilai 0 jika pernyataan salah. Selanjutnya
dapat dipilih atau ditentukan densitas f(ik) yang sesuai/tepat,
misalnya distribusi nilai ekstrim dan biasa disebut dengan model
logit.
Model Logit diturunkan dengan asumsi bahwa ik
berdistribusi nilai ekstrim (extreme value) yang saling independen
untuk semua i. Fungsi densitas extreme value (Gumbel) adalah
  ij
 ij
f ( ij )  e e e

dan distribusi kumulatifnya adalah


  nj
F ( nj )  e e

Variansi dari distribusi ini adalah 2/6.


Probabilitas pembuat keputusan i memilih alternatif k yang
dinyatakan sbb :
Pik = Pr(ij - ik < Vik – Vij jk)
= Pr(ij < ik + Vik – Vij jk)

178
Jika ik diketahui dan saling independen, maka
Pik|ik =  exp( exp((
j k
ik  Vik  Vij )))

Oleh karena nilai ik tidak diketahui maka Pik merupakan integral
Pik|ik atas seluruh nilai ik terbobot densitasnya, yaitu
Pik =   exp( exp((
j k
ik  Vik  Vij )))[exp( ik )] exp(  exp(  ik ))d ik

Dengan mengambil s=ik dan oleh karenaVik-Vik=0 maka Pik dapat


dinyatakan sebagai

  exp( exp((s  V  Vij )))[exp(  s)]ds



Pik = ik
s 
j

  
= exp    exp( ( s  Vik  Vij ))  exp(  s))ds

s 
 j 
  s  s
=
s exp   e j exp((Vii  Vij )) e ds
Misalkan t = exp(-s) sehingga dt = -exp(-s)ds
 
Pik =  exp   t  exp( (Vik  Vij )) (dt )
0

  
 j 
  
=  exp   t  exp( (Vik  Vij )) dt
 
0
j


 
exp   t  exp( (Vik  Vij )) 
=  j 
 t  exp( (Vik  Vij ))
j
0

= 1 = exp( Vik )
 exp( (Vik  Vij ))
j
 exp(Vij ))
j

179
Formula untuk Pik tersebut dinamakan probabilitas logit. Jika Vij
merupakan fungsi linear dari xij maka dapat dinyatakan menjadi

Pik = exp(  t xii )


J

 exp( 
j 1
t
xij )

Untuk sebarang dua alternatif k dan r, rasio probabilitas


logitnya dapat dinyatakan sebagai
Pik
 J
eVik eVir = exp(Vik – Vir)
J

 eVij e
Pir Vij

j 1 j 1

Rasio ini tidak tergantung pada alternatif lain selain i dan k. Sifat
ini dinamakan independence from irrelevant alternatives (IIA).

Selanjutnya estimasi parameter  dapat dilakukan dengan


prosedur maksimum likelihood. Misalkan N sampel dari individu
yang membuat keputusan, probabilitas individu n memilih sebuah
alternatif dapat dinyatakan sebagai
 (P )
yij
ij
j

Dengan yij = 1 jika individu i memilih j dan nol jika memilih yang
lainnya. Dengan mengasumsikan bahwa setiap keputusan antar
individu saling independen maka probabilitas masing-masing
individu dalam sampel memilih sebuah alternatif adalah
n
L(  )   ( Pij )
yij

i 1 j

Dengan  merupakan vektor parameter dalam model. Fungsi Log


likelihoodnya menjadi
n
LL(  )   yij ln( Pij )
i 1 j

180
Penaksir  adalah nilai  yang memaksimumkan fungsi LL().
n
LL(  )   yij ln( Pij )
i 1 j

 
n  exp(  t xij ) 
=
 yij ln  
  exp(  xij ) 
t
i 1 j
 j 
n n  
=  y
ij (  t
xij )   yij ln   exp(  t xij ) 
i 1 i i 1 j  j 
Derevatif LL() terhadap  adalah
LL(  ) n n


  y
i 1 j
ij xij   yij  Pij xij
i 1 j j
n  
n
=  y x     Pij xij  yij
ij ij
i 1  j
i 1 j  j
n n
=  yij xij   Pij xij
i 1 j i 1 j
n
=  ( y
i 1 j
ij  Pij ) xij  0

Jadi penaksir  dengan menggunakan prosedur maksimum


likelihood adalah penyelesaian dari persamaan
n

  ( yij  Pij ) xij  0


J

i 1 j 1

Penyelesaian persamaan penaksir tersebut dapat diselesaikan


secara iterasai dengan metode newton raphson maupun metode
scoring. Selanjutnya untuk melakukan menguji kesesuaian model
dengan data (uji Goodness of Fit) dapat digunakan indeks rasio
likelihood, yang diefinisikan sebagai
LL( ˆ )
  1
LL(0)

181
dengan LL(0) adalah nilai log likelihood untuk =0 (Nugraha, 2010).

4.11. Soal Latihan


1. Gunakan data pada soal latihan di Bab 3 soal no 3.2. Lakukan
analisis menggunakan regresi logistik untuk menyusun
model pengaruh strata sosialdan pendidikan orang tua
terhadap rencana studi lanjut
2. Gunakan data pada soal latihan di Bab 3 soal no 3.1. Lakukan
analisis menggunakan regresi logistik untuk menyusun
model pengaruh derajad kontak dan jenis tempat tinggal
terhadap tingkat kepuasan.
3. Data pengamatan terhadap kebiasaan mendengkur saat tidur
malam dan penyakit jantung. Dari Pengamatan terhadap
beberapa orang diperoleh data sebagai berikut
Tabel 4.14. Kebiasaan mendengkur dan status penyakit jantung
Kebiasaan Penyakit jantung
Mendengkur Ya Tidak
Tidak Pernah 24 1355
Kadang-kadang 35 600
Hampir setiap malam 21 190
setiap malam 30 225

Lakukan analsisi menggunakan regresi logistik. Gunakan


skor 0, 2, 4, 5 untuk mengkategorikan kebiasaan mendengkur
(X) secara berturut-turut yaitu tidak pernah, kadang-kadang,
hampir setiap malam, setiap malam. Variabel respon Y
merupakan status kepemilikan penyakit jantung berskala
biner dengan Y = 0 iika tidak dan Y = 1 jika ya.

182
BAB V
REGRESI POISSON

Pemodelan dengan variabel respon berupa bilangan cacah


biasa muncul dibidang biologi. Misalkan Ilmuwan biologi ingin
mengetahui hubungan variabel Y yaitu banyaknya kuskus dan
variabel X yaitu jumlah pohon yang mati disuatu area tertentu.
Selama variabel respon merupakan hasil perhitungan, distribusi
Poisson dapat digunakan dan oleh karenanya model linear yang
didasarkan pada teori distribusi normal tidak memberikan
deskripsi yang memadai hubungan antara dua variabel. Regresi
logistik efektif dalam situasi yang sama, di mana variabel respon
biner, tapi dalam hal ini variabel respons tidak biner. Respon dari
Poisson sering muncul dalam epidemiologi, misalnya variabel
respon berupa insiden penyakit, cedera, atau kematian dan variabel
prediktor adalah variabel numerik seperti usia atau waktu
pemaparan. Aplikasi lain dari regresi Poisson yang umum
menggunakan satu atau lebih variabel kategorik sebagai prediktor,
dan data biasanya disusun dalam tabel kontigensi. Dalam bab ini
diperkenalkan topik regresi Poisson.

5.1. Distribusi Poisson


Percobaan Poisson adalah percobaan yang menghasilkan
variabel random X yang bernilai numerik, yaitu banyaknya sukses
selama selang waktu tertentu atau dalam daerah tertentu. Selang
waktu tertentu dapat berupa sedetik, semenit, sejam, sehari,
seminggu maupun sebulan. Daerah tertentu dapat berupa satu

183
meter, satu kilometer persegi dan lain-lain. Percobaan Poisson
memiliki ciri – ciri sebagai berikut:
1) Banyaknya sukses terjadi dalam suatu selang waktu atau
daerah tertentu tidak terpengaruh oleh apa yang terjadi pada
selang waktu atau daerah lain.
2) Peluang terjadinya suatu sukses dalam selang waktu yang
amat pendek atau dalam daerah yang kecil tidak tergantung
pada banyaknya sukses yang terjadi di luar selang waktu atau
daerah lain.
3) Peluang terjadinya lebih dari satu sukses dalam selang waktu
yang pendek atau daerah yang sempit tersebut dapat
diabaikan.

Distribusi Poisson diberi nama sesuai dengan penemunya yaitu


Siemon Denis Poisson. Distribusi Poisson adalah suatu distribusi
peluang yang menyatakan kemungkinan sejumlah peristiwa yang
terjadi dalam suatu periode waktu. Distribusi Poisson dapat
digunakan untuk menyatakan peristiwa dalam unit tertentu atau
periode dari waktu, jarak, luas area, volume, dan sebagainya.
Penggunaan distribusi Poisson sebagai dasar pada regresi
Poisson. Distribusi Poisson akan membuat model peluang dari
kejadian y menurut proses Poisson, adalah:
e  y
f  y;    , untuk y = 0, 1, 2, ...
y!
Variansi dan rata–rata dari distribusi Poisson adalah . Hal
yang perlu diperhatikan bahwa parameter  ini sangat bergantung
beberapa unit tertentu atau periode dari waktu, jarak, luas area,
volume, dan sebagainya.

184
5.2. Model Regresi Poisson
Tantangan dalam regresi Poisson adalah menemukan model
untuk variabel respons sebagai fungsi dari variabel prediktor,
sehingga parameter dari model dapat diperkirakan (diestimasi)
dari data. Misalkan i menyatakan observasi ke-i, i = 1,...n.  i
sebagai nilai mean dari nilai yi dan xi adalah variabel independen
yang berkaitan denga n varabel dependen yi. Misalkan
i  e  0  1 xi
dan yi =  i +  i ,

dengan  i adalah random error. Maka


log( i )  0  1xi .

Sehingga terdapat hubungan "log-linear" antara y dan x.

Karena setiap yi memiliki distribusi Poisson dengan mean  i ,


probabilitas yi pada nilai xi adalah:
e  i  iyi e (  0  1xi ) (  0  1 xi ) yi
P( yi )  = .
yi ! yi !

Model untuk regresi Poisson pada dasarnya menyatakan rata –


rata dari distribusi yang diskrit sebagai fungsi dari variabel
independennya.
k
 0    j xij
i  e j 1

Pemasalahan selanjunya adalah mengestimasi parameter


 =(0,..., k).
Dalam penggunaan regresi Poisson terdapat beberapa
pelanggaran asumsi mengenai galat yang tidak berdistribusi

185
normal dan variansi galat yang tidak homogen (Myers, 1990).
Asumsi lain yang harus dipenuhi dalam pembentukan regresi
Poisson adalah:
1) Variabel dependen dalam regresi Poisson mengikuti proses
percobaan Poisson yang merupakan data diskrit dari hasil
menghitung, pencacahan atau frekuensi namun bukan hasil
pengukuran.
2) Uji Multikolinearitas
Asumsi multikolinearitas merupakan bentuk pengujian yang
menyatakan bahwa variabel independen harus terbebas dari
gejala multikolinearitas. Gejala multikolinearitas adalah gejala
korelasi antar variabel independen. Apabila terjadi gejala
multikolinearitas, salah satu langkah untuk memperbaiki
model adalah dengan menghilangkan variabel dari model
regresi, sehingga bisa dipilih model yang paling baik.

5.3. Estimasi Parameter


Penggunaan model regresi Poisson terdapat beberapa
pelanggaran asumsi mengenai galat yang tidak berdistribusi
normal dan variansi galat yang tidak homogen, sehingga dalam
penaksiran parameter tidak bisa menggunakan metode kuadrat
terkecil biasa. Untuk mengatasi hal tersebut maka dapat digunakan
metode maksimum likelihood (Myers, 1990).
Metode Maximum Likelihood Estimation (MLE) merupakan
metode untuk mengetahui nilai parameter mana yang
memaksimalkan fungsi likelihood. Rata-rata dalam regresi Poisson
dimodelkan sebagai fungsi dari sejumlah variabel independen.
Pertama, perlu menentukan fungsi likelihood dan persamaan

186
likelihood yang dapat digunakan untuk menaksir parameter –
parameter dalam regresi Poisson. Fungsi likelihoodnya untuk
distribusi Poisson adalah:
n
L y,     f  yi ,  
i 1

 n  yi 
n

 
  i1  exp(    )
n

n
  yi e     i 1  i 1

L y ,        n
i 1  yi ! 
 yi! i 1

 n  yi 
n

   i1  n  
  exp(  0    j xij ) 
k k
 exp(    exp(  0    j xij ) )
 i 1  j 1   i 1 j 1 
L y ,     
n

 yi! i 1
n n n
logL y,β   LLy,β    y i log(exp( β 0   β j x ij ))   (exp(β 0   β j x ij ))   log y i !
k k

i 1 j1 i 1 j1 i 1

Nilai maksimum fungsi LL(.) diperoleh dengan syarat


 log L y,  
0

sehingga
   k 
   exp(  0    j xij )  
 
  exp(  0    j xij )      0
n
 yi

k j 1


i 1     
 j xij )   
k j 1
  exp(  0    
 j 1   
dengan
 k 
 exp(  0    j xij ) 
 j  1   exp(   k  x )1 x  x 
 j ij

0 i1 ik
j 1

187
Persamaan terakhir ini dapat diselesaikan secara iterasi.

5.4. Pemilihan model Terbaik


5.4.1. Uji Kecocokan Model (Goodnes of Fit)
Pada pengujian kelayakan model, Myers (1990) menjelaskan
bahwa devians digunakan untuk menguji keberartian koefisien –
koefisien dan menguji kelayakan model untuk kasus dari model
Poisson dan model logistik. Pada dasarnya analisis devians ini bisa
diterapkan untuk setiap distribusi yang merupakan anggota dari
keluarga eksponensial.
Pada penggunaan devians dapat pula untuk menguji hipotesis
lain, yaitu pengujian keberartian parameter di dalam regresi
Poisson. Pada setiap variabel independen dapat dihitung melalui
penentuan seberapa besar kontribusi dari masing – masing variabel
independen terhadap pengurangan harga devians. Perhatikan
variabel ke j, xj, dari k buah variabel independen. Misalnya
 
D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k  D1 ,  2 ,,  j 1 ,  j 1 ,,  k   D1 ,...,  k 

Bentuk D( 1,..., ) merupakan devians yang dihitung pada


k

seluruh parameter dalam model, sedangkan


D1, 2 ,,  j 1 ,  j 1,, k  adalah devians yang dihitung tanpa
melibatkan  j x j ke dalam model. Banyaknya pengurangan harga
devians yang disebabkan oleh ketidakhadiran  j x j dalam model.
Banyaknya perbedaan harga devians yang disebabkan
ketidakhadiran  jxj dalam model dapat dihitung melalui
persamaan berikut:

188
  ^ ^ ^ ^ ^

 L 1 ,  2 ,,  j 1 ,  j 1 ,,  k ,  
 
D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k  2 log  
 ^ 

 
^
L 1 ,...,  k 
   
Bentuk di atas menyatakan perbedaan dalam 2log L antara
model lengkap dengan model reduksi. Pengujian ini akan sama
dengan pemilihan model terbaik melalui prosedur bertahap
(stepwise) dalam analisis regresi biasa. Statistik dari rasio likelihood
D1, 2 ,,  j 1 ,  j 1,, k  mempunyai distribusi Chi Squared, χ2
dengan derajat bebas satu. Formula di atas juga dapat digunakan
untuk pengujian masing – masing koefisien dalam model, yaitu
untuk menguji

H0 :  j = 0 melawan H1 :  j ≠


H0 ditolak apabila D  j 1 ,  2 ,,  j 1 ,  j 1 ,,  k   ( ;1) .
2

Untuk mengetahui kecocokan model dan koefisien yang
signifikan maka dilakukan uji hipotesis, dimana terdapat jenis uji
yang harus dilakukan yaitu sebagai berikut:
1) Uji bersama yaitu untuk menguji apakah model regresi yang
terbentuk sudah layak atau belum untuk digunakan.
2) Uji koefisien yaitu untuk menguji apakah masing – masing
koefisien yang terbentuk dalam model sudah berpengaruh
terhadap model atau belum (Wibawati dan Nugraha, 2009)
5.4.2. Uji Rasio Likelihood
Pada pengujian rasio likelihood, terlebih dahulu perlu
ditentukan dua buah fungsi likelihood yang berhubungan dengan
model regresi yang diperoleh. Fungsi – fungsi likelihood itu adalah

189
^ 
L    red  , yaitu fungsi likelihood yang berhubungan dengan
 
model regresi yang sedang dianalisis. Sedangkan fungsi likelihood
yang kedua adalah fungsi likelihood yang berhubungan dengan
model penuh atau model yang sempurna, yang dinotasikan dengan
^  . Dengan demikian, fungsi likelihood itu dapat ditulis
L   full 
 
sebagai berikut:
 
n
L  full    ( yi ,  )
  i 1
dan
  
n
  yi e  
L  red     
  i 1  yi ! 
Selanjutnya, logaritma dari perbandingan antara kedua
fungsi likelihood di atas merupakan ukuran yang penting dalam
menentukan kelayakan model regresi Poisson, sehingga:
   
 L  red  
G 2  2 log     
 L   
  full  
Disebut sebagai G2 atau statistik uji rasio likelihood, dimana
definisi dari statistik uji rasio likelihood adalah selisih antara nilai
likelihood pada model yang diuji dibandingkan dengan model
lengkap dan statistik ini merupakan pendekatan dari distribusi χ2
dengan derajat bebas n–k (n adalah jumlah seluruh parameter pada
model penuh atau model sempurna sedangkan k adalah jumlah
seluruh parameter pada model regresi yang diperoleh atau model

190
regresi yang sedang dianalisis). Kriteria pengujian adalah tolak H0
apabila G2 > χ2 n – k) .

5.4.3. Koefisien Determinasi R2


Koefisien determinasi (R2) dalam analisis regresi linier
didasarkan pada pemakaian jumlah kuadrat (sums–of–square)
dengan metode kuadrat terkecil. Penggunaan R2 ini lebih populer
karena dapat menggambarkan keeratan hubungan regresi antara
variabel dependen dengan variabel independen. Semakin besar
nilai R2 R2 , semakin akurat taksiran dari model regresi.
Disisi lain model regresi Poisson ditaksir dengan menggunakan
metode maksimum likelihood. Hal ini mendorong berkembangnya
beberapa ukuran R2 dalam regresi Poisson yang didasarkan pada
proporsi reduksi dalam log likelihood yang dimaksimumkan.
Selain itu (Myers, 1990), menyebutkan analog yang tepat pada
koefisien determinasi R2 dalam analisis regresi biasa diperoleh
melalui log likelihood. Pada pengujian keberartian parameter telah
ditunjukkan bahwa jika mempunyai model regresi Poisson dengan
parameter  0 , 1 ,  2 ,  3 ,,  k dan variabel independen
x1 , x2 , x3 ,, xk maka keberadaan dari konstanta  0 dalam model
diberikan melalui devians dengan derajat bebas k, sebagai berikut:

D1, 2 ,, k 0   2 log L0 , 1 ,,  k   2 log L0 


D0 , 1,, k   2 log L0 , 1,, k 
Sedangkan analog pada jumlah kuadrat total adalah devians pada
model yang berisi konstanta  0 , dengan demikian koefisien
determinasi R2, sebagai berikut:

191
JK REG D1 ,  2 ,,  k  0 
R2  
JK TOTAL D 0 
2 log L 0 , 1 ,,  k   2 log L0 

2 log L 0 , 1 ,,  k 
log L0 
1
log L0 , 1 ,,  k 

5.5. Contoh Data I


Jenis data yang digunakan adalah data tentang banyaknya
pecahan yang terjadi pada lapisan atas di dalam tambang batubara
(Myers, 1990). Adapun variabel yang akan digunakan adalah:
X1 : Ketebalan beban bagian dalam (feet), merupakan jarak
terpendek antara lapisan tanah dengan lapisan yang
paling bawah.
X2 : Prosentase ekstrasi dari lapisan tambang sebelumnya
yang paling bawah.
X3 : Tinggi lapisan paling dalam (feet), dan
X4 : Lamanya waktu (tahun) tambang itu dibuka.
Y : Banyaknya Pecahan.
Berikut data tentang banyaknya pecahan yang terjadi pada lapisan
atas tambang batubara:

192
Tabel 5.1. Data banyaknya pecahan pada lapisan atas tambang
batubara
No Y X1 X2 X3 X4 No Y X1 X2 X3 X4
1 2 50 70 52 1 23 3 65 75 68 5
2 1 230 65 42 6 24 3 470 90 90 9
3 0 125 70 45 1 25 2 300 80 165 9
4 4 75 65 68 0.5 26 2 275 90 40 4
5 1 70 65 53 0.5 27 0 420 50 44 17
6 2 65 70 46 3 28 1 65 80 48 15
7 0 65 60 62 1 29 5 40 75 51 15
8 0 350 60 54 0.5 30 2 900 90 48 35
9 4 350 90 54 0.5 31 3 95 88 36 20
10 4 160 80 38 0 32 3 40 85 57 10
11 1 145 65 38 10 33 3 140 90 38 7
12 4 145 85 38 0 34 0 150 50 44 5
13 1 180 70 42 2 35 0 80 60 96 5
14 5 43 80 40 0 36 2 80 85 96 5
15 2 42 85 51 12 37 0 145 65 72 9
16 5 42 85 51 0 38 0 100 65 72 9
17 5 45 85 42 0 39 3 150 80 48 3
18 5 83 85 48 10 40 2 150 80 48 0
19 0 300 65 68 10 41 3 210 75 42 2
20 5 190 90 84 6 42 5 11 75 42 0
21 1 145 90 54 12 43 0 100 65 60 25
22 1 510 80 57 10 44 3 50 88 60 20
Sumber : (Myers, 1990).

Model penuh untuk regresi Poisson pada kasus ini adalah:


^ ^ ^ ^ ^ ^
  exp(  0  1 x1   2 x2   3 x3   4 x4 )
Entri data pada program R dilakukan sebagai berikut
>y<-c(2,1,...,0,3)
>x1<-(50,230,...,100,50)
>x2<-(70,65,...,65,88)
>x3<-(52,42,...,60,60)

193
>x4<-(1,6,...,25,20)
Library yang digunakan untuk mengestimasi parameter adalah
>library(systemfit)
>library(micEcon)
>Fungsi_NonLinier<-function(a)
{a0=a[1];a1=a[2];a2=a[3];a3=a[4];a4=a[5]
lambda=exp(a0+x1*a1+x2*a2+x3*a3+x4*a4)
sum(-lambda+y*log(lambda)-lfactorial(y))}

Estimasi parameter dilakukan dengan perintah


>start=c(0,0,0,0,0)
>loglikHasil=summary(maxLik(Fungsi_NonLinier,
start=start))
>loglikHasil

Hasil untuk Model 1 (model lengkap)


Maximum Likelihood estimation
Newton-Raphson maximisation, 5 iterations
Return code 1: gradient close to zero. May be a
solution
Log-Likelihood: -67.06384
5 free parameters
Estimates:
Estimate Std. error t value Pr(> t)
[1,] -3.59308956 1.03440535 -3.4736 0.0005136 ***
[2,] -0.00140659 0.00083591 -1.6827 0.0924334 .
[3,] 0.06234576 0.01238185 5.0353 4.772e-07 ***
[4,] -0.00208034 0.00507014 -0.4103 0.6815766
[5,] -0.03081349 0.01626694 -1.8942 0.0581931 .
Signif.codes: 0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1
' ' 1

Berdasarkan hasil pada penggunaan aplikasi software R untuk


model 1 dimana seluruh variabel independen digunakan dalam
pembentukan model regresi Poisson pada data tambang diperoleh
estimasi untuk masing–masing parameter adalah sebagai berikut:

194
Tabel 5.2. Estimasi parameter model 1 untuk data tambang
No Parameter Nilai P-value
1 0 – 3.59308956 0.0005136
2 1 – 0.00140659 0.0924334
3 2 0.06234576 4.772e-07
4 3 – 0.00208034 0.6815766
5 4 – 0.03081349 0.0581931

Tabel 5.3. Estimasi parameter model 2 untuk data tambang


No Parameter Nilai Keterangan
1 0 – 3.72068232 0.0001315
2 1 – 0.00147925 0.0727517
3 2 0.06270111 2.759e-07
4 4 – 0.03165139 0.0522879

Tabel 5.4. Perhitungan keberartian parameter


Model Nilai Keberartian
Model Model Full
Reduksi Parameter
D 1, 2, 3, 4│ 0) -85.6277 -67.06384 37.1277
D 2, 3, 4 │ 0, 1) -84.0557 -67.06384 33.9837
D 1, 3, 4 │ 0, 2) -72.4459 -67.06384 10.7642
D 1, 2, 4 │ 0, 3) -85.0566 -67.06384 35.9855
D 1, 2, 3 │ 0, 4) -84.1952 -67.06384 34.2628
D 3, 4│ 0, 1 , 2) -69.1827 -67.06384 4.2377
D 2, 4│ 0, 1 , 3) -83.6710 -67.06384 33.2143
D 2, 3│ 0, 1 , 4) -83.3491 -67.06384 32.5704
D 1, 4│ 0, 2 , 3) -71.9294 -67.06384 9.7312
D 1, 3│ 0, 2 , 4) -68.9489 -67.06384 3.7701
D 1, 2│ 0, 3 , 4) -83.7769 -67.06384 33.4262

195
D 4 │ 0, 1, 2, 3) -69.0111 -67.06384 3.8944
D 3 │ 0, 1, 2, 4) -67.1512 -67.06384 0.1747
D 2 │ 0, 1, 3, 4) -83.0394 -67.06384 31.9511
D 1 │ 0, 2, 3, 4) -68.6471 -67.06384 3.1665

Untuk mempermudah dalam mengetahui nilai keberartian pada


setiap parameter dalam model, berikut hasil nilai keberartian
parameter yang ditampilkan dalam tabel.
Tabel 5.5. Pengujian hipotesis untuk masing – masing kombinasi
model
Nilai
Nilai
Model Keberartian H0 H Keputusan
Tabel
Parameter
D 1 , 2 , 3, │ 0)
4 37.1277 1 , 2 , 3 , 4=0 4 7.779 H0 Tolak
D 2 , 3 , 4│ 0, )
1 33.9837 ,
2 3 , 4 =0 3 6.251 H0 Tolak
D 1 , 3 , 4│ 0, )
2 10.7642 ,
1 3 , 4 =0 3 6.251 H0 Tolak
D 1 , 2 , 4│ 0, )
3 35.9855 ,
1 2 , 4 =0 3 6.251 H0 Tolak
D 1 , 2 , 3│ 0, )
4 34.2628 ,
1 2 , 3 =0 3 6.251 H0 Tolak
D 3 , 4 │ 0, 1 , )
2 4.2377 3 , =0
4 2 4.605 H0 Terima
D 2 , 4 │ 0, 1 , )
3 33.2143 2 , =0
4 2 4.605 H0 Tolak
D 2 , 3 │ 0, 1 , )
4 32.5704 2 , =0
3 2 4.605 H0 Tolak
D 1 , 4 │ 0, 2 , )
3 9.7312 1 , =0
4 2 4.605 H0 Tolak
D 1 , 3 │ 0, 2 , )
4 3.7701 1 , =0
3 2 4.605 H0 Terima
D 1 , 2 │ 0, 3 , )
4 33.4262 1 , =0
2 2 4.605 H0 Tolak
D 4 │ 0, 1 , 2 , )
3 3.8944 4 =0 1 2.706 H0 Tolak
D 3 │ 0, 1 , 2 , )
4 0.1747 3 =0 1 2.706 H0 Terima
D 2 │ 0, 1 , 3 , )
4 31.9511 2 =0 1 2.706 H0 Tolak
D 1 │ 0, 2 , 3 , )
4 3.1665 1 =0 1 2.706 H0 Tolak

196
Hasil dari 15 kombinasi peubah yang ada terlihat bahwa X3
mempunyai peranan yang tidak berarti terhadap model, maka
dapat dikatakan bahwa model dengan peubah – peubah X1, X2, dan
X4 merupakan model yang terbaik karena mempunyai nilai devians
yang paling kecil dan memiliki nilai keberartian yang paling besar
serta masing – masing koefisien regresinya memberikan peranan
yang cukup berarti terhadap model.
Pada pengujian koefisien deteriminasi dalam regresi Poisson
menujukkan hubungan pengaruh variabel y (sebagai variabel
dependen) dan variabel x (sebagai variabel independen) yang
diperoleh dengan menghitung:
D(0 , 1, 2 , 4 )  2 logL(0 , 1, 2 , 4 )  0.17466
D(0 )  2 logL(0 )  37.1277
sehingga nilai koefisien determinasi R2 dalam kasus ini adalah:
D0 , 1 ,  2 ,  4  0.17466
R2  1  1  0.9953
D0  37.1277
Untuk menginterprestasikan nilai koefisien determinasi, peneliti
harus membuat nilai tersebut dalam persentase yang berarti
99.53%. Maksud nilai ini adalah bahwa sebesar 99.53% perubahan
atau variasi dari banyaknya pecahan dapat dijelaskan oleh
ketebalan beban bagian dalam (feet), prosentase ekstrasi, dan
lamanya waktu (tahun), sedangkan 0.46% dijelaskan oleh variabel
lain.
Berdasarkan dari pengujian yang telah dilakukan, maka model
regresi Poisson dengan fungsi link log adalah sebagai berikut:
^
  exp( 3.72068232  0.00147925x1  0.06270111x2  0.03165139 x4 )

197
5.6. Contoh Data II
Penelitian mengenai kelangsungan spesies possum (kus-kus).
Variabel yang diamati adalah
y : banyaknya spesies possum yang ditemukan
Acacia : banyaknya pohon acacia
Bark indeks kualitas Bark€
Habitat : Habitat score untuk Leadbeater s possum
Shrubs : banyaknya semak-semak (shrub)
Stags banyaknya €hollow trees€

Yang akan diteliti adalah apakah variabel-variabel tersebut di atas


mempengaruhi populasi possum€. Diperoleh data sebagai berikut
(20 data pertama dari 150 data)
Tabel 5.6. Data obeservasi Jumlah Possum (kus kus)
No y Acacia Bark Habitat Shrubs Stags
1 3 32 30 10 7 13
2 2 5 13 3 6 16
3 1 9 27 3 8 7
4 2 17 17 9 7 15
5 3 21 12 9 6 17
6 2 32 7 11 4 17
7 3 17 11 9 7 10
8 2 18 5 9 14 21
9 0 1 14 4 6 8
10 0 9 10 2 9 5
11 1 9 4 3 12 7
12 1 10 4 7 17 6
13 0 12 12 2 9 5
14 4 1 15 8 10 7

198
15 2 26 9 2 5 5
16 3 17 14 8 10 11
17 1 8 18 2 12 7
18 3 24 9 10 9 12
19 3 20 8 9 5 12
20 1 14 13 10 9 5
Sumber : Biological Conservation, Kirkwood (1996).

Entri data pada program R adalah sebagai berikut :


> y<-c(3, 2, 1, 2, 3, 2, 3, 2, 0, 0, 1, 1, 0, 4, 2, 3, 1,
3, 3, 1, 2, 2, 2, 3, 4, 2, 1, 1, 2, 3, 3, 3, 2, 3, 4, 0,
2, 0, 2, 1, 0, 0, 3, 0, 2, 2, 1, 2, 1, 1, 2, 1, 1, 0, 1,
0, 0, 1, 3, 1, 1, 2, 1, 2, 3, 1, 0, 2, 1, 2, 1, 1, 1, 2,
5, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 0, 0, 2, 3, 0, 2, 4, 2,
2, 0, 1, 0, 2, 2, 0, 0, 3, 1, 2, 1, 0, 3, 1, 0, 2, 1,0,
2, 5, 2, 1, 2, 1, 4, 2, 0, 4, 5, 3, 0, 1, 0, 2, 0, 2, 0,
0, 2, 0, 0, 1, 0, 0, 3, 0, 3, 3, 1, 2, 0, 0, 1, 2,1, 0,
0)
Untuk menampilkan panjang list, ginakan perintah length()
> length(y)
[1] 151

Pertanyaan 1.
Apakah semak (shrubs ) meningkatkan habitat kus-kus? Apakah
ada hubungan antara jumlah spesies kuskus dan jumlah semak-
semak (shrubs) ?
> Shrubs<-
c(7,6,8,7,6,4,7,14,6,9,12,17,9,10,5,10,12,9,5,9,2,4,4,6,4
,5,6,3,7,2,6,4,6,22,6,4,5,4,3,7,12,12,6,6,4,6,11,16,9,6,1
0,8,9,4,1,12,12,11,9,7,5,3,6,3,2,9,2,2,1,3,8,6,4,1,8,4,7,
1,5,9,5,6,2,7,5,9,5,3,8,8,2,3,8,2,6,1,3,2,2,1,15,1,9,4,4,
5,16,1,3,3,1,2,2,10,6,11,4,3,3,1,12,13,11,8,2,4,3,4,2,2,8
,4,7,3,2,4,7,12,10,2,2,7,6,9,7,3,6,5,5,6,5)
> shrubdat<-data.frame(y, Shrubs)
> shrub.fit<-glm(y~Shrubs, family=poisson,data=shrubdat)
> summary(shrub.fit)

199
Call:
glm(formula = y ~ Shrubs, family = poisson, data =
shrubdat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8424 -1.6565 -0.3426 0.4917 2.2243
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.29261 0.12715 2.301 0.0214 *
Shrubs 0.01576 0.01718 0.917 0.3591
---
Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 187.49 on 150 degrees of freedom
Residual deviance: 186.67 on 149 degrees of freedom
AIC: 471.47
Number of Fisher Scoring iterations: 5

Apakah model regresi Poisson cocok? Residual devians adalah


sebesar 186.67, dari distribusi yang mendekati 2 dengan derajat
kebebasan 149. Perkiraan nilai P-value adalah 0.02. Ini berarti
bahwa penyimpangan yang besar seperti itu tidak mungkin terjadi
jika model Poisson memadai, yang memaksa kita untuk
menyimpulkan bahwa model tidak cocok.
Apakah variabel Shrubs memperbaiki model? Perubahan dalam
penyimpangan sangat kecil, hanya 0.82. P-value (berdasar 2
dengan derajat kebebasan 1) adalah sekitar 0.36. Tidak ada cukup
bukti untuk menyimpulkan bahwa Shrubs adalah prediktor
berguna. Sementara Shrubs sebagai satu-satunya prediktor tidak
berguna, mungkin jika kita menambahkan Shrubs untuk sebuah
model yang memasukkan Stags, akan ada perbaikan. Penyelidikan
berikutnya adalah model regresi dengan multiple prediktor.

200
Pertanyaan 2.
Apakah Stags meningkatkan habitat kus-kus? Apakah ada
hubungan antara jumlah spesies kuskus dan jumlah Stags ?
Seberapa baik model regresi Poisson cocok dengan data? Kita
dapat menggunakan deviasi residual untuk menjawab pertanyaan
ini. Hipotesis nol-nya adalah bahwa model regresi Poisson
memberikan yang memadai sesuai dengan data. Deviasi residual
adalah ukuran berapa banyak data yang menyimpang dari model,
jadi semakin besar sisa penyimpangan ini, semakin tidak cocok.
deviasi residual adalah 153.34, untuk dapat dibandingkan dengan
chi-kuadrat dengan derajat kebebasan 149. Nilai P-value 0.387,
yang cukup besar sehingga kita tidak perlu menolak hipotesis nol.
Model tampaknya memadai/sesuai.
Apakah variabel prediktor x = stage signifikan secara statistik?
Seperti halnya dalam regresi logistik, deviasi nol adalah
penyimpangan dari model yang memiliki 1  0 , yaitu model nol
mengabaikan x dan memprediksi nilai konstan untuk y. Jika x
adalah prediktor yang dapat digunakan, model Poisson akan cocok
dengan data yang lebih baik dan penyimpangan nol akan secara
signifikan lebih besar daripada penyimpangan residu. distribusi
dengan satu derajat kebebasan. Perbedaan antara dua devians
memiliki distribusi 2 dengan derajat kebebasan 1. Perubahan
deviasi (null devians minus residual devians) adalah 187.49-153.34
= 34.15. Peluang variabel 2 dengan satu derajat kebebasan akan
mengambil nilai lebih besar dari 34.15 mendekati nol (0). Kita
dapat menyimpulkan bahwa penambahan x ke model nol
menghasilkan peningkatan yang signifikan.

201
Cara lain untuk menguji kekuatan prediksi x = stage adalah
dengan melihat P-value untuk z-test dimana 1  0 . P-value adalah
sebesar 2.88e-10, pada dasarnya 0, yang mendukung kesimpulan
kami bahwa x adalah prediktor yang dapat digunakan.
Persamaan yang sesuai adalah
yˆ i   i  e 0.080.05xi .
Seperti yang diharapkan, semakin banyak stage dalam suatu area,
semakin tinggi jumlah spesies kuskus yang ditemukan.
> Stags<-c(13,16,7,....,12,12,5)
>Stagsdat<-data.frame(y,Stags)
>glm(formula = y ~ Stags, family = poisson, data =
Stagsdat)
Call:
glm(formula = y ~ Stags, family = poisson, data =
Stagsdat)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.46184 -1.38993 -0.06549 0.59729 1.89332
Coefficients:
Estimate Std. Error z value
Pr(>|z|)
(Intercept) -0.084347 0.110074 -0.766 0.444
Stags 0.049709 0.007884 6.305 2.88e-10
***
---
Signif. codes: 0'***' 0.001'**' 0.01 '*' 0.05 '.' 0.1
'' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 187.49 on 150 degrees of freedom
Residual deviance: 153.34 on 149 degrees of freedom
AIC: 438.14
Number of Fisher Scoring iterations: 5

202
5.7. Contoh Data III
Perhatikan data dalam tabel di bawah ini, disajikan banyaknya
kejadian kanker kulit non-melanoma di kalangan wanita di
Minneapolis-St. Paulus.
Tabel 5.7. Data banyaknya kanker kulit
Usia Kasus Populasi
15-24 1 172.675
25-34 16 146.207
35-44 30 121.374
45-54 71 111.353
55-64 102 83.004
65-74 130 55.932
75-84 133 29.007
85+ 40 7.538
Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf.
Menurut teori, kasus kanker kulit meningkat dengan usia.
Tetapi jumlah kasus kanker kulit juga akan bergantung pada
ukuran populasi. Selama ukuran populasi berbeda dengan
kelompok usia, model akan sesuai dengan ukuran populasi. Hal ini
cukup mudah sesuai dengan yang diperlukan dalam model regresi
Poisson untuk memperkirakan tingkat kasus (incidence rate).
Misal Ni menyatakan ukuran populasi dengan observasi ke-i.
Jika i adalah jumlah kasus yang diharapkan, maka perkiraan
tingkat kasus adalah i/Ni . Menggunakan sifat dari logaritma :
i
log( )  log(  i )  log( N i ) .
Ni
Dan dianggap bahwa log-rate adalah fungsi linear prediktor x:

203
i
log( )  log(  i )  log( N i ) =  0  1 xi
Ni
log(  i )   0   1 xi  log( N i ) .
Dalam contoh ini, karena kelompok Age (usia) merupakan
variabel kategorik dan kita membutuhkan prediksi numerik, kita
akan menggunakan titik tengah interval umur dari masing-masing
sebagai nilai dari variabel usia. Di bawah ini adalah kode R dan
output.
> age<-c(19.5,29.5,39.5,49.5,59.5,69.5,79.5, 89.4)
> Cases<-c(1,16,30,71,102,130,133,40)
> Pop<-
c(172675,123065,96216,92051,72159,54722,32185,8328)
> minn.txt<-data.frame(age,Cases,Pop)
> minn.fit<-glm(Cases~age+offset(log(Pop))
,family=poisson, data=minn.txt)
> summary(minn.fit)
Call:
glm(formula = Cases ~ age + offset(log(Pop)), family =
poisson,
data = minn.txt)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.87198 -1.67519 -0.07185 1.20816 1.99291
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)-10.551604 0.168780 -62.52 <2e-16
***
age 0.063629 0.002475 25.71 <2e-16
***
---
Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 845.789 on 7 degrees of freedom
Residual deviance: 44.288 on 6 degrees of freedom
AIC: 91.688
Number of Fisher Scoring iterations: 5

204
Sehingga model yang sesuai adalah
log( i )  -10.552  0.064 xi  log( N i )
dengan x adalah usia (age).

Dinyatakan dalam incidence rate, persamaan untuk


memprediksi rata-rata (predicted rate) kasus kanker kulit adalah

i/Ni = e 10.5520.064xi .
Kita dapat menguji kecukupan model dan signifikansi dari
variabel prediktor menggunakan deviansi, sama seperti pada
model regresi Poisson yang lain. Kecocokan model ini terlihat
sangat bagus, dan usia adalah prediktor yang sangat signifikan.
Seperti yang kita harapkan, koefisien positif dari variable usia
menunjukkan bahwa tingkat kanker kulit meningkat dengan
meningkatnya usia.

5.8. Soal latihan


1. Perkirakan model regresi Poisson untuk jumlah spesies kuskus,
menggunakan indeks kualitas bark sebagai prediktor.
Pertimbangkan baik kecukupan model dan bark sebagai nilai
prediktor. Manakah di antara dua variabel tampaknya
prediktor yang lebih baik, Stags atau Bark? Mengapa?
2. Kepiting ladam kuda datang di darat pada musim semi selama
pasang tinggi untuk kawin dan bersarang di pantai Atlantik
dan Teluk. Pejantan yg belum kawin juga datang ke darat dan
kerumunan di sekitar sarang betina dan terlibat dalam
persaingan dengan pejantan lainnya (Lihat contoh kasus
Horseshoe Crabs)

205
a. Cocokkan dengan model regresi Poisson untuk menyelidiki
apakah jumlah pejantan yang mengelilingi berhubungan
dengan lebar kepiting betina. Berikan komentar pada
kecukupan model dan kegunaan lebar sebagai prediktor.
b. Berapa banyak pejantan yang mengelilingi yang
diperkirakan untuk kepiting betina yang lebar 27.5 mm?
c. Ada satu outlier, betina yang sangat lebar. Apakah model
sangat dipengaruhi oleh penghapusan outlier ini? Jelaskan.

3. Gajah pejantan dewasa muda harus bersaing dengan pejantan


yang lebih tua untuk kawin dengan betina reseptif. Karena
gajah pejantan terus bertumbuh sepanjang hidupnya, gajah
yang lebih tua lebih besar dan cenderung lebih sukses di
kawin. Data di bawah ini, dari J.H. Poole, "Mate Guarding,
Reproductive Success and Female Choice in African
Elephants," Animal Behavior 37 (1989): 842-49, memberikan
data umur (ages) dan jumlah perkawinan yang sukses untuk 41
gajah pejantan.
Tabel 5.8. Data Banyaknya perkawinan yang sukses pada
gajah pejantan
Age 27 28 28 28 28 29 29 29 29 29 29 30 32 33
Matings 0 1 1 1 3 0 0 0 2 2 2 1 2 4
Age 34 36 36 37 37 37 38 39 41 42 43 43 43 43
Matings 3 5 6 1 1 6 2 1 3 4 0 2 3 4
Age 33 33 35 34 34 45 47 48 52 33 443 33 43
Matings 3 2 1 1 2 5 7 2 9 3 3 3 9

a. Buat sebaran data (scater plot) dan beri komentar apakah


model regresi Poisson tepat.

206
b. Gunakan model regresi Poisson untuk menyelidiki
hubungan antara keberhasilan dan usia perkawinan.

4. Untuk setiap situasi berikut, tentukan apakah model yang


terbaik untuk data regresi linear biasa, regresi logistik atau
regresi Poisson, dan berikan penjelasan keputusan Anda.
a. Seorang peneliti ingin menyelidiki apakah jumlah jam orang
bekerja dalam satu bulan mempengaruhi jumlah medical
checkup yang dia gunakan. Peserta direkrut dari berbagai
jenis pekerjaan. Mereka setuju untuk menghabiskan waktu
di tempat kerja dan sebagian waktu untuk medical checkup
mereka gunakan, selama satu bulan.
b. Seorang peneliti ingin menyelidiki hubungan antara tingkat
pendidikan istri dan perceraian. Menggunakan catatan
perkawinan, ia memilih sampel dari pasangan yang
menikah pada 1990-1995, mengidentifikasi mereka, dan
menegaskan yang masih menikah. Dia juga tahu berapa
tahun pendidikan sang istri pada saat perkawinan.
c. Peneliti yang sama seperti pada (b) juga memutuskan untuk
mempelajari hubungan antara panjang pernikahan (dalam
tahun) dan jumlah tahun pendidikan istri pada saat
perkawinan, dengan menggunakan data yang sama.
d. Sebuah grup yang dipilih secara acak dari siswa SMA
diamati melalui satu musim flu (November hingga Maret)
untuk melihat apakah ada hubungan antara kerentanan
terhadap flu dan waktu yang dihabiskan untuk olahraga.

5. Tabel di bawah ini memberikan data tentang kasus kanker


kulit non-melanoma di kalangan wanita di Dallas-Ft. Worth.

207
Tabel 5.9. Data kanker kulit non-melanoma di Dallas-Ft. Worth
Usia Kasus Populasi
15-24 4 181.343
25-34 38 146.207
35-44 119 121.374
45-54 221 111.353
55-64 259 83.004
65-74 310 55.932
75-84 226 29.007
85+ 65 7.538
Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf.)
a. Cocokkan dengan model regresi Poisson untuk tingkat
kejadian kanker kulit di kalangan wanita di Dallas-Ft.
Worth, dan melakukan tes untuk kecukupan model dan
signifikansi usia sebagai prediktor.
b. Perkirakan jumlah kasus kanker kulit yang akan diharapkan
di antara 155.000 wanita usia 25-34 Dallas-Ft. Worth.
c. Bandingkan fitted model tingkat kejadian kanker kulit
Dallas-Ft. Worth dengan fitted model Minneapolis-St.
Paulus. Apakah perempuan pada risiko yang lebih tinggi
untuk kanker kulit di satu kota dari yang lain? Jelaskan.
(Hal ini dapat diuji secara statistik menggunakan model
dengan beberapa prediksi.)

6. Data pengamatan terhadap 146 anak dari wilayah Walgett,


New South Wales, Australia yang dikalsifikasikan menurut
diperoleh dari Culture, Age, Sex, Learner Status dan jumlah
hari absent dari sekolah. Data dapat diakses dari data quine€
dalam library MASS. Berdasarkan data tersebut lakukan
analisis faktor apakah yang mempengaruhi jumlah absent.

208
BAB VI
GENERALIZED LINEAR MODEL (GLM)

6.1. Pendahuluan
Dalam regresi linear biasa (normal), model dapat dituliskan
sebagai yi = xti + εi, dimana i= , , ,n, yi adalah respon, xi adalah
vector berukuran k untuk variabel prediktor, adalah vektor
parameter dan εi ~ NIID , σ2) adalah galat dengan rerata nul dan
variansi σ2. Model regresi linear normal mempunyai karakteristik
sebagai berikut (Simon dan Jackman, 2003):
a. komponen stokastik: yi yang biasanya diasumsikan
mempunyai distribusi normal independen dengan
E(yi) =μi = xti

dan variansi konstan σ2, atau dapat dituliskan


yi ~ N(xti , σ2).

b. Komponen sistematik : kombinasi linear variabel xi dengan


koefisien parameter yang dapat dituliskan sebagai
ηi = xti

c. Penghubung (link) antara komponen random dan komponen


sistematik. Kombinasi linear ηi = xti merupakan sebuah fungsi
dari parameter rerata mean , sehingga g μi) = xti yang biasa
disebut link function. Dalam model linear normal, g( )
merupakan fungsi identitas
g μi = μi .
GLM pertama kali dikemukakan oleh Nelder dan
Wedderburn (1974) dan dibahas secara detail oleh McCullagh dan

209
Nelder (1989). Pendekatan ini didasarkan pada model regresi
normal dengan distribusi responnya termasuk dalam kelurga
eksponensial. Atas dasar model regresi linear normal, GLM
mempunyai dua aspek pengembangan yaitu komponen stokastik
yang dapat berdistribusi tidak normal dan link function (fungsi
penghubung).

6.2. Fungsi Penghubung (Link) dan Keluarga Eksponensial


Dalam model linear, respon diasumsikan berdistribusi normal
dan mempunyai mean , sehingga
E(y) =  = xt

Pada model linear tergeneralkan dapat dituliskan model sebagai


berikut
E(y) =  = f(xt)

Secara umum hubungan antara mean populasi dan prediktor


dinyatakan oleh link function (fungsi penghubung)
ηi = g() = xt

dimana g(.) merupakan fungsi monoton. Model regresi yang


memuat rerata (means) populasi dan parameter diberikan dalam
bentuk
 = g-1(xt) dengan f = g-1

Pemilihan suatu link function ditentukan oleh model atau distribusi


yang digunakan. Oleh karena itu pemodelan GLM disusun atas
dasar pemilihan distribusi dan link. Semua distribusi yang
termasuk dalam keluarga ekponensial, hanya distribusi normal
yang mempunyai variansi homogen. Sementara yang lainnya
merupakan fungsi dari mean. Oleh karena itu estimasi

210
parameternya dengan ordinary least squares (OLS) tidak tepat dan
dapat digunakan weighted least squares, (Myers dan
Montgomery,1997).
Fungsi distribusi yang dapat diakomodasi oleh GLM adalah
distribusi yang termasuk dalam keluarga ekponensial, seperti
distibusi binomial, normal, poisson, gamma, eksponensial, (Myers
dan Montgomery, 1997). Bentuk distribusi keluarga eksponensial
dapat dinyatakan sebagai :
f(yi; i;) = exp{r()[yii - b(i)] + h(yi; )} untuk i=1,2,...n

dimana  adalah parameter skala dan  adalah parameter lokasi.


Disamping distribusi yang disebutkan dalam Tabel 6.1,
beberapa distribusi lain yang termasuk dalam keluarga
eksponensial adalah distribusi beta, multinomial, Diriclet,
Pareto. Beberapa distribusi yang tidak termasuk dalam
keluarga eksponensial tetapi sering digunakan dalam model
statistik adalah distribusi student~s t dan distribusi uniform.
Tabel 6.1. Parameter pada Distribusi Keluarga Eksponensial

Distribusi

Normal Poisson Binomial Gamma


Notasi N(;2) P() B(n;) ;  = n G(;v)
log desitas (y-2/2- ylog() - - ylog(/(1-)) + V[-y/ -log]+
y2/2)/2 – log(y!) nlog(1-) + vlogy + vlogv
log(22)/2 log{n!/(n-1)!} – -log (v)
log(y!)
range y (-;) 0,1, ....,  0,1,2,...n (0; )
Parameter =  = log() =log{/(1-)} =-1/
lokasi ()  = n
Parameter 1/2 1 1/n v-1
Dispersi:
r()

211
b() 2/2 atau Exp() atau  Log(1+e) atau -log(-) atau
2/2 log(/(1-)) atau log()
log(/(n-))
Fungsi 1 Exp() atau  e/(1+e)2 atau 1/2 atau 2
varian: (1-) atau (n-
bii() )/n2
Variansi: 2 Exp() atau  ne/(1+e)2 atau v2
bii()/r() n(1-)
fungsi η = η = Log ) η =log{/(1-)} 1/ = xt
link: (identitas/k (log) (logit) (reciprocal)
η = xt anonik)
Model  = xt  = exp(xt) =  = 1/xt
1/{1+exp(xt)}

6.3. Estimasi Parameter β


Dalam model non liner dan variansi merupakan fungsi dari
mean, model dinyatakan sebagai
yi = f( xi,) + i

Estimasi parameter  dapat diperoleh dengan meminimumkan


fungsi
n
[ yi  f ( xi ,  )]2
W() = 
i 1 g[ f ( xi ,  )]

g[f(xi,)] merupakan variansi pada data ke-i. Prosedure ini disebut


kuadrat terkecil terbobot (weighted least squares). Pada GLM,
f(xi,) = f(xit) =,

sehingga fungsinya dapat dinyatakan sebagai


n
[ yi  f ( xit  )]2
W()=  dengan var(yi) = g[f(xit)]
i 1 g [ f ( xi
t
 )]
atau

212
n
[ yi   ]2
W() =  dengan var(yi) = g()
i 1 g[  ]

Equevalensi antara metode kemungkinan maksimum


(MLE=maximum likelihood estimator) dan weighted least squares dapat
dilihat pada McCullagh dan Nelder (1989). Sebagai contoh pada
distribusi gamma mempunyai variansi μ2, sehingga penaksir
diperoleh dengan meminimumkan persamaan
n
[ yi   ]2
W() = 
i 1 [  ]2
.

Bagaimanapun juga untuk menyelesaikan fungsi W()


diperlukan deret Taylor. Penyelesaian dengan deret Taylor untuk
fungsi W() adalah
 f ( x0 ,  ) 
yi - f(xi, = – )
0
 + ri
      0

elemen ri merupakan model error€ dan 0 adalah nilai dugaan


awal untuk .
Oleh karena MLE untuk  pada umumnya tidak berbentuk
close form€ maka penaksir dapat diselesaikan algoritma iteratively
weighted least square (IWLS) yang didasarkan atas deret taylor. IWLS
yang diimplementasikan pada MLT telah digunakan pada paket
program S-plus dan program R. Iterasi ke-t uantuk IWLS dapat
dirumuskan sebagai berikut :
1. Proses Respon :
(t )
 d 
Z = η + (yi -  ) 
i(t) i(t)  dengan ηi(t) =xi ˆ (t 1) dan I(t) = g-
I(t)
 d i
1 ηi(t))

213
2. Proses Weghted:
1
 d  2 (t ) 
Wi(t) =   vi  dengan Vi(t) = V(I(t)) yang merupakan
 d i 
fungsi varians . McCullagh dan Nelder (1989) telah
membuktikan bahwa var(yi) = b ().r (), suku pertama
ii -1

merupakan fungsi varians dan suku kedua merupakan


parameter dispersi.
3. Menghitung regresi terbobot untuk zi(t) atas covariate xi dan
pembobot Wi(t) untuk mendapatkan koefisien regresi terbobot
ˆ (t ) dan proses dilanjutkan untuk iterasi berikutnya.
Algoritma ini diulang sampai diperoleh nilai convergen untuk
ˆ

Asymtotic matrik varians-covarian untuk parameter dalam


MLT yang diturunkan dari link kanonik yaitu (McCullagh dan
Nelder, 1989)
( X tVX ) 1
Var ( ˆ ) 
(r ( ))2

V merupakan matrik diagonal dengan elemen diagonal ke-i adalah


Var(yi). Matrik varian- covarian ini merupakan invers dari matrik
informasi. Pada distribusi Poisson, binomial dan eksponensial, nilai
r() = 1. Pada distribusi normal, karena mempunnyai link identitas,
maka diperoleh
Var ( ˆ )  ( X t X )1 2 sebab V= 2I dan [r()]-2 = 4.

Sementara itu untuk link non-kanonik, asymtotis matrik varian-


covarian adalah

214
ˆ ( X t VX ) 1
Var (  ) 
(r ( ))2
 i
 adalah matrik diagonal dengan elemen diagonalnya  i  .
xit 
Pada link kanonik, i bernilai 1.

6.4. Inferensi Parameter β ”erdasarkan Fungsi Likelihood


Inferensi statistik pada GLM juga didasarkan pada fungsi
likelihood. Model MLT pada link kanonik dapat dinyatakan
sebagai
yi = f(xit) + i i= , , ,n

Fungsi log likelihood yang biasa dinotasikan dengan L( ), dapat


direvatifkan terhadap masing-masing parameter . Rasio
loglikelihood dua buah model mendekati distribusi chi squared.
L( ˆred )
 2 ln  2 ln L( ˆ full )  2 ln L( ˆred ) ~ 2(p-s)
ˆ
L(  )
full

dengan L( ˆ full ) merupakan likelihood model lengkap (lebih


lengkap) dan L( ˆRe d ) adalah model tereduksi. Notasi p adalah
jumlah parameter pada model lengkap dan s adalah jumlah
parameter pada model tak lengkap (tereduksi).
Selanjutnya dapat disusun statistik F yang berdistribusi F(p-s; p) ,[4]
2 ln L( ˆ full )  2 ln L( ˆred ) /( p  s)
F ~ F(p-s;p)
2 ln L( ˆ ) / p red

Sebagai contoh model linear memuat parameter 0, 1, 2 dan


3. Selanjutnya diuji hipotesis
H0 :  2 =  3 = 0

215
Berdasarkan distribusi normal maka dapat digunakan statistik uji
( SSRe s (  0 , 1 )  SSRe s (  0 , 1 ,  2 ,  3 ) /( 4  2)
F ~ F(2;4)
SSRe s (  0 , 1 ,  2 ,  3 ) / 4

Dalam MLT, SSRes disubtitusi dengan lnL(.), sehingga


L(  0 , 1 )
 2 ln  2 ln L(  0 , 1 ,  2 ,  3 )  2 ln L(  0 , 1 ) ~ 2(4-2)
L(  0 , 1 ,  2 ,  3 )
atau
2 ln L(  0 , 1 ,  2 ,  3 )  2 ln L(  0 , 1 ) / 2
F ~ F(2;4)
2 ln L(  0 , 1 ) / 4

6.5. Uji Kecocokan Model Dengan Nilai Devians


Dalam model linear klasik, jumlah kuadrat residual (JKR)
merupakan ukuran ketidaksesuaian antara data dengan nilai yang
diperoleh dari model. Dalam MLT, JKR dikembangkan menjadi
devians yang merupakan statistik loglikelihood rasio. Devians
merupakan selisih antara nilai likelihood pada model yang diuji
dibandingkan dengan model lengkap (Myers dan Montgomery,
1997). Devians untuk beberapa distribusi keluarga eksponensial
dapat dilihat pada Tabel 6.2.

Tabel 6.2. Fungsi devians pada distribusi keluarga eksponensial.

Distribusi

Normal Poisson Binomial Gamma


Model  = x  = exp(x)  = 1/{1+exp(x)}  = 1/x
 = n
Residual (yi - ̂ i ) {yilog(yi/ ̂ i ) - {yilog(yi/ ̂ i )+(ni-yi). {-log(yi/ ̂ i ) +
devians
yi+ ̂ i }1/2 Log[(ni-yi)/(ni- ̂ i )]}1/2 (yi- ̂ i )/ ̂ i )}1/2
Fungsi (yi - 2{yilog(yi/ ̂ i ) 2{yilog(yi/ ̂ i )+(ni-yi). 2{-log(yi/ ̂ i )
devians ̂ i )2 - yi + ̂ i } Log[(ni-yi)/(ni- ̂ i )]} + (yi- ̂ i )/ ̂ i )}

216
Dalam model linear, pengujian kecocokan model didasarkan atas
nilai JKR. Sementara itu dalam GLM uji kecocokan model
didasarkan atas nilai devians yang berdistribusi chi kuadrat.
Menggunakan konsep uji rasio likelihood, maka
 L(  ) 
D(  )  2 log    2[log L(  )  log L(  )]
 L(  ) 
L() adalah maksimum likelihood untuk model yang dimaksud
dan L() adalah maksimum likelihood model lengkap (saturated).
D() adalah devians pada model yang dipilih dan secara asimtotis
berdistribusi Chi Kuadrat dengan derajad bebas p-s ( p : jumlah
parameter model lengkap dan s jumlah parameter pada model
yang dimaksud).
Persamaan D( ) dapat dinyatakan dalam selisih devians, misal
parameter
 
   1
2 
 memuat p parameter dan 1 memuat r < p parameter.
Untuk menguji hipotesis H0 : 1 = 0 vs H1 : 1  0 dapat
digunakan statistik
D(1|2) = D(2)- D() ~ 2(r )

Seperti halnya dalam model normal, jika model semakin besar


(paramater semakin banyak) maka semakin kecil jumlah kuadrat
sesatan (error). Demikian juga dalam GLM, semakin banyak
parameter, maka nilai devians makin kecil. Dalam distribusi normal
D() = SSE/2 dengan SSE = JKR/db

Selanjutnya, untuk menguji masing-masing parameternya (uji


parsial) digunakan statistik

217
2
 coeff . 
  2

 est.std .error 
yang mempunyai distribusi asymtotis chi squared dengan derajad
bebas satu. Statistik ini disebut Wald statistic. P Value untuk
masing-masing koefisien dapat dilihat dalam program S Plus.
Pendekatan dengan distribusi normal akan diperoleh statistik t.
Statistik R2 dalam GLM (sebagaimana koefisien determinasi
dalam model normal) adalah
D(  0 )  D(  )
R2 
D(  0 )
(0) adalah devians untuk intersep (null devians) dan D() adalah
devians pada model yang dipilih.

6.6. Estimasi Interval dengan GLM


Sebagaimana dalam linear model, nilai prediksi untuk y dapat
dinyatakan dalam interval konfidensi. Dalam regresi linear standar,
interval konfidensi untuk E(y|x=x0) dinyatakan :
yˆ ( x)  t / 2, n  p s x0t ( X t X )1 x0

yang didasarkan pada Var ( yˆ | x  x0 )   2 x0t ( X t X )1 x0 . Sementara

itu dalam GLM dapat dinyatakan Var ( xt  )  x0tVar ( ˆ ) x0 .


Selanjutnya untuk non linear model, termasuk didalamnya GLM,
dapat dibangun dari link identitas, delta method memberikan
Var ( fˆ ( x0t  )  d0tVar (ˆ )d0 .
fˆ ( x0t ˆ )
dimana d 0   , Untuk kanonic link diperoleh persamaan

d0t  Var ( y0 ) x0t , sehingga

218
t 1
( X VX )
Var ( fˆ ( x0t  )  [Var ( y0 ]2 x0t x0 .
[r ( )]2
Selanjutnya, secara asymtotis
( fˆ ( x0t  )  f ( x0t  ))
~ N (0,1) ,
t 1
( X VX )
[Var ( y0 ] x0t x0
[r ( )]2
oleh karena itu interval konfidensi 100(1-)% untuk mean f ( x0t  )
dapat dinyatakan sebagai
t 1
( X VX )
( fˆ ( x0t  )  z / 2Vˆar ( y0 ) x0t x0
[r ( )]2
Sebagai contoh, untuk regresi Poisson,
exp( x0t ˆ )  z / 2 exp( x0t ˆ ) x0t ( X tVX )1 x0
dimana V merupakan matrik diagonal dengan elemen diagonal ke-i
adalah exp( x0 ˆ ) .
t

Pendekatan lain dalam mencari estimasi interval adalah dengan


menentukan interval konfidensi untuk xt. Misal pada kasus
poisson adalah
x0t ˆ  z / 2 x0t ( X tVX ) 1 x0
Selanjutnya interval konfidensi untuk mean adalah
exp{x0t ˆ  z / 2 x0t ( X tVX )1 x0 } dan exp{x0t ˆ  z / 2 x0t ( X tVX )1 x0 }

Untuk mengestimasi satu observasi y0, dapat digunakan distribusi


asymtotis

219
y0  ( fˆ ( x0t  )
~ N (0,1) atau
Var ( y0 )
 Var{( fˆ ( x0  )}
t

r ( )
y0  ( fˆ ( x0t  )
~ N (0,1)
Var ( y0 ) ( X tVX ) 1
 [Var ( y0 )]2 x0t x0
r ( ) [r ( )]2

Sehingga khusus untuk kanonical link, diperoleh estimasi interval


[Vˆar ( y0 )]1 / 2 ( X tVX ) 1
( ˆ ( x0t  )  z / 2 1  Vˆar ( y0 )[ x0t x0 ]
r ( ) [r ( )]
Pada model link kanonik
yi  exp( xt  )   i untuk i=1,2,...,n
dan ̂ adalah MLE, maka estimasi interval 100(1-)% untuk y0
pada x=x0 adalah

exp( x0t ˆ )  z / 2 exp( x0t ˆ ) 1  exp( x0t ˆ )[ x0t ( X tVX )1 x0 ]


dimana V adalah matrik diagonal dengan elemen diagonalnya
exp( x0t ˆ ) .
GLM telah dikembangkan pada aspek variansi tidak normal,
model dispersi dan fungsi link. GLM dapat digunakan untuk
menganalisis data dengan distribusi galatnya tidak normal. Untuk
keperluan estimasi parameter, inferensi parameter maupun
penentuan model dibutuhkan perhitungan yang lebih komplek
dibanding dengan model normal. Oleh karena diperoleh
persamaan penaksir yang berbentuk non close form€ dilakukan
proses iterasi yang didasarkan atas deret Taylor. Aplikasi GLM
banyak digunakan untuk peningkatan kualitas dan perancangan
produk baru di bidang industri (Nugraha, 2004).

220
6.7. GLM pada Program R
Fungsi R untuk generalized linear model adalah glm (), yang
sangat mirip dengan lm (), tetapi juga memiliki argumen keluarga.
Misalkan dari data "roadData€ akan disusun model Poisson.
Variabel dependenya adalah numAcc dan variabel independenya
adalah raodType dan weekDay. Data numAcc berdistribusi
Poisson μi , degan log μi) = Xi. Fungsi yang digunakan adalah
>glm( numAcc˜roadType+weekDay,
family=poisson(link=log), data=roadData)

Keluarga lain yang tersedia meliputi gaussian, binomial,


inverse.gaussian dan Gamma. Model cocok menggunakan iterative
reweighted least square, sehingga juga memungkinkan untuk
mengatur (mengeset) parameter konvergensi. Hal ini juga
memungkinkan untuk menyertakan ataupun tidak menyertakan
variabel dalam persamaan dengan menggunakan argumen offset ( )
dalam formula. Seperti halnya dengan lm (), ada beberapa metode
untuk objek glm, termasuk summary, Coef, resid, predict, anova dan
deviance. Untuk mengetahui lebih lanjut tentang jenis metode ini
dapat digunakan perintah help(predict.glm).

6.7.1. Data Berdistribusi Binomial


Yi binomial (ni, pi), di mana ni tetap dan l(pi) = Xi.. Ada tiga
cara untuk menentukan jumlah percobaan ini:
 Respon adalah sebuah vektor: diasumsikan berbentuk yi / ni
dan jika ni berada di vektor numTrials, Anda juga harus
menentukan weights= = numTrials.
 Respon adalah vektor logit: itu diperlakukan sebagai hasil
biner (binairy outcome)

221
 Respon adalah matriks dua kolom: kolom pertama
diasumsikan sebagai jumlah keberhasilan dan kolom kedua
adalah jumlah kegagalan.

Ada tiga fungsi link: logit, probit dan cloglog.


Contoh data €Toksisitas dari pyrethroid ke tembakau
budworm€. Enam level dosis yang diberikan kepada kelompok
ngengat, 20 jantan dan betina.

Gambar 6.1. Proporsi kematian dan prediksi probabilitas kematian untuk


ngengat budworms jantan dan betina pada variasi dosis.
> ldose <- rep(0:5,2)
> numdead <- c(1,4,9,13,18,20,0,2,6,10,12,16)
> sex <- factor(rep(c("M","F"),rep(6,2)))
> SF <- cbind(numdead, numalive=20-numdead)
> budworm <- glm( SF ˜ sex * ldose, family=binomial)
> summary(budworm)
Coefficients:
Estimate Std. Error z value
Pr(>|z|)
(Intercept)-2.9935 0.5527 -5.416 6.09e-08
***
sexM 0.1750 0.7783 0.225 0.822
ldose 0.9060 0.1671 5.422 5.89e-08 ***
sexM:ldose 0.3529 0.2700 1.307 0.191
---

222
Signif.codes:0‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
(Dispersion parameter for binomial family taken to be
1)
Null deviance: 124.8756 on 11 degrees of freedom
Residual deviance: 4.9937 on 8 degrees of freedom
AIC: 43.104
Number of Fisher Scoring iterations: 4
> anova(budworm, test="Chi")
Analysis of Deviance Table
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 11 124.876
sex 1 6.077 10 118.799
0.014
ldose 1 112.042 9 6.757 3.499e-26
sex:ldose 1 1.763 8 4.994 0.184
> summary( glm( SF ˜ sex + ldose, family=binomial) )
Coefficients:
Estimate Std. Error z value
Pr(>|z|)
(Intercept)-3.4732 0.4685 -7.413 1.23e-13
***
sexM 1.1007 0.3558 3.093 0.00198 **
ldose 1.0642 0.1311 8.119 4.70e-16 ***
---
Signif. codes: 0‘***’0.001‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
(Dispersion parameter for binomial family taken to be
1)
Null deviance : 124.876 on 11 degrees of
freedom
Residual deviance: 6.757 n 9 degrees of freedom
AIC: 42.867
Number of Fisher Scoring iterations:

6.7.2. Data Berdistribusi Poisson.


Yi Poisson (i), di mana l(i) = Xi. Ada tiga fungsi link: log,
identity dan sqrt. Contoh data Vonis hukuman mati untuk kasus-

223
kasus yang melibatkan beberapa pembunuhan di Florida antara
1976 dan 1987.
Tabel 6.3. Data Vonis hukuman mati
Ras Korban
Putih (W) Negro (B)
Ras Terdakwa Ras Terdakwa
Putih (W) Negro (B) Putih (W) Negro (B)
Hukum Ya 53 11 0 4
Mati Tidak 414 37 16 139
Sumber: Agresti (2007)
> deathpenalty<-
data.frame(number=c(53,11,0,4,414,37,16,139),
victim=c("W","W","B","B","W","W","B","B"),
defendant = c("W","B","W","B","W","B","W","B"),
death = rep(c("yes","no"),rep(4,2)))
>summary(glm(number˜(victim+defendant+death)ˆ2,
family=poisson, data=deathpenalty))
Coefficients:
Estimate Std.Error z value
Pr(>|z|)
(Intercept) 4.93578 0.08471 58.265 < 2e-16
***
victimW -1.32980 0.18479 -7.196 6.19e-13 ***
defendantW -2.17465 0.26377 -8.245 < 2e-16
***
deathyes -3.59610 0.50691 -7.094 1.30e-12 ***
victimW:defendantW 4.59497 0.31353 14.656 < 2e-16 ***
victimW:deathyes 2.40444 0.60061 4.003 6.25e-05 ***
defendantW:deathyes-0.86780 0.36707 -2.364 0.0181 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’0.01‘*’0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1225.07955 on 7 degrees of freedom
Residual deviance: 0.37984 on 1 degrees of freedom
AIC: 52.42
Number of Fisher Scoring iterations: 3
> deathpenalty2 <- data.frame(

224
prop= c(53,11,0,4)/(c(53,11,0,4)+c(414,37,16,139)),
victim = c("W","W","B","B"),defendant =
c("W","B","W","B"),
weights = c(53,11,0,4)+c(414,37,16,139))
> summary (glm(prop˜victim+defendant, family=binomial,
weights=weights, data=deathpenalty2))
Coefficients:
Estimate Std.Error z value Pr(>|z|)
(Intercept)-3.5961 0.5069 -7.094 1.30e-12 ***
victimW 2.4044 0.6006 4.003 6.25e-05 ***
defendantW -0.8678 0.3671 -2.364 0.0181 *
---
Signif.codes:0‘***’0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 22.26591 on 3 degrees of freedom
Residual deviance: 0.37984 on 1 degrees of freedom
AIC: 19.3
Number of Fisher Scoring iterations: 4

Contoh data Jumlah hari absen dari sekolah dalam satu tahun
oleh anak-anak dari sebuah kota besar di pedesaan NSW,
Australia. Anak-anak dikelompokkan berdasarkan umur (4
tingkat), etnicity (aborigin atau tidak), apakah mereka yang
lambat atau cepat dalam belajar, dan jenis kelamin (M atau F).
Data dapat diakses dalam library MASS.
> library(MASS)
> attach(quine)
> quine.nb <- glm.nb(Days˜.ˆ4, data=quine)
> quine.nb2 <- stepAIC(quine.nb)
> summary(quine.nb2,cor=F)
Coefficients: (3 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.1693 0.3411 9.292 < 2e-16
***
EthN -0.3560 0.4210 -0.845 0.397848
SexM -0.6920 0.4138 -1.672 0.094459
.
AgeF1 -0.6405 0.4638 -1.381 0.167329

225
AgeF2 -2.4576 0.8675 -2.833 0.004612
**
AgeF3 -0.5880 0.3973 -1.480 0.138885
LrnSL -1.0264 0.7378 -1.391 0.164179
EthN:SexM -0.3562 0.3854 -0.924 0.355364
EthN:AgeF1 0.1500 0.5644 0.266 0.790400
EthN:AgeF2 -0.3833 0.5640 -0.680 0.496746
EthN:AgeF3 0.4719 0.4542 1.039 0.298824
EthN:LrnSL 0.9651 0.7753 1.245 0.213255
SexM:AgeF1 0.2985 0.6047 0.494 0.621597
SexM:AgeF2 3.2904 0.8941 3.680 0.000233
***
SexM:AgeF3 1.5412 0.4548 3.389 0.000702
***
SexM:LrnSL 0.5457 0.8013 0.681 0.495873
AgeF1:LrnSL 1.6231 0.8222 1.974 0.048373
*
AgeF2:LrnSL 3.8321 1.1054 3.467 0.000527
***
AgeF3:LrnSL NA NA NA NA
EthN:SexM:LrnSL 1.3578 0.5914 2.296 0.021684
*
EthN:AgeF1:LrnSL -2.1013 0.8728 -2.408 0.016058
*
EthN:AgeF2:LrnSL -1.8260 0.8774 -2.081 0.037426
*
EthN:AgeF3:LrnSL NA NA NA NA
SexM:AgeF1:LrnSL -1.1086 0.9409 -1.178 0.238671
SexM:AgeF2:LrnSL -2.8800 1.1550 -2.493 0.012651
*
SexM:AgeF3:LrnSL NA NA NA NA
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
Null deviance: 265.27 on 145 degrees of freedom
Residual deviance: 167.44 on 123 degrees of freedom
AIC: 1091.4
Number of Fisher Scoring iterations: 1
Theta: 1.865
Std. Err.: 0.258

226
BAB VII
PENGANTAR PROGRAM R

7.1. Pendahuluan
Program R adalah program statistika yang didistribusikan
melalui internet di bawah GPL (General Public License), hal ini
memungkinkan untuk digunakan secara bebas. Artinya untuk
menggunakan R tidak diperlukan pembayaran lisensi. R dapat
dioperasikan di bawah sistem operasi Microsoft 95, 98, 2000, XP,
Windows Vista, Windows 7 atau yang terbaru, varian dari Unix,
Linux dan Apple Macintosh.
R merupakan suatu sistem analisis statistika yang relatif
lengkap, yang merupakan hasil dari kolaborasi riset berbagai
statistisi di seluruh dunia. Versi paling awal R dibuat tahun 1992 di
Universitas Aucland, New Zealand oleh Ross Ihaka dan Robert
Gentleman (yang mungkin menjelaskan asal muasal akronim nama
R untuk software ini). Saat ini Source code kernel R dikembangkan
oleh R Core Team, yang beranggotakan 17 orang statistisi dari
berbagai penjuru dunia.
R dapat diperoleh secara bebas di CRAN-archive (The
Comprehensive R Archive Network) pada alamat http:/CRAN.r-
project.org. Server utama CRAN berlokasi di Universitas Teknologi
Vienna, Austria dan di mirror world-wide lebih kurang 17 situs di
lima benua. Karena R adalah sebuah bahasa pemrograman,
sebagian besar fungsi-fungsi tersedia dalam bentuk library
(kadang-kadang disebut paket) yang diperoleh dari situs R. Kita
dapat menginstal library sesuai dengan keinginan. Daftar library

227
terkompresi siap untuk di-download di http:/CRAN.r-project.org.
Jika kita menggunakan GUI, mulai R dan klik install package from
local directory€ yang terletak di package€, kemudian pilih file yang
Anda download. Sekarang paket akan tersedia untuk digunakan.
Jika kita menggunakan R di bawah linux, instal pustaka baru
dengan menjalankan perintah berikut pada perintah: "R CMD
INSTALL packagename". Kita juga dapat mengunduh dan menginstal
paket sekaligus dari dalam R dengan menggunakan perintah
seperti
>install.packages(c("car","systemfit"),repo="http://cran.
stat.ucla.edu",dep=TRUE)

Perintah tersebut menginstal data "car" dan libary systemfit.


Dependensi atau parameter dep menunjukkan bahwa R harus
mengunduh paket-paket yang bergantung pada ini juga.
Ada beberapa metode untuk mendapatkan bantuan dalam R
> ?qt
> help(qt)
> help.start()
> help.search("covariance")

Argumen dalam tanda kurung (.) merupakan kata yang


ditanyakan. help(qt) berarti menanyakan fungsi atau kata qt dalam
R. Bantuan yang tersedia lengkap dapat ditemukan di situs R.
Pencarian situs R untuk fungsi-fungsi dan referensi tertentu dapat
menggunakan
> RSiteSearch("Kalman Filter")

7.2. Manipulasi Data


R memungkinkan kita untuk membuat berbagai jenis objek
penyimpanan data, seperti angka, vektor, matrik, string, dan

228
dataframes. Perintah ls () memberikan daftar semua objek data yang
tersedia saat ini. Perintah rm () menghapus objek data yang
diberikan sebagai argumen. Kita dapat menentukan jenis objek
menggunakan perintah typeof () atau jenis kelas (yang sering kali
lebih informatif) menggunakan class (). Perintah untuk menciptakan
atau mendefinisikan sebuah objek menggunakan perintah
> g <- 7.5

yang berarti menciptakan objek numerik yang disebut g, yang


berisi nilai 7.5.
> f <- c(7.5,6,5)
> F <- t(f)

Perintah c () (concatenate) untuk membuat vektor dengan nilai 7.5, 6,


dan 5. c () adalah fungsi generik yang dapat digunakan pada
berbagai jenis data. perintah t() adalah transpos dari matrik f
(vektor f merupakan matrik 1x3). Perintah cbind () adalah
mengabungkan data menurut kolom.
> dat <- cbind(c(7.5,6,5),c(1,2,3))

Demikian pula, rbind () adalah menggabungkan data menurut baris.


Elemen dalam vektor dan jenis data yang sama diindeks
menggunakan tanda kurung siku. R menggunakan pengindeksan
berbasis satu.
> f
[1] 7.5 6.0 5.0
> f[2]
[1] 6
Perhatikan bahwa untuk tipe data multidimensi, seperti matrik
dan dataframes, meninggalkan indeks kosong merujuk kepada
seluruh kolom atau baris yang sesuai dengan indeks. Misalkan foo
adalah array 4x5

229
> foo

akan tercetak di seluruh array ke layar,


> foo[1,]

akan tercetak di baris pertama,


> foo[,3]

akan tercetak di kolom ketiga, dll. Kita bisa mendapatkan


ringkasan statistik pada data di foo menggunakan summary () dan
kita dapat menentukan dimensi menggunakan perintah NROW (),
dan NCOL (). Lebih umum, kita dapat menggunakan perintah dim()
untuk mengetahui dimensi dari banyak R objek.
Jika kita ingin mengekstrak atau mencetak hanya baris atau
kolom tertentu, kita dapat menggunakan operator singkatan.
> oddfoo <- foo[,c(1,3,5)]

membuat array 4x3 dari kolom 1,3, dan 5 dari foo dan
menyimpannya dalam oddfoo. Kita dapat menghapus kolom
tertentu dengan perintah
> nooddfoo <- foo[,-c(1,3,5)]

membuat sebuah array 4x2 dari kolom 2 dan 4 dari foo (dapat
menghilangkan kolom 1,3, dan 5). Kita dapat juga menggunakan
operator perbandingan untuk mengekstrak kolom atau baris
tertentu.
> smallfoo <- foo[foo[,1]<1,]
membandingkan setiap entri dalam kolom pertama foo untuk satu
dan menyisipkan baris yang sesuai untuk masing-masing pasangan
ke smallfoo. Kita juga dapat menyusun ulang data. Misalkan data
wealth yang merupakan dataframe dengan kolom merupakan
data year, GDP, dan GNP, kita bisa mengurutkan data dengan
menggunakan urutan year () atau ekstrak periode year
menggunakan operator titik dua .

230
Data wealth diatur menurut urutan year
> wealth <- wealth[order(wealth$year),]

Data firstten memuat data sepuluh pertama dari data wealth


> firstten <- wealth[1:10,]

Semua baris pada tahun 1980 pada data wealth disimpan dalam
data eighty
> eighty <- wealth[wealth$year==1980,]

Pada dasarnya tidak diijinkan menggunakan referensi beberapa


objek menggunakan indeks vektor. Misalnya
> w[[1:10]]

tidak mengembalikan vektor dari sepuluh elemen pertama w.


Kadang-kadang kita mempunyai data dalam bentuk dataframe.
Jika akan dijadikan matrik ataupun vektor dapat menggunakan
perintah as.matrix atau as.vector. Sebaliknya dari matrik dapat
diubah menjadi dataframe menggunakan perintah as.dataframe.
Jika semua nilai-nilai dalam foo adalah numerik, kita bisa masukkan
ke dalam matrik bernama mgoo dengan perintah
> mgoo <- as.matrix(foo)

Operasi manipulasi data lainnya dapat ditemukan dalam R standar


manual dan online.

7.3. Operasi Matematika


Operasi matematika seperti penambahan dan perkalian
beroperasi secara standard. Operasi aljabar matrik umumnya
dikelilingi oleh tanda %. Kesulitan di sini terjadi ketika seseorang
mencoba untuk mengerjakan soal matematika dengan
menggunakan benda-benda tertentu dari berbagai ukuran.
Disamping menghentikan dan mengeluarkan error seperti yang
diperkirakan, R menggunakan aturan daur ulang untuk

231
memutuskan bagaimana untuk perhitungan matematika yaitu,
mengulang nilai pada objek data yang lebih kecil. Misalnya
> a<-c(1,3,5,7)
> b<-c(2,8)
> a+b
[1] 3 11 7 15

Hanya jika dimensi bukan kelipatan satu sama lain, R kembali


melakukan peringatan (meskipun masih mengerjakan perhitungan)
> a<-c(2,4,16,7)
> b<-c(2,8,9)
> a+b
[1] 4 12 25 9
Warning message:
longer object length
is not a multiple of shorter object length in: a + b

Pada awalnya aturan recycling tampak menyebabkan kesalahan


jika programmer tidak berhati-hati, tetapi ini yang membuat
operasi skalar seperti penambahan dan perkalian skalar, vektor dan
matrik (serta vektor-ke-matrik tambahan) dapat dilakukan.
Perhatikan bahwa meskipun R mendaur ulang vektor ketika
ditambahkan ke vektor atau jenis data lain, tidak ada recycle saat
menambahkan, misalnya, dua matrik. Menambahkan matrik atau
array dimensi yang berbeda ke dalamnya akan menghasilkan eror.

7.4. Vektor
Hal yang paling mendasar dalam R adalah bahwa data
numerik dalam R adalah vektor tanpa nama. Sebuah skalar adalah
suatu 1-vektor. R biasanya mengasumsikan bahwa vektor adalah
vektor kolom, tetapi vektor dapat juga dipandang sebagai vektor
baris. Misalkan dipunyai dua buah vektor
a<-c(1,2,3)
b<-c(4,6,8)

232
Sekarang kita dapat membuat sebuah matrik dengan menumpuk
secara vertikal maupun horizontal dan R dapat memperlakukan
masing-masing vektor sebagai vektor baris ataupun vektor kolom.
> cbind(a,b)
a b
[1,] 1 4
[2,] 2 6
[3,] 3 8
> rbind(a,b)
[,1] [,2] [,3]
a 1 2 3
b 4 6 8

Dalam operasi aljabar linear, vektor perlu dikorversi ke dalam


matrik menggunakan perintah as.matrix ().

7.5. Array dan Matrik


Dalam R, data multivariat yang homogen (semua elemen
adalah tipe yang sama) dapat disimpan sebagai sebuah array atau
matrik. Sebuah matrik memiliki dua dimensi objek, sedangkan
array dapat dari banyak dimensi. Data dengan tipe ini tidak
memiliki atribut khusus untuk memberi nama kolom atau baris dan
hanya dapat menyimpan data numerik. Perhatikan bahwa orang
tidak dapat membuat sebuah matrik, array, atau vektor dari dua
jenis data yang berbeda (numerik dan karakter, misalnya). Jika
tidak memenuhi hal tersebut, akan terjadi eror. Untuk membuat
matrik berdimensi axb dapat digunakan perintah matrix(,a,b).
> matrix(c(1,2,3,4,5,6),3,2)
[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6

233
Array merupakan generalisasi dari matrik (dimensinya lebih dari
2). Misalkan membuat array dengan demensi tiga, dapat
menggunakan perintah array(,c(a,b,c)).
> array(c(1:12),c(2,3,2))
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12

7.6. Data Frame


Sebagian besar data dalam ekonometrika merupakan bentuk
dataframe. Sebuah dataframe adalah kumpulan vektor (sebagai
kolom) yang berisi data, yang tidak harus dari tipe yang sama,
tetapi masing-masing kolom harus memiliki jumlah elemen yang
sama. Setiap kolom memiliki judul. Jika goo adalah data 3x4
dengan nama kolom usia, jenis kelamin, pendidikan, dan gaji, maka
kita dapat mencetak gaji kolom dengan perintah:
> goo$salary

atau melihat nama-nama kolom dalam goo


> names(goo)

operasi matematika dapat dilakukan pada dataframe pada kolom


yang bertipe numerik. Misalkan
> salarysq <- (goo$salary)^2

menciptakan variabel salarysq yang merupakan kuadrat dari kolom


goo$salary.
> goo$lnsalary <- log(salarysq)

234
menambahkan kolom bernama lnsalary dalam goo, yang berisi log
dari salarysq.

7.7. List
List lebih umum daripada dataframe. Pada dasarnya list adalah
sekumpulan objek data yang terikat bersama. Seperti dataframe, kita
dapat melihat elemen apa yang berada dalam daftar (dengan nama
yang dimiliki) menggunakan perintah names() dan merujuknya,
baik dengan names (jika ada) dengan menggunakan simbol $ atau
nomor menggunakan tanda kurung. Ingat bahwa referensi anggota
daftar umumnya dilakukan dengan menggunakan kurung ganda,
bukan kurung tunggal. List bisa diseserhanakan menjadi vektor.
Sebagai contoh, fungsi strsplit () mengembalikan sebuah daftar
berisi substrings dari argumen. Dalam rangka untuk membuat
menjadi vektor string, kita harus mengubah daftar untuk sebuah
vektor unlist (). List kadang-kadang membingungkan, sehingga
unlist () adalah fungsi yang berguna.

7.8. Variabel Waktu (Dates)


Cara standar untuk menyimpan tanggal dalam R adalah
sebagai objek dari kelas Date. Hal ini memungkinkan untuk hal-hal
seperti pengurangan satu tanggal lain yang menghasilkan jumlah
hari di antara mereka. Untuk mengkonversi data untuk tanggal,
kita menggunakan Date (). Fungsi ini diperlukan sebagai masukan
sebuah karakter string dan format. Jika diberikan vektor tanggal
disimpan sebagai format angka (seperti 20050627) harus dikonversi
ke string menggunakan character ( ) terlebih dahulu. Argumen
format kode menginformasikan bagian mana dari string sesuai
dengan bagian dari tanggal. Empat digit tahun adalah %Y, dua

235
digit tahun adalah % y, numerik bulan adalah %m, abjad
(disingkat) bulan adalah %b, abjad (lengkap) bulan adalah %B, hari
ini adalah %d. Untuk kode lain, lihat bantuan file pada strptime.
Sebagai contoh, jika d adalah vektor tanggal diformat seperti "2005-
Jun-27", kita dapat menggunakan:

> g<-as.Date(d,format="%Y-%b-%d")

Secara internal, objek tanggal adalah kuantitas numerik, sehingga


tidak memakan terlalu banyak memori. Cara lain untuk
menyimpan tanggal adalah menggunakan paket data sesuai
dengan metode date(), dan ini lebih terdeteksi meskipun kurang
fleksibel.

7.9. Penggabungan Data frame


Jika kita memiliki dua dataframe meliputi waktu yang sama
atau pengamatan tetapi tidak benar-benar sejajar, kita dapat
menggabungkan dua dataframe menggunakan merge ().Kita dapat
menentukan kolom yang akan digunakan untuk menyelaraskan
data, atau merge() akan mencoba untuk mengidentifikasi nama
kolom yang sama antara keduanya. Sebagai contoh, jika B adalah
data frame data obligasi harga selama jangka waktu tertentu dan
memiliki kolom bernama tanggal yang berisi tanggal pengamatan
dan E adalah dataframe serupa berupa harga ekuitas di atas
tentang periode waktu yang sama, kita bisa menggabungkan
mereka menjadi satu dataframe (NA terpasang dengan pengamatan
mana pun ada dalam satu tetapi tidak Dataset lain) menggunakan:

> OUT<-merge(B,E)

236
Jika tanggal bernama kolom tanggal dalam B tapi hari di E,
perintahnya adalah :
> OUT<-merge(B,E,by.x="date",by.y="day")

7.10. Membuka File Data


R mampu membaca data dari berbagai format. Format yang
paling umum adalah file teks dengan data yang dibagi ke dalam
kolom dengan sebuah header di setiap kolom untuk
mendeskripsikan data. Jika blah.dat adalah file teks jenis ini berada
pada desktop windows, data dapat dibaca dengan perintah berikut:
> mydata <-read.table("C:/WINDOWS/Desktop/blah.dat",
header=TRUE)

Selanjutnya mydata adalah dataframe dengan kolom yang bernama,


siap untuk analisis. Perhatikan bahwa R mengasumsikan bahwa
tidak ada label di kolom, dan memberi mereka nilai-nilai default,
jika anda menghilangkan argumen header = TRUE. Sekarang mari
kita anggap bahwa disamping blah.dat kita memiliki blah.dta, sebuah
file Stata.
> library(foreign)
> mydata <- read.dta("C:/WINDOWS/Desktop/blah.dta")

7.11. Editing Data Secara Langsung


R memiliki sebuah spreadsheet built-in sebagai interface untuk
mengedit data. Ini bukan hal yang canggih, tetapi sangat berguna.
Misalkan a adalah dataframe, kita dapat mengeditnya di tempat
menggunakan
> data.entry(a)

Setiap perubahan yang kita buat (termasuk mengubah jenis data


yang terdapat dalam kolom) akan direfleksikan dengan cepat. Jika

237
kita ingin menyimpan perubahan data dalam variabel yang
berbeda, kita dapat menggunakan:
> b <- de(a)

Perhatikan bahwa kedua de () dan data.entry () mengembalikan


sebuah daftar tipe variabel. Jika yang kita inginkan adalah sebuah
dataframe, misalnya, kita perlu mengubah kembali setelah mengedit.
Fungsi edit () bekerja seperti de () tapi digunakan untuk banyak tipe
data yang berbeda. Dalam praktiknya, perintah de () atau sistem
editor teks default (diatur menggunakan opsi ()). Fungsi serupa yang
juga berguna adalah fix (), yang pengeditan objek R di tempat. fix ()
beroperasi pada apapun data. Dataframe dibuka dengan de().

7.12. Membuat Plots


Salah satu kelebihan R adalah kemampuan grafis.
Menyediakan perintah plot yang cerdas dan kemampuan untuk
mengedit rincian terkecil dalam plot. Perintah Plot () membuka
jendela baru dari rangkaian data yang diberikan itu. Satu vektor
digambarkan sebagai garis deret waktu dalam defaultnya. Jika dua
vektor yang diberikan kepada plot (), nilai-nilai yang diplot di x-y
tempat dengan menggunakan lingkaran-lingkaran kecil. Jenis plot
(scatter plot, garis, histogram, dll) dapat ditentukan dengan
menggunakan jenis argumen. String untuk utama, x, dan y label
juga dapat diberikan kepada plot.
> plot(x,y,type="l", main="X and Y example",ylab="y
values",xlab="x values")

plot garis di x-y dalam suatu bidang. Warna, simbol, dan banyak
pilihan lain yang dapat diterapkan untuk plot (). Untuk informasi
lebih lanjut, lihat help system dengan entry plot () dan par ().

238
Setelah jendela terbuka, jika kita ingin menempatkan di plot
lain di atas plot yang sudah ada gunakan perintah lines() atau
points(), yang menghubungkan titik-titik terhubung dengan sebuah
garis. Banyak pilihan yang digunakan untuk plot () dapat berlaku
untuk lines() dan sejumlah fungsi grafis lain. Kita bisa membuat
plot dari suatu garis, dengan koefisien tertentu, menggunakan
perintah abline(). Hal ini sangat berguna dalam memvisualisasikan
penempatan garis regresi bivariat.
> results <- lm(y ~ x)
> plot(x,y)
> abline(results$coef)

7.13. Membuat Plots dari Distribusi Empiris


Kita dapat menggambarkan distribusi dari vektor data
dengan memisahkannya ke dalam kelompok dan membuat plot
sebagai suatu histogram. Fungsi ini tersedia melalui perintah hist().
Histogram dapat menggambarkan distribusi data dengan memilih
lebar kelompok. Sebuah cara yang reliabel untuk memvisualisasi
data univariat adalah penggunaan pengukur kerapatan kernel
(kernel density estimator), yang memberikan perkiraan empiris.
Fungsi density() menghitung estimator kernel dan dapat diplot
menggunakan perintah plot().
> d <- density(y)
> plot(d,main="Kernel Density Estimate of Y")

239
Kita juga dapat merencanakan CDF empiris dari suatu
kumpulan data menggunakan perintah ecdf () dari library (stepfun),
yang termasuk dalam distribusi default. Kita bisa kemudian
merencanakan CDF yang diperkirakan menggunakan plot ().
> library(stepfun)
> d <- ecdf(y)
> plot(d,main="Empirical CDF of Y")

7.14. Plot Kontur (Contour Plots)


Perintah contour() dari paket grafik mengambil nilai-nilai
fungsi grid dan opsional dua vektor menunjukkan nilai-nilai x dan y
dari grid dan menarik garis-garis kontur. Garis kontur dapat
ditambahkan ke plot lain dengan menggunakan fungsi contourLines
()dengan cara yang sama. Package Lattice menyediakan sebuah
fungsi yang disebut levelplot () dan contourplot () yang lebih fleksibel
tetapi kurang sederhana untuk digunakan.

240
7.15. Menambahkan Legend dan Stuff
Setelah memplot kita sering ingin menambahkan notasi atau
grafik lain yang secara manual. Fungsi text() dan legend() diambil
sebagai dua argumen pertama koordinat pada grafik di mana objek
yang dihasilkan harus ditempatkan. Dalam rangka menentukan
secara manual lokasi dari sebuah titik pada grafik, gunakan fungsi
locator(). Lokasi satu atau beberapa klik kanan pada grafik akan
dikembalikan oleh fungsi ini setelah klik kiri. Koordinat-koordinat
tersebut kemudian digunakan untuk menempatkan teks, legend,
atau pengaya lainnya ke dalam grafik. Contoh data time series,
dengan kurva prediksi dan garis error standar di sekelilingnya:
>plot(a.true,type="l",lty=1,ylim=c(11.6,12.5),
main="Predicted vs True",xlab="",ylab="")
> lines(a.predict$pred,lty=2,type="l")
> lines(a.predict$pred+a.predict$se,lty=3,type="l")
> lines(a.predict$pred-a.predict$se,lty=3,type="l")
> legend(145,11.95,c("truevalues","predicted"),lty=c (1,
2))

241
7.16. Menambahkan Panah, Teks dan Penanda
Setelah menggambar beberapa jenis plot jenis, kita dapat
menambahkan dengan menggunakan panah panah dengan fungsi
arrows() dari library graphics. Dibutuhkan koordinat "from" dan "to".
Teks dan marker dapat ditambahkan dimanapun pada bagian plot
menggunakan fungsi text() dan points (). Untuk points() jenis marker
ditentukan oleh parameter pch. Ada banyak nilai-nilai yang dapat
diambil, termasuk letter. Bagan cepat dari nilai yang mungkin
adalah output terakhir dari perintah yang dijalankan.
> x <- seq(0,.5,.005)
> y <- seq(0.7,1.3,.005)
> output <- matrix(nrow=length(x),ncol=length(y))
> for(i in 1:length(x)) {
+ for(j in 1:length(y)) {
+ output[i,j] <- posterior(c(x[i],y[j]))
+ }
+ }
> contour(output,x=x,y=y,xlab="sigma
squared",ylab="gamma",main="Posterior using a flat prior")
> points( 0.04647009 , 0.993137,pch=8)
> arrows(.1,.75,0.04647009,0.993137)
> text(.09,.73,"Posterior Mode",pos=4)

242
7.17. Multiple Plots
Kita dapat mempartisi gambar menjadi beberapa plot. Ada
beberapa fungsi yang dapat digunakan untuk melakukan hal ini,
termasuk split.screen (), layout(), dan par (). Yang paling sederhana
dan paling penting adalah par ().. Fungsi par () menset banyak jenis
default plot, termasuk margin, tick marks, dan layout. Cara paling
mudah mengatur beberapa plot adalah dengan memodifikasi
atribut mfrow. Ini adalah vektor yang pertama-tama ditentukan
dulu jumlah deretan dan yang kedua, jumlah kolom. Kadang-
kadang ketika merencanakan beberapa angka, default spasi
mungkin tidak sesuai dengan yang kita inginkan. Dalam kasus ini
kita dapat memodifikasi default margin (untuk setiap plot) dengan
menggunakan atribut mar. Ini merupakan empat vektor
menentukan entri margin default (bawah, kiri, atas, kanan). Standar
pengaturan c (5, 4, 4, 2) + 0,1. Untuk atas / bawah plot, kita dapat
mengurangi margin atas dan bawah. Untuk plot time series kita
dapat menggunakan
> op <- par(no.readonly=TRUE)
> par(mfrow=c(2,1),mar=c(3,4,2,2)+.1)
> plot(d[,1],main="Seasonally Adjusted",ylab=NULL)
> plot(d[,2],main="Unadjusted", ylab=NULL)
> par(op)

Perhatikan bahwa kita menyimpan setting pada op sebelum ploting


sehingga kita dapat merestorenya dan kita harus mengatur atribut
no.read only sementara mengerjakannya.

7.18. Menyimpan Plots


Untuk menyimpan plot ke file, kita mengubah grafik melalui
perintah png (), jpg (), atau postscript (), lalu kita memplot apa yang

243
kita inginkan dan menutup perangkat grafik khusus dengan
menggunakan dev.off (). Sebagai contoh :
> png("myplot.png")
> plot(x,y,main="A Graph Worth Saving")
> dev.off()
menciptakan sebuah file png plot x dan y. Dalam kasus file
postscript, jika kita bermaksud untuk menyertakan grafik dalam file
lain (seperti dalam dokumen LATEX), kita bisa memodifikasi
pengaturan postscript default, mengatur ukuran dan orientasi
kertas. Perhatikan bahwa ketika ukuran kertas khusus digunakan,
lebar dan tinggi harus ditentukan. Sebenarnya dengan LATEX kita
sering mengubah ukuran gambar secara eksplisit, sehingga Resize
mungkin tidak begitu penting.
>postscript("myplot.eps",paper="special",width=4,
height=4,horizontal=FALSE)
> plot(x,y,main="A Graph Worth Including in LaTeX")
> dev.off()

Satu catatan lagi yang perlu diperhatikan adalah bahwa


ukuran default kertas adalah A4, yang merupakan standar Eropa.
Untuk ukuran 8.5x11, kita menggunakan ukuran "letter". Bila
menggunakan gambar yang telah dihasilkan sebagai postscript,
kemudian dikonversi ke pdf, spesifikasi kertas perlu diperhatikan.
Perintah pdf () bekerja dengan cara yang sama perintah
postscript, secara default dengan ukuran kertas berketinggian dan
lebar 6 inci. Akhirnya, banyak grafik dalam tulisan ilmiah
dikerjakan dengan menggunakan perangkat lunak xfig. R
mempunyai kemampuan untuk mengekspor ke format xfig, yang
memungkinkan kita secara fleksibel melengkapi, menambahkan
dan mengubah plot kita. Jika menggunakan R untuk membuat plot

244
dasar (seperti kurva indiferen), nomor sumbu (axis) dan tanda
asing lain dihapus dari gambar.
> xfig("myoutput.fig", horizontal=F)
> plot(x,(x-.3)^2,type="l",xlab="",ylab="",xaxt="n",yaxt
="n")
> dev.off()
Parameter xaxt dan parameter yaxt berfungsi menghapus angka-
angka dan tanda tic dari sumbu.

7.19. Menambahkan Tulisan Miring dan Simbol Matematik


dalam Plots
R dapat mengeset sejumlah ekspresi matematis untuk
digunakan dalam plot untuk mengganti perintah substitute().
> plot(x,y,main=substitute(y==Psi*z-
sum(beta^gamma)),type="l")
> text(3,40,substitute(Delta[K]==1))
> text(0.6,20,substitute(Delta[K]==epsilon))

Mengubah huruf kapital pertama dari hasil simbol Yunani


melalui "Capital" dalam symbol. Perhatikan bahwa untuk
mendapatkan tanda sama dalam expression, orang harus
menggunakan tanda sama ganda, seperti di atas. Tanda kurung

245
menunjukkan subskrip. Kita dapat opsional melewati variabel
untuk substitute() untuk memasukkannya nilai dalam rumus.
Misalnya
> for (g in seq(.1,1,.1)){
plot(f(g),main=substitute(gamma==x,list(x=g)))}
Jika akan membuat sepuluh plot, dalam setiap plot judul akan
mencerminkan nilai, beri f(). Aturan untuk menghasilkan ekspresi
matematis tersedia melalui help for plotmath, yang merupakan mesin
typesetting matematika yang digunakan dalam R plot.
Untuk campuran teks dan simbol, gunakan perintah paste()
disamping subtitute()
>plot (density (tstats), main = subtitute (paste ( "t-
stat of", beta [0])))

7.20. Statistik
R memiliki fungsi statistik luas. Fungsi mean (), sd (), min (),
max (), dan var () beroperasi pada data seperti yang kita harapkan.
7.20.1. Distribusi Statistik yang Umum
R dapat juga menghasilkan dan menganalisa realisasi dari
variabel acak dari distribusi standar. Perintah yang
menghasilkan realisasi acak dimulai dengan huruf 'r' dan
mengambilnya sebagai argumen pertama jumlah pengamatan
untuk menghasilkan; perintah yang mengembalikan nilai pada
tertentu pdf pengamatan dimulai dengan 'd'; perintah yang
mengembalikan nilai cdf pengamatan tertentu mulai dengan 'p';
perintah yang kembali nomor yang sesuai dengan nilai cdf mulai
dengan q. Perhatikan bahwa the 'p' dan 'q' fungsi yang bertolak
belakang satu sama lain.
> rnorm(1,mean=2,sd=3)
[1] 2.418665
> pnorm(2.418665,mean=2,sd=3)

246
[1] 0.5554942
> dnorm(2.418665,mean=2,sd=3)
[1] 0.1316921
> qnorm(.5554942,mean=2,sd=3)
[1] 2.418665

Fungsi-fungsi ini menghasilkan nomor acak dari distribusi


N(2,9), menghitung nilai cdf dan pdf, dan kemudian verifikasi
bahwa nilai cdf sesuai dengan pengamatan asli. Jika kita tidak
menentukan mean dan deviasi standar, R akan beranggapan
normal standar.
rX (): Menghasilkan vektor acak dari distribusi X
dX (): Kembalikan nilai distribusi PDF X
pX (): Kembalikan nilai CDF distribusi X
qX (): Kembalikan angka di mana CDF hits masukan nilai [0,1]

Perhatikan bahwa kita dapat mengganti norm dengan salah satu


dari nama distribusi standar sebagaimana pada Tabel 1.4
Paket mvtnorm menyediakan distribusi normal dan
distribusi t dengan nama mvnorm dan mvt, berturut-turut.
Distribusi lainnya ditemukan dalam paket-paket lain. Sebagai
contoh, invgamma adalah tersedia dalam MCMCpack.

7.20.2. P-Values
Contoh, untuk menghitung nilai p sebesar 3.6 menggunakan
f (4, 43) distribusi, digunakan perintah :
> 1-pf(3.6,4,43)
[1] 0.01284459
kita gagal untuk menolak pada tingkat 1%, tapi mampu menolak
pada tingkat 5%. Ingat, jika nilai p lebih kecil dari nilai alpha,
kita dapat menolak. Juga ingat bahwa nilai p harus dikalikan

247
dua jika kita melakukan two tailed test. Sebagai contoh, two
tailed test dengan derajat kebebasan 2,8 dan 21:
> 1-pt(2.8,21)
[1] 0.005364828
> 2*(1-pt(2.8,21))
[1] 0.01072966

Jadi, kita akan menolak hipotesis nol yang tak berarti pada
tingkat 10%-olah itu jika one tailed test (ingat, nilai p kecil, lebih
banyak bukti yang mendukung penolakan), tetapi kita akan
gagal untuk menolak di sign-agnostic case.

7.20.3. Sampling dari Data


R menyediakan interface yang tepat dan cepat untuk
pengambilan sampel dari data (misalnya, untuk bootstrap).
Karena berperanan memanggil fungsi yang terkompilasi, jauh
lebih cepat daripada yang sampler manual. Fungsinya adalah
sample(). Argumen pertama adalah cocok untuk sampel atau
integer-jika sebuah integer diberikan, maka sampel diambil dari
vektor dari bilangan bulat antara satu dan nomor itu. Yang
kedua adalah ukuran sampel untuk mendapatkan. Mengganti
parameter menunjukkan apakah untuk sampel dengan atau
tanpa penggantian. Akhirnya, sebuah vektor probabilitas sampel
opsional dapat diteruskan.

7.21. Matematika dalam R


7.21.1. Operasi Matrik
Kebanyakan perintah R bekerja dengan berbagai jenis data.
Sebagian besar fungsi matematika standar dan operator
(termasuk perkalian, pembagian, dan kekuasaan) beroperasi
pada setiap komponen multidimensi. Jadi operasi A*B, di mana

248
A dan B adalah matrik, mengalikan sesuai komponen. Untuk
melakukan perkalian matrik atau produk batin, gunakan %*%
operator. Perlu diperhatikan bahwa dalam kasus perkalian
matrik-vektor, R akan secara otomatis membuat vektor baris
atau vektor kolom, mana yang selaras. Matrik inversi diperoleh
melalui fungsi solve().
(Catatan: solve () untuk sebuah matrik dan vektor, memecahkan
masalah linier yang sesuai) Fungsi t () mentranspose argumen.
Sehingga:

Akan sesuai perintah.


> beta <- solve(t(X)%*%X)%*%t(X)%*%Y

Atau untuk lebih efisien


> beta <- solve(t(X)%*%X,t(X)%*%Y)

Produk Kronecker product didukung dan dispesifikasi oleh


operator %x% operator.
> bigG <- g%x%h

menghitung produk Kronecker g dengan h. Jejak matrik kuadrat


dihitung dengan fungsi tr ().

7.21.2. Faktorisasi
R dapat menghitung matrik standar factorisasi. Faktorisasi
Cholesky dari matrik simetris definit positif tersedia melalui chol
(). Perlu dicatat bahwa chol () tidak akan memeriksa simetri
dalam argumen, sehingga pengguna harus berhati-hati.
Kita juga dapat mengambil dekomposisi eigenvalue matrik yang
simetris menggunakan eigen (). Oleh default ini pengecekan
secara rutin untuk input matrik simetri, tetapi mungkin lebih

249
baik untuk menentukan apakah matrik simetris dengan
konstruksi atau tidak menggunakan parameter simetris.
> J <- cbind(c(20,3),c(3,18))
> j <- eigen(J,symmetric=T)
> j$vec%*%diag(j$val)%*%t(j$vec)
[,1] [,2]
[1,] 20 3
[2,] 3 18

Jika nilai tunggal dekomposisi yang diinginkan, kita


menggunakan SVD ().

7.21.3. Optimisasi Numerik


R secara numerik dapat meminimalkan fungsi
menggunakan nlm(), yang mengambil sebagai argumen fungsi
dan vektor awal di mana untuk mengevaluasi fungsi. Argumen
pertama dari fungsi yang ditetapkan pengguna harus
merupakan parameter (s) di mana R akan meminimalkan fungsi,
argumen tambahan untuk fungsi (konstanta) harus ditentukan
dengan nama nlm. Untuk memaksimalkan fungsi, kalikan
fungsi dengan -1 dan meminimalkannya.
> g <- function(x,A,B){
out <- sin(x[1])-sin(x[2]-A)+x[3]^2+B
out}
> results <- nlm(g,c(1,2,3),A=4,B=2)
> results$min
[1] 6.497025e-13
> results$est
[1] -1.570797e+00 -7.123895e-01 -4.990333e-07

Fungsi ini menggunakan metode garis potong matrik-


numerik yang mendekati gradien, tetapi jika mengembalikan
nilai fungsi berisi sebuah atribut yang disebut gradien, dapat

250
menggunakan metode quasi-newton. Optimasi berbasis gradien
yang sesuai dengan di atas adalah sebagai berikut:
> g <- function(x,A,B){
out <- sin(x[1])-sin(x[2]-A)+x[3]^2+B
grad <- function(x,A){c(cos(x[1]),-cos(x[2]-
A),2*x[3])}
attr(out,"gradient") <- grad(x,A)
return(out)}
> results <- nlm(g,c(1,2,3),A=4,B=2)

Fungsi optimasi lain yang mungkin menarik adalah optimize ()


minimisasi satu dimensi, uniroot () untuk menemukan akar, dan
deriv () untuk menghitung turunan numerik.

7.21.4. Integral Numerik


Kita dapat menggunakan fungsi integrate () dari paket
statistik untuk melakukan integrasi dari unidimensional fungsi
yang dikenal. Sebagai contoh, jika kita ingin menemukan
konstanta integrasi untuk densitas posterior fungsi densitas kita
dapat mendefinisikan fungsi dan kemudian
mengintegrasikannya
> postdensity <- function(x){
exp(-1/2*((.12-x)^2+(.07-x)^2+(.08-x)^2))}
> const <- 1/integrate(postdensity,-Inf,Inf)$value

Perlu dicatat bahwa integrate () mengembalikan informasi


tambahan, seperti batas kesalahan, sehingga kita mengekstrak
nilai dengan menggunakan $ nilai. Juga, selain sebuah nama
fungsi, integrate () memerlukan batas integrasi, yang-seperti
dalam kasus ini-mungkin tak terbatas. Untuk integrasi
multidimensi, digunakan adapt () library adapt, yang memiliki
batas tertentu.

251
7.22. Menyusun Program
7.22.1. Menuliskan Fungsi
Suatu fungsi dapat diperlakukan sebagai objek lainnya
dalam R. Hal ini dibuat dengan operator dan penugasan function
(), yang melewati sebuah daftar argumen (gunakan tanda sama
untuk menunjukkan argumen default; semua argumen lain akan
diperlukan saat runtime). Kode yang akan beroperasi pada
argumen berikut, dikelilingi oleh kurung keriting jika terdiri dari
lebih dari satu baris. Jika suatu ekspresi atau variabel dievaluasi
dalam fungsi, tidak akan echo ke layar. Akan tetapi, jika itu
adalah evaluasi terakhir dalam fungsi, ia akan bertindak sebagai
nilai kembali. Ini berarti fungsi berikut adalah ekuivalen
>g<-function(x,Alpha=1,B=0)sin(x[1])-sin(x[2]-Alpha)
x[3]^2+B
> f <- function(x,Alpha=1,B=0){
out <- sin(x[1])-sin(x[2]-Alpha)+x[3]^2+B
return(out)}
> f(c(2,4,1),Al=3)
> f(c(2,4,1),Alpha=3)

Fungsi parameter yang melewati nilai, mengubah mereka di


dalam fungsi tidak mengubah mereka di luar fungsi. Juga
variabel yang didefinisikan dalam fungsi yang tidak tersedia di
luar fungsi. Jika sebuah variabel yang direferensikan dalam
fungsi, lingkup fungsi pertama dicek untuk variable tersebut,
pada ruang lingkup di atasnya, dst. Dengan kata lain, variabel di
luar fungsi tersedia untuk diberi kode untuk pembacaan, tetapi
perubahan dibuat menjadi ke variabel didefinisikan di luar
fungsi yang hilang ketika fungsi berakhir. Misalnya
> a<-c(1,2)
> k<-function(){
cat("Before: ",a,"\n")

252
a<-c(a,3)
cat("After: ",a,"\n")}
> k()
Before: 1 2
During: 1 2 3
> a
[1] 1 2

7.22.2. Looping
Looping dilakukan menggunakan untuk perintah sebagai
berikut:
> for (i in 1:20){cat(i)}
cat() berisi data diulang. Disamping 1:20, sebuah vektor atau
nilai matrik dapat digunakan. Variabel indeks akan mengambil
setiap nilai dalam vektor atau matrik dan menjalankan kode
yang terdapat dalam tanda kurung kurawal. Jika kita hanya
ingin satu loop dijalankan sampai menghentikannya, kita bisa
menggunakan, repeat, loop dan break
> repeat {
g <- rnorm(1)
if (g > 2.0) break
cat(g);cat("\n")}

Catatan perintah mengeluarkan newline charaacter,


sehingga output tidak ditulis kesamping dalam satu baris. Titik
koma bertindak untuk membiarkan R tahu di mana akhir
perintah kita, ketika kita meletakkan beberapa pada baris
perintah. Sebagai contoh, perintah di atas setara dengan :
> repeat {g <- rnorm(1);if (g>2.0)
break;cat(g);cat("\n");}

Selain kata kunci break, R memberikan kata kunci


berikutnya untuk menghadapi loop. Iterasi berakhir saat ini atau

253
mengulangi loop dan dilanjutkan dengan awal
iterasi berikutnya.

7.23. Menyimpan Data


Ketika kita memilih untuk keluar, R menanyakan apakah kita
ingin menyimpan gambar, variabel dan history. Secara manual, kita
dapat menyimpan R menggunakan perintah berikut:
> save.image()

Kita dapat menyimpan satu atau beberapa objek data ke file


tertentu menggunakan perinteh save ().
> save(BYU,x,y,file="BYUINFO.Rdata")

Variabel BYU, x, dan y disimpan dalam file bernama


"BYUINFO.Rdata". dapat diload kembali dengan menggunakan
perintah
> load("BYUINFO.Rdata")

R juga dapat menyimpan ke beberapa format. Gunakan write.table ()


untuk menulis data frame dipisahkan oleh spasi, file teks dengan
header.

7.24. Menyimpan Output


Kita mungkin juga ingin menulis output dari perintah kita ke
file. Ini dilakukan dengan menggunakan perintah sink()
> sink("myoutput.txt")
> a
> sink()

Output dari sebuah perintah eksekusi ini ditulis untuk


"myoutput.txt". Menggunakan sink() dengan argumen tidak ada
output mulai menggema ke layar lagi. Tentu saja, sink ()
menyembunyikan output sebagaimana kami berinteraksi dengan R,
begitu banyak kali cara termudah untuk mendapatkan transkripsesi

254
kita untuk menyalin dan menyisipkan menggunakan mouse.Jika
kita menggunakan file script, cara yang baik untuk mendapatkan
transkrip pekerjaan kita dan output adalah dengan menggunakan
sink () sehubungan dengan source ().
R dapat menyimpan plot dan grafik sebagai file gambar. Di
Windows, cukup klik sekali pada grafik sehingga di latar depan
dan kemudian pergi ke file/save dan menyimpannya sebagai jpeg
atau png. Cara lain untuk menyimpan gambar atau sebagai
postscript file dari baris perintah, seperti yang dijelaskan dalam
bagian plotting

7.25. Maximum Likelihood Estimation (MLE)


Sekarang kita membahas metode estimasi parameter pada
model nonlinier. Misalkan diketahui hubungan variabel y, L dan K
sebagai berikut
y  Lb K c  
Perhatikan bahwa cara terbaik untuk memecahkan masalah
ini adalah nonlinear kuadrat regresi dengan menggunakan nls ().
Kita melakukan estimasi kemungkinan maksimum pula. Pertama
kita menulis fungsi yang mengembalikan log likelihood
(sebenarnya negatif itu, karena minimisasi lebih mudah), kemudian
kita mengoptimalkan menggunakan nlm(). Perhatikan bahwa Y, L,
dan K adalah vektor data dan a, b, dan c adalah parameter yang
kita inginkan untuk mengestimasikannya.
> mloglik <- function(beta,Y,L,K){
n <- length(Y) sum((log(Y)-beta[1]-beta[2]*log(L)-
beta[3]*log(K))^2 )/(2*beta[4]^2) + n/2*log(2*pi) +
n*log(beta[4])}
> mlem <- nlm(mloglik,c(1,.75,.25,.03),Y=Y,L=L,K=K)

Untuk mencari MLE dapat juga digunakan library maxLik.

255
256
BAB VIII
APLIKASI STATISTIKA MENGGUNAKAN
R-COMMANDER

Terdapat salah satu paket library dalam software R yang sangat


simpel penggunaan karena penampilanya dan prinsip kerjanya
mirip dengan paket-paket program statistika komersial. Paket
program tersebut adalah Package }Rcmdr~ library Rcmd) yang biasa
disebut dengan R-Commander.
Dalam bab ini dimaksudkan sebagai panduan pengantar untuk
analisis data dengan R Comannder. Tujuan prinsip adalah untuk
memberikan panduan langkah demi langkah tentang penggunaan
R-Comannder untuk melakukan analisis data eksplorasi dan
penerapan analisis statistik. Program ini disediakan secara gratis
dan dapat di-download dari Arsip R di http://cran.r-project.org/.

8.1. Memulai R-Commander


8.1.1. R-Commander
R-Commander adalah perangkat lunak statistik gratis. R-
Commander dikembangkan menggunakan graphical user interface
(GUI) untuk R (bahasa pemrograman freeware statistik) dan
dikembangkan oleh Prof John Fox untuk memungkinkan
pengajaran mata kuliah statistik dan menghapus hambatan
kompleksitas perangkat lunak dalam proses belajar statistik. Paket
ini sangat berguna untuk pemula R, karena untuk analisis masing-
masing tombol disertai kode R yang mendasarinya. Program ini
dapat diperoleh di Home page: http://socserv.mcmaster.ca/
jfox/Misc/Rcmdr/

257
Beberapa program pendukung R-Comannder antara lain :
a. RcmdrPlugin.Export
b. RcmdrPlugin.FactoMineR
c. RcmdrPlugin.HH
d. RcmdrPlugin.IPSUR
e. RcmdrPlugin.SurvivalT
f. RcmdrPlugin.TeachingDemos
g. RcmdrPlugin.epack
h. RcmdrPlugin.orloca

8.1.2 Memulai R-Commander


Untuk menjalankan R-Commander, lakukan langkah-langkah
sebagai berikut
i. Jalankan R program
ii. Buka R-Commander dengan menuliskan > library("Rcmdr")
tekan tombol enter.
Jendela R-Commander akan nampak sebagai berikut

Gambar 8.1. Tampilan awal R-Commander

258
Grafik akan muncul dalam Jendela Perangkat Graphics secara
terpisah. Hanya grafik paling baru yang akan muncul. Anda dapat
menggunakan halaman atas dan halaman bawah tombol untuk
mengingat grafik sebelumnya. Penjelasan masing-masing tombol:

File : Menu item untuk membuka dan menyimpan file script;


untuk menyimpan output dan ruang kerja R, dan untuk
keluar.
Edit : Menu item (Cut, Copy, Paste, dll) untuk mengedit isi dari
skrip dan jendela output. Klik kanan di jendela script atau
output juga menampilkan edit "konteks" menu
Data : Submenu yang berisi item menu untuk membaca dan
memanipulasi data.
Statistics : Submenu yang berisi item menu untuk berbagai analisis
statistik dasar.
Graphs : Menu item untuk membuat grafik statistik sederhana.
Models : Item menu dan submenu untuk mendapatkan ringkasan
numerik, interval kepercayaan, tes hipotesis, diagnostik,
dan grafik untuk model statistik, dan untuk menambahkan
jumlah diagnostik, seperti residu, ke set data. Distribusi
Probabilitas, quantiles, dan grafik dari distribusi statistik
standar (untuk digunakan, misalnya, sebagai pengganti
tabel statistik).
Tools : Menu item untuk memuat paket R tidak terkait dengan
paket Rcmdr (misalnya, untuk mengakses data yang
disimpan dalam paket lain), dan untuk menetapkan
beberapa pilihan.
Help : Menu item untuk memperoleh informasi tentang R
Comannder (termasuk manual pengantar berasal dari
kertas ini). Selain itu, setiap kotak dialog R Commander
memiliki tombol Bantuan.
Data set : Menunjukkan nama dataset aktif.
Tombol: memungkinkan Anda memilih di antara dataset
saat ini dalam memori yang aktif
Edit data : Memungkinkan Anda untuk membuka dataset aktif

259
set
View : Memungkinkan Anda untuk melihat dataset aktif
data set
Model : Menunjukkan nama misalnya model yang aktif statistik
Model linier
Tombol: memungkinkan Anda untuk memilih di antara
model-model terbaru di memori

8.2. Input data


8.2.1. Pedoman masuk
i. Mulai data baru diatur melalui Data -> New data set.
ii. Masukkan nama pada New data set -> OK
Nama tidak diperkenankan ada spasi di dalamnya
iii. Sebuah editor Data jendela di mana Anda dapat
mengetikkan data Anda menggunakan format spreadsheet.
Setiap baris sesuai dengan sebuah objek.

Gambar 8.2. Tampilan data editor

260
iv. Menentukan variabel (kolom) dengan mengklik dalam
kolom label dan kemudian pada kotak dialog yang
dihasilkan masukkan nama dan jenis. Dimana jenis dapat
berupa numerik (kuantitatif) atau karakter (kualitatif). Klik
x di sudut kanan untuk menutup kotak dialog ini.

v. Kerangka data kemudian dataset aktif untuk R Comannder.

8.2.2. Impor dari File Teks


Data file perlu diatur sebagai data frame. Setiap kolom
merupakan satu variabel misalnya level glukosa. Setiap baris
mewakili individu. Informasi header harus terkandung dalam satu
baris.
i. Data -> Import data -> from text file
ii. Memilih nama untuk dataset baru (nama tidak boleh ada
spasi)
iii. Tentukan karakteristik dari file data (misalnya koma untuk
file csv) -> OK
iv. Browse dan pilih file /Open

Setelah data diimpor Anda harus mengecek file tersebut


sudah benar:
i. Pesan jendela: apakah ada kesalahan?
ii. Apakah jumlah baris dan kolom terlihat seperti yang
diharapkan?
iii. Lihat data melalui tombol View data set

8.2.3. Impor dari Excel


File data dapat dibaca dari Excel, namun mereka sering
memiliki masalah. Disarankan bahwa file dikonversi ke file teks

261
dan kemudian impor sebagaimana tercantum dalam 8.2.2.
Bagaimana?
Dalam Excel: Office -> Save As pilih comma-delimited (.csv)
format file

8.3. Menggunakan Comannder R untuk Diskripsikan Data


Dalam diskripsi data, kita dapat memeriksa kesalahan seperti
mencari nilai-nilai yang berada di luar nilai yang mungkin untuk
sebuah variabel, mencari kelebihan jumlah nilai yang hilang dan
mendiskripsikan data.
a. Memeriksa Variabel Kategorik
Langkah pemeriksaan adalah sebagai berikut
i. Statistics -> Summaries -> Frequency Distribution -> Select
the variables->OK
ii. Output:

Untuk setiap variabel yang Anda pilih akan memberitahu


Anda frekuensi untuk setiap tingkat.
> .Table # counts for Metode
AB
34
> round(100*.Table/sum(.Table), 2) # percentages for Metode
A B
42.86.1 7.14

b. Memeriksa Variabel kontinu


Langkah pemeriksaan adalah sebagai berikut
i. Statistics -> Summaries -> Numerical summary

262
ii. Jika Anda memiliki beberapa kelompok di klik meringkas
oleh kelompok-kelompok dan pilih variabel yang cocok->
OK

Memahami output:
mean : Ukuran tendensi sentral
sd : Standar deviasi - ukuran variabilitas dalam data
N : Jumlah pembacaan
NA : Jumlah nilai-nilai yang hilang
0% : minimum nilai
25% : Nilai di bawah yang 25 persen dari pengamatan
dapat ditemukan
50% : Nilai di bawah yang 50 persen dari pengamatan
dapat ditemukan.
75% : Nilai di bawah yang 75 persen dari pengamatan
dapat ditemukan.
100% : maksimum nilai

iii. Periksa minimum dan nilai maksimum :


iv. Periksa jumlah nilai yang hilang - jika ada banyak nilai-
nilai yang hilang Anda perlu bertanya mengapa?

263
v. Apakah nilai rata-rata masuk akal? Apakah apa yang
Anda harapkan dari pengalaman sebelumnya?
vi. Mengidentifikasi outlier
Graphs -> Index Plot
vii. Pilih variabel yang menjadi perhatian
viii. Centang mengidentifikasi pengamatan dengan mouse
ix. Lihatlah output grafis dan klik mouse pada pengamatan
bahwa adalah outlier untuk itu nomor indeks.

8.4. Memodifikasi Dataset


8.4.1. Menghitung Variabel Baru
Menghitung variabel baru dapat dilakukan dengan langkah-
langkah sebagai berikut::
i. Data -> Manage variabel dalam dataset aktif -> menghitung
variabel baru
ii. Masukkan nama variabel baru
iii. Sebuah ekspresi (persamaan) ditulis untuk mencerminkan
perhitungan diperlukan.

Tabel di bawah menunjukkan operator yang tersedia dan contoh


bagaimana hal itu dapat digunakan. Catatan: Double klik pada
variabel dalam kotak variabel saat ini akan mengirim variabel ke
ekspresi.
Tabel 8.1. Operator dan simbolnya
Operators Fungsi Contoh
x+y Penjumlahan Variabel 1 + Variabel 2
Variabel 1 + 20
x-y Pengurangan Variabel 3 – Variabel 2
35 - Variabel 2

264
Operators Fungsi Contoh
x*y Perkalian Variabel 3*Variabel 2
100*Variabel 1
x/y Pembagian Variabel 1/Variabel 2
Variabel 1 / 68
x^y X pangkat Y Variabel 1 ^ Variabel2
Variabel1^15
log10(x) Tranformasi Log10 Log10(Variabel 1)
log(x, base) Tranformasi Log pada base Log(Variabel 1, 2)
spesifik

8.4.2. Konversi Variabel Numerik Menjadi Variabel Kategori


Menilai apakah suatu variabel dimasukkan sebagai kategori
dapat dilakukan dengan langkah-langkah sebagai berikut
iv. Statistics -> Summaries -> Frequency Distribution
Hanya variabel kategori yang terdaftar. Atau menggunakan
v.Edit Data Set -> click pada setiap baris header dan akan
memberitahu Anda itu adalah numerik / kategoris

Konversi variabel numerik (angka) menjadi faktor dapat


dilakukan dengan langkah-langkah sebagai berikut
i. Data -> Manage variabel dalam set data aktif -> Convert
variabel numerik dengan faktor-faktor ...

265
ii. Pilih variabel
iii. Anda dapat menghasilkan variabel baru dengan
memasukkan nama dalam kotak "Nama variabel baru ...."
atau tetap menggunakan nama semula. Tingkat (level)
numerik dapat diberi nama. Akan muncul kotak dialog
untuk memasukkan nama untuk setiap nilai numerik.

iv. OK

8.5. Membagi data


8.5.1. Berdasarkan Kolom (Variabel)
a. Data -> dataset aktif -> dataset subset aktif
b. Tahan tombol CTRL untuk memilih variabel yang ingin Anda
simpan
c. Berikan dataset baru nama - OK>

8.5.2. Berdasarkan Baris


a. Data -> dataset aktif -> dataset subset aktif
b. Pilih variabel yang ingin Anda masukkan dalam dataset baru
c. Menulis 'ekspresi subset' yang merupakan sebuah aturan
untuk mendorong pemilihan baris

266
Keterangan simbol yang dapat digunakan :
== : Kesamaan. Digunakan untuk
menyatakan kesamaan suatu variabel
!= : Ketaksamaan. Digunakan untuk
menyatakan ketaksamaan suatu variabel
& : Mengkombinasikan beberapa pernyataan
menngunakan ekspresi and€
Or : Mengkombinasikan beberapa pernyataan
menngunakan ekspresi or€
is.na(varname) : Menyertakan variabel yang tidak ada
datanya
!is.na(varname) : Membuang variabel yang tidak ada
datanya
> : Lebih dari
< : Kurang dari
>= : Lebih dari atau sama dengan
<= : Kurang dari atau sama dengan

Jika Anda menggunakan nama dalam ekspresi maka perlu


tanda kutip ganda misalnya "Nama". Nama variabel harus
sama persis dengan nama yang digunakan sebagai header
kolom.
d. Berikan dataset nama baru -> OK.

8.6. Menggunakan Comannder R untuk Mengeksplorasi Data


8.6.1. Grafik
Comannder R mampu menghasilkan berbagai grafik statistik
dasar. Output grafis dalam R Comannder dibatasi oleh pilihan yang
ditawarkan dalam menu.
Beberapa referensi untuk menghasilkan grafik dalam R dapat
diakses melalui :

267
http://www.harding.edu/fmccown/R/
http://www.statmethods.net/graphs/index.html
http://freshmeat.net/articles/creating-charts-and-graphs-with-gnu-r
http://www.ats.ucla.edu/stat/R/library/lecture_graphing_r.htm

8.6.2. Histogram
Dalam statistik, histogram adalah tampilan grafis dari
frekuensi. Langkah-langkah menampilkan histogram ;
a. Graph -> Histogram
b. Pilih variabel yang menarik
c. Pilih skala sumbu
d. Oke

8.6.3. Plot Q-Q


Dalam statistik, plot Q-Q ("Q" adalah singkatan dari kuantil)
adalah plot probabilitas, yang merupakan metode grafis untuk
membandingkan dua distribusi probabilitas dengan memplot
quantiles mereka terhadap satu sama lain. Jika dua distribusi yang
dibandingkan adalah sama, titik-titik dalam plot QQ sekitar akan
terletak di atas garis y = x. Sebuah plot norma QQ membandingkan
distribusi sampel terhadap distribusi normal. Langkah-langkah
menyusun plot Q-Q
a. Graph -> Quantile-comparison plot
b. Pilih variabel yang menarik
c. Pilih distribusi yang dikehendaki misalkan distribusi Normal
d. OK

268
8.6.4. Scatterplots
Langkah-langkah menyusun
a. Graph -> Scatterplot
b. Pilih variabel untuk sumbu x dan sumbu y
c. Masukkan nama untuk label sumbu x dan sumbu y label
d. Jika Anda ingin x atau sumbu y dapat login.
e. Jitter: ini berguna ketika ada banyak titik data untuk melihat
apakah mereka overlay, karena fungsi yang digunakan untuk
secara acak mengganggu poin tapi ini tidak mempengaruhi
pas baris.
f. Least-square line dapat dipilih agar sesuai dengan garis regresi
linier terbaik cocok.
g. Plot by group akan memungkinkan pilihan variabel kategori
seperti scatter plot dengan menggunakan warna untuk
membedakan kelompok .
h. Interpretasi output?

Garis putus-putus adalah regresi linier terbaik . Plot kotak


memberi indikasi untuk penyebaran masing-masing variabel
independen.

8.6.5. Box Plots


Boxplot memberikan ringkasan grafis sederhana dari sebuah
set data. Grafis ini memberikan lima buah informasi yaitu
pengamatan terkecil (minimum), kuartil bawah (Q1), median (Q2),
kuartil atas (Q3), dan observasi terbesar (maksimum). Kuartil
adalah setiap dari tiga nilai yang membagi dataset diurutkan
menjadi empat bagian yang sama, sehingga setiap bagian mewakili

269
seperempat dari populasi sampel. Outliers, poin yang lebih dari 1,5
kisaran interkuartil (Q3-Q1) dari dari batas-batas interkuartil.
a. Pilih variabel yang menarik
b. Plot by groups: memungkinkan Anda untuk memiliki sisi
boxplots berdampingan dengan memisahkan variabel dengan
variabel kategoris.
c. Identify outliers with mouse (Mengidentifikasi outlier dengan
mouse) : Opsi ini memungkinkan Anda untuk membawa
lebih dari satu titik data outlier dan menentukan posisinya
dalam dataset.
d. OK

8.6.6. Uji Shapiro-Wilk untuk Normalitas


Uji Shapiro-Wilk digunakan untuk menguji apakah data
berdistribusi normal. Hipotesis nol memuat pernyataan bahwa data
berdistribusi normal, oleh karena itu jika nilai p berada di bawah
ambang batas signifikansi (biasanya 0,05), maka hipotesis nol
ditolak dan hipotesis alternatif diterima. Hipotesis alternatif adalah
bahwa data tidak berasal dari distribusi normal. Langkah langkah
uji Sapiro-Wilk adalah
a. Summaries -> Shaprio-Wilk test of normality
b. Pilih parameter yang menarik
c. OK
d. Interpretasi: Jika nilai p berada di bawah ambang batas
signifikansi, maka hipotesis alternatif diterima bahwa data
tidak berasal dari distribusi normal.

270
8.7. Menggunakan Comannder R untuk menerapkan uji statistik
8.7.1. Single sample t-Test (sampel tunggal t-Test)
Sampel tunggal t-Test menguji hipotesis nol bahwa rata-rata
populasi adalah sama dengan nilai yang ditentukan.
a. Statistics -> Means -> Single-Sample t-Test
b. Pilih variabel yang menarik
c. Masukkan rata-rata yang diusulkan (hipotesis Null: mu =)
d. Biasanya tingkat kepercayaan 0,95 digunakan.
e. Tiga hipotesis alternatif yang mungkin:
f. Rata-rata tidak sama dengan nilai tertentu
g. Rata-rata kurang dari nilai tertentu
h. Berarti ini lebih dari nilai tertentu
i. OK.
j. Interpretasi? Jika nilai p berada di bawah ambang batas
signifikansi, maka selisih mean tidak sama dengan 0.

8.7.2. Two-sample Student’s t-Test (Student’s t-Test untuk dua


sampel).
Two-sample Student~s t-Test is digunakan untuk menentukan
apakah dua mean populasi adalah sama.
a. Statistics -> Means -> Independent Samples t-Test.
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Biasanya Anda memilih hipotesis dua sisi, ini berarti
perubahan berarti dapat berupa peningkatan atau
penurunan.
e. Biasanya tingkat kepercayaan 0,95 digunakan.
f. Jika Anda tidak mengasumsikan varians sama tes ini setara

271
dengan Welch t-Test dan dianggap lebih kuat. Jika ingin
menguji kesamaan variansi, dapat digunakan Test Levene.
g. OK.
h. Interpretasi? Jika nilai p berada di bawah ambang batas
signifikansi, maka ada perbedaan yang signifikan dalam
skor rata-rata untuk masing-masing dua kelompok.

. .3. Paired student’s t-Test (Uji Berpasangan)


Uji berpasangan digunakan untuk membandingkan pada
subjek yang sama atau terkait dari waktu ke waktu atau dalam
keadaan yang berbeda. Dalam sebuah percobaan dipasangkan, ada
korespondensi satu-satu antara nilai-nilai dalam dua sampel
(misalnya sebelum dan sesudah perlakuan, dipasangkan mata
pelajaran kembar misalnya). Pendekatan dipasangkan dianggap
lebih sensitif.
Format data butuh dua kolom, satu yang berisi angka
pertama dalam setiap pasangan set data (misalnya, "sebelum" data)
dan kolom lain yang berisi nomor kedua di masing-masing
pasangan kumpulan data. Pasangan nomor harus dalam baris yang
sama.
a. Statistics -> Means -> Paired t-Test
b. Pilih variabel pertama
c. Pilih variabel kedua
d. Biasanya Anda memilih hipotesis dua sisi, ini berarti
perubahan berarti dapat berupa peningkatan atau penurunan.
e. Biasanya tingkat kepercayaan 0,95 digunakan.
f. OK.
g. Interpretasi.

272
Jika nilai p berada di bawah ambang batas signifikansi, maka
selisih mean tidak sama dengan 0. Rerata perbedaan menunjukkan
perbedaan rata-rata (variabel 1-variabel 2). Interval kepercayaan
95% adalah interval kepercayaan sekitar perbedaan berarti.

8.7.4. ANOVA Satu Arah


Tes ini digunakan bila Anda ingin membandingkan nilai rata-
rata lebih dari dua kelompok.
a. Statistics -> Means -> One-Way Analysis of Variance
b. Masukkan nama untuk model
c. Pilih variabel respon
d. Pilih variabel pengelompokan
e. Oke
f. Interpretasi?
Jika nilai p berada di bawah ambang batas signifikansi, maka
di suatu tempat ada perbedaan signifikan secara statistik
dalam cara dua atau lebih kelompok.
g. Jika nilai p adalah signifikan, ulangi analisis dengan
perbandingan berpasangan tombol cara dicentang. Ini
mengulangi analisis dengan kelompok yang dibandingkan
satu sama kelompok lain menggunakan kontras Tukey.
h. Interpretasi?
Outputnya adalah perbedaan mean dan interval kepercayaan
95% dari perbedaan rata-rata untuk setiap perbandingan
mungkin. Output ini ditunjukkan secara matematis dan
grafis. Anda mencari perbandingan di mana interval
perbedaan mean kepercayaan tidak span nol menunjukkan
perbedaan yang signifikan secara statistik pada kelompok ini.

273
8.7.5. Membandingkan Varians
Untuk menguji apakah sampel yang berbeda memiliki
varians yang sama (homogenitas varians). Hipotesis nol adalah
bahwa varians adalah sama di semua kelompok. Ketika dihitung
nilai p berada di bawah ambang batas signifikansi (biasanya 0,05)
maka hipotesis nol ditolak dan hipotesis alternatif diterima bahwa
varians tidak sama di seluruh kelompok.

8.7.5.1. Uji Bartlett


Uji Bartlett sensitif terhadap penyimpangan dari normalitas.
Artinya, jika sampel Anda berasal dari non-normal distribusi,
maka uji Bartlett hanya mungkin menguji untuk non-normalitas.
Uji Levene adalah sebuah alternatif untuk tes Bartlett yang
kurang sensitif terhadap penyimpangan dari normalitas.
a. Statistics -> variance -> ‛artlett s test
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Oke
e. Interpretasi:
Jika nilai p berada di bawah ambang batas signifikansi,
maka varians dalam kelompok tidak sama.

8.7.5.2. Uji Levene


a. Tes Levene adalah kurang sensitif dibandingkan dengan
pengujian Bartlett untuk keberangkatan dari normalitas.
Jika Anda memiliki bukti kuat bahwa data anda yang
sebenarnya berasal dari distribusi, normal, atau mendekati
normal, maka uji Bartlett memiliki kinerja yang lebih baik.

274
b. Statistics -> variance -> Levene~s test
c. Pilih variabel pengelompokan
d. Pilih variabel respon
e. oke
f. Interpretasi: Jika nilai p berada di bawah ambang batas
signifikansi, maka varians dalam kelompok tidak sama.

8.7.5.3. Dua varians F-test


F-Test digunakan untuk menguji apakah standar deviasi dari
dua populasi adalah sama. Tes ini bisa menjadi uji dua sisi atau
uji satu sisi.
a. Statistics -> variance -> Two variances F-test
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Pilih apakah satu atau dua ekor
e. Oke
f. Interpretasi: Bila nilai p berada di bawah ambang batas
signifikansi hipotesis nol ditolak dan hipotesis alternatif
diterima.

8.8. Uji Non-parametrik


Ini adalah uji statistik yaitu distribusi metode bebas karena
mereka tidak bergantung pada asumsi bahwa data yang diambil
dari distribusi probabilitas tertentu.
8.8.1 Dua-sampel Uji Wilcoxon
Non-parametrik setara dengan Student t-Test. Bisa juga
disebut dua-sampel Mann-Whitney U test. Tes ini menilai apakah
nilai-nilai dalam dua sampel berbeda dalam ukuran.

275
a. Statistics -> Non-parametric tests -> Two sample Wilcoxon
test
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Jika n adalah rendah (<50) maka yang tepat harus pilih
sebagai jenis uji.
e. Jika perbedaan pengobatan dapat terjadi baik dalam arah
(peningkatan atau penurunan) pilih uji dua sisi.
f. ok
g. Interpretasi: Bila nilai p berada di bawah ambang batas
signifikansi hipotesis nol ditolak dan hipotesis alternatif
diterima.

8.8.2. Paired-sample Uji Wilcoxon


Uji Wilcoxon untuk sampel berpasangan adalah setara non-
parametrik dari paired sample t-test. Format Data membutuhkan
dua kolom, satu yang berisi angka pertama dalam setiap pasangan
set data (misalnya, "sebelum" data) dan kolom lain yang berisi
nomor kedua di masing-masing pasangan kumpulan data.
Pasangan nomor harus dalam baris yang sama.
a. Statistics -> Non-parametric tests -> Paired- sample
Wilcoxon test
b. Pilih variabel pertama
c. Pilih variabel kedua
d. Jika perubahan dapat berupa peningkatan atau penurunan
kemudian pilih uji dua sisi.
e. Oke

276
f. Interpretasi: Bila nilai p berada di bawah ambang batas
signifikansi hipotesis nol ditolak dan hipotesis alternatif
diterima.

8.8.3. Kruskal-Wallis
Tes ini merupakan metode non-parametrik untuk pengujian
kesetaraan median penduduk antar kelompok. Hal ini identik
dengan sebuah ANOVA dengan data diganti dengan barisan
mereka. Ini adalah perluasan dari uji Wilcoxon Dua sampel untuk 3
atau lebih kelompok.
a. Statistics -> Non-parametric tests -> Kruskal-Wallis test
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Ok

8.9. Korelasi dan Regresi


Berikut adalah contoh format umum data untuk korelasi dan
regresi. Perhatikan bahwa perbedaan adalah bahwa dalam regresi,
satu variabel diidentifikasi sebagai berpotensi tergantung pada
yang lain, sementara dalam korelasi, arah atau keberadaan
kausalitas tidak diterapkan.
Data Korelasi Data Regresi
Variable1 Variable1 DV IV
1 2 1 2
2 4 2 4
3 3 3 3
3 4 3 4
5 7 5 7
8 10 8 10

277
8.9.1 Korelasi
Langkah-langkah melakukan analisis korelasi adalah sebagai
berikut
a. Pilih menu Statistics -> Summaries -> Correlation
b. Pilih variabel yang akan dikorelasikan dari kotak Variabel.
c. Pilih jenis korelasi yang sesuai (Pearson adalah default).
d. Klik tombol OK

Hasilnya akan muncul di jendela output. Jika dua variabel


yang dipilih, maka akan keluar output nilai korelasi (termasuk t-
test dan interval keyakinan) yang dihasilkan. Jika lebih dari dua
variabel yang dipilih, maka matriks koefisien korelasi dan matriks
probabilitas terkait (dikoreksi) yang dihasilkan.

8.9.2. Regresi linear Sederhana


Analisis regresi linear sederhana mengikuti langkah-langkah
sebagai berikut
a. Pilih menu Statistik
b. Pilih model Fit .. submenu
c. Pilih model Linear .. submenu <akan muncul kotak dialog>
d. Masukkan nama untuk output model dalam Nama untuk
model kotak.
e. Double klik pada variabel dependen dalam kotak Variabel.
Ini akan menambahkan variabel dependen untuk kotak teks
di sisi kiri bawah ~ rumus Model
f. Double klik pada variabel indepedent (variabel prediktor) di
kotak Variabel. Ini akan menambahkan variabel prediktor ke
kotak teks pada sisi kanan dari rumus model bawah

278
g. Klik tombol OK
Ringkasan hasil akan muncul dalam jendela output.

8.9.3. Tabel ANOVA pada Analisis Regresi


Untuk menampilkan ANOVA pada regresi linear sederhana,
langkah-langkahnya adalah sebagai berikut
a. Pilih menu Model
b. Pilih submenu Uji Hipotesis
c. Pilih submenu Tabel ANOVA <muncul kotak dialog Tabel
Anova>
d. Pilih model yang akan dianalisis menggunakan tabel
ANOVA
e. Klik tombol OK
Tabel ANOVA regresi akan muncul dalam jendela output R-
Comannder.
8.9.4. Regresi Diagnostik
Untuk melakukan diagnostik pada model regresi, dapat
dilakukan langkah-langkah sebagai berikut
a. Pilih menu Model
b. Pilih submenu Grafik
c. Pilih submenu Basic diagnostic plots

8.9.5. Regresi Polinomial


Selain model regresi linear sederhana, dalam R-Comannder
juga menyediakan fasilitas menyusun model regresi polinomial
dengan mengikuti langkah sebagai berikut
a. Pilih menu Statistics
b. Pilih sub menu Fit models

279
c. Pilih sub menu Linear model
Kotak dialog Model Linear akan muncul

d. Masukkan nama untuk output model dalam Nama untuk


model kotak. Hal ini dapat nama apapun tetapi harus
informatif cukup untuk mengingatkan Anda tentang apa
statistik dilakukan.
e. Double klik pada variabel dependen dalam kotak Variabel.
Ini akan menambahkan variabel dependen untuk kotak teks
di sisi kiri bawah ~ rumus Model
f. Double klik pada variabel indepedent (variabel prediktor) di
kotak Variabel. Ini akan menambahkan variabel prediktor ke
kotak teks pada sisi kanan dari rumus di bawah Model.
Sejauh ini adalah polinomial orde pertama.
g. Untuk menambahkan komponen urutan kedua, tambahkan
plus (+) tanda untuk sisi kanan kemudian termasuk variabel
independen diikuti dengan topi (^) tanda dan 2 (lihat
gambar). Akhirnya, melampirkan variabel topi, mandiri dan 2

280
dengan seperangkat kurung didahului dengan I. I merupakan
fungsi yang melindungi komponen polinomial.
h. sama untuk menambahkan orde tinggi (3, 4, ...) hal
polinomial, ikuti langkah di atas, dengan menggunakan
kekuatan 3, 4, dll
i. Klik tombol OK
Ringkasan hasil akan muncul dalam jendela output.

8.9.6. Regresi Nonlinier


Dalam R-Comannder juga menyediakan fasilitas menyusun
model regresi Non-linier dengan mengikuti langkah sebagai
berikut
a. Pilih menu Statistik
b. Pilih submenu model Fit
c. Pilih submenu Model nonlinier
Kotak dialog model Non-linear akan muncul

d. Masukkan nama untuk pada kotak model.

281
e. Double klik pada variabel dependen dalam kotak Variabel.
Ini akan menambahkan variabel dependen untuk kotak teks
di sisi kiri bawah ~ Formula Model
f. Membangun model yang sesuai pada sisi kanan dari rumus
di bawah Model.
g. Anda juga harus menentukan konfigurasi awal.
h. Klik tombol OK

8.9.7. Analisis Frekuensi


Langkah-langkah uji Goodness of fit adalah sebagai berikut
a. Pilih menu Statistik
b. Pilih sub menu Summaries
c. Pilih submenu uji Goodness of fit
d. Tentukan jumlah kategori dengan Jumlah slider kolom dan
masukkan jumlah secara manual dalam tabel jumlah Enter.
Perhatikan, bahwa judul kolom secara default adalah 1, 2 ...
Ini dapat berubah menjadi nama yang lebih bermakna
dengan mengedit entri (misalnya Pria & Wanita).
e. Masukkan frekuensi yang diharapkan atau rasio frekuensi
pada tabel rasio Masukkan diharapkan
f. Klik OK

8.10. Menyimpan Grafik


Langkah pertama menyimpan hasil berupa grafik adalah
sebagai berikut :
A. Menyalin (Copy)
1. Klik kanan pada grafik
2. Pilih salah satu salinan sebagai metafile (jika berniat untuk
mengubah / mengedit grafik setelah itu disisipkan ke

282
program lain) atau menyalin sebagai bitmap (jika tidak
berniat untuk memodifikasi grafik setelah itu disisipkan ke
program lain)
3. Beralih kontrol ke program lain baik menggunakan Alt-tab
atau Windows tombol navigasi dan paste grafik

B. Menyimpan (Save)
1. Klik pada grafik untuk diselamatkan. Ini akan mengubah
menu dan tombol Rgui
2. Dari menu RGui, pilih menu File
3. Pilih sub menu Save
4. Pilih salah satu submenu JPEG kualitas 100% (jika tidak
berniat untuk memodifikasi grafik setelah itu disisipkan ke
program lain) atau submenu Metafile (jika berniat untuk
mengubah / mengedit grafik setelah itu disisipkan ke
program lain
5. Gunakan kotak dialog Save As untuk memberikan nama
file dan path untuk grafik.
6. Klik tombol OK. Maka Grafik akan tersimpan.

8.11. Menyimpan Hasil Perhitungan


Langkah pertama menyimpan hasil perhitungan adalah
sebagai berikut
A. Menyalin (Copy)
Untuk menyalin dan menempelkan hasil dari jendela output
Rcmdr.
1. Sorot hasil yang Anda tertarik untuk menyalin
2. Dari menu Rcmdr, pilih menu Edit
3. Pilih submenu Copy

283
4. Beralih kontrol ke program lain baik menggunakan Alt-tab
atau Windows tombol navigasi dan paste grafik
Catatan bahwa Anda juga dapat menyalin teks yang
disorot dengan menekan Alt-c kombinasi tombol.

B. Menyimpan (Save)
Untuk menyimpan semua hasil di jendela output Rcmdr ke
file
1. Pilih menu File
2. Pilih sub menu Save output as
3. Gunakan kotak dialog Save As untuk memberikan nama
file dan path untuk grafik.
4. Klik tombol OK. Hasil telah tersimpan.
Catatan, bahwa ketika Anda menyimpan hasil keluaran ke
file, semua hasil di jendela output akan disimpan, tidak
hanya teks yang disorot. jika Anda hanya tertarik pada
satu bagian kecil dari hasil output Anda hanya perlu
memotong bagian yang tidak diinginkan (baik sebelum
menyimpan, atau lambat dalam program pengolah kata -
seperti Word).

8.12. Menu pada R Commander (version 1.4-10)


Secara ringkas menu dalam R Comander adalah sebagai
berikut:
File
Change working directory…
Open script file…
Save script…
Save script as…

284
Save output…
Save output as…
Save R workspace…
Save R workspace as…
Exit
From Commander
From Commander and R
Edit
Cut
Copy
Paste
Delete
Find…
Select all
Undo
Redo
Clear Window
Data
New data set…
Load data set…
Import data
from text file, clipboard, or URL…
from SPSS data set…
from Minitab data set…
from ST‚T‚ data set…
from Excel, ‚ccess, or dbase data set…
Data in packages
List data sets in packages

285
Read data set from an attached
package…
Active data set
Select active data set…
Refresh active data set
Help on active data set (if applicable)
Variables in active data set
Set case names…
Subset active data set
Remove row s from active data set…
Stack variables in active data set…
Remove cases w/ missing data…
Save active data set…
Export active data set…
Manage variables in active data set
Recode variables…
Compute new variable…
Add observation numbers to data set
Standardize variables…
Convert numeric variables to factors…
‛in numeric variable…
Reorder factor levels…
Define contrasts for a factor…
Rename variables…
Delete variables from data set…
Statistics
Summaries
Active data set

286
Numerical summaries…
Frequency distributions…
Count missing observations
Table of statistics
Correlation matrix…
Correlation test…
Shapiro-Wilk test of normality…
Contingency tables
Two-way table…
Multi-way table…
Enter and analyze two-way table…
Means
Single-sample t-test…
Independent samples t-test…
Paired t-test…
One-way ‚NOV‚…
Multi-way ‚NOV‚…
Proportions
Single-sample proportion test…
Two-sample proportions test…
Variances
Two-variances F-test…
‛artlett s test…
Levene s test…
Nonparametric tests
Two-sample Wilcoxon test…
Paired-samples Wilcoxon test…
Kruskal-Wallis test…

287
Friedman rank-sum test…
Dimensional analysis
Scale reliability…
Principal-components analysis…
Factor analysis…
Cluster analysis
k-means cluster analysis…
Hierarchical cluster analysis…
Summarize hierarchical
clustering…
Add hierarchical clustering to
data set…
Fit models
Linear regression…
Linear model…
Generalized linear model…
Multinomial logit model…
Ordinal regression model…
Graphs
Color palette…
Index plot…
Histogram…
Stem-and-leaf display…
‛oxplot…
Quantile-comparison plot…
Scatterplot…
Scatterplot matrix…
Line graph…

288
XY conditioning plot…
Plot of means…
‛ar graph…
Pie chart…
3D graph
D scatterplot…
Identify observations with mouse
Save graph to file
Save graph to file
as bitmap…
as PDF/Postscript/EPS…
D RGL graph…
Models
Select active model
Summarize model
Add observation statistics to data
Confidence intervals
Akaike Information Criterion (AIC)
Bayesian Information Criterion (BIC)
Hypothesis tests
‚NOV‚ table…
Compare two models…
Linear hypothesis…
Numerical diagnostics
Variance-inflation factors
Breusch-Pagan test for
heteroscedasticity
Durbin-Watson test for autocorrelation

289
RESET test for nonlinearity
Bonferroni outlier test
Graphs
Basic diagnostic plots
Residual quantile-comparison plot
Component+residual plots
Added-variable plots
Influence plot
Effect plots
Distributions
Continuous distributions
Normal distribution
Normal quantiles…
Normal probabilities…
Plot Normal distribution…
Sample from Normal distribution…
t distribution
t quantiles…
t probabilities…
Plot t distribution…
Sample from t distribution…
Chi-squared distribution
Chi-squared quantiles…
Chi-squared probabilities…
Plot Chi-squared distribution…
Sample from Chi-squared distribution…
F distribution
F quantiles…

290
F probabilities…
Plot F distribution…
Sample from F distribution…
Exponential distribution
Exponential quantiles…
Exponential probabilities…
Plot Exponential distribution…
Sample from Exponential distribution…
Uniform distribution
Uniform quantiles…
Uniform probabilities…
Plot Uniform distribution…
Sample from Uniform distribution…
Beta distribution
‛eta quantiles…
‛eta probabilities…
Plot ‛eta distribution…
Sample from ‛eta distribution…
Cauchy distribution
Cauchy quantiles…
Cauchy probabilities…
Plot Cauchy distribution…
Sample from Cauchy distribution…
Logistic distribution
Logistic quantiles…
Logistic probabilities…
Plot Logistic distribution…
Sample from Logistic distribution…

291
Lognormal distribution
Lognormal quantiles…
Lognormal probabilities…
Plot Lognormal distribution…
Sample from Lognormal distribution…
Gamma distribution
Gamma quantiles…
Gamma probabilities…
Plot Gamma distribution…
Sample from Gamma distribution…
Weibull distribution
Weibull quantiles…
Weibull probabilities…
Plot Weibull distribution…
Sample from Weibull distribution…
Gumbel distribution
Gumbel quantiles…
Gumbel probabilities…
Plot Gumbel distribution…
Sample from Gumbel distribution…
Discrete distributions
Binomial distribution
‛inomial quantiles…
‛inomial tail probabilities…
‛inomial probabilities…
Plot ‛inomial distribution…
Sample from ‛inomial distribution…

292
Poisson distribution
Poisson quantiles…
Poisson tail probabilities…
Poisson probabilities…
Plot Poisson distribution…
Sample from Poisson distribution…
Geometric distribution
Geometric quantiles…
Geometric tail probabilities…
Geometric probabilities…
Plot Geometric distribution…
Sample from Geometric distribution…
Hypergeometric distribution
Hypergeometric quantiles…
Hypergeometric tail probabilities…
Hypergeometric probabilities…
Plot Hypergeometric distribution…
Sample from Hypergeometric distribution…
Negative binomial distribution
Negative binomial quantiles…
Negative binomial tail probabilities…
Negative binomial probabilities…
Plot Negative binomial distribution…
Sample from Negative binomial distribution…
Tools
Load package s …
Load Rcmdr plug-in s …
Options…

293
Help
Commander help
Introduction to the R Commander
Help on active data set (if applicable)
About Rcmdr

294
DAFTAR PUSTAKA

Agresti A., (2007), An Introduction to Categorical Data Analysis,


Second Edition, published by John Wiley and Sons, Inc.
Brockmann J dan Hassler, (1996) Evidence for Use of Chemical
Cues by Male Horseshoe Crabs When Locating Nesting
Females (Limulus polyphemus), Journal of Chemical Ecology,
Vol. 27, Number 11, pp 2319-2335
Cook D dan Weisberg S,, (1999), Applied Regression Including
Computing and Graphics by published by John Wiley & Sons,
August
Kirkwood B., 1991, Poisson Regression, National Science
Foundation~s Course, Curriculum, and Laboratory
improvement program under grant 0410586.
McCullough P. dan Nelder J.A. (1989). Generalized Linear Models. 2nd.
ed. Chapman and Hall, New York, NY.
Myers R.H. dan Montgomery D.C.,  ‚ Tutorial On
Generalized Linear Model€ Journal of Quality Technologi Vol.
29. No. 3. pp 274-291.
Myers. R. H. 1990. Classical and Modern Regression With Applications.
PWS – KENT Publising Company. Boston.
Nelder J‚. dan Wedderburn RWM , Generalized Linear
Models€. Journal of the Royal Statistical Society A 132, pp. 370-
384.
Nugraha J. (2004), Model Linear Tergeneralkan untuk Percobaan
Peningkatan Kualitas€, TEKNOIN, Vol , No. .

295
Nugraha J. (2003), ‚nalisis tabel kontigensi x € Jurnal Eksata Vol.
5. No. 1. hal 1 – 15.
Nugraha J., Guritno S., Haryatmi S., , Pengaruh Korelasi
Antar Respon pada Model Multinomial Logit€, Jurnal
Matematika dan Sains (JMS) Vol. 14 No. 3 - Agustus-2009,
FMIPA-ITB.
Nugraha, J (2010), Uji Goodness Of Fit Pada Model Pemilihan
Diskrit, Eksakta, Jurnal Ilmu-ilmu MIPA Vol 11. No. 1
Poole, J.H. (2009), Mate Guarding, Reproductive Success and
Female Choice in African Elephants, Animal Behavior 37 :
842-49
R Development Core Team (2009). R: A language and environment
for statistical computing. R Foundation for Statistical
Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org.
Rodriguez G. (2001), Generalized Linear Models, Princeton University
Train, K. (2003), Discrete Choice Methods with Simulation, UK Press,
Cambridge
Wibawati Y., Nugraha J., , Maximum Likelihood Estimation
Model Linear dan Log-Linear dalam Regresi Poisson€,
Prosiding Seminar Nasional Matematika dan Pendidikan
Matematika di UNY ,
http://www.deh.gov.au/biodiversity/threatened/publications/recove
ry/leadbeaters-possum/index.html. Diakses tanggal 23 Maret
2012.
http://courses.washington.edu/b518/lectures/L26Poisson.pdf.
Diakses tanggal 17 Desember 2012

296
GLOSARIUM

Choice set : himpunan semua pilihan/alternatif yang dapat dipilih


oleh responden
Data : keterangan yang berhasil dicatat atau direkam
mengenai suatu hal
Fungsi : merupakan probabilitas yang didefinisikan sebagai
likelihood fungsi dari parameter
Maximum : metode untuk mencari penaksir parameter yang
Likelihood dengan memaksimumkan fungsi likelihood
Estimator berdasarkan data sampel
Logit : transformasi logaritma natural dari nilai odds.
matrik Hessian : matrik definet negative yang elemen-elemenya
merupakan derivative kedua fungsi log likelihood
Model : model yang menggambarkan pembuat keputusan
pemilihan memilih diantara alternatif yang tersedia
diskrit
Odds : rasio probabilitas sukses terhadap probabilitas gagal
Parameter : sebarang nilai yang menjelaskan ciri populasi

Populasi : keseluruhan objek pengamatan yang menjadi


perhatian yang jumlahnya bisa tak terhingga maupun
terhingga
P-value : nilai probababilitas kesalahan tipe I terkecil
sedemikian hingga dapat menolak hipotesis nol
representative : fungsi linear atas variabel-variabel dari karakteristik
utility responden dan pilihan
Sampel : suatu himpunan bagian dari populasi

297
Sensitifitas : probabilitas instrumen mengukur secara benar
berkaitan tentang keberadaan elemen/unsur dalam
sampel. Misalnya, probabilitas hasil uji adalah positif
jika alat diujikan pada pasien yang diketahui
mengidap penyakit.
Spesifikasi : probabilitas instrumen mengukur secara benar
berkaitan tentang tidak adanya keberadaan
elemen/unsur dalam sampel. Misalnya, probabilitas
hasil uji menyatakan negatif jika alat diujikan pada
pasien yang diketahui tidak mengidap penyakit
Statistik : sebarang nilai yang menjelaskan ciri sampel
Tabel kontigensi : merupakan satu bentuk distribusi frekuensi untuk dua
variabel atau lebih
Variabel : suatu karakteristik yang nilainya antar objek
pengamatan atau antar waktu pada objek yang sama
bisa berbeda beda
Variabel diskrit : variabel yang mempunyai kemungkinan nilai terbatas
(anggota domainnya terbatas)
Variabel : variabel yang kemungkinan nilainya tak terhitung
kontinu (bagian dari bilangan real)
Variabel : variabel yang nilainya dipengaruhi oleh variabel yang
dependen lain. yaitu variabel independen
Variabel : variabel yang nilainya berpengaruh terhadap nilai
independen variabel yang lain.
Variabel : Variabel yang nilai berupa bilangan real dan mengacu
random pada fungsi probabilitas yang merupakan observasi
dari suatu eksperimen
Ukuran asosisi : Untuk mengetahui derajad keeratan hubungan antara
dua faktor

298
PROFIL PENULIS

Dr. Jaka Nugraha merupakan dosen tetap pada Program Studi


Statistika Universitas Islam Indonesia (UII) sejak tahun 1995.
Menyelesaikan S1 hingga S3 pada Program Studi Statistika
Universitas Gadjah Mada. Di samping aktif mengajar di beberapa
program studi di UII, juga aktif dalam kegiatan ilmiah di tingkat
nasional maupun internasional. Sejumlah karya ilmiah telah
dipublikasikan dalam beberapa jurnal nasional dan internasional.
Saat ini menduduki jabatan sebagai Kepala Bidang Pengkajian dan
Pengembangan Standar Mutu Akademik di UII. Pengalaman
mengajar dan penelitian di bidang analisis data kategorik
memunculkan ide penulisan buku ini.

299

Anda mungkin juga menyukai