Pengantar Analisis Data Kategorik Deepublish - Free View
Pengantar Analisis Data Kategorik Deepublish - Free View
Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6. Bab 1 dan Bab 2
membahas pengertian istilah-istilah yang digunakan dan dasar-dasar
inferensi pada tabel kontigensi. Bab 3 memperkenalkan model regresi logistik
untuk data biner maupun regresi logistik multinomial. Bab 4 dan Bab 5
membahas model Poisson untuk respon cacah dan model loglinear untuk
tabel kontigensi. Bab 6 memperkenalkan model Generalized Linear Model
(GLM) yang merupakan sebuah keluarga besar dari model linear, model
logistik, model log linear dan beberapa model lain. Khusus Bab 7 membahas
dasar dasar pemrogramam software R. Bagi pembaca yang belum menguasai
software R, disarankan membaca Bab 7 dan bab 8 terlebih dahulu supaya
mempunyai pemahaman dasar mengenai sistem pengoperasian program Jaka Nugraha
tersebut.
Kategori :
ii
Pengantar Analisis
Data Kategorik
Metode dan Aplikasi menggunakan Program R
iii
Jl. Elang 3, No 3, Drono, Sardonoharjo, Ngaglik, Sleman
Jl.Kaliurang Km.9,3 – Yogyakarta 55581
Telp/Faks: (0274) 4533427
Hotline: 0838-2316-8088
Website: www.deepublish.co.id
e-mail: deepublish@ymail.com
NUGRAHA, Jaka
Pengantar Analisis Data Kategorik/oleh Jaka Nugraha.--Ed.1, Cet. 1--
Yogyakarta: Deepublish, September 2013.
xvi, 299 hlm.; 23 cm
ISBN 978-602-280-095-8
PENERBIT DEEPUBLISH
(Grup Penerbitan CV BUDI UTAMA)
Anggota IKAPI (076/DIY/2012)
Isi diluar tanggungjawab percetakan
Hak cipta dilindungi undang-undang
Dilarang keras menerjemahkan, memfotokopi, atau
memperbanyak sebagian atau seluruh isi buku ini
tanpa izin tertulis dari Penerbit.
iv
KATA PENGANTAR
v
persamaan maupun pembuktian distribusi asimtotis. Saya
menghindari rincian tentang perhitungan yang rumit. Untuk
membantu perhitungan, sebagian dari materi dalam buku ini sudah
tersedia secara luas di sebagian besar paket-paket komersial seperti
S Plus, SAS, SPSS maupun MINITAB. Akan tetapi saya lebih fokus
pada penggunaan software R, mengingat software ini dapat diakses
secara bebas oleh siapapun.
Dasar-dasar analisis data kategoris tercakup dalam Bab 1-6.
Bab 1 dan Bab 2 membahas pengertian istilah-istilah yang
digunakan dan dasar-dasar inferensi pada tabel kontigensi. Bab 3
memperkenalkan model regresi logistik untuk data biner maupun
regresi logistik multinomial. Bab 4 dan Bab 5 membahas model
Poisson untuk respon cacah dan model loglinear untuk tabel
kontigensi. Bab 6 memperkenalkan model Generalized Linear Model
(GLM) yang merupakan sebuah keluarga besar dari model linear,
model logistik, model log linear dan beberapa model lain. Khusus
Bab 7 membahas dasar dasar pemrogramam software R. Bagi
pembaca yang belum menguasai software R, disarankan membaca
Bab 7 dan bab 8 terlebih dahulu supaya mempunyai pemahaman
dasar mengenai sistem pengoperasian program tersebut.
Semoga buku ini membantu mahasiswa dalam memahami
analisis data kategorik dan membantuk para peneliti yang
berkaitan dengan data kategori.
Jaka Nugraha
Jurusan Statistika UII
jk.nugraha@gmail.com
jnugraha@uii.ac.id
vi
DAFTAR ISI
KATA PENGANTAR............................................................................. v
DAFTAR ISI...........................................................................................vii
vii
BAB II TABEL KONTIGENSI...................................................... 51
2.1. Tabel Kontigensi 2x2 ........................................................ 52
2.2. Membandingkan Dua Proporsi dalam Tabel
2x2 ....................................................................................... 66
2.3. Menghitung RR dan OR Menggunakan
Program R.......................................................................... 70
2.4. Tabel Kontigensi bxk ...................................................... 70
2.5. Uji Eksak untuk Sampel Kecil ........................................ 83
2.6. Ukuran Assosiasi .............................................................. 86
2.7. Uji Cochran-Mantel-Haenszel Untuk Tabel
2x2xJ ................................................................................... 90
2.8. Uji Chi Kuadrat pada Tabel Kontigensi
Multidimensi ..................................................................... 92
2.9. Soal Latihan ....................................................................... 98
BAB III MODEL LOG LINEAR PADA
TABEL KONTIGENSI..................................................... 99
3.1. Model Log Linear Dalam Tabel Kontigensi Dua
Arah .................................................................................. 100
3.2. Model Log Linear untuk Tabel Kontigensi Tiga
Arah .................................................................................. 107
3.3. Contoh Data I .................................................................. 111
3.4. Contoh Data II................................................................. 114
3.5. Model Log Linear pada Tabel Kontigensi Multi
Arah .................................................................................. 118
3.6. Program R untuk Model Log Linear ........................... 119
3.7. Soal Latihan ..................................................................... 126
BAB IV REGRESI LOGISTIK ...................................................... 129
4.1. Distribusi Binomial dan Regresi Logistik ................... 129
4.2. Model Regresi Logistik dengan Variabel
Independen Tunggal ...................................................... 130
viii
4.3. Model Regresi Logistik dengan Variabel
Independen Banyak ....................................................... 133
4.4. Maximum Likelihood Estimator untuk Regresi
Logistik ............................................................................ 133
4.5. Inferensi Regresi Logistik ............................................. 136
4.6. Regresi Logistik Multivariabel ..................................... 147
4.7. Strategi Pemilihan Model.............................................. 148
4.8. Regresi Rogistik dalam Program R.............................. 154
4.9. Model Logistik pada Respon Multi Kategori ............. 157
4.10. Model Pilihan Diskrit .................................................... 175
4.11. Soal Latihan..................................................................... 182
BAB V REGRESI POISSON ....................................................... 183
5.1. Distribusi Poisson .......................................................... 183
5.2. Model Regresi Poisson .................................................. 185
5.3. Estimasi Parameter ........................................................ 186
5.4. Pemilihan model Terbaik .............................................. 188
5.5. Contoh Data I................................................................. 192
5.6. Contoh Data II ................................................................ 198
5.7. Contoh Data III ............................................................... 203
5.8. Soal latihan ...................................................................... 205
BAB VI GENERALIZED LINEAR MODEL (GLM) ................ 209
6.1. Pendahuluan ................................................................... 209
6.2. Fungsi Penghubung (Link) dan Keluarga
Eksponensial ................................................................... 210
6.3. Estimasi Parameter ..................................................... 212
6.4. Inferensi Parameter ‛erdasarkan Fungsi
Likelihood ....................................................................... 215
6.5. Uji Kecocokan Model Dengan Nilai Devians............. 216
6.6. Estimasi Interval dengan GLM .................................... 218
6.7. GLM pada Program R ................................................... 221
ix
BAB VII PENGANTAR PROGRAM R....................................... 227
7.1. Pendahuluan ................................................................... 227
7.2. Manipulasi Data ............................................................. 228
7.3. Operasi Matematika ....................................................... 231
7.4. Vektor ............................................................................... 232
7.5. Array dan Matrik............................................................ 233
7.6. Data Frame ...................................................................... 234
7.7. List .................................................................................... 235
7.8. Variabel Waktu (Dates) ................................................. 235
7.9. Penggabungan Data frame............................................ 236
7.10. Membuka File Data ........................................................ 237
7.11. Editing Data Secara Langsung ..................................... 237
7.12. Membuat Plots ................................................................ 238
7.13. Membuat Plots dari Distribusi Empiris ...................... 239
7.14. Plot Kontur (Contour Plots) ......................................... 240
7.15. Menambahkan Legend dan Stuff ................................. 241
7.16. Menambahkan Panah, Teks dan Penanda .................. 242
7.17. Multiple Plots .................................................................. 243
7.18. Menyimpan Plots ........................................................... 243
7.19. Menambahkan Tulisan Miring dan Simbol
Matematik dalam Plots .................................................. 245
7.20. Statistik............................................................................. 246
7.21. Matematika dalam R ...................................................... 248
7.22. Menyusun Program ....................................................... 252
7.23. Menyimpan Data ............................................................ 254
7.24. Menyimpan Output ....................................................... 254
7.25. Maximum Likelihood Estimation (MLE) .................... 255
BAB VIII APLIKASI STATISTIKA MENGGUNAKAN
R-COMMANDER ........................................................... 257
8.1. Memulai R-Commander................................................ 257
8.2. Input data ........................................................................ 260
x
8.3. Menggunakan Comannder R untuk
Diskripsikan Data .......................................................... 262
8.4. Memodifikasi Dataset .................................................... 264
8.5. Membagi data ................................................................. 266
8.6. Menggunakan Comannder R untuk
Mengeksplorasi Data ..................................................... 267
8.7. Menggunakan Comannder R untuk
menerapkan uji statistik ................................................ 271
8.8. Uji Non-parametrik........................................................ 275
8.9. Korelasi dan Regresi ...................................................... 277
8.10. Menyimpan Grafik......................................................... 282
8.11. Menyimpan Hasil Perhitungan .................................... 283
8.12. Menu pada R Commander (version 1.4-10) ............... 284
xi
xii
DAFTAR TABEL
Tabel 1.5. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:
>0.50 ................................................................................. 38
Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1:
<0.50 ................................................................................. 40
xiii
Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan
dan jenis pekerjaan .......................................................... 72
Tabel 3.1. Tabel kontigensi bxk Faktor A dan Faktor B .............. 100
xiv
Tabel 3.5. Nilai harapan untuk model loglinear.......................... 112
Tabel 3.6. Uji Goodnes of fit untuk model loglinear ................... 112
Tabel 3.10. Survey Rencana studi lanjut pelajar SLTA ................. 127
Tabel 4.8. Estimasi parameter model logit Data Aligator .......... 165
Tabel 4.9. Data Kepercayaan menurut Gender dan Ras ........... 166
xv
Tabel 4.13. Estimasi parameter dalam model logit
kuadratik ......................................................................... 171
Tabel 5.6. Data obeservasi Jumlah Possum (kus kus) ................. 198
xvi
BAB I
PENDAHULUAN
1
ilmiah. Misalnya kita mencatat berapa orang yang mengidap
penyakit tertentu yang dapat disembuhkan oleh jenis obat baru,
ataupun meneliti banyaknya endapan yang terbentuk dalam suatu
reaksi kimia. Statistika dapat juga didefinisikan sebagai
sekumpulan konsep dan metode yang digunakan untuk
mengumpulkan dan menginterprestasikan data tentang bidang
kegiatan tertentu dan mengambil kesimpulan dalam situasi di
mana ada ketidak pastian dan variasi.
Kita dapat mengelompokkan statistika kedalam dua kelompok
besar yaitu statistika diskriptif dan statistika inferensia. Statistika
deskriptif adalah metode metode yang berkaitan dengan
pengumpulan dan penyajian suatu gugus data sehingga
memberikan informasi yang berguna. Perlu kiranya dimengerti
bahwa statistika diskriptif memberikan informasi hanya mengenai
data yang dipunyai dan sama sekali tidak menarik inferensia atau
kesimpulan apapun tentang gugus data induknya yang lebih besar.
Penyusunan tabel, diagram, grafik dan besaran besaran lain di
majalah dan koran-koran termasuk dalam kategori statistika
diskriptif ini.
Statistika inferensia mencakup semua metode yang
berhubungan dengan analisis sebagian data untuk kemudian
sampai pada peramalan atau penarikan kesimpulan mengenai
keseluruhan gugus data induknya. Generalisasi yang berhubungan
dengan inferensia statistika selalu mempunyai sifat tak pasti,
karena kita hanya mendasarkan pada informasi parsial yang
diperoleh Untuk pemperhitungkan ketidakpastian ini, pengetahuan
mengenai teori peluang mutlak diperlukan.
2
1.2. Populasi dan Sampel
Keseluruhan objek pengamatan yang menjadi perhatian kita
baik tak terhingga maupun terhingga disebut populasi. Semua
anggota yang ada dalam populasi disebut anggota populasi dan
banyaknya anggota disebut ukuran populasi. Di waktu lampau
populasi mengandung makna pengamatan yang diperoleh dari
penelitian statistika yang berhubungan dengan orang banyak.
Dimasa kini, statistikawan menggunakan istilah itu bagi sebarang
pengamatan yang menarik perhatian kita, apakah itu sekelompok
orang, binatang, atau benda apa saja. Dalam inferensi statitika kita
ingin memperoleh kesimpulan mengenai populasi, meskipun kita
tidak mungkin atau tidak praktis untuk mengamati keseluruhan
individu yang menyusun populasi. Biaya yang besar lebih sering
menjadi faktor penghalang untuk mengamati semua anggota
populasi. Oleh karena itu, kita terpaksa menggantungkan pada
sebagian anggota populasi untuk membantu kita menarik
kesimpulan mengenai populasi tersebut. Ini membawa kita pada
pengertian sampel.
Sampel adalah suatu himpunan bagian dari populasi. Sampel
diharapkan akan mewakili keadaan populasi (representatif).
Banyaknya anggota dalam sampel disebut ukuran sampel.
Keterwakilan populasi dipengaruhi oleh ukuran sampel, cara
pengambilan sampel, cara memperoleh data atau mengumpulkan
data dan ketelitian (dalam tingkat kekekeliruan dan ketidak
pastian) kesimpulan yang diinginkan. Oleh karena itu dalam
memilih sampel harus mengikuti prosedur tertentu yang dipelajari
dalam teknik sampling. Prosedur pengambilan sampel sangat
banyak, yang paling sederhana adalah sampel acak sederhana.
3
Suatu sampel acak sederhana n pengamatan adalah suatu sampel
yang dipilih sedemikian rupa sehingga setiap himpunan bagian
yang berukuran n dari populasi tersebut mempunyai peluang yang
sama.
4
Bagian penting dalam proses statistika adalah melakukan
karakterisasi populasi melalui estimasi parameter-parameter.
Parameter dapat diestimasi melalui statistik sampel yang sesuai.
Untuk menyelidiki segugus data akan sangat membantu bila
kita mendefinisikan ukuran-ukuran numeris yang menjelaskan ciri-
ciri data yang penting. Sebarang ukuran yang menunjukkan pusat
segugus data yang telah diurutkan disebut ukuran lokasi pusat
atau ukuran pemusatan. Ukuran pemusatan yang paling banyak
digunakan adalah nilai tengah (mean), median dan modus.
Sedangkan ukuran yang menunjukkan sebaran atau variabilitas
data biasanya digunakan parameter range, variansi, deviasi
standar.
5
kota). Jadi data dapat pula diartikan sebagai kumpulan dari
variabel-variabel beserta deskriptornya.
Data dapat berupa tulisan, gambar/foto, audio atau film. Data
tersebut dapat berupa atau dinyatakan dalam bilangan atau bukan
bilangan. Data berupa bilangan disebut data kuantitatif sedangkan
data bukan bilangan disebut data kualitatif. Kita mengenal istilah
data kontinu, data diskrit, data kualitatif, data kuantitatif. Data
kontinu diperoleh dari hasil pengukuran sedangkan data diskrit
diperoleh dari hasil menghitung atau membilang bukan mengukur.
Data kualitatif adalah data yang berbentuk kalimat, kata, gambar.
Data kuantitatif adalah data yang berbentuk angka atau data
kualitatif yang diangkakan.
Data biasanya merupakan kumpulan dari beberapa variabel
yang merupakan hasil pengukuran dalam suatu eksperimen atau
pengamatan. Variabel adalah suatu karakteristik yang nilainya
antar objek pengamatan atau antar waktu pada objek yang sama
bisa berbeda beda. Variabel memuat data-data yang akan
digunakan untuk keperluan analisis dan mendeskripsikan
populasi, dan diintrepetasikan dalam laporan atau publikasi.
Sebagai contoh variabel antara lain : usia, berat badan, suhu, status
perkawinan (married, single, divorced), Golongan darah (A, B, AB
atau O), pendidikan.
6
terhitung (bagian dari bilangan real) maka termasuk dalam
variabel kontinu.
Variabel kontinu adalah salah satu yang diambil dari
sebuah nilai dalam suatu range atau interval (sebagai contoh
spesifikasi batas bahwah atau batas atas). Ketika menimbang tablet
atau mengukur tekanan darah, ada beberapa bilangan tidak
terbatas yang mungkin diperoleh jika data dapat dinyatakan dalam
bilangan desimal tidak terbatas. Namun, karena timbangan hanya
memiliki sensitifitas sampai miligram, maka data seolah-olah
menjadi berupa nilai diskret. Untuk tablet yang ditarget 1 gram dan
digunakan timbangan dalam skala miligram, mungkin diperoleh
berat dalam range antara 900 mg sampai 1100 mg, total ada 201
kemungkinan (900, 901, 902,903,...., 1098, 1099,1100). Untuk
beberapa tablet yang sama menggunakan timbangan yang lebih
sensitif, medekati 0,1 mg misalnya, maka kemungkinan nilai yang
diperoleh antara 899,5 sampai 1100,4 diperoleh 2010 kemungkinan
nilai, dan seterusnya. Namun demikian, pada prinsipnya data berat
tablet ataupun tekanan darah tersebut merupakan data kontinu.
Dikarenakan keterbatasan alat ukur, sehingga data kontinu seolah-
olah merupakan data diskrit. Pada umumnya data kontinu
diperoleh dari proses mengukur menggunakan suatu
instrumen/alat ukur tertentu seperti timbangan, mistar, termometer
dan lain-lain.
Seringkali variabel kontinu tidak mudah diukur tetapi dapat
diranking berdasarkan nilainya. Dalam studi klinik, pengukuran
kecapekan pasien, pengukuran secara numerik akan sulit
dilakukan, tetapi pasien dapat diminta menjelaskan apakah
kecapekannya berada pada tingkat sedang, sangat capek, dan
7
seterusnya. Skor didasarkan pada tingkat kecapekan, misalnya
tidak capek = 0, agak capek =1, cukup capek = 2, dan sangat capek =
3. meskipun skor tidak dapat menyatakan karakteristik capek
secara tepat, nilai 3 merepresentasikan nilai lebih intensif
dibandingkan 0, 1 dan 2. Sistem skoring seperti tersebut di atas
merepresentasikan variabel kontinu dengan skor yang bersifat
diskret dengan maksud melakukan rasionalisasi atau merangking
data. hal itu umumnya dikenal sebagai skala rating (rating scale)
dan data yang dirangking adalah skala ordinal. Skala rating adalah
suatu usaha untuk mengkuantisasi variabel kontinu, tetapi
subjektif.
Variabel kontinu dapat selalu diklasifikasikan melalui kelas
diskret dimana kelompok atau kelas disebut order. Sebagai contoh
pasien dapat dikategorikan berdasarkan kriteria berat dibawah
rata-rata (underweight , berat rata-rata (normal weight atau berat
di atas rata-rata (overweight . Overweight merepresentasikan
kondisi lebih besar dibandingkan underweight. Usia dapat diberi
satuan waktu seperti jam, hari, bulan atau tahun. Usia dapat juga
dikelompokan menjadi anak-anak, remaja, dewasa. Demikian juga
variabel suhu dapat diberi satuan derajad atau dapat juga
dikelompokan menjadi dingin, hangat, panas.
Variabel diskrit dapat juga diperoleh karena kemungkinan
nilai terbatas, seperti agama, jenis kelamin, tingkat pendidikan,
jumlah anak dan lain-lain.
8
nilai variabel. Terdapat empat jenis skala yang dapat digunakan
untuk mengukur variabel, yaitu: skala nominal, skala ordinal, skala
interval, dan skala ratio.
a. Skala nominal
Merupakan salah satu jenis pengukuran dimana angka
dikenakan untuk objek atau kelas objek untuk tujuan
identifikasi. Skala nominal hanya mempunyai makna
membedakan seperti:
i. agama : Islam, Katolik, Yahudi dll,
ii. mode transportasi : bus, taxi, mobil pribadi.
iii. aliran politik : liberal,moderat, konservatif.
iv. tempat tinggal : rumah, apartemen, kondominium dll.
b. Skala ordinal
Skala ordinal mempunyai makna membedakan sekalikus
urutan/ranking, seperti:
- rendah, sedang dan tinggi.
- peringkat setuju, ragu-ragu dan tidak setuju.
- tingkat kemiskinan (prasejahtera, sejahtera 1 dan sejahtera 2)
9
Skala ordinal merupakan salah satu jenis pengukuran
dimana angka dikenakan terhadap databerdasarkan urutan dari
objek. Misalkan peringkat setuju diberikan kode 1, ragu-ragu
mendapat kode 2 dan tidak setuju mempunyai kode 3. Disini
angka 2 lebih besar dari 1, bahwa angka 3 lebih besar dari 2
maupun 1. Angka 1, 2, 3, adalah berurut, dan semakin besar
angkanya semakin besar propertinya. Namun kita juga bisa
memakai angka 1 untuk mewakili peringkat setuju, 3 untuk
ragu-ragu, 5 untuk tidak setuju. Walaupun demikian, dalam
skala ordinal tidak berlaku sifat penjumlahan maupun
pengurangan. + ≠ , yang berarti setuju ditambah ragu-ragu
tidak sama dengan tidak setuju.
c. Skala interval
Merupakan salah satu jenis pengukuran dimana angka-
angka yang dikenakan memungkinkan kita untuk
membandingkan ukuran dari selisih antara angka-angka. Selisih
antara 1 dan 2 setara dengan selisih antara 2 dan 3, selisih antara
2 dan 4 dua kali lebih besar dari selisih antara 1 dan 2. Contoh
adalah skala temperature, misalnya temperature yang rendah
pada suatu hari adalah 40o F dan temperature yang tinggi adalah
80o F. Disini kita tidak dapat mengatakan bahwa temperature
yang tinggi dua kali lebih panas dibandingkan temperature yang
rendah karena jika skala Fahrenheit menjadi skala Celsius,
dimana C = (5F – 160) / 9, sehingga temperature yang rendah
adalah 4,4o C dan temperature yang tinggi adalah 26,6o C. Skala
interval tidak memiliki nilai nol mutlak. Misalkan suhunya 00C,
nilai nol tidak berarti suhunya tidak ada tetapi mempunyai
derajad nol.
10
d. Skala ratio
Merupakan salah satu jenis pengukuran yang memiliki nol
alamiah atau nol absolute, sehingga memungkinkan kita
membandingkan magnitude angka-angka absolute. Tinggi dan
berat adalah dua contoh nyata disini. Seseorang yang memiliki
berat 100 kg boleh dikatakan dua kali lebih berat dibandingkan
seseorang yang memiliki berat 50 kg, dan seseorang yang
memiliki berat 150 kg tiga kali lebih berat dibandingkan
seseorang yang beratnya 50 kg. Dalam skala ratio nol memiliki
makna empiris absolute berarti tidak satu pun dari variabel yang
diukur benar-benar eksis. Misal beratnya nol, berarti tidak
mempunyai berat.
11
pernyataan. Contoh: skala likert digunakan untuk mengukur
sikap, pendapat, dan persepsi seseorang atau sekelompok orang
tentang fenomena sosial. Skala likert bisa 3, 4, 5, 6, 7, skala
tergantung kebutuhan.
1 2 3 4 5
Sangat Tidak Ragu-ragu/ Setuju Sangat
tidak setuju setuju Netral setuju
Sangat Tidak Ragu-ragu/ Puas Sangat
tidak puas puas Netral puas
Sangat Kurang Cukup Baik Sangat
tidak baik baik baik
12
perasaannya. Responden biasanya diberi tahu bahwa sel-sel
ujung adalah sel-sel objek paling deskriptif, sel tengah adalah sel
netral, dan sel-sel antara sebagai sel agak deskriptif serta sel
cukup deskriptif. Jadi sebagai contoh, jika seorang responden
merasa bahwa pelayanan bank A berkualitas sedang, maka dia
akan menandai sel keenam dari kiri.
Contoh:
Pelayanan tidak berkualitas :----:----: Pelayanan berkualitas
Lokasi tidak menyusahkan :----:----: Lokasi menyusahkan
Jam kerja menyusahkan :----:----:Jam kerja tidak menyusahkan
Suku bunga kredit tinggi :----:----:Suku bunga kredit rendah
13
d. Rating Scale: bila ketiga skala di atas merubah bentuk
kualitatif menjadi kuantitif (angka/skor), maka rating scale
sebaliknya.
14
memperdalamnya melalui kepustakaankepustakaan yang
dimaksud. Pada akhirnya perlu pula diketahui, terutama pada
penelitian yang menggunakan kuesioner (daftar pertanyaan),
angket, dan sebagainya, skala ukur variabel itu merupakan
penjabaran dari points mata-mata) skala pada bentuk
pertanyaan-pertanyaan jadi menyusun daftar pertanyaan tidak
dilakukan semaunya atau seingatnya, melainkan dilakukan
dengan sistematik sesuai dengan skala ukur (ingat kembali,
bahwa skala ukur terdiri dari dimensidimensi, komponen-
komponen atau indikator-indikator variabel). Sekali lagi betapa
penting/urgentnya penentuan pengukuran dan penyusunan
skala itu bagi proses penelitian selanjutnya.
15
sebenarnya. Variabel kategorik sering disebut dengan variabel
diskrit.
16
(a) sampel darah yang diambil
(b) pengukuran dari orang yang berbeda atau
(c) pengukuran pada orang yang sama dengan kondisi yang
berbeda.
17
Contoh 1.1
Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak
lulus (G). Jika terdapat 3 calon maka ruang sampelnya adalah
Contoh 1.2.
Mengukur berat tinggi badan calon mahasiswa baru, maka
hasil pengukuran untuk seorang calon adalah
S = {x | x > 0}
banyaknya anggota S adalah tak terhingga. Variabel random X
yaitu tinggi mahasiswa adalah
X = {x | x >0}
18
sehingga
P( x ) 1 .
i 0
i
Contoh 1.3
Bila sepasang dadu dilemparkan, maka ruang sampelnya adalah
S ={ , , .., }.
Contoh 1.4
Menguji calon mahasiswa baru, hasilnya lulus (L) dan tidak lulus
(G). Jika terdapat 3 calon maka ruang sampel nya
19
S adalah ruang sampel yang merupakan himpunan semua
kemungkinan kejadian (hasil). Variabel random X yaitu banyaknya
calon yang lulus, maka
X = {0, 1, 2, 3}
Contoh 1.5
Mengukur berat tinggi badan calon mahasiswa baru, maka hasil
pengukuran untuk seorang calon adalah
20
1.7.1. Distribusi Binomial
Seringkali, data kategori diperoleh dari pengamatan
sebanyak n yang saling independen dan identik yang mempunyai
dua kemungkinan hasil yaitu sukses dan gagal. Jika hasil suatu
pengamatan tidak berpengaruh terhadap hasil pada pengamatan
lain maka dapat dikatakan n pengamatan saling independen. Yang
dimaksud dengan pengamatan identik adalah pengamatan
dilakukan pada kasus dan kondisi yang sama. Pada kejadian
sukses dan gagal, pengamatan saling independen disebut
Bernoulli trials. Misalkan π menyatakan probabilitas sukses dan X
adalah banyaknya sukses dari n pengamatan. Dengan asumsi n
pengamatan saling independen dan identik, Variabel random X
mempunyai distribusi binomial dengan parameter π.
Jadi, suatu percobaan atau pengamatan masuk kedalam
distribusi binomial jika memiliki ciri-ciri
a. Percobaan terdiri atas n ulangan
b. ulangan-ulangan itu bersifat bebas satu sama lain
c. dalam setiap ulangan hasilnya dapat digolongkan sebagai
berhasil atau gagal
d. peluang berhasil dilambangkan π dan untuk setiap ulangan
adalah sama (tidak berubah-ubah)
P( x) x dengan 0 1
0
untuk x yang lainnya
21
Contoh 1.6
Sebuah pertanyaan (kuis) yang terdiri dari 10 pilihan ganda
yang masing-masing mempunyai 5 alternatif dan hanya satu plihan
yang benar. X menyatakan banyaknya jawaban yang benar.
Probabilitas jawaban benar untuk masing-masing pertanyaan
adalah 0.20 maka
n=10 dan π= 0. 0
Probabilitas semua jawaban salah (x=0 ) sama dengan
10
P( X 0) 0.20 (1 0.2)10 0 0.107
0
Probabilitas banyaknya jawaban yang benar kurang dari 7 (x<7 )
sama dengan
6 10
P( X 7) P( X 6) 0.2 x (1 0.2)10 x 0.9991356
x 0 x
22
Y P(y) pada =0.2 P(y) pada =0.5 P(y) pada =0.8
8 0.000 0.044 0.302
9 0.000 0.010 0.268
10 0.000 0.001 0.107
23
Sebaran peluang multinom dapat nyatakan ke dalam rumus:
n x1 k k
Contoh 1.7
Menurut teori genetika, persilangan anggrek putih dan anggrek
merah akan menghasilkan anggrek putih, orange dan merah
dengan perbandingan 8:4:4. Berapa peluang dari 8 keturunan
terdapat 5 putih, 2 orange dan 1 merah?
Jawab:
Diketahui n=8, x1=5, x2=2, x3=1, 1=0.5, 2=0.25, 3 =0.25
8!
P( X 1 5; X 2 2; X 3 1) (0.5) 5 (0.25) 2 (0.25)1 = 0.08203125
5!2!1!
24
banyaknya hasil percobaan yang terjadi pada selang waktu
atau daerah lain yang terpisah
b. peluang terjadinya suatu hasil percobaan selama suatu
selang waktu yang singkat sekali atau dalam suatu daerah
yang kecil, sebanding dengan panjang selang waktu atau
besarnya daerah tersebut, dan tidak tergantung pada
banyaknya hasil percobaan yang terjadi diluar selang waktu
atau daerah tersebut.
c. peluang bahwa lebih dari satu hasil percobaan akan terjadi
dalam selang waktu yang singkat tersebut atau dalam
daerah yang kecil tersebut, dapat diabaikan.
Contoh 1.8
Seorang sekretaris rata-rata melakukan 2 kesalahan ketik per
halaman. Berapa peluangnya bahwa dia akan melakukan kesalahan
sebanyak
a. 2 atau lebih kesalahan?
b. tidak satupun kesalahan?
25
Jawab:
diketahui =2
exp( 2)2 x
a. P( X 2)
x2 x!
1
exp( 2)2 x
= 1
x 0 x!
= 1 - 0.4060058
=0.5939942
exp( 2)2 0
b. P( X 0) 0.1353353
0!
26
a1 ak
.....
h( x1 ,..., xk ; N ; n; a1 ,..., ak ) 1 k , dimana x i n dan a i N
k k
x x
N i 1 i 1
n
x 1 k
B( x; k ; ) (1 ) x k dimana x k, k 1, .....
k 1
1 x
2
1
f ( x) exp( )
2 2 2
dalam hal ini = 3,14159 dan exp(.) = 2,72(.).
27
1.8.6. Distribusi Chi Kuadrat
Densitas dari distribusi Chi Kuadrat adalah
1
n/2 ( x) n / 2 1 e x / 2 untuk 0 x
f X ( x) 2 (n / 2)
0
untuk x yang lain
1.8.7. Distribusi F
Distribusi F disimbulkan dengan F(m;n) untuk suatu
bilangan positif m dan n (derajad kebebasan) mempunyai densitas
m n m m / 2
2 n x (n - 2)/2
(m n) / 2
untuk 0 x
f X ( x) m n
1 m x
2 2 n
0 untuk x yang lain
n 1
2
1
( n 1) / 2
untuk 0 x
f X ( x) n n x2
1
2 n
0 untuk x yang lain
28
1.9. Distribusi Probabilitas dalam Program R
Dalam program R, kita dapat mengitung probabilitas
kumulatif, nilai densitas, kuantil dan membangkitkan bilangan
random dari densitas tertentu menggunakan perintah :
dbinom(x, size, prob) : menghitung densitas dari distribusi
binomial
pbinom(x, size, prob) : menghitung densitas kumulatif dari
distribusi binomial
qbinom(p, size, prob) : menghitung kuantil ke-p dari distribusi
binomial
rbinom(n, size,prob) : membangkitkan n bilangan random dari
distribusi binomial
29
Distribusi Nama argumen
log-normal Lnorm meanlog, sdlog
Logistic Logis location, scale
negative binomial nbinom size, prob
Normal Norm mean, sd
Poisson Pois Lambda
Student s t T df, ncp
Uniform Unif df, ncp
Weibull weibull shape, scale
Wilcoxon wilcox m, n
Contoh 1.9
Variabel random X berdistribusi binomial, X~ binom(n,p), maka
P(X=x) dihitung menggunakan fungsi dbinom(x,n,p)
P(Xx) dihitung menggunakan fungsi pbinom(x,n,p)
P(Xx)> q dihitung menggunakan fungsi qbinom(q,n,p)
a. P(X=3|n=12,=0.9) = 1.6038e-07
> dbinom(3,12,0.9);
[1] 1.6038e-07
b. P(X3|n=12,=0.9) =1.65835e-07
> pbinom(3,12,0.9);
[1] 1.65835e-07
c. P(Xx|n=12,=0.9)>0.5 maka x=12
> qbinom(0.5,12,0.9);
[1] 11
30
d. P(Xx|n=12,=0.5)>0.9 maka x=11
> qbinom(0.5,12,0.9);
[1] 11
e. Dari contoh 1.7.
P(X=x|n=10,=0.2) =0.1073742
> dbinom(0,10,0.2);
[1] 0.1073742
P(X6|n=10,=0.2)
> pbinom(6,10,0.2);
[1] 0.9991356
Contoh 1.10
Variabel random X berdistribusi Poisson, X~Pois() :
P(X=x) dihitung menggunakan fungsi dpois(x, )
P(Xx) dihitung menggunakan fungsi ppois(x, )
P(Xx)> q dihitung menggunakan fungsi qpois(q,)
a. P(X=2|=4)= 0.1465251
> dpois(2,4);
[1] 0.1465251
b. P(X2|=4)= 0.2381033
> ppois(2,4);
[1] 0.2381033
c. P(Xx|=4)>0.5 maka x = 4
> qpois(0.5,4);
[1] 4
31
Contoh 1.11
Variabel random X berdistribusi Normal, X~N(,2) :
P(X=x) dihitung menggunakan fungsi dnorm(x,,)
P(Xx) dihitung menggunakan fungsi pnorm(x,,)
P(Xx)> q dihitung menggunakan fungsi qnorm(q,,)
a. P(X=2|=1,=4)= 0.09666703
> dnorm(2,1,4);
[1] 0.09666703
b. P(X<2|=1,=4)= 0.5987063
> pnorm(2,1,4);
[1] 0.5987063
c. P(Xx|=1,=4)>0.5 maka x = 1
> qnorm(0.5,1,4);
[1] 1
Sementara itu untuk distribusi multinomial dapat diperoleh dari
library combinat yaitu menggunakan fungsi
>dmnom(x,size,prob)
Contoh 1.12
Pengamatan multinomial yang dapat dikategorikan menjadi 4
kelompok terhadap objek. Diketahui π1= . , π2= . , π3=0.3 dan
π4=0.3. Hitung peluang dari diperoleh x1=1, x2=1,x3=4 dan x4=4.
>library(combinat);
>dmnom(c(1,1,4,4),10,c(0.2,0.2,0.3,0.3));
[1] 0.01653372
32
Pengamatan multinomial yang dapat dikategorikan menjadi 3
kelompok terhadap objek. Diketahui π1= . , π2= . , π3=0.25.
Hitung peluang dari diperoleh x1=1, x2=5,x3=2 dan x4=1.
>dmnom(c(5,2,1),8,c(0.5,0.25,0.25));
[1] 0.08203125
Contoh 1.13
>library(multinomRob)
>rmultz2(n=5, p= c(0.2,0.3, 0.5), draws=10);
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 2 0 0 1 0 2 1 1 1 2
[2,] 2 2 1 1 1 2 2 1 2 2
[3,] 1 3 4 3 4 1 2 3 2 1
33
Contoh 1.14
> x=c(1,2,1,3,2,4,5,3,2,1,3,4,5,3,2,1,3,4,5,3,2,1);
> hist(x);
Dipeloleh gambar sebagai berikut :
Histogram of x
6
5
4
Frequency
3
2
1
0
1 2 3 4 5
Contoh 1.15
> x=c(1,2,4,5,6,7,12,17,19);
> y=c(0,6,4,5,8,7,2,7,9);
> plot(x)
34
> plot(x,y,xlab="nilai MX", ylab="nilai BX",type="l");
> fx<-function(x)dnorm(x,1,3)
> fy<-function(x)dnorm(x,2,4)
> plot(fx,-10,10)
35
> curve(fy,add=TRUE)
36
digunakan untuk mengestimasi parameter adalah Maximum
Likelihood Estimator (MLE).
Terdapat dua cara untuk inferensi parameter , yaitu metode
eksak dan metode pendekatan distribusi normal. Metode eksak
digunakan pada sampel kecil dan metode pendekatan distribusi
normal digunakan ketika jumlah sampel besar.
Dalam inferensi statistik, kita mengenal nilai yang
merupakan probabilitas kesalahan Tipe I yang biasa disebut
dengan tingkat signifikansi. Untuk menguji hipotesis H0, peneliti
menetapkan nilai yang digunakan. Nilai terkecil sedemikian
hingga dapat menolak H0 disebut P-value. P-value dapat dihitung
berdasarkan distribusi statistiknya. Pada distribusi probabilitas
diskrit, penggunaaan P-value bersifat konservatif. Artinya, tidak
dimungkinkan bagi P-value untuk mencapai nilai signifikansi yang
diinginkan secara tepat. Sehingga probabilitas sesungguhnya dari
kesalahan tipe I bernilai kurang dari 0.05. Sebagai contoh,
dimisalkan pengujian
37
Tabel 1.3 menunjukkan distribusi binomial dengan n= 10 dan
=0.5, 0.2, 0.8. Tabel 1.5 menunjukkan korespondesi distribusi
binomial terhadap nilai P-value (probabilitas sisi kanan) pada
beberapa nilai Y.
Untuk statistik uji pada distribusi kontinu, P-value
mempunyai distribusi uniform pada interval [0, 1]. Ketika H0 benar,
P-value dapat bernilai antara 0 dan 1. Kita bisa menemukan nilai
statistik uji sedemikian hingga nilai P-value sesuai dengan yang
kita inginkan. Akan tetapi pada distribusi diskret, nilai hal itu tidak
bisa dilakukan. Sebagai contoh untuk uji satu sisi,
P-value = 1.000 ekuivalen dengan P(y=0) = 0.001,
P-value = 0.999 ekuivalen dengan P(y=1) = 0.010,
...
P-value = 0.001 ekuivalen dengan P(y=10) = 0.010.
38
Pada sample data diskret berukuran kecil, ahli statistika
memilih menggunakan tipe lain dari P-value yang disebut sebagai
Mid P-value. Nilai ini hanya diperoleh melalui penambahan separuh
probabilitas dari hasil observasi kepada probabilitas dari hasil yang
lebih ekstrim. Untuk mengilustrasikannya, sebagai contoh untuk y
=9 pada n=10 pengulangan dengan hipotesis
H1 π > .
Maka nilai P–value adalah:
P–value = P(9) + P(10) = 0.010 + 0.001 = 0.011.
39
Untuk berbagai nilai y, nilai P-values dan mid P-values pada
n=10 disajikan pada Tabel 1.6.
Tabel 1.6. Nilai P-value untuk n=10 pada H0: =0.5 vs H1: <0.50
y P(y) P-value Mid P-value
0 0.001 0.001 0.001
1 0.010 0.011 0.006
2 0.044 0.055 0.033
3 0.117 0.172 0.113
4 0.205 0.377 0.274
5 0.246 0.623 0.500
6 0.205 0.828 0.726
7 0.117 0.945 0.887
8 0.044 0.989 0.967
9 0.010 0.999 0.994
10 0.001 1.000 1.000
Dari Tabel 1.6, disimpulkan bahwa H0 ditolak jika dari data sampel
diperoleh y .
40
Probabilitas ini didefinisikan untuk yang bernilai antara nol dan
satu.
Fungsi likelihood merupakan probabilitas yang didefinisikan
sebagai fungsi dari parameter .
n! y
L() = .(1-)n-y
(n y )! y!
Pada distribusi binomial dengan y=0 dan n=10 maka fungsi
likelihoodnya adalah
10! 0
L() = .(1-)10-0 = (1-)10
(10 0)!0!
41
Semakin besar n maka Var(p) mendekati nol, yang berarti bahwa
sampel proporsi p cukup dekat dengan parameter π. Distribusi
sampling p mendekati distribusi normal untuk n besar. Inferensi
terhadap parameter π dapat menggunakan pendekatan sampel
besar. Hipotesis yang akan diuji adalah
H0: π = π0
Hipotesis tersebut menyatakan bahwa parameter π nilainya sama
dengan π0. Statistik uji yang digunakan adalah
(p 0)
Z
0 (1 0 )
n
z = z0.05 = 1.65.
42
1.14. Interval Konfidensi Proporsi dengan Pendekatan Distribusi
Normal.
Interval konfidensi untuk parameter dengan tingkat
kepercayaan 100( − )% dengan menggunakan pendekatan sampel
besar adalah
p(1 p)
p z / 2 .SE dengan SE
n
z /2 = z0.025 = 1.96.
0.6(1 0.6)
0.6 1.96. 0.6 0.04899
100
0.6(1 0.6)
0.6 2.576. 0.6 0.126
100
43
Dengan konfidensi semakin besar (signifikansi semakin kecil),
maka interval yang diperoleh juga semakin lebar.
SE var( ˆ ) .
44
L1 adalah nilai fungsi likelihood dari penaksir MLE ( ˆ ) .
L1= L( ˆ )
Karena L( ˆ ) < L() untuk semua , maka
L1 > L0
L( 0 )
0 1
L( ˆ )
45
Untuk uji Score :
0.50(1 0.50) 0.9 0.5
SE 0.158 sehingga z 2.53 atau z2 =
10 0.158
(2.53)2 =6.4
Untuk uji rasio likelihood :
10!
L0 (0.5) 9 (0.5)1 0.00977
9!1!
dan
10!
p=0.9 sehingga L1 (0.9) 9 (0.1)1 0.3874
9!1!
L0 0.00977
2 log 2 log 2 log( 0.0252) 7.36
L1 0.3874
46
>prop.test(x=3,n=25,conf.level=0.95,correct=F)
1-sample proportions test without continuity
correction
data: 3 out of 25, null probability 0.5
X-squared = 14.44, df = 1, p-value = 0.0001447
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.04166817 0.29955794
sample estimates:
p
0.12
Selain itu juga menggunakan fungsi binconf dalam library
Hmisc. Pada menu option, pilih method= wilson
>library(Hmisc, T)
>binconf(x=3, n=25, alpha=.05, method="wilson")
PointEst Lower Upper
0.12 0.04166817 0.2995579
47
0.0254654 0.3121903
sample estimates:
probability of success
0.12
b. fungsi binconf dalam library Hmisc menggunakan metode
exact.
>library(Hmisc, T)
>binconf(x =30, n = 25, alpha = .05, method =
"exact")
PointEst Lower Upper
0.12 0.0254654 0.3121903
c. Statistik Pearson’s Chi-Squared dapat diperoleh
menggunakan fungsi chisq.test
>chisq.test(x=c(6022,2001),p=c(.75,.25))
Chi-squared test for given probabilities
data: c(6022, 2001)
X-squared = 0.015, df = 1, p-value = 0.9025
1.18. Latihan
1.1 Pada contoh-contoh berikut, lakukan identifikasi variabel
respon, variabel independen dan skala pengukuranya :
a. Sikap terhadap undang undang pornografi (suka, tidak
suka), gender (laki-laki, perempuan), pendidikan orang
tua ( Sekolah menengah, perguruan tinggi).
b. Penyakit jantung (ya, tidak), tekanan darah, kadar
kolesterol.
c. Pendidikan (SD, SLTA, Diploma, Sarjana), agama (Islam,
katolik, yahudi, protestan), suara untuk pemilihan
presiden (Golkar, Demokrat, PDIP,PKS, PKB, PAN,
lainnya), pendapatan per tahun.
48
d. Status pernikahan (menikah, belum menikan,
janda/duda), kualitas hidup (sangat bagus, bagus, cukup,
kurang).
1.2 Mana skala pengukuran berikut ini yang paling sesuai,
nomial atau ordinal?
a. Keikut sertaan dalam partai politik (Golkar, Demokrat,
PDIP, lainnya)
b. Pendidikan terakhir (tidak punya, sekolah menengah,
sarjana, master, doktor)
c. Kondisi pasien (bagus, cukup, serius, kritis)
d. Minuman favorit ( bir, jus, susu, soft drink, anggur,
lainnya)
e. Berapa sering mengalami depresi (tidak pernah, kadang-
kadang, sering, selalu).
1.3 Terdapat 100 pertanyaan pilihan ganda, masing-masing soal
terdapat 4 jawaban tetapi hanya satu jawaban yang benar.
Untuk setiap pertanyaan, seorang siswa memilih satu
jawaban
a. Tentukanlah distribusi jumlah siswa memilih jawaban
yang benar dalam ujian
b. Berdasar nilai mean dan deviasi standar dari distribusi,
apakah merupakan suatu yang menggembirakan jika
siswa membuat paling sedikit 50 jawaban yang benar?
Jelaskan alasannya.
1.4 Di sebuah kota, dari data kepolisian diketahui rata-rata
banyaknya pencurian motor sebesar 4 kasus per bulan.
Berapa peluangnya bahwa di kota tersebut pada bulan
Januari akan terjadi pencurian motor sebanyak
49
a. kurang dari 3 kasus?
b. tidak satupun kasus?
1.5 Misalkan, peluang seseorang yang terinfeksi virus flu burung
akan meninggal sebesar 0,2. Berapa peluang dari 16 pasien
yang terinfeksi akan terdapat lebih dari 14 pasien sembuh?
1.6 Pengamatan terhadap 20 pasien yang terinfeksi virus flu
burung, terdapat 5 pasien meninggal dunia. Berdasarkan data
tersebut akan dilakukan pengujian terhadap hipotesis yang
menyatakan bahwa peluang sembuh terhadap infeksi virus
flu burung lebih dari 75%.
a. Hitung nilai P-value dan nilai mid P-value.
b. Jika digunakan = . , kesimpulanya apa?
c. Lakukan pengujian menggunakan statistik Wald, Score
dan rasio likelihood.
1.7 Lakukan pengujian seperti soal 1.6, jika dari 150 terdapat 15
pasien meninggal dunia.
50
BAB II
TABEL KONTIGENSI
51
Sebuah tabel yang merupakan klasifikasi silang (cross classifies)
dari dua variabel dinamakan tabel kontigensi dua arah. Masing-
masing variabel menempati posisi baris dan kolom. Jika masing-
masing variabel mempunyai level 2 maka akan diperoleh tabel 2x2.
Jika satu variabel baris mempunyai level 5 dan variabel kolom
mempunyai level 3 maka akan diperoleh tabel 5x3. Kita mulai
pembahasan untuk tabel 2x2.
52
Diasumsikan bahwa masing-masing objek memiliki salah satu
sifat/klasifikasi A (A1 atau A2) dan salah satu sifat B (B1 atau B2). nij
adalah banyaknya objek yang memiliki sifat Ai dan Bj untuk i,j=1,2.
noj = n1j + n2j ; nio = ni1 + ni2 dan n = no1 + no2 = n1o + n20
53
Untuk memberi nama variabel baris dan kolom, gunakan
perintah sebagai berikut :
> dimnames(MI)<list(c("placebo","aspirin"),c("Ya","Tidak"))
Untuk menghitung total baris (nio) dan total kolom (noj) dan total
proporsi (poj dan pio) dapat digunakan fungsi apply.
> rowtot <- apply(MI,1,sum)
> coltot <- apply(MI,2,sum)
> rowpct <- sweep(MI,1,rowtot,"/")
> round(rowpct,3)
Sakit Kepala
Grup Ya Tidak
placebo 0.017 0.983
aspirin 0.009 0.991
54
> Jumlah <- c(189,10845,104,10933)
> MI <- data.frame(grup, Sakit-Kepala,Jumlah)
> MI
Grup Sakit-Kepala Jumlah
1 placebo Ya 189
2 placebo Tidak 10845
3 aspirin Ya 104
4 aspirin Tidak 10933
55
dengan
n11 n n n
p11 ; p12 12 ; p21 21 ; p22 22 ;
n n n n
Berdasarkan contoh pada Tabel 2.2, maka proporsi observasi
adalah,
Tabel 2.5. Tabel proporsi penggunaan aspirin
Grup Sakit Kepala Total
Ya Tidak
Placebo 0.0086 0.4914 .4999
Aspirin 0.0047 0.4954 .5001
Total 0.0133 0.9867 1.0000
56
terdapat dua kemungkinan hasil (dua kelompok). Untuk
distribusi marginal baris, nilai probabilitasnya adalah
P(A1) = 1o dan P(A2) = 2o
57
Demikian juga
21
P(Y Y1 | X X 2 ) dan P(Y Y2 | X X 2 ) 22
20 20
sehingga
P(Y Y2 | X X 2 ) P(Y Y2 | X X 2 ) 1 .
2.1.3. Independensi
Dua variabel dikatakan independen secara statistik jika
distribusi bersyarat untuk variabel Y pada semua level X adalah
indentik. Ketika dua variabel independen, maka
P(Y Y1 | X X 2 ) P(Y Y1 | X X 2 )
58
Pada umumnya ij merupakan parameter (nilainya tidak
diketahui) dan diduga menggunakan data sampel yaitu pij.
Selanjutnya independensi dua variabel ini harus diuji.
Pembahasan uji independensi berdasarkan tabel kontigensi akan
dibahas di sub bab 2.5.
dan
spesifikasi = P(Y = 0|X = 0)
59
Suatu diagnosa/alat dikatakan baik jika nilai sensitivitas dan
spesifikasi sangat tinggi (mendekati satu).
Contoh :
Sebuah alat untuk mendeteksi keberadaan narkoba dalam
sebuah tas tertutup. Dari beberapa kali pengujian terhadap tas
yang memuat narkoba maupun terhadap tas yang tidak memuat
narkoba diperoleh hasil sebagai berikut:
Tabel 2.8. Hasil pengujian keberadaan narkoba dalam tas.
Kondisi Hasil Pengujian (Y) Jumlah
sesungguhnya (X) Ada Tidak Ada
Ada 92 8 100
Tidak Ada 1 99 100
Jumlah 93 107 100
60
jumlahnya maka hal ini menjamin sampel yang diamati
mempunyai sifat/karakteristik A1 maupun A2. Pengamatan
seperti ini dapat disebut sebagai pengamatan dua populasi yaitu
populasi A1 dan populasi A2. Pada pengamatan seperti ini,
distribusi bersama antara A dan B tidak mempunyai makna,
tetapi yang digunakan adalah distribusi bersyarat. Alokasi
sampel seperti ini digunakan untuk menguji kesamaan proporsi
B diantara level A. Jika B mempunyai dua kategori maka
disebut sampling binomial. Jika B mempunyai lebih dari dua
kategori maka disebut sampling multinomial.
Desain pengamatan yang lain adalah banyaknya
pengamatan pada masing-masing baris tidak ditetapkan tetapi
hanya menetapkan total pengamatan n. Pengamatan seperti ini
merupakan sampling multinomial, sebab pada tabel 2x2 unit
sampelnya mempunyai empat kategori. Pengamatan seperti ini
dilakukan untuk mengetahui independensi antara A dan B atau
untuk mengetahui pengaruh satu variabel terhadap variabel
yang lain.
61
p11 0.0086
RR 1.82
p21 0.0047
62
berarti probabilitas sukses lebih kecil daripada probabilitas
gagal. Demikian juga sebaliknya jika odds lebih dari satu berarti
probabilitas sukse lebih besar daripada probabilitas gagal.
Sebagai contoh, jika π = 0.75, maka odds = 0.75/0.25 = 3,
berarti bahwa probabilitas sukses besarnya tiga kali probabilitas
gagal. Diantara 4 pengamatan terdapat 3 kali sukses dan 1 kali
gagal. Jika odds = 1/4, berarti probabilitas gagal empat kali lebih
besar daripada probabilitas sukses. Probabilitas sukses (π)
merupakan fungsi dari odds, yaitu
odds
(odds 1)
Misalkan
Jika odds = 3, maka π = 3/(3 + 1) = 0.75.
Jika odds = 4, maka π = 4/(4 + 1) = 0.8.
63
Dari contoh pada Tabel 2.5,
0.0086 / 0.9914
Oˆ R 1.832
0.0047 / 09954
Ketika OR=1 berarti odds pada grup satu sama dengan odds
pada grup dua. Ketika OR>1 berarti odds grup satu lebih besar
daripada odds pada grup dua. Ketika OR < 1 berarti odds grup
satu lebih kecil daripada odds pada grup dua.
OR dapat digunakan untuk menjelaskan kekuatan asosiasi
dua variabel. Ketika X dan Y adalah independen, π1 = π2,
sehingga odds1 = odds2 dan OR = odds1/odds2 = 1.
Nilai independen yaitu OR = 1 sebagai baseline untuk
perbandingan. Sebagai contoh OR=4, berarti odds pada baris
pertama adalah empat kali odds pada baris kedua, yang
mempunyai makna π1 > π2. Jika OR=4, maka kekuatan asosiasi
antara X dan Y lebih kuat dibandingkan dengan asosiasi X dan Y
pada OR=2. Jika OR=0.2, maka kekuatan asosiasi antara X dan Y
lebih kuat dibandingkan dengan asosiasi X dan Y pada OR=0.4.
Ketika p1 dan p2 , kedua sangat kecil, nilai odds rasio
mendekati nilai resiko relatif. Odds ratio dapat diperoleh dari
nilai resiko relatif menggunakan rumus
64
(1 p 2 )
OR RR
(1 p1 )
65
Dengan menggunakan transformasi eksponensial, diperoleh
interval konfidensi ÔR untuk sampel besar yaitu
exp log( Oˆ R) z
/2
(SE ) , exp log( Oˆ R) z / 2 (SE )
Berdasarkan tabel 2.5, maka
0.0086 / 0.9914
Oˆ R 1.832
0.0047 / 0.9954
1 1 1 1
SE 0.123
189 10.933 104 10.845
66
mempunyai dua grup, demikian juga variabel respon yang
diletakan pada kolom juga mempunyai dua grup.
dengan
67
p1 (1 p1 ) p 2 (1 p 2 )
SE
n1 n2
68
X-squared = 24.4291, df = 1, p-value = 7.71e-07
alternative hypothesis: two.sided
95 percent confidence interval:
0.004597134 0.010814914
sample estimates:
prop 1 prop 2
0.01712887 0.00942285
sample estimates:
prop 1 prop 2
0.01712887 0.00942285
69
[1] 0.004597134 0.010814914
attr(,"conf.level")
[1] 0.95
> round(MI.test$conf.int,3)
[1] 0.005 0.011
attr(,"conf.level")
[1] 0.95
> MI.test$estimate[1]/MI.test$estimate[2] %
relative risk
prop 1
1.817802
70
setiap obyek dilakukan observasi lebih dari satu variabel kategori,
maka data hasil observasi dapat disajikan dalam bentuk tabel yang
disebut tabel tabulasi silang. Misalkan observasi terhadap
karyawan perusahaan, variabel kategori yang dapat diobservasi
adalah jenis kelamin, status perkawinan, pendidikan dan lain-lain.
Pada Tabel tabulasi silang, jika dilakukan analisis lebih lanjut,
akan diperoleh informasi tentang ada tidaknya keterkaitan antara
variabel kategori satu dengan variabel kategori yang lain dengan
menggunakan uji independensi. Bentuk tabel tabulasi silang dari
suatu observasi adalah sebagai berikut :
Tabel 2.9. Tabel kontigensi dua arah
Kategori I Kategori II Total
1 2 k
1 n11 n12 n1L n1.
2 n21 n21 n2L n2.
71
Teknisi) yang diharapkan. Dari sampel sebanyak 200 pencari kerja,
data hasil observasi dapat ditabelkan sebagai berikut :
Tabel 2.11. Klasifikasi karyawan berdasarkan pendidikan dan
jenis pekerjaan
Pendidikan Jenis Pekerjaan Total
Adm. Penjualan Operator Teknisi
SMP 5 6 7 22 40
SMA 6 10 30 14 60
D3 8 35 20 7 70
S1 24 4 2 0 30
Total 43 55 59 43 200
72
ni 0 n 0 j
ij x
n n
Misalkan dari data pada Tabel 2.2. nilai harapan pada baris
pertama dan kolom pertama,
11034 x293
e11 146.48
22071
Hasil selengkapnya disajikan pada Tabel 2.12.
Tabel 2.12. Nilai Harapan penggunaan aspirin
Grup Sakit Kepala Total
Ya Tidak
Placebo 146.48 10887.52 11034
Aspirin 146.52 1089.48 11037
Total 293 21778 22071
73
Tabel 2.13. Frekuensi harapan klasifikansi karayawan menurut
pendidikan dan jenis pekerjaan
74
H0 : Faktor I dan Faktor II independen
H1 : Faktor I dan Faktor II tidak independen
i 1 j 1 ij
75
mendekati distribusi Chi-Kuadrat dengan derajad bebas (b-1)(k-
1). Pendekatan ini akan baik jika ij semakin besar dan ij .
Distribusi Chi-Kuadrat mempunyai mean sama dengan derajat
bebasnya (df = degrees of freedom) dan variansinya sama dengan
2 kali df. Semakin besar df maka semakin mendekati distribusi
normal. Sebagaimana dalam gambar berikut merupakan grafik
distribusi Chi-Kuadrat pada df = 1, 5, 10, dan 20.
76
>fx1<-function (x)dchisq(x,df=1)
>curve(fx1,type = "l",add=TRUE)
>fx2<-function (x)dchisq(x,df=10)
>curve(fx2,type = "l",add=TRUE)
77
>fx3<-function (x)dchisq(x,df=20)
>curve(fx3,type = "l",add=TRUE)
0.15
0.10
Probability Density
0.05
0.00
0 10 20 30 40
78
b k nij
G 2 2 nij log
i 1 j 1 ij
Statistik uji ini mempunyai nilai non negatif dan berdistribusi
Chi-Kuadrat dengan derajad bebas (b-1)(k-1). G2 disebut
statistik likelihood-ratio Chi-Kuadrat yang bernilai besar
ketika H0 salah. G mempunyai nilai minimum nol ketika nij =
2
79
Kedua statistik ini mempunyai distribusi Chi-Kuadrat dengan
derajad bebas sama dengan (b-1)(k-1). H0 ditolak pada tingkat
sign jika 2 > 2(:(b-1)(k-1)). Rumus di atas dapat disajikan dalam
bentuk :
1 nij2 1 n22 j 1 nbj2
2 N
n10
n0 j n2..
n0 j
.....
nb 0
n 1
.0
i 1
i0 1 sehingga terdapat (b-1) dari i0 yang nilainya bebas
j 1
0j 1 sehingga terdapat (k-1) dari i0 yang nilainya bebas
80
distribusi normal dengan rataan 2(b 1)(k 1) 1 dan
simpangan baku 1. Oleh karena itu
Z= 2 2 - 2(b 1)(k 1) 1
sedangkan variansinya
2n n2
2 (n1 1 )(n2 2 ) 1 2
n3 n 1
dengan
(b 1)(n b)
n1 , n2 (b 1)(n k )
(n 1) (n 1)
1
n b 2 n 1 k 2
1 ,
ni 0 n0 j
2
(n 2) (n 2)
81
responden sebanyak 2757, dapat diklasifikasikan sebagai
berikut
Tabel 2.15. Data gender dan partai afiliasi
Gender Partai
Demokrat Agama Republik Total
Wanita 762 327 468 1557
(703.7) (319.6) (533.7)
Laki 484 239 477 1200
(542.3) (246.4) (411.3)
Total 1246 566 945 2757
Keterangan : frekuensi harapan dinyatakan dalam tanda
kurung.
data: gender
X-squared = 30.0701, df = 2, p-value = 2.954e-07
82
2.5. Uji Eksak untuk Sampel Kecil
Sejauh ini, interval konfidensi dan statistik uji yang dibahas
didasarkan pada metode sampel besar. Statistik 2 maupun G2
sesuai untuk sampel besar. Ketika n kecil, lebih baik menggunakan
distribusi eksak dibanding dengan pendekatan sampel besar.
2.5.1. Uji Eksak Fisher’s untuk Tabel 2 × 2
Uji chi kuadrat merupakan uji pendekatan(bukan eksak).
Untuk uji eksak dikemukakan oleh Fisher. Didasarkan atas
sampling tanpa pengembalian dari distribusi hipergeometrik. H 0
benar (kedua pengamatan independen), peluang komposisi
pengamatan seperti Tabel 2.1 (dengan asumsi jumlah margin
tetap ) adalah
n10 n20
n11 n01 n11 n !n !n !n !
P(n11 ) 10 20 02 01
n n11!n12!n21!n22!n!
n01
83
diantaranya teh yang dituang duluan dan empat gelas yang
lainnya adalah milk. Selanjutnya delapan gelas tersebut
disajikan secara random dan diperoleh hasil dalam tabel berikut
ini,
Tabel . . Data Fisher Tea
Dituang I Dugaan Total
Milk Tea
Milk 3 1 4
Tea 1 3 4
Total 4 4 8
4 4 4! 4!
P(3) 3!1! 1!3!
3 1 16
0.229
8 8! 70
4 4!4!
84
4 4
P(4)
4 0 1
0.014
8 70
4
85
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309
> fisher.test(teh,alternative="greater")
Fisher's Exact Test for Count Data
data: teh
p-value = 0.2429
alternative hypothesis: true odds ratio is greater than 1
95 percent confidence interval:
0.3135693 Inf
sample estimates:
odds ratio
6.408309
> library(ctest)
86
a. Koefisien kontigensi kuadrat tengah (2)
2
2 , 0 < 2 <
n
b. Koefisien kontigensi Pearson (P)
2 n
2 ,0<P<1
(1 2 n)
2 /n
C
min (b 1); (k 1)
87
Jumlah pasangan konkordan dinyatakan dengan M dan jumlah
pasangan diskonkordan dinyatakan dengan N. Selanjutnya
Q = M-N
Dari Q dturunkan tiga macam statistik tau (ukuran tau-
Kendall)
2Q
a N
n(n 1)
2Q
b
( M N X 0 )(M N Y0 )
dengan
X0 : jumlah pengamatan seri hanya pada variabel pertama
Y0 : jumlah pengamatan seri hanya pada variabel kedua
2mQ
c 2
n (m 1)
88
k
max( n
b
j 1
ij ) max( ni. ) max( n ij ) max( n. j . )
B , B i 1
max( n
i 1
ij ) max( nij ) max( n. j . ) max( n.i. )
j 1
2n max( n. j ) max( ni. )
b. Gamma Goodman-Kruskal
Ukuran assosiasi ini diturunkan dari statistik Q dalam statistik
tau kendall.
Rumusnya :
( MQ N )
= 1 terjadi dependensi sempurna dan =0 terjadi independensi
sempurna.
c. d Somers
Jika kita mempunyai dua variabel yang satu sebagai prediktor
dan yang lain sebagai respon , masing-masing variabel kategori
peringkat, maka ukuran assosiasinya dihitung dengan statistik
d Somers. X sebagai prediktor dan Y sebagai respon , statistik
ini dinotasikan
Q
d YX
(M N X o )
89
Q
d XY
( M N Yo )
90
Statistik uji yang digunakan adalah
2
J
(n11 j e11 j )
n10 j n20 j n01 j n02 j
CMH j 1 dengan Var ( n )
j ( n00 j 1)
11 j 2
J n00
Var
j 1
( n11 j )
91
Langkah-langkah analisis menggunakan program R adalah :
> dp <- c(19, 132, 0,9,11,52,6,97)
> dp <- array(dp, dim=c(2,2,2))
> dimnames(dp) <- list(Hukum.Mati=c("ya","tidak"),
Korban=c("Suku A"," Suku B "), Terdakwa=c("Suku A"," Suku
B"))
> mantelhaen.test(dp)
Mantel-Haenszel chi-squared test with continuity
correction
data: dp
Mantel-Haenszel X-squared = 5.8062, df = 1, p-value =
0.01597
alternative hypothesis: true common odds ratio is not
equal to 1
95 percent confidence interval:
1.397771 11.381078
sample estimates:
common odds ratio
3.988502
> mantelhaen.test(dp,correct=FALSE)
Mantel-Haenszel chi-squared test without continuity
correction
data: dp
Mantel-Haenszel X-squared = 6.9964, df = 1, p-value =
0.008168
alternative hypothesis: true common odds ratio is not
equal to 1
95 percent confidence interval:
1.397771 11.381078
sample estimates:
common odds ratio
3.988502
92
lainnya ada di kolom. Namun, dalam praktek banyak pula
dijumpai penggunaan lebih dari dua variabel, khususnya jika
diperlukan variabel kontrol. Pada software SPSS menyediakan
fasilitas Layer untuk variabel yang berfungsi sebagai pengendali.
Sebagi contoh, akan diambil kasus tiga variabel, yaitu kerja, didik,
dan gender. Sekarang akan diketahui hubungan antara Pekerjaan
Konsumen dengan Tingkat Pendidikan Konsumen, dengan variabel
pengendali adalah Gender. Jadi, akan diteliti apakah ada pengaruh
antara Pekerjaan Konsumen dengan Tingkat Pendidikannya untuk
dua jenis gender, yakni konsumen pria dan konsumen wanita.
Penyajian tabel kontigensi bxkxl dapat dituliskan sebagai berikut:
93
Jika tabel 2.20, merupakan data populasi, maka peluang sel (i,j,l)
dinyatakan dengan πijl yang ditaksir dengan ̂ berdasarkan data
pengamatan. Demikian juga peluang-peluang marginal untuk
masing-masing faktor sebagai berikut
πioo adalah peluang marginal untuk faktor A pada kategori ke-i
πojo adalah peluang marginal untuk faktor ‛ pada kategori
ke-j
πool adalah peluang marginal untuk faktor C pada kategori
ke-l.
94
a. Apakah ketiga faktor(Faktor A, Faktor B dan Faktor C) saling
independen
b. Apakah Faktor pertama independen terhadap Faktor kedua
dan Faktor ketiga.
c. Apakah Faktor pertama dan Faktor kedua saling independen
pada masing-masing level di Faktor ketiga.
∑∑∑
95
Pada masalah independensi parsial, perumusan hipotesisnya
adalah sebagai berikut
a. Hipotesis bahwa Faktor A independen terhadap Faktor B dan
Faktor C
Ho πijl = πioo. πojl melawan hipotesis tandingan
H1 πijl ≠ πioo. πojl
Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah
̂ ̂ atau
∑∑∑
∑∑∑
96
Statistik X2 berdistribusi normal dengan derajad bebas df= bkr-
k-br+1. Oleh karena itu Ho ditolak jika X2 lebih besar dari nilai
tabel Chi Kuadrat.
c. Hipotesis bahwa Faktor C independen terhadap Faktor A dan
Faktor B
Ho πijl = πool. πijo melawan hipotesis tandingan
H1 : πijl ≠ πool. πijo
Dibawah Ho benar, maka nilai harapan untuk sel (i,j,l) adalah
̂ ̂ atau
∑∑∑
̂ ̂ atau
97
Statistik uji hipotesisnya adalah
∑∑∑
98
BAB III
MODEL LOG LINEAR PADA TABEL KONTIGENSI
99
variabel independen, maka regresi logistik akan lebih tepat
digunakan.
Analisis dengan model log linear dilakukan untuk mempelajari
pola assosiasi antara sekelompok variabel. Disamping itu juga
digunakan untuk memperkirakan banyaknya observasi yang
diharapkan dalam tiap sel tabel kontigensi. Selanjutnya
berdasarkan nilai harapan itu dapat dihitung beberapa statistik
penting seperti proporsi, statistik rasio kecenderungan.
100
Jika Faktor A dan Faktor B saling independen, maka peluang
pengamatan jatuh pada sel (i,j) yaitu ij sama dengan perkalian
peluang margin baris ke-i (io) dengan peluang margin kolom ke-j
(0j),
ij = i0. oj
log ij = log i0.+ log oj
∑ ∑
b) ∑ ∑
∑ ∑
c) ∑ ∑ ∑ ∑ ∑ ∑
∑ ∑
101
∑∑ ∑ ∑
∑∑
∑ ∑∑
∑ ∑∑
̂ ∑ ∑ ̂ dengan ̂
̂ ∑ ̂ ∑∑ ̂
̂ ∑ ̂ ∑∑ ̂
102
Contoh 3.1
Berdasarkan data pada Tabel 2.3. dan nilai harapan ̂ pada Tabel
2.12 . Selanjutnya dapat disusun tabel nilai harapan ̂
disajikan dalam tabel berikut
Tabel 3.2. Nilai harapan ̂
Grup Sakit Kepala
̂ , ̂ dan ̂
103
log(ij) = + iA + jB + ijAB i = 1, ..., b dan j=1,....,k
ij : frekuensi yang diharapkan dalam setiap sel (i,j)
: parameter rata-rata umum
iA : Parameter pengaruh tingkat ke-i faktor pertama (A)
jB : Parameter pengaruh tingkat ke-j faktor kedua (B)
ijAB: Parameter pengaruh faktor interaksi sel (i,j)
b k b k
dengan syarat iA 0 ,
i 1
Bj 0 , iAB 0 , ABj 0
j 1 i 1 j 1
Hubungan antara nilai log odds rasio dan parameter asosiasi ijAB
pada tabel 2x2 adalah sebagai berikut
log log 11 22 log 11 log 22 log 12 log 21
2112
104
= ( + 1A + 1B + 11AB) + ( + 2A + 2B + 22AB) – ( + 1A +
2B + 12AB) - ( + 2A + 1B + 21AB)
= 11AB + 22AB - 12AB - 21AB
Jika parameter ijAB = 0 maka nilai log odds rasio akan bernilai
nol.
Untuk menaksir parameter-parameternya dapat digunakan
metode Maximum Likelihood Estimator (MLE). Misal nio dan n0j
masing-masing merupakan total frekuensi amatan untuk baris ke-i
dan kolom ke-j. n adalah total observasi. Penaksir untuk masing-
masing parameter adalah sebagai berikut
1 k b nio noj
̂ log
bk j 1 i1 n
untuk setiap i = 1, ...,b dan j=1, ...., k .Sesuai dengan asumsi di atas
bahwa
b k b k
̂iA 0 ,
i 1
̂Bj 0 ,
j 1
̂ijAB 0 dan
i 1
̂
j 1
AB
ij 0
105
Pada model log linear, hipotesis yang diuji adalah
a. Efek utama pada faktor baris (A)
H0 : iA = 0 untuk semua i
H1 : terdapat iA 0 untuk suatu i
Jika H0 tidak ditolak maka iA = 0 untuk semua i . Hal ini berarti
faktor Baris tidak mempengaruhi banyaknya frekuensi sel.
Hipotesis ini identik dengan pengujian kesamaan proporsi
H0 : 10 = ....= b0
Jika H0 tidak ditolak maka jB = 0 untuk semua j . Hal ini berarti
faktor kolom tidak mempengaruhi banyaknya frekuensi sel.
Hipotesis ini identik dengan pengujian kesamaan proporsi
H0 : 01 = ....= 0k
106
3.2. Model Log Linear untuk Tabel Kontigensi Tiga Arah
Dalam model log linear dua dimensi (faktor), hanya dua
model kemungkinan yang terjadi, yaitu pertama kedua faktor
saling independen dan yang kedua adalah kedua faktor saling
berasosiasi. Pada tabel kontigensi tiga dimensi, diasumsikan
sampel berukuran n terdistribusi dalam bks sel yang berdistribusi
multinomial. Probabilitas sebuah observasi jatuh dalam sel ke- ijl
adalah πijl untuk untuk i = 1, ..., b dan j=1,....,k dan l=1,......,s. Nilai
harapan pada sel ke- ijl adalah µijl, sehingga
µijl = nπijl
Tabel 3.3. Tabel kontigensi tiga arah untuk sampel distribusi
multinomial
Faktor A Faktor B Faktor C Jumlah
C1 .... Cs
B1 n111 .... n11s n110
π 111 .... π11s π 110
..... .... .... .... ....
A1 Bk n1k1 .... n1ks n1k0
π 1k1 .... π 1ks π 1k0
jumlah n101 .... n10s n100
π 101 .... π 10s π 100
.... .... .... .... ... ....
B1 ni11 .... ni1s ni10
π i11 .... π i1s π i10
.... .... .... .... ....
Ai Bk nik1 .... niks nik0
π ik1 .... π iks π ik0
Jumlah ni01 .... ni0s ni00
π i01 .... π i0s π i00
.... .... .... .... .... ....
107
Faktor A Faktor B Faktor C Jumlah
C1 .... Cs
B1 nb11 .... nb1s nb10
π b11 .... π b1s π b10
.... .... .... .... ....
Ab Bk nbk1 .... nbks nbk0
π b11 .... π b1s π b10
jumlah nb01 .... nb0s nb00
π b01 .... π b0s π b00
iA 0 ,
i 1
Bj 0 dan
j 1
l 1
C
j 0
108
menggunakan simbol (ABC). Parameter-parameternya memenuhi
sifat
b k s b s
i 1
A
i
j 1
B
j
l 1
C
j ijAB ... ijlABC 0
i 1 l 1
dan dapat disimbolkan dengan (AB, AC, BC). Jika model hanya
memuat efek interaksi faktor A dan Faktor B, sedangkan Faktor C
independen terhadap faktor A dan B, maka modelnya menjadi
log(ij) = + iA + jB +kC + ijAB
109
log(ij) = + iA + jB +kC + ijAB + ikAC
110
s y n yijl
b k
D 2 y ijl log ijl (nijl yijl ) log ijl
i 1 j 1 l 1
nijl ijl
ˆ nijl nijl ijl
ˆ
Statistik D berdistribusi Chi Kuadrat.
Masing masing model dihitung nilai devians D menggunakan
rumus di atas. Misal
D1 : nilai devians model 1
D2 : nilai devians model 2
maka selisih dua nilai devians itu akan berdiatribusi Chi kuadrat.
Derajad bebasnya sama dengan banyaknya selisih parameter dalam
model 1 dan model 2. H0 ditolak jika nilai selisih kedua devians
lebih besar dari nilai tabel Chi Kuadrat.
Tabel 3.4. Tabel penggunaan Alkohol, Rokok dan Film Porno di SLTA
Alkohol (A) Rokok C) Film Porno (M)
Ya Tidak
Ya Ya 991 538
Tidak 44 456
Tidak Ya 3 43
Tidak 2 279
111
Tabel 3.5. menunjukkan model yang paling cocok dengan data
sampel adalah model (AC, AM,CM) dibandingkan dengan model
yang lain.
Tabel 3.5. Nilai harapan untuk model loglinear
A C M Model log linear
(A,C,M) (AC,M) (AM,CM) (AC,AM, (ACM)
CM)
Ya Ya Ya 550.0 611.2 909.24 910.4 911
Tidak 740.2 837.8 438.84 538.6 538
Tidak Ya 282.1 210.9 45.76 44.6 44
Tidak 386.7 289.1 555.16 455.4 456
Tidak Ya Ya 90.6 19.4 4.76 3.6 3
Tidak 124.2 26.6 142.16 42.4 43
Tidak Ya 47.3 118.5 0.24 1.4 2
Tidak 64.9 162.5 179.84 279.6 279
112
(A,CM) 534.2 505.6 3 <0.001
(C,AM) 939.6 824.2 3 <0.001
(M,AC) 843.8 704.9 3 <0.001
(AC,AM) 487.4 443.8 2 <0.001
(AC,CM) 92.0 80.8 2 <0.001
(AM,CM) 187.8 177.6 2 <0.001
(AC,AM,CM) 0.4 0.4 1 0.54
(ACM) 0.0 0.0 0 -
*catatan : P-value untuk G2
Dari Tabel 3.6., kita juga dapat menguji efek interaksi tertentu.
Sebagai contoh untuk menguji interaksi AM dengan hipotesis
H0 : ikAM = 0 untuk semua i dan k
(atau Faktor A dan Faktor M saling independen)
113
3.4. Contoh Data II
Tabel 3.7. adalah data kecelakaan mobil di sebuah propinsi
sebanyak 68.694 penumpang. Penumpang diklasifikasikan menurut
gender (G), Lokasi kecelakaan (L), penggunaan sabuk pengaman (S)
dan luka (I).
Tabel 3.7. Data kecelakaan dan estimasi frekuensi model loglinear
menggunakan model (GI,GL,GS,IL,IS,LS) dan model (GLS,GI,IL,IS).
Gen- Loka- Sa- Luka (GI,GL,GS,IL,IS,LS) (GLS,GI,IL,IS) Proporsi
der si buk Tidak Ya Tidak Ya Tidak Ya Ya
Wa- Urban Tidak 7287 996 7166.4 993.0 7273.2 1009.8 0.12
nita Ya 11587 759 11748.3 721.3 11632.6 713.4 0.06
Rural Tidak 3246 973 3353.8 988.8 3254.7 964.3 0.23
Ya 6137 757 595.5 781.9 6093.5 797.5 0.11
Laki Urban Tidak 10381 812 10471.5 845.1 10358.9 834.1 0.07
Ya 10969 380 10837.8 387.6 10959.2 389.8 0.03
Rural Tidak 6123 1084 6045.3 1038.1 6150.2 1056.8 0.15
Ya 6693 513 6811.4 518.2 6697.6 508.4 0.07
114
Model (G, I, L, S) adalah model mutual independence, keempat
variabel saling independen. Model (GI, GL, GS, IL, IS, LS) memuat
interaksi dua faktor dan efek utama.
Model (GIL, GIS, GLS, ILS) memuat interaksi tiga faktor, dua
faktor dan efek utama. Misalkan kita akan menguji hipotesis
H0 : Model (GI, GL, GS, IL, IS, LS) sesuai dengan data
H1 : Model (GILS) sesuai dengan data
115
b. Dari model (GI, GL, GS, IL, IS, LS) dan model (GIS,GL,IL,LS)
diperoleh statistik G2 = 23,4 – 22.8 = 0.46 dengan df=5-4=1,
sehingga dapat disimpulkan interaksi GIS tidak signifikan.
c. Dari model (GI, GL, GS, IL, IS, LS) dan model (GLS,GI,IL,IS)
diperoleh statistik G2 = 23,4 – 7.5 = 15.9 dengan df=5-4=1,
sehingga dapat disimpulkan interaksi GLS adalah signifikan.
d. Dari model (GI, GL, GS, IL, IS, LS) dan model (ILS,GI,GL,GS)
diperoleh statistik G2 = 23,4 – 20.6 = 2.8 dengan df=5-4=1,
sehingga dapat disimpulkan interaksi ILS tidak signifikan.
116
Mungkin sekali terjadi pertentangan antara model teoritis
dengan model kuantitatif yang ditentukan hanya berdasarkan
sebuah sampel. Oleh karena itu perlu diperhatikan
a. Pemilihan kelompok variabel harus didasarkan pada subtansi
dan landasan teoritis, sehingga model assosiasi teoritis antara
variabel telah dapat dipertanggung jawabkan kebenaran secara
ilmiah.
b. Selanjutnya sebuah data sampel hanya dapat digunakan untuk
megukur/ mempelajari kebenaran model teoritis bukan
membuktikan kebenaran teoritis tersebut. Sebab teori berlaku
untuk populasi sedang model yang disusun hanya berdasarkan
data sampel.
c. Sekiranya hasil analisis atau pengujian hipotesis sebuah data
menolak model teoritis yang dikemukakan, maka janganlah
secara langsung ditafsirkan bahwa model teoritis tersebut
salah. walaupun akan menjadi sangat subjektif, peneliti harus
mengambil kesimpulan model mana yang akan dipakai
sebagai model akhir. Dianjurkan untuk menampilkan kedua
hasil estimasi untuk melihat sejauh mana perbedaanya.
d. Model Empiris/kuantitatif dapat diterima kebenaranya jika
telah dilakukan pengujian berualang kali dengan hasil yang
konsisten. hal ini akan dapat menciptakan model teoritis baru.
e. Disimpulkan sebaiknya penelitian tentang asosiasi ganda
sepatutnya menyajikan beberapa buah model baik empiris
maupun teoritis.
117
3.5. Model Log Linear pada Tabel Kontigensi Multi Arah
Masalah pemilihan model empiris dan model teoritis tersebut
akan bertambah rumit sejalan dengan bertambahnya variabel yang
diperhatikan. Jika ada 5 variabel yang diperhatikan maka sel atau
kelumpok individu yang terbentuk menjadi 25 = 32. Untuk
peristiwa yang sangat jarang terjadi seperti kasus aids, kematian
bayi dsb, banyaknya kasus relatif kecil dibanding banyaknya
kelompok individu, sehingga akan terdapat bayak sel yang kosong.
Oleh karena itu banyaknya variabel harus dibatasi, yaitu dengan
menggabung beberapa variabel yang dapat dinyatakan berasosiasi.
Langkah analisis dalam model tiga arah dapat dikembangkan
untuk analis log linear multi arah. Terdapat dua tujuan penting dari
analisis ini yaitu
a. pembentukan model kuantitatif
b. menguji atau mengukur kebenaran model teoritis
118
semata-mata didasarkan pada data tidak didasarkan atas landasan
subtansi dan teoritis.
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0.3739859 1 0.5408396
119
Pearson 0.4010998 1 0.5265218
>fitAC.M<-update(fitAC.AM.CM,.~.-alkohol:film-rokok:film)#
AC, M
Call:
loglm(formula = count ~ alkohol+rokok+film+alkohol:rokok,
data = tabel.napsa, param = T, fit = T)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 843.8266 3 0
Pearson 704.9071 3 0
120
3 Ya Tidak Ya 44 44.616840 45.7604167 210.89631
210.89631
4 Tidak Tidak Ya 456 455.385598 555.1595745 289.10369
289.10369
5 Ya Ya Tidak 3 3.616919 4.7604167 19.40246
19.40246
6 Tidak Ya Tidak 43 42.383882 142.1595745 26.59754
26.59754
7 Ya Tidak Tidak 2 1.383160 0.2395833 118.52373
118.52373
8 Tidak Tidak Tidak 279 279.614402 179.8404255 162.47627
162.47627
>fit.array<-fitted(fitAC.AM.CM)
> fit.array
, , film = Ya
rokok
alkohol Ya Tidak
Ya 910.383081 44.616840
Tidak 3.616919 1.383160
, , film = Tidak
rokok
alkohol Ya Tidak
Ya 538.61612 455.3856
Tidak 42.38388 279.6144
>apply(fit.array,2, odds.ratio) # AM
Ya Tidak
19.80646 19.80646
>apply(fit.array,3, odds.ratio) # AC
Ya Tidak
7.80295 7.80295
>sum.array<-function(array, perm=c(3,2,1)){
res<-aperm(array,perm)
121
colSums(res)}
>junk<-array(c(matrix(1:4,2,2)), dim=c(2,2,2))
, , 1
[,1] [,2]
[1,] 1 3
[2,] 2 4
, , 2
[,1] [,2]
[1,] 1 3
[2,] 2 4
>sum.array(junk)
[,1] [,2]
[1,] 2 4
[2,] 6 8
>odds.ratio(sum.array(fit.array))
[1] 17.70244
>odds.ratio(sum.array(fit.array, perm=c(1,2,3)))
[1] 25.13620
>odds.ratio(sum.array(fit.array, perm=c(2,1,3)))
[1] 61.87182
>loglin(fitted(fitACM),margin=list(c(1,2),c(2,3), c(1,3)),
param=T,fit=T)
>options(contrasts=c("contr.treatment","contr.poly"))
>fit.glm<-glm(count~.^2, data= tabel.napsa, family=poisson)
Coefficients:
(Intercept) film rokok alkohol film:rokok
5.63342 -5.309042 -1.886669 0.487719 2.847889
film:alkohol rokok:alcohol
2.986014 2.054534
122
Statistik uji rasio Likelihood dapat diperoleh menggunakan fungsi
summary untuk loglm dan glm. Sedangkan fungsi print untuk loglin.
>summary(fitAC.AM.CM)
Formula:
count ~ alkohol + rokok + film + alkohol: rokok +
alkohol:film + rokok:film
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 0.3742223 1 0.5407117
Pearson 0.4011002 1 0.5265216
Membandingkan model menggunakan fungsi anova.
>anova(fitAC.M, fitAC.AM.CM, fitAM.CM, fitA.C.M)
LR tests for hierarchical log-linear models
Model 1:
count ~ rokok + alkohol + film
Model 2:
count ~ rokok + alkohol + film
Model 3:
count ~ rokok + alkohol + film
Model 4:
count ~ rokok + alkohol + film
Deviance df Delta(Dev) Delta(df) P(>
Delta(Dev)
Model 1 843.8266437 3
Model 2 843.8266437 3 0.0000000 0 0.00000
Model 3 187.7543029 2 656.0723408 1 0.00000
Model 4 0.3739859 1 187.3803170 1 0.00000
Saturated 0.0000000 0 0.3739859 1 0.54084
>fit.glm2 <- update(fit.glm, contrasts = list(alcohol =
as.matrix(c(1, 0)), film = as.matrix(c(1, 0)), cigarette =
as.matrix(c(1, 0))))
>summary(fit.glm2, cor = F)
Coefficients:
Value Std. Error t value
(Intercept) 5.633420 0.05970077 94.360930
film -5.309042 0.47506865 -11.175316
rokok -1.886669 0.16269584 -11.596294
alkohol 0.487719 0.07576708 6.437083
film: rokok 2.847889 0.16383796 17.382353
film:alkohol2.986014 0.46454749 6.427791
rokok:alkohol 2.054534 0.17406289 11.803401
123
(Dispersion Parameter for Poisson family taken to be 1)
Null Deviance: 2851.461 on 7 degrees of freedom
Residual Deviance: 0.3739859 on 1 degrees of freedom
Number of Fisher Scoring Iterations: 3
124
>fitGIL.GIS.GLS.ILS<-update(fitG.I.L.S, .~.^3, data=
table.kecelakaan, fit=T, param=T)
>anova(fitG.I.L.S, fitGI.GL.GS.IL.IS.LS,
fitGIL.GIS.GLS.ILS)
LR tests for hierarchical log-linear models
Model 1:
count ~ belt + location + gender + injury
Model 2:
count ~ belt + location + gender + injury + belt:location
+ belt:gender + belt:injury + location:gender +
location:injury + gender:injury
Model 3:
count ~ belt + location + gender + injury + belt:location
+ belt:gender + belt:injury + location:gender +
location:injury + gender:injury +
belt:location:gender + belt:location:injury +
belt:gender:injury + location:gender:injury
Deviance df Delta(Dev) Delta(df) P(>
Delta(Dev)
Model 1 2792.76245 11
Model 2 23.35137 5 2769.41113 6 0.00000
Model 3 1.32489 1 22.02648 4 0.00020
Saturated 0.00000 0 1.32489 1 0.24972
>fitGI.IL.IS.GLS <- update(fitGI.GL.GS.IL.IS.LS,
.~.gender:location:belt)
Statistics:
X^2 df P(> X^2)
Likelihood Ratio 7.462791 4 0.1133613
Pearson 7.487374 4 0.1122673
>fitted(fitGI.IL.IS.GLS)
>fit.array<-fitted(fitGI.IL.IS.GLS)
>odds.ratio<-function(x) x[1,1]*x[2,2]/(x[2,1]*x[1,2])
>apply(fit.array,c(1,4),odds.ratio))
injury
belt Tidak Ya
Tidak 1.326766 1.326766
Ya 1.166682 1.166682
>apply(fit.array,c(2,4),odds.ratio)
injury
location Tidak Ya
125
Urban 0.6614758 0.6614758
Rural 0.5816641 0.5816641
>apply(fit.array,c(3,4),odds.ratio)
injury
gender Tidak Ya
Wanita 1.170603 1.170603
Laki 1.029362 1.029362
>apply(fit.array,c(1,2),odds.ratio)
Urban Rural
Tidak 0.5799410 0.5799411
Ya 0.5799411 0.5799412
>apply(fit.array,c(1,3),odds.ratio)
Wanita Laki
Tidak 2.134127 2.134127
Ya 2.134127 2.134127
>apply(fit.array,c(2,3),odds.ratio)
Wanita Laki
Urban 0.4417123 0.4417123
Rural 0.4417122 0.4417123
126
Tabel 3.9. Hasil Surver kepuasan tempat tinggal
Derajad Tingkat Kepuasan
Kontak Rendah Sedang Tinggi
Rendah Tinggi Rendah Rendah Rendah Tinggi
Tower 62 30 50 48 101 101
Block
Apartemen 135 140 75 115 112 198
Rumah 62 132 47 107 60 105
127
128
BAB IV
REGRESI LOGISTIK
129
Variabel Xi disebut variabel independen (prediktor) pada
subjek ke-i. Oleh karena mean dan variansi tergantung pada nilai i
maka model linear tidak dapat digunakan. Model linear
mengasumsikan bahwa prediktor mempengaruhi mean pada
variansi tetap (sama). Kondisi ini tidak dipenuhi pada respon data
biner.
Misalkan variabel X merupakan faktor yang dapat
diklasifikasikan ke dalam k grup, i=1,....,k. Akan dianalisis
pengaruh faktor X terhadap nilai i. Individu/subjek yang terletak
dalam satu grup mempunyai nilai X yang sama. ni menyatakan
banyaknya observasi dalam grup i dan yi menyatakan banyaknya
sukses dalam grup i, sehingga yi=0,1,...,ni. Jika ni observasi dalam
masing-masing grup adalah independen dan mempunyai
probabilitas }sukses i, maka Yi berdistribusi binomial.
ni
P(Yi yi ) iyi (1 i ) ni yi
yi
Mean dan variansi Yi adalah
E(Yi) = i = nii dan Var(Yi) = nii(1-i)
130
binomial. dengan demikian kita akan berbicara tentang peluang
Y=1 yang tergantung pada variabel tak bebas X.
Regresi logistik dapat didefinisikan sebagai sebuah fungsi
exp( 0 1 x)
( x)
1 exp( 0 1 x)
131
( x)
log 0 1
1 ( x)
Jika x mendekati nol maka π(x)1/2. Kurva π(x) untuk > 0 dapat
digambarkan sebagai berikut
132
4.3. Model Regresi Logistik dengan Variabel Independen Banyak
Regresi Logistik adalah regresi yang menggunakan dua nilai
yang berbeda untuk menyatakan variabel responnya (Y), biasanya
digunakan nilai 0 (gagal) dan 1 (sukses). Fungsi distribusi yang
digunakan adalah distribusi logistik dengan notasi (X) untuk
menyatakan mean bersyarat dari Y jika diberikan vektor kovariate
X = (x1,x2, xp)T. Model regresi logistiknya adalah
exp(X Tβ)
(X) = dengan XT= 0+ x11 + . + xpp
1 exp(X Tβ)
133
Dari fungsi log likelihood ini dicari derivarif pertama dan
derivarif kedua. Penaksir parameter merupakan nilai yang
memaksimumkan fungsi log likelihood pada data sampel (X, Y).
Nilai maksimum dicapat dengan syarat
log L( )
0
dan
2 log L( )
H ( )
T
i 1
[yi - (Xi)] = 0 dan
j 0 i 1
xij [yi - (Xi)] = 0
untuk j = , .,p.
j
2
i 1
xij2 i (1 i )
dan
2 log L( ) n
xij xiu i (1 i )
j u i 1
134
Misalkan
1 x11 ... x1 p
1 x ... x 2 p
X 21
I (ˆ ) X T VX H (ˆ )
Var ( ˆ ) I ( ˆ )
1
Var ( ˆ j ) adalah elemen diagonal ke-j (baris ke-j dan kolom ke-j)
dari Var ( ˆ ) . Nilai penaksir dengan menggunakan metode
Newton-Rapson pada langkah ke-t adalah
(t+1) = (t) + H (
(t )
1
) [y -(t)]
135
4.5. Inferensi Regresi Logistik
Kita telah mempelajari bagaimana regresi logistik membantu
meggambarkan efek dari prediktor pada variabel respon biner.
Parameter dalam model logistik dapat diestimasi menggunakan
metode Maximum Likelihood Estimator (MLE). Selanjutnya
berdasarkan sifat-sifat penaksir MLE dapat digunakan untuk
melakukan inferensi parameternya.
136
Meskipun statistik uji Wald ini cocok untuk sampel besar,
akan tetapi masih lebih powerfull uji likelihood-ratio. uji
likelihood-ratio lebih reliabel dan sering digunakan dalam
praktek.
k n ˆ n niˆi
D 2 y i log i i (ni yi ) log i
i 1 i
y in y i
atau
k
y n yi
D 2 y i log i (ni yi ) log i
i 1 niˆ i ni niˆ i
137
Hipotesis nol (H0) menyatakan bahwa variabel prediktor dalam
kelompok dua (X2) tidak mempengaruhi respon Y. Hal ini
identik dengan menguji signifikansi parameter 2.
Misalkan D( 1) menyatakan nilai devians pada model yang
memasukkan variabel X1 dan D() menyatakan nilai devians
pada model yang memasukkan variabel X = (X1,X2). Selanjutnya
selisih dua nilai devians itu, yaitu
L( 1 )
2 = D( 1) – D() atau 2 Log
2
L( )
berdistribusi Chi Kuadrat dengan df=p2 (untuk sampel besar). p2
merupakan selisih banyaknya parameter dalam D( 1) dan D().
138
Tabel 4.1. Data Kepiting Ladam Kuda betina
Color Spine Width Sate- Weight Color Spine Width Sate- Weight
(C) (S) (W) lite (Wt) (C) (S) (W) lite (Wt)
(Sa) (Sa)
3 3 28.3 8 3050 3 3 26.5 4 2300
4 3 22.5 0 1550 3 3 27.8 3 3250
2 1 26.0 9 2300 3 3 27.0 6 2500
4 3 24.8 0 2100 4 3 25.7 0 2100
4 3 26.0 4 2600 3 3 25.0 2 2100
3 3 23.8 0 2100 3 3 31.9 2 3325
2 1 26.5 0 2350 5 3 23.7 0 1800
4 2 24.7 0 1900 5 3 29.3 12 3225
3 1 23.7 0 1950 4 3 22.0 0 1400
4 3 25.6 0 2150 3 3 25.0 5 2400
4 3 24.3 0 2150 4 3 27.0 6 2500
3 3 25.8 0 2650 4 3 23.8 6 1800
3 3 28.2 11 3050 2 1 30.2 2 3275
5 2 21.0 0 1850 4 3 26.2 0 2225
3 1 26.0 14 2300 3 3 24.2 2 1650
2 1 27.1 8 2950 3 3 27.4 3 2900
3 3 25.2 1 2000 3 2 25.4 0 2300
3 3 29.0 1 3000 4 3 28.4 3 3200
5 3 24.7 0 2200 5 3 22.5 4 1475
3 3 27.4 5 2700 3 3 26.2 2 2025
3 2 23.2 4 1950 3 1 24.9 6 2300
2 2 25.0 3 2300 2 2 24.5 6 1950
3 1 22.5 1 1600 3 3 25.1 0 1800
4 3 26.7 2 2600 3 1 28.0 4 2900
5 3 25.8 3 2000 5 3 25.8 10 2250
5 3 26.2 0 1300 3 3 27.9 7 3050
3 3 28.7 3 3150 3 3 24.9 0 2200
3 1 26.8 5 2700 3 1 28.4 5 3100
5 3 27.5 0 2600 4 3 27.2 5 2400
3 3 24.9 0 2100 3 2 25.0 6 2250
2 1 29.3 4 3200 3 3 27.5 6 2625
2 3 25.8 0 2600 3 1 33.5 7 5200
3 2 25.7 0 2000 3 3 30.5 3 3325
139
Color Spine Width Sate- Weight Color Spine Width Sate- Weight
(C) (S) (W) lite (Wt) (C) (S) (W) lite (Wt)
(Sa) (Sa)
3 1 25.7 8 2000 4 3 29.0 3 2925
3 1 26.7 5 2700 3 1 24.3 0 2000
5 3 23.7 0 1850 3 3 25.8 0 2400
3 3 26.8 0 2650 5 3 25.0 8 2100
3 3 27.5 6 3150 3 1 31.7 4 3725
5 3 23.4 0 1900 3 3 29.5 4 3025
3 3 27.9 6 2800 4 3 24.0 10 1900
4 3 27.5 3 3100 3 3 30.0 9 3000
2 1 26.1 5 2800 3 3 27.6 4 2850
2 1 27.7 6 2500 3 3 26.2 0 2300
3 1 30.0 5 3300 3 1 23.1 0 2000
4 1 28.5 9 3250 3 1 22.9 0 1600
4 3 28.9 4 2800 5 3 24.5 0 1900
3 3 28.2 6 2600 3 3 24.7 4 1950
3 3 25.0 4 2100 3 3 28.3 0 3200
3 3 28.5 3 3000 3 3 23.9 2 1850
3 1 30.3 3 3600 4 3 23.8 0 1800
5 3 24.7 5 2100 4 2 29.8 4 3500
3 3 27.7 5 2900 3 3 26.5 4 2350
2 1 27.4 6 2700 3 3 26.0 3 2275
3 3 22.9 4 1600 3 3 28.2 8 3050
3 1 25.7 5 2000 5 3 25.7 0 2150
3 3 28.3 15 3000 3 3 26.5 7 2750
3 3 27.2 3 2700 3 3 25.8 0 2200
4 3 26.2 3 2300 4 3 24.1 0 1800
3 1 27.8 0 2750 4 3 26.2 2 2175
5 3 25.5 0 2250 4 3 26.1 3 2750
4 3 27.1 0 2550 4 3 29.0 4 3275
4 3 24.5 5 2050 2 1 28.0 0 2625
4 1 27.0 3 2450 5 3 27.0 0 2625
3 3 26.0 5 2150 3 2 24.5 0 2000
3 3 28.0 1 2800 3 1 26.8 0 2550
3 3 30.0 8 3050 5 3 26.7 0 2450
3 3 29.0 10 3200 3 1 28.7 0 3200
140
Color Spine Width Sate- Weight Color Spine Width Sate- Weight
(C) (S) (W) lite (Wt) (C) (S) (W) lite (Wt)
(Sa) (Sa)
3 3 26.2 0 2400 4 3 23.1 0 1550
3 1 26.5 0 1300 3 1 29.0 1 2800
3 3 26.2 3 2400 4 3 25.5 0 2250
4 3 25.6 7 2800 4 3 26.5 1 1967
4 3 23.0 1 1650 4 3 24.5 1 2200
4 3 23.0 0 1800 4 3 28.5 1 3000
3 3 25.4 6 2250 3 3 28.2 1 2867
4 3 24.2 0 1900 3 3 24.5 1 1600
3 2 22.9 0 1600 3 3 27.5 1 2550
4 2 26.0 3 2200 3 2 24.7 4 2550
3 3 25.4 4 2250 3 1 25.2 1 2000
4 3 25.7 0 1200 4 3 27.3 1 2900
3 3 25.1 5 2100 3 3 26.3 1 2400
4 2 24.5 0 2250 3 3 29.0 1 3100
5 3 27.5 0 2900 3 3 25.3 2 1900
4 3 23.1 0 1650 3 3 28.5 0 3050
4 1 25.9 4 2550 5 1 25.5 0 2750
3 3 25.8 0 2300 5 3 23.5 0 1900
5 3 27.0 3 2250 3 2 24.0 0 1700
3 1 29.7 5 3850
Keterangan :
C : variabel warna cangkang (1: medium light, 2: medium,3:
medium dark, 4: dark.
S : variabel kondisi punggung
W : lebar cangkang dalam cm
Wt : berat cangkang dalam kg
Sa : banyaknya satelite
141
26.25–27.25, 27.25–28.25, 28.25–29.25, >30.25). Tabel frekuensinya
adalah sebagai berikut
142
ˆ (w 33.5) −1.766 + 0.092(33.5) = 1.3.
Selanjutnya, dengan menggunakan model logistik diperoleh
ˆ
Karena 1 0 , jika w semakin besar maka probabilitas ( w)
ˆ
juga semakin besar. Pada lebar cangkang minimum, w=21.0
ˆ0 12.351
w 24.8
ˆ1 0.497
143
Gambar 4.2. Grafik proporsi observasi dan proporsi harapan
terhadap variabel lebar cangkang (sumbu X).
144
Tabel 4.3. Prediksi banyaknya satelite berdasar variabel
lebar cangkang
W banyaknya banyaknya proporsi variansi Prediksi
kasus satelite banyaknya
satelite
<23.25 14 5 0.36 0.26 3.6
23.25-24.25 14 4 0.29 0.38 5.3
24.25-25.25 28 17 0.61 0.49 13.8
25.25-26.25 39 21 0.54 0.62 24.2
26.25-27.25 22 15 0.68 0.72 15.9
27.25-28.25 24 20 0.83 0.81 19.4
28.25-29.25 18 15 0.83 0.87 15.6
>29.25 14 14 1.00 0.93 13.1
145
Telah diperoleh
146
dan log likelihood untuk model penuh
L1 = -97.23
147
Model ini mengasumsikan tidak ada interaksi antara variabel
warna dan variabel W. Estimasi parameternya adalah
ˆ0 12.7151 , ˆ1 1.3299 , ˆ2 1.4023 , ˆ3 1.1061 ,
ˆ4 0.4680
Pada warna dark ,
logit( ˆ ( w) ) = − .715 + 0.468w
Pada warna medium light
logit( ˆ ( w) = − .715 + 1.3299 + 0.468w
= − .385 + 0.468w
Pada warna medium
logit( ˆ ( w) = − .715 + 1.4023 + 0.468w
=− .3121 + 0.468w
Pada warna medium dark
logit( ˆ ( w) = − .715 + 1.1061 + 0.468w
=− .6089 + 0.468w
148
Pada data Tabel 4.1. terdapat empat prediktor, yaitu warna (C),
kondisi punggung (S) , berat (W) dan lebar canggkang (Wt) . Semua
prediktor digunakan untuk memprediksi keberadaan satelite pada
kepiting betina, yaitu y = 1 jika terdapat paling tidak satu satellite,
dan y = 0 jika tidak ada satelite. Misalkan
Variabel indikator empat warna : {c1, c2, c3}
Variabel indikator tiga kondisi punggung : {s1, s2}
149
Tabel 4.5. Estimasi parameter Data Kepiting
Parameter Penaksir SE
Intersep -9.273 3.836
C(1) 1.609 0.936
C(2) 1.506 0.567
C(3) 1.120 0.593
S(1) -0.400 0.503
S(2) -0.496 0.629
W 0.826 0.704
Wt 0.263 0.195
150
4.7.2. Eliminasi Backward
Untuk menguji atau membandingkan dua buah model dapat
dilakukan menggunakan nilai devians. H0 adalah hipotesis yang
memuat model yang lebih sederhana (variabelnya lebih sedikit)
dibandingkan dengan hipotesis H1. Menggunakan statistik uji
rasio likelihood
−2(L − L1)
logit[P(Y = 1)] = 0 + W+
1 2Wt + 3c1 + c2 +
4 5 c3 + s1 +
6 7 s2
151
dapat dilihat di Tabel 3.6. Misalkan variabel S dikeluarkan dari
model (model 3c ), maka model (C+W) menghasilkan
D(C+W) = 187.5 dengan df = 169
152
pengaruhnya tidak signifikan, jadi model (C+W) lebih baik
dibandingkan dengan model (C+W+S).
Selanjutnya kita dapat menguji variabel C melalui model 3c
dan model 4b, diperoleh
D= 194.5 -187.5 = 7.0 dengan df =171-168 =3
153
‚IC = − (log likelihood − banyaknya parameter dalam model)
> ngorok
dengkur sakit n
1 0 24 1379
2 2 35 638
3 4 21 213
4 5 30 254
154
> dengkur.lg
Call: glm(formula = sakit/n ~ dengkur, family =
binomial(), data=dengkur,weights = n)
Coefficients:
(Intercept) dengkur
-3.8662 0.3973
Degrees of Freedom: 3 Total (i.e. Null); 2 Residual
Null Deviance: 65.9
Residual Deviance: 2.809 AIC: 27.06
155
> crabs<-as.dataframe(crabs)
> crabs$psat <- crabs$Y > 0
156
Analysis of Deviance Table
Model 1: psat ~ 1
Model 2: psat ~ Wt
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 172 225.76
2 171 195.74 1 30.021 4.273e-08 ***
---
Signif.codes: 0‘***’ 0.001‘**’ 0.01‘*’ 0.05 ‘.’0.1‘ ’
1
> anova(crabs.lg.1,test="Chisq")
Analysis of Deviance Table
Model: binomial, link: logit
Response: psat
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 172 225.76
Wt 1 30.021 171 195.74 4.273e-08 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’
0.1 ‘ ’ 1
157
J
sehingga
j 1
ij 1 untuk setiap i. Sehingga hanya dipunyai J-1
158
Tedapat (J-1) persamaan logit dan masing-masing logit
memuat parameter (0j+1j). Untuk j=J
iJ
iJ log( ) 0 sehingga 0J=1J=J
iJ
J J
ij iJ exp(ij ) 1
j 1 j 1
J J
j 1
ij iJ exp(ij ) 1
j 1
1 exp(ij )
iJ J
dan ij J
exp(
k 1
ik ) exp(
k 1
ik )
exp( 0 j 1 j xi )
ij J
exp(
k 1
0j 1 j xi )
159
Untuk menentukan model regresi, harga ditaksir lebih
dahulu dengan menggunakan Metode Kemungkinan
Maksimum (Nugraha dkk, 2009).
0
misalkan X ij (1, xij ) dan maka
1
n J J
LL() = y X ij ij ln exp( X ij )
i 1 j 1 j 1
n J n J J
= y ij X ij ln exp( X ij ) yij
i 1 j 1 i 1 j 1 j 1
n J n J
= y X
ij ij ln exp( X ij )
i 1 j 1 i 1 j 1
160
Derivatif LL() terhadap adalah
LL( ) = n J n
J exp( X )
X ij yij X ij J ij
exp( X ij )
i 1 j 1 i 1 j 1
j 1
X y
n J
= T
ij ij ij 0
i 1 j 1
X y
n n J
i 1
[yi j - ij ] = 0 dan
i 1 j 1
T
ij ij ij 0
161
Untuk menguji kecocokan model dapat digunakan statistik
Pseudo R2 yang identik dengan nilai R2 (koefisien deterministik).
G12
pseudo R2 = 1
G02
Jika model secara sempurna memprediksi nilai Y (Pi = 1 maka
yi = 1 dan jika Pi=0 maka yi=0) maka log L = 0 (atau nilai
deviansnya nol). Sehingga nilai maksimum dari pseudo R2
adalah satu. Statistik pseudo R2 secara luas digunakan untuk
menjelaskan kecocokan model dalam DCM (Discrete Choice
Models) secara intuitif. Pemasalahan dalam penggunaan pseudo
R2 ini adalah tidak adanya kaidah untuk menyatakan pada nilai
berapa sedemikian hingga model dikatakan baik. Permasalahan
kedua adalah peningkatan nilai pseudo R2 pada penambahan
variabel independen tidak dapat menjelaskan seberapa penting
variabel tersebut.
162
Tabel 4.7. Data pengamatan panjang Aligator (dalam meter) dan
makanan utama
No 1 2 3 4 5 6 7 8 9 10
Panjang 1.24 1.45 1.63 1.78 1.98 2.36 2.79 3.68 1.30 1.45
Makanan I I I I I F F O I O
No 11 12 13 14 15 16 17 18 19 20
Panjang 1.65 1.78 2.03 2.39 2.84 3.71 1.30 1.47 1.65 1.78
Makanan O I F F F F I I I O
No 21 22 23 24 25 26 27 28 29 30
Panjang 2.03 2.41 3.25 3.89 1.32 1.47 1.65 1.80 2.16 2.44
Makanan F F O F F F F I F F
No 31 32 33 34 35 36 37 38 39 40
Panjang 3.28 1.32 1.50 1.65 1.80 2.26 2.46 3.33 1.40 1.52
Makanan O F I F F F F F F I
No 41 42 43 44 45 46 47 48 49 50
Panjang 1.68 1.85 2.31 2.56 3.56 1.42 1.55 1.70 1.88 2.31
Makanan F F F O F I I I I F
No 51 52 53 54 55 56 57 58 59 60
Panjang 2.67 3.58 1.42 1.0 1.73 1.93 2.36 2.72 3.66
Makanan F F F I O I F I F
Sumber : Agresti (2007).
Keterangan:
F : Ikan (Fish)
I: Invertebrata
O: lainnya (other)
163
ˆ
log 1 1.618 0.110 x
ˆ 3
ˆ
log 2 5.697 2.465 x
ˆ 3
berdasarkan kedua logit tersebut dapat digunakan untuk
mengestimasi log odds dari ikan dan invertebrata, yaitu
ˆ
log 1 (1.618 5.697) [0.110 (2.645)]x = -4.08 + 2.355x
ˆ 2
164
lainnya sebagai baseline maka ˆ03 ˆ13 0 dan estimasi
probabilitasnya adalah
e1.620.11x
ˆ1
1 e1.620.11x e 5.702.47 x
e 5.702.47 x
ˆ 2
1 e1.620.11x e 5.702.47 x
1
ˆ 3 1.620.11x
1 e e 5.702.47x
165
telah dijelaskan pada Bab II mengenai tabel kontigensi, kita
dapat melakukan pengujian goodness of fit menggunakan
statistik X2 atau G2. Sebagai contoh, data survei mengenai
kepercayan akan adanya kehidupan setelah mati. Variabel
dependen
Y = percaya, dengan kategori (Ya, ragu-ragu, tidak),
dan variabel independenya adalah
o x1 = gender, x1 = 1 untuk perempuan dan 0 untuk laki-laki
o x2 = ras/suku, x2 = 1 untuk ras A dan 0 untuk ras non A.
166
Selanjutnya jika digunakan model logit, akan diperoleh dua
model logit untuk masing-masing kombinasi gender-ras.
Terdapat empat kombinasi gender-ras, sehingga diperoleh
delapan model logit. Model tersebut, untuk j=1,2 memuat enam
parameter. sehingga
df = − = .
Akan diuji bahwa terdapat efek interaksi antara gender dan ras
terhadapap Y. Estimasi masing-masing parameter disajikan pada
tabel 3.10.
Tabel 4.10. Estimasi Parameter Data Kepercayaan
Parameter Logit
(Ya/Tidak) (Ragu/Tidak)
Intersep 0.883 (0.243) -0.758 (0.361)
Gender (X1 =1) 0.419 (0.171) 0.105 (0.246)
Ras (X2 =1) 0.342 (0.237) 0.271 (0.354)
167
Selisih devians
D = 8. − .8 = 7.2 dengan df = − = .
selisih devians
D= 2.8 -2.0 =0.8 dengan df=4-2=2
= 0.76
168
yang diklasifikasikan ke dalam usia (dikelompokan dalam
interval 5 tahunan) dan penggunaan kontrasepsi (steril, lainya,
tidak).
Tabel 4.12. Data penggunaan Kontrasepsi
kontrasepsi
usia Steril lainnya tidak
15-19 3 61 232
20-24 80 137 400
25-29 216 131 301
30-34 268 76 203
35-39 197 50 188
40-44 150 24 164
45-49 91 10 183
Sumber : Rodriguez (2001).
169
45–49, odds nya adalah 91.183 (atau sekitar 1.2) dan 10.183
(atau 1.18).
usia
Gambar 4.3. Grafik fungsi log odds terhadap usia
170
diperoleh nilai P-value sebesar 0.009, sehingga dapat
disimpulkan bahwa model signifikan.
Efek kuadratik usia, mempunyai likelihood-ratio 2 = 500.6
dengan df=4 (atau 2 = 521.1 - 20.5 = 500.6 dan df = 12 - 8 = 4),
dan berarti efek ini juga signifikan. Catatan bahwa assosiasi
antara usia dan metode kontrasepsi sebesar 96% atau
(500.6/521.1 = 0.96) yang hanya menggunakan empat parameter.
Tabel 4.13. Estimasi parameter dalam model logit kuadratik
Parameter steril vs lainnya vs
tidak tidak
Konstan () -12.62 -4.552
Linear () 0.7097 0.2641
Kuadratik () -0.009733 -0.004758
171
G = gender,
S = ukuran . m, > . m .
>food.labs<-factor(c("ikan
","invert","rep","burung","other"),levels=c("ikan
","invert", "rep", "burung","other"))
>size.labs<-
factor(c("<2.3",">2.3"),levels=c(">2.3","<2.3"))
gender.labs<-factor(c("m","f"),levels=c("m","f"))
> danau.labs<-
factor(c("hancock","oklawaha","trafford","george"),level
s=c("george","hancock", "oklawaha","trafford"))
>table.food<-
expand.grid(food=food.labs,size=ukuran.labs,gender=gende
r.labs, lake= danau.labs)
>temp<-
c(7,1,0,0,5,4,0,0,1,2,16,3,2,2,3,3,0,1,2,3,2,2,0,0,1,13,
7,6,0,0,3,9,1,0,2,0,1,0,1,0,3,7,1,0,1,8,6,6,3,5,2,4,1,1,
4,0,1,0,0,0,13,10,2,2,9,0,0,1,2,3,9,1,0,1,8,1,0,0,1)
> table.food <-structure(.Data= table.food
[rep(1:nrow(table.food),temp),], row.names=1:219) #
172
>deviance(fit4)-deviance(fitS)
>deviance(fit5)-deviance(fitS)
>deviance(fit0)-deviance(fitS)
Untuk model tanpa memperhatikan variabel Gender :
# options(contrasts=c("contr.treatment","contr.poly"))
>fitS<-multinom(food~ danau*ukuran,data= table.food) #
saturated model
>fit0<-multinom(food~1,data= table.food) # null
>fit1<-multinom(food~ukuran,data= table.food) # S
>fit2<-multinom(food~ danau,data= table.food) # L
>fit3<-multinom(food~ukuran+ danau,data= table.food) # L +
S
>deviance(fit1)-deviance(fitS)
>deviance(fit2)-deviance(fitS)
>deviance(fit3)-deviance(fitS)
>deviance(fit0)-deviance(fitS)
[1] 66.2129
[1] 38.16723
[1] 17.07983
[1] 81.36247
>marg.counts <- tapply(table.food$food,
list(factor(table.food $ukuran, levels = c("<2.3",
">2.3")),factor(table.food $ danau, levels
=c("hancock", "oklawaha", "trafford", "george"))),
length)
>row.names.food <- rev(expand.grid(dimnames(marg.counts)))
>fitted.counts<-round(as.vector(marg.counts)*
fitted(fit3)[!duplicated(as.data.frame(
fitted(fit3))),],1)
structure(.Data = as.data.frame(fitted.counts),
row.names = apply(row.names.food,1,paste,collapse="
"))
ikan invert rep burung other
hancock >2.3 9.1 0.4 1.1 2.3 3.1
oklawaha <2.3 5.2 12.0 1.5 0.2 1.1
oklawaha >2.3 12.8 7.0 5.5 0.8 1.9
trafford <2.3 4.4 12.4 2.1 0.9 4.2
trafford >2.3 8.6 5.6 5.9 3.1 5.8
george <2.3 18.5 16.9 0.5 1.2 3.8
george >2.3 14.5 3.1 0.5 1.8 2.2
173
Estimasi parameter menggunakan fungsi summary
>library(MASS)
>summary(fit3, cor = F)
>summary(fit3, cor = F)
Coefficients:
(Intercept) ukuran lakehancock lakeoklawaha
laketrafford
invert -1.549021 1.4581457 -1.6581178 0.937237973
1.122002
rep -3.314512 -0.3512702 1.2428408 2.458913302
2.935262
burung -2.093358 -0.6306329 0.6954256 -0.652622721
1.088098
other -1.904343 0.3315514 0.8263115 0.005792737
1.516461
Std. Errors:
(Intercept) ukuran lakehancock lakeoklawaha
laketrafford
invert 0.4249185 0.3959418 0.6128465 0.4719035
0.4905122
rep 1.0530583 0.5800207 1.1854035 1.1181005
1.1163849
bird 0.6622971 0.6424863 0.7813123 1.2020025
0.8417085
lainya 0.5258313 0.4482504 0.5575446 0.7765655
0.6214372
174
size lake ikan invert rep
burung lainnya
1 <2.3 hancock 0.5352844 0.09311222 0.04745855
0.070402771 0.25374210
2 >2.3 hancock 0.5701841 0.02307664 0.07182898
0.140896663 0.19401358
3 <2.3 oklawaha 0.2581899 0.60188001 0.07723295
0.008820525 0.05387662
4 >2.3 oklawaha 0.4584248 0.24864188 0.19484366
0.029424140 0.06866547
5 <2.3 trafford 0.1843017 0.51682299 0.08877041
0.035897985 0.17420697
6 >2.3 trafford 0.2957470 0.19296047 0.20240167
0.108228505 0.20066230
7 <2.3 george 0.4521217 0.41284674 0.01156715
0.029664777 0.09379957
8 >2.3 george 0.6574619 0.13968168 0.02389991
0.081046954 0.09790956
Fungsi lain yang dapat digunakan adalah vglm dalam library
(VGAM)
>library(vgam)
>fit.vglm<-vglm(food~size+lake,multinomial,
data=Table.food)
>coef(fit.vglm, matrix=T)
175
dua alternatif sampai dengan banyak alternatif. Banyak hal/faktor
yang digunakan untuk mengambil keputusan. Pertama, faktor
internal yaitu sifat sifat atau karakteristik yang melekat pada diri
pembuat keputusan. Kedua, faktor eksternal yaitu keadaan/ faktor
yang berasal dari luar/lingkungan pembuat keputusan. Kedua
faktor tersebut dapat bersifat kualitatif maupun kuantitatif.
Sementara itu keputusan/pilihan dilakukan berdasarkan atas
asas manfaat dan mudhorot (resiko) bagi pembuat keputusan.
Suatu pilihan dilakukan jika pilihan itu paling menguntungkan
dibandingkan dengan semua alternatif pilihan yang lain, atau bisa
juga karena pilihan itu paling kecil resikonya dibanding dengan
alternatif yang lain.
Disamping itu, kadang kita tertarik untuk menduga nilai
respon yang dikaitkan dengan sekumpulan kovariate dengan
menggunakan fungsi penghubung tertentu. Ketika respon
kontinyu, umumnya dipilih fungsi penghubung identitas,
sedangkan untuk respon biner dipilih fungsi penghubung logit.
Terdapat perbedaan antara analisis regresi logistik ganda dengan
analisis regresi ganda. Analisis regresi ganda digunakan pada
distribusi normal, sedangkan analisis regresi logistik digunakan
untuk data yang berdistribusi binomial.
Regresi logistik pada respon dikotomis tersebut biasa
dinamakan regresi logistik biner. Sering kali respon mempunyai
lebih dari dua alternatif jawaban misalkan tentang warna kesukaan
(merah, kuning, hijau, dsb) atau contoh yang lain tentang penilaian
(sangat baik, baik, cukup, buruk, sangat buruk). Pada data
polikotomis tersebut dapat digunakan analisis regresi multinomial.
176
Model pemilihan diskrit menggambarkan pembuat
keputusan memilih diantara alternatif yang tersedia. Pembuat
keputusan dapat berupa orang, rumah tangga, perusahaan atau
unit pembuat keputusan yang lain. Himpunan semua
pilihan/alternatif disebut Choice set. Model pemilihan diskrit
digunakan untuk menguji pilihan yang mana, sedangkan model
regresi dipakai untuk menguji berapa banyak. Walaupun
demikian seringkali model pemilihan diskrit juga dapat dipakai
untuk menguji berapa banyak. Model pemilihan diskrit biasanya
diturunkan dibawah asumsi manfaat maksimum oleh pembuat
keputusan.
Seorang pembuat keputusan dinotasikan dengan i, yang
berhadapan dengan pilihan sebanyak J anternatif. Pembuat
keputusan mempunyai tingkat utiliti (keuntungan) untuk setiap
alternatif. Misalkan Uij untuk j= , ,J adalah utiliti pembuat
keputusan (responden) i jika memilih alternatif j. Nilai Uij yang
sesungguhya tidak diketahui oleh pengamat (peneliti). Tentunya
pembuat keputusan memilih alternatif yang mempunyai utiliti
terbesar, sehingga memilih alternatif k jika dan hanya jika Uik > Uij
j k.
Peneliti tidak mengetahui nilai utiliti untuk pembuat
keputusan terhadap setiap alternatif. Peneliti hanya mengamati
atribut yang ada untuk masing-masing alternatifnya, yang
dinotasikan dengan xkj j dan atribut pembuat keputusan yang
dinotasikan dengan si. Secara fungsi dapat dinotasikan sebagai Vij=
V(xij,si) j yang biasa dinamakan representative utility. Karena nilai
utiliti yang sesungguhnya tidak diketahui peneliti maka
177
i = (i1, .,iJ) adalah variabel random yang mempunyai densitas
f(i).
Probabilitas pembuat keputusan i memilih alternatif k dapat
dinyatakan sebagai
Pik = P(Uik > Uij j k)
= P(ij - ik < Vik – Vij j k)
= I ( ij ik Vik Vij j k ) f ( i )d i
178
Jika ik diketahui dan saling independen, maka
Pik|ik = exp( exp((
j k
ik Vik Vij )))
Oleh karena nilai ik tidak diketahui maka Pik merupakan integral
Pik|ik atas seluruh nilai ik terbobot densitasnya, yaitu
Pik = exp( exp((
j k
ik Vik Vij )))[exp( ik )] exp( exp( ik ))d ik
= exp exp( ( s Vik Vij )) exp( s))ds
s
j
s s
=
s exp e j exp((Vii Vij )) e ds
Misalkan t = exp(-s) sehingga dt = -exp(-s)ds
Pik = exp t exp( (Vik Vij )) (dt )
0
j
= exp t exp( (Vik Vij )) dt
0
j
exp t exp( (Vik Vij ))
= j
t exp( (Vik Vij ))
j
0
= 1 = exp( Vik )
exp( (Vik Vij ))
j
exp(Vij ))
j
179
Formula untuk Pik tersebut dinamakan probabilitas logit. Jika Vij
merupakan fungsi linear dari xij maka dapat dinyatakan menjadi
exp(
j 1
t
xij )
eVij e
Pir Vij
j 1 j 1
Rasio ini tidak tergantung pada alternatif lain selain i dan k. Sifat
ini dinamakan independence from irrelevant alternatives (IIA).
Dengan yij = 1 jika individu i memilih j dan nol jika memilih yang
lainnya. Dengan mengasumsikan bahwa setiap keputusan antar
individu saling independen maka probabilitas masing-masing
individu dalam sampel memilih sebuah alternatif adalah
n
L( ) ( Pij )
yij
i 1 j
180
Penaksir adalah nilai yang memaksimumkan fungsi LL().
n
LL( ) yij ln( Pij )
i 1 j
n exp( t xij )
=
yij ln
exp( xij )
t
i 1 j
j
n n
= y
ij ( t
xij ) yij ln exp( t xij )
i 1 i i 1 j j
Derevatif LL() terhadap adalah
LL( ) n n
y
i 1 j
ij xij yij Pij xij
i 1 j j
n
n
= y x Pij xij yij
ij ij
i 1 j
i 1 j j
n n
= yij xij Pij xij
i 1 j i 1 j
n
= ( y
i 1 j
ij Pij ) xij 0
i 1 j 1
181
dengan LL(0) adalah nilai log likelihood untuk =0 (Nugraha, 2010).
182
BAB V
REGRESI POISSON
183
meter, satu kilometer persegi dan lain-lain. Percobaan Poisson
memiliki ciri – ciri sebagai berikut:
1) Banyaknya sukses terjadi dalam suatu selang waktu atau
daerah tertentu tidak terpengaruh oleh apa yang terjadi pada
selang waktu atau daerah lain.
2) Peluang terjadinya suatu sukses dalam selang waktu yang
amat pendek atau dalam daerah yang kecil tidak tergantung
pada banyaknya sukses yang terjadi di luar selang waktu atau
daerah lain.
3) Peluang terjadinya lebih dari satu sukses dalam selang waktu
yang pendek atau daerah yang sempit tersebut dapat
diabaikan.
184
5.2. Model Regresi Poisson
Tantangan dalam regresi Poisson adalah menemukan model
untuk variabel respons sebagai fungsi dari variabel prediktor,
sehingga parameter dari model dapat diperkirakan (diestimasi)
dari data. Misalkan i menyatakan observasi ke-i, i = 1,...n. i
sebagai nilai mean dari nilai yi dan xi adalah variabel independen
yang berkaitan denga n varabel dependen yi. Misalkan
i e 0 1 xi
dan yi = i + i ,
185
normal dan variansi galat yang tidak homogen (Myers, 1990).
Asumsi lain yang harus dipenuhi dalam pembentukan regresi
Poisson adalah:
1) Variabel dependen dalam regresi Poisson mengikuti proses
percobaan Poisson yang merupakan data diskrit dari hasil
menghitung, pencacahan atau frekuensi namun bukan hasil
pengukuran.
2) Uji Multikolinearitas
Asumsi multikolinearitas merupakan bentuk pengujian yang
menyatakan bahwa variabel independen harus terbebas dari
gejala multikolinearitas. Gejala multikolinearitas adalah gejala
korelasi antar variabel independen. Apabila terjadi gejala
multikolinearitas, salah satu langkah untuk memperbaiki
model adalah dengan menghilangkan variabel dari model
regresi, sehingga bisa dipilih model yang paling baik.
186
likelihood yang dapat digunakan untuk menaksir parameter –
parameter dalam regresi Poisson. Fungsi likelihoodnya untuk
distribusi Poisson adalah:
n
L y, f yi ,
i 1
n yi
n
i1 exp( )
n
n
yi e i 1 i 1
L y , n
i 1 yi !
yi! i 1
n yi
n
i1 n
exp( 0 j xij )
k k
exp( exp( 0 j xij ) )
i 1 j 1 i 1 j 1
L y ,
n
yi! i 1
n n n
logL y,β LLy,β y i log(exp( β 0 β j x ij )) (exp(β 0 β j x ij )) log y i !
k k
i 1 j1 i 1 j1 i 1
i 1
j xij )
k j 1
exp( 0
j 1
dengan
k
exp( 0 j xij )
j 1 exp( k x )1 x x
j ij
0 i1 ik
j 1
187
Persamaan terakhir ini dapat diselesaikan secara iterasi.
188
^ ^ ^ ^ ^
L 1 , 2 ,, j 1 , j 1 ,, k ,
D j 1 , 2 ,, j 1 , j 1 ,, k 2 log
^
^
L 1 ,..., k
Bentuk di atas menyatakan perbedaan dalam 2log L antara
model lengkap dengan model reduksi. Pengujian ini akan sama
dengan pemilihan model terbaik melalui prosedur bertahap
(stepwise) dalam analisis regresi biasa. Statistik dari rasio likelihood
D1, 2 ,, j 1 , j 1,, k mempunyai distribusi Chi Squared, χ2
dengan derajat bebas satu. Formula di atas juga dapat digunakan
untuk pengujian masing – masing koefisien dalam model, yaitu
untuk menguji
H0 : j = 0 melawan H1 : j ≠
H0 ditolak apabila D j 1 , 2 ,, j 1 , j 1 ,, k ( ;1) .
2
Untuk mengetahui kecocokan model dan koefisien yang
signifikan maka dilakukan uji hipotesis, dimana terdapat jenis uji
yang harus dilakukan yaitu sebagai berikut:
1) Uji bersama yaitu untuk menguji apakah model regresi yang
terbentuk sudah layak atau belum untuk digunakan.
2) Uji koefisien yaitu untuk menguji apakah masing – masing
koefisien yang terbentuk dalam model sudah berpengaruh
terhadap model atau belum (Wibawati dan Nugraha, 2009)
5.4.2. Uji Rasio Likelihood
Pada pengujian rasio likelihood, terlebih dahulu perlu
ditentukan dua buah fungsi likelihood yang berhubungan dengan
model regresi yang diperoleh. Fungsi – fungsi likelihood itu adalah
189
^
L red , yaitu fungsi likelihood yang berhubungan dengan
model regresi yang sedang dianalisis. Sedangkan fungsi likelihood
yang kedua adalah fungsi likelihood yang berhubungan dengan
model penuh atau model yang sempurna, yang dinotasikan dengan
^ . Dengan demikian, fungsi likelihood itu dapat ditulis
L full
sebagai berikut:
n
L full ( yi , )
i 1
dan
n
yi e
L red
i 1 yi !
Selanjutnya, logaritma dari perbandingan antara kedua
fungsi likelihood di atas merupakan ukuran yang penting dalam
menentukan kelayakan model regresi Poisson, sehingga:
L red
G 2 2 log
L
full
Disebut sebagai G2 atau statistik uji rasio likelihood, dimana
definisi dari statistik uji rasio likelihood adalah selisih antara nilai
likelihood pada model yang diuji dibandingkan dengan model
lengkap dan statistik ini merupakan pendekatan dari distribusi χ2
dengan derajat bebas n–k (n adalah jumlah seluruh parameter pada
model penuh atau model sempurna sedangkan k adalah jumlah
seluruh parameter pada model regresi yang diperoleh atau model
190
regresi yang sedang dianalisis). Kriteria pengujian adalah tolak H0
apabila G2 > χ2 n – k) .
191
JK REG D1 , 2 ,, k 0
R2
JK TOTAL D 0
2 log L 0 , 1 ,, k 2 log L0
2 log L 0 , 1 ,, k
log L0
1
log L0 , 1 ,, k
192
Tabel 5.1. Data banyaknya pecahan pada lapisan atas tambang
batubara
No Y X1 X2 X3 X4 No Y X1 X2 X3 X4
1 2 50 70 52 1 23 3 65 75 68 5
2 1 230 65 42 6 24 3 470 90 90 9
3 0 125 70 45 1 25 2 300 80 165 9
4 4 75 65 68 0.5 26 2 275 90 40 4
5 1 70 65 53 0.5 27 0 420 50 44 17
6 2 65 70 46 3 28 1 65 80 48 15
7 0 65 60 62 1 29 5 40 75 51 15
8 0 350 60 54 0.5 30 2 900 90 48 35
9 4 350 90 54 0.5 31 3 95 88 36 20
10 4 160 80 38 0 32 3 40 85 57 10
11 1 145 65 38 10 33 3 140 90 38 7
12 4 145 85 38 0 34 0 150 50 44 5
13 1 180 70 42 2 35 0 80 60 96 5
14 5 43 80 40 0 36 2 80 85 96 5
15 2 42 85 51 12 37 0 145 65 72 9
16 5 42 85 51 0 38 0 100 65 72 9
17 5 45 85 42 0 39 3 150 80 48 3
18 5 83 85 48 10 40 2 150 80 48 0
19 0 300 65 68 10 41 3 210 75 42 2
20 5 190 90 84 6 42 5 11 75 42 0
21 1 145 90 54 12 43 0 100 65 60 25
22 1 510 80 57 10 44 3 50 88 60 20
Sumber : (Myers, 1990).
193
>x4<-(1,6,...,25,20)
Library yang digunakan untuk mengestimasi parameter adalah
>library(systemfit)
>library(micEcon)
>Fungsi_NonLinier<-function(a)
{a0=a[1];a1=a[2];a2=a[3];a3=a[4];a4=a[5]
lambda=exp(a0+x1*a1+x2*a2+x3*a3+x4*a4)
sum(-lambda+y*log(lambda)-lfactorial(y))}
194
Tabel 5.2. Estimasi parameter model 1 untuk data tambang
No Parameter Nilai P-value
1 0 – 3.59308956 0.0005136
2 1 – 0.00140659 0.0924334
3 2 0.06234576 4.772e-07
4 3 – 0.00208034 0.6815766
5 4 – 0.03081349 0.0581931
195
D 4 │ 0, 1, 2, 3) -69.0111 -67.06384 3.8944
D 3 │ 0, 1, 2, 4) -67.1512 -67.06384 0.1747
D 2 │ 0, 1, 3, 4) -83.0394 -67.06384 31.9511
D 1 │ 0, 2, 3, 4) -68.6471 -67.06384 3.1665
196
Hasil dari 15 kombinasi peubah yang ada terlihat bahwa X3
mempunyai peranan yang tidak berarti terhadap model, maka
dapat dikatakan bahwa model dengan peubah – peubah X1, X2, dan
X4 merupakan model yang terbaik karena mempunyai nilai devians
yang paling kecil dan memiliki nilai keberartian yang paling besar
serta masing – masing koefisien regresinya memberikan peranan
yang cukup berarti terhadap model.
Pada pengujian koefisien deteriminasi dalam regresi Poisson
menujukkan hubungan pengaruh variabel y (sebagai variabel
dependen) dan variabel x (sebagai variabel independen) yang
diperoleh dengan menghitung:
D(0 , 1, 2 , 4 ) 2 logL(0 , 1, 2 , 4 ) 0.17466
D(0 ) 2 logL(0 ) 37.1277
sehingga nilai koefisien determinasi R2 dalam kasus ini adalah:
D0 , 1 , 2 , 4 0.17466
R2 1 1 0.9953
D0 37.1277
Untuk menginterprestasikan nilai koefisien determinasi, peneliti
harus membuat nilai tersebut dalam persentase yang berarti
99.53%. Maksud nilai ini adalah bahwa sebesar 99.53% perubahan
atau variasi dari banyaknya pecahan dapat dijelaskan oleh
ketebalan beban bagian dalam (feet), prosentase ekstrasi, dan
lamanya waktu (tahun), sedangkan 0.46% dijelaskan oleh variabel
lain.
Berdasarkan dari pengujian yang telah dilakukan, maka model
regresi Poisson dengan fungsi link log adalah sebagai berikut:
^
exp( 3.72068232 0.00147925x1 0.06270111x2 0.03165139 x4 )
197
5.6. Contoh Data II
Penelitian mengenai kelangsungan spesies possum (kus-kus).
Variabel yang diamati adalah
y : banyaknya spesies possum yang ditemukan
Acacia : banyaknya pohon acacia
Bark indeks kualitas Bark
Habitat : Habitat score untuk Leadbeater s possum
Shrubs : banyaknya semak-semak (shrub)
Stags banyaknya hollow trees
198
15 2 26 9 2 5 5
16 3 17 14 8 10 11
17 1 8 18 2 12 7
18 3 24 9 10 9 12
19 3 20 8 9 5 12
20 1 14 13 10 9 5
Sumber : Biological Conservation, Kirkwood (1996).
Pertanyaan 1.
Apakah semak (shrubs ) meningkatkan habitat kus-kus? Apakah
ada hubungan antara jumlah spesies kuskus dan jumlah semak-
semak (shrubs) ?
> Shrubs<-
c(7,6,8,7,6,4,7,14,6,9,12,17,9,10,5,10,12,9,5,9,2,4,4,6,4
,5,6,3,7,2,6,4,6,22,6,4,5,4,3,7,12,12,6,6,4,6,11,16,9,6,1
0,8,9,4,1,12,12,11,9,7,5,3,6,3,2,9,2,2,1,3,8,6,4,1,8,4,7,
1,5,9,5,6,2,7,5,9,5,3,8,8,2,3,8,2,6,1,3,2,2,1,15,1,9,4,4,
5,16,1,3,3,1,2,2,10,6,11,4,3,3,1,12,13,11,8,2,4,3,4,2,2,8
,4,7,3,2,4,7,12,10,2,2,7,6,9,7,3,6,5,5,6,5)
> shrubdat<-data.frame(y, Shrubs)
> shrub.fit<-glm(y~Shrubs, family=poisson,data=shrubdat)
> summary(shrub.fit)
199
Call:
glm(formula = y ~ Shrubs, family = poisson, data =
shrubdat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8424 -1.6565 -0.3426 0.4917 2.2243
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.29261 0.12715 2.301 0.0214 *
Shrubs 0.01576 0.01718 0.917 0.3591
---
Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 187.49 on 150 degrees of freedom
Residual deviance: 186.67 on 149 degrees of freedom
AIC: 471.47
Number of Fisher Scoring iterations: 5
200
Pertanyaan 2.
Apakah Stags meningkatkan habitat kus-kus? Apakah ada
hubungan antara jumlah spesies kuskus dan jumlah Stags ?
Seberapa baik model regresi Poisson cocok dengan data? Kita
dapat menggunakan deviasi residual untuk menjawab pertanyaan
ini. Hipotesis nol-nya adalah bahwa model regresi Poisson
memberikan yang memadai sesuai dengan data. Deviasi residual
adalah ukuran berapa banyak data yang menyimpang dari model,
jadi semakin besar sisa penyimpangan ini, semakin tidak cocok.
deviasi residual adalah 153.34, untuk dapat dibandingkan dengan
chi-kuadrat dengan derajat kebebasan 149. Nilai P-value 0.387,
yang cukup besar sehingga kita tidak perlu menolak hipotesis nol.
Model tampaknya memadai/sesuai.
Apakah variabel prediktor x = stage signifikan secara statistik?
Seperti halnya dalam regresi logistik, deviasi nol adalah
penyimpangan dari model yang memiliki 1 0 , yaitu model nol
mengabaikan x dan memprediksi nilai konstan untuk y. Jika x
adalah prediktor yang dapat digunakan, model Poisson akan cocok
dengan data yang lebih baik dan penyimpangan nol akan secara
signifikan lebih besar daripada penyimpangan residu. distribusi
dengan satu derajat kebebasan. Perbedaan antara dua devians
memiliki distribusi 2 dengan derajat kebebasan 1. Perubahan
deviasi (null devians minus residual devians) adalah 187.49-153.34
= 34.15. Peluang variabel 2 dengan satu derajat kebebasan akan
mengambil nilai lebih besar dari 34.15 mendekati nol (0). Kita
dapat menyimpulkan bahwa penambahan x ke model nol
menghasilkan peningkatan yang signifikan.
201
Cara lain untuk menguji kekuatan prediksi x = stage adalah
dengan melihat P-value untuk z-test dimana 1 0 . P-value adalah
sebesar 2.88e-10, pada dasarnya 0, yang mendukung kesimpulan
kami bahwa x adalah prediktor yang dapat digunakan.
Persamaan yang sesuai adalah
yˆ i i e 0.080.05xi .
Seperti yang diharapkan, semakin banyak stage dalam suatu area,
semakin tinggi jumlah spesies kuskus yang ditemukan.
> Stags<-c(13,16,7,....,12,12,5)
>Stagsdat<-data.frame(y,Stags)
>glm(formula = y ~ Stags, family = poisson, data =
Stagsdat)
Call:
glm(formula = y ~ Stags, family = poisson, data =
Stagsdat)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.46184 -1.38993 -0.06549 0.59729 1.89332
Coefficients:
Estimate Std. Error z value
Pr(>|z|)
(Intercept) -0.084347 0.110074 -0.766 0.444
Stags 0.049709 0.007884 6.305 2.88e-10
***
---
Signif. codes: 0'***' 0.001'**' 0.01 '*' 0.05 '.' 0.1
'' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 187.49 on 150 degrees of freedom
Residual deviance: 153.34 on 149 degrees of freedom
AIC: 438.14
Number of Fisher Scoring iterations: 5
202
5.7. Contoh Data III
Perhatikan data dalam tabel di bawah ini, disajikan banyaknya
kejadian kanker kulit non-melanoma di kalangan wanita di
Minneapolis-St. Paulus.
Tabel 5.7. Data banyaknya kanker kulit
Usia Kasus Populasi
15-24 1 172.675
25-34 16 146.207
35-44 30 121.374
45-54 71 111.353
55-64 102 83.004
65-74 130 55.932
75-84 133 29.007
85+ 40 7.538
Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf.
Menurut teori, kasus kanker kulit meningkat dengan usia.
Tetapi jumlah kasus kanker kulit juga akan bergantung pada
ukuran populasi. Selama ukuran populasi berbeda dengan
kelompok usia, model akan sesuai dengan ukuran populasi. Hal ini
cukup mudah sesuai dengan yang diperlukan dalam model regresi
Poisson untuk memperkirakan tingkat kasus (incidence rate).
Misal Ni menyatakan ukuran populasi dengan observasi ke-i.
Jika i adalah jumlah kasus yang diharapkan, maka perkiraan
tingkat kasus adalah i/Ni . Menggunakan sifat dari logaritma :
i
log( ) log( i ) log( N i ) .
Ni
Dan dianggap bahwa log-rate adalah fungsi linear prediktor x:
203
i
log( ) log( i ) log( N i ) = 0 1 xi
Ni
log( i ) 0 1 xi log( N i ) .
Dalam contoh ini, karena kelompok Age (usia) merupakan
variabel kategorik dan kita membutuhkan prediksi numerik, kita
akan menggunakan titik tengah interval umur dari masing-masing
sebagai nilai dari variabel usia. Di bawah ini adalah kode R dan
output.
> age<-c(19.5,29.5,39.5,49.5,59.5,69.5,79.5, 89.4)
> Cases<-c(1,16,30,71,102,130,133,40)
> Pop<-
c(172675,123065,96216,92051,72159,54722,32185,8328)
> minn.txt<-data.frame(age,Cases,Pop)
> minn.fit<-glm(Cases~age+offset(log(Pop))
,family=poisson, data=minn.txt)
> summary(minn.fit)
Call:
glm(formula = Cases ~ age + offset(log(Pop)), family =
poisson,
data = minn.txt)
Deviance Residuals:
Min 1Q Median 3Q Max
-4.87198 -1.67519 -0.07185 1.20816 1.99291
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)-10.551604 0.168780 -62.52 <2e-16
***
age 0.063629 0.002475 25.71 <2e-16
***
---
Signif.codes:0'***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' '
1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 845.789 on 7 degrees of freedom
Residual deviance: 44.288 on 6 degrees of freedom
AIC: 91.688
Number of Fisher Scoring iterations: 5
204
Sehingga model yang sesuai adalah
log( i ) -10.552 0.064 xi log( N i )
dengan x adalah usia (age).
i/Ni = e 10.5520.064xi .
Kita dapat menguji kecukupan model dan signifikansi dari
variabel prediktor menggunakan deviansi, sama seperti pada
model regresi Poisson yang lain. Kecocokan model ini terlihat
sangat bagus, dan usia adalah prediktor yang sangat signifikan.
Seperti yang kita harapkan, koefisien positif dari variable usia
menunjukkan bahwa tingkat kanker kulit meningkat dengan
meningkatnya usia.
205
a. Cocokkan dengan model regresi Poisson untuk menyelidiki
apakah jumlah pejantan yang mengelilingi berhubungan
dengan lebar kepiting betina. Berikan komentar pada
kecukupan model dan kegunaan lebar sebagai prediktor.
b. Berapa banyak pejantan yang mengelilingi yang
diperkirakan untuk kepiting betina yang lebar 27.5 mm?
c. Ada satu outlier, betina yang sangat lebar. Apakah model
sangat dipengaruhi oleh penghapusan outlier ini? Jelaskan.
206
b. Gunakan model regresi Poisson untuk menyelidiki
hubungan antara keberhasilan dan usia perkawinan.
207
Tabel 5.9. Data kanker kulit non-melanoma di Dallas-Ft. Worth
Usia Kasus Populasi
15-24 4 181.343
25-34 38 146.207
35-44 119 121.374
45-54 221 111.353
55-64 259 83.004
65-74 310 55.932
75-84 226 29.007
85+ 65 7.538
Sumber : http://courses.washington.edu/b518/lectures/L26Poisson.pdf.)
a. Cocokkan dengan model regresi Poisson untuk tingkat
kejadian kanker kulit di kalangan wanita di Dallas-Ft.
Worth, dan melakukan tes untuk kecukupan model dan
signifikansi usia sebagai prediktor.
b. Perkirakan jumlah kasus kanker kulit yang akan diharapkan
di antara 155.000 wanita usia 25-34 Dallas-Ft. Worth.
c. Bandingkan fitted model tingkat kejadian kanker kulit
Dallas-Ft. Worth dengan fitted model Minneapolis-St.
Paulus. Apakah perempuan pada risiko yang lebih tinggi
untuk kanker kulit di satu kota dari yang lain? Jelaskan.
(Hal ini dapat diuji secara statistik menggunakan model
dengan beberapa prediksi.)
208
BAB VI
GENERALIZED LINEAR MODEL (GLM)
6.1. Pendahuluan
Dalam regresi linear biasa (normal), model dapat dituliskan
sebagai yi = xti + εi, dimana i= , , ,n, yi adalah respon, xi adalah
vector berukuran k untuk variabel prediktor, adalah vektor
parameter dan εi ~ NIID , σ2) adalah galat dengan rerata nul dan
variansi σ2. Model regresi linear normal mempunyai karakteristik
sebagai berikut (Simon dan Jackman, 2003):
a. komponen stokastik: yi yang biasanya diasumsikan
mempunyai distribusi normal independen dengan
E(yi) =μi = xti
209
Nelder (1989). Pendekatan ini didasarkan pada model regresi
normal dengan distribusi responnya termasuk dalam kelurga
eksponensial. Atas dasar model regresi linear normal, GLM
mempunyai dua aspek pengembangan yaitu komponen stokastik
yang dapat berdistribusi tidak normal dan link function (fungsi
penghubung).
210
parameternya dengan ordinary least squares (OLS) tidak tepat dan
dapat digunakan weighted least squares, (Myers dan
Montgomery,1997).
Fungsi distribusi yang dapat diakomodasi oleh GLM adalah
distribusi yang termasuk dalam keluarga ekponensial, seperti
distibusi binomial, normal, poisson, gamma, eksponensial, (Myers
dan Montgomery, 1997). Bentuk distribusi keluarga eksponensial
dapat dinyatakan sebagai :
f(yi; i;) = exp{r()[yii - b(i)] + h(yi; )} untuk i=1,2,...n
Distribusi
211
b() 2/2 atau Exp() atau Log(1+e) atau -log(-) atau
2/2 log(/(1-)) atau log()
log(/(n-))
Fungsi 1 Exp() atau e/(1+e)2 atau 1/2 atau 2
varian: (1-) atau (n-
bii() )/n2
Variansi: 2 Exp() atau ne/(1+e)2 atau v2
bii()/r() n(1-)
fungsi η = η = Log ) η =log{/(1-)} 1/ = xt
link: (identitas/k (log) (logit) (reciprocal)
η = xt anonik)
Model = xt = exp(xt) = = 1/xt
1/{1+exp(xt)}
212
n
[ yi ]2
W() = dengan var(yi) = g()
i 1 g[ ]
213
2. Proses Weghted:
1
d 2 (t )
Wi(t) = vi dengan Vi(t) = V(I(t)) yang merupakan
d i
fungsi varians . McCullagh dan Nelder (1989) telah
membuktikan bahwa var(yi) = b ().r (), suku pertama
ii -1
214
ˆ ( X t VX ) 1
Var ( )
(r ( ))2
i
adalah matrik diagonal dengan elemen diagonalnya i .
xit
Pada link kanonik, i bernilai 1.
215
Berdasarkan distribusi normal maka dapat digunakan statistik uji
( SSRe s ( 0 , 1 ) SSRe s ( 0 , 1 , 2 , 3 ) /( 4 2)
F ~ F(2;4)
SSRe s ( 0 , 1 , 2 , 3 ) / 4
Distribusi
216
Dalam model linear, pengujian kecocokan model didasarkan atas
nilai JKR. Sementara itu dalam GLM uji kecocokan model
didasarkan atas nilai devians yang berdistribusi chi kuadrat.
Menggunakan konsep uji rasio likelihood, maka
L( )
D( ) 2 log 2[log L( ) log L( )]
L( )
L() adalah maksimum likelihood untuk model yang dimaksud
dan L() adalah maksimum likelihood model lengkap (saturated).
D() adalah devians pada model yang dipilih dan secara asimtotis
berdistribusi Chi Kuadrat dengan derajad bebas p-s ( p : jumlah
parameter model lengkap dan s jumlah parameter pada model
yang dimaksud).
Persamaan D( ) dapat dinyatakan dalam selisih devians, misal
parameter
1
2
memuat p parameter dan 1 memuat r < p parameter.
Untuk menguji hipotesis H0 : 1 = 0 vs H1 : 1 0 dapat
digunakan statistik
D(1|2) = D(2)- D() ~ 2(r )
217
2
coeff .
2
est.std .error
yang mempunyai distribusi asymtotis chi squared dengan derajad
bebas satu. Statistik ini disebut Wald statistic. P Value untuk
masing-masing koefisien dapat dilihat dalam program S Plus.
Pendekatan dengan distribusi normal akan diperoleh statistik t.
Statistik R2 dalam GLM (sebagaimana koefisien determinasi
dalam model normal) adalah
D( 0 ) D( )
R2
D( 0 )
(0) adalah devians untuk intersep (null devians) dan D() adalah
devians pada model yang dipilih.
218
t 1
( X VX )
Var ( fˆ ( x0t ) [Var ( y0 ]2 x0t x0 .
[r ( )]2
Selanjutnya, secara asymtotis
( fˆ ( x0t ) f ( x0t ))
~ N (0,1) ,
t 1
( X VX )
[Var ( y0 ] x0t x0
[r ( )]2
oleh karena itu interval konfidensi 100(1-)% untuk mean f ( x0t )
dapat dinyatakan sebagai
t 1
( X VX )
( fˆ ( x0t ) z / 2Vˆar ( y0 ) x0t x0
[r ( )]2
Sebagai contoh, untuk regresi Poisson,
exp( x0t ˆ ) z / 2 exp( x0t ˆ ) x0t ( X tVX )1 x0
dimana V merupakan matrik diagonal dengan elemen diagonal ke-i
adalah exp( x0 ˆ ) .
t
219
y0 ( fˆ ( x0t )
~ N (0,1) atau
Var ( y0 )
Var{( fˆ ( x0 )}
t
r ( )
y0 ( fˆ ( x0t )
~ N (0,1)
Var ( y0 ) ( X tVX ) 1
[Var ( y0 )]2 x0t x0
r ( ) [r ( )]2
220
6.7. GLM pada Program R
Fungsi R untuk generalized linear model adalah glm (), yang
sangat mirip dengan lm (), tetapi juga memiliki argumen keluarga.
Misalkan dari data "roadData akan disusun model Poisson.
Variabel dependenya adalah numAcc dan variabel independenya
adalah raodType dan weekDay. Data numAcc berdistribusi
Poisson μi , degan log μi) = Xi. Fungsi yang digunakan adalah
>glm( numAcc˜roadType+weekDay,
family=poisson(link=log), data=roadData)
221
Respon adalah matriks dua kolom: kolom pertama
diasumsikan sebagai jumlah keberhasilan dan kolom kedua
adalah jumlah kegagalan.
222
Signif.codes:0‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
(Dispersion parameter for binomial family taken to be
1)
Null deviance: 124.8756 on 11 degrees of freedom
Residual deviance: 4.9937 on 8 degrees of freedom
AIC: 43.104
Number of Fisher Scoring iterations: 4
> anova(budworm, test="Chi")
Analysis of Deviance Table
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL 11 124.876
sex 1 6.077 10 118.799
0.014
ldose 1 112.042 9 6.757 3.499e-26
sex:ldose 1 1.763 8 4.994 0.184
> summary( glm( SF ˜ sex + ldose, family=binomial) )
Coefficients:
Estimate Std. Error z value
Pr(>|z|)
(Intercept)-3.4732 0.4685 -7.413 1.23e-13
***
sexM 1.1007 0.3558 3.093 0.00198 **
ldose 1.0642 0.1311 8.119 4.70e-16 ***
---
Signif. codes: 0‘***’0.001‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
(Dispersion parameter for binomial family taken to be
1)
Null deviance : 124.876 on 11 degrees of
freedom
Residual deviance: 6.757 n 9 degrees of freedom
AIC: 42.867
Number of Fisher Scoring iterations:
223
kasus yang melibatkan beberapa pembunuhan di Florida antara
1976 dan 1987.
Tabel 6.3. Data Vonis hukuman mati
Ras Korban
Putih (W) Negro (B)
Ras Terdakwa Ras Terdakwa
Putih (W) Negro (B) Putih (W) Negro (B)
Hukum Ya 53 11 0 4
Mati Tidak 414 37 16 139
Sumber: Agresti (2007)
> deathpenalty<-
data.frame(number=c(53,11,0,4,414,37,16,139),
victim=c("W","W","B","B","W","W","B","B"),
defendant = c("W","B","W","B","W","B","W","B"),
death = rep(c("yes","no"),rep(4,2)))
>summary(glm(number˜(victim+defendant+death)ˆ2,
family=poisson, data=deathpenalty))
Coefficients:
Estimate Std.Error z value
Pr(>|z|)
(Intercept) 4.93578 0.08471 58.265 < 2e-16
***
victimW -1.32980 0.18479 -7.196 6.19e-13 ***
defendantW -2.17465 0.26377 -8.245 < 2e-16
***
deathyes -3.59610 0.50691 -7.094 1.30e-12 ***
victimW:defendantW 4.59497 0.31353 14.656 < 2e-16 ***
victimW:deathyes 2.40444 0.60061 4.003 6.25e-05 ***
defendantW:deathyes-0.86780 0.36707 -2.364 0.0181 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’0.01‘*’0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 1225.07955 on 7 degrees of freedom
Residual deviance: 0.37984 on 1 degrees of freedom
AIC: 52.42
Number of Fisher Scoring iterations: 3
> deathpenalty2 <- data.frame(
224
prop= c(53,11,0,4)/(c(53,11,0,4)+c(414,37,16,139)),
victim = c("W","W","B","B"),defendant =
c("W","B","W","B"),
weights = c(53,11,0,4)+c(414,37,16,139))
> summary (glm(prop˜victim+defendant, family=binomial,
weights=weights, data=deathpenalty2))
Coefficients:
Estimate Std.Error z value Pr(>|z|)
(Intercept)-3.5961 0.5069 -7.094 1.30e-12 ***
victimW 2.4044 0.6006 4.003 6.25e-05 ***
defendantW -0.8678 0.3671 -2.364 0.0181 *
---
Signif.codes:0‘***’0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 22.26591 on 3 degrees of freedom
Residual deviance: 0.37984 on 1 degrees of freedom
AIC: 19.3
Number of Fisher Scoring iterations: 4
Contoh data Jumlah hari absen dari sekolah dalam satu tahun
oleh anak-anak dari sebuah kota besar di pedesaan NSW,
Australia. Anak-anak dikelompokkan berdasarkan umur (4
tingkat), etnicity (aborigin atau tidak), apakah mereka yang
lambat atau cepat dalam belajar, dan jenis kelamin (M atau F).
Data dapat diakses dalam library MASS.
> library(MASS)
> attach(quine)
> quine.nb <- glm.nb(Days˜.ˆ4, data=quine)
> quine.nb2 <- stepAIC(quine.nb)
> summary(quine.nb2,cor=F)
Coefficients: (3 not defined because of singularities)
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.1693 0.3411 9.292 < 2e-16
***
EthN -0.3560 0.4210 -0.845 0.397848
SexM -0.6920 0.4138 -1.672 0.094459
.
AgeF1 -0.6405 0.4638 -1.381 0.167329
225
AgeF2 -2.4576 0.8675 -2.833 0.004612
**
AgeF3 -0.5880 0.3973 -1.480 0.138885
LrnSL -1.0264 0.7378 -1.391 0.164179
EthN:SexM -0.3562 0.3854 -0.924 0.355364
EthN:AgeF1 0.1500 0.5644 0.266 0.790400
EthN:AgeF2 -0.3833 0.5640 -0.680 0.496746
EthN:AgeF3 0.4719 0.4542 1.039 0.298824
EthN:LrnSL 0.9651 0.7753 1.245 0.213255
SexM:AgeF1 0.2985 0.6047 0.494 0.621597
SexM:AgeF2 3.2904 0.8941 3.680 0.000233
***
SexM:AgeF3 1.5412 0.4548 3.389 0.000702
***
SexM:LrnSL 0.5457 0.8013 0.681 0.495873
AgeF1:LrnSL 1.6231 0.8222 1.974 0.048373
*
AgeF2:LrnSL 3.8321 1.1054 3.467 0.000527
***
AgeF3:LrnSL NA NA NA NA
EthN:SexM:LrnSL 1.3578 0.5914 2.296 0.021684
*
EthN:AgeF1:LrnSL -2.1013 0.8728 -2.408 0.016058
*
EthN:AgeF2:LrnSL -1.8260 0.8774 -2.081 0.037426
*
EthN:AgeF3:LrnSL NA NA NA NA
SexM:AgeF1:LrnSL -1.1086 0.9409 -1.178 0.238671
SexM:AgeF2:LrnSL -2.8800 1.1550 -2.493 0.012651
*
SexM:AgeF3:LrnSL NA NA NA NA
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
’ 1
Null deviance: 265.27 on 145 degrees of freedom
Residual deviance: 167.44 on 123 degrees of freedom
AIC: 1091.4
Number of Fisher Scoring iterations: 1
Theta: 1.865
Std. Err.: 0.258
226
BAB VII
PENGANTAR PROGRAM R
7.1. Pendahuluan
Program R adalah program statistika yang didistribusikan
melalui internet di bawah GPL (General Public License), hal ini
memungkinkan untuk digunakan secara bebas. Artinya untuk
menggunakan R tidak diperlukan pembayaran lisensi. R dapat
dioperasikan di bawah sistem operasi Microsoft 95, 98, 2000, XP,
Windows Vista, Windows 7 atau yang terbaru, varian dari Unix,
Linux dan Apple Macintosh.
R merupakan suatu sistem analisis statistika yang relatif
lengkap, yang merupakan hasil dari kolaborasi riset berbagai
statistisi di seluruh dunia. Versi paling awal R dibuat tahun 1992 di
Universitas Aucland, New Zealand oleh Ross Ihaka dan Robert
Gentleman (yang mungkin menjelaskan asal muasal akronim nama
R untuk software ini). Saat ini Source code kernel R dikembangkan
oleh R Core Team, yang beranggotakan 17 orang statistisi dari
berbagai penjuru dunia.
R dapat diperoleh secara bebas di CRAN-archive (The
Comprehensive R Archive Network) pada alamat http:/CRAN.r-
project.org. Server utama CRAN berlokasi di Universitas Teknologi
Vienna, Austria dan di mirror world-wide lebih kurang 17 situs di
lima benua. Karena R adalah sebuah bahasa pemrograman,
sebagian besar fungsi-fungsi tersedia dalam bentuk library
(kadang-kadang disebut paket) yang diperoleh dari situs R. Kita
dapat menginstal library sesuai dengan keinginan. Daftar library
227
terkompresi siap untuk di-download di http:/CRAN.r-project.org.
Jika kita menggunakan GUI, mulai R dan klik install package from
local directory yang terletak di package, kemudian pilih file yang
Anda download. Sekarang paket akan tersedia untuk digunakan.
Jika kita menggunakan R di bawah linux, instal pustaka baru
dengan menjalankan perintah berikut pada perintah: "R CMD
INSTALL packagename". Kita juga dapat mengunduh dan menginstal
paket sekaligus dari dalam R dengan menggunakan perintah
seperti
>install.packages(c("car","systemfit"),repo="http://cran.
stat.ucla.edu",dep=TRUE)
228
dataframes. Perintah ls () memberikan daftar semua objek data yang
tersedia saat ini. Perintah rm () menghapus objek data yang
diberikan sebagai argumen. Kita dapat menentukan jenis objek
menggunakan perintah typeof () atau jenis kelas (yang sering kali
lebih informatif) menggunakan class (). Perintah untuk menciptakan
atau mendefinisikan sebuah objek menggunakan perintah
> g <- 7.5
229
> foo
membuat array 4x3 dari kolom 1,3, dan 5 dari foo dan
menyimpannya dalam oddfoo. Kita dapat menghapus kolom
tertentu dengan perintah
> nooddfoo <- foo[,-c(1,3,5)]
membuat sebuah array 4x2 dari kolom 2 dan 4 dari foo (dapat
menghilangkan kolom 1,3, dan 5). Kita dapat juga menggunakan
operator perbandingan untuk mengekstrak kolom atau baris
tertentu.
> smallfoo <- foo[foo[,1]<1,]
membandingkan setiap entri dalam kolom pertama foo untuk satu
dan menyisipkan baris yang sesuai untuk masing-masing pasangan
ke smallfoo. Kita juga dapat menyusun ulang data. Misalkan data
wealth yang merupakan dataframe dengan kolom merupakan
data year, GDP, dan GNP, kita bisa mengurutkan data dengan
menggunakan urutan year () atau ekstrak periode year
menggunakan operator titik dua .
230
Data wealth diatur menurut urutan year
> wealth <- wealth[order(wealth$year),]
Semua baris pada tahun 1980 pada data wealth disimpan dalam
data eighty
> eighty <- wealth[wealth$year==1980,]
231
memutuskan bagaimana untuk perhitungan matematika yaitu,
mengulang nilai pada objek data yang lebih kecil. Misalnya
> a<-c(1,3,5,7)
> b<-c(2,8)
> a+b
[1] 3 11 7 15
7.4. Vektor
Hal yang paling mendasar dalam R adalah bahwa data
numerik dalam R adalah vektor tanpa nama. Sebuah skalar adalah
suatu 1-vektor. R biasanya mengasumsikan bahwa vektor adalah
vektor kolom, tetapi vektor dapat juga dipandang sebagai vektor
baris. Misalkan dipunyai dua buah vektor
a<-c(1,2,3)
b<-c(4,6,8)
232
Sekarang kita dapat membuat sebuah matrik dengan menumpuk
secara vertikal maupun horizontal dan R dapat memperlakukan
masing-masing vektor sebagai vektor baris ataupun vektor kolom.
> cbind(a,b)
a b
[1,] 1 4
[2,] 2 6
[3,] 3 8
> rbind(a,b)
[,1] [,2] [,3]
a 1 2 3
b 4 6 8
233
Array merupakan generalisasi dari matrik (dimensinya lebih dari
2). Misalkan membuat array dengan demensi tiga, dapat
menggunakan perintah array(,c(a,b,c)).
> array(c(1:12),c(2,3,2))
, , 1
[,1] [,2] [,3]
[1,] 1 3 5
[2,] 2 4 6
, , 2
[,1] [,2] [,3]
[1,] 7 9 11
[2,] 8 10 12
234
menambahkan kolom bernama lnsalary dalam goo, yang berisi log
dari salarysq.
7.7. List
List lebih umum daripada dataframe. Pada dasarnya list adalah
sekumpulan objek data yang terikat bersama. Seperti dataframe, kita
dapat melihat elemen apa yang berada dalam daftar (dengan nama
yang dimiliki) menggunakan perintah names() dan merujuknya,
baik dengan names (jika ada) dengan menggunakan simbol $ atau
nomor menggunakan tanda kurung. Ingat bahwa referensi anggota
daftar umumnya dilakukan dengan menggunakan kurung ganda,
bukan kurung tunggal. List bisa diseserhanakan menjadi vektor.
Sebagai contoh, fungsi strsplit () mengembalikan sebuah daftar
berisi substrings dari argumen. Dalam rangka untuk membuat
menjadi vektor string, kita harus mengubah daftar untuk sebuah
vektor unlist (). List kadang-kadang membingungkan, sehingga
unlist () adalah fungsi yang berguna.
235
digit tahun adalah % y, numerik bulan adalah %m, abjad
(disingkat) bulan adalah %b, abjad (lengkap) bulan adalah %B, hari
ini adalah %d. Untuk kode lain, lihat bantuan file pada strptime.
Sebagai contoh, jika d adalah vektor tanggal diformat seperti "2005-
Jun-27", kita dapat menggunakan:
> g<-as.Date(d,format="%Y-%b-%d")
> OUT<-merge(B,E)
236
Jika tanggal bernama kolom tanggal dalam B tapi hari di E,
perintahnya adalah :
> OUT<-merge(B,E,by.x="date",by.y="day")
237
kita ingin menyimpan perubahan data dalam variabel yang
berbeda, kita dapat menggunakan:
> b <- de(a)
plot garis di x-y dalam suatu bidang. Warna, simbol, dan banyak
pilihan lain yang dapat diterapkan untuk plot (). Untuk informasi
lebih lanjut, lihat help system dengan entry plot () dan par ().
238
Setelah jendela terbuka, jika kita ingin menempatkan di plot
lain di atas plot yang sudah ada gunakan perintah lines() atau
points(), yang menghubungkan titik-titik terhubung dengan sebuah
garis. Banyak pilihan yang digunakan untuk plot () dapat berlaku
untuk lines() dan sejumlah fungsi grafis lain. Kita bisa membuat
plot dari suatu garis, dengan koefisien tertentu, menggunakan
perintah abline(). Hal ini sangat berguna dalam memvisualisasikan
penempatan garis regresi bivariat.
> results <- lm(y ~ x)
> plot(x,y)
> abline(results$coef)
239
Kita juga dapat merencanakan CDF empiris dari suatu
kumpulan data menggunakan perintah ecdf () dari library (stepfun),
yang termasuk dalam distribusi default. Kita bisa kemudian
merencanakan CDF yang diperkirakan menggunakan plot ().
> library(stepfun)
> d <- ecdf(y)
> plot(d,main="Empirical CDF of Y")
240
7.15. Menambahkan Legend dan Stuff
Setelah memplot kita sering ingin menambahkan notasi atau
grafik lain yang secara manual. Fungsi text() dan legend() diambil
sebagai dua argumen pertama koordinat pada grafik di mana objek
yang dihasilkan harus ditempatkan. Dalam rangka menentukan
secara manual lokasi dari sebuah titik pada grafik, gunakan fungsi
locator(). Lokasi satu atau beberapa klik kanan pada grafik akan
dikembalikan oleh fungsi ini setelah klik kiri. Koordinat-koordinat
tersebut kemudian digunakan untuk menempatkan teks, legend,
atau pengaya lainnya ke dalam grafik. Contoh data time series,
dengan kurva prediksi dan garis error standar di sekelilingnya:
>plot(a.true,type="l",lty=1,ylim=c(11.6,12.5),
main="Predicted vs True",xlab="",ylab="")
> lines(a.predict$pred,lty=2,type="l")
> lines(a.predict$pred+a.predict$se,lty=3,type="l")
> lines(a.predict$pred-a.predict$se,lty=3,type="l")
> legend(145,11.95,c("truevalues","predicted"),lty=c (1,
2))
241
7.16. Menambahkan Panah, Teks dan Penanda
Setelah menggambar beberapa jenis plot jenis, kita dapat
menambahkan dengan menggunakan panah panah dengan fungsi
arrows() dari library graphics. Dibutuhkan koordinat "from" dan "to".
Teks dan marker dapat ditambahkan dimanapun pada bagian plot
menggunakan fungsi text() dan points (). Untuk points() jenis marker
ditentukan oleh parameter pch. Ada banyak nilai-nilai yang dapat
diambil, termasuk letter. Bagan cepat dari nilai yang mungkin
adalah output terakhir dari perintah yang dijalankan.
> x <- seq(0,.5,.005)
> y <- seq(0.7,1.3,.005)
> output <- matrix(nrow=length(x),ncol=length(y))
> for(i in 1:length(x)) {
+ for(j in 1:length(y)) {
+ output[i,j] <- posterior(c(x[i],y[j]))
+ }
+ }
> contour(output,x=x,y=y,xlab="sigma
squared",ylab="gamma",main="Posterior using a flat prior")
> points( 0.04647009 , 0.993137,pch=8)
> arrows(.1,.75,0.04647009,0.993137)
> text(.09,.73,"Posterior Mode",pos=4)
242
7.17. Multiple Plots
Kita dapat mempartisi gambar menjadi beberapa plot. Ada
beberapa fungsi yang dapat digunakan untuk melakukan hal ini,
termasuk split.screen (), layout(), dan par (). Yang paling sederhana
dan paling penting adalah par ().. Fungsi par () menset banyak jenis
default plot, termasuk margin, tick marks, dan layout. Cara paling
mudah mengatur beberapa plot adalah dengan memodifikasi
atribut mfrow. Ini adalah vektor yang pertama-tama ditentukan
dulu jumlah deretan dan yang kedua, jumlah kolom. Kadang-
kadang ketika merencanakan beberapa angka, default spasi
mungkin tidak sesuai dengan yang kita inginkan. Dalam kasus ini
kita dapat memodifikasi default margin (untuk setiap plot) dengan
menggunakan atribut mar. Ini merupakan empat vektor
menentukan entri margin default (bawah, kiri, atas, kanan). Standar
pengaturan c (5, 4, 4, 2) + 0,1. Untuk atas / bawah plot, kita dapat
mengurangi margin atas dan bawah. Untuk plot time series kita
dapat menggunakan
> op <- par(no.readonly=TRUE)
> par(mfrow=c(2,1),mar=c(3,4,2,2)+.1)
> plot(d[,1],main="Seasonally Adjusted",ylab=NULL)
> plot(d[,2],main="Unadjusted", ylab=NULL)
> par(op)
243
kita inginkan dan menutup perangkat grafik khusus dengan
menggunakan dev.off (). Sebagai contoh :
> png("myplot.png")
> plot(x,y,main="A Graph Worth Saving")
> dev.off()
menciptakan sebuah file png plot x dan y. Dalam kasus file
postscript, jika kita bermaksud untuk menyertakan grafik dalam file
lain (seperti dalam dokumen LATEX), kita bisa memodifikasi
pengaturan postscript default, mengatur ukuran dan orientasi
kertas. Perhatikan bahwa ketika ukuran kertas khusus digunakan,
lebar dan tinggi harus ditentukan. Sebenarnya dengan LATEX kita
sering mengubah ukuran gambar secara eksplisit, sehingga Resize
mungkin tidak begitu penting.
>postscript("myplot.eps",paper="special",width=4,
height=4,horizontal=FALSE)
> plot(x,y,main="A Graph Worth Including in LaTeX")
> dev.off()
244
dasar (seperti kurva indiferen), nomor sumbu (axis) dan tanda
asing lain dihapus dari gambar.
> xfig("myoutput.fig", horizontal=F)
> plot(x,(x-.3)^2,type="l",xlab="",ylab="",xaxt="n",yaxt
="n")
> dev.off()
Parameter xaxt dan parameter yaxt berfungsi menghapus angka-
angka dan tanda tic dari sumbu.
245
menunjukkan subskrip. Kita dapat opsional melewati variabel
untuk substitute() untuk memasukkannya nilai dalam rumus.
Misalnya
> for (g in seq(.1,1,.1)){
plot(f(g),main=substitute(gamma==x,list(x=g)))}
Jika akan membuat sepuluh plot, dalam setiap plot judul akan
mencerminkan nilai, beri f(). Aturan untuk menghasilkan ekspresi
matematis tersedia melalui help for plotmath, yang merupakan mesin
typesetting matematika yang digunakan dalam R plot.
Untuk campuran teks dan simbol, gunakan perintah paste()
disamping subtitute()
>plot (density (tstats), main = subtitute (paste ( "t-
stat of", beta [0])))
7.20. Statistik
R memiliki fungsi statistik luas. Fungsi mean (), sd (), min (),
max (), dan var () beroperasi pada data seperti yang kita harapkan.
7.20.1. Distribusi Statistik yang Umum
R dapat juga menghasilkan dan menganalisa realisasi dari
variabel acak dari distribusi standar. Perintah yang
menghasilkan realisasi acak dimulai dengan huruf 'r' dan
mengambilnya sebagai argumen pertama jumlah pengamatan
untuk menghasilkan; perintah yang mengembalikan nilai pada
tertentu pdf pengamatan dimulai dengan 'd'; perintah yang
mengembalikan nilai cdf pengamatan tertentu mulai dengan 'p';
perintah yang kembali nomor yang sesuai dengan nilai cdf mulai
dengan q. Perhatikan bahwa the 'p' dan 'q' fungsi yang bertolak
belakang satu sama lain.
> rnorm(1,mean=2,sd=3)
[1] 2.418665
> pnorm(2.418665,mean=2,sd=3)
246
[1] 0.5554942
> dnorm(2.418665,mean=2,sd=3)
[1] 0.1316921
> qnorm(.5554942,mean=2,sd=3)
[1] 2.418665
7.20.2. P-Values
Contoh, untuk menghitung nilai p sebesar 3.6 menggunakan
f (4, 43) distribusi, digunakan perintah :
> 1-pf(3.6,4,43)
[1] 0.01284459
kita gagal untuk menolak pada tingkat 1%, tapi mampu menolak
pada tingkat 5%. Ingat, jika nilai p lebih kecil dari nilai alpha,
kita dapat menolak. Juga ingat bahwa nilai p harus dikalikan
247
dua jika kita melakukan two tailed test. Sebagai contoh, two
tailed test dengan derajat kebebasan 2,8 dan 21:
> 1-pt(2.8,21)
[1] 0.005364828
> 2*(1-pt(2.8,21))
[1] 0.01072966
Jadi, kita akan menolak hipotesis nol yang tak berarti pada
tingkat 10%-olah itu jika one tailed test (ingat, nilai p kecil, lebih
banyak bukti yang mendukung penolakan), tetapi kita akan
gagal untuk menolak di sign-agnostic case.
248
A dan B adalah matrik, mengalikan sesuai komponen. Untuk
melakukan perkalian matrik atau produk batin, gunakan %*%
operator. Perlu diperhatikan bahwa dalam kasus perkalian
matrik-vektor, R akan secara otomatis membuat vektor baris
atau vektor kolom, mana yang selaras. Matrik inversi diperoleh
melalui fungsi solve().
(Catatan: solve () untuk sebuah matrik dan vektor, memecahkan
masalah linier yang sesuai) Fungsi t () mentranspose argumen.
Sehingga:
7.21.2. Faktorisasi
R dapat menghitung matrik standar factorisasi. Faktorisasi
Cholesky dari matrik simetris definit positif tersedia melalui chol
(). Perlu dicatat bahwa chol () tidak akan memeriksa simetri
dalam argumen, sehingga pengguna harus berhati-hati.
Kita juga dapat mengambil dekomposisi eigenvalue matrik yang
simetris menggunakan eigen (). Oleh default ini pengecekan
secara rutin untuk input matrik simetri, tetapi mungkin lebih
249
baik untuk menentukan apakah matrik simetris dengan
konstruksi atau tidak menggunakan parameter simetris.
> J <- cbind(c(20,3),c(3,18))
> j <- eigen(J,symmetric=T)
> j$vec%*%diag(j$val)%*%t(j$vec)
[,1] [,2]
[1,] 20 3
[2,] 3 18
250
menggunakan metode quasi-newton. Optimasi berbasis gradien
yang sesuai dengan di atas adalah sebagai berikut:
> g <- function(x,A,B){
out <- sin(x[1])-sin(x[2]-A)+x[3]^2+B
grad <- function(x,A){c(cos(x[1]),-cos(x[2]-
A),2*x[3])}
attr(out,"gradient") <- grad(x,A)
return(out)}
> results <- nlm(g,c(1,2,3),A=4,B=2)
251
7.22. Menyusun Program
7.22.1. Menuliskan Fungsi
Suatu fungsi dapat diperlakukan sebagai objek lainnya
dalam R. Hal ini dibuat dengan operator dan penugasan function
(), yang melewati sebuah daftar argumen (gunakan tanda sama
untuk menunjukkan argumen default; semua argumen lain akan
diperlukan saat runtime). Kode yang akan beroperasi pada
argumen berikut, dikelilingi oleh kurung keriting jika terdiri dari
lebih dari satu baris. Jika suatu ekspresi atau variabel dievaluasi
dalam fungsi, tidak akan echo ke layar. Akan tetapi, jika itu
adalah evaluasi terakhir dalam fungsi, ia akan bertindak sebagai
nilai kembali. Ini berarti fungsi berikut adalah ekuivalen
>g<-function(x,Alpha=1,B=0)sin(x[1])-sin(x[2]-Alpha)
x[3]^2+B
> f <- function(x,Alpha=1,B=0){
out <- sin(x[1])-sin(x[2]-Alpha)+x[3]^2+B
return(out)}
> f(c(2,4,1),Al=3)
> f(c(2,4,1),Alpha=3)
252
a<-c(a,3)
cat("After: ",a,"\n")}
> k()
Before: 1 2
During: 1 2 3
> a
[1] 1 2
7.22.2. Looping
Looping dilakukan menggunakan untuk perintah sebagai
berikut:
> for (i in 1:20){cat(i)}
cat() berisi data diulang. Disamping 1:20, sebuah vektor atau
nilai matrik dapat digunakan. Variabel indeks akan mengambil
setiap nilai dalam vektor atau matrik dan menjalankan kode
yang terdapat dalam tanda kurung kurawal. Jika kita hanya
ingin satu loop dijalankan sampai menghentikannya, kita bisa
menggunakan, repeat, loop dan break
> repeat {
g <- rnorm(1)
if (g > 2.0) break
cat(g);cat("\n")}
253
mengulangi loop dan dilanjutkan dengan awal
iterasi berikutnya.
254
kita untuk menyalin dan menyisipkan menggunakan mouse.Jika
kita menggunakan file script, cara yang baik untuk mendapatkan
transkrip pekerjaan kita dan output adalah dengan menggunakan
sink () sehubungan dengan source ().
R dapat menyimpan plot dan grafik sebagai file gambar. Di
Windows, cukup klik sekali pada grafik sehingga di latar depan
dan kemudian pergi ke file/save dan menyimpannya sebagai jpeg
atau png. Cara lain untuk menyimpan gambar atau sebagai
postscript file dari baris perintah, seperti yang dijelaskan dalam
bagian plotting
255
256
BAB VIII
APLIKASI STATISTIKA MENGGUNAKAN
R-COMMANDER
257
Beberapa program pendukung R-Comannder antara lain :
a. RcmdrPlugin.Export
b. RcmdrPlugin.FactoMineR
c. RcmdrPlugin.HH
d. RcmdrPlugin.IPSUR
e. RcmdrPlugin.SurvivalT
f. RcmdrPlugin.TeachingDemos
g. RcmdrPlugin.epack
h. RcmdrPlugin.orloca
258
Grafik akan muncul dalam Jendela Perangkat Graphics secara
terpisah. Hanya grafik paling baru yang akan muncul. Anda dapat
menggunakan halaman atas dan halaman bawah tombol untuk
mengingat grafik sebelumnya. Penjelasan masing-masing tombol:
259
set
View : Memungkinkan Anda untuk melihat dataset aktif
data set
Model : Menunjukkan nama misalnya model yang aktif statistik
Model linier
Tombol: memungkinkan Anda untuk memilih di antara
model-model terbaru di memori
260
iv. Menentukan variabel (kolom) dengan mengklik dalam
kolom label dan kemudian pada kotak dialog yang
dihasilkan masukkan nama dan jenis. Dimana jenis dapat
berupa numerik (kuantitatif) atau karakter (kualitatif). Klik
x di sudut kanan untuk menutup kotak dialog ini.
261
dan kemudian impor sebagaimana tercantum dalam 8.2.2.
Bagaimana?
Dalam Excel: Office -> Save As pilih comma-delimited (.csv)
format file
262
ii. Jika Anda memiliki beberapa kelompok di klik meringkas
oleh kelompok-kelompok dan pilih variabel yang cocok->
OK
Memahami output:
mean : Ukuran tendensi sentral
sd : Standar deviasi - ukuran variabilitas dalam data
N : Jumlah pembacaan
NA : Jumlah nilai-nilai yang hilang
0% : minimum nilai
25% : Nilai di bawah yang 25 persen dari pengamatan
dapat ditemukan
50% : Nilai di bawah yang 50 persen dari pengamatan
dapat ditemukan.
75% : Nilai di bawah yang 75 persen dari pengamatan
dapat ditemukan.
100% : maksimum nilai
263
v. Apakah nilai rata-rata masuk akal? Apakah apa yang
Anda harapkan dari pengalaman sebelumnya?
vi. Mengidentifikasi outlier
Graphs -> Index Plot
vii. Pilih variabel yang menjadi perhatian
viii. Centang mengidentifikasi pengamatan dengan mouse
ix. Lihatlah output grafis dan klik mouse pada pengamatan
bahwa adalah outlier untuk itu nomor indeks.
264
Operators Fungsi Contoh
x*y Perkalian Variabel 3*Variabel 2
100*Variabel 1
x/y Pembagian Variabel 1/Variabel 2
Variabel 1 / 68
x^y X pangkat Y Variabel 1 ^ Variabel2
Variabel1^15
log10(x) Tranformasi Log10 Log10(Variabel 1)
log(x, base) Tranformasi Log pada base Log(Variabel 1, 2)
spesifik
265
ii. Pilih variabel
iii. Anda dapat menghasilkan variabel baru dengan
memasukkan nama dalam kotak "Nama variabel baru ...."
atau tetap menggunakan nama semula. Tingkat (level)
numerik dapat diberi nama. Akan muncul kotak dialog
untuk memasukkan nama untuk setiap nilai numerik.
iv. OK
266
Keterangan simbol yang dapat digunakan :
== : Kesamaan. Digunakan untuk
menyatakan kesamaan suatu variabel
!= : Ketaksamaan. Digunakan untuk
menyatakan ketaksamaan suatu variabel
& : Mengkombinasikan beberapa pernyataan
menngunakan ekspresi and
Or : Mengkombinasikan beberapa pernyataan
menngunakan ekspresi or
is.na(varname) : Menyertakan variabel yang tidak ada
datanya
!is.na(varname) : Membuang variabel yang tidak ada
datanya
> : Lebih dari
< : Kurang dari
>= : Lebih dari atau sama dengan
<= : Kurang dari atau sama dengan
267
http://www.harding.edu/fmccown/R/
http://www.statmethods.net/graphs/index.html
http://freshmeat.net/articles/creating-charts-and-graphs-with-gnu-r
http://www.ats.ucla.edu/stat/R/library/lecture_graphing_r.htm
8.6.2. Histogram
Dalam statistik, histogram adalah tampilan grafis dari
frekuensi. Langkah-langkah menampilkan histogram ;
a. Graph -> Histogram
b. Pilih variabel yang menarik
c. Pilih skala sumbu
d. Oke
268
8.6.4. Scatterplots
Langkah-langkah menyusun
a. Graph -> Scatterplot
b. Pilih variabel untuk sumbu x dan sumbu y
c. Masukkan nama untuk label sumbu x dan sumbu y label
d. Jika Anda ingin x atau sumbu y dapat login.
e. Jitter: ini berguna ketika ada banyak titik data untuk melihat
apakah mereka overlay, karena fungsi yang digunakan untuk
secara acak mengganggu poin tapi ini tidak mempengaruhi
pas baris.
f. Least-square line dapat dipilih agar sesuai dengan garis regresi
linier terbaik cocok.
g. Plot by group akan memungkinkan pilihan variabel kategori
seperti scatter plot dengan menggunakan warna untuk
membedakan kelompok .
h. Interpretasi output?
269
seperempat dari populasi sampel. Outliers, poin yang lebih dari 1,5
kisaran interkuartil (Q3-Q1) dari dari batas-batas interkuartil.
a. Pilih variabel yang menarik
b. Plot by groups: memungkinkan Anda untuk memiliki sisi
boxplots berdampingan dengan memisahkan variabel dengan
variabel kategoris.
c. Identify outliers with mouse (Mengidentifikasi outlier dengan
mouse) : Opsi ini memungkinkan Anda untuk membawa
lebih dari satu titik data outlier dan menentukan posisinya
dalam dataset.
d. OK
270
8.7. Menggunakan Comannder R untuk menerapkan uji statistik
8.7.1. Single sample t-Test (sampel tunggal t-Test)
Sampel tunggal t-Test menguji hipotesis nol bahwa rata-rata
populasi adalah sama dengan nilai yang ditentukan.
a. Statistics -> Means -> Single-Sample t-Test
b. Pilih variabel yang menarik
c. Masukkan rata-rata yang diusulkan (hipotesis Null: mu =)
d. Biasanya tingkat kepercayaan 0,95 digunakan.
e. Tiga hipotesis alternatif yang mungkin:
f. Rata-rata tidak sama dengan nilai tertentu
g. Rata-rata kurang dari nilai tertentu
h. Berarti ini lebih dari nilai tertentu
i. OK.
j. Interpretasi? Jika nilai p berada di bawah ambang batas
signifikansi, maka selisih mean tidak sama dengan 0.
271
dengan Welch t-Test dan dianggap lebih kuat. Jika ingin
menguji kesamaan variansi, dapat digunakan Test Levene.
g. OK.
h. Interpretasi? Jika nilai p berada di bawah ambang batas
signifikansi, maka ada perbedaan yang signifikan dalam
skor rata-rata untuk masing-masing dua kelompok.
272
Jika nilai p berada di bawah ambang batas signifikansi, maka
selisih mean tidak sama dengan 0. Rerata perbedaan menunjukkan
perbedaan rata-rata (variabel 1-variabel 2). Interval kepercayaan
95% adalah interval kepercayaan sekitar perbedaan berarti.
273
8.7.5. Membandingkan Varians
Untuk menguji apakah sampel yang berbeda memiliki
varians yang sama (homogenitas varians). Hipotesis nol adalah
bahwa varians adalah sama di semua kelompok. Ketika dihitung
nilai p berada di bawah ambang batas signifikansi (biasanya 0,05)
maka hipotesis nol ditolak dan hipotesis alternatif diterima bahwa
varians tidak sama di seluruh kelompok.
274
b. Statistics -> variance -> Levene~s test
c. Pilih variabel pengelompokan
d. Pilih variabel respon
e. oke
f. Interpretasi: Jika nilai p berada di bawah ambang batas
signifikansi, maka varians dalam kelompok tidak sama.
275
a. Statistics -> Non-parametric tests -> Two sample Wilcoxon
test
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Jika n adalah rendah (<50) maka yang tepat harus pilih
sebagai jenis uji.
e. Jika perbedaan pengobatan dapat terjadi baik dalam arah
(peningkatan atau penurunan) pilih uji dua sisi.
f. ok
g. Interpretasi: Bila nilai p berada di bawah ambang batas
signifikansi hipotesis nol ditolak dan hipotesis alternatif
diterima.
276
f. Interpretasi: Bila nilai p berada di bawah ambang batas
signifikansi hipotesis nol ditolak dan hipotesis alternatif
diterima.
8.8.3. Kruskal-Wallis
Tes ini merupakan metode non-parametrik untuk pengujian
kesetaraan median penduduk antar kelompok. Hal ini identik
dengan sebuah ANOVA dengan data diganti dengan barisan
mereka. Ini adalah perluasan dari uji Wilcoxon Dua sampel untuk 3
atau lebih kelompok.
a. Statistics -> Non-parametric tests -> Kruskal-Wallis test
b. Pilih variabel pengelompokan
c. Pilih variabel respon
d. Ok
277
8.9.1 Korelasi
Langkah-langkah melakukan analisis korelasi adalah sebagai
berikut
a. Pilih menu Statistics -> Summaries -> Correlation
b. Pilih variabel yang akan dikorelasikan dari kotak Variabel.
c. Pilih jenis korelasi yang sesuai (Pearson adalah default).
d. Klik tombol OK
278
g. Klik tombol OK
Ringkasan hasil akan muncul dalam jendela output.
279
c. Pilih sub menu Linear model
Kotak dialog Model Linear akan muncul
280
dengan seperangkat kurung didahului dengan I. I merupakan
fungsi yang melindungi komponen polinomial.
h. sama untuk menambahkan orde tinggi (3, 4, ...) hal
polinomial, ikuti langkah di atas, dengan menggunakan
kekuatan 3, 4, dll
i. Klik tombol OK
Ringkasan hasil akan muncul dalam jendela output.
281
e. Double klik pada variabel dependen dalam kotak Variabel.
Ini akan menambahkan variabel dependen untuk kotak teks
di sisi kiri bawah ~ Formula Model
f. Membangun model yang sesuai pada sisi kanan dari rumus
di bawah Model.
g. Anda juga harus menentukan konfigurasi awal.
h. Klik tombol OK
282
program lain) atau menyalin sebagai bitmap (jika tidak
berniat untuk memodifikasi grafik setelah itu disisipkan ke
program lain)
3. Beralih kontrol ke program lain baik menggunakan Alt-tab
atau Windows tombol navigasi dan paste grafik
B. Menyimpan (Save)
1. Klik pada grafik untuk diselamatkan. Ini akan mengubah
menu dan tombol Rgui
2. Dari menu RGui, pilih menu File
3. Pilih sub menu Save
4. Pilih salah satu submenu JPEG kualitas 100% (jika tidak
berniat untuk memodifikasi grafik setelah itu disisipkan ke
program lain) atau submenu Metafile (jika berniat untuk
mengubah / mengedit grafik setelah itu disisipkan ke
program lain
5. Gunakan kotak dialog Save As untuk memberikan nama
file dan path untuk grafik.
6. Klik tombol OK. Maka Grafik akan tersimpan.
283
4. Beralih kontrol ke program lain baik menggunakan Alt-tab
atau Windows tombol navigasi dan paste grafik
Catatan bahwa Anda juga dapat menyalin teks yang
disorot dengan menekan Alt-c kombinasi tombol.
B. Menyimpan (Save)
Untuk menyimpan semua hasil di jendela output Rcmdr ke
file
1. Pilih menu File
2. Pilih sub menu Save output as
3. Gunakan kotak dialog Save As untuk memberikan nama
file dan path untuk grafik.
4. Klik tombol OK. Hasil telah tersimpan.
Catatan, bahwa ketika Anda menyimpan hasil keluaran ke
file, semua hasil di jendela output akan disimpan, tidak
hanya teks yang disorot. jika Anda hanya tertarik pada
satu bagian kecil dari hasil output Anda hanya perlu
memotong bagian yang tidak diinginkan (baik sebelum
menyimpan, atau lambat dalam program pengolah kata -
seperti Word).
284
Save output…
Save output as…
Save R workspace…
Save R workspace as…
Exit
From Commander
From Commander and R
Edit
Cut
Copy
Paste
Delete
Find…
Select all
Undo
Redo
Clear Window
Data
New data set…
Load data set…
Import data
from text file, clipboard, or URL…
from SPSS data set…
from Minitab data set…
from ST‚T‚ data set…
from Excel, ‚ccess, or dbase data set…
Data in packages
List data sets in packages
285
Read data set from an attached
package…
Active data set
Select active data set…
Refresh active data set
Help on active data set (if applicable)
Variables in active data set
Set case names…
Subset active data set
Remove row s from active data set…
Stack variables in active data set…
Remove cases w/ missing data…
Save active data set…
Export active data set…
Manage variables in active data set
Recode variables…
Compute new variable…
Add observation numbers to data set
Standardize variables…
Convert numeric variables to factors…
‛in numeric variable…
Reorder factor levels…
Define contrasts for a factor…
Rename variables…
Delete variables from data set…
Statistics
Summaries
Active data set
286
Numerical summaries…
Frequency distributions…
Count missing observations
Table of statistics
Correlation matrix…
Correlation test…
Shapiro-Wilk test of normality…
Contingency tables
Two-way table…
Multi-way table…
Enter and analyze two-way table…
Means
Single-sample t-test…
Independent samples t-test…
Paired t-test…
One-way ‚NOV‚…
Multi-way ‚NOV‚…
Proportions
Single-sample proportion test…
Two-sample proportions test…
Variances
Two-variances F-test…
‛artlett s test…
Levene s test…
Nonparametric tests
Two-sample Wilcoxon test…
Paired-samples Wilcoxon test…
Kruskal-Wallis test…
287
Friedman rank-sum test…
Dimensional analysis
Scale reliability…
Principal-components analysis…
Factor analysis…
Cluster analysis
k-means cluster analysis…
Hierarchical cluster analysis…
Summarize hierarchical
clustering…
Add hierarchical clustering to
data set…
Fit models
Linear regression…
Linear model…
Generalized linear model…
Multinomial logit model…
Ordinal regression model…
Graphs
Color palette…
Index plot…
Histogram…
Stem-and-leaf display…
‛oxplot…
Quantile-comparison plot…
Scatterplot…
Scatterplot matrix…
Line graph…
288
XY conditioning plot…
Plot of means…
‛ar graph…
Pie chart…
3D graph
D scatterplot…
Identify observations with mouse
Save graph to file
Save graph to file
as bitmap…
as PDF/Postscript/EPS…
D RGL graph…
Models
Select active model
Summarize model
Add observation statistics to data
Confidence intervals
Akaike Information Criterion (AIC)
Bayesian Information Criterion (BIC)
Hypothesis tests
‚NOV‚ table…
Compare two models…
Linear hypothesis…
Numerical diagnostics
Variance-inflation factors
Breusch-Pagan test for
heteroscedasticity
Durbin-Watson test for autocorrelation
289
RESET test for nonlinearity
Bonferroni outlier test
Graphs
Basic diagnostic plots
Residual quantile-comparison plot
Component+residual plots
Added-variable plots
Influence plot
Effect plots
Distributions
Continuous distributions
Normal distribution
Normal quantiles…
Normal probabilities…
Plot Normal distribution…
Sample from Normal distribution…
t distribution
t quantiles…
t probabilities…
Plot t distribution…
Sample from t distribution…
Chi-squared distribution
Chi-squared quantiles…
Chi-squared probabilities…
Plot Chi-squared distribution…
Sample from Chi-squared distribution…
F distribution
F quantiles…
290
F probabilities…
Plot F distribution…
Sample from F distribution…
Exponential distribution
Exponential quantiles…
Exponential probabilities…
Plot Exponential distribution…
Sample from Exponential distribution…
Uniform distribution
Uniform quantiles…
Uniform probabilities…
Plot Uniform distribution…
Sample from Uniform distribution…
Beta distribution
‛eta quantiles…
‛eta probabilities…
Plot ‛eta distribution…
Sample from ‛eta distribution…
Cauchy distribution
Cauchy quantiles…
Cauchy probabilities…
Plot Cauchy distribution…
Sample from Cauchy distribution…
Logistic distribution
Logistic quantiles…
Logistic probabilities…
Plot Logistic distribution…
Sample from Logistic distribution…
291
Lognormal distribution
Lognormal quantiles…
Lognormal probabilities…
Plot Lognormal distribution…
Sample from Lognormal distribution…
Gamma distribution
Gamma quantiles…
Gamma probabilities…
Plot Gamma distribution…
Sample from Gamma distribution…
Weibull distribution
Weibull quantiles…
Weibull probabilities…
Plot Weibull distribution…
Sample from Weibull distribution…
Gumbel distribution
Gumbel quantiles…
Gumbel probabilities…
Plot Gumbel distribution…
Sample from Gumbel distribution…
Discrete distributions
Binomial distribution
‛inomial quantiles…
‛inomial tail probabilities…
‛inomial probabilities…
Plot ‛inomial distribution…
Sample from ‛inomial distribution…
292
Poisson distribution
Poisson quantiles…
Poisson tail probabilities…
Poisson probabilities…
Plot Poisson distribution…
Sample from Poisson distribution…
Geometric distribution
Geometric quantiles…
Geometric tail probabilities…
Geometric probabilities…
Plot Geometric distribution…
Sample from Geometric distribution…
Hypergeometric distribution
Hypergeometric quantiles…
Hypergeometric tail probabilities…
Hypergeometric probabilities…
Plot Hypergeometric distribution…
Sample from Hypergeometric distribution…
Negative binomial distribution
Negative binomial quantiles…
Negative binomial tail probabilities…
Negative binomial probabilities…
Plot Negative binomial distribution…
Sample from Negative binomial distribution…
Tools
Load package s …
Load Rcmdr plug-in s …
Options…
293
Help
Commander help
Introduction to the R Commander
Help on active data set (if applicable)
About Rcmdr
294
DAFTAR PUSTAKA
295
Nugraha J. (2003), ‚nalisis tabel kontigensi x Jurnal Eksata Vol.
5. No. 1. hal 1 – 15.
Nugraha J., Guritno S., Haryatmi S., , Pengaruh Korelasi
Antar Respon pada Model Multinomial Logit, Jurnal
Matematika dan Sains (JMS) Vol. 14 No. 3 - Agustus-2009,
FMIPA-ITB.
Nugraha, J (2010), Uji Goodness Of Fit Pada Model Pemilihan
Diskrit, Eksakta, Jurnal Ilmu-ilmu MIPA Vol 11. No. 1
Poole, J.H. (2009), Mate Guarding, Reproductive Success and
Female Choice in African Elephants, Animal Behavior 37 :
842-49
R Development Core Team (2009). R: A language and environment
for statistical computing. R Foundation for Statistical
Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org.
Rodriguez G. (2001), Generalized Linear Models, Princeton University
Train, K. (2003), Discrete Choice Methods with Simulation, UK Press,
Cambridge
Wibawati Y., Nugraha J., , Maximum Likelihood Estimation
Model Linear dan Log-Linear dalam Regresi Poisson,
Prosiding Seminar Nasional Matematika dan Pendidikan
Matematika di UNY ,
http://www.deh.gov.au/biodiversity/threatened/publications/recove
ry/leadbeaters-possum/index.html. Diakses tanggal 23 Maret
2012.
http://courses.washington.edu/b518/lectures/L26Poisson.pdf.
Diakses tanggal 17 Desember 2012
296
GLOSARIUM
297
Sensitifitas : probabilitas instrumen mengukur secara benar
berkaitan tentang keberadaan elemen/unsur dalam
sampel. Misalnya, probabilitas hasil uji adalah positif
jika alat diujikan pada pasien yang diketahui
mengidap penyakit.
Spesifikasi : probabilitas instrumen mengukur secara benar
berkaitan tentang tidak adanya keberadaan
elemen/unsur dalam sampel. Misalnya, probabilitas
hasil uji menyatakan negatif jika alat diujikan pada
pasien yang diketahui tidak mengidap penyakit
Statistik : sebarang nilai yang menjelaskan ciri sampel
Tabel kontigensi : merupakan satu bentuk distribusi frekuensi untuk dua
variabel atau lebih
Variabel : suatu karakteristik yang nilainya antar objek
pengamatan atau antar waktu pada objek yang sama
bisa berbeda beda
Variabel diskrit : variabel yang mempunyai kemungkinan nilai terbatas
(anggota domainnya terbatas)
Variabel : variabel yang kemungkinan nilainya tak terhitung
kontinu (bagian dari bilangan real)
Variabel : variabel yang nilainya dipengaruhi oleh variabel yang
dependen lain. yaitu variabel independen
Variabel : variabel yang nilainya berpengaruh terhadap nilai
independen variabel yang lain.
Variabel : Variabel yang nilai berupa bilangan real dan mengacu
random pada fungsi probabilitas yang merupakan observasi
dari suatu eksperimen
Ukuran asosisi : Untuk mengetahui derajad keeratan hubungan antara
dua faktor
298
PROFIL PENULIS
299