1
( x)
1 eg x
0
g(x)
OLEH:
MADE SUSILAWATI
BAB I
PENDAHULUAN
Analis data kategorik adalah analisis yang meliputi:
Secara lebih jelas, struktur analisis Statistika dilihat dari sekala pengukuran variabel-
variabelnya adalah:
Analisis ragam dipakai secara luas pada percobaan dalam bidang Pertanian dan
ilmu-ilmu Biologi, Analisis Regresi dipakai selain pada bidang pertanian juga pada bidang
Ekonomi. Sedangkan Analisis data Kategorik dipakai , misalnya: pada pertanian, contohnya
mengamati daya kecambah dari bibit jagung, amatanya adalah biji jagung, dan responnya
adalah tumbuh, mati. Contoh 2: pada klimatologi, mengamati hari hujan dalam sebulan,
misal: tanggal 1. → hujan
dst
maka responnya adalah hujan, tidak hujan. Contoh 3: pada bidang sosial, mengukur sikap
dan opini pada berbagai masalah dan karakteristik demografi, seperti: gender, ras dan kelas
2
sosial. Pada kedokteran, mengukur faktor-faktor seperti parahnya luka, tingkat keparahan
suatu penyakit, dll.
Skala Pengukuran
Skala pengukuran secara garis besarnya dapat dibagi dalam kategori data kategorik
dan data kontinu. Data diskrit diperoleh dari hasil membilang atau mencacah, misalnya
jumlah anak, jumlah anggota keluarga, sedangkan data kontinu diperoleh dari hasil
mengukur, misalnya hasil tanaman padi dalam ton/ha, nilai mutu rata-rata mahasiswa, dll.
Dari skala diskrit dan skala kontinu ini, skala pengukuran dapat dibagi dalam empat skala,
yaitu nominal, ordinal, interval dan rasio.
1. Skala Nominal
Skala yang tidak mempunyai level urutan, sifatnya hanya membedakan, misalnya: agama, jenis-
jenis transportasi, pilihan tempat tinggal, ras, gender, status kawin, dll.
2. Skala Ordinal
Skala yang mempunyai sifat membedakan dan mengurutkan, misalnya: kelas sosial (rendah,
menengah, tinggi), sikap (sangat tidak setuju, tidak setuju, setuju, sangat setuju).
3.Skala Interval
Skala yang mempunyai sifat membedakan, mengurutkan, dan mempunyai jarak numeric antara
dua level skala, misalnya: umur (0-3 tahun, 4-6 tahun, dll), pendapatan (0-Rp.500.000,-,
Rp.600.000,--Rp.1.000.000,-) dll.
4.Skala Rasio
Kelebihan skala ini dengan yang lainnya adalah mempunyai perbandingan, misalnya berat
badan, tinggi badan, dll.
Suatu variable bisa diukur berdasarkan metode statistika apa yang akan digunakan.
Misalnya pendidikan, akan mempunyai skala nominal bila diukur berdasarkan tipe pendidikan
(sekolah umum, sekolah khusus), dapat diukur dengan skala ordinal bila berdasarkan tingkat
3
pendidikan (pendidikan dasar, mengah, atas, universitas, Pascasarjana), dan menggunakan skala
interval jika diukur berapa lama pendidikannya (0,1,2,3,…).
Latihan
1.Dalam pernyataan berikut, bedakan antara variabel respon dan variabel bebas.
c. Warna kulit (putih, tidak putih); gender (laki-laki, wanita); keputusan dalam memilih partai
politik (Republik, Demokrat, lainnya); pendapatan.
d. Rumah sakit (A, B); perlakuan (T1, T2); keadaan pasien setelah berobat (sembuh, mati).
b. Tingkat pendidikan tertinggi yang diselesaikan (SD,SMP, SMA, S1, S2, S3)
3. Gambarkan sebuah rencana penelitian yang variabel responnya kategorik. Uraikan variabel-
variabel penting yang mendukung penelitian tersebut, bedakan antara respon dan variabel
penjelas. Untuk setiap variabel, tentukan skala pengukurannya.
4
BAB II
TABEL KONTINGENSI (Tabel dua arah)
Dalam survey biasanya menggunakan kuisioner sebagai alat untuk mengumpulkan data,
dengan tujuan untuk mendapatkan informasi. Jawaban dari responden kalau berupa jawaban
kategorik maka didapat respon kategorik. Hasil dari survey bila disajikan dalam bentuk tabel
akan diperoleh table kontingensi. Misalnya: pendapat siswa terhadap penerapan ujian nasional
didapat data sebagai berikut:
Tabel 2.1. Tabel Kontingensi pendapat responden terhadap wanita bekerja malam hari
Setuju 78 28 106
Tidak Setuju 17 60 77
Jumlah 95 88 185
Tabel 2x2 seperti di atas merupakan yang paling sederhana dari table silang secara umum.
Kategori B
Kategori A B1 B2 Jumlah
fij = frekuensi amatan, yaitu banyaknya responden yang termasuk dalam kategori atau sel (i,j)
atau jumlah subyek atau obyek dalam sampel kita yang jatuh dalam variasi kategorik pada
variable yang diamati. f0j atau fi0 = total marjinal pada lajur/baris responden.
5
Ada dua kemungkinan cara peneliti sampai pada table kontingensi tertentu:
1. Peneliti mengambil responden sebanyak f00, kemudian dari jawaban responden dilakukan
klasifikasi. Hal ini akan membawa kita pada pengujian: apakah antara dua klasifikasi A
dan B ada saling ketergantungan? (Uji Kebebasan)
Jika A dan B bebas maka jawaban responden terhadap pertanyaan A tidak tergantung
f11 f
terhadap jawaban pertanyaan B, sehingga dapat diharapkan: 21 demikian pula
f10 f 20
f11 f
12
f 01 f 02
Untuk itu perlu pengujian hipotesis tentang kebebasan A terhadap B. Misalkan Pij adalah peluang
individu masuk ke dalam kategori/sel (i,j) maka untuk setiap sel didapat:
Kategori B
Kategori A B1 B2 Jumlah
A1 P11 P12 P10
A2 P21 P21 P20
Jumlah P01 P02 P00
f11 f 01 f f 21
Dengan: P11 dan P01 11
f 00 f 00 f 00
P11 P12
Jika A dan bebas maka: , Artinya P(AiBj) = P(AiBj)
P01 P02
6
f i1 f i 2 f1 j f 2 j
PB j
f f0 j
P Ai i 0 Pi 0 dan P0 j
f ij f 00 f ij f 00
Pij didapat dari populasi, sehingga sangat jarang bisa mengetahui Pij . Karena itu nilai Pij diduga
f f f f
Pˆ11 11 ; Pˆ12 12 ; Pˆ21 21 ; Pˆ22 22
f 00 f 00 f 00 f 00
Dengan didapat dugaan dari Pij, selanjutnya perlu dihitung frekuensi harapan. Frekuensi harapan
adalah jumlah subyek atau obyek dalam sampel yang diambil yang diharapkan untuk diobservasi
jika hipotesi nol tentang variable tersebut benar, maka frekuensi harapannya adalah
f10 . f 01
Sel(1,1) e11 P11 f 00 P10 .P01 f 00
f 00
f10 . f 02
Sel(1,2) e12 P12 f 00 P10 .P02 f 00
f 00
f 20 . f 01
Sel(2,1) e21 P21 f 00 P20 .P01 f 00
f 00
f 20 . f 02
Sel(2,2) e22 P22 f 00 P20 .P02 f 00
f 00
Sehingga kita memiliki frekuensi amatan dan frekuensi harapan, dan ini menjadi dasar untuk
menguji apakah A dan B bebas atau tidak. Jika f (frekuensi amatan) dan e (frekuensi harapan)
sangat berbeda, maka cenderung menganggap A dan B tidak bebas, sebaliknya jika f dan e mirip
(nilai hamper sama), maka cenderung menganggap A dan B bebas. Uji bagi kebebasan antara A
dan B adalah uji χ2, dengan hipotesis:
H 0 : Pij Pi 0 .P0 j
H 1 : Pij Pi 0 .P0 j
7
f eij
2
tabel
2 ij 2
hit ( db, ) (2.1)
eij
Dengan db = (r-1)(k-1).
Teladan 1.
Lihat table 1.1. kita akan melakukan uji kebebasan, dengan hipotesisnya adalah:
H0: Pendapat setuju atau tidak setuju, tidak berkaitan dengan jenis kelamin responden
(106)(88) (77)(88)
e12 50,97 e22 37,03
183 183
hit
2
=47,39
Nilai hit
2
nya adalah: 47,39, dengan tabel
2
(1; 0, 05 ) 3,84; Karena hit
2
χ2 tabel
Maka H0 ditolak, artinya ada kaitan antara jenis kelamin dengan pendapat setuju tidak setuju.
Tetapi dengan uji ini tidak berarti bahwa factor yang satu bergantung dari atau penyebab dari
atau mengakibatkan factor lain.
Dengan N= a+b+c+d
Catatan
1 2
N ( ad bc N)
Yates
2
2 (2.3)
(a b)(b d )(c d )( a c)
Teladan 2.
Suatu penelitian tentang peran serta karyawan dalam membuat keputusan manajemen, missal ada
system manajemen (setuju, tidak setuju). Data yang terkumpul adalah sebagai berikut:
Tabel 2.5. Data Frekuensi Peran serta Karyawan dalam Membuat Keputusan Manajemen
Peran Serta
Setuju 7 6 13
Tidak Setuju 47 25 72
9
Jumlah 54 31 85
Jika nilai harapan setiap sel dihitung, terlihat bahwa sel (1,2) mempunyai nilai harapan 4,74
kurang dari 5, karena itu pengujiannya menggunakan statistic uji Yates
2
1
85( 7 25 6 47 85) 2
Yates
2
2 0,226
13 72 54 31
2.Penelitian dilakukan untuk mengetahui pendapat masyarakat mengenai pernikahan dini, diduga
pendapat orang muda (remaja) berbeda dengan pendapat orang tua (dewasa); Rumuskan variable
yang terlibat dalam penelitian di atas dan tuliskan hipotesis penelitiannya.
10
BAB III
PENGUKURAN TERJADINYA PERISTIWA
1. PREVALENSI
Prevalensi suatu peristiwa atau kasus tertentu (penyakit, kematian, dsb), didefinisikan
sebagai banyaknya kasus tersebut yang telah atau tercatat pada saat tertentu atau titik waktu
tertentu. Angka prevalensi suatu kasus didefinisikan sebagai rasio antara prevalensi kasus
tersebut dengan jumlah seluruh individu yang mempunyai risiko, yang dinyatakan sebagai
individu berisiko, pada suatu titik waktu.
Jika jumlah kasus yang diobservasi (terdaftar atau tercacah) pada suatu titik waktu dalam
suatu wilayah sebanyak n dan seandainya diketahui seluruh individu berisiko sebanyak N, maka
prevalensi kasus tersebut adalah n, dan angka prevalensi di wilayah itu adalah:
Di mana k menyatakan faktor pengali yang ditentukan dan telah disepakati untuk kasus tersebut.
2. UKURAN ASOSIASI
Maka V1 bisa merupakan penyebab dari V2 , bisa juga merupakan akibat dari V2.
b. Misal, V3 = pendidikan
V4 = Pekerjaan
Maka V3 dapat merupakan penyebab mendapat V4, bisa juga merupakan akibat dari V4.
2. Hubungan searah
11
V3 = pendidikan ibu
Maka V1 merupakan penyebab dari V2, begitu pula V3 merupakan penyebab dari V2, tetapi
bukan sebaliknya.
b. Misal, V4 = pendapatan
a. Misal, penolong persalinan (1. Dokter, 2. Bidan, 3. Dukun) dengan berat badan bayi
saat lahir.
b. Pemilik usaha memelihara anjing atau tidak, dengan status kreditnya (0. Macet,
1. Tidak).
Kelompok Peristiwa
1.Ya 2. Tidak Total
1. Kasus d1 h1 n1
2. Kontrol d0 h0 n0
Total d h n
Perbedaan resiko digunakan untuk melihat seberapa besar resiko pada kelompok kasus menurun
atau meningkat bila terjadi peristiwa ya. RD dihitung dengan rumus:
RD = P1 – P0
12
d1
Dengan P1 adalah proporsi dalam kasus pada peristiwa ya
n1
d0
Dan P0 adalah proporsi dalam kontrol pada peristiwa ya
n0
Nilai RD yang negative menunjukkan resiko yang menurun pada kelompok kasus pada
peristiwa ya, sedangkan nilai RD yang positif menunjukkan resiko yang meningkat pada
kelompok kasus pada peristiwa ya.
CI p1 p0 z s.e. p1 p0
Dengan z’ adalah nilai peluang di bawah sebaran normal untuk α yang ditetapkan.
s.e. p1 p0 p1 1 p1 n1 p0 1 p0 n0 s.e. p
1
2
s.e. p0 ………………………… (3.2)
2
Statistik uji yang digunakan untuk membandingkan dua proporsi berdasar pada normal tes, yaitu:
p1 p0
z
s.e. p1 p0
Hipotesis yang diuji adalah H0 = perbedaan resiko adalah nol atau sama, versus
Contoh
Kelompok Influensa
1.Ya 2. Tidak Total
Vaksin 20 (8,3%) 220 (91,7%) 240
Kontrol 80 (36,4%) 140 (63,6%) 220
Total 100 (21,7%) 360 (78,3%) 460
Nilai -0.281 menunjukkan resiko terinfeksi influenza akan menurun sebesar 0.281 bila diberi
vaksin.
Selang kepercayaan untuk perbedaan resiko terkena influensa yang divaksin dengan tidak
divaksin adalah: s.e. p1 p0 0.0831 0.083 240 0.3641 0.364 220 0.037
CI p1 p0 z s.e. p1 p0
Interpretasinya adalah: kita percaya 95% bahwa populasi yang di vaksin akan berkurang
resikonya terinfeksi influenza sebesar 0.208 sampai 0.353.
p1 p0
z
s.e. p1 p0
Bila dibandingkan dengan z tabel (α = 0.05) = 1.96 maka Ho di tolak, ini menunjukkan adanya
pengurangan resiko yang signifikan pada populasi yang divaksin terinfeksi influenza.
14
p1 d d
Berdasarkan Tabel 2.1. RR dihitung dengan rumus: RR dengan P1 1 dan P0 0
p0 n1 n0
P1 sering disebut sebagai resiko pada kelompok kasus atau kelompok percobaan, sedangkan p0
disebut sebagai kelompok control.
Nilai RR = 1 terjadi jika resiko pada kelompok kasus dan control sama, ini sama artinya tidak
ada asosiasi antara resiko pada kasus dengan resiko pada control. Nilai RR > 1 terjadi ketika
resiko terjadinya peristiwa pada kasus lebih besar dibandingkan dengan control. Dan Nilai RR <
1 terjadi ketika resiko terjadinya peristiwa pada kasus lebih kecil dibandingkan dengan control.
Perbedaan nilai RR dengan RD adalah RR lebih umum digunakan untuk mengukur kekuatan
asosiasi/hubungan daripada RD. Ini dikarenakan RR lebih menunjukkan seberapa kali resiko
kasus terhadap control.
Contoh
Kembali pada kasus influensa dengan data pada Tabel 2.2, penghitungan nilai RR diperoleh
0.028
RR 0.077
0.364
Karena sering kali nilai s.e.(RR) sangat besar, sedangkan RR sangat kecil yang menyebabkan
pengurangan RR terhadap z s.e.RR bernilai negative, maka rumus CI ditransformasi menjadi
log RR
Pengujian Hipotesis untuk RR adalah: z
s.e.log RR
15
5. ODDS RATIO/OR
Dapat dilihat bahwa d1/h1 menyatakan rasio antara jumlah orang yang sakit dalam kelompok
kasus. Rasio ini adalah sebuah statistik yang menyatakan kecendrungan (odd) sakit dalam
kelompok kasus. Dengan keterangan yang sama rasio d0/h0 menyatakan kecendrungan sakit
dalam kelompok control. Selanjutnya, statistik rasio relative (odds ratio) didefinisikan sebagai
d d d h
berikut: OR 1 : 0 1 0 .......................... (3.3)
h1 h0 d 0 h1
Karena OR merupakan rasio antara kecendrungan sakit dalam kelompok kasus dangan kelompok
kontrol, dengan kata lain, kelompok kasus mempunyai risiko sebesar OR kali kelompok kontrol.
Contoh
Penduduk suatu desa sama-sama memiliki peluang yang sama untuk terkena infeksi
semacam virus. Setelah epidemik berlalu, diambil sebuah sampel acak dari orang-orang yang
tidak disuntik dan disuntik, lalu yang terkena infeksi dicacat. Hasil pengamatan diberikan di
bawah ini:
Tabel 3.3. Keadaan Terkena Infeksi Virus pada Kelompok Kasus dan Kelompok Kontrol
Kelompok Peristiwa
1.Tidak disuntik 37 42
1. Disuntik 12 29
37
menyatakan nilai odds yang berarti rasio antara jumlah yang terinfeksi dengan jumlah yang
42
12
tidak terinfeksi dalam kelompok tidak disuntik. menyatakan rasio antara jumlah yang
29
terinfeksi dengan jumlah yang tidak terinfeksi dalam kelompok disuntik. Sehingga resiko relative
37 12
atau OR adalah: OR / 2,13
42 29
16
Nilai 2,13 berarti rasio antara kecendrungan terinfeksi dalam kelompok tidak disuntik dengan
kelompok disuntik sebesar 2,13. Atau dapat dikatakan bahwa kelompok masyarakat yang tidak
disuntik mempunyai risiko terinfeksi virus sebesar 2,13 kali kelompok masyarakat yang disuntik.
Untuk melakukan estimasi dan pengujian hipotesis, statistik OR ini pada umumnya
diperhatikan sebagai logaritma natural dari OR yang diobservasi, yaitu:
1 1 1 1
s(ln OR ) ......................... (3.5)
a b c d
Hipotesis untuk mempelajari perbedaan resiko antara kedua kelompok tertentu adalah
ln(OR)
Z hit ........................... (3.6)
s(ln OR )
Teladan 2.
Tabel di bawah menunjukan data hipotesis suatu eksperimen dengan pelakuan, dimana terdapat
444 subjek dalam kelompok kasus yaitu diberi pelakuan dan 6025 sabjek dalam kelompok
Kontrol. Dalam teladan ini diperhatikan peristiwa berdampak negative terhadap subyek
penelitian, seperti kematian, kegagalan dan sebagainya.
17
Pristiwa
Jawab
1. Perhitungan
*ln(OR) = ln(9)-ln(435)-ln(42)+ln(5983)
= 1,08089
1 1 1 1
s(ln OR ) 0,370567
9 435 42 5983
1,08089
Z hit 2,917
0,370567
Kesimpulan: Tolak H0, artinya kelompok kasus dan kelompok kontrol mempunyai
perbedaan risiko yang signifikan untuk mengalami peristiwa tertentu.
Latihan
Kelompok Peristiwa
1.Berkurang 2. Tidak
1. Diazepam 2 81
2. Kontrol 14 72
Pertanyaan:
b. Uji Hipotesis:
H0 : ln (OR) = 0
H1 : ln (OR) ≠ 0
BAB IV
MODEL LOG LINIER
Metode regresi merupakan metode statistika yang memanfaatkan hubungan antara dua
atau lebih peubah kuantitatif sehingga satu peubah bisa diramalkan dari peubah lainnya (Neter
dan Kutner, 1997). Secara umum model regresi linear dengan suku sisaan menyebar normal
dengan rataan nol dan ragam satu dapat dituliskan sebagai berikut:
i 0 1 i1 2 i 2 ... p ip i
Dengan asumsi menyebar normal dengan rataan 0 dan ragam 1, maka fungsi respon untuk
1 , 2 ,..., p 0 1 1 ... p p , (4.1)
model regresi linear umum dengan suku sisaan menyebar normal berimplikasi bahwa amatan-
amatan i adalah peubah acak normal yang bebas, dengan rataan i dengan ragam konstan
2.
Dalam penggunaan metode regresi linear terdapat beberapa asumsi yang harus dipenuhi
seperti kehomogenan ragam dan kenormalan sisaan. Asumsi kehomogenan ragam dan
kenormalan sisaan mendasari penggunaan metode kuadrat terkecil untuk menduga parameter
model regresi. Selain asumsi-asumsi tersebut penggunaan skala pengukuran juga harus
diperhatikan karena pada metode regresi linear peubah tak bebas merupakan peubah kontinu
(Agresti,1990).
20
dapat diterapkan, selain karena asumsi kehomogenan ragam dan kenormalan sisaan yang tidak
terpenuhi juga disebabkan karena peubah tak bebas dalam bentuk biner walaupun asumsi
Model log-linear merupakan suatu model yang merepresentasikan hubungan antara dua
peubah atau lebih dimana semua peubah bersifat kategorik dan kesahihan dari model-modelnya
Suatu penelitian jika berhadapan dengan suatu data yang bukan merupakan hasil
pengukuran tetapi berupa data frekuensi atau jumlahan pengamatan dari suatu peubah kategorik
yang bersifat diskrit, maka analisis statistik yang sesuai adalah analisis data kategori yaitu
analisis log-linear (Agresti, 2007). Analisis log-linear digunakan untuk mengetahui ada tidaknya
hubungan antar peubah yaitu dengan menggunakan uji ketergantungan dan memodelkan pola
hubungan antar peubah. Pada model log-linear akan dapat diketahui sel mana yang cenderung
Salah satu cara untuk menyajikan data kualitatif adalah dengan menyatakan masing-
masing kategori dari peubah yang satu dalam kategori-kategori peubah lain. Tabel yang
Suatu tabel kontingensi dikatakan mempunyai dua dimensi apabila tabel tersebut
mencatat data hasil pengamatan dengan melibatkan dua peubah, yaitu X dan Y (Christensen,
21
1997). Peubah X (peubah bebas) terdiri dari I kategori, dan peubah Y (peubah tak bebas) terdiri
dari J kategori. Jadi tabel kontingensinya berukuran I × J. Sel yang dibentuk dalam baris ke-i
dan kolom ke-j mempunyai frekuensi pengamatan nij . Tabel 4.1 menunjukkan frekuensi
pengamatan tabel kontigensi dua dimensi. Jika peluang pengamatan pada baris ke-i kolom ke-j
nij
dinyatakan dengan Pij , maka peluang tiap-tiap sel dalam tabel kontigensi ditunjukkan
n
Y1 Y2 … … … YJ Total
X1 n11 n12 … … … n1J n1
X2 n 21 n 22 … … … n2 J n 2
.. ..
.. … … … … … … ..
.. ..
XI nI1 nI 2 … … … n IJ nI
Total n1 n 2 … … … n J n
Y1 Y2 … … … YJ Total
Model log-linear dapat digunakan untuk mengetahui ada tidaknya hubungan antara
peubah pada data kategori, serta dapat menunjukkan kelas mana yang menjadi penyebab
terjadinya hubungan (Agresti, 1990). Jadi, dapat dikatakan bahwa model log-linear merupakan
mij N Pi P j
Jika dijumlahkan semua baris I, maka akan didapatkan persamaan sebagai berikut:
I I
log m
i 1
ij I log N log Pi I log P j
i 1
(4.3)
J J
Apabila persamaan (4.3) dan (4.4) dijumlahkan, maka akan diperoleh persamaan:
I J I J
I
J
log Pi log P j
ambil: U log N i 1 j 1
I J
I
log P i
U 1i log Pi i 1
log P
j 1
j
U 2 j log P j
J
23
I J
dengan ketentuan U 1 j dan U 2 j memenuhi U U 0
i 1
1i
j 1
2 j
dimana:
Model dalam persamaan (4.6) berarti bahwa ada dua buah peubah dalam satu model
dimana antara peubah pertama dengan peubah kedua tidak ada kecenderungan/hubungan. Untuk
model dua dimensi, dalam model jenuh akan terjadi interaksi antara kedua peubah, dan model
dimana U 12 ij menyatakan pengaruh interaksi antara kategori ke-i peubah pertama dengan
I J
kategori ke-j peubah kedua, dan U 12 ij memenuhi ketentuan U
i 1 j 1
12 ij 0.
Derajat bebas yang digunakan adalah jumlah seluruh sel dikurangi dengan jumlah
parameter yang dihitung (Powers, 1999). Untuk tabel log-linear dua dimensi ditunjukkan
sebagai berikut:
24
Tabel tiga dimensi terdiri dari tiga peubah X, Y, dan Z, masing-masing peubah
mempunyai kategori I, J, dan K, dan antara ketiga peubah saling bebas, maka estimasi frekuensi
mˆ ijk N .Pˆijk
n n j n k
mˆ ijk N i
N N N
n i n j n k
mˆ ijk (4.8)
N2
Jika kedua ruas persamaan (4.8) dinyatakan dalam bentuk logaritma, maka estimasi nilai
harapannya adalah:
dalam model terdapat tiga peubah, dan antar peubah tidak ada interaksi, dimana:
1 I J K
U log mˆ ijk
IJK i 1 j 1 k 1
1 J K
U U 1i log mˆ ijk
JK j 1 k 1
1 I K
U U 2 j log mˆ ijk
IK i 1 k 1
I J
1
U U 3 k
IJ
log mˆ
i 1 j 1
ijk
I J K
U U U 0 .
i 1
1i
j 1
2 j
k 1
3k
Pada model tiga dimensi, dalam model jenuh akan terjadi interaksi antara ketiga peubah,
log mijk U U1i U 2 j U 3k U12 ij U13ik U 23 jk U123 ijk (4.11)
Model pada persamaan (4.11) mempunyai asumsi yang harus dipenuhi adalah
I J I K J K I J K
U
i 1 j 1
12 ij U 13 ik U 23 jk U 123 ijk 0 ,
i 1 k 1 j 1 k 1 i 1 j 1 k 1
dimana:
n i = jumlah pengamatan pada baris ke-i
n j = jumlah pengamatan pada baris ke-j
nk = jumlah pengamatan pada baris ke-k
N = jumlah seluruh pengamatan
m̂ijk = estimasi nilai harapan pada baris ke-i, baris ke-j, baris ke-k
P̂ijk = estimasi peluang pada baris ke-i, baris ke-j, baris ke-k
P̂i = estimasi peluang baris ke-i
26
Model Log linier untuk tabel empat dimensi merupakan perluasan dari tabel tiga dimensi.
dimensi terdiri dari empat peubah W, X, Y, dan Z, masing-masing peubah mempunyai kategori
I, J, K, dan L, dan antara keempat peubah saling bebas, maka estimasi frekuensi harapan dari
mˆ ijkl N .Pˆijkl
n n j n k nl
mˆ ijkl N i
N N N N
n i n j n k n l
mˆ ijkl (4.12)
N3
Jika kedua ruas pada persamaan (4.12) dinyatakan dalam bentuk log-aritma, maka
Pada model empat dimensi, dalam model jenuh akan terjadi interaksi antara keempat peubah,
Model pada persamaan (4.14) mempunyai asumsi yang harus dipenuhi adalah
I J I K I L J K J L
U
k 1 l 1
34 kl U 123 ijk U 124 ijl U 134 ikl
i 1 j 1 k 1 i 1 j 1 l 1 i 1 k 1 l 1
J K L I J K L
U
j 1 k 1 l 1
234 jkl U 1234 ijkl 0
i 1 j 1 k 1 l 1
Derajat bebas yang digunakan adalah jumlah seluruh sel dikurangi dengan jumlah
parameter yang dihitung (Powers, 1999). Untuk tabel log-linear empat dimensi ditunjukkan
sebagai berikut:
U 1
U1i I-1
U 2 j J-1
U 3 k K-1
U 4 l L-1
U 12 ij (I-1)(J-1)
U13ik (I-1)(K-1)
U 14 il (I-1)(L-1)
U 23 jk (J-1)(K-1)
U 24 jl (J-1)(L-1)
28
U 34 kl (K-1)(L-1)
Total IJKL
Estimasi nilai harapan untuk tabel lengkap dalam analisis log-linear dapat dibedakan
I J K
dengan asumsi yang harus dipenuhi yaitu U 1i U 2 j U 3k 0 , dan estimasi nilai
i 1 j 1 k 1
harapannya:
n i n j n k
mˆ ijk
N2
Model dalam persamaan (4.15) menjelaskan bahwa tidak terdapat interaksi antar peubahnya
b. Jointly Independent
Ada tiga macam model yang termasuk dalam jointly independent, yaitu:
I J K I J
dengan asumsi U 1i U 2 j U 3k U 12 ij 0 ,
i 1 j 1 k 1 i 1 j 1
dan estimasi nilai
harapannya:
nij n k
mˆ ijk
N2
Model dalam persamaan (4.16) menyatakan adanya hubungan antara peubah pertama dan
I J K I K
dengan asumsi U 1i U 2 j U 3k U 13ik 0 ,
i 1 j 1 k 1 i 1 k 1
dan estimasi nilai
harapannya:
ni k n j
mˆ ijk
N2
Model dalam persamaan (4.17) menyatakan adanya hubungan antara peubah pertama dan
I J K J K
dengan asumsi U U U U
i 1
1i
j 1
2 j
k 1
3k
j 1 k 1
23 jk 0 , dan estimasi nilai
harapannya:
n jk ni
mˆ ijk
N2
30
Model dalam persamaan (4.18) menyatakan adanya hubungan antara peubah kedua dan
c. Conditionally Independent
Ada tiga macam model yang termasuk dalam conditionaly independent, yaitu:
(i) Model: log mijk U U1i U 2 j U 3k U12 ij U13ik (4.19)
dengan asumsi:
I J K I J I K
harapannya:
nij nik
m̂ijk
n i
Model dalam persamaan (4.19) menyatakan adanya hubungan antara peubah pertama
dengan peubah kedua, dan peubah pertama dengan peubah ketiga. Sedangkan antara
peubah kedua dan peubah ketiga saling bebas. Sehingga yang menyebabkan hubungan
(ii) Model: log mijk U U1i U 2 j U 3k U12 ij U 23 jk (4.20)
dengan asumsi:
I J K I J J K
harapannya:
nij n jk
m̂ijk
n j
Model dalam persamaan (4.20) menyatakan adanya hubungan antara peubah pertama
dengan peubah kedua, dan peubah kedua dengan peubah ketiga. Sedangkan antara
31
peubah pertama dengan peubah ketiga saling bebas. Sehingga yang menyebabkan
dengan asumsi:
I J K I K J K
harapannya:
nik n jk
mˆ ijk
n k
Model dalam persamaan (4.21) menyatakan adanya hubungan antara peubah pertama
dengan peubah ketiga, dan peubah kedua dengan peubah ketiga. Sedangkan antara
peubah pertama dengan peubah kedua saling bebas. Sehingga yang menyebabkan
Model: log mijk U U1i U 2 j U 3k U12 ij U13ik U 23 jk (4.22)
dengan asumsi:
I J K I J I K J K
nilai harapannya:
nij nik n jk
mˆ ijk
n i n j n k
Model dalam persamaan (4.22) menyatakan adanya hubungan antara peubah pertama dengan
peubah kedua, peubah pertama dengan peubah ketiga, dan peubah kedua dengan peubah
ketiga.
32
e. Model Jenuh
Model jenuh adalah model yang didalamnya memuat semua parameter bebas dan juga
semua kemungkinan interaksi antar peubah yang terjadi, sehingga model tersebut tidak dapat
log mijk U U1i U 2 j U 3k U12 ij U13ik U 23 jk U123 ijk
Pada model jenuh, frekuensi pengamatan sama dengan estimasi frekuensi harapan.
Cara yang digunakan untuk memperoleh estimasi dengan cara tidak langsung adalah
Model ini menyatakan bahwa terdapat interaksi dua faktor. Tetapi dalam model tidak
terdapat interaksi antara ketiga peubah U 123 ijk 0 . Dengan kata lain, dalam model terdapat
asosiasi parsial. Untuk mendapatkan estimasi nilai harapan harus dilakukan prosedur iterasi
sebagai berikut:
0
1. Ambil mˆ ijk 1 , untuk setiap ijk
Untuk U 1 maka:
3U 3 n jk 3U 2
4. mˆ ijk 3U 2 mˆ ijk
mˆ jk
33
5. langkah 1 sampai 4 diulang untuk U 1,2,..... sampai konvergen atau mencapai nilai tertentu
sesuai tingkat ketelitian yang diinginkan. Setelah kondisi konvergen dicapai, maka akan
nij nik n jk
mˆ ijk
n i n j n k
hubungan antara dua peubah yang telah ditetapkan (Christensen, 1997). Dalam tabel dua dimensi
yang mempunyai peubah X dan peubah Y dengan banyaknya baris I dan kolom J, maka hipotesis
H 0 : Pij P i P j (tidak ada hubungan asosiasi antara peubah X dan peubah Y atau
independen)
H 1 : Pij Pi P j (ada hubungan asosiasi antara peubah X dan peubah Y atau dependen)
dimana:
Pi = peluang pengamatan baris ke-i
P j = peluang pengamatan kolom ke-j
i = 1, 2,……,I
j = 1, 2, ……,J
Maka uji statistik yang sesuai adalah Chi-Square Pearson, dimana estimasi nilai harapannya
ni n j
mˆ ij (4.23)
n
I J n mˆ ij
2
2 ij
(4.24)
mˆ ij
hitung
i 1 j 1
34
dimana:
nij = frekuensi pengamatan pada baris ke-i kolom ke-j
ni = frekuensi pengamatan pada baris ke-i
n j = frekuensi pengamatan pada kolom ke-j
n = N = jumlah seluruh pengamatan
i = 1,2, ……, I
j = 1, 2, ……,J
hitung
2
, I 1 J 1) . Untuk tabel tiga dan tabel empat dimensi, pengujian independensi memiliki
model) (Agresti, 1990). Residual adalah selisih antara nilai pengamatan dan nilai harapan dari
nij mˆ ij
eij (4.25)
mˆ ij
12
sedangkan nilai adjusted residual rij adalah residual dibagi dengan akar estimasi varian dari
residual.
nij mˆ ij
rij
mˆ 1 P 1 P
ij i j
1
2
Suatu estimasi dikatakan cukup baik jika nilai adjusted residualnya mendekati distribusi
normal dengan nilai 0 dan 2 1 , atau berdistribusi normal N 0,1 . Apabila mengambil
5%, maka 95% dari nilai adjusted residual yang masih diijinkan terletak -1,96 sampai
35
+1,96. Pada tabel tiga dimensi dan empat dimensi, pengujian residual memiliki cara yang sama
Uji kesesuaian model atau Goodness of Fit Test merupakan dasar peluang untuk
membandingkan dan menentukan ada tidaknya kesenjangan antara pengamatan dengan model
Pada uji rasio likelihood G 2 , nilai pengamatan dinotasikan dengan nijk dan nilai
I J K I J K
G 2 2 nijk log mˆ ijk nijk log nijk
i 1 j 1 k 1 i 1 j 1 k 1
I J K mˆ ijk
G 2 2 nijk log
i 1 j 1 k 1 nijk
I J K nijk
G 2 2 nijk log (4.26)
i 1 j 1 k 1 mˆ ijk
Apabila model yang ditentukan benar dan N cukup besar, maka baik hitung
2
atau G 2
mendekati distribusi 2 dengan derajat bebas sama dengan jumlah sel dikurangi jumlah
parameter bebas yang masuk model. Berikut ini akan disajikan tabel derajat bebas untuk tabel
tiga dimensi:
36
U 1
U1i I-1
U 2 j J-1
U 3 k K-1
U 12 ij (I-1)(J-1)
U13ik (I-1)(K-1)
U 23 jk (J-1)(K-1)
U 123 ijk (I-1)(J-1)(K-1)
Total IJK
Sumber: Agresti (1990)
Dalam model log-linear, G 2 hampir sama dengan jumlah kuadrat sisaan (Sum Square
Error) dalam regresi linear (Christensen, 1997). Jika X 0 merupakan model jenuh dan X
G 2 X 0 G 2 X
R
2
(4.27)
G 2 X 0
dimana G 2 X dan G 2 X 0 adalah rasio likelihood untuk menguji model X dan model X 0
terhadap model jenuh. Untuk tabel empat dimensi, uji kesesuaian model memiliki cara yang
Seleksi model dilakukan untuk memperoleh model terbaik (Garson, 2009). Seleksi model
dalam analisis model log-linear dapat dilakukan dengan beberapa pendekatan, antara lain:
Uji ini digunakan untuk mengetahui interaksi K suku atau lebih yaitu lebih tinggi sama
dengan nol dan sama dengan nol. Uji pengaruh ke-K (Test of K-way effects) dibagi menjadi dua,
yaitu:
a. Uji Pengaruh ke-K atau lebih sama dengan nol (Test that K-way and higher order effects are
zero)
Uji ini berdasarkan pada hipotesis bahwa pengaruh orde ke-K atau lebih sama dengan
nol. Uji dimulai dari orde tertinggi sampai dengan orde terendah. Pada model log-linear
H1 : H 0
H1 : H 0
H1 : H 0
H1 : H 0
Statistik uji yang digunakan adalah nilai likelihood rasio chi-square G 2 . Apabila
b. Uji Pengaruh ke-K sama dengan nol (Test that K-way effects are zero)
Uji ini berdasarkan pada hipotesis bahwa pengaruh orde ke-K sama dengan nol. Pada
H1 : H 0
38
H1 : H 0
H1 : H 0
H1 : H 0
Statistik uji yang digunakan adalah nilai likelihood rasio chi-square G 2 . Apabila
Uji ini bertujuan untuk menguji hubungan antara dua peubah dalam tiap level peubah
lainnya.
Hipotesisnya adalah:
H 0 : pengaruh interaksi peubah satu atau peubah dua sama dengan nol.
H 1 : pengaruh interaksi peubah satu atau peubah dua tidak sama dengan nol.
Statistik uji yang digunakan adalah nilai likelihood rasio chi-square G 2 . Apabila nilai
Metode backward dilakukan dengan menyeleksi model, dari model terlengkap menuju
model yang lebih sederhana (Agresti, 1990). Adapun prosedur metode backward yaitu sebagai
berikut:
1. Anggap model terlengkap sebagai model terbaik, misalnya sebagai model (0).
39
2. Mengeluarkan interaksi empat faktor dari model, sehingga menjadi model (1).
3. Dengan uji statistik conditional (Test conditional independence), dilakukan pengujian apakah
model (1) masih merupakan model terbaik, dengan hipotesis sebagai berikut:
maka H 0 ditolak.
5. Jika H 0 ditolak, artinya model (0) adalah model terbaik. Apabila H 0 diterima, maka model
6. Untuk menentukan interaksi mana yang dikeluarkan terlebih dahulu, dipilih nilai G 2 terkecil.
7. Jika salah satu interaksi dari tiga faktor dikeluarkan, maka ulangi langkah 3 sampai 5 hingga
tidak ada lagi faktor yang harus dikeluarkan dari model, sehingga diperoleh model yang
terbaik.
40
BAB V
ANALISIS REGRESI LOGISTIK
Analisis regresi merupakan alat statistic yang memanfaatkan hubungan antara dua atau
lebih peubah kuantitatif, sehingga salah satu peubah bisa diramalkan dari peubah lainnya.
Analisis Regresi memperlihatkan hubungan dan pengaruh antara peubah bebas terhadap peubah
respon.
Asumsi-asumsi yang harus dipenuhi dalam penggunaan model regresi linier yaitu:
1. Harus diketahui dengan pasti bentuk hubungan antara peubah respon dengan peubah
bebas.
2. Sisaan mengikuti sebaran normal.
3. Kehomogenan ragam sisaan.
Jika hubungan respon dengan peubah bebas bersifat linier dan asumsi di atas terpenuhi,
maka model regresi linier merupakan model terbaik. Adapun model dari regresi linier adalah:
y( x) 0 1 x1 2 x2 p x p (5.1)
dengan:
y = peubah respon
x = peubah bebas
ε = sisaan
dengan asumsi ε menyabar normal dengan rataan 0 dan ragam 1. Jika x hanya satu maka disebut
model regresi linier sederhana.
41
Menurut Hosmer dan Lemeshow (2000) analisis regresi logistic merupakan metode
regresi dengan peubah respon Y merupakan kategorik atau dikotomi, sedangkan peubah
bebasnya merupakan peubah kategorik dan atau kontinu. Myers (1990) menyatakan jika peubah
respon Y terdiri dari dua kategori yaitu sukses dan gagal, maka peubah y tersebut mengikuti
sebaran Bernoulli dengan fungsi sebaran sebagai berikut:
F (Y y) p y (1 p)1 y (5.2)
Misalkan nilai harapan dari Y untuk nilai peubah bebas x yang diberikan adalah E(Y/x)
dan untuk memudahkan notasi dimisalkan juga g ( x) 0 1 x1 2 x2 p x p dan
π(x) = E(Y/x), maka π(x) menjelaskan rataan bersyarat dari Y untuk nilai x yang diberikan.
Untuk menggambarkan hubungan π(x) dan g(x) sangat tepat digunakan regresi logistic berikut:
expg ( x)
x x
e 0 11 p p
( x) (5.3)
1 expg ( x) 1 e 0 1x1 p x p
1
( x)
1 eg x
0
g(x)
42
Penggunaan regresi logistic tepat karena plot antara π(x) dengan g(x) untuk nilai π(x) menuju -∞
konvergen ke 0, sedangkan untuk π(x) menuju +∞ konvergen ke 1.
expg ( x)
f g ( x) ( x) ; g ( x) (5.4)
1 expg ( x)
lim f g ( x) 0
g ( x )
(5.5)
lim f g ( x) 1
g ( x )
Persamaan (5.5) menerangkan bahwa nilai f[g(x)] berkisar antara 0 dan 1 berapapun nilai
g(x). Hal tersebut menunjukkan bahwa model logistic menggambarkan peluang suatu kejadian
atau risiko dari suatu tindakan yang maksimal bernilai 1.
Transformasi logit merupakan teknik analisis yang digunakan untuk memperoleh fungsi
linier yaitu dengan cara melakukan transformasi model logistic sehingga diperoleh bentuk
sebagai berikut:
( x)
g ( x) ln 0 1 x1 2 x2 p x p (5.6)
1 ( x)
Pendugaan Parameter
Metode yang digunakan untuk menduga parameter dalam regresi logistic adalah Metode
Kemungkinan Maksimum (Method of Maximum Likelihood). Prinsip dasar metode ini adalah
untuk memperoleh penduga parameter dengan memaksimumkan fungsi likelihood. Bila Y1,…,Yn
adalah amatan-amatan yang bebas, maka fungsi peluang bersama bagi sampel ini adalah:
43
n
g Y1 ,, Yn f Yi ; . Bila fungsi peluang bersama ini dipandang sebagai suatu fungsi
i 1
n
likelihood L(θ) maka L f Yi ; dengan memaksimumkan L(θ) relative terhadap θ akan
i 1
Secara matematik fungsi kemungkinan maksimum untuk pasangan (xi,yi) adalah sebagai
berikut: xi y 1 ( xi )1 y
i i
(5.7)
n
( ) xi i 1 ( xi )
y 1 yi
(5.8)
i 1
n
L( ) ln( ) yi ln[ xi ] (1 yi ) ln1 ( xi ) (5.9)
i 1
n e 0 1x1 p x p
1 y i ln
1
y i ln 0 1 x1 p x p 0 1 x1 p x p
i 1 1 e 1 e
ln 1 e
n
1 1
yi ln e
0 1 x1 p x p 0 1 x1 p x p
ln 1 e 0 1 x1 p x p yi ln 0 1 x1 p x p
i 1 1 e
ln1 e y ln1 e
n
y i ln e
0 1 x1 p x p 0 1 x1 p x p 0 1 x1 p x p 0 1 x1 p x p
y i ln 1 e i
i 1
n
y i ln e
0 1 x1 p x p 0 1 x1 p x p
ln 1 e
i 1
Persamaan yang diperoleh setelah diturunkan dan disamakan dengan nol sebagai berikut:
x x x x
L( ) n
e 0 11 p p
e 0 11 p p
yi 0 1x1 p x p 0
0 i 1 e
x p x p
1 e 0 1 1
n 0 1 x1 p x p
e
yi 0 1 x1 p x p
0
i 1 1 e
L( ) n
y i ( xi ) 0
0 i 1
45
L( ) y1 ln e 0 1x1 ln 1 e 0 1x1 y2 ln e 0 1x1 2 x2 ln 1 e 0 1x1 2 x2
yn ln e
0 1 x1 p x p
ln 1 e
0 1 x1 p x p
L( ) e 0 1 x1 e 0 1 x1 e 0 1 x1 2 x2 e 0 1 x1 2 x2
y1 x1 0 1 x1 x1 0 1 x1 y 2 x 2 0 1 x1 2 x2 x 2 0 1 x1 2 x2
1 e e e e
0 1 x1 p x p 0 1 x1 p x p
e e
y n xn 0 1 x1 p x p
xn 0 1 x1 p x p
e e
L( ) n
xi y i ( xi )
i i 1
L( ) n
xij yi ( xi ) 0 (5.12)
j i 1
Dengan:
Metode pendugaan ragam dan koragam dari koefisien penduga diperoleh berdasarkan
teori pendugaan maksimum. Penduga ragam dan koragam yang diperoleh adalah suatu matrik
yang berasal dari turunan parsial kedua dari persamaan (5.8). Turunan kedua dari persamaan
tersebut adalah sebagai berikut:
2 L( ) n
j2
i 1
xij2 i (1 i ) (5.13)
2 L( ) n
xij xil i (1 i ) (5.14)
j l i 1
46
bukan unsure diagonal dari matrik I-1(β) yang merupakan koragam dari ˆ j dan ̂ l . Penduga dari
ragam dan koragam adalah Vaˆr (ˆ ) , yang diperoleh dengan mengevaluasi Var(β) pada ˆ .
Didapat Vaˆr ( ˆ j ) dan Coˆv( ˆ j , ˆl ); j , l 0,1,2, , p untuk nilai-nilai didalam matrik. Simpangan
baku dugaan dari koefisien dugaan ditulis dengan persamaan sebagai berikut:
SˆE ( ˆ j ) Vaˆr ˆ j
1/ 2
(5.15)
Untuk j = 0, 1, 2, …,p.
1 X 11 X 1 p
1
X 21 X 2 p
X
(5.16)
1 X n1 X np
ˆ1 1 ˆ1 0 0
V 0 ˆ 2 1 ˆ 2 0 (5.17)
0 0 ˆ n 1 ˆ n
Dalam regresi linier, untuk menentukan parameter yang masuk dalam model berdasarkan
fungsi dari selisih nilai pengamatan dengan nilai dugaan y yˆ . Prinsip dasar dalam regresi
logistic adalah sama dengan pada regresi linier yaitu membandingkan nilai pengamatan dari
variansi respon dengan nilai dugaan berdasarkan fungsi likelihood yang didefinisikan dalam
47
persamaan (5.9). Perbandingan nilai amatan dengan dugaan menggunakan fungsi likelihood
berdasarkan pada pernyataan adalah:
n
ˆ 1 ˆ i
D 2 y i ln i (1 y i ) ln (5.19)
i 1 yi 1 yi
Statistik D dalam persamaan di atas disebut devian. Devian dalam regresi logistic
kegunaannya sama dengan jumlah kuadrat galat (SSE) dalam regresi linier. Untuk memeriksa
signifikansi dari peubah-peubah bebas digunakan:
G = D (untuk model sebelum peubah masuk) – D (untuk model setelah peubah masuk).
H 0 : 0 1 p 0
H 1 :Minimal adasatu j 0 : j 0,1,2, , p
n1 n1 n0 n0
G 2 ln n n
n
ˆ i y i 1 ˆ i 1 yi
i 1
Jika H0 benar maka statistic G akan mengikuti sebaran Khi Kuadrat (χ2) dengan derajat
bebas p-1 dengan p adalah banyaknya peubah bebas yang ada didalam model.
H0 : j 0
H 1 : j 0 : j 0,1,2, , p
48
j
W
SE ˆ( j )
membandingkan nilai statistik uji tersebut dengan nilai ZTabel. Interpretasi koefisien dilakukan
pada peubah-peubah yang berpengaruh nyata. Dalam regresi linear dengan satu peubah bebas,
koefisien 1 merupakan beda antara nilai y pada x x 1 dengan nilai y pada x = x. Misalnya
merupakan beda logit. Perubahan nilai logit untuk setiap satu unit perubahan pada peubah bebas
Model regresi logistik dengan peubah bebas dikotomi dapat diilutrasikan dalam table 2.1 berikut:
Tabel 5.1 Nilai-nilai dari Model Logistik untuk Peubah Bebas Dikotomi
e 0 1 e 0
y=1 (1) (0)
1 e 0 1 1 e 0
1 1
y=0 1 (1) 1 (0)
1 e 0 1 1 e 0
Persamaan (5.20) dapat diinterpretasikan bahwa odd rasio (OR) = 1 berarti bahwa
individu dengan nilai x = 1 mempunyai peluang yang sama dengan individu dengan nilai x = 0
dalam kaitannya dengan Y = 1. Jika 1 < OR < , maka individu dengan x = 1 mempunyai
peluang yang lebih besar dibanding dengan x = 0, sebaliknya jika 0 < OR < 1 individu dengan x
DAFTAR PUSTAKA
4. Hosmer, D.W.2000. Appllied Logistic Regression, 2ed. John Wiley & Sons, USA.