Anda di halaman 1dari 9

Suplemen Responsi Pertemuan

ANALISIS DATA KATEGORIK (STK351)

Departemen Statistika – FMIPA IPB


10
Pokok Bahasan Sub Pokok Bahasan Referensi Waktu
Tabel Kontingensi  Struktur peluang tabel kontingensi An Introduction Jumat
 Perbandingan proporsi pada tabel to Categorical 7 Desember
kontingensi 2  2 Data Analysis 2011
nd
 Odds ratio (2 Edition) 15.45 – 17.45
 Review uji kebebasan khi-kuadrat Agresti (2007)
 Uji kebebasan untuk data ordinal
 Uji exact untuk contoh kecil
 Asosiasi dalam tabel tiga-arah

Sebagian bahasan mengenai tabel kontingensi sudah dipelajari mulai pertemuan


kelima. Pada pertemuan ini, pembahasan tabel kontingensi akan diarahkan pada beberapa
sub-pokok bahasan mencakup : struktur peluang, perbandingan proporsi, odds ratio, review uji
kebebasan khi-kuadrat, uji kebebasan untuk data ordinal, uji exact untuk contoh kecil serta uji asosiasi
dalam tabel tiga-arah. Untuk memulai pembahasan, perhatikan tabel yang merekam frekuensi contoh
berdasarkan jenis kelamin dan perolehan IPK (<3.00 dan ≥3.00) berikut.

Kelompok IPK
Jenis Kelamin
≥3.00 <3.00 Total
Putra 21 11 32
Putri 24 8 32
Total 45 19 64

Tabel di atas (selanjutnya disebut tabel sebaran IPK) disebut tabel kontingensi, yaitu sebuah
tabel yang menampilkan frekuensi (counts) dari peubah respon dalam setiap sel. Tabel
kontingensi yang menampilkan dua peubah kategorik sekaligus disebut tabel kontingensi
dua-arah. sedangkan tabel kontingensi dengan I baris dan J kolom disebut tabel kontingensi
I  J, disingkat tabel I  J. Tabel di atas adalah tabel 2  2.

Struktur peluang untuk tabel kontingensi

 Peluang bersama, marginal dan bersyarat


Misalkan sejumlah contoh diambil secara acak dari populasi tertentu dan
diklasifikasikan berdasarkan peubah X dan Y. Peluang (X, Y) berada pada baris ke-i dan
kolom ke-j adalah ij = P(X=i, Y=j). Maka, peluang {ij} membentuk peluang bersama (joint
probability) dari X dan Y, dalam hal ini i , j ij  1 . Peluang marginal adalah jumlah peluang
bersama pada baris dan kolom tertentu. Peluang marginal untuk peubah baris dinyatakan
dengan {i+} dan untuk peubah kolom dinyatakan dengan {+j}.
Pada banyak tabel kontingensi, satu peubah merupakan respon (Y) dan peubah lainnya
adalah penjelas (X). Sebaran peluang Y untuk setiap taraf X disebut sebagai peluang
bersyarat atau conditional probabilities.
Perhatikan kembali tabel sebaran IPK. Untuk sel (1, 1) proporsi bersama adalah p11 = 11/64
= 0.172. Jika kelompok IPK adalah respon dan jenis kelamin adalah peubah penjelas maka proporsi
bersyarat dapat ditentukan sebagai berikut : Untuk putra, proporsi “<3.00” adalah 11/32 = 0.344 dan
proporsi “≥3.00” adalah 21/32 = 0.656, sehingga sebaran proporsi bersyarat adalah (0.344, 0.656).
Sedangkan untuk putri adalah (0.250, 0.750).

 Sensitivitas dan Spesifisitas


Sensitivitas dan spesifisitas merupakan salah satu alat dalam diagnosa. Awalnya, kedua
statistik ini digunakan untuk melakukan diagnosa kesehatan, namun pada perkembangannya
juga digunakan dalam diagnosa model-model statistika. Perhatikan tabel berikut :
Kondisi Hasil pengujian (T)
sebenarnya (S) Positif (+) Negatif (-)
Sakit (+) a b
Sehat (-) c d

Berdasarkan tabel di atas, dapat didefinisikan :


Sensitivitas peluang bahwa hasil pengujian menunjukkan bahwa seseorang positif
terjangkit penyakit apabila faktanya orang tersebut memang terjangkit
penyakit, atau ditulis :
a
sen  P(T  | S ) 
ab
Spesifisitas peluang bahwa hasil pengujian menunjukkan bahwa seseorang tidak
terjangkit penyakit apabila faktanya orang tersebut memang tidak terjangkit
penyakit, atau ditulis :
d
spe  P(T  | S ) 
cd
Idealnya, alat uji atau model statistika mempunyai sensitivitas dan spesifisitas yang
tinggi. Akan tetapi, ketika mendapatkan sensitivitas dan spesifisitas yang tinggi, kadangkala
kita masih mempunyai beberapa kesalahan yaitu :
Salah positif terjadi ketika hasil pengujian menyatakan positif terjangkit penyakit untuk
orang yang sebenarnya tidak terjangkit penyakit.
c
F   P( S  | T ) 
ac
Salah negatif terjadi ketika hasil pengujian menyatakan tidak terjangkit penyakit untuk
orang yang sebenarnya terjangkit penyakit.
b
F   P ( S  | T ) 
bd
Dalam statistika, diagnosis model menggunakan sensitivitas dan spesifisitas umumnya
digunakan dalam analisis regresi logistik biner.

 Kebebasan pada tabel kontingensi


Dua peubah (X, Y) dalam tabel kontingensi dikatakan saling bebas secara statistika
apabila distribusi peluang bersyarat dari Y adalah identik untuk setiap level X. Jika kedua

2/9
peubah merupakan respon, maka dua peubah dinyatakan saling babas apabila semua
peluang bersama sama dengan perkalian dari peluang-peluang marginalnya. Ditulis :
 ij   i   j untuk i = 1, 2, ..., I dan j = 1, 2, ..., J

Perbandingan proporsi pada tabel 2  2

 Uji beda proporsi


Misalkan untuk pengamatan pada baris ke-i, i menyatakan peluang “sukses” dan 1 –
i menyatakan peluang gagal untuk i=1, 2. Sehingga beda proporsi 1  2 membandingkan
peluang sukses pada dua baris. Untuk data contoh, p1 – p2 merupakan penduga bagi 1  2.
Galat baku bagi p1 – p2 adalah :

p1 (1  p1 ) p2 (1  p2 )
SE  
n1 n2

sehingga, untuk contoh berukuran besar selang kepercayaan 100(1α)% bagi 1 2 (disebut
selang kepercayaan Wald) adalah :
( p1  p2 )  z 2 SE

Perhatikan kembali tabel sebaran IPK. Anggaplah bahwa sukses adalah keberhasilan
memperoleh IPK IPK≥3.00, dan misalkan 1 adalah peluang mahasiswa putra memperoleh
IPK≥3.00 dan 2 adalah peluang mahasiswa putri memperoleh IPK≥3.00, maka hipotesis nol
bahwa 1 = 2 :
p1 = 21/32 = 0.656
p2 = 24/32 = 0.750
p1 – p2 = 0.094

0.656(0.344) 0.75(0.25)
SE    0.114
32 32
selang kepercayaan 95% bagi 1  2 adalah 0.094  1.96(0.114), atau 0.094  0.223.
Sehingga hipotesis nol bahwa 1 = 2 diterima pada taraf nyata 5%.

 Risiko relatif
Beda dua proporsi penting digunakan jika nilai kedua proporsi tersebut mendekati nilai
0 atau 1. Apabilai nilai kedua proporsi berada di tengah-tengah, risiko relatif (relative risk)
lebih relevan. Risiko relatif adalah :
1
risiko relatif =
2
Untuk ilustrasi sebelumnya, risiko relatif contoh adalah 0.656/0.750 = 0.875.

3/9
Odds ratio
Ukuran asosiasi lain yang dapat digunakan untuk tabel 2  2 adalah odds ratio. Odds
ratio biasanya muncul disebagian besar model yang melibatkan data kategorik. Untuk
peluang “sukses” , nilai odds sukses adalah :

odds = dengan odds  1
1
Sebagai contoh, untuk  = 0.60 mempunyai odds sukses sebesar 0.60/0.40 = 1.50. Ketika nilai
odds = 1.50, sukses adalah 1,5 kali gagal. Ada dengan kata lain kita berharap ada 3 kali
sukses untuk 2 kali gagal.
Pada tabel 2  2, odds sukses untuk baris ke-1 adalah odds1 =  1 / (1   1 ) dan untuk
baris ke-2 adalah odds2 =  2 / (1   2 ) . Rasio dua odds tersebut disebut odds ratio (), yang
ditulis sebagai :
odds1  1 / (1   1 )
 
odds 2  2 / (1   2 )
Odds ratio merupakan bilangan non-negatif. Jika peubah X dan Y saling bebas, 1 = 2
sehingga odds1 = odds2 dan  = odds1/odds2 = 1.
Jika kedua peubah dalam tabel 2  2 merupakan peubah respon, maka odds ratio
didefinisikan melalui peluang bersama :
 11 /  12  11 22
 
 21 /  22  12 21
Untuk tabel sebaran IPK, odds sukses adalah odds1 = 21/11 = 1.91 untuk putra dan odds2 =
 1.91
24/8 = 3 untuk putri. Sehingga odds ratio contoh adalah   0.637 .
3

 Inferensia odds ratio dan log odds ratio


Sebaran penarikan contoh bagi odds ratio sangat tidak simetris (menjulur), karenanya
inferensia statistika bagi odds ratio menggunakan log natural dari odds ratio, log  .

Kebebasan sepadan dengan  = 1 atau log  = 0. Log odds ratio contoh, log  mempunyai
sebaran yang menghampiri normal dengan rataan log  dan galat baku :

1 1 1 1
SE    
n11 n12 n21 n22

Sehingga selang kepercayaan 100(1α)% bagi log  adalah :



log   z 2 SE

Untuk tabel sebaran IPK, log   log(0.637)  0.451, sedangkan galat bakunya adalah :

4/9
1 1 1 1
SE      0.305 ; sehingga selang kepercayaan 95% bagi log  yang dapat
11 21 8 24
dibentuk adalah 0.451  1.96(0.305) atau (1.0488, 0.1468), atau ekuivalen dengan selang
bagi  : [exp( 1.0488), exp(0.1468)]  (0.350, 1.158)

 Hubungan odds ratio dengan risiko relatif


Hubungan antara odds ratio dengan risiko relatif dituliskan dalam formula :

p1 / (1  p1 )  1  p2 
odds ratio =  risiko relatif   
p2 / (1  p2 )  1  p1 
Perhatikan tabel sebaran IPK. Telah dihitung bahwa p1 = 21/32 = 0.656, p2 = 24/32 = 0.750
dan risiko relatif = 0.875, sehingga :
0.250
odds ratio  0.875   0.637
0.344

Uji kebebasan khi-kuadrat

 Uji khi-kuadrat Pearson dan statistik likelihood-ratio


Untuk menguji kebebasan dua peubah dalam tabel I  J, statistik uji khi-kuadrat dan
likelihood-ratio adalah

(nij  ij )2
Khi-kuadrat Pearson : X   2

ij

 nij 
Likelihood-ratio : G 2  2 nij log   

 ij 
Dalam hal ini X 2 dan G 2 mengikuti sebaran khi-kuadrat dengan derajat bebas (I1)(J1)

dan  adalah frekuensi harapan, yang dapat dihitung dengan rumus :

  n  n  ni  n j
ij  npi  p j  n  i     j 
 n  n  n

Tiap sel pada tabel berikut menunjukkan frekuensi teramati (atas) dan frekuensi harapan
(bawah) untuk tabel sebaran IPK.
Kelompok IPK
Jenis Kelamin
≥3.00 <3.00 Total
Putra 21 11 32
22.5 9.5
Putri 24 8 32
22.5 9.5
Total 45 19 64

Sehingga dapat diperoleh :

(21  22.5) 2 (11  9.5)2 (24  22.5) 2 (8  9.5)2


X2      0.674
22.5 9.5 22.5 9.5

5/9
pakek Ln bukan Log
  21   11   24   8 
G 2  2 (21) log    (11) log    (24) log    (8) log     0.676
  22.5   9.5   22.5   9.5  
Untuk derajat bebas 1 dan taraf nyata 5% diperoleh nilai tabel khi-kuadrat sebesar 3.84.
Sehingga berdasarkan uji X 2 maupun G 2 jenis kelamin dan IPK saling bebas.

 Sisaan dalam tabel kontingensi


Untuk menguji kebebasan, dapat juga menggunakan sisaan sel pada tabel kontingensi
dengan rumus :

nij  ij
eij  
ij (1  p1 )(1  p j )

Penyebut pada rumus di atas merupakan galat baku bagi nij  ij . Sehingga eij merupakan

sisaan terbakukan. Untuk tabel sebaran IPK, pada sel pertama diketahui n11  21 , 11  22.5 ,
p1  32 / 64  0.5 dan p j  45 / 65  0.692 , sehingga sisaan terbakukan untuk sel ini
21  22.5
adalah : e11   0.806
22.5(1  0.5)(1  0.692)

Uji kebebasan untuk data ordinal

 Pola linier
Ketika peubah (baris dan/atau kolom) yang diuji diukur dalam skala ordinal, uji
kebebasan menggunakan uji X 2 dan G 2 , informasi urutan data diabaikan. Sebagai
alternatif, dapat digunakan uji asosiasi pola (trend association) . Untuk memeriksa adanya
asosiasi pola, analisis sederhana memberikan peringkat atau skor kepada kategori dan
mengukur derajat pola linier. Statistik uji yang digunakan sensitif terhadap arah pola linier
(positif atau negatif) dengan mamanfaatkan korelasi data. Misalkan u1  u2    uI adalah
adalah skor dan u  i ui pi  adalah rata-rata skor untuk baris, sedangkan v1  v2    vJ
dan v   i vi p j untuk kolom. Jumlah i , j (ui  u )(vi  v ) pij merupakan kovarian X dan Y.
Korelasi antara X dan Y merupakan kovarian dibagi dengan perkalian antara simpangan baku
X dan Y, ditulis :
i , j (ui  u )(v j  v ) pij
r
i (ui  u ) 2 pi    j (v j  v )2 p j 

Untuk menguji H0 : kedua peubah saling bebas lawan H1 : kedua peubah berkorelasi (≠0)
digunakan statistik uji :

M 2  (n  1)r 2
Untuk n besar, M 2 menyebar khi-kuadrat dengan derajat bebas 1.

6/9
Daerah tertinggal
IPM
Ya Tidak Total
0 ≤ IPM < 60 13 0 13
60 ≤ IPM < 70 117 77 194
70 ≤ IPM < 100 29 158 187
Total 159 235 394

Pemilihan skor dapat dilakukan dengan beberapa cara, salah satunya adalah dengan
peringkat-tengah (mid-rank). Menggunakan cara ini, pengamatan diberi skors 1 sampai n.
Perhatikan tabulasi data profil daerah yang menampilkan frekuensi (n) dan frekuensi harapan

(  ) daerah berdasarkan IPM (indeks pembangunan manusia) dan status daerah tertinggal
menurut KPDT di atas. Baris pertama, 0 ≤ IPM < 60, diberi skor (1+13)/2 = 7. Baris kedua, 60
≤ IPM < 70, akan mempunyai skor (1+13+(13+194))/2 = 110.5, sedangkan baris ketiga akan
mempunyai skor 301. Coba lanjutkan perhitungan, berapa nilai korelasi antara IPM dan
status daerah tertinggal? PROC FREQ memberikan nilai r = 0.499 dan M2 = 393  (0.499)2 =
97.943.

Fisher’s exact test untuk contoh kecil pada tabel 2  2


Selang kepercayaan dan pengujian yang dilakukan sejauh ini digunakan untuk contoh
berukuran besar. Semakin besar ukuran contoh, maka X 2 , G 2 dan M 2 akan menghampiri
sebaran khi-kuadrat. Akan tetapi, jika ukuran contoh kecil, inferensia menggunakan sebaran
exact lebih tepat dibandingkan dengan hampiran contoh-besar. Pada tabel 2  2, kebebasan
dua peubah ditandai dengan  = 1. Pada tabel ini, untuk jumlah baris dan kolom marginal
tertentu, frekuensi pada sel pertama (n11) menentukan frekuensi pada ketiga sel lainnya.
Ketika  = 1, peluang untuk nilai n11 dinyatakan oleh

 n1  n2 
  
 n11  n1  n11 
P(n11 ) 
 n 
 
 n1 
yang merupakan peluang hipergeometrik. Pada pengujian H0 : peubah saling bebas  = 1
lawan H1 :  > 1, p-value merupakan peluang hipergeometri sebelah kanan bahwa n11 lebih
besar atau sama dengan frekuensi teramati.
Sebagai contoh, seorang peramal mengaku dapat melihat benda yang diletakkan di
dalam kotak tertutup. Untuk membuktikan klaim tersebut, dilakukan percobaan sederhana
sebagai berikut : sepuluh bola, lima berwarna hitam dan lima berwarna putih, dimasukkan ke
dalam sepuluh kotak sedemikian sehingga satu kotak hanya berisi satu bola. Kotak
semuanya ditutup rapat. Selanjutnya, sepuluh kotak tersebut diacak posisinya sehingga tidak
diketahui dengan pasti di kotak mana bola warna hitam dan putih tersebut berada. Lalu,
peramal diminta untuk menebak warna bola dalam kesepuluhu kotak tersebut, kemudian
satu-per-satu kotak dibuka sehingga warna bola dapat diketahui. Hasilnya adalah sebagai
berikut :

7/9
Warna Hasil ramalan
sebenarnya Hitam Putih Total
Hitam 3 2 5
Putih 2 3 5
Total 5 5 10

Berdasarkan tabel di atas, ada tiga hasil ramalan yang cocok, sehingga :

 5  5 
   5!/ (3!)(2!) 5!/ (2!)(3!)
3 2
P(3)     
    0.3968
10  10!/ (5!)(5!)
 
5
Dengan perhitungan yang sama diperoleh P (4)  0.0992 dan P (5)  0.0040 . Karenanya,
klaim peramal tersebut sangat diragukan (p-value=0.5). Sementara untuk membuktikan
klaimnya dengan tingkat kepercayaan 85%, peramal tersebut setidaknya harus mampu
menemukan 4 bola hitam dan putih secara benar (p-value=0.1032). Tabel berikut meringkas
sebaran geometrik untuk percobaan meramal di atas.
n11 Peluang p-value
0 0.0000 1.0000
1 0.0992 0.9960
2 0.3968 0.8968
3 0.3968 0.5000
4 0.0992 0.1032
5 0.0040 0.0040

P-value dengan perhitungan seperti ini biasanya bersifat konservatif, dikarenakan


tingkat galat yang sebenarnya lebih kecil daripada galat yang ditetapkan. Untuk itu,
disarankan menggunakan mid p-value. Untuk kasus peramal di atas, saat n11 = 3, besarnya
mid p-value = P(3)/2 + P(4) + P(5) = (0.5/2) + 0.1032 + 0.004 = 0.3572. Seandainya n11 = 4,
maka mid p-value = (0.1032/2) + 0.004 = 0.0556.

Asosiasi pada tabel tiga arah


Sebuah tabel tiga arah menampilkan frekuensi dari tiga peubah, misalnya X, Y dan Z.
Sebagai contoh, tabel berikut merupakan tabel kontingensi 2  2  2, terdiri dari dua kolom,
dua baris dan dua lapisan, yang merekam frekuensi mahasiswa berdasarkan jenis kelamin (Z),
aktivitas organisasi (X) dan tingkat IPK (Y).

Kelompok IPK
Jenis Kelamin Organisasi ≥3.00 <3.00 Total
Putra Aktif 5 1 6
Tidak aktif 16 10 26
Putri Aktif 7 3 10
Tidak aktif 17 5 22
Total 45 19 64

Misalkan kita ingin mempelajari pengaruh aktivitas organisasi terhadap IPK, maka
dengan mengendalikan fakor jenis kelamin. Dengan demikian, tabel di atas akan terdiri dari
sebuah tabel parsial 2  2 antara aktivitas organisasi dan IPK untuk setiap taraf jenis kelamin
(putra dan putri). Gabungan dua tabel parsial ini akan membentuk tabel kontingensi dua
arah yang disebut sebagai tabel marginal.

8/9
 Odds ratio bersyarat dan marginal
Sepertihalnya asosiasi marginal, asosiasi bersyarat dapat dijelaskan dengan odds ratio.
Odds ratio pada tabel parsial disebut odds ratio bersyarat. Perhatikan asosiasi bersyarat
antara aktivitas organisasi dan IPK. Penduga bagi odds ratio bersyarat untuk tabel parsial

pertama – mahasiswa putra adalah :  XY (1)  (5 10) / (16  1)  3.125 . Sedangkan untuk
mahasiswa putri, penduga bagi odds ratio antara aktivitas organisasi dan IPK adalah
 XY (2)  (7  5) / (17  3)  0.686 .
Untuk tabel marginal antara aktivitas organisasi dan IPK (jenis kelamin diabaikan),
diperoleh odds ratio marginal :  XY   (5  7)(10  5)  /  (16  17)(1  3)   1.364

 Kebebasan bersyarat vs. Kebebasan marginal


Jika X dan Y saling bebas untuk setiap tabel parsial, maka dapat dikatakan bahwa X
dan Y bebas bersyarat untuk Z tertentu. Selanjutnya, semua odds ratio bersyarat antara X dan
Y akan bernilai 1 untuk setiap taraf Z. meskipun demikian, odds ratio marginal mungkin tidak
sama dengan 1.

 Kehomogenan asosiasi
Misalkan Z terdiri dari k taraf serta X dan Y merupakan peubah biner. Peubah X dan Y
dikatakan memiliki asosiasi yang homogen apabila :
 XY (1)   XY (2)     XY ( k )

Note :

 Materi dikutip dari Agresti (2007). Apabila ada materi yang belum dibahas dapat dilihat langsung pada
halaman 21–54

CUIWW (Correct Us If We’re Wrong)
Prepared by : Nur Andi Setiabudi, S. Stat
Edited by : Didin Saepudin

9/9

Anda mungkin juga menyukai