Anda di halaman 1dari 17

Uji Khi-Kuadrat:

Data Kategorik Univariat


Tujuan pembelajaran: menghitung nilai harapan dan menggunakan
uji goodness-of-fit dengan uji khi kuadrat pada tiga atau lebih
proporsi populasi

1
Data Kategorik Univariat, Goodness of Fit Tests

▪ Data kategorik seringkali disajikan dalam suatu distribusi frekuensi.


▪ Dalam hal ini, kita fokus hanya pada banyaknya observasi/pengamatan dalam
masing-masing kategori dan banyaknya masing-masing kategori muncul.
▪ Contoh: Menurut Forbes ada 4 tipe pegawai, misal SDM (Sumber Daya Manusia)
pada suatu perusahaan besar memilih 200 pegawai secara acak dan disajikan dalam
tabel frekuensi satu arah sebagai berikut:
Tipe pegawai Termotivasi Acuh tak acuh Tidak puas Penipu
Frekuensi 70 55 45 30

▪ Prosedur uji hipotesis yang disajikan dalam bagian ini dirancang untuk
membandingkan sekumpulan proporsi yang dihipotesiskan dengan sekumpulan
proporsi sebenarnya, untuk memeriksa goodness of fit (Gof).

2
Misal masing-masing pengamatan
berada dalam salah satu 𝒌 kategori

Proporsi Proporsi yang


sebenarnya dihipotesiskan
Kategori 1 𝑝1 𝑝10
Kategori 2 𝑝2 𝑝20
⋮ ⋮ ⋮
Kategori 𝑖 𝑝𝑖 𝑝𝑖0
⋮ ⋮ ⋮
Kategori 𝑘 𝑝𝑘 𝑝𝑘0

dengan 𝑝10 + 𝑝20 + ⋯ + 𝑝𝑘0 = 1

3
Hipotesis

𝐻0 : 𝑝1 = 𝑝10 , 𝑝2 = 𝑝20 , … , 𝑝𝑘 = 𝑝𝑘0


(Setiap proporsi kategori benar sama dengan nilai hipotesis yang ditentukan)
𝐻1 : 𝑝𝑖 ≠ 𝑝𝑖0 bagi minimal satu 𝑖
(Setidaknya ada satu proporsi kategori benar yang tidak sama dengan nilai
hipotesis yang ditentukan yang sesuai.)
𝑘 𝑛𝑖 −𝑒𝑖 2
Statistik uji: 𝜒2 = σ𝑖=1 dengan 𝑒𝑖 = 𝑛𝑝𝑖0
𝑒𝑖
2
Kriteria keputusan: H0 ditolak 𝜒 2 > 𝜒𝛼,𝑘−1

Tes ini sesuai jika semua jumlah sel yang diharapkan setidaknya 5
(𝑒𝑖 = 𝑛𝑝𝑖0 ≥ 5 bagi semua 𝑖).

4
Contoh 1 Honey
Bagi peternak lebah yang ingin memanen lebih banyak madu, ada empat kemungkinan untuk
mendapatkan lebih banyak lebah: package bees, nucs, colonies, swarms. Departemen ilmu
pertanian dari universitas tertentu memperoleh sampel acak dari pembelian lebah, dan masing-
masing diklasifikasikan ke dalam salah satu dari empat kategori tersebut. Gunakan tabel
frekuensi satu arah berikut untuk menguji hipotesis bahwa empat kemungkinan pembelian lebah
terjadi dengan frekuensi yang sama. Gunakan taraf signifikansi 𝛼 = 0.05.

Bee purchase Package bees Nucs Colonies Swarms


Frekuensi 31 36 26 20

5
Solusi
Jika tipe pembelian lebah itu sama, maka proporsi pembelian berada dalam masing-
1 1
masing kategori adalah = = 0.25.
𝑘 4

Hipotesis
𝐻0 : 𝑝1 = 0.25, 𝑝2 = 0.25, 𝑝3 = 0.25, 𝑝4 = 0.25
𝐻1 : ∃𝑝𝑖 ≠ 𝑝𝑖0 , 𝑖 = 1, 2, 3, 4
Taraf signifikansi: 𝛼 = 0.05
𝑘 𝑛𝑖 −𝑒𝑖 2
𝜒2
Statistik uji: = σ𝑖=1
𝑒𝑖
2
Kriteria keputusan: 𝑘 = 4, 𝜒0.05(3) = 7.8147
Tolak H ditolak jika 𝜒 2 > 7.8147
0

6
Hitungan:
Sel Kategori Nilai observasi Nilai harapan
1 Package bees 31 𝑒1 = 𝑛𝑝10 = 113 0.25 = 28.25
2 Nucs 36 𝑒2 = 𝑛𝑝20 = 113 0.25 = 28.25
3 Colonies 26 𝑒3 = 𝑛𝑝30 = 113 0.25 = 28.25
4 Swarms 20 𝑒4 = 𝑛𝑝40 = 113 0.25 = 28.25
113

Semua cacah sel lebih dari 5, maka uji khi-kuadrat goodness-of-fit bisa digunakan.

p-value = 𝑃 𝑋 2 > 4.9823 = 0.1731


7
▪ Kesimpulan:
Oleh karena 𝜒 2 = 4.9823 < 7.8147 atau p-value = 0.1731 > 0.05 maka H0
tidak ditolak. Pada taraf signifikansi 𝛼 = 0.05, tidak ada bukti untuk
menyimpulkan bahwa ada proporsi sebenarnya yang berbeda dari 0.25. Proporsi
tipe pembelian lebah itu sama.
Dengan program R
> c1 <- c("Package bees","Nucs","Colonies","Swarms")
> c2 <- c(31,36,26,20)
> dat <- data.frame(kategori=c1,obs=c2)
> str(dat)
'data.frame': 4 obs. of 2 variables:
$ kategori: Factor w/ 4 levels "Colonies","Nucs",..: 3 2 1 4
$ obs : num 31 36 26 20
> chisq <- chisq.test(dat$obs)
> chisq
Chi-squared test for given probabilities
data: dat$obs
X-squared = 4.9823, df = 3, p-value = 0.1731

> #menghitung p-value > khi_kuadrat_tabel <- qchisq(p=0.95,df=3)


> p.value = 1-pchisq(q=4.9823,df=3) > khi_kuadrat_tabel
> p.value
[1] 7.814728
[1] 0.1730978

8
Contoh 2 Tradisi thanksgiving
Pada hari Thanksgiving, banyak keluarga secara tradisional berkumpul
untuk menikmati hidangan spesial, berbincang-bincang, dan beberapa
wilayah bermain hoki di jalanan. Sampel acak orang dewasa di atas
usia 18 tahun diperoleh dan diminta untuk menyebutkan makanan
Thanksgiving favorit mereka. Data dan proporsi dari survei
sebelumnya diberikan dalam tabel berikut.

Makanan favorit Frekuensi Proporsi sebelumnya


Turkey 250 0.38
Stuffing 148 0.26
Mashed potatoes 98 0.17
Yams 55 0.10
Green bean casserole 30 0.05
Cranberry sauce 42 0.04

Adakah bukti yang menunjukkan bahwa proporsi sel yang


sebenarnya berbeda dari yang proporsi sebelumnya? Gunakan
𝛼 = 0.05.
9
Solusi:
▪ Ada 𝑘 = 6 kategori.
▪ Hipotesis:
𝐻0 : 𝑝1 = 0.38, 𝑝2 = 0.26, 𝑝3 = 0.17, 𝑝4 = 0.10, 𝑝5 = 0.05, 𝑝6 = 0.04
𝐻1 : ∃𝑝𝑖 ≠ 𝑝𝑖0 , 𝑖 = 1, 2, 3, 4
▪ Taraf signifikansi: 𝛼 = 0.05
𝑘 𝑛𝑖 −𝑒𝑖 2
▪ 𝜒2
Statistik uji: = σ𝑖=1
𝑒𝑖
2
▪ Kriteria keputusan: 𝑘 = 6, 𝜒0.05(5) = 11.0705
Tolak H ditolak jika 𝜒 2 > 11.0705
0

10
▪ Hitungan: Semua cacah sel harapan > 5, maka uji khi-kuadrat goodness-of-fit bisa digunakan.

p-value = 𝑃 𝑋 2 > 15.15 = 0.0097

11
▪ Kesimpulan:
Oleh karena 𝜒 2 = 15.15 > 11.0705 atau p-value = 0.0097 < 0.05 maka H0 ditolak.
Pada taraf signifikansi 𝛼 = 0.05, ada bukti untuk menyimpulkan bahwa setidaknya ada
satu proporsi populasi yang berbeda dari nilai proporsi sebelumnya. Proporsi jenis
makanan favorit pada thanksgiving itu ada yang berbeda dengan proporsi sebelumnya.

Dengan program R
> c1 <- c("Turkey","Stuffing","Mashed potatoes","Yams","Green bean casserole","Cranberry sauce")
> c2 <- c(250,148,98,55,30,42)
> dat <- data.frame(kategori=c1,obs=c2)
> str(dat)
'data.frame': 6 obs. of 2 variables:
$ kategori: Factor w/ 6 levels "Cranberry sauce",..: 5 4 3 6 2 1
$ obs : num 250 148 98 55 30 42

> chisq <- chisq.test(dat$obs,p =c(0.38,0.26,0.17,0.10,0.05,0.04))


> chisq
Chi-squared test for given probabilities
data: dat$obs
X-squared = 15.144, df = 5, p-value = 0.009763
> khi_kuadrat_tabel <- qchisq(p=0.95,df=5)
> p.value = 1-pchisq(q=15.144,df=5)
> khi_kuadrat_tabel
> p.value
[1] 0.009764447 [1] 11.0705

12
Contoh 3: Data from 93 Cars on Sale in the USA in 1993 (Cars93.csv)
Cars were selected at random from among 93 passenger car models that were listed in both the Consumer Reports issue and the PACE
Buying Guide. Pickup trucks and Sport/Utility vehicles were eliminated due to incomplete information in the Consumer Reports source.
Source: Lock, R. H. (1993) 1993 New Car Data. Journal of Statistics Education 1(1).

Description
The Cars93 data frame has 93 rows and 27 columns.
Format
This data frame contains the following columns:

Manufacturer
Manufacturer.
Model
Model.
Type
Type: a factor with levels "Small", "Sporty", "Compact", "Midsize", "Large" and "Van".

dst. Apakah proporsi keenam model mobil terjual itu sama?

13
Dengan program R
> dat <- read.csv(file="C:/data/Cars93.csv",head=TRUE)
> str(dat)
'data.frame': 93 obs. of 28 variables:
$ X : int 1 2 3 4 5 6 7 8 9 10 ...
$ Manufacturer : Factor w/ 32 levels "Acura","Audi",..: 1 1 2 2 3 4 4 4 4 5 ...
$ Model : Factor w/ 93 levels "100","190E","240",..: 49 54 9 1 6 24 56 73 72 35 ...
$ Type : Factor w/ 6 levels "Compact","Large",..: 4 3 1 3 3 3 2 2 3 2 ...

> cat.car <- table(dat$Type)
> cat.car
Compact Large Midsize Small Sporty Van
16 11 22 21 14 9

> chisq <- chisq.test(cat.car)


> chisq
Chi-squared test for given probabilities
data: cat.car
X-squared = 8.871, df = 5, p-value = 0.1143

> p.value = 1-pchisq(q=8.870968,df=5)


> p.value
[1] 0.1143228

14
Solusi
Jika pembelian tipe mobil sama, maka proporsi pembelian mobil dalam masing-masing
1 1
tipe mobil adalah = = 0.1666667.
𝑘 6

Hipotesis
1 1 1 1 1 1
𝐻0 : 𝑝1 = , 𝑝2 = , 𝑝3 = , 𝑝4 = , 𝑝5 = , 𝑝6 =
6 6 6 6 6 6
𝐻1 : ∃𝑝𝑖 ≠ 𝑝𝑖0 , 𝑖 = 1, 2, 3, 4,5,6
Taraf signifikansi: 𝛼 = 0.05
𝑘 𝑛𝑖 −𝑒𝑖 2
𝜒2
Statistik uji: = σ𝑖=1
𝑒𝑖
2
Kriteria keputusan: 𝑘 = 6, 𝜒0.05(5) = 11.0705
Tolak H ditolak jika 𝜒 2 > 11.0705
0

15
Hitungan: Semua cacah sel lebih dari 5, maka uji khi-kuadrat goodness-of-fit bisa digunakan.

Sel Kategori Nilai observasi Nilai harapan


1 Compact 16 𝑒1 = 𝑛𝑝10 = 93 1/6 = 15.5
2 Large 11 𝑒2 = 𝑛𝑝20 = 93 1/6 = 15.5
3 Midsize 22 𝑒3 = 𝑛𝑝30 = 93 1/6 = 15.5
4 Small 21 𝑒4 = 𝑛𝑝40 = 93 1/6 = 15.5
5 Sporty 14 𝑒5 = 𝑛𝑝50 = 93 1/6 = 15.5
6 Van 9 𝑒6 = 𝑛𝑝60 = 93 1/6 = 15.5
93
6
2
𝑛𝑖 − 𝑒𝑖
𝜒2 =෍
𝑒𝑖
𝑖=1
16 − 15.5 2 11 − 15.5 2 22 − 15.5 2 21 − 15.5 2 14 − 15.5 2 9 − 15.5 2
= + + + + + = 8.870968
15.5 15.5 15.5 15.5 15.5 15.5

p-value = 𝑃 𝑋 2 > 8.870968 = 0.1143228


16
▪ Kesimpulan:
Oleh karena 𝜒 2 = 8.870968 > 11.0705 atau p-value = 0.1143228 > 0.05
maka H0 tidak ditolak. Pada taraf signifikansi 𝛼 = 0.05 dapat disimpulkan
bahwa proporsi keenam model mobil terjual itu sama.

17

Anda mungkin juga menyukai