rata-rata populasi
Inferences about a mean vector
1
▪ Inferensi: membuat kesimpulan yang valid tentang rata-rata populasi
berdasarkan sampel.
▪ Ketika 𝑝 variabel berkorelasi maka seharusnya dianalisis secara bersamaan.
▪ Analisis secara bersamaan menghasilkan uji yang lebih kuat dengan kontrol
error yang lebih baik.
2
Univariat: Uji 𝑡 untuk satu sampel
▪ Misal 𝑋1 , … , 𝑋𝑛 adalah sampel dari pengamatan yang saling bebas dan identik dari
distribusi normal dengan rata-rata 𝜇 dan variansi 𝜎 2 , 𝑋𝑖 ~𝑖𝑖𝑑 𝑁 𝜇, 𝜎 2 .
▪ Misal 𝜎 2 tidak diketahui dan diinginkan menguji hipotesis
𝐻0 : 𝜇 = 𝜇0 vs 𝐻1 : 𝜇 ≠ 𝜇0
▪ Uji yang digunakan adalah uji Student’s 𝑡, dengan statistik uji 𝑡:
ҧ 0
𝑥−𝜇
𝑡=
𝑠Τ 𝑛
1 1
dengan 𝑥ҧ = σ𝑛𝑖=1 𝑥𝑖 dan 𝑠 2 = σ𝑛𝑖=1 𝑥𝑖 − 𝑥ҧ 2 , 𝑛 banyaknya pengamatan.
𝑛 𝑛−1
3
Univariat: Uji 𝑡 satu sampel (lanjutan)
▪ Di bawah 𝐻0 , statistik uji mengikuti distribusi Student’s 𝑡 dengan derajat bebas (degree of freedom, df)
𝜈 = 𝑛 − 1.
Tolak 𝐻0 jika 𝑡 > 𝑡𝛼 𝑛−1 atau
2
Tolak 𝐻0 jika 𝑝-𝑣𝑎𝑙𝑢𝑒 = 2𝑃 𝑡 > 𝑡ℎ𝑖𝑡 <𝛼
4
Contoh 1: Dekan memperkirakan bahwa jumlah jam mengajar per minggu untuk dosen adalah
11 jam. Sebagai mahasiswa, Anda ingin menguji klaim ini. Sampel acak dari jumlah jam mengajar
dari delapan dosen selama satu minggu tercantum di bawah ini. Dapatkah Anda menolak klaim
Dekan?
11.8 8.6 12.6 7.9 6.4 10.4 13.6 9.1
> x <- c(11.8,8.6,12.6,7.9,6.4,10.4,13.6,9.1)
Hipotesis: > qt(0.975,df=7)
> x 𝐻0 : 𝜇 = 11 [1] 2.364624
[1] 11.8 8.6 12.6 7.9 6.4 10.4 13.6 9.1
> mean(x) 𝐻1 : 𝜇 ≠ 11
[1] 10.05
> sd(x)
Taraf signifikansi: 𝛼 = 0.05 > p.value <- 2*pt(-1.081122,df=7)
> p.value
[1] 2.485386 ҧ 0
𝑥−𝜇
Statistik uji: 𝑡 = [1] 0.3154759
𝑠/ 𝑛
> t.test(x,mu=11,alternative="two.sided")
One Sample t-test Kriteria keputusan : 𝑡0.025(7) = 2.365
data: x
t = -1.0811, df = 7, p-value = 0.3155 H0 ditolak jika t < -2.365 atau 𝑡 > 2.365
alternative hypothesis: true mean is not equal to 11 Atau H0 ditolak jika nilai p < 0.05
95 percent confidence interval:
7.972165 12.127835 Hitungan:
sample estimates: 10.05−11
mean of x 𝑡= = −1.081122
10.05 2.485386Τ 8
Pada taraf signifikansi 0.05, karena 𝑡 = −1.081122 > −2.365 (𝑝-𝑣𝑎𝑙𝑢𝑒 = 0.3155 > 0.05) maka 𝐻0
tidak ditolak. Sehingga dapat disimpulkan bahwa rata-rata jumlah jam per minggu dosen sama dengan 11
jam. (Klaim Dekan tidak dapat ditolak).
5
Asumsi yang harus dipenuhi pada Contoh 1 adalah asumsi normalitas.
> library(ggpubr)
> ggqqplot(x)
> shapiro.test(x)
data: x
W = 0.97015, p-value = 0.8992
7
Statistik Uji Hotelling’s 𝑇 2
𝑝 𝑛−1
▪Hal ini berakibat bahwa 𝛼 = 𝑃 𝑇 2 > 𝐹𝛼 𝑝,𝑛−𝑝
𝑛−𝑝
▪𝐹𝛼 𝑝,𝑛−𝑝 menyatakan persentil ke-100𝛼 atas dari distribusi 𝐹 𝑝,𝑛−𝑝
9
Hotelling’s 𝑇 2 ke 𝑭
Statistik uji:
▪ Hotteling’s 𝑇 2
𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0
Hotteling’s 𝑇 2 mengikuti distribusi 𝐹 maka
𝑛−1 𝑝
𝑇2~ 𝐹𝛼 𝑝,𝑛−𝑝
𝑛−𝑝
▪𝐹
(𝑛−𝑝) 2
𝐹= 𝑇
𝑛−1 𝑝
10
Contoh 2: Uji Vektor Rata-rata
11
▪ Taraf signifikansi: 𝛼 = 0.05
qf(0.95,df1=3,df2=22)
▪ Statistik uji: 𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0
[1] 3.049125
𝑝 𝑛−1
▪ Kriteria keputusan: tolak H0 jika 𝑇 2 > 𝑛−𝑝
𝐹𝛼 𝑝,𝑛−𝑝
𝑝 = 3, 𝑛 = 25, 𝐹0.05(3,22) = 3.049125
3 24
Nilai kritis = 22 (3.049125)= 9.978955
Tolak H0 jika 𝑇 2 > 9.978955
Vektor rata-rata sampel:
11.72
𝐱ത = 30.48
107.40
Matriks variansi dan kovariansi sampel adalah
4.626667 4.931667 22.86667 0.45856640 −0.05511288 −0.03716482
−𝟏
𝐒 = 4.931667 15.010000 38.59167 , 𝐒 = −0.05511288 0.12583654 −0.01598812
22.866667 38.591667 224.91667 −0.03716482 −0.01598812 0.01096781
▪ Hitungan: 𝑇 2 = 22.88501
▪ Kesimpulan: Karena 𝑇 2 = 22.88501 > 9.978955 maka H0 ditolak. Jadi pada taraf signifikansi 0.05 dapat
disimpulkan bahwa rata-rata kemampuan penalaran matematika, kemampuan komunikasi matematis, dan efikasi diri
pada kelas eksperimen berturut-turut tidak sama dengan 11, 27, dan 102.
12
> dat <- read.csv(file="C:/data/mat_kom.csv",head=TRUE)
> str(dat)
'data.frame': 48 obs. of 7 variables:
$ Kelas : Factor w/ 2 levels "Eksperimen","Kontrol": 1 1 1 1 1 1 1 1 1 1 ...
$ pre_SE : int 113 90 87 114 113 85 74 100 97 116 ...
$ pre_penalaran : int 8 2 2 8 9 3 1 2 2 8 ...
$ pre_komunikasi: int 16 14 9 12 17 8 6 13 14 17 ...
$ pos_SE : int 111 113 106 127 134 103 108 110 94 137 ...
$ pos_penalaran : int 14 13 13 14 15 10 8 13 9 15 ...
$ pos_komunikasi: int 35 33 32 33 36 34 27 21 30 36 ...
13
> mu.null <- c(11,27,102)
> S <- cov(X)
> S
pos_penalaran pos_komunikasi pos_SE
pos_penalaran 4.626667 4.931667 22.86667
pos_komunikasi 4.931667 15.010000 38.59167
pos_SE 22.866667 38.591667 224.91667
> solve(S)
pos_penalaran pos_komunikasi pos_SE
pos_penalaran 0.45856640 -0.05511288 -0.03716482
pos_komunikasi -0.05511288 0.12583654 -0.01598812
pos_SE -0.03716482 -0.01598812 0.01096781
15
Asumsi yang harus dipenuhi dari contoh nomor 2 adalah
asumsi normalitas multivariat.
> library(MVN)
> result = mvn(data = eksp, mvnTest = "hz", univariateTest = "AD", univariatePlot = "histogram",
multivariatePlot = "qq", multivariateOutlierMethod = "adj", showOutliers = FALSE, showNewData =
FALSE)
> result
$`multivariateNormality` Hipotesis:
Test HZ p value MVN H0: Data berdistribusi normal multivariat
1 Henze-Zirkler 0.7984766 0.08767643 YES H1: Data tidak berdistribusi normal multivariat
Berdasarkan uji Henze-Zirkler, diperoleh HZ =
$univariateNormality 0.798 dan nilai p = 0.088 > 0.05 maka ketiga
Test Variable Statistic p value Normality variabel dependen pada grup eksperimen
1 Anderson-Darling pos_penalaran 0.3798 0.3774 YES
2 Anderson-Darling pos_komunikasi 0.4015 0.3342 YES
tersebut mengikuti distribusi normal multivariat.
3 Anderson-Darling pos_SE 0.4449 0.2613 YES
$Descriptives
n Mean Std.Dev Median Min Max 25th 75th Skew Kurtosis
pos_penalaran 25 11.72 2.150969 12 8 15 10 13 -0.1092368 -1.1273061
pos_komunikasi 25 30.48 3.874274 30 21 36 28 34 -0.4453851 -0.5254521
pos_SE 25 107.40 14.997222 106 86 137 97 113 0.3945872 -0.8588835
16
Dari Chi-Square Q-Q plot untuk grup eksperimen terlihat bahwa hampir semua
titik-titik dekat dengan garis lurus mengindikasikan asumsi normalitas multivariat
terpenuhi.
17
Fungsi mvn (Multivariate Normality Tests) di R dengan paket MVN
Description
Performs multivariate normality tests, including Mardia, Royston, Henze-Zirkler,
Dornik-Haansen, E-Statistics, and graphical approaches and implements
multivariate outlier detection and univariate normality of marginal distributions
through plots and tests.
18
19
20
Plot khi-kuadrat untuk mengecek normalitas
21
▪ Langkah-langkah dalam membuat plot khi-kuadrat:
1) Jarak kuadrat umum diurutkan dari kecil ke besar, 𝑑 21 ≤ 𝑑 22 ≤ ⋯ ≤ 𝑑 2𝑛 .
1 1
𝑗−2 𝑗−2
2) Buat plot berpasangan 𝑞𝑐,𝑝 , 𝑑 2𝑗 dengan 𝑞𝑐,𝑝 adalah kuantil ke-
1 𝑛 𝑛
𝑗−
100 2
dari distribusi khi-kuadrat dengan derajat bebas 𝑝.
𝑛
1 1
𝑗−2 𝑛−𝑗+2
𝑞𝑐,𝑝 = 𝜒𝑝2
𝑛 𝑛
▪ Plot seharusnya menyerupai garis lurus melalui titik asal dengan kemiringan 1.
▪ Pola lengkung sistematis menunjukkan non-normalitas.
▪ Satu atau dua titik jauh dari garis mengindikasikan jarak yang besar atau
pengamatan berupa pencilan (outlier) yang memerlukan perhatian lebih.
22
Contoh > n <- nrow(data)
> n
[1] 10
> p <- ncol(data)
> x1 <- c(108.28,152.36,95.04,65.45,62.97,263.99,265.19,285.06,92.01,165.68)
> x2 <- c(17.05,16.59,10.91,14.14,9.52,25.33,18.54,15.73,8.10,11.13) > p
> data <- data.frame(x1,x2) [1] 2
> data > xbar <- colMeans(data)
x1 x2 > xbar
1 108.28 17.05 x1 x2
2 152.36 16.59
155.603 14.704
3 95.04 10.91
4 65.45 14.14 > S <- cov(data)
5 62.97 9.52 > S
6 263.99 25.33 x1 x2
7 265.19 18.54 x1 7476.4532 303.61862
8 285.06 15.73 x2 303.6186 26.19032
9 92.01 8.10 > #generalized distances from the data
10 165.68 11.13 > diffs <- as.matrix(data - matrix(xbar,nrow=n,ncol=p,byrow=TRUE))
> n <- dim(data)[1] > gdist <- diag(diffs%*%solve(S)%*%t(diffs))
> n > #sort the distances
[1] 10 > s.gdist <- sort(gdist)
> p <- dim(data)[2] > s.gdist
> p [1] 0.2951294 0.6190857 1.1582915 1.2936454 1.6136422 1.6335129 1.7077146 1.7791404
[1] 2 [9] 3.5332867 4.3665512
> xbar <- apply(data,2,FUN=mean) > #find the matching list of quantiles
> xbar > quant <- qchisq(((1:n)-0.5)/n,p)
x1 x2 > plot(quant,s.gdist,pch=20,main="Chi-Square Plot",xlab="Chi-Square Quantile",
155.603 14.704 ylab="Squared Distance")
> lines(quant,quant)
23
Titik-titik pada gambar adalah cukup lurus. Oleh karena ukuran sampel kecil maka sulit
untuk menolak normalitas bivariat dari bukti pada gambar tersebut.
24
Contoh 3: Data scores
> scores <- read.table(file="C:/data/scores_data.txt",head=TRUE)
> head(scores)
sex Test1 Test2 Test3 Test4 ▪ Hipotesis
1 1 15 17 24 14 𝐻0 : 𝝁 = 𝝁0
2 1 17 15 32 26
3 1 15 14 29 23
𝐻1 : 𝝁 ≠ 𝝁0
4 1 13 12 10 16 dengan 𝝁′0 = 15,15,22,22
5 1 20 17 26 28 ▪ Taraf signifikansi: 𝛼 = 0.05
6 1 15 21 26 21 ▪ Statistik Uji: Hotelling 𝑇 2
𝑇 2 = 𝑛 𝐱ത − 𝝁0 ′ 𝐒 −1 𝐱ത − 𝝁0
▪ Kriteria keputusan: 𝑛 = 64, 𝑝 = 4, 𝐹0.05(4,60) = 2.525215.
(63) 4
Nilai kritis = 60 2.525215=10.6059
Tolak 𝐻0 jika 𝑇 2 > 10.6059
▪ Hitungan: 𝑇 2 = 8.9066
▪ Kesimpulan:
Karena 𝑇 2 = 8.9066 < 10.6059 maka 𝐻0 tidak ditolak pada taraf signifikansi
0.05. Sehingga rata-rata populasi keempat tes sama dengan [15,15,22,22].
𝑛−1 𝑝
Tolak 𝐻0 jika 𝑇 2 > 𝐹𝛼 𝑝,𝑛−𝑝
𝑛−𝑝
25
> n
[1] 64
Contoh 3: Data scores > p
[1] 4
> xbar
Test1 Test2 Test3 Test4
14.15625 14.90625 21.92188 22.34375
> S
> X <- scores[,-1] Test1 Test2 Test3 Test4
Test1 10.387897 7.792659 15.29812 5.374008
> n <- nrow(X) Test2 7.792659 16.657738 13.70685 6.175595
> p <- ncol(X) Test3 15.298115 13.706845 57.05729 15.932044
> xbar <- colMeans(X) Test4 5.374008 6.175595 15.93204 22.133929
> qf(0.95,p,n-p)
> mu.null <- c(15,15,22,22) [1] 2.525215
> S <- cov(X)
> T2 <- n*t(xbar-mu.null)%*%solve(S)%*%(xbar-mu.null)
> T2 <- as.numeric(T2)
> T2
[1] 8.906623
> crit <- (n-1)*p/(n-p)*qf(0.95,p,n-p)
> crit
[1] 10.6059
26
Using ICSNP package in R
> scores <- read.table(file="C:/data/scores_data.txt",head=TRUE)
> X <- scores[,-1]
> muH0 <- c(15,15,22,22)
> install.packages("ICSNP") Use this code to install
> library(ICSNP) the ICSNP package
> HotellingsT2(X, mu=muH0,test="chi")
Hotelling's one sample T2-test
data: X
T.2 = 8.9066, df = 4, p-value = 0.06348
alternative hypothesis: true location is not equal to c(15,15,22,22)
27
Interval kepercayaan secara simultan berdasarkan 𝑇 2
28
Interval kepercayaan secara simultan 95% berdasarkan 𝑇 2
29
Interval kepercayaan secara simultan berdasarkan pada 𝑇 2
Data scores
30
Interval kepercayaan secara simultan dengan uji 𝑡
𝑠11 𝑠11
𝑥ҧ1 − 𝑡𝛼 𝑛−1
≤ 𝜇1 ≤ 𝑥ҧ1 + 𝑡𝛼 𝑛−1
2 𝑛 2 𝑛
𝑠22 𝑠22
𝑥ҧ2 − 𝑡𝛼 𝑛−1
≤ 𝜇2 ≤ 𝑥ҧ2 + 𝑡𝛼 𝑛−1
2 𝑛 2 𝑛
⋮
𝑠𝑝𝑝 𝑠𝑝𝑝
𝑥ҧ𝑝 − 𝑡𝛼 ≤ 𝜇𝑝 ≤ 𝑥ҧ𝑝 + 𝑡𝛼 𝑛−1
2 𝑛−1 𝑛 2 𝑛
31
Interval kepercayaan secara simultan dengan uji 𝑡
Data scores
13.35 ≤ 𝜇1 ≤ 14.96
lower.Test1 upper.Test1 lower.Test2 upper.Test2 13.89 ≤ 𝜇2 ≤ 15.93
13.35116 14.96134 13.88675 15.92575
lower.Test3 upper.Test3 lower.Test4 upper.Test4 20.04 ≤ 𝜇3 ≤ 23.81
20.03503 23.80872 21.16856 23.51894 21.17 ≤ 𝜇4 ≤ 23.52
32
Interval kepercayaan secara simultan dengan uji 𝒕 Bonferroni
𝑠11 𝑠11
𝑥ҧ1 − 𝑡 𝛼 𝑛−1
≤ 𝜇1 ≤ 𝑥ҧ1 + 𝑡 𝛼 𝑛−1
2𝑝 𝑛 2𝑝 𝑛
𝑠22 𝑠22
𝑥ҧ2 − 𝑡 𝛼 ≤ 𝜇1 ≤ 𝑥ҧ2 + 𝑡 𝛼 𝑛−1
2𝑝 𝑛−1 𝑛 2𝑝 𝑛
⋮
𝑠𝑝𝑝 𝑠𝑝𝑝
𝑥ҧ𝑝 − 𝑡 𝛼 ≤ 𝜇1 ≤ 𝑥ҧ𝑝 + 𝑡 𝛼 𝑛−1
2𝑝 𝑛−1 𝑛 2𝑝 𝑛
33
Interval kepercayaan secara simultan dengan uji 𝑡 Bonferroni
Data scores
34
𝟐
𝑻 12.84 ≤ 𝜇1 ≤ 15.47 Hitung lebar interval!
13.25 ≤ 𝜇2 ≤ 16.57
18.85 ≤ 𝜇3 ≤ 25.00
20.43 ≤ 𝜇4 ≤ 24.26
t 13.35 ≤ 𝜇1 ≤ 14.96
13.89 ≤ 𝜇2 ≤ 15.93
20.04 ≤ 𝜇3 ≤ 23.81
21.17 ≤ 𝜇4 ≤ 23.52
Bonferroni
13.12 ≤ 𝜇1 ≤ 15.19
13.59 ≤ 𝜇2 ≤ 16.21
19.49 ≤ 𝜇3 ≤ 24.35
20.83 ≤ 𝜇4 ≤ 23.86
35