Kursus Statistika Lanjut
Kursus Statistika Lanjut
Bagian 1
Analisis Regresi Sederhana (Simple Regression Analysis)
Bambang Suryoatmono
Pendahuluan
Analisis Regresi: proses membuat fungsi atau model matematis yang dapat digunakan untuk memprediksi atau menentukan satu variabel dari variabel lainnya. Regresi Sederhana (bivariate linear regression): regresi yang hanya melibatkan dua variabel.
Variabel bergantung (dependent variable): variabel yang akan diprediksi (y) Variabel bebas (explanatory variable = independent variable): prediktor Hanya hubungan linear antara kedua variabel
Model-model Regresi
Model Deterministik
y = 0 + 1 x
Model Probabilistik
y = 0 + 1 x +
0 = intercept populasi 1 = kemiringan (slope) populasi
Hubungan non linear dan model regresi dengan lebih dari satu variabel bebas: model regresi berganda (multiple regression model)
y = b0 + b1 x
b0 = intercept sampel b1 = slope sampel Keduanya dicari dengan analisis kuadrat terkecil (least square analysis): proses di mana model regresi dicari yang menghasilkan jumlah error kuadrat terkecil
intercept
Analisis Residual
Residual = error garis regresi = perbedaan antara y prediksi (dari persamaan regresi) dan y aktual = y y Tujuan analisis Residual: menguji sebagian atau seluruh asumsi yang mendasari regresi sederhana, yaitu:
Model adalah linear Suku error mempunyai varians yang konstan Semua suku error: independen Suku error terdistribusi normal
b0 = y b1 x =
Residual Plot
0 x Nonlinear Residual Plot
SSE = ( y y ) 2 = y 2 b0 y b1xy
Koefisien Determinasi r2
r2 = variabilitas variabel bergantung yang diakibatkan oleh variabel bebas x Bernilai antara 0 sampai dengan 1 r2 = 0 artinya: prediktor (x) tidak mempengaruhi variabilitas y; r2 = 1 artinya: variabilitas y seluruhnya diakibatkan oleh prediktor x
( y ) n
error
0 r2 1
y r = 0.69
y r = 0.034
Residuals Versus x
(response is y)
Residual
-5
-10 40 90 140
Regression Analysis
p-value untuk menguji slope
The regression equation is y = 144 - 0.898 x Predictor Constant x S = 7.377 Coef 144.414 -0.89824 StDev 6.220 0.06816 T 23.22 -13.18
t=
b1 1, 0 sb se SS xx SSE n2
dengan
P 0.000 0.000
R-Sq = 97.2%
R-Sq(adj) = 96.6%
sb = se =
Analysis of Variance Source Regression Error Total se = MSE DF 1 5 6 SS 9452.7 272.1 9724.9 MS 9452.7 54.4 F 173.69 P 0.000
SS xx = x 2
( x ) 2 n
R:: t < -t
1- t
1-
t ,n 2
t ,n 2
DF
k nk1 n1
SS
SSR SSE SSyy
MS
MSR =
MSE =
SSR k
F=
MSR MSE
1-
2
t
,n 2
SSE n - k -1
t
2
0
,n 2
t
2
Catatan: cara p-value juga dapat digunakan. Tolak H0 jika p-value <
Catatan: k = banyak variabel bebas (untuk regresi sederhana, k = 1) Derajat bebas F adalah k (pembilang) dan N-k-1 (penyebut)
Estimasi
CI untuk mengestimasi Rata-rata Bersyarat untuk y: y|x untuk harga x yang ditetapkan
y t
2
y
50
,n 2
se
1 ( x0 x ) 2 + n SS xx
100
Interval Prediksi (PI) untuk Mengestimasi Harga Tunggal y untuk harga x yang ditetapkan
Regression 95% CI
0 40 90 140
y t
2
,n 2
se
1 (x x) 1+ + 0 n SS xx
95% PI
Bagian 2
Predicted Values for New Observations New Obs 1 Fit 77.05 SE Fit 2.82 95.0% CI 69.79, 84.31) 95.0% PI 56.74, 97.35)
Estimasi y
Estimasi y dengan menggunakan informasi dari sampel
y = 0 + 1 x1 + 2 x2 + 3 x3 + ...... k xk +
k = banyaknya variabel bebas 0 = konstanta regresi i = koefieisn regresi parsial untuk variabel independen I; menunjukkan bertambahnya y apabila variabel independen I meningkat 1 unit dan variabel independen lainnya tidak berubah x2 dapat berupa x12 (suku non linear dari x1)
y = b0 + b1 x1 + b2 x2 + ......... + bk xk
y = nilai y prediksi b0 = estimasi konstanta regresi bi = estimasi koefisien regresi 1
MINITAB: Stat Regression Regression
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Price 63.0 65.1 69.9 76.8 73.9 77.9 74.9 78.0 79.0 83.4 79.5 83.9 79.7 84.5 96.0 109.5 102.5 121.0 104.9 128.0 129.0 117.9 140.0
SqFt 1605 2489 1553 2404 1884 1558 1748 3105 1682 2470 1820 2143 2121 2485 2300 2714 2463 3076 3048 3267 3069 4765 4540
Age 35 45 20 32 25 14 8 10 28 30 2 6 14 9 19 4 5 7 3 6 10 11 8
Regression Analysis: Price versus SqFt, Age The regression equation is Price = 57.4 + 0.0177 SqFt - 0.666 Age Predictor Constant SqFt Age S = 11.96 Coef 57.35 0.017718 -0.6663 SE Coef 10.01 0.003146 0.2280 T 5.73 5.63 -2.92 P 0.000 0.000 0.008
R-Sq = 74.1%
R-Sq(adj) = 71.5%
Analysis of Variance Source Regression Residual Error Total Source SqFt Age DF 1 1 DF 2 20 22 SS 8189.7 2861.0 11050.7 Seq SS 6967.8 1221.9 MS 4094.9 143.1 F 28.63 P 0.000
F=
SSR SSE
n k 1
Pada contoh di atas: nilai p (=0.000) < (= 5%) tolak H0. Jadi, sedikitnya satu koefisien regresi 0
R2 adjusted
R2 selalu membesar (atau setidaknya tetap) apabila variabel bebas ditambahkan Untuk memperhitungkan
informasi tambahan pada regresi setiap kali variabel independen ditambahkan, dan Perubahan derajat bebas pada regresi, dibuatlah R2 yang disesuaikan:
2 Radj = 1
y y
SSE = ( y y ) 2
Standard Error of the Estimate
se =
SSE n k 1
SSE SS yy
SSE
n k 1 SS yy n 1
Bagian 3
Membangun Model Regresi Berganda
adalah model regresi yang merupakan model orde dua atau lebih. Model kuadratik adalah model regresi berganda di mana prediktornya adalah satu variabel dan kuadrat dari variabel tersebut.
y = 0 + 1 x1 + 2 x12 +
Row 1 2 3 4 5 6 7 8 9 10 11 12 13
Sales 2.1 3.6 6.2 10.4 22.8 35.6 57.1 83.5 109.4 128.6 196.8 280.0 462.3
N_of_Rep 2 1 2 3 4 4 5 5 6 7 8 10 11
Sales
N_of_Rep
Model Kuadratik
Regression Analysis: Sales versus N_of_Rep, N_sqr The regression equation is Sales = 18.1 - 15.7 N_of_Rep + 4.75 N_sqr Predictor Constant N_of_Rep N_sqr S = 24.59 Coef 18.07 -15.723 4.7504 SE Coef 24.67 9.550 0.7759 T 0.73 -1.65 6.12 P 0.481 0.131 0.000
R-Sq = 97.3%
R-Sq(adj) = 96.7%
Analysis of Variance Source Regression Residual Error Total DF 2 10 12 SS 215069 6048 221117 MS 107534 605 F 177.79 P 0.000
Model Linear
Regression Analysis: Sales versus N_of_Rep The regression equation is Sales = - 107 + 41.0 N_of_Rep Predictor Constant N_of_Rep S = 51.10 Coef -107.03 41.026 SE Coef 28.74 4.779 T -3.72 8.58 P 0.003 0.000
Transformasi Tukey
y2, y3, atau log x, -1/x, . y2, y3, atau x2, x3,
R-Sq = 87.0%
R-Sq(adj) = 85.8%
Analysis of Variance Source Regression Residual Error Total DF 1 11 12 SS 192395 28721 221117 MS 192395 2611 F 73.69 P 0.000 log y, -1/y, .atau log x, -1/x, . log y, -1/y, .atau x2, x3, ..
Transformasi Model
Contoh:
y = 0 x 1
x1x2 adalah suku interaksi Di dalam proses regresi, x1x2 disubstitusi dengan variabel x3 sehingga model regresinya menjadi
log y = log 0 + 1 log x + y ' = 0 '+ 1 ' x' dengan y' = log y 0' = log 0 dan x' = log x
y = 0 + 1 x1 + 2 x2 + 3 x3 +
Contoh Data
Row 1 2 3 4 5 6 7 8 y 1.2 9.0 4.5 3.2 13.0 0.6 1.8 2.7 x 450 20200 9060 3500 75600 175 800 2100 log_y 0.07918 0.95424 0.65321 0.50515 1.11394 -0.22185 0.25527 0.43136 log_x 2.65321 4.30535 3.95713 3.54407 4.87852 2.24304 2.90309 3.32222
Plot x versus y
14 12 10 8
y
6 4 2 0 0 10000 20000 30000 40000 50000 60000 70000 80000
Output MINITAB
Regression Analysis: log_y versus log_x The regression equation is log_y = - 1.25 + 0.496 log_x Predictor Constant log_x S = 0.06328 Coef -1.25306 0.49611 SE Coef 0.09693 0.02713 T -12.93 18.28 P 0.000 0.000
bo = 10 1.25306 = 0.0558393
Jadi, model regresi dinyatakan dalam variabel asal adalah
y = 0.0558393 x 0.49611
Regression Plot
log_y = -1.25306 + 0.496105 log_x S = 0.0632837 R-Sq = 98.2 % R-Sq(adj) = 97.9 %
1.0
log_y
R-Sq = 98.2%
R-Sq(adj) = 97.9%
0.5
Analysis of Variance
0.0
DF 1 6 7
MS 1.3389 0.0040
F 334.32
P 0.000
2 3 4 5
log_x
Row
Salary 1.548 1.629 1.011 1.229 1.746 1.528 1.018 1.190 1.551 0.985 1.610 1.432 1.215 0.990 1.585
Age 3.2 3.8 2.7 3.4 3.6 4.1 3.8 3.4 3.3 3.2 3.5 2.9 3.3 2.8 3.5
Gender 1 1 0 0 1 1 0 0 1 0 1 1 0 0 1
The regression equation is Salary = 0.732 + 0.111 Age + 0.459 Gender Predictor Constant Age Gender S = 0.09679 Coef 0.7321 0.11122 0.45868 SE Coef 0.2356 0.07208 0.05346 T 3.11 1.54 8.58 P 0.009 0.149 0.000
Contoh
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
R-Sq = 89.0%
R-Sq(adj) = 87.2%
Analysis of Variance Source Regression Residual Error Total DF 2 12 14 SS 0.90949 0.11242 1.02191 MS 0.45474 0.00937 F 48.54 P 0.000
10
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Y 101 127 98 79 118 114 110 94 96 73 108 124 82 89 76 109 123 125
X1 2 4 9 5 3 1 3 2 8 6 2 5 6 9 1 3 2 6
X2 77 72 69 53 88 53 82 61 60 64 76 74 50 57 72 74 99 81
X3 1.2 1.7 2.4 2.6 2.9 2.7 2.8 2.6 2.4 2.1 1.8 2.2 1.5 1.6 2.0 2.8 2.6 2.5
X4 42 26 47 65 37 28 29 22 48 42 34 11 61 53 72 36 17 48
Contoh Data
Stepwise Regression: Y versus X1, X2, X3, X4 Alpha-to-Enter: 0.15 Response is Step Constant X4 T-Value P-Value X2 T-Value P-Value S R-Sq R-Sq(adj) C-p 12.6 52.46 49.49 3.4 Y 1 133.53 -0.78 -4.20 0.001 on Alpha-to-Remove: 0.15
Forward selection.
4 predictors, with N =
18
Response is
2 91.01 -0.60 -3.22 0.006 0.51 2.15 0.048 11.4 63.69 58.85 1.3
Step Constant
Kesimpulan: hanya x2 dan x4 yang sebaiknya digunakan dalam model. Variabel x1 dan x3 tidak signifikan terhadap perubahan y.
Kesimpulan: hanya x2 dan x4 yang sebaiknya digunakan dalam model. Variabel x1 dan x3 tidak signifikan terhadap perubahan y.
Stepwise Regression: y versus x1, x2, x3, x4 Backward elimination. Response is y Alpha-to-Remove: 0.1 on 4 predictors, with N = 18
Step Constant x1 T-Value P-Value x2 T-Value P-Value x3 T-Value P-Value x4 T-Value P-Value S R-Sq R-Sq(adj) C-p
1 83.96 0.6 0.50 0.623 0.53 2.04 0.062 1.4 0.23 0.824 -0.61 -2.98 0.011 12.1 64.49 53.57 5.0
3 91.01
Bagian 4
0.51 2.15 0.048
Kesimpulan: hanya x2 dan x4 yang sebaiknya digunakan dalam model. Variabel x1 dan x3 tidak signifikan terhadap perubahan y.
11
Data Kategori
adalah data non numerik yang merupakan hitungan frekuensi dua atau lebih kategori dari satu atau lebih variabel Contoh:
60 50
40
30
Membandingkan frekuensi kategori teoritis (expected) dari populasi, dengan frekuensi kategori aktual (observed), apakah sama atau tidak sama.
A B C D E
Sum of Frek
20
Nilai
Contoh
Frekuensi O 53 Frekuensi E 57 30 21 26 21
Uji Hipotesa
H0: distribusi yang diamati sama dengan distribusi yang diduga Ha: distribusi yang diamati tidak sama dengan distribusi yang diduga Statistik uji: ( fo fe )2 2
Bwh
Menengah
Atas
Bwh
Menengah
Atas
Kelas Ekonomi
df = k 1 c f0 = frekuensi hasil pengamatan fe = frekuensi yang diduga k= banyaknya kategori c = banyaknya parameter yang diestimasi dari data sampel, miaslnya 0 (uniform), 1 (Poisson), 2 (Normal)
fe
Rejection Region R
f 2
Contoh Soal
Di dalam bisnis, kedatangan acak seringkali diasumsikan terdistribusi Poisson. Distribusi ini dicirikan dengan rata-rata kedatangan per suatu interval. Misalkan seorang supervisi meyakini bahwa kedatangan acak di suatu bank terdistribusi Poisson dan akan menguji hipotesa ini dengan mengumpulkan informasi. Data berikut ini menunjukkan distribusi frekuensi kedatangan pada interval satu menit di bank tersebut, Gunakan = 0.05 untuk menentukan apakah kedatangan acak memang terdistribusi Poisson
( )
2 R : 2 > ,k 1c
1- 0
2 ,k 1c
2 dengan derajat
bebas k-1-c
12
Data
Banyaknya kedatangan 0 1 2 3 4 >5 Frekuensi yang diamati fo 7 18 25 17 12 5
Jawab
H0: distribusi yang diamati sama dengan distribusi yang diduga (Poisson) Ha: distribusi yang diamati tidak sama dengan distribusi yang diduga (Poisson) c = 1 (hanya 1 parameter yang diestimasi, yaitu ) k=6 df = k 1 c = 6 1 1 = 4 = 5% R: 2 > 2 0.05,4 = 9.488
Estimasi parameter
Banyaknya kedatangan 0 1 2 3 4 >5 Jumlah Frekuensi yang diamati fo 7 18 25 17 12 5 84 Kedatangan * Frekuensi yang diamati 0 18 50 51 48 25 192
192 = 2. 3 = 84
(rata-rata kedatangan per menit)
Statistik uji 2
Banyaknya kedatangan 0 1 2 3 4 >5 Frekuensi yang diamati fo 7 118 25 17 12 5 Jumlah Frekuensi yang diduga fe 8.42 19.37 22.28 17.08 9.82 7.03
( fo fe )2 fe
0.24 0.10 0.33 0.00 0.48 0.59 2 = 1.74
Karena 2 ada di luar R, maka pertahankan H0. Artinya, memang waktu kedatangan terdistribusi Poisson.
13
Uji Hipotesa
H0: kedua variabel kategori independen (tidak saling bergantung) Ha: kedua variabel kategori saling bergantung Statistik uji: ( f f )2 2 = o e df = (r 1)(c 1) r= banyaknya baris c = banyaknya kolom f0 = frekuensi hasil pengamatan fe = frekuensi yang diduga = eij ni = total baris i nj = total kolom j N = total semua frekuensi
fe
AB
ni n j N
Jika A dan B independen, maka P(AB) = P(A) * P(B) Note: P(AB) dapat ditulis P(AB), dibaca Probabilitas (A dan B terjadi)
Rejection Region R
f ( 2 )
Contoh Soal
Apakah jenis minuman yang dipesan di sebuah restoran pada saat makan siang tidak bergantung pada usia pemesannya? Polling acak pada 309 pemesan minuman pada saat makan siang di restoran ditunjukkan pada tabel berikut. Gunakan = 0.05 untuk menentukan apakah kedua variabel tidak saling bergantung.
1-
0
2 ,(r 1)(c1)
2 dengan derajat
bebas (r-1)(c-1)
Data
Minuman yang dipesan Teh/Kopi 21-34 Usia 35-55 >55 26 41 24 Minuman Lain-lain ringan (susu dll) 95 40 13 18 20 32
Jawab
H0: jenis minuman yang dipesan tidak bergantung pada usia pemesan Ha: jenis minuman yang dipesan bergantung pada usia pemesan Statistik uji 2
2 =
( fo fe ) fe
14
Statistik uji
2 =
= 59.41
139 101 69 309
Karena 2 > 9.4877 maka H0 ditolak. Artinya, jenis minuman yang dipesan pada saat makan siang di suatu restoran bergantung pada usia pemesannya. Dengan MINITAB: Stat Table ChiSquare Test
Row 1 2 3
C1 26 41 24
C2 95 40 13
C3
Expected counts are printed below observed counts
18 20 32
Total 139
101
69
sama dengan yang telah dihitung
Total Chi-Sq =
309
Bagian 5
Statistika Nonparametrik
Teknik-teknik statistika yang didasarkan atas asumsi mengenai populasi yang diambil sampelnya. Contoh: pada uji t diasumsikan populasi terdistribusi normal. Sebutan parametrik digunakan karena pada uji t ini yang diuji adalah parameter (yaitu rata-rata populasi) Membutuhkan data kuantitatif dengan level interval atau rasio
15
Runs Test
Runs Test satu sampel adalah pengujian nonparametrik untuk menguji keacakan (randomness) H0: pengamatan pada sampel terjadi secara acak Ha: pengamatan pada sampel terjadi secara tidak acak Ide:
PWPWPWPWPWPWPWPWPW tidak acak (banyaknya runs = 18) PPPPPPPPPWWWWWWWWW tidak acak (banyaknya runs = 2) Jadi: jika runs terlalu banyak atau terlalu sedikit tidak acak
Contoh
Apakah sequence ini terjadi secara acak? = 0.05. DCCCCCDCCDCCCCDCDCCCDDDCCC JAWAB H0: pengamatan pada sampel terjadi secara acak Ha: pengamatan pada sampel terjadi secara tidak acak n1 = 18 (banyaknya C) n2 = 8 (banyaknya D) R = 12 Dengan n1 = 18 dan n2 = 8: Jadi, daerah penolakan adalah R < 7 dan R > 17. Karena R = 12 berada di luar daerah penolakan, maka H0 diterima. Artinya, sequence tersebut terjadi secara acak
dari tabel A11: Rkritis = 7 dari tabel A12: Rkritis = 17
16
Runs Test: C1
C1 K = 0.5000
The observed number of runs = 12 The expected number of runs = 12.0769 8 Observations above K 18 below * N Small -- The following approximation may be invalid The test is significant at 0.9710 Cannot reject at alpha = 0.05
R = R =
Karena p-value > , maka pertahankan Ho. Artinya urutan data tersebut memang acak
R R
Daerah penolakan
Z
2
17
R =
2n1n2 + 1 = 17 n1 + n2
Dengan = 0.05, daerah penolakan adalah jika |z| > z0.025 = 1.96. Karena z = -1.81 berada di luar daerah penolakan, maka pertahankan H0. Artinya, data tersebut memang terjadi secara acak. Dengan MINITAB: Stat Nonparametrics Runs Test
The observed number of runs = 13 The expected number of runs = 17.0000 40 Observations above K 10 below * N Small -- The following approximation may be invalid The test is significant at 0.0707 Cannot reject at alpha = 0.05
Karena p-value > , maka pertahankan Ho. Artinya urutan data tersebut memang acak
Prosedur Uji U
Tetapkan satu sampel sebagai Kelompok 1 dan sampel lain sebagai Kelompok 2 Data dari kedua kelompok disatukan dengan setiap data diberi kode asal kelompoknya Data yang telah digabungkan diberi peringkat dari 1 (nilai terkecil) sampai n Jumlah peringkat dari kelompok 1 dihitung dan diberi simbol W1 Jumlah peringkat dari kelompok 2 dihitung dan diberi simbol W2 Langkah selanjutnya: bergantung apakah sampelnya kecil atau besar
Contoh
Apakah ada perbedaan antara honor per jam pekerja kesehatan dengan pekerja pendidikan? Misalkan diambil sampel acak dari 7 pekerja kesehatan dan 8 pekerja pendidikan. Semua pekerja tersebut diwawancara dan ditanya honor perjamnya, sebagaimana tercantum di dalam tabel berikut. Lakukan pengujian Mann-Whitney U untuk menentukan apakah kedua populasi berbeda di dalam penerimaan honor. Gunakan = 5%.
U adalah yang terkecil di antara U1 dan U2 Catatan: salah satu Ui saja yang perlu dihitung, sedangkan U yang satu lagi dapat dihitung dengan Uj = n1n2 Ui. Gunakan Tabel A13 untuk mendapatkan nilai p untuk U yang telah dihitung. Untuk menggunakan Tabel A13, tetapkan n1 adalah yang kecil dan n2 adalah yang besar (n1 < n2) Nilai p pada Tabel A13 adalah untuk uji satu sisi. Untuk uji dua sisi, nilai p nya adalah 2 kali yang ada pada Tabel A13.
18
Data (sampel)
Pekerja Kesehatan ($) 20.10 19.80 22.36 18.75 21.90 22.96 20.75 Pekerja Pendidikan ($) 26.19 23.88 25.50 21.64 24.85 25.30 24.12 23.45
Jawab
Karena populasi tidak dapat diasumsikan normal, maka uji t 2 sampel tidak dapat digunakan (meskipun level data adalah rasio). Jadi digunakan uji U H0: populasi honor pekerja kesehatan dan pekerja pendidikan identik Ha: populasi honor pekerja kesehatan dan pekerja pendidikan tidak identik n1 = 7 dan n2 = 8 = 5%
Honor per jam 18.75 19.80 20.10 20.75 21.64 21.90 22.36 22.96 23.45 23.88 24.12 24.85 25.30 25.50 26.19
Peringkat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Kelompok H H H H E H H H E E E E E E E
W1 = 1 + 2 + 3 + 4 + 6 + 7 + 8 = 31 W2 = 5 + 9 + 10 + 11 + 12 + 13 + 14 + 15 = 89 7 *8 31 = 53 2 8*9 U 2 = 7 *8 + 89 = 3 2 U = min(U1 ,U 2 ) = 3 U1 = 7 * 8 +
Dari Tabel A13 untuk n1 = 7, n2 = 8, dan U = 3, didapatkan nilai p untuk uji 1 sisi adalah 0.0011. Untuk uji 2 sisi, nilai p = 2 * 0.0011 = 0.0022. Karena nilai p < , maka tolak H0. Artinya, populasi honor pekerja kesehatan dan pekerja pendidikan tidak identik. Catatan: terlihat bahwa pada umumnya pekerja pendidikan menerima honor lebih tinggi dari pada pekerja kesehatan
19
Mann-Whitney Test and CI: H, E H N = 7 Median = 20.750 E N = 8 Median = 24.485 Point estimate for ETA1-ETA2 is -3.385 95.7 Percent CI for ETA1-ETA2 is (-5.370,-1.551) W = 31.0 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0046
Ekivalen dengan p-value (nilai p) Sedikit berbeda dengan Tabel A13, hanya karena pembulatan angka
Karena nilai p < , maka tolak H0. Artinya, populasi honor pekerja kesehatan dan pekerja pendidikan tidak identik
n1n2 2 n n (n + n + 1) U = 1 2 1 2 12
U =
Contoh
Apakah uang yang dibelanjakan oleh karyawan untuk makan siang ke restoran sama saja dengan yang ke warung? Untuk menguji hal ini, seorang peneliti mengumpulkan data acak dari karyawan yang makan siang ke restoran dan yang ke warung. Gunakan = 1%.
z=
U U
Daerah penolakan
Z
2
Warung ($) 2.75 3.29 4.53 3.61 3.10 4.29 2.25 2.97 4.01 3.68 3.15 2.97 4.05 3.60
Restoran ($) 4.10 4.75 3.95 3.50 4.25 4.98 5.75 4.10 2.70 3.65 5.11 4.80 6.25 3.89 4.80 5.50 n2 = 16
Jawab
H0: populasi pengeluaran uang makan siang untuk karyawan yang ke warung sama dengan yang ke restoran Ha: populasi pengeluaran uang makan siang untuk karyawan yang ke warung tidak sama dengan yang ke restoran n1 > 10 dan n2 > 10, maka gunakan Uji U untuk sampel besar = 0.01. Apabila nilai p < maka tolak H0.
n1 = 14
20
Nilai 2.25 2.70 2.75 2.97 2.97 3.10 3.15 3.29 3.50 3.60 3.61 3.65 3.68 3.89 3.95
Kelompok W R W W W W W W R W W R W R R
Nilai 4.01 4.05 4.10 4.10 4.25 4.29 4.53 4.75 4.80 4.80 4.98 5.11 5.50 5.75 6.25
Kelompok W W R R R W W R R R R R R R R
uji 2 sisi
Nilai p untuk z = -3.03 adalah 2 * 0.0012 = 0.0024 < tolak H0. Artinya: populasi pengeluaran uang makan siang untuk karyawan yang ke warung tidak sama dengan yang ke restoran Dengan MINITAB:
Mann-Whitney Test and CI: W, R W N = 14 Median = 3.445 R N = 16 Median = 4.500 Point estimate for ETA1-ETA2 is -1.065 95.2 Percent CI for ETA1-ETA2 is (-1.700,-0.460) W = 144.0 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0026 The test is significant at 0.0026 (adjusted for ties)
p-value
Uji Wilcoxon (seperti juga uji t) digunakan untuk menganalisis data pada 2 kelompok yang berkaitan, termasuk kasus before-and-after di mana orang atau objek yang sama diamati pada dua kondisi yang berbeda Jenis data pada Wilcoxon: serendah-rendahnya level ordinal Asumsi Uji Wilcoxon
Pasangan data diambil secara acak Distribusi populasi: simetris
21
Contoh
Seorang peneliti melakukan survey mengenai biaya pemeliharaan kesehatan yang dikeluarkan oleh keluarga di kota A dan B. Peneliti tersebut mengambil enam pasang keluarga yang dipadankan secara demografis di kota A dan B. Dari keenam pasang keluarga tersebut dicatat biaya pemeliharaan kesehatan pada tahun yang lalu (dalam USD). Dengan menggunakan = 0.05, lakukan pengujian untuk menentukan apakah ada perbedaan signifikan di dalam pengeluaran biaya kesehatan di antara kedua kota tersebut Pasangan keluarga 1 2 3 4 5 6 A 1950 1840 2015 1580 1790 1925 B 1760 1870 1810 1660 1340 1765
Jawab
Karena populasi tidak dapat diasumsikan normal, maka digunakan Uji Wilcoxon (bukan uji t), meskipun datanya berlevel rasio H0: Md = 0 versus Ha: Md 0 = 0.05. n = 6 (< 15) sampel kecil
Kel 1 2 3 4 5 6
Peringkat +4 -1 +5 -2 +6 +3
T+ = 4+5+6+3 = 18 T- = 1+2 = 3 T = min (T- dan T+) = min (18 dan 3) = 3 n = 6, = 0.05 (Tabel A14, two-tailed test) Tkritis = 1. Karena T>Tkritis maka pertahankan H0. Artinya tidak cukup bukti bahwa pengeluaran biaya kesehatan di kedua kota berbeda
Contoh
Sebuah perusahaan berupaya meningkatkan produktivitas dengan menerapkan kontrol kualitas. Untuk meneliti apakah penerapan kontrol kualitas tersebut memang berhasil meningkatkan produksi, diambil sampel dari 20 pekerja dan dicatat produksi dari masing-masing pekerja sebelum dan sesudah penerapan kontrol kualitas tersebut. Gunakan Uji Wilcoxon dan = 0.01 untuk membuktikan apakah kontrol kualitas tersebut memang berhasil meningkatkan produksi.
n( n + 1) 4 n (n + 1)( 2n + 1) T = 24
T =
Statistik uji:
z=
T T
22
Pekerja
Before
After
d = Before After -6 -5 0 -2 -2 1 -2 1 -4 -2 -4 -5 -5 -2 -1 1 -1 -3 -1 -3
Peringkat -19 -17 Hapus -9 -9 +3.5 -9 +3.5 -14.5 -9 -14.5 -17 -17 -9 -3.5 +3.5 -3.5 -12.5 -3.5 -12.5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
5 4 9 6 3 8 7 10 3 7 2 5 4 5 8 7 9 5 4 3
11 9 9 8 5 7 9 9 7 9 6 10 9 7 9 6 10 8 5 6
H0: Md = 0 versus Ha: Md < 0 T- = 179.5 T+ = 10.5 T = min(179.5, 10.5) = 10.5 n = 19 (1 data dengan d = 0 dihapus) Menghitung statistik uji: n ( n + 1) 19 * 20 T = = = 95 4 4 n (n + 1)( 2n + 1) 19 * 20 * 39 T = = = 24.8 24 24 T T 10.5 95 z= = = 3.41 T 24.8
Dengan = 0.01, daerah penolakan: z < -z0.01 = -2.33 Karena z terletak di daerah penolakan (-3.41 < -2.33), maka tolak H0. Artinya: memang benar bahwa setelah ada program kontrol kualitas, produktivitas meningkat Dengan MINITAB: Stat Nonparametric 1 sample Wilcoxon
R: z < -2.33 Distribusi normal standar
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Before 5 4 9 6 3 8 7 10 3 7 2 5 4 5 8 7 9 5 4 3
After 11 9 9 8 5 7 9 9 7 9 6 10 9 7 9 6 10 8 5 6
d -6 -5 0 -2 -2 1 -2 1 -4 -2 -4 -5 -5 -2 -1 1 -1 -3 -1 -3
= 0.01
0.99
-3.41
z 0
z0.01 = 2.33
Uji Kruskal-Wallis
< 0.000000 Estimated Median -2.000
Test of median = 0.000000 versus median N for Test 19 Wilcoxon Statistic 10.5
N 20
P 0.000
Statistik Uji: T
Uji Kruskal-Wallis: menentukan apakah semua kelompok berasal dari populasi yang sama, ataukah sedikitnya satu kelompok berasal dari populasi yang berbeda Banyak kelompok = c (>2)
23
( )
2 R : K > , c 1
c = banyaknya kelompok n = total banyaknya items Tj = total peringkat pada satu kelompok j nj = banyaknya items pada satu kelompok j K terdistribusi 2 dengan df = c-1
1- 0
2 , c 1
2 dengan derajat
bebas c-1
Contoh
Seorang peneliti dalam bidang agrobisnis tertarik untuk menentukan kondisi yang dapat menyebabkan pertumbuhan bibit cemara secara lebih cepat. Ia mencoba pada 24 bibit cemara yang diberi kondisi berbeda (lihat tabel). Hasil pengamatan setelah setahun adalah tinggi bibit (dalam in.). Dengan menggunakan = 0.01, lakukan Uji Kruskal-Wallis untuk menentukan apakah ada perbedaan signifikan pada keempat kondisi tersebut terhadap pertumbuhan bibit cemara.
Data pengamatan
Kelompok 1: alami
Kelompok 4: ditambah air & vertilizer 18 20 16 15 14 22 K3 10 16.5 7.5 19.5 21 13 K4 22 23 19.5 18 16.5 24
8 5 7 11 9 6
10 12 11 9 13 12 K1 4 1 3 10 5.5 2
K2 7.5 13 10 5.5 15 13
Peringkat
Dengan MINITAB
Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Respons 8 5 7 11 9 6 10 12 11 9 13 12 11 14 10 16 17 12 18 20 16 15 14 22
Faktor 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4
K=
12 ( 4588.6) 3( 24 + 1) = 16.77 24 * 25
df = 4 1 = 3. = 0.01. Daerah penolakan R: K > 20.01,3 = 11.345. Karena K ada di R, maka tolak H0. Artinya ada perbedaan signifikan pada berbagai kondisi terhadap pertumbuhan bibit cemara
24
Kruskal-Wallis Test: Respons versus Faktor Kruskal-Wallis Test on Respons Faktor 1 2 3 4 Overall H = 16.77 H = 16.86 N 6 6 6 6 24 DF = 3 DF = 3 Median 7.500 11.500 13.000 17.000 Ave Rank 4.3 10.7 14.6 20.5 12.5 Z -3.30 -0.73 0.83 3.20
statistik uji: K
Uji Friedman
Statistika Parametrik: randomized block design. Asumsi: populasi terdistribusi normal, data interval atau rasio Statistika Nonparametrik: uji Friedman. Asumsi: populasi tidak harus terdistribusi normal, data serendah-rendahnya peringkat Asumsi lain pada Uji Friedman:
Setiap blok independen Tidak ada interaksi antara blok dan treatment Pengamatan di dalam setiap blok dapat dijadikan peringkat
Contoh
Sebuah riset pemasaran ingin mempelajari kinerja lemari es dari 5 merk yang berbeda (merk A, B, C, D, dan E). Untuk itu, sepuluh orang yang berpotensi menjadi pembeli lemari es diminta memberi peringkat pada kelima merk lemari es tersebut. Gunakan Uji Friedman dan = 0.01 untuk menentukan apakah ada perbedaan yang signifikan pada peringkat kelima merk lemari es tersebut.
df = c - 1 c = banyaknya kolom (treatment levels) b = banyaknya baris (blok) Rj = total peringkat pada kolom j; j = 1, 2, c
25
Orang 1 2 3 4 5 6 7 8 9 10 Rj Rj2
Merk 1 3 1 3 2 5 1 4 2 2 3 26 676
Merk 2 5 3 4 3 4 5 1 3 4 5 37 1369
Merk 3 2 2 5 1 2 3 3 4 5 4 31 961
Merk 4 4 4 2 4 1 4 2 5 3 2 31 961
Merk 5 1 5 1 5 3 2 5 1 1 1 25 625
Jawab
H0: Populasi kelima merk sama Ha: Sedikitnya satu populasi merk berperingkat lebih tinggi dibandingkan populasi merk lainnya b = 10 c=5 df = c 1 = 5 1 = 4 = 0.01 Dengan = 0.01 dan df = 4, didapatkan 20.01,4 = 13.2767. Jadi tolak H0 apabila 2 > 13.2767.
R
j =1
2 j
= 4592
2 =
Karena 2 < 13.2767, maka pertahankan H0 Artinya, dari kelima merk tersebut, tidak ada yang kinerjanya menonjol dibandingkan lainnya MINITAB: Stat Nonparametric Friedman
Friedman test for Peringka by Merk blocked by Orang S = 3.68 DF = 4 P = 0.451 Est Median 2.300 4.000 3.000 3.000 1.700 2.800 Sum of Ranks 26.0 37.0 31.0 31.0 25.0
p-value. Karena p-value >, maka pertahankan H0.
N 10 10 10 10 10 =
Contoh
Apakah ada hubungan kuat antara harga minyak mentah (per barrel) dan harga BBM (per galon) di pompa bensin? Untuk mengestimasi asosiasi antara kedua variabel tersebut, seorang peneliti di perusahaan minyak mengunpulkan data di sebuah kota selama 9 bulan, dan mencatat rata-rata harga di setiap bulan tersebut. Hitunglah koefisien korelasi Spearman untuk data ini.
rs = 1
n(n 2 1)
6 d 2
n = banyaknya pasangan data yang dicari korelasinya d = perbedaan peringkat pada setiap pasang. Di setiap kelompok dibuat peringkatnya dari 1 sampai n. Interpretasi rs sama saja dengan interpretasi r
26
Row 1 2 3 4 5 6 7 8 9
Mentah 14.60 10.58 12.30 15.10 18.35 22.60 28.90 31.40 26.75
BBM 1.05 1.06 1.08 1.06 1.12 1.24 1.36 1.40 1.34
Mentah_P 3 1 2 4 5 6 8 9 7
BBM_P 1.0 2.5 4.0 2.5 5.0 6.0 8.0 9.0 7.0
peringkat
hasil pengamatan
perbedaan peringkat
Correlations: Mentah_P, BBM_P Pearson correlation of Mentah_P and BBM_P = 0.895 P-Value = 0.001
rs = 1
Peramalan (Forecasting)
Bagian 6
Peramalan dengan Deret Waktu (Time Series)
adalah seni dan pengetahuan untuk memrediksi masa depan. Peramalan digunakan di dalam proses pengambilan keputusan untuk membantu pebisnis menyimpulkan tentang pembelian, penjualan, produksi, dll. Contoh:
Pengamat pasar memprediksi nilai saham di tahun depan Perencana kota meramalkan krisis air di suatu kota Harga BBM akan meningkat secara tajam pada beberapa bulan yad
27
et = xt Ft
et = galat pada peramalam xt = nilai aktual Ft = nilai peramalan Deviasi Mutlak Rata-rata (Mean Absolute Deviation = MAD):
MAD =
banyaknya peramalan
MAD =
21.5 = 3.6 6
MSE =
94.6 = 15.8 6
Ft = xt 1
Ft = nilai peramalan untuk periode waktu t xt-1 = nilai untuk periode waktu t-1
28
Model Perataan
Dihitung dengan menggunakan rata-rata dari beberapa periode waktu dan menggunakan rata-rata sebagai peramalan untuk periode waktu berikutnya Contoh:
Rata-rata Sederhana Rata-rata Bergerak Rata-rata Bergerak Berbobot
Ft =
X t 1 + X t 2 + X t 3 + ..... + X t n n
Average
Error
Untuk menentukan waktu yang optimal: gunakan panjang waktu yang berbeda-beda, lalu bandingkan galatnya.
Moving Average for Shipment Data Shipment Length 12 NMissing 0 Moving Average Length 4 Accuracy Measures MAPE 6.28 MAD 80.25 MSD 9808.44
29
Shipment
x berbobot =
3M t 1 + 2M t 2 + M t 3 6
x berbobot =
4 M t 1 + 2 M t 2 + M t 3 + M t 4 8
Penghalusan Eksponensial
Digunakan untuk membobotkan data dari periode-periode waktu sebelumnya, dengan taraf kepentingan yang berkurang secara eksponensial di dalam peramalan. Dilakukan dengan mengalikan nilai aktual dengan konstanta penghalusan eksponensial di antara 0 dan 1 yang diberi simbol .
Ft +1 = X t + (1 ) Ft
Ft+1 = peramalan untuk periode waktu berikutnya (t+1) Ft = peramalan untuk periode waktu saat ini (t) Xt = nilai aktual untuk periode waktu saat ini = nilai antara 0 dan 1 yang disebut dengan konstanta penghalusan eksponensial
30
Year 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
X 1750 1742 1805 1620 1488 1376 1193 1014 1200 1288 1457 1354 1477 1474 1617 1666
= 0.2 F 1750.0 1748.4 1759.7 1731.8 1683.0 1621.6 1535.9 1431.5 1385.2 1365.8 1384.0 1378.0 1397.8 1413.0 1453.8 e -8.0 56.6 -139.7 -243.8 -307.0 -428.6 -521.9 -231.5 -97.2 91.2 -30.0 99.0 76.2 204.0 212.2 F -
= 0.5 e -8.0 59.0 -155.5 -209.8 -216.9 -291.4 -324.7 23.6 99.8 218.9 6.5 126.2 60.1 173.1 135.5 F -
= 0.8 e -8.0 61.4 -172.7 -166.5 -145.3 -212.1 -221.4 141.7 116.3 192.3 -64.5 110.1 19.0 146.8 78.4
1750.0 1746.0 1775.5 1697.8 1592.9 1484.4 1338.7 1176.4 1188.2 1238.1 1347.5 1350.8 1413.9 1443.9 1530.5
1750.0 1743.6 1792.7 1654.5 1521.3 1405.1 1235.4 1058.3 1171.7 1264.7 1418.5 1366.9 1455.0 1470.2 1587.6
31
Analisis Trend
Trend adalah arah umum jangka panjang dari suatu besaran pada suatu periode yang lebih dari 1 tahun (biasanya beberapa tahun). Salah satu cara analisis trend adalah dengan analisis regresi, dengan:
Y = besaran yang diramalkan X = periode waktu Catatan: Misalkan data yang ada adalah untuk tahun 1981 sampai 2000. Maka X adalah 1 sampai 20, bukan 1981 sampai 2000.
Di dalam analisis trend, efek musim (seasonal effects) diasumsikan tidak ada, atau sudah dieliminasi.
Langkah dekomposisi
Hilangkan efek T dan C dari setiap data sehingga:
dibagi 8
T *C * S * I = S *I T *C
S=
S *I I
TCSI/ TC *100
32
Indeks Musim
Quarter 1 2 3 4 Thn 1 102.05 94.40 Thn 2 96.85 104.63 106.35 90.34 Thn 3 100.22 106.16 99.00 97.33 Index 98.47 105.87 100.53 95.13 Thn 4 100.09 105.57 98.71 95.86 Thn 5 94.84 108.14 -
Tahun Quarter Nilai Aktual (T*C*S*I) 1 1 2 3 4 1 2 3 4 1 2 3 4 4009 4321 4224 3944 4123 4522 4657 4030 4493 4806 4551 4485
Indeks Musim 98.47 105.87 100.53 95.13 98.47 105.87 100.53 95.13 98.47 105.87 100.53 95.13
Data tanpa efek musim (Deseasonalized data) (T*C*I) 4071 4081 4202 4146 4187 4271 4632 4236 4563 4540 4327 4715
bersambung
Quarter 1 2 3 4
96.85 + 100.09 2
33
Time Series Decomposition for TCSI Multiplicative Model Data TCSI Length 20 NMissing 0 Fitted Trend Equation Yt = 4140.63 + 27.1095*t Seasonal Indices Period Index 1 0.98469 2 1.05871 3 1.00536 4 0.95124 Accuracy Measures MAPE 2.7 MAD 120.1 MSD 20983.1
Time 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 TCSI 4009 4321 4224 3944 4123 4522 4657 4030 4493 4806 4551 4485 4595 4799 4417 4258 4245 4900 4585 4533 Trend 4167.74 4194.85 4221.96 4249.07 4276.18 4303.29 4330.40 4357.51 4384.62 4411.73 4438.84 4465.95 4493.06 4520.17 4547.28 4574.38 4601.49 4628.60 4655.71 4682.82 Seasonal 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 Detrend 0.96191 1.03007 1.00048 0.92820 0.96418 1.05082 1.07542 0.92484 1.02472 1.08937 1.02527 1.00427 1.02269 1.06169 0.97135 0.93084 0.92253 1.05863 0.98481 0.96801 Deseason 4071.33 4081.38 4201.48 4146.17 4187.10 4271.23 4632.17 4236.58 4562.85 4539.49 4526.74 4714.90 4666.44 4532.87 4393.45 4476.27 4311.00 4628.27 4560.56 4765.36 Predict 4103.94 4441.13 4244.59 4041.88 4210.72 4555.94 4353.61 4145.03 4317.49 4670.74 4462.63 4248.18 4424.27 4785.55 4571.65 4351.34 4531.05 4900.35 4680.66 4454.49 Error -94.938 -120.132 -20.588 -97.884 -87.716 -33.937 303.393 -115.034 175.506 135.259 88.373 236.815 170.728 13.454 -154.646 -93.335 -286.050 -0.350 -95.665 78.514
Detrended Data
Daftar Pustaka
Black, K. 2003. Business Statistics for Contemporary Decision Making. 4th Ed. West Publishing Co. MINITAB, Inc. 2003. Meet MINITAB Release 14 for Windows Lind, D.A. 2002. Basic Statistics for Business and Economics . 4nd Ed. McGraw-Hill Companies
Terima kasih
34