Anda di halaman 1dari 34

Statistika Non Parametrik dan Penerapannya dalam Penelitian Manajemen

Bagian 1
Analisis Regresi Sederhana (Simple Regression Analysis)

Bambang Suryoatmono

Pendahuluan
Analisis Regresi: proses membuat fungsi atau model matematis yang dapat digunakan untuk memprediksi atau menentukan satu variabel dari variabel lainnya. Regresi Sederhana (bivariate linear regression): regresi yang hanya melibatkan dua variabel.
Variabel bergantung (dependent variable): variabel yang akan diprediksi (y) Variabel bebas (explanatory variable = independent variable): prediktor Hanya hubungan linear antara kedua variabel

Model-model Regresi
Model Deterministik

y = 0 + 1 x
Model Probabilistik

y = 0 + 1 x +
0 = intercept populasi 1 = kemiringan (slope) populasi

Hubungan non linear dan model regresi dengan lebih dari satu variabel bebas: model regresi berganda (multiple regression model)

Pers. Garis Regresi Sederhana

Error pada prediksi


Titik-titik data (X,Y) y Garis regresi slope

y = b0 + b1 x
b0 = intercept sampel b1 = slope sampel Keduanya dicari dengan analisis kuadrat terkecil (least square analysis): proses di mana model regresi dicari yang menghasilkan jumlah error kuadrat terkecil

intercept

Error pada prediksi x

Slope dan Intercept Sampel


SS xy = ( x x )( y y ) = xy SS xx = ( x x ) 2 = x 2 b1 = SS xy SS xx y x b1 n n (x ) 2 n xy n

Analisis Residual
Residual = error garis regresi = perbedaan antara y prediksi (dari persamaan regresi) dan y aktual = y y Tujuan analisis Residual: menguji sebagian atau seluruh asumsi yang mendasari regresi sederhana, yaitu:
Model adalah linear Suku error mempunyai varians yang konstan Semua suku error: independen Suku error terdistribusi normal

b0 = y b1 x =

Residual Plot
0 x Nonlinear Residual Plot

Residual Plot (lanjutan)


0 x Nonindependent Error Terms

0 x Nonconstant Error Variance

0 x Healthy Residual Graph

Sum of Squares of Error (SSE)


Cara alternatif untuk mempelajari error pada regresi Merupakan satu ukuran error pada regresi

Standard Error of The Estimate se


se adalah deviasi standar error pada model regresi SSE se = n2 Dapat digunakan untuk
mempelajari error pada model mengestimasi outliers

SSE = ( y y ) 2 = y 2 b0 y b1xy

Standard Error of The Estimate se (lanjutan)


y

Koefisien Determinasi r2
r2 = variabilitas variabel bergantung yang diakibatkan oleh variabel bebas x Bernilai antara 0 sampai dengan 1 r2 = 0 artinya: prediktor (x) tidak mempengaruhi variabilitas y; r2 = 1 artinya: variabilitas y seluruhnya diakibatkan oleh prediktor x

Error terdistribusi normal dengan rata-rata = 0 dan deviasi standar = se x

Koefisien Determinasi r2 (lanjutan)


SS yy = ( y y ) 2 = y 2 SS yy = SSR + SSE
regresi
2

Koefisien Korelasi Pearson


Korelasi = derajat keterkaitan antara dua variabel ( x x )( y y ) r= ( x x ) 2 ( y y ) 2
1 r 1 r = 0 tidak ada hubungan linear antara kedua variabel r = 1 ada korelasi positif sempurna antara kedua variabel r = -1 ada korelasi negatif sempurna antara kedua variabel

( y ) n

error

SSR SSE = 1 atau lebih mudah dihitung dengan r = SS yy SS yy r2 = b1 SS xx SS yy


2

0 r2 1

Contoh Koefisien Korelasi Pearson


y r = -0.57

Contoh Koefisien Korelasi Pearson (lanjutan) y


r = 0.005 x

y r = 0.69

y r = 0.034

Koefisien Korelasi Pearson r dengan MINITAB


Stat Basic Statistics Correlation

Analisis Regresi dengan MINITAB


Row 1 2 3 4 5 6 7 x 140 119 103 91 65 29 24 y 25 29 46 70 88 112 128

Stat Regression Regression

Residuals Versus x
(response is y)

Residual

-5

-10 40 90 140

Regression Analysis
p-value untuk menguji slope

Testing the Slope


Statistik uji:

The regression equation is y = 144 - 0.898 x Predictor Constant x S = 7.377 Coef 144.414 -0.89824 StDev 6.220 0.06816 T 23.22 -13.18

t=

b1 1, 0 sb se SS xx SSE n2

dengan

P 0.000 0.000

R-Sq = 97.2%

R-Sq(adj) = 96.6%

sb = se =

Analysis of Variance Source Regression Error Total se = MSE DF 1 5 6 SS 9452.7 272.1 9724.9 MS 9452.7 54.4 F 173.69 P 0.000

p-value untuk menguji overall model

SS xx = x 2

( x ) 2 n

Testing the Slope (lanjutan)


H0: 1 = 1,0 vs Ha: 1 < 1,0
Distribusi t dengan derajat bebas = n-2

Testing the Slope (lanjutan)


H0: 1 = 1,0 vs Ha: 1 > 1,0

R:: t < -t

Distribusi t dengan derajat bebas = n-2 R:: t > t

1- t

1-

t ,n 2

t ,n 2

Testing the Slope (lanjutan)


H0: 1 = 1,0 vs Ha: 1 1,0
Distribusi t dengan derajat bebas = n-2 R

Testing the Overall Model (Uji F) Tabel ANOVA


Source
Regresi Residual Error Jumlah

DF
k nk1 n1

SS
SSR SSE SSyy

MS
MSR =
MSE =

SSR k

F=

MSR MSE

1-

2
t
,n 2

SSE n - k -1

t
2

0
,n 2

t
2

Catatan: cara p-value juga dapat digunakan. Tolak H0 jika p-value <

Catatan: k = banyak variabel bebas (untuk regresi sederhana, k = 1) Derajat bebas F adalah k (pembilang) dan N-k-1 (penyebut)

Estimasi
CI untuk mengestimasi Rata-rata Bersyarat untuk y: y|x untuk harga x yang ditetapkan

MINITAB: Stat Regression Fitted Line Plot


Regression Plot
Y = 144.414 - 0.898244X R-Sq = 0.972
150

y t
2

y
50

,n 2

se

1 ( x0 x ) 2 + n SS xx

100

Interval Prediksi (PI) untuk Mengestimasi Harga Tunggal y untuk harga x yang ditetapkan

Regression 95% CI
0 40 90 140

y t
2

,n 2

se

1 (x x) 1+ + 0 n SS xx

95% PI

MINITAB: Stat Regression Regression Option

Bagian 2
Predicted Values for New Observations New Obs 1 Fit 77.05 SE Fit 2.82 95.0% CI 69.79, 84.31) 95.0% PI 56.74, 97.35)

Analisis Regresi Berganda


(

Values of Predictors for New Observations New Obs 1 x 75.0

Analisis Regresi Berganda


adalah analisis regresi dengan dua atau lebih variabel bebas atau dengan sedikitnya satu prediktor non linear Model regresi berganda probabilistik:

Estimasi y
Estimasi y dengan menggunakan informasi dari sampel

y = 0 + 1 x1 + 2 x2 + 3 x3 + ...... k xk +
k = banyaknya variabel bebas 0 = konstanta regresi i = koefieisn regresi parsial untuk variabel independen I; menunjukkan bertambahnya y apabila variabel independen I meningkat 1 unit dan variabel independen lainnya tidak berubah x2 dapat berupa x12 (suku non linear dari x1)

y = b0 + b1 x1 + b2 x2 + ......... + bk xk
y = nilai y prediksi b0 = estimasi konstanta regresi bi = estimasi koefisien regresi 1
MINITAB: Stat Regression Regression

Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Price 63.0 65.1 69.9 76.8 73.9 77.9 74.9 78.0 79.0 83.4 79.5 83.9 79.7 84.5 96.0 109.5 102.5 121.0 104.9 128.0 129.0 117.9 140.0

SqFt 1605 2489 1553 2404 1884 1558 1748 3105 1682 2470 1820 2143 2121 2485 2300 2714 2463 3076 3048 3267 3069 4765 4540

Age 35 45 20 32 25 14 8 10 28 30 2 6 14 9 19 4 5 7 3 6 10 11 8

Regression Analysis: Price versus SqFt, Age The regression equation is Price = 57.4 + 0.0177 SqFt - 0.666 Age Predictor Constant SqFt Age S = 11.96 Coef 57.35 0.017718 -0.6663 SE Coef 10.01 0.003146 0.2280 T 5.73 5.63 -2.92 P 0.000 0.000 0.008

R-Sq = 74.1%

R-Sq(adj) = 71.5%

Analysis of Variance Source Regression Residual Error Total Source SqFt Age DF 1 1 DF 2 20 22 SS 8189.7 2861.0 11050.7 Seq SS 6967.8 1221.9 MS 4094.9 143.1 F 28.63 P 0.000

Unusual Observations Obs SqFt Price 8 3105 78.00 21 3069 129.00

Fit 105.70 105.06

SE Fit 3.08 3.03

Residual -27.70 23.94

St Resid -2.40R 2.07R

R denotes an observation with a large standardized residual

Menguji Overall Model


H0: 1 = 2 = .. = k = 0 Ha: sedikitnya satu koefisien regresi 0 Statistik uji: F (lihat tabel ANOVA)

Menguji Signifikansi Koefisien Regresi


H0: 1 = 0 versus Ha: 1 0 Pada contoh di atas, nilai p untuk 1 adalah 0.000 < (= 5%) tolak H0. Artinya, variabel SqFt berpengaruh secara signifikan terhadap variabel Price. H0: 2 = 0 versus Ha: 2 0 Pada contoh di atas, nilai p untuk 2 adalah 0.008 < (= 5%) tolak H0. Artinya, variabel Age berpengaruh secara signifikan terhadap variabel Price.

F=

SSR SSE

n k 1

Pada contoh di atas: nilai p (=0.000) < (= 5%) tolak H0. Jadi, sedikitnya satu koefisien regresi 0

Residual, SSE, Standard Error of the Estimate, dan R2


Residual =

R2 adjusted
R2 selalu membesar (atau setidaknya tetap) apabila variabel bebas ditambahkan Untuk memperhitungkan
informasi tambahan pada regresi setiap kali variabel independen ditambahkan, dan Perubahan derajat bebas pada regresi, dibuatlah R2 yang disesuaikan:
2 Radj = 1

y y

SSE = ( y y ) 2
Standard Error of the Estimate

se =

SSE n k 1
SSE SS yy

Koefisien Determinasi Berganda R 2 = 1

SSE

n k 1 SS yy n 1

Model Regresi Polinomial

Bagian 3
Membangun Model Regresi Berganda

adalah model regresi yang merupakan model orde dua atau lebih. Model kuadratik adalah model regresi berganda di mana prediktornya adalah satu variabel dan kuadrat dari variabel tersebut.

y = 0 + 1 x1 + 2 x12 +

Row 1 2 3 4 5 6 7 8 9 10 11 12 13

Sales 2.1 3.6 6.2 10.4 22.8 35.6 57.1 83.5 109.4 128.6 196.8 280.0 462.3

N_of_Rep 2 1 2 3 4 4 5 5 6 7 8 10 11

N_sqr 4 1 4 9 16 16 25 25 36 49 64 100 121


dikuadratkan
500 400 300 200 100 0 0 5 10

Sales

N_of_Rep

MINITAB: Stat Regression Regression

Model Kuadratik
Regression Analysis: Sales versus N_of_Rep, N_sqr The regression equation is Sales = 18.1 - 15.7 N_of_Rep + 4.75 N_sqr Predictor Constant N_of_Rep N_sqr S = 24.59 Coef 18.07 -15.723 4.7504 SE Coef 24.67 9.550 0.7759 T 0.73 -1.65 6.12 P 0.481 0.131 0.000

R-Sq = 97.3%

R-Sq(adj) = 96.7%

Analysis of Variance Source Regression Residual Error Total DF 2 10 12 SS 215069 6048 221117 MS 107534 605 F 177.79 P 0.000

Model Linear
Regression Analysis: Sales versus N_of_Rep The regression equation is Sales = - 107 + 41.0 N_of_Rep Predictor Constant N_of_Rep S = 51.10 Coef -107.03 41.026 SE Coef 28.74 4.779 T -3.72 8.58 P 0.003 0.000

Transformasi Tukey
y2, y3, atau log x, -1/x, . y2, y3, atau x2, x3,

R-Sq = 87.0%

R-Sq(adj) = 85.8%

Analysis of Variance Source Regression Residual Error Total DF 1 11 12 SS 192395 28721 221117 MS 192395 2611 F 73.69 P 0.000 log y, -1/y, .atau log x, -1/x, . log y, -1/y, .atau x2, x3, ..

Model Regresi dengan Interaksi


y = 0 + 1 x1 + 2 x2 + 3 x1 x2 +
suku interaksi

Transformasi Model
Contoh:

y = 0 x 1

x1x2 adalah suku interaksi Di dalam proses regresi, x1x2 disubstitusi dengan variabel x3 sehingga model regresinya menjadi

jelas bukan merupakan model linear. Namun jika ditransformasi menjadi

log y = log 0 + 1 log x + y ' = 0 '+ 1 ' x' dengan y' = log y 0' = log 0 dan x' = log x

y = 0 + 1 x1 + 2 x2 + 3 x3 +

Contoh Data
Row 1 2 3 4 5 6 7 8 y 1.2 9.0 4.5 3.2 13.0 0.6 1.8 2.7 x 450 20200 9060 3500 75600 175 800 2100 log_y 0.07918 0.95424 0.65321 0.50515 1.11394 -0.22185 0.25527 0.43136 log_x 2.65321 4.30535 3.95713 3.54407 4.87852 2.24304 2.90309 3.32222

Plot x versus y
14 12 10 8

y
6 4 2 0 0 10000 20000 30000 40000 50000 60000 70000 80000

Output MINITAB
Regression Analysis: log_y versus log_x The regression equation is log_y = - 1.25 + 0.496 log_x Predictor Constant log_x S = 0.06328 Coef -1.25306 0.49611 SE Coef 0.09693 0.02713 T -12.93 18.28 P 0.000 0.000

bo = 10 1.25306 = 0.0558393
Jadi, model regresi dinyatakan dalam variabel asal adalah

y = 0.0558393 x 0.49611
Regression Plot
log_y = -1.25306 + 0.496105 log_x S = 0.0632837 R-Sq = 98.2 % R-Sq(adj) = 97.9 %

1.0

log_y

R-Sq = 98.2%

R-Sq(adj) = 97.9%

0.5

Analysis of Variance
0.0

Source Regression Residual Error Total

DF 1 6 7

SS 1.3389 0.0240 1.3629

MS 1.3389 0.0040

F 334.32

P 0.000
2 3 4 5

log_x

Variabel Indikator (dummy)


Variabel kualitatif hanya memberikan informasi data pada level nominal atau ordinal Variabel ini disebut juga dengan variabel dummy atau variabel indikator Jika variabel indikator mempunyai c kategori, maka dibutuhkan c-1 variabel dummy

Contoh Variabel Indikator


Variabel Kualitatif: Lokasi tempat tinggal. Ada 4 pilihan: Jakarta, Bandung, Surabaya, Medan (4 kategori). Jadi butuh 3 variabel dummy. Sebut saja: Jakarta, Bandung, Surabaya.
Tempat tinggal di Variabel Dummy Jkt 1 0 0 0 Bdg 0 1 0 0 Sby 0 0 1 0

Jkt Bdg Sby Mdn

Row

Salary 1.548 1.629 1.011 1.229 1.746 1.528 1.018 1.190 1.551 0.985 1.610 1.432 1.215 0.990 1.585

Age 3.2 3.8 2.7 3.4 3.6 4.1 3.8 3.4 3.3 3.2 3.5 2.9 3.3 2.8 3.5

Gender 1 1 0 0 1 1 0 0 1 0 1 1 0 0 1
The regression equation is Salary = 0.732 + 0.111 Age + 0.459 Gender Predictor Constant Age Gender S = 0.09679 Coef 0.7321 0.11122 0.45868 SE Coef 0.2356 0.07208 0.05346 T 3.11 1.54 8.58 P 0.009 0.149 0.000

Contoh

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Sq = 89.0%

R-Sq(adj) = 87.2%

Analysis of Variance Source Regression Residual Error Total DF 2 12 14 SS 0.90949 0.11242 1.02191 MS 0.45474 0.00937 F 48.54 P 0.000

Gender: 1 = male, 0 = female

Pembentukan model: Prosedur Pencarian


Problem: Misalkan ada 3 variabel bebas yang berpotensi mempengaruhi 1 variabel bergantung. Prosedur Pencarian adalah proses di mana lebih dari satu model regresi berganda dikembangkan untuk satu basis data, dan model-model tersebut dibandingkan dan disortir berdasarkan kriteria yang bergantung pada prosedur yang digunakan:
All Possible Regression Stepwise Regression Forward Selection Backward Selection

10

Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Y 101 127 98 79 118 114 110 94 96 73 108 124 82 89 76 109 123 125

X1 2 4 9 5 3 1 3 2 8 6 2 5 6 9 1 3 2 6

X2 77 72 69 53 88 53 82 61 60 64 76 74 50 57 72 74 99 81

X3 1.2 1.7 2.4 2.6 2.9 2.7 2.8 2.6 2.4 2.1 1.8 2.2 1.5 1.6 2.0 2.8 2.6 2.5

X4 42 26 47 65 37 28 29 22 48 42 34 11 61 53 72 36 17 48

MINITAB: Stat Regression Stepwise

Contoh Data

Untuk memilih Stepwise, Forward, atau Backward

Stepwise Regression: Y versus X1, X2, X3, X4 Alpha-to-Enter: 0.15 Response is Step Constant X4 T-Value P-Value X2 T-Value P-Value S R-Sq R-Sq(adj) C-p 12.6 52.46 49.49 3.4 Y 1 133.53 -0.78 -4.20 0.001 on Alpha-to-Remove: 0.15

Stepwise Regression: y versus x1, x2, x3, x4

Forward selection.

Alpha-to-Enter: 0.1 on 4 predictors, with N = 18

4 predictors, with N =

18

Response is

2 91.01 -0.60 -3.22 0.006 0.51 2.15 0.048 11.4 63.69 58.85 1.3

Step Constant

1 133.53 -0.78 -4.20 0.001

2 91.01 -0.60 -3.22 0.006 0.51 2.15 0.048

Kesimpulan: hanya x2 dan x4 yang sebaiknya digunakan dalam model. Variabel x1 dan x3 tidak signifikan terhadap perubahan y.

x4 T-Value P-Value x2 T-Value P-Value S R-Sq R-Sq(adj) C-p

Kesimpulan: hanya x2 dan x4 yang sebaiknya digunakan dalam model. Variabel x1 dan x3 tidak signifikan terhadap perubahan y.

12.6 52.46 49.49 3.4

11.4 63.69 58.85 1.3

Stepwise Regression: y versus x1, x2, x3, x4 Backward elimination. Response is y Alpha-to-Remove: 0.1 on 4 predictors, with N = 18

Step Constant x1 T-Value P-Value x2 T-Value P-Value x3 T-Value P-Value x4 T-Value P-Value S R-Sq R-Sq(adj) C-p

1 83.96 0.6 0.50 0.623 0.53 2.04 0.062 1.4 0.23 0.824 -0.61 -2.98 0.011 12.1 64.49 53.57 5.0

2 86.93 0.6 0.51 0.617 0.54 2.16 0.049

3 91.01

Bagian 4
0.51 2.15 0.048

Kesimpulan: hanya x2 dan x4 yang sebaiknya digunakan dalam model. Variabel x1 dan x3 tidak signifikan terhadap perubahan y.

Analisis Data Kategori:


Chi-Square Goodness of Fit Test Chi-Square Test of Independence

-0.62 -3.18 0.007 11.7 64.35 56.71 3.1

-0.60 -3.22 0.006 11.4 63.69 58.85 1.3

11

Data Kategori
adalah data non numerik yang merupakan hitungan frekuensi dua atau lebih kategori dari satu atau lebih variabel Contoh:
60 50

Chi-Square Goodness of Fit Test


digunakan untuk menganalisis probabilitas trial distribusi multinomial pada satu dimensi. Contoh: Kelas ekonomi (satu dimensi) dengan kemungkinan outcome:
Kelas bawah Kelas menengah Kelas atas

40

30

Membandingkan frekuensi kategori teoritis (expected) dari populasi, dengan frekuensi kategori aktual (observed), apakah sama atau tidak sama.
A B C D E

Sum of Frek

20

Nilai

Contoh
Frekuensi O 53 Frekuensi E 57 30 21 26 21

Uji Hipotesa
H0: distribusi yang diamati sama dengan distribusi yang diduga Ha: distribusi yang diamati tidak sama dengan distribusi yang diduga Statistik uji: ( fo fe )2 2

Bwh

Menengah

Atas

Kelas Ekonomi dibandingkan

Bwh

Menengah

Atas

Kelas Ekonomi

O = Observed (yang diamati, aktual) E = Expected (yang diduga, teoritis)

df = k 1 c f0 = frekuensi hasil pengamatan fe = frekuensi yang diduga k= banyaknya kategori c = banyaknya parameter yang diestimasi dari data sampel, miaslnya 0 (uniform), 1 (Poisson), 2 (Normal)

fe

Rejection Region R
f 2

Contoh Soal
Di dalam bisnis, kedatangan acak seringkali diasumsikan terdistribusi Poisson. Distribusi ini dicirikan dengan rata-rata kedatangan per suatu interval. Misalkan seorang supervisi meyakini bahwa kedatangan acak di suatu bank terdistribusi Poisson dan akan menguji hipotesa ini dengan mengumpulkan informasi. Data berikut ini menunjukkan distribusi frekuensi kedatangan pada interval satu menit di bank tersebut, Gunakan = 0.05 untuk menentukan apakah kedatangan acak memang terdistribusi Poisson

( )
2 R : 2 > ,k 1c

1- 0

2 ,k 1c

2 dengan derajat
bebas k-1-c

12

Data
Banyaknya kedatangan 0 1 2 3 4 >5 Frekuensi yang diamati fo 7 18 25 17 12 5

Jawab
H0: distribusi yang diamati sama dengan distribusi yang diduga (Poisson) Ha: distribusi yang diamati tidak sama dengan distribusi yang diduga (Poisson) c = 1 (hanya 1 parameter yang diestimasi, yaitu ) k=6 df = k 1 c = 6 1 1 = 4 = 5% R: 2 > 2 0.05,4 = 9.488

Estimasi parameter
Banyaknya kedatangan 0 1 2 3 4 >5 Jumlah Frekuensi yang diamati fo 7 18 25 17 12 5 84 Kedatangan * Frekuensi yang diamati 0 18 50 51 48 25 192

Frekuensi yang diduga


Banyaknya kedatangan 0 1 2 3 4 >5 Jumlah Probabilitas yang diduga (Poisson dengan = 2.3) 0.1003 0.2306 0.2652 0.2033 0.1169 0.0837 Frekuensi yang diduga fe 8.42 19.37 22.28 17.08 9.82 7.03 84

192 = 2. 3 = 84
(rata-rata kedatangan per menit)

Statistik uji 2
Banyaknya kedatangan 0 1 2 3 4 >5 Frekuensi yang diamati fo 7 118 25 17 12 5 Jumlah Frekuensi yang diduga fe 8.42 19.37 22.28 17.08 9.82 7.03

( fo fe )2 fe
0.24 0.10 0.33 0.00 0.48 0.59 2 = 1.74

Contingency Analysis: Chi-Square Test of Independence


digunakan untuk menganalisis frekuensi dua variabel dengan kategori berganda untuk menentukan apakah kedua variabel independen Contoh: Penghasilan setahun (dalam juta rupiah):
a. < 20 juta b. 20 juta sampai dengan 30 juta c. > 30 juta

Jenis BBM yang biasa digunakan:


a. solar b. premium c. premix

Karena 2 ada di luar R, maka pertahankan H0. Artinya, memang waktu kedatangan terdistribusi Poisson.

13

Review tentang Probabilitas


A B

Uji Hipotesa
H0: kedua variabel kategori independen (tidak saling bergantung) Ha: kedua variabel kategori saling bergantung Statistik uji: ( f f )2 2 = o e df = (r 1)(c 1) r= banyaknya baris c = banyaknya kolom f0 = frekuensi hasil pengamatan fe = frekuensi yang diduga = eij ni = total baris i nj = total kolom j N = total semua frekuensi
fe

AB

ni n j N

Jika A dan B independen, maka P(AB) = P(A) * P(B) Note: P(AB) dapat ditulis P(AB), dibaca Probabilitas (A dan B terjadi)

Rejection Region R
f ( 2 )

Contoh Soal
Apakah jenis minuman yang dipesan di sebuah restoran pada saat makan siang tidak bergantung pada usia pemesannya? Polling acak pada 309 pemesan minuman pada saat makan siang di restoran ditunjukkan pada tabel berikut. Gunakan = 0.05 untuk menentukan apakah kedua variabel tidak saling bergantung.

2 R : 2 > ,(r 1)(c1)

1-
0

2 ,(r 1)(c1)

2 dengan derajat

bebas (r-1)(c-1)

Data
Minuman yang dipesan Teh/Kopi 21-34 Usia 35-55 >55 26 41 24 Minuman Lain-lain ringan (susu dll) 95 40 13 18 20 32

Jawab
H0: jenis minuman yang dipesan tidak bergantung pada usia pemesan Ha: jenis minuman yang dipesan bergantung pada usia pemesan Statistik uji 2

2 =

r=3 c=3 df = (3-1)(3-1) = 4 = 5% R: 2 > 2 0.05,4 = 9.4877

( fo fe ) fe

14

Menghitung frekuensi yang diduga fe


Minuman yang dipesan Minuman Lain-lain Teh/Kopi ringan (susu dll) (31.49) (40.94) (66.58) 18 26 95 (29.74) 41 (20.32) 24 91 (48.38) 40 (33.05) 13 148 (22.88) 20 (15.63) 32 70

Statistik uji
2 =
= 59.41
139 101 69 309

( fo fe )2 (26 40.94)2 (95 66.58)2 (3215.63)2 = + + ..........+ . 40.94 66.58 15.63 fe

21-34 Usia 35-55 >55

139 *148 e12 = = 66.58 309

69 * 91 e31 = = 20.32 309

Karena 2 > 9.4877 maka H0 ditolak. Artinya, jenis minuman yang dipesan pada saat makan siang di suatu restoran bergantung pada usia pemesannya. Dengan MINITAB: Stat Table ChiSquare Test

Chi-Square Test: C1, C2, C3

Row 1 2 3

C1 26 41 24

C2 95 40 13

C3
Expected counts are printed below observed counts

18 20 32

C1 26 40.94 41 29.74 24 20.32 91

C2 95 66.58 40 48.38 13 33.05 148

C3 18 31.49 20 22.88 32 15.63 70

Total 139

101

69
sama dengan yang telah dihitung

Total Chi-Sq =

309

5.449 4.259 0.666 DF = 4, P-Value

+ 12.135 + 5.778 + + 1.450 + 0.363 + + 12.162 + 17.142 = 59.405 = 0.000


< tolak H0.

Statistika Parametrik vs Statistika Nonparametrik


Statistika Parametrik:

Bagian 5
Statistika Nonparametrik

Teknik-teknik statistika yang didasarkan atas asumsi mengenai populasi yang diambil sampelnya. Contoh: pada uji t diasumsikan populasi terdistribusi normal. Sebutan parametrik digunakan karena pada uji t ini yang diuji adalah parameter (yaitu rata-rata populasi) Membutuhkan data kuantitatif dengan level interval atau rasio

15

Statistika Parametrik vs Statistika Nonparametrik (lanjutan)


Statistika Nonparametrik:
Cocok untuk data yang tidak memenuhi asumsi statistika parametrik atau yang berjenis kualitatif Disebut juga distribution-free statistics Didasarkan atas lebih sedikit asumsi mengenai populasi dan parameter dibandingkan dengan statistika parametrik. Ada yang dapat digunakan untuk data nominal Ada yang dapat digunakan untuk data ordinal

Keuntungan Statistika Nonparametrik


Kadang-kadang tidak ada alternatifnya pada statistika parametrik Uji nonparametrik tertentu dapat digunakan untuk analisis data nominal Uji nonparametrik tertentu dapat digunakan untuk analisis data ordinal Proses perhitungan pada statistika nonparametrik biasanya lebih sederhana dibandingkan pada statistika parametrik, khususnya untuk sampel kecil

Kekurangan Statistika Nonparametrik


Uji nonparametrik menjadi tak berguna apabila uji parametrik untuk data yang sama tersedia Uji nonparametrik pada umumnya tidak tersedia secara luas dibandingkan dengan uji parametrik Untuk sampel besar, perhitungan untuk statistika nonparametrik menjadi rumit

Runs Test
Runs Test satu sampel adalah pengujian nonparametrik untuk menguji keacakan (randomness) H0: pengamatan pada sampel terjadi secara acak Ha: pengamatan pada sampel terjadi secara tidak acak Ide:
PWPWPWPWPWPWPWPWPW tidak acak (banyaknya runs = 18) PPPPPPPPPWWWWWWWWW tidak acak (banyaknya runs = 2) Jadi: jika runs terlalu banyak atau terlalu sedikit tidak acak

Runs Test dengan Sampel Kecil


Sampel kecil: n1 < 20 dan n2 < 20 R = banyaknya runs Rkritis pada Tabel A11: P(R<Rkritis) < 0.025 Rkritis pada Tabel A12: P(R>Rkritis) < 0.025 0.025 adalah /2. Jadi = 0.05.
Daerah penolakan Daerah penolakan

Contoh
Apakah sequence ini terjadi secara acak? = 0.05. DCCCCCDCCDCCCCDCDCCCDDDCCC JAWAB H0: pengamatan pada sampel terjadi secara acak Ha: pengamatan pada sampel terjadi secara tidak acak n1 = 18 (banyaknya C) n2 = 8 (banyaknya D) R = 12 Dengan n1 = 18 dan n2 = 8: Jadi, daerah penolakan adalah R < 7 dan R > 17. Karena R = 12 berada di luar daerah penolakan, maka H0 diterima. Artinya, sequence tersebut terjadi secara acak
dari tabel A11: Rkritis = 7 dari tabel A12: Rkritis = 17

R Rkritis tabel A11 Rkritis tabel A12

16

Solusi dengan MINITAB


Dapat digunakan untuk sampel kecil maupun besar Ubah data menjadi 1 dan 0 saja, tulis di sebuah kolom
Data Display C1 1 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 1 1 1 0 1 0 0

Stat Nonparametrics Runs Test

Runs Test: C1

sama dengan yang telah diperoleh, R

Runs Test dengan Sampel Besar


Untuk n1 dan n2 besar, distribusi sampling untuk R akan mendekati distribusi normal dengan ratarata dan deviasi standar sbb:

C1 K = 0.5000

The observed number of runs = 12 The expected number of runs = 12.0769 8 Observations above K 18 below * N Small -- The following approximation may be invalid The test is significant at 0.9710 Cannot reject at alpha = 0.05

R = R =

2n1n2 +1 n1 + n2 2n1n2 (2n1n2 n1 n2 ) (n1 + n2 ) 2 (n1 + n2 1)

Karena p-value > , maka pertahankan Ho. Artinya urutan data tersebut memang acak

Ekivalen dengan p-value (nilai p)

Runs Test dengan Sampel Besar (lanjutan)


H0: pengamatan pada sampel terjadi secara acak Ha: pengamatan pada sampel terjadi secara tidak acak Statistik uji z =

Runs Test dengan Sampel Besar (lanjutan)


Apakah sequence ini terjadi secara acak? Gunakan = 5% NNN F NNNNNNN F NN FF NNNNNN F NNNN F NNNNNN FFFF NNNNNNNNNNNN JAWAB H0: pengamatan pada sampel terjadi secara acak Ha: pengamatan pada sampel terjadi secara tidak acak n1 = 40 (banyaknya N) n2 = 10 (banyaknya F) R = 13 (banyaknya runs) R R Statistik uji z=

R R

Distribusi Normal Standar Daerah penolakan 1-


Z
2

Daerah penolakan

Z
2

Daerah penolakan : Z > Z


2

17

R =

2n1n2 + 1 = 17 n1 + n2

Runs Test: C1 C1 K = 0.5000

2n1n2 ( 2n1n2 n1 n2 ) R = = 2.213 (n1 + n2 ) 2 (n1 + n2 1) z= 13 17 = 1.81 2.213

Dengan = 0.05, daerah penolakan adalah jika |z| > z0.025 = 1.96. Karena z = -1.81 berada di luar daerah penolakan, maka pertahankan H0. Artinya, data tersebut memang terjadi secara acak. Dengan MINITAB: Stat Nonparametrics Runs Test

The observed number of runs = 13 The expected number of runs = 17.0000 40 Observations above K 10 below * N Small -- The following approximation may be invalid The test is significant at 0.0707 Cannot reject at alpha = 0.05

Karena p-value > , maka pertahankan Ho. Artinya urutan data tersebut memang acak

Ekivalen dengan p-value (nilai p)

Mann-Whitney Test (Uji U)


adalah Uji nonparametrik untuk membandingkan dua populasi independen (pada statistika parametrik: Uji t) Populasi tidak harus terdistribusi normal (Pada uji t: harus normal) Level data serendah-rendahnya ordinal (uji t tidak dapat) Hipotesa yang diuji:
H0: kedua populasi identik Ha: kedua populasi tidak identik

Prosedur Uji U
Tetapkan satu sampel sebagai Kelompok 1 dan sampel lain sebagai Kelompok 2 Data dari kedua kelompok disatukan dengan setiap data diberi kode asal kelompoknya Data yang telah digabungkan diberi peringkat dari 1 (nilai terkecil) sampai n Jumlah peringkat dari kelompok 1 dihitung dan diberi simbol W1 Jumlah peringkat dari kelompok 2 dihitung dan diberi simbol W2 Langkah selanjutnya: bergantung apakah sampelnya kecil atau besar

Uji U pada Sampel Kecil: n1 < 10 dan n2 < 10


Hitung U1 dan U2

Contoh
Apakah ada perbedaan antara honor per jam pekerja kesehatan dengan pekerja pendidikan? Misalkan diambil sampel acak dari 7 pekerja kesehatan dan 8 pekerja pendidikan. Semua pekerja tersebut diwawancara dan ditanya honor perjamnya, sebagaimana tercantum di dalam tabel berikut. Lakukan pengujian Mann-Whitney U untuk menentukan apakah kedua populasi berbeda di dalam penerimaan honor. Gunakan = 5%.

U adalah yang terkecil di antara U1 dan U2 Catatan: salah satu Ui saja yang perlu dihitung, sedangkan U yang satu lagi dapat dihitung dengan Uj = n1n2 Ui. Gunakan Tabel A13 untuk mendapatkan nilai p untuk U yang telah dihitung. Untuk menggunakan Tabel A13, tetapkan n1 adalah yang kecil dan n2 adalah yang besar (n1 < n2) Nilai p pada Tabel A13 adalah untuk uji satu sisi. Untuk uji dua sisi, nilai p nya adalah 2 kali yang ada pada Tabel A13.

n1 (n1 + 1) W1 dan 2 n (n + 1) U 2 = n1n2 + 2 2 W2 2 U1 = n1n2 +

18

Data (sampel)
Pekerja Kesehatan ($) 20.10 19.80 22.36 18.75 21.90 22.96 20.75 Pekerja Pendidikan ($) 26.19 23.88 25.50 21.64 24.85 25.30 24.12 23.45

Jawab
Karena populasi tidak dapat diasumsikan normal, maka uji t 2 sampel tidak dapat digunakan (meskipun level data adalah rasio). Jadi digunakan uji U H0: populasi honor pekerja kesehatan dan pekerja pendidikan identik Ha: populasi honor pekerja kesehatan dan pekerja pendidikan tidak identik n1 = 7 dan n2 = 8 = 5%

Honor per jam 18.75 19.80 20.10 20.75 21.64 21.90 22.36 22.96 23.45 23.88 24.12 24.85 25.30 25.50 26.19

Peringkat 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Kelompok H H H H E H H H E E E E E E E

W1 = 1 + 2 + 3 + 4 + 6 + 7 + 8 = 31 W2 = 5 + 9 + 10 + 11 + 12 + 13 + 14 + 15 = 89 7 *8 31 = 53 2 8*9 U 2 = 7 *8 + 89 = 3 2 U = min(U1 ,U 2 ) = 3 U1 = 7 * 8 +

atau dihitung dengan 7*8 53 = 3

H = Health = Kesehatan, E = Education = Pendidikan

Dari Tabel A13 untuk n1 = 7, n2 = 8, dan U = 3, didapatkan nilai p untuk uji 1 sisi adalah 0.0011. Untuk uji 2 sisi, nilai p = 2 * 0.0011 = 0.0022. Karena nilai p < , maka tolak H0. Artinya, populasi honor pekerja kesehatan dan pekerja pendidikan tidak identik. Catatan: terlihat bahwa pada umumnya pekerja pendidikan menerima honor lebih tinggi dari pada pekerja kesehatan

Solusi dengan MINITAB (berlaku untuk sampel kecil maupun besar)


Row 1 2 3 4 5 6 7 8 H 20.10 19.80 22.36 18.75 21.90 22.96 20.75 E 26.19 23.88 25.50 21.64 24.85 25.30 24.12 23.45

Stat Nonparametric Mann-Whitney

19

Mann-Whitney Test and CI: H, E H N = 7 Median = 20.750 E N = 8 Median = 24.485 Point estimate for ETA1-ETA2 is -3.385 95.7 Percent CI for ETA1-ETA2 is (-5.370,-1.551) W = 31.0 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0046
Ekivalen dengan p-value (nilai p) Sedikit berbeda dengan Tabel A13, hanya karena pembulatan angka

Uji U pada Sampel Besar


Untuk sampel besar (n1 > 10 dan n2 > 10), distribusi sampling untuk U akan mendekati distribusi normal dengan rata-rata dan deviasi standar sebagai berikut:

Karena nilai p < , maka tolak H0. Artinya, populasi honor pekerja kesehatan dan pekerja pendidikan tidak identik

n1n2 2 n n (n + n + 1) U = 1 2 1 2 12

U =

Uji U pada Sampel Besar (lanjutan)


H0: kedua populasi identik Ha: kedua populasi tidak identik Statistik uji

Contoh
Apakah uang yang dibelanjakan oleh karyawan untuk makan siang ke restoran sama saja dengan yang ke warung? Untuk menguji hal ini, seorang peneliti mengumpulkan data acak dari karyawan yang makan siang ke restoran dan yang ke warung. Gunakan = 1%.

z=

U U

Distribusi Normal Standar Daerah penolakan 1-


Z
2

Daerah penolakan

Z
2

Daerah penolakan : Z > Z


2

Warung ($) 2.75 3.29 4.53 3.61 3.10 4.29 2.25 2.97 4.01 3.68 3.15 2.97 4.05 3.60

Restoran ($) 4.10 4.75 3.95 3.50 4.25 4.98 5.75 4.10 2.70 3.65 5.11 4.80 6.25 3.89 4.80 5.50 n2 = 16

Jawab
H0: populasi pengeluaran uang makan siang untuk karyawan yang ke warung sama dengan yang ke restoran Ha: populasi pengeluaran uang makan siang untuk karyawan yang ke warung tidak sama dengan yang ke restoran n1 > 10 dan n2 > 10, maka gunakan Uji U untuk sampel besar = 0.01. Apabila nilai p < maka tolak H0.

n1 = 14

20

Nilai 2.25 2.70 2.75 2.97 2.97 3.10 3.15 3.29 3.50 3.60 3.61 3.65 3.68 3.89 3.95

Peringkat 1 2 3 4.5 4.5 6 7 8 9 10 11 12 13 14 15

Kelompok W R W W W W W W R W W R W R R

Nilai 4.01 4.05 4.10 4.10 4.25 4.29 4.53 4.75 4.80 4.80 4.98 5.11 5.50 5.75 6.25

Peringkat 16 17 18.5 18.5 20 21 22 23 24.5 24.5 26 27 28 29 30

Kelompok W W R R R W W R R R R R R R R

Jumlah peringkat yang dari kelompok W (Warung) = W1 = 1+3+4.5+4.5+6+7+8+10+11+13+16+17+21+22 = 144


14 *15 144 = 185 2 U 2 = 14 *16 185 = 39 U1 = 14 *16 + U = min(39,185) = 39 14 *16 = 112 U = 2 14 *16 * 31 = 24.1 U = 12 39 112 = -3.03 z= 24.1

uji 2 sisi

Nilai p untuk z = -3.03 adalah 2 * 0.0012 = 0.0024 < tolak H0. Artinya: populasi pengeluaran uang makan siang untuk karyawan yang ke warung tidak sama dengan yang ke restoran Dengan MINITAB:
Mann-Whitney Test and CI: W, R W N = 14 Median = 3.445 R N = 16 Median = 4.500 Point estimate for ETA1-ETA2 is -1.065 95.2 Percent CI for ETA1-ETA2 is (-1.700,-0.460) W = 144.0 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0026 The test is significant at 0.0026 (adjusted for ties)
p-value

Uji Peringkat Bertanda (Wilcoxon) untuk data Sepadan


Data Sepadan (matched pairs):
Statistika Parametrik: Uji t (asumsi: populasi normal) Statistika Nonparametrik: Uji Wilcoxon

Uji Wilcoxon (seperti juga uji t) digunakan untuk menganalisis data pada 2 kelompok yang berkaitan, termasuk kasus before-and-after di mana orang atau objek yang sama diamati pada dua kondisi yang berbeda Jenis data pada Wilcoxon: serendah-rendahnya level ordinal Asumsi Uji Wilcoxon
Pasangan data diambil secara acak Distribusi populasi: simetris

Prosedur Uji Wilcoxon


n = banyaknya pasangan data Urutkan perbedaan antara kedua data (d), dari yang terkecil sampai yang terbesar, tanpa memperhatikan apakah perbedaan tersebut (-) atau (+) Jika perbedaan tersebut (-) maka peringkatnya juga diberi tanda (-) Perbedaan (d) yang bernilai 0 (apabila ada) diabaikan, dan banyak data (n) dikurangi sebanyak d yang bernilai 0 Jumlahkan peringkat yang bertanda (-), sebut T-. Tanda (-) tidak ikut didalam perjumlahan Jumlahkan peringkat yang bertanda (+), sebut T+. Statistik uji: T = min (T- dan T+)

Hipotesa yang diuji pada Uji Wilcoxon


H0: Md = 0 versus Ha: Md 0 (two-tailed test) H0: Md = 0 versus Ha: Md > 0 (one-tailed test) H0: Md = 0 versus Ha: Md < 0 (one-tailed test) Catatan:
Md = median perbedaan antara kedua populasi Md = 0 berarti kedua populasi identik

21

Uji Wilcoxon untuk Sampel Kecil (n<15)


Dengan n dan , gunakan Tabel A14 (tersedia untuk one-tailed test dan twotailed test) untuk mendapatkan Tkritis. Jika T < Tkritis tolak H0.

Contoh
Seorang peneliti melakukan survey mengenai biaya pemeliharaan kesehatan yang dikeluarkan oleh keluarga di kota A dan B. Peneliti tersebut mengambil enam pasang keluarga yang dipadankan secara demografis di kota A dan B. Dari keenam pasang keluarga tersebut dicatat biaya pemeliharaan kesehatan pada tahun yang lalu (dalam USD). Dengan menggunakan = 0.05, lakukan pengujian untuk menentukan apakah ada perbedaan signifikan di dalam pengeluaran biaya kesehatan di antara kedua kota tersebut Pasangan keluarga 1 2 3 4 5 6 A 1950 1840 2015 1580 1790 1925 B 1760 1870 1810 1660 1340 1765

Jawab
Karena populasi tidak dapat diasumsikan normal, maka digunakan Uji Wilcoxon (bukan uji t), meskipun datanya berlevel rasio H0: Md = 0 versus Ha: Md 0 = 0.05. n = 6 (< 15) sampel kecil

Kel 1 2 3 4 5 6

A 1950 1840 2015 1580 1790 1925

B 1760 1870 1810 1660 1340 1765

Perbedaan d +190 -30 +205 -80 +450 +160

Peringkat +4 -1 +5 -2 +6 +3

T+ = 4+5+6+3 = 18 T- = 1+2 = 3 T = min (T- dan T+) = min (18 dan 3) = 3 n = 6, = 0.05 (Tabel A14, two-tailed test) Tkritis = 1. Karena T>Tkritis maka pertahankan H0. Artinya tidak cukup bukti bahwa pengeluaran biaya kesehatan di kedua kota berbeda

Uji Wilcoxon untuk Sampel Besar (n >15)


Untuk sampel besar distribusi sampling untuk T akan mendekati distribusi normal dengan rata-rata dan deviasi standar sebagai berikut:

Contoh
Sebuah perusahaan berupaya meningkatkan produktivitas dengan menerapkan kontrol kualitas. Untuk meneliti apakah penerapan kontrol kualitas tersebut memang berhasil meningkatkan produksi, diambil sampel dari 20 pekerja dan dicatat produksi dari masing-masing pekerja sebelum dan sesudah penerapan kontrol kualitas tersebut. Gunakan Uji Wilcoxon dan = 0.01 untuk membuktikan apakah kontrol kualitas tersebut memang berhasil meningkatkan produksi.

n( n + 1) 4 n (n + 1)( 2n + 1) T = 24

T =

Statistik uji:

z=

T T

22

Pekerja

Before

After

d = Before After -6 -5 0 -2 -2 1 -2 1 -4 -2 -4 -5 -5 -2 -1 1 -1 -3 -1 -3

Peringkat -19 -17 Hapus -9 -9 +3.5 -9 +3.5 -14.5 -9 -14.5 -17 -17 -9 -3.5 +3.5 -3.5 -12.5 -3.5 -12.5

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

5 4 9 6 3 8 7 10 3 7 2 5 4 5 8 7 9 5 4 3

11 9 9 8 5 7 9 9 7 9 6 10 9 7 9 6 10 8 5 6

H0: Md = 0 versus Ha: Md < 0 T- = 179.5 T+ = 10.5 T = min(179.5, 10.5) = 10.5 n = 19 (1 data dengan d = 0 dihapus) Menghitung statistik uji: n ( n + 1) 19 * 20 T = = = 95 4 4 n (n + 1)( 2n + 1) 19 * 20 * 39 T = = = 24.8 24 24 T T 10.5 95 z= = = 3.41 T 24.8

Dengan = 0.01, daerah penolakan: z < -z0.01 = -2.33 Karena z terletak di daerah penolakan (-3.41 < -2.33), maka tolak H0. Artinya: memang benar bahwa setelah ada program kontrol kualitas, produktivitas meningkat Dengan MINITAB: Stat Nonparametric 1 sample Wilcoxon
R: z < -2.33 Distribusi normal standar

Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Before 5 4 9 6 3 8 7 10 3 7 2 5 4 5 8 7 9 5 4 3

After 11 9 9 8 5 7 9 9 7 9 6 10 9 7 9 6 10 8 5 6

d -6 -5 0 -2 -2 1 -2 1 -4 -2 -4 -5 -5 -2 -1 1 -1 -3 -1 -3

= 0.01

0.99

-3.41

z 0

z0.01 = 2.33

Wilcoxon Signed Rank Test: d

Uji Kruskal-Wallis
< 0.000000 Estimated Median -2.000

Test of median = 0.000000 versus median N for Test 19 Wilcoxon Statistic 10.5

Statistika Parametrik: Anova Satu Arah. Asumsi:


Populasi terdistribusi normal Setiap kelompok Independen Varians populasi sama Data acak

N 20

P 0.000

Statistika Nonparametrik: Uji Kruskal-Wallis. Asumsi:


Tidak ada asumsi tentang bentuk populasi Setiap kelompok Independen Data acak

Statistik Uji: T

p-value. Karena p-value < , maka tolak H0.

Uji Kruskal-Wallis: menentukan apakah semua kelompok berasal dari populasi yang sama, ataukah sedikitnya satu kelompok berasal dari populasi yang berbeda Banyak kelompok = c (>2)

23

Prosedur Uji Kruskal-Wallis


Data dari setiap kelompok diberi peringkat dari 1 (terkecil), dengan memandang seolah-olah semuanya berasal dari 1 kelompok. Hitung statistik uji K:
K=
2 12 c T j 3( n + 1) j =1 n n( n + 1) j

Prosedur Uji Kruskal-Wallis (lanjutan)


H0: seluruh c populasi identik Ha: sedikitnya 1 populasi berbeda Daerah penolakan: selalu di kanan, yaitu: R: K > 2, c-1
f 2

( )
2 R : K > , c 1

c = banyaknya kelompok n = total banyaknya items Tj = total peringkat pada satu kelompok j nj = banyaknya items pada satu kelompok j K terdistribusi 2 dengan df = c-1

1- 0
2 , c 1

2 dengan derajat
bebas c-1

Contoh
Seorang peneliti dalam bidang agrobisnis tertarik untuk menentukan kondisi yang dapat menyebabkan pertumbuhan bibit cemara secara lebih cepat. Ia mencoba pada 24 bibit cemara yang diberi kondisi berbeda (lihat tabel). Hasil pengamatan setelah setahun adalah tinggi bibit (dalam in.). Dengan menggunakan = 0.01, lakukan Uji Kruskal-Wallis untuk menentukan apakah ada perbedaan signifikan pada keempat kondisi tersebut terhadap pertumbuhan bibit cemara.
Data pengamatan

Kelompok 1: alami

Kelompok 2: ditambah air

Kelompok 3: ditambah vertilizer 11 14 10 16 17 12

Kelompok 4: ditambah air & vertilizer 18 20 16 15 14 22 K3 10 16.5 7.5 19.5 21 13 K4 22 23 19.5 18 16.5 24

8 5 7 11 9 6

10 12 11 9 13 12 K1 4 1 3 10 5.5 2

K2 7.5 13 10 5.5 15 13

Peringkat

T1 = 25.5 T2 = 64.0 T3 = 87.5 T4 = 123 n1 = 6 n2 = 6 n3 = 6 n4 = 6 T j2 25.52 642 87.52 1232 n = 6 + 6 + 6 + 6 = 4588.6 j =1 j


4

Dengan MINITAB

Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

Respons 8 5 7 11 9 6 10 12 11 9 13 12 11 14 10 16 17 12 18 20 16 15 14 22

Faktor 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4

K=

12 ( 4588.6) 3( 24 + 1) = 16.77 24 * 25

df = 4 1 = 3. = 0.01. Daerah penolakan R: K > 20.01,3 = 11.345. Karena K ada di R, maka tolak H0. Artinya ada perbedaan signifikan pada berbagai kondisi terhadap pertumbuhan bibit cemara

Stat Nonparametric Kruskal-Wallis

24

Kruskal-Wallis Test: Respons versus Faktor Kruskal-Wallis Test on Respons Faktor 1 2 3 4 Overall H = 16.77 H = 16.86 N 6 6 6 6 24 DF = 3 DF = 3 Median 7.500 11.500 13.000 17.000 Ave Rank 4.3 10.7 14.6 20.5 12.5 Z -3.30 -0.73 0.83 3.20

P = 0.001 P = 0.001 (adjusted for ties)

statistik uji: K

p-value. Karena p-value <, maka tolak H0.

Uji Friedman
Statistika Parametrik: randomized block design. Asumsi: populasi terdistribusi normal, data interval atau rasio Statistika Nonparametrik: uji Friedman. Asumsi: populasi tidak harus terdistribusi normal, data serendah-rendahnya peringkat Asumsi lain pada Uji Friedman:
Setiap blok independen Tidak ada interaksi antara blok dan treatment Pengamatan di dalam setiap blok dapat dijadikan peringkat

Prosedur Uji Friedman


H0: Populasi treatment sama Ha: Sedikitnya satu populasi treatment menghasilkan nilai lebih besar dari sedikitnya satu populasi treatment lain Hitung peringkat di dalam setiap blok (tidak dicampur dengan blok lain), kecuali apabila datanya memang berlevel peringkat

Statistik Uji pada Uji Friedman


2 =
c 12 R 2j 3b(c + 1) bc(c + 1) j =1

Contoh
Sebuah riset pemasaran ingin mempelajari kinerja lemari es dari 5 merk yang berbeda (merk A, B, C, D, dan E). Untuk itu, sepuluh orang yang berpotensi menjadi pembeli lemari es diminta memberi peringkat pada kelima merk lemari es tersebut. Gunakan Uji Friedman dan = 0.01 untuk menentukan apakah ada perbedaan yang signifikan pada peringkat kelima merk lemari es tersebut.

df = c - 1 c = banyaknya kolom (treatment levels) b = banyaknya baris (blok) Rj = total peringkat pada kolom j; j = 1, 2, c

25

Orang 1 2 3 4 5 6 7 8 9 10 Rj Rj2

Merk 1 3 1 3 2 5 1 4 2 2 3 26 676

Merk 2 5 3 4 3 4 5 1 3 4 5 37 1369

Merk 3 2 2 5 1 2 3 3 4 5 4 31 961

Merk 4 4 4 2 4 1 4 2 5 3 2 31 961

Merk 5 1 5 1 5 3 2 5 1 1 1 25 625

Jawab
H0: Populasi kelima merk sama Ha: Sedikitnya satu populasi merk berperingkat lebih tinggi dibandingkan populasi merk lainnya b = 10 c=5 df = c 1 = 5 1 = 4 = 0.01 Dengan = 0.01 dan df = 4, didapatkan 20.01,4 = 13.2767. Jadi tolak H0 apabila 2 > 13.2767.

R
j =1

2 j

= 4592

2 =

c 12 12 R 2j 3b(c + 1) = 10 * 5 * 6 4592 3 *10 * 6 = 3.68 bc (c + 1) j =1

Karena 2 < 13.2767, maka pertahankan H0 Artinya, dari kelima merk tersebut, tidak ada yang kinerjanya menonjol dibandingkan lainnya MINITAB: Stat Nonparametric Friedman

Friedman Test: Peringkat versus Merk, Orang


statistik uji 2

Friedman test for Peringka by Merk blocked by Orang S = 3.68 DF = 4 P = 0.451 Est Median 2.300 4.000 3.000 3.000 1.700 2.800 Sum of Ranks 26.0 37.0 31.0 31.0 25.0
p-value. Karena p-value >, maka pertahankan H0.

Merk 1 2 3 4 5 Grand median

N 10 10 10 10 10 =

Korelasi Peringkat Spearman


Ukuran asosiasi antara dua variabel yang berjenis interval atau rasio: koefisien korelasi Person Untuk dua variabel berjenis ordinal, ukuran asosiasinya adalah koefisien korelasi Spearman

Contoh
Apakah ada hubungan kuat antara harga minyak mentah (per barrel) dan harga BBM (per galon) di pompa bensin? Untuk mengestimasi asosiasi antara kedua variabel tersebut, seorang peneliti di perusahaan minyak mengunpulkan data di sebuah kota selama 9 bulan, dan mencatat rata-rata harga di setiap bulan tersebut. Hitunglah koefisien korelasi Spearman untuk data ini.

rs = 1

n(n 2 1)

6 d 2

n = banyaknya pasangan data yang dicari korelasinya d = perbedaan peringkat pada setiap pasang. Di setiap kelompok dibuat peringkatnya dari 1 sampai n. Interpretasi rs sama saja dengan interpretasi r

26

Row 1 2 3 4 5 6 7 8 9

Mentah 14.60 10.58 12.30 15.10 18.35 22.60 28.90 31.40 26.75

BBM 1.05 1.06 1.08 1.06 1.12 1.24 1.36 1.40 1.34

Mentah_P 3 1 2 4 5 6 8 9 7

BBM_P 1.0 2.5 4.0 2.5 5.0 6.0 8.0 9.0 7.0
peringkat

d 2.0 -1.5 -2.0 1.5 0.0 0.0 0.0 0.0 0.0

d2 4.00 2.25 4.00 2.25 0.00 0.00 0.00 0.00 0.00

Solusi dengan MINITAB


Tulis data di Mentah dan BBM Data Rank. Rank data in Mentah, Store ranks in Mentah_P Data Rank. Rank data in BBM, Store ranks in BBM_P Stat Basic Statistics Correlation. Variables: Mentah_P BBM_P

hasil pengamatan

perbedaan peringkat

= 12.5 6 d 6 *12.5 = 1 = 0.89583 n(n 2 1) 9(92 1)


2

Correlations: Mentah_P, BBM_P Pearson correlation of Mentah_P and BBM_P = 0.895 P-Value = 0.001

rs = 1

Peramalan (Forecasting)

Bagian 6
Peramalan dengan Deret Waktu (Time Series)

adalah seni dan pengetahuan untuk memrediksi masa depan. Peramalan digunakan di dalam proses pengambilan keputusan untuk membantu pebisnis menyimpulkan tentang pembelian, penjualan, produksi, dll. Contoh:
Pengamat pasar memprediksi nilai saham di tahun depan Perencana kota meramalkan krisis air di suatu kota Harga BBM akan meningkat secara tajam pada beberapa bulan yad

Data Deret Waktu


adalah data yang dikumpulkan mengenai suatu karakteristik tertentu pada suatu periode waktu atau interval yang teratur digunakan untuk memrediksi sesuatu di masa yang akan datang

Komposisi Deret Waktu

27

Komposisi Deret Waktu


Trend: arah umum jangka panjang suatu data Cycle: pola tinggi rendahnya data pada periode waktu yang lebih dari satu tahun Seasonal effects: siklus data yang terjadi pada periode waktu kurang dari 1 tahun Irregular fluctuations: perubahan cepat pada data pada selang waktu jauh lebih pendek dibandingkan seasonal effects

Pengukuran Galat pada Peramalan


Galat peramalan individual:

et = xt Ft
et = galat pada peramalam xt = nilai aktual Ft = nilai peramalan Deviasi Mutlak Rata-rata (Mean Absolute Deviation = MAD):

MAD =

banyaknya peramalan

Pengukuran Galat pada Peramalan (lanjutan)


Galat Kuadrat Rata-rata (Mean Square Error = MSE): ei2 MSE = banyaknya peramalan Pemilihan pengukuran galat pada peramalan bergantung pada peneliti. Masing-masing cara menghasilkan informasi yang berbeda.

Contoh perhitungan MAD dan MSE


i 1 2 3 4 5 6 Aktual 19.4 23.6 24.0 26.8 29.2 35.5 Peramalan 16.6 19.1 22.0 24.8 25.9 28.6 ei 2.8 4.5 2.0 2.0 3.3 6.9 Jumlah abs(e) 2.8 4.5 2.0 2.0 3.3 6.9 21.5 e2 7.8 20.3 4.0 4.0 10.9 47.6 94.6

MAD =

21.5 = 3.6 6

MSE =

94.6 = 15.8 6

Cara-cara Penghalusan (Smoothing Techniques)


adalah cara-cara untuk menghilangkan efek tak teratur pada data deret waktu. antara lain:
Model peramalan naif Model Perataan Penghalusan eksponensial

Model peramalan naif


Adalah model sederhana yang menggunakan asumsi bahwa data pada periode waktu yang lebih mutakhir merepresentasikan prediksi atau peramalan untuk masa yang akan datang. Cocok untuk data deret waktu yang selang waktunya adalah harian atau mingguan, atau yang tidak menunjukkan trend atau seasonality.

Ft = xt 1
Ft = nilai peramalan untuk periode waktu t xt-1 = nilai untuk periode waktu t-1

28

Model Perataan
Dihitung dengan menggunakan rata-rata dari beberapa periode waktu dan menggunakan rata-rata sebagai peramalan untuk periode waktu berikutnya Contoh:
Rata-rata Sederhana Rata-rata Bergerak Rata-rata Bergerak Berbobot

Rata-rata Sederhana (Simple Average)


Peramalan untuk periode waktu t adalah ratarata dari nilai sejumlah tertentu periode waktu di masa lalu:

Ft =

X t 1 + X t 2 + X t 3 + ..... + X t n n

Rata-rata Bergerak (Moving Average)


Adalah rata-rata yang diperbarui atau dihitung ulang untuk setiap periode waktu yang baru yang ditinjau. Keuntungan: Informasi yang lebih baru digunakan pada setiap rata-rata bergerak yang baru. Kerugian:
Sulit untuk menentukan panjang waktu yang optimal untuk menghitung rata-rata bergerak Rata-rata bergerak biasanya tidak mengoreksi efek-efek deret waktu seperti trend, cycles, dan seasonality.

Contoh Rata-rata Bergerak 4 bulan


Month Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Shipment 1056 1345 1381 1191 1259 1361 1110 1334 1416 1282 1341 1382 1243.25 1294.00 1298.00 1230.25 1266.00 1305.25 1285.50 1343.25 15.75 67.00 -188.00 103.75 150.00 -23.25 55.50 38.75
output

Average

Error

Untuk menentukan waktu yang optimal: gunakan panjang waktu yang berbeda-beda, lalu bandingkan galatnya.

MINITAB: Stat -> Time Series -> Moving Average

Moving Average for Shipment Data Shipment Length 12 NMissing 0 Moving Average Length 4 Accuracy Measures MAPE 6.28 MAD 80.25 MSD 9808.44

29

Moving Average Plot for Shipment


1450 1400 1350 1300 1250 1200 1150 1100 1050 Oct Nov Dec Jan Feb Mar Apr May Jun Month Jul Aug Sep
Variable A ctual Fits Mov ing Av erage Length 4 A ccuracy Measures MAPE 6.28 MAD 80.25 MSD 9808.44

Rata-rata Bergerak Berbobot (Weighted Moving Average)


Adalah rata-rata bergerak yang menggunakan bobot yang berbeda antara suatu periode waktu dengan periode waktu lainnya. Pembagi (penyebut) adalah jumlah total bobot untuk setiap periode waktu. Contoh: misalnya untuk rata-rata bergerak berbobot 3 bulan, bobot untuk bulan ke 1 adalah 1, ke 2 adalah 2, dan ke tiga, adalah 3. Rumusnya adalah:

Shipment

x berbobot =

3M t 1 + 2M t 2 + M t 3 6

Contoh Rata-rata Bergerak Berbobot


Untuk data shipment di atas, carilah rata-rata bergerak berbobot dengan menggunakan bobot: 4 untuk bulan terakhir, 2 untuk bulan sebelumnya, dan 1 untuk bulan lainnya. Panjang waktu untuk rata-rata bergerak adalah 4 bulan. Rumus umum untuk kasus ini:

Contoh Rata-rata Bergerak Berbobot (lanjutan)


Month Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec Shipment 1056 1345 1381 1191 1259 1361 1110 1334 1416 1282 1341 1382 1240.88 1268.00 1316.75 1201.50 1272.00 1350.38 1300.50 1334.75 18.13 93.00 -206.75 132.50 144.00 -68.38 40.50 47.25 Average Error

x berbobot =

4 M t 1 + 2 M t 2 + M t 3 + M t 4 8

Penghalusan Eksponensial
Digunakan untuk membobotkan data dari periode-periode waktu sebelumnya, dengan taraf kepentingan yang berkurang secara eksponensial di dalam peramalan. Dilakukan dengan mengalikan nilai aktual dengan konstanta penghalusan eksponensial di antara 0 dan 1 yang diberi simbol .

Contoh Penghalusan Eksponensial


Untuk data tahunan X berikut ini (dari 1984 sampai dengan 1999), gunakanlah penghalusan eksponensial untuk meramalkan nilai untuk setiap periode waktu. Gunakanlah = 0.2, 0.5, dan 0.8

Ft +1 = X t + (1 ) Ft
Ft+1 = peramalan untuk periode waktu berikutnya (t+1) Ft = peramalan untuk periode waktu saat ini (t) Xt = nilai aktual untuk periode waktu saat ini = nilai antara 0 dan 1 yang disebut dengan konstanta penghalusan eksponensial

30

Year 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999

X 1750 1742 1805 1620 1488 1376 1193 1014 1200 1288 1457 1354 1477 1474 1617 1666

= 0.2 F 1750.0 1748.4 1759.7 1731.8 1683.0 1621.6 1535.9 1431.5 1385.2 1365.8 1384.0 1378.0 1397.8 1413.0 1453.8 e -8.0 56.6 -139.7 -243.8 -307.0 -428.6 -521.9 -231.5 -97.2 91.2 -30.0 99.0 76.2 204.0 212.2 F -

= 0.5 e -8.0 59.0 -155.5 -209.8 -216.9 -291.4 -324.7 23.6 99.8 218.9 6.5 126.2 60.1 173.1 135.5 F -

= 0.8 e -8.0 61.4 -172.7 -166.5 -145.3 -212.1 -221.4 141.7 116.3 192.3 -64.5 110.1 19.0 146.8 78.4

Contoh perhitungan untuk = 0.2


1984: F belum ada 1985: F = mengambil data aktual tahun 1984 1986: F = 0.2X1985 + 0.8F1985 = 0.2*1742 + 0.8*1750 = 1748.4 1987: F = 0.2X1986 + 0.8F1986 = 0.2* 1805+ 0.8*1748.4 = 1759.7 e = X F setiap tahun

1750.0 1746.0 1775.5 1697.8 1592.9 1484.4 1338.7 1176.4 1188.2 1238.1 1347.5 1350.8 1413.9 1443.9 1530.5

1750.0 1743.6 1792.7 1654.5 1521.3 1405.1 1235.4 1058.3 1171.7 1264.7 1418.5 1366.9 1455.0 1470.2 1587.6

MINITAB: Stat -> Time Series -> Single Exp. Smoothing

Single Exponential Smoothing Plot for X


1900 1800 1700 1600 1500 X 1400 1300 1200 1100 1000 2 4 6 8 10 Index 12 14 16
Variable A ctual Fits Smoothing C onstant A lpha 0.2 A ccuracy Measures MA PE 13.2 MA D 171.7 MSD 50440.5

31

Single Exponential Smoothing Plot for X


1900 1800 1700 1600 1500 X 1400 1300 1200 1100 1000 2 4 6 8 10 Index 12 14 16
Variable A ctual Fits Smoothing C onstant A lpha 0.5 A ccuracy Measures MA PE 9.8 MA D 131.8 MSD 27217.7

Single Exponential Smoothing Plot for X


1900 1800 1700 1600 1500 X 1400 1300 1200 1100 1000 2 4 6 8 10 Index 12 14 16
Variable A ctual Fits Smoothing C onstant A lpha 0.8 A ccuracy Measures MA PE 8.6 MA D 116.0 MSD 18214.9

Analisis Trend
Trend adalah arah umum jangka panjang dari suatu besaran pada suatu periode yang lebih dari 1 tahun (biasanya beberapa tahun). Salah satu cara analisis trend adalah dengan analisis regresi, dengan:
Y = besaran yang diramalkan X = periode waktu Catatan: Misalkan data yang ada adalah untuk tahun 1981 sampai 2000. Maka X adalah 1 sampai 20, bukan 1981 sampai 2000.

Efek Musim (Seasonal Effects)


Efek musim adalah pola perilaku data yang terjadi pada periode waktu kurang dari 1 tahun. Dekomposisi dengan model perkalian: T*C*S*I
T = trend C = cyclicality S = seasonality I = irregularity

Di dalam analisis trend, efek musim (seasonal effects) diasumsikan tidak ada, atau sudah dieliminasi.

Langkah dekomposisi
Hilangkan efek T dan C dari setiap data sehingga:

dibagi 8

T *C * S * I = S *I T *C

Hilangkan efek I sehingga hanya tersisa efek S

S=

S *I I
TCSI/ TC *100

32

Indeks Musim
Quarter 1 2 3 4 Thn 1 102.05 94.40 Thn 2 96.85 104.63 106.35 90.34 Thn 3 100.22 106.16 99.00 97.33 Index 98.47 105.87 100.53 95.13 Thn 4 100.09 105.57 98.71 95.86 Thn 5 94.84 108.14 -

Tahun Quarter Nilai Aktual (T*C*S*I) 1 1 2 3 4 1 2 3 4 1 2 3 4 4009 4321 4224 3944 4123 4522 4657 4030 4493 4806 4551 4485

Indeks Musim 98.47 105.87 100.53 95.13 98.47 105.87 100.53 95.13 98.47 105.87 100.53 95.13

Data tanpa efek musim (Deseasonalized data) (T*C*I) 4071 4081 4202 4146 4187 4271 4632 4236 4563 4540 4327 4715
bersambung

Quarter 1 2 3 4

96.85 + 100.09 2

Tidak ikut dirata-rata (yang terbesar dan terkecil)

MINITAB: Stat -> Time Series -> Decomposition


Tahun Quarter Nilai Aktual (T*C*S*I) 4 1 2 3 4 1 2 3 4 4595 4799 4417 4258 4245 4900 4585 4533 Indeks Musim 98.47 105.87 100.53 95.13 98.47 105.87 100.53 95.13 Data tanpa efek musim (Deseasonalized data) (T*C*I) 4666 4533 4394 4476 4311 4628 4561 4765

33

Time Series Decomposition for TCSI Multiplicative Model Data TCSI Length 20 NMissing 0 Fitted Trend Equation Yt = 4140.63 + 27.1095*t Seasonal Indices Period Index 1 0.98469 2 1.05871 3 1.00536 4 0.95124 Accuracy Measures MAPE 2.7 MAD 120.1 MSD 20983.1
Time 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 TCSI 4009 4321 4224 3944 4123 4522 4657 4030 4493 4806 4551 4485 4595 4799 4417 4258 4245 4900 4585 4533 Trend 4167.74 4194.85 4221.96 4249.07 4276.18 4303.29 4330.40 4357.51 4384.62 4411.73 4438.84 4465.95 4493.06 4520.17 4547.28 4574.38 4601.49 4628.60 4655.71 4682.82 Seasonal 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 0.98469 1.05871 1.00536 0.95124 Detrend 0.96191 1.03007 1.00048 0.92820 0.96418 1.05082 1.07542 0.92484 1.02472 1.08937 1.02527 1.00427 1.02269 1.06169 0.97135 0.93084 0.92253 1.05863 0.98481 0.96801 Deseason 4071.33 4081.38 4201.48 4146.17 4187.10 4271.23 4632.17 4236.58 4562.85 4539.49 4526.74 4714.90 4666.44 4532.87 4393.45 4476.27 4311.00 4628.27 4560.56 4765.36 Predict 4103.94 4441.13 4244.59 4041.88 4210.72 4555.94 4353.61 4145.03 4317.49 4670.74 4462.63 4248.18 4424.27 4785.55 4571.65 4351.34 4531.05 4900.35 4680.66 4454.49 Error -94.938 -120.132 -20.588 -97.884 -87.716 -33.937 303.393 -115.034 175.506 135.259 88.373 236.815 170.728 13.454 -154.646 -93.335 -286.050 -0.350 -95.665 78.514

Time Series Decomposition Plot for TCSI


Multiplicative Model 5000 4800 4600 TCSI 4400 4200 4000 2 4 2 4 2 4 Quarter 2 4 2 4
Variable A ctual Fits Trend A ccuracy Measures MA PE 2.7 MA D 120.1 MSD 20983.1

Component Analysis for TCSI


Multiplicative Model
Original Data
4750 Data 4500 4250 4000 4 4 4 Quarter 4 4 Detr. Data 200 0 -200 4 4 4 Quarter 4 4

Detrended Data

4750 4500 4250 4000 4 4 4 Quarter 4 4

Seas. A dj. and Detr. Data

Seasonally Adjusted Data


Seas. A dj. Data

Seasonally Adj. and Detrended Data


200 0 -200 4 4 4 Quarter 4 4

Daftar Pustaka
Black, K. 2003. Business Statistics for Contemporary Decision Making. 4th Ed. West Publishing Co. MINITAB, Inc. 2003. Meet MINITAB Release 14 for Windows Lind, D.A. 2002. Basic Statistics for Business and Economics . 4nd Ed. McGraw-Hill Companies

Terima kasih

34

Anda mungkin juga menyukai