Anda di halaman 1dari 19

Analisis Statistik dan

Probabilitas
Uji Kecocokan

Untuk pengujian antara data hasil analisis dengan data hasil pengamatan
dil k k
dilakukan
uji
ji kecocokan,
k
k
yang b
bertujuan:
t j
- untuk memberikan informasi kedekatan suatu distribusi data
analisis dengan data hasil pengamatan.
- untuk menguji kelayakan suatu fungsi distribusi.

Terdapat empat metode yang digunakan untuk pengujian, yaitu:


1. Rata
Rata--rata persentase error, untuk menguji fungsi
kerapatan probabilitas (PDF) dan fungsi kerapatan
kumulatif (CDF);
2. Deviasi, untuk menguji fungsi kerapatan probabilitas
(PDF) dan fungsi kerapatan kumulatif (CDF)
3. ChiChi-kuadrat, untuk menguji fungsi kerapatan probabilitas
(PDF).
4. Kolmogorov
Kolmogorov--Smirnov, untuk menguji fungsi kerapatan
kumulatif (CDF).

1.1 RataRata-rata Persentase Error


Pengujian ini untuk menentukan nilai persentase kesalahan antara nilai
analitis dan lapangan. Secara matematika dinyatakan sebagai:

1 N xi xi
100%

N i =1 xi

dimana:
xi = nilai analitis
xi = nilai aktual
i = nomor urut data (1, 2, 3, , N)
N = jumlah data

Jika nilai ratarata-rata persentase error mendekati atau lebih dari 100%, maka
suatu fungsi memiliki nilai kepercayaan error sangat besar,
besar berarti fungsi
distribusi tidak cocok dengan data lapangan. Sebaliknya jika mendekati 0
%, maka fungsi distribusi memiliki nilai kepercayaan error kecil, dimana
dungsi distribusi cocok dengan data lapangan.

Contoh:
Diberikan tabel tinggi dan perida gelombang individu pada tabel dibawah.
Tentukan persentase error antara PDF Rayleigh dan PDF Normal.
Bandingkan hasilnya.
Hi
(meter)

Ti
(detik)

Hi
(meter)

Ti
(detik)

Hi
(meter)

Ti
(detik)

Hi
(meter)

Ti
(detik)

1.75

4.59

0.83

3.99

0.58

2.89

0.34

3.51

1.63

4.67

0.82

3.83

0.57

2.86

0.34

4.95

1.54

4.60

0.82

5.16

0.57

4.74

0.34

2.75

1.33

3.58

0.82

5.64

0.57

3.75

0.33

2.56

1.30

4.51

0.80

5.39

0.57

3.90

0.32

2.64

1.29

4.57

0.80

4.97

0.57

4.88

0.31

1.80

1.22

3.79

0.79

5.18

0.55

4.25

0.31

1.45

1.19

4.48

0.79

5.81

0.54

2.95

0.31

2.84

1.15

4.55

0.78

3.96

0.54

2.77

0.30

4.45

1.13
1.12
1.11
1.10
1.08
1.08
1.07
1.07
1.07
1.06
1.06
1.03
1.01
1.01
1.00
1.00
1.00
1.00
0.96
0.96
0.95
0.92
0.91
0.89
0 88
0.88
0.87
0.87
0.86
0.85
0.85
0.84
0.83

3.90
3.80
4.66
3.75
3.91
4.40
4.24
4.62
4.21
3.64
3.79
3.98
4.31
4.75
4.01
4.16
4.22
4.23
4.01
4.99
4.56
5.62
3.39
4.95
5 54
5.54
4.27
3.94
4.42
4.25
3.86
4.93
3.95

0.78
0.77
0.77
0.77
0.75
0.75
0.74
0.73
0.72
0.71
0.71
0.71
0.70
0.69
0.68
0.68
0.66
0.66
0.66
0.66
0.65
0.64
0.64
0.64
0 64
0.64
0.63
0.63
0.62
0.61
0.60
0.59
0.59

3.89
4.93
4.63
3.19
5.60
4.09
4.63
5.18
4.81
3.38
3.65
5.50
5.52
4.09
3.75
6.24
4.83
3.89
3.53
4.89
6.08
4.65
4.09
5.39
3 12
3.12
4.09
2.75
4.11
3.27
3.16
2.97
4.60

0.53
0.53
0.51
0.50
0.49
0.49
0.48
0.45
0.45
0.44
0.43
0.43
0.43
0.43
0.42
0.42
0.41
0.41
0.40
0.40
0.40
0.40
0.40
0.40
0 39
0.39
0.38
0.38
0.38
0.37
0.35
0.35
0.35

4.61
2.43
3.11
3.14
4.66
2.99
2.46
2.21
3.77
3.50
5.66
3.30
2.32
4.39
3.09
7.06
2.01
2.40
2.62
4.01
2.63
2.98
2.32
2.40
4 55
4.55
3.20
4.23
4.11
3.53
1.82
1.85
3.00

0.30
0.30
0.29
0.29
0.29
0.28
0.28
0.27
0.26
0.26
0.26
0.26
0.25
0.24
0.24
0.24
0.23
0.22
0.22
0.21
0.21
0.21
0.20
0.19
0 17
0.17
0.16
0.16
0.15
0.12
0.10
0.10
0.09

2.47
1.76
1.89
3.29
1.68
3.22
2.74
3.48
2.33
2.67
2.92
2.46
2.30
1.25
2.77
1.69
4.42
1.39
3.45
1.80
2.10
1.22
1.75
2.42
1 46
1.46
4.02
1.46
2.51
1.89
1.38
1.94
1.11

Solusi
Tentukan Probability Density Function (PDF) sebagai berikut:
- Tentukan jumlah kelas (k) dengan persamaan berikut:
k1 = N0.5
k2 = 1 + 3.3 log N
k3 = r . N1/3
2 . iqr
q

(Sturges, 1926)
(Freedman dan Diaconis, 1981)

dimana:
r = jarak antara data yang terbesar dan terkecil.
N = jumlah data
iqr = Q3 Q1
didapat
k1 = 12.81 , k2 = 8.31 , dan k3 = 9.46 sehingga jumlah kelas berada
antara 8.31 < kelas < 12.81. Jadi jumlah kelas dipilih 9.

- Untuk penentuan lebar selang/interval, data terbesar dibagi dengan


jumlah
j
l hk
kelas
l yang ada,
d didapat
did
t H = 0.18.
0 18 Jadi
J di lebar
l b interval
i t
l dibulatkan
dib l tk
menjadi 0.2 meter supaya mencakup data terbesar dan terkecil.
- Selanjutnya
j
y hitung
g frekuensi kejadian
j
tinggi
gg g
gelombang
g dalam setiap
p
interval (nj) , dan distribusi kerapatan probabilitas (PDF) dengan
persamaan:
f(Hj) =

nj
N . H

- Tentukan PDF Rayleigh


y g dan Normal dengan
g
persamaan:
p
f(x) = (2.x/R) exp[exp[-(x2/R]

PDF Rayleigh

0 5)) exp[
f
f(x)
= (1/(
(1/(x.(2.)0.5
exp[--0.5.((x0.5.((x-x)/
)/
x)2]

- Tentukan error persentase dengan persamaan

1 N xi xi
100%

N i =1 xi

1.6

Kerapa
atan Probabilitas
s, PDF, f(X)

1.4

Data
Rayleigh
Normal

1.2

1.0

0.8

0.6

0.4

0.2

0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
Hi (meter)

j
No

Hi
Interval

Hj
Tengah

nj
Frekuensi

f(Hj)
PDF

PDF
Rayleigh

PDF
Normal

% error
Rayleigh

% error
Normal

0.0<Hi0.2

0.1

10

0.305

0.394

0.586

29.23

92.21

0.2<Hi0.4

0.3

45

1.372

1.006

0.753

26.68

45.12

0.4<Hi0.6

0.5

30

0.915

1.215

1.102

32.79

20.44

0.6<Hi0.8

0.7

34

1.037

1.051

1.141

1.35

10.03

0.8<Hi1.0

0.9

22

0.671

0.711

0.836

5.96

24.59

1.0<Hi1.2

1.1

16

0.488

0.389

0.433

20.29

11.27

1.2<Hi1.4

1.3

0.122

0.175

0.159

43.44

30.33

1.4<Hi1.6
1.6<Hi1.8

1.5

0.030

0.066

0.041

120.00

36.67

1.7

0.061

0.021

0.008

65.57

86.89

38.37

39.73

Rata-rata

Berdasarkan tabel diatas didapat nilai ratarata-rata persentase error untuk


distribusi Rayleigh sebesar 38.37 %, lebih kecil dibandingkan dengan rata
rata-rata persentase error untuk distribusi Normal yaitu 39.73 %. Dari kedua
nilai ini dapat diambil kesimpulan bahwa PDF Rayleigh memiliki persentase
error lebih kecil dibandingkan dengan PDF Normal. Dapat dilihat pada
gambar dibawah.

1.2 Deviasi
Nilai deviasi sebanding dengan nilai simpangan data analisis terhadap
data lapangan. Semakin kecil nilai deviasi, maka sebaran fungsi tersebut
mendekati data pengamatan dan sebaliknya menjauhi data.

Nilai deviasi dinyatakan dengan persamaan berikut:


N

(
)
x

x
i i
i =1

N 1

Fungsii dikatakan
F
dik t k
cocok
kd
dengan data
d t lapangan
l
jika
jik memiliki
iliki nilai
il i d
deviasi
i i
kecil. Jika dilakukan perbandingan antara beberapa fungsi distribusi,
maka dipilih fungsi distribusi yang memiliki nilai deviasi yang paling kecil.

Pengertian secara fisik dapat dilihat pada gambar dibawah.

data

deviasi data
garis fungsi

garis deviasi

Contoh:
Sama
S
dengan
d
sebelumnya.
b l
Dengan
D
mengunakan
k
persamaan untuk
t k nilai
il i
deviasi.
j
No
1

Hi
Interval
0.0<Hi0.2

0.008

0.079

0.2<Hi0.4

0.134

0.383

0.4<Hi0.6

0.091

0.035

0.6<Hi0.8

0.000

0.011

0.8<Hi1.0

0.002

0.027

1.0<Hi1.2

0.010

0.003

1 2 Hi1.4
1.2<H
1 4

0 003
0.003

0 001
0.001

1.4<Hi1.6
1.6<Hi1.8

0.001
0.002

0.000
0.003

0.177

0.260

Rata-rata error relatif

Nilai deviasi Nilai deviasi


Rayleigh
Normal

Dari tabel ditunjukkan bahwa nilai deviasi distribusi Rayleigh lebih kecil
dibandingkan dengan distribusi Normal. Jadi fungsi distribusi Rayleigh
lebih mendekati data pengamatan

2.3 Chi Kuadrat


Metode pengujian ini dilakukan dengan membandingkan frekuensifrekuensifrekuensi pengamatan n1 , n2 , , nk sejumlah k nilai
nilai--nilai variat (k
selang) terhadap frekuensifrekuensi-frekuensi pengamatan e1 , e2 , , ek yang
berkaitan dengan suatu fungsi distribusi. Untuk memeriksa kebenaran
perbandingan digunakan besaran dari persamaan:
k

(ni ei )2

i =1

ei

Besaran diatas mendekati distribusi ChiChi-kuadrat ( 2f ) dengan


g
((f=k(f=k-1))
derajat kebebasan untuk n . Jika c adalah suatu distribusi yang
diasumsikan memenuhi persamaan:
k

(ni ei )2

i =1

ei

< C1 , f

dimana C1-,f adalah nilai distribusi kumulatif (1(1-) dari 2f , distribusi


t
teoritis
iti yng diasumsikan
di
ik
merupakan
k
model
d l yang dapat
d
t diterima,
dit i
pada
d
taraf nyata (lihat gambar).
gambar). Biasanya nilai yang biasa digunakan adalah
5 %.

f( 2f )

1-

C,f
Fungsi kerapatan probabilitas chi-kuadrat

2f

Jumlah derajat kebebasan untuk fungsi distribusi dengan jumlah c buah


parameter
t dihit
dihitung dengan
d
(k c 1).
1) U
Untuk
t k memberikan
b ik
h
hasil
il
memuaskan digunakan k 5 dan ei 5. Hubungan antara taraf nyata
(), derajat kebebasan (f) dan C1-,f diberikan pada tabel.

Contoh: sama dengan soal sebelumnya. Perhitungan lihat pada tabel


dibawah.
j
No
2

Hi
nj
Interval Frekuensi
0.0<Hi0.2
10
0.2<Hi0.4
45

0.4<H
0.4
Hi0.6
0.6

30

0.915

1.215

1.102

39.85

36.15

2.436

1.045

0.6<Hi0.8

34

1.037

1.051

1.141

34.47

37.42

0.006

0.313

0.8<Hi1.0

22

0.671

0.711

0.836

23.32

27.42

0.075

1.072

1.0<Hi1.2
1.2<Hi

16

0.488

0.389

0.433

12.76

14.20

0.823

0.228

7
164

0.213
5.001

0.241
5.007

0.159
5.010

7.90
164

5.22
164

0.104
8.47

0.611
24.38

Jumlah

f(Hj)
PDF

PDF
Rayleigh

PDF
Normal

ei

(ni - ei)^2/ei
ei) 2/ei
Rayleigh Normal

Rayleigh

Normal

0.305

0.394

0.586

12.92

19.22

0.661

4.423

1.372

1.006

0.753

33.00

24.70

4.366

16.688

Perhiungan pada tabel diatas dilakukan beberapa kali percobaan, sehingga


persyaratan optimal tabel terpenuhi
terpenuhi, yaitu:
1. Jumlah interval (k) minimal 5.
2. Jumlah frekuensi masing
masing--masing interval berdasarkan PDF(ei) minimal
5.
3. Jumlah total frekuensi sama pada masingmasing-masing kolom ( ei) = 164.

Untuk memberikan jumlah data yang sama pada masing2 kolom, pada
baris ketujuh,
ketujuh kedelapan,
kedelapan dan kesembilan,
kesembilan interval (1.2<H
(1 2<Hi1.4),
1 4)
(1.4<Hi1.6), dan (1.6<Hi<1.8) diubah menjadi (Hi1.2). Jumlah
frekuensi pada baris ini adalah sisa dari jumlah total data lapangan
dikurangi jumlah frekuensi keenam baris diatasnya.

Pada tabel untuk taraf nyata 5 % dengan jumlah parameter fungsi


distribusi Rayleigh c = 1 (R) dan Normal c = 2 (x dan x), diperoleh
jumlah derajat kebebasan Rayleigh f = (7
(7--1-1)=5, dan Normal f =(7
=(7--21)=4, didapat C0.95,5 = 11.1 dan C0.95,4 = 9.49. Berdasarkan nilai chichikuadrat pada tabel diatas, ditunjukkan bahwa distribusi Rayleigh memiliki
nilai error yang lebih kecil dari nilai error teoritis (8.47 < 11.1).
Sementara distribusi Normal memiliki error lebih besar dari nilai error
teoritis (24.38 > 9.49). Jadi model PDF Rayleigh adalah model yang tepat
dan dapat diterima untuk distribusi probabilitas tinggi gelombang individu.

2.4 Kolmogorov
Kolmogorov--Smirnov
Prosedur dasar metode ini berupa perbandingan antara probabilitas
kumulatif lapangan dan distribusi kumulatif yang ditinjau. Sampel dengan
ukuran N, diatur dengan urutan yang meningkat. Dari sini akan terbentuk
suatu fungsi frekuensi kumulatif tangga sbb:

(x) =

0
k/N
1

x < x1
xk x xk+1
x xN

dimana:
xi
= nilai data ke k
k
= nomor urut data (1, 2, 3, , N)
(x) = CDF data aktual
G(x) = CDF data teoritis

Selisih maksimum antara (x) dan G(x) untuk seluruh rentang x


merupakan ukuran penyimpangan dari model teoritis terhadap data
aktual. Selisih maksimum dinyatakan dengan:

DN = maks | (x) G(x) |

Secara teoritis, DN merupakan suatu variabel acak yang distribusinya


bergantung pada N. Untuk suatu taraf nyata tertentu, pengujian KK-S
membandingkan
g
selisih maksimum p
pengamatan
g
dalam p
persamaan diatas
dengan nilai kritis DN , yang didefinisikan
P(DN DN) = 1
1--

Jika DN yang diamati kurang dari nilai kritis DN , maka suatu fungsi
distribusi dapat diterima pada taraf nyata yang ditentukan, jika tidak
distribusi tersebut akan ditolak.

Keuntungan dari pengujian K


K--S dibanding Chi
Chi--Kuadrat adalah tidak
memerlukan pembagian data atas selangselang-selang. Hubungan antara taraf
nyata (
(), jumlah data (N) dan DN , diberikan pada tabel Nilai
Nilai kritis DN
dalam uji KolmogorovKolmogorov-Smirnov (Ang & Tang 1992) .

Contoh: Kasus gelombang individu dengan metode KolmogorovKolmogorov-Smirnov


(k)
No
1
2
3
4
5
6
7
8
9

62
63
64
65
66
67

164

Hi
Ranking
0.09
0.10
0.10
0.12
0.15
0.16
0.16
0.17
0.19

0.43
0.43
0.44
0.45
0.45
0 48
0.48

1.75

G(H)
0.006
0.012
0.018
0.024
0.030
0.037
0.043
0.049
0.055

0.378
0.384
0.390
0.396
0.402
0 409
0.409

1.000

Gn(H)
Normal Rayleigh
0.057
0.016
0.061
0.020
0.063
0.022
0.068
0.028
0.079
0.042
0.084
0.048
0.087
0.052
0.091
0.058
0.100
0.069

0.287
0.312
0.287
0.312
0.295
0.321
0.304
0.332
0.305
0.333
0 343
0.343
0 376
0.376

1.000
0.998
DN

| G(H) - Gn(H) |
Normal Rayleigh
0.051
0.01
0.049
0.008
0.045
0.004
0.044
0.004
0.049
0.012
0.047
0.011
0.044
0.009
0.042
0.009
0.045
0.014

0.091
0.066
0.097
0.072
0.095
0.069
0.092
0.064
0.097
0.069
0 066
0.066
0 033
0.033

0.002
0.000
0.097
0.072

Berdasarkan tabel Nilai kritis DN dalam uji KolmogorovKolmogorov-Smirnov (Ang &


T
Tang
1992) untuk
t k ttaraff nyata
t 5 % dengan
d
jumlah
j
l h sampell sebanyak
b
k 164
diperoleh D1640.05 = 0.106. Dari tabel diatas dapat disimpulkan bahwa
kedua distribusi layak digunakan untuk dijadikan model distribusi.
Distribusi Rayleigh lebih cocok karena memiliki nilai selisih maksimum
yang llebih
bih kecil
k il (=
( 0.072,
0 072 pada
d saatt Hi = 0.43,
0 43 k = 63) dibandingkan
dib di k
dengan distribusi Normal (= 0.097, pada saat Hi = 0.45, k = 66).

Dari hasil uji


j kecocokan dengan
g
menggunakan
gg
keempat
p metode diatas
dapat disimpulkan bahwa fungsi distribusi Rayleigh layak untuk digunakan
sebagai model analisis distribusi probabilitas tinggi gelombang individu,
dibandingkan dengan distribusi normal.

Anda mungkin juga menyukai