Anda di halaman 1dari 58

Pengumpulan Data dan

Analisis Pengukuran
Hendrawan
hend@telecom.ee.itb.ac.id
Pengukuran
Teknik dasar utk analisis performansi
Jalankan eksperimen/observasi data pada suatu jaringan atau
prototype
Nilai/ukur (benchmark) performansi
Kelebihan
Scaleability, keakuratan, mencakup detail
Kekurangan
Harus memp. peralatan (hardware/software)
Sukar utk mempertimbangkan semua kasus/ harga parameter
Jumlah data yang besar
Analisa statistik dari data
Menghabiskan waktu
Tipe Studi Pengukuran
Empat tipe dasar dari studi pengukuran

1. Karakteristikasi statistik dari metrik
Menentukan: bloking panggilan pd sentral telepon, utilisasi
link pd jaringan, bit error rate pd link, dll.

2. Pembandingkan rancangan sistem alternatif,
peralatan atau seting parameter
Bandingkan/evaluasi router dari berbagai vendors,
membandingkan waktu rotasi token yg berbeda pd ring
FDDI, dll.
Tipe Studi Pengukuran
3. Prediksi Performansi Sistem
Peningkatan throughput dan delay jika ditambahkan 5
workstations ke switch Ethernet
End-to-end delay dari virtual private network link pd
jaringan backbone ISP

4. Parameterisasi analitis atau model simulasi
Menentukan waktu pendudukan panggilan rata-rata dari
panggilan telepon utk digunakan pd model antrian
Mengumpulkan data utk digunakan sbg sumber trafik pada
komputer

Mengumpulkan Pengukuran
Monitors
Aktif masukan (inject) trafik ke jaringan dan lihat
kelakuannnya
Pasif set dan observasi trafik jaringan

Hardware vs. Software

Screen Shot dari Sniffer
Data Sniffer
Histogram dari Data Ping
TCP Dump Data
Analisa Pengukuran
Karakterisasi statistik dari metrik
Menentukan: bloking panggilan pd sentral telepon,
utilisasi link jaringan, bit error rate pd link, dll.

Mengumpulkan sampel data - n data points
x
1
, x
2
, , x
n

Umumnya statistical inference mengasumsikan
data adalah independent
Langkah pertama adalah memeriksa independensi dg
scatter plot atau correlation plot

Analisa Korelasi
Statistical tool digunakan utk menggambarkan seberapa
jauh satu variabel secara linier berelasi thd yg lainnya
Kekuatan relasi
Arah relasi (positif atau negatif)
Juga digunakan utk test independence dari set data

Prosedur yg digunakan utk menggambarkan korelasi
Koefisien korelasi (r) utk set dari n data points




dimana j = 1, 2, 3 .. dan X(n) adalah sample mean dan S(n)
sample standard deviation j

Analisa Korelasi
Harga
j
berada diantara -1 dan 1
Harga + dari
j
indikasi relasi positif
Harga - dari
j
indikasi relasi negatif

Korelasi sempurna
j
= 1 atau
j
= -1 terjadi hanya jika
asosiasi linier sempurna

Hanya ukuran kekuatan dari relasi linier

Sangat kuat dipengaruhi oleh bbrp outliers

Dlm praktek estimasi
j
utk beberpa harga dari j dan
pengakuan independent jika |
j
| < e dimana e = .2 or .3

Contoh Harga r
Contoh Harga r
Contoh Plot Correlation
j
vs j
Kadang membuat plot
harga korelasi vs. j

Contoh data ping
antara dua titik

Apakah data secara
linier berkorelasi?


Scatter Plots
Representasi grafis dari relasi antara dua variabel
kuantitatif

Explanatory variable diplot pd sumbu x respons pd
sumbu y (plot setiap point data)

Melihat pada form, direction, strength, outliers
Positif atau Negatif, atau tidak ada relasi
Linear, Curvilinear, relasi lain

Dapat digunakan untuk memeriksa independence dari
keterpisahan data j dg ploting x
i
vs x
i+j

Relasi yg Mungkin antara X dan Y
pada Scatter Diagrams
Scatter Plot
Kapan menggunakan Scatter Plots utk memeriksa
independence dari data

Plot satu seri dari scatter plots
Data 1 keterpisahan (x
i
, x
i+1
) korespondensi dg r
1
Data 2 keterpisahan (x
i
, x
i+2
) korespondensi dg r
2

Data n keterpisahan (x
i
, x
i+j
) korespondensi dg r
j
Jika data berkorelasi akan memp relasi visual yg kuat

Contoh Scatter Plot
Contoh kumpulan
data ping antara dua
lokasi

Test independence
scatter plot dari
data



Memperlihatkan
relasi linier yg positif
Contoh Scatter Plot
Contoh Scatter Plot
Correlated Data
Jika data berkorelasi
Bekerja hanya dg ukuran central tendency
Jika rancangan eksperimen menghasilkan korelasi
rancang ulang eksperimen utk melemahkan korelasi
Metoda replikasi
Lakukan eksperimen bbrp kali tiap eksperimen
menghasilkan satu summary data point
Batch means
Pecah data kedalam non-overlapping batches dg
ukuran yg kira-kira sama ganti tiap batch dg harga
rata-ratanya gunakan harga ini sbg set sample data

Data Numerik Properties &
Measures
Deskripsi Numerik dari Data
Kuantitatif
Mengukur Central Tendency

Mean rata-rata aritmatik dari semua observasi,
sensitif thd pengaruh dari observasi yg ekstrem

Median titik tengah dari distribusi
Tahan thd outliers

Mode nilai yg paling sering muncul dari sampel

Mean, Mode atau Median?
Tidak ada satu numerical summary yang sesuai utk
semua set data
Jika data adalah categorical gunakan Mode
Jika data adalah numerikal + skewed => Median
Lainnya gunakan Mean
Pemilihan ukuran sebaran
Mode atau Mean - gunakan standar deviasi
Median - gunakan quartiles atau IQR
Mengukur Sebaran (Spread)
Range
Variance
Coefficient of Variation
Tertiles, Quartiles, Quintiles
Interquartile Range (IQR = Q3 - Q1)

Range
Mengukur dispersi
Perbedaan antara observasi terbesar dan terkecil



Mengabaikan bagaimana data terdistribusi



Variance & Standard Deviation
Mengukur dispersi
Ukuran yg paling umum
Mempertimbangkan bagaimana data terdistribusi
Memperlihatkan variasi disekitar mean (X atau )

Contoh Sample Variance
Contoh data penghasilan dari sejumlah populasi (dlm $1000):
15.6 17.0 15.2 16.4 15.2 15.4 13.0 23.1 14.3 14.9
Quartiles
Mengukur sebaran pada data
Pecah deretan data kedalam 4 bagian




Posisi dari quartile ke-i

Interquartile Range
Mengukur dispersi
Juga disebut midspread
Sebaran ditengah 50%
Tidak dipengaruhi oleh harga ekstrem
Formula:
Contoh Interquartile Range
Menggunakan contoh deretan data sebelumnya:
Data diurut: 13.0 14.3 14.9 15.2 15.2 15.4 15.6 16.4 17.0 23.1

Outliers
Outlier titik data bukan representasi dari kelakuan

Test untuk Outlier
X
i
> Q
3
+ 1.5 * IQR atau
X
i
< Q
1
- 1.5 * IQR

Test utk outliers biasanya test yg pertama dilakukan
pada set data
Data Numerik Properties &
Measures
Shape
Menggambarkan bagaimana data terdistribusi
Mengukur bentuk (shape)
Skewness: Symmetry
5-Number Summary
Menjelaskan distribusi tanpa melakukan kompilasi yang
kompleks
Minimum
Q
1
Median
Q
3
Maximum

Box-and-Whisker Plot
Display grafis dari data menggunakan 5-
number summary

Box-and-Whisker Plot
Display grafis dari data
menggunakan 5-number
summary

Contoh dari data internet
video delay jitter


Probability Distribution Function
dari Data
Line Plot diskrit atau categorical data

Mis. sample space dari X adalah
S = { h
1
, h
2
, , h
k
}

Frekuensi relatif dari tiap nilai data adalah
p
j
= n
j
/n
dimana n
j
= {jumlah nilai x
i
= h
i
}.

Line plot adalah grafik p
j
thd h
i

Histogram data kontinyu
Histogram
Range dari X dibagi kedalam k interval dg ukuran sama
disebut cells
Lebar dari cell adalah



Frekuensi dari tiap cell adalah f
j
= n
j
/n
dimana n
j
= jumlah x
i
dimana c
j
x
i
< c
j+1
Sturges rule menyarankan


Contoh Histogram
Contoh Histogram
Quantile vs Quantile Plot
1. Urut (sort) data (n titik data) dari terkecil ke terbesar
2. Cari parameter-parameter dari distribusi teoritis
3. Plot nilai set data vs quantiles dari distribusi teoritis
F(x) dg parameter-parameter diestimasi dari data.
Quantiles dari distribusi teoritis didp dari inverse
distribusi




4. Lihat utk garis yg lurus, tekankan perbedaan pd tails
dari densitas


Quantile vs Quantile Plot
Probabilitas vs Plot Probabilitas
1. Urut (sort) data (n titik data) dari terkecil ke terbesar
2. Plot nilai probabilitas dari tiap titik data vs
probabilitas ditentukan dari distribusi teoritis dg
parameter diestimasi dari data




3. Lihat utk garis yg lurus, tekankan perbedaan di
tengah dari densitas


Normal Probability Plot
Fitting Distribution ke Data
1) Kumpulkan observasi (secara random)
2) Periksa independensi dan hilangkan outliers
3) Hipotesa satu set kandidat utk distribusi teoritis
Gunakan pengetahuan teoritis, yaitu hasil dari studi yang
sama dari literatur
Perhatikan summary statistics dari data
Secara visual nilai dari Histogram (kontinyu) atau Line Plot
(diskrit)
Fitting Distribution ke Data
Pengukuran
4) Parameteriasi density function
Maximum likelihood estimators (MLE)
5) Bandingkan parameterisasi density function dari data
Bandingkan summary behavior
Bandingkan frequency behavior
Plot f(x) versus histogram dari data
Q-Q plot
P-P plot
Statistical goodness of fit test (Chi -squared test)
Useful Summary Statistics
Maximum Likelihood Estimators
(MLE)
MLE adalah estimator parameter yg memaksimumkan
probabilitas dari kemunculan sampel data random yg
dioberservasi

Mis. sampel random X = { x
1
, x
2
, , x
n
}

Mis. Densitas probabilitas yg diusulkan untuk X adalah
f(x, ) dimana adalah parameter dari densitas

The likelihood function L( ) utk f(x, ) adalah
L() = f(x
1
,) , f(x
2
, ) , , f(x
n
, )

Cari yg memaksimumkan L()
MLE untuk Distribusi Normal
Normal density function




mempunyai 2 parameter: dan
The likelihood function L(,) adalah


MLE untuk Distribusi Normal
MLE ditentukan dengan mengambil partial derivatives
dari L(,) thd (, ) dan setting sama dengan 0
Lalu


Fitting Distribution ke Data
Pengukuran
4) Parameteriasi density function
Maximum likelihood estimators (MLE)
5) Bandingkan parameterisasi density function dari
data
Bandingkan summary behavior
Bandingkan frequency behavior
Plot f(x) versus histogram dari data
Q-Q plot
P-P plot
Statistical goodness of fit test (Chi -squared test)
Overlay pdf pd histogram
Contoh Histogram
Chi-squared Test
Test perbedaan histogram dari data dan densitas teoritis
Bagi rentang (range) data kedalam k intervals
(a
0
, a
1
) , (a
1
, a
2
) , (a
2
, a
3
) , , (a
k-1
, a
n
)
Dari data sampel, tentukan jumlah observasi pada tiap
interval
n
1
, n
2
, n
3
, , n
k
Dari density function teoritis, tentukan probabilitas yang
dimuat dalam tiap interval
p
1
, p
2
, p
3
, , p
k
dimana
p
j
= P { a
j-1
X a
j
} = F(a
j
) - F(a
j-1
)
Chi-squared Test
Normalized error antara bilangan teoritis yg
diharapkan dg bilangan aktual dari observasi
diukur dg


E adalah Chi-squared distributed
E akan kecil jika fit is good
Chi-squared Test
Normalized error antara bilangan teoritis yg
diharapkan dg bilangan aktual dari observasi
diukur dg


E adalah Chi-squared distributed
Tolak f(x) matches dg data jika
dimana k = number of intervals,
s = number of parameters diestimasi dari
data

Anda mungkin juga menyukai