Anda di halaman 1dari 58

Pengumpulan Data dan Analisis Pengukuran

Hendrawan
hend@telecom.ee.itb.ac.id

Pengukuran
Teknik dasar utk analisis performansi
Jalankan eksperimen/observasi data pada suatu jaringan atau prototype Nilai/ukur (benchmark) performansi

Kelebihan
Scaleability, keakuratan, mencakup detail

Kekurangan
Harus memp. peralatan (hardware/software) Sukar utk mempertimbangkan semua kasus/ harga parameter Jumlah data yang besar Analisa statistik dari data Menghabiskan waktu

Tipe Studi Pengukuran


Empat tipe dasar dari studi pengukuran
1. Karakteristikasi statistik dari metrik
Menentukan: bloking panggilan pd sentral telepon, utilisasi link pd jaringan, bit error rate pd link, dll.

2. Pembandingkan rancangan sistem alternatif, peralatan atau seting parameter


Bandingkan/evaluasi router dari berbagai vendors, membandingkan waktu rotasi token yg berbeda pd ring FDDI, dll.

Tipe Studi Pengukuran


3. Prediksi Performansi Sistem
Peningkatan throughput dan delay jika ditambahkan 5 workstations ke switch Ethernet End-to-end delay dari virtual private network link pd jaringan backbone ISP

4. Parameterisasi analitis atau model simulasi


Menentukan waktu pendudukan panggilan rata-rata dari panggilan telepon utk digunakan pd model antrian Mengumpulkan data utk digunakan sbg sumber trafik pada komputer

Mengumpulkan Pengukuran
Monitors
Aktif masukan (inject) trafik ke jaringan dan lihat kelakuannnya Pasif set dan observasi trafik jaringan

Hardware vs. Software

Screen Shot dari Sniffer

Data Sniffer

Histogram dari Data Ping

TCP Dump Data

Analisa Pengukuran
Karakterisasi statistik dari metrik
Menentukan: bloking panggilan pd sentral telepon, utilisasi link jaringan, bit error rate pd link, dll.

Mengumpulkan sampel data - n data points x 1, x 2 , , x n Umumnya statistical inference mengasumsikan data adalah independent
Langkah pertama adalah memeriksa independensi dg scatter plot atau correlation plot

Analisa Korelasi
Statistical tool digunakan utk menggambarkan seberapa jauh satu variabel secara linier berelasi thd yg lainnya
Kekuatan relasi Arah relasi (positif atau negatif) Juga digunakan utk test independence dari set data

Prosedur yg digunakan utk menggambarkan korelasi


Koefisien korelasi (r) utk set dari n data points

dimana j = 1, 2, 3 .. dan X(n) adalah sample mean dan S(n) sample standard deviation j

Analisa Korelasi
Harga j berada diantara -1 dan 1 Harga + dari j indikasi relasi positif Harga - dari j indikasi relasi negatif Korelasi sempurna j = 1 atau j = -1 terjadi hanya jika asosiasi linier sempurna Hanya ukuran kekuatan dari relasi linier Sangat kuat dipengaruhi oleh bbrp outliers Dlm praktek estimasi j utk beberpa harga dari j dan pengakuan independent jika | j | < e dimana e = .2 or .3

Contoh Harga r

Contoh Harga r

Contoh Plot Correlation j vs j


Kadang membuat plot harga korelasi vs. j Contoh data ping antara dua titik Apakah data secara linier berkorelasi?

Scatter Plots
Representasi grafis dari relasi antara dua variabel kuantitatif Explanatory variable diplot pd sumbu x respons pd sumbu y (plot setiap point data)

Melihat pada form, direction, strength, outliers


Positif atau Negatif, atau tidak ada relasi Linear, Curvilinear, relasi lain

Dapat digunakan untuk memeriksa independence dari keterpisahan data j dg ploting xi vs xi+j

Relasi yg Mungkin antara X dan Y pada Scatter Diagrams

Scatter Plot
Kapan menggunakan Scatter Plots utk memeriksa independence dari data Plot satu seri dari scatter plots
Data 1 keterpisahan (xi , xi+1 ) korespondensi dg r1 Data 2 keterpisahan (xi , xi+2 ) korespondensi dg r2 Data n keterpisahan (xi , xi+j ) korespondensi dg rj Jika data berkorelasi akan memp relasi visual yg kuat

Contoh Scatter Plot


Contoh kumpulan data ping antara dua lokasi Test independence scatter plot dari data

Memperlihatkan relasi linier yg positif

Contoh Scatter Plot

Contoh Scatter Plot

Correlated Data
Jika data berkorelasi Bekerja hanya dg ukuran central tendency Jika rancangan eksperimen menghasilkan korelasi rancang ulang eksperimen utk melemahkan korelasi Metoda replikasi
Lakukan eksperimen bbrp kali tiap eksperimen menghasilkan satu summary data point

Batch means
Pecah data kedalam non-overlapping batches dg ukuran yg kira-kira sama ganti tiap batch dg harga rata-ratanya gunakan harga ini sbg set sample data

Data Numerik Properties & Measures

Deskripsi Numerik dari Data Kuantitatif


Mengukur Central Tendency
Mean rata-rata aritmatik dari semua observasi, sensitif thd pengaruh dari observasi yg ekstrem
Median titik tengah dari distribusi Tahan thd outliers Mode nilai yg paling sering muncul dari sampel

Mean, Mode atau Median?


Tidak ada satu numerical summary yang sesuai utk semua set data Jika data adalah categorical gunakan Mode Jika data adalah numerikal + skewed => Median Lainnya gunakan Mean Pemilihan ukuran sebaran
Mode atau Mean - gunakan standar deviasi Median - gunakan quartiles atau IQR

Mengukur Sebaran (Spread)


Range Variance Coefficient of Variation Tertiles, Quartiles, Quintiles Interquartile Range (IQR = Q3 - Q1)

Range
Mengukur dispersi Perbedaan antara observasi terbesar dan terkecil

Mengabaikan bagaimana data terdistribusi

Variance & Standard Deviation


Mengukur dispersi Ukuran yg paling umum Mempertimbangkan bagaimana data terdistribusi Memperlihatkan variasi disekitar mean (X atau )

Contoh Sample Variance


Contoh data penghasilan dari sejumlah populasi (dlm $1000): 15.6 17.0 15.2 16.4 15.2 15.4 13.0 23.1 14.3 14.9

Quartiles
Mengukur sebaran pada data Pecah deretan data kedalam 4 bagian

Posisi dari quartile ke-i

Interquartile Range
Mengukur dispersi Juga disebut midspread Sebaran ditengah 50% Tidak dipengaruhi oleh harga ekstrem Formula:

Contoh Interquartile Range


Menggunakan contoh deretan data sebelumnya: Data diurut: 13.0 14.3 14.9 15.2 15.2 15.4 15.6 16.4 17.0 23.1

Outliers
Outlier titik data bukan representasi dari kelakuan Test untuk Outlier Xi > Q3 + 1.5 * IQR atau Xi < Q1 - 1.5 * IQR Test utk outliers biasanya test yg pertama dilakukan pada set data

Data Numerik Properties & Measures

Shape
Menggambarkan bagaimana data terdistribusi Mengukur bentuk (shape)
Skewness: Symmetry

5-Number Summary
Menjelaskan distribusi tanpa melakukan kompilasi yang kompleks
Minimum Q1 Median Q3 Maximum

Box-and-Whisker Plot
Display grafis dari data menggunakan 5number summary

Box-and-Whisker Plot
Display grafis dari data menggunakan 5-number summary Contoh dari data internet video delay jitter

Probability Distribution Function dari Data


Line Plot diskrit atau categorical data Mis. sample space dari X adalah S = { h1, h2, , hk }

Frekuensi relatif dari tiap nilai data adalah pj = nj/n dimana nj = {jumlah nilai xi = hi }. Line plot adalah grafik pj thd hi
Histogram data kontinyu

Histogram
Range dari X dibagi kedalam k interval dg ukuran sama disebut cells Lebar dari cell adalah

Frekuensi dari tiap cell adalah fj = nj/n dimana nj = jumlah xi dimana cj xi < cj+1 Sturges rule menyarankan

Contoh Histogram

Contoh Histogram

Quantile vs Quantile Plot


1. Urut (sort) data (n titik data) dari terkecil ke terbesar 2. Cari parameter-parameter dari distribusi teoritis 3. Plot nilai set data vs quantiles dari distribusi teoritis F(x) dg parameter-parameter diestimasi dari data. Quantiles dari distribusi teoritis didp dari inverse distribusi

4. Lihat utk garis yg lurus, tekankan perbedaan pd tails dari densitas

Quantile vs Quantile Plot

Probabilitas vs Plot Probabilitas


1. Urut (sort) data (n titik data) dari terkecil ke terbesar 2. Plot nilai probabilitas dari tiap titik data vs probabilitas ditentukan dari distribusi teoritis dg parameter diestimasi dari data

3. Lihat utk garis yg lurus, tekankan perbedaan di tengah dari densitas

Normal Probability Plot

Fitting Distribution ke Data


1) Kumpulkan observasi (secara random) 2) Periksa independensi dan hilangkan outliers 3) Hipotesa satu set kandidat utk distribusi teoritis
Gunakan pengetahuan teoritis, yaitu hasil dari studi yang sama dari literatur Perhatikan summary statistics dari data Secara visual nilai dari Histogram (kontinyu) atau Line Plot (diskrit)

Fitting Distribution ke Data Pengukuran


4) Parameteriasi density function
Maximum likelihood estimators (MLE)

5) Bandingkan parameterisasi density function dari data


Bandingkan summary behavior Bandingkan frequency behavior Plot f(x) versus histogram dari data Q-Q plot P-P plot Statistical goodness of fit test (Chi -squared test)

Useful Summary Statistics

Maximum Likelihood Estimators (MLE)


MLE adalah estimator parameter yg memaksimumkan probabilitas dari kemunculan sampel data random yg dioberservasi Mis. sampel random X = { x1, x2, , xn } Mis. Densitas probabilitas yg diusulkan untuk X adalah f(x, ) dimana adalah parameter dari densitas The likelihood function L( ) utk f(x, ) adalah L() = f(x1,) , f(x2, ) , , f(xn, ) Cari yg memaksimumkan L()

MLE untuk Distribusi Normal


Normal density function

mempunyai 2 parameter: dan The likelihood function L(,) adalah

MLE untuk Distribusi Normal


MLE ditentukan dengan mengambil partial derivatives dari L(,) thd (, ) dan setting sama dengan 0 Lalu

Fitting Distribution ke Data Pengukuran


4) Parameteriasi density function
Maximum likelihood estimators (MLE)

5) Bandingkan parameterisasi density function dari data


Bandingkan summary behavior Bandingkan frequency behavior Plot f(x) versus histogram dari data Q-Q plot P-P plot Statistical goodness of fit test (Chi -squared test)

Overlay pdf pd histogram

Contoh Histogram

Chi-squared Test
Test perbedaan histogram dari data dan densitas teoritis Bagi rentang (range) data kedalam k intervals (a0, a1) , (a1, a2) , (a2, a3) , , (ak-1, an) Dari data sampel, tentukan jumlah observasi pada tiap interval n1 , n2 , n3 , , nk Dari density function teoritis, tentukan probabilitas yang dimuat dalam tiap interval p1 , p2 , p3 , , pk dimana pj = P { aj-1 X aj } = F(aj ) - F(aj-1 )

Chi-squared Test
Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg

E adalah Chi-squared distributed E akan kecil jika fit is good

Chi-squared Test
Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg

E adalah Chi-squared distributed Tolak f(x) matches dg data jika dimana k = number of intervals, s = number of parameters diestimasi dari data

Anda mungkin juga menyukai