An Alisa Data Pen Gu Kuran

Pengumpulan Data dan Analisis Pengukuran
Hendrawan
hend@telecom.ee.itb.ac.id
Pengukuran
Teknik dasar utk analisis performansi
Jalankan eksperimen/observasi data pada suatu jaringan atau prototype Nilai/ukur (benchmark) performansi
Kelebihan
Scaleability, keakuratan, mencakup detail
Kekurangan
Harus memp. peralatan (hardware/software) Sukar utk mempertimbangkan semua kasus/ harga parameter Jumlah data yang besar Analisa statistik dari data Menghabiskan waktu
Tipe Studi Pengukuran

Empat tipe dasar dari studi pengukuran
1. Karakteristikasi statistik dari metrik
Menentukan: bloking panggilan pd sentral telepon, utilisasi link pd jaringan, bit error rate pd link, dll.
2. Pembandingkan rancangan sistem alternatif, peralatan atau seting parameter

Bandingkan/evaluasi router dari berbagai vendors, membandingkan waktu rotasi token yg berbeda pd ring FDDI, dll.
Tipe Studi Pengukuran

3. Prediksi Performansi Sistem
Peningkatan throughput dan delay jika ditambahkan 5 workstations ke switch Ethernet End-to-end delay dari virtual private network link pd jaringan backbone ISP
4. Parameterisasi analitis atau model simulasi

Menentukan waktu pendudukan panggilan rata-rata dari panggilan telepon utk digunakan pd model antrian Mengumpulkan data utk digunakan sbg sumber trafik pada komputer
Mengumpulkan Pengukuran
Monitors
Aktif masukan (inject) trafik ke jaringan dan lihat kelakuannnya Pasif set dan observasi trafik jaringan
Hardware vs. Software
Screen Shot dari Sniffer
Data Sniffer
Histogram dari Data Ping
TCP Dump Data
Analisa Pengukuran
Karakterisasi statistik dari metrik
Menentukan: bloking panggilan pd sentral telepon, utilisasi link jaringan, bit error rate pd link, dll.
Mengumpulkan sampel data - n data points x 1, x 2 , , x n Umumnya statistical inference mengasumsikan data adalah independent
Langkah pertama adalah memeriksa independensi dg scatter plot atau correlation plot
Analisa Korelasi
Statistical tool digunakan utk menggambarkan seberapa jauh satu variabel secara linier berelasi thd yg lainnya
Kekuatan relasi Arah relasi (positif atau negatif) Juga digunakan utk test independence dari set data
Prosedur yg digunakan utk menggambarkan korelasi

Koefisien korelasi (r) utk set dari n data points
dimana j = 1, 2, 3 .. dan X(n) adalah sample mean dan S(n) sample standard deviation j
Analisa Korelasi
Harga j berada diantara -1 dan 1 Harga + dari j indikasi relasi positif Harga - dari j indikasi relasi negatif Korelasi sempurna j = 1 atau j = -1 terjadi hanya jika asosiasi linier sempurna Hanya ukuran kekuatan dari relasi linier Sangat kuat dipengaruhi oleh bbrp outliers Dlm praktek estimasi j utk beberpa harga dari j dan pengakuan independent jika | j | < e dimana e = .2 or .3
Contoh Harga r
Contoh Harga r
Contoh Plot Correlation j vs j

Kadang membuat plot harga korelasi vs. j Contoh data ping antara dua titik Apakah data secara linier berkorelasi?
Scatter Plots
Representasi grafis dari relasi antara dua variabel kuantitatif Explanatory variable diplot pd sumbu x respons pd sumbu y (plot setiap point data)
Melihat pada form, direction, strength, outliers

Positif atau Negatif, atau tidak ada relasi Linear, Curvilinear, relasi lain
Dapat digunakan untuk memeriksa independence dari keterpisahan data j dg ploting xi vs xi+j
Relasi yg Mungkin antara X dan Y pada Scatter Diagrams
Scatter Plot
Kapan menggunakan Scatter Plots utk memeriksa independence dari data Plot satu seri dari scatter plots
Data 1 keterpisahan (xi , xi+1 ) korespondensi dg r1 Data 2 keterpisahan (xi , xi+2 ) korespondensi dg r2 Data n keterpisahan (xi , xi+j ) korespondensi dg rj Jika data berkorelasi akan memp relasi visual yg kuat
Contoh Scatter Plot

Contoh kumpulan data ping antara dua lokasi Test independence scatter plot dari data
Memperlihatkan relasi linier yg positif
Contoh Scatter Plot
Contoh Scatter Plot
Correlated Data
Jika data berkorelasi Bekerja hanya dg ukuran central tendency Jika rancangan eksperimen menghasilkan korelasi rancang ulang eksperimen utk melemahkan korelasi Metoda replikasi
Lakukan eksperimen bbrp kali tiap eksperimen menghasilkan satu summary data point
Batch means
Pecah data kedalam non-overlapping batches dg ukuran yg kira-kira sama ganti tiap batch dg harga rata-ratanya gunakan harga ini sbg set sample data
Data Numerik Properties & Measures
Deskripsi Numerik dari Data Kuantitatif

Mengukur Central Tendency
Mean rata-rata aritmatik dari semua observasi, sensitif thd pengaruh dari observasi yg ekstrem
Median titik tengah dari distribusi Tahan thd outliers Mode nilai yg paling sering muncul dari sampel
Mean, Mode atau Median?

Tidak ada satu numerical summary yang sesuai utk semua set data Jika data adalah categorical gunakan Mode Jika data adalah numerikal + skewed => Median Lainnya gunakan Mean Pemilihan ukuran sebaran
Mode atau Mean - gunakan standar deviasi Median - gunakan quartiles atau IQR
Mengukur Sebaran (Spread)

Range Variance Coefficient of Variation Tertiles, Quartiles, Quintiles Interquartile Range (IQR = Q3 - Q1)
Range
Mengukur dispersi Perbedaan antara observasi terbesar dan terkecil
Mengabaikan bagaimana data terdistribusi
Variance & Standard Deviation

Mengukur dispersi Ukuran yg paling umum Mempertimbangkan bagaimana data terdistribusi Memperlihatkan variasi disekitar mean (X atau )
Contoh Sample Variance

Contoh data penghasilan dari sejumlah populasi (dlm $1000): 15.6 17.0 15.2 16.4 15.2 15.4 13.0 23.1 14.3 14.9
Quartiles
Mengukur sebaran pada data Pecah deretan data kedalam 4 bagian
Posisi dari quartile ke-i
Interquartile Range
Mengukur dispersi Juga disebut midspread Sebaran ditengah 50% Tidak dipengaruhi oleh harga ekstrem Formula:
Contoh Interquartile Range

Menggunakan contoh deretan data sebelumnya: Data diurut: 13.0 14.3 14.9 15.2 15.2 15.4 15.6 16.4 17.0 23.1
Outliers
Outlier titik data bukan representasi dari kelakuan Test untuk Outlier Xi > Q3 + 1.5 * IQR atau Xi < Q1 - 1.5 * IQR Test utk outliers biasanya test yg pertama dilakukan pada set data
Data Numerik Properties & Measures
Shape
Menggambarkan bagaimana data terdistribusi Mengukur bentuk (shape)
Skewness: Symmetry
5-Number Summary
Menjelaskan distribusi tanpa melakukan kompilasi yang kompleks
Minimum Q1 Median Q3 Maximum
Box-and-Whisker Plot
Display grafis dari data menggunakan 5number summary
Box-and-Whisker Plot
Display grafis dari data menggunakan 5-number summary Contoh dari data internet video delay jitter
Probability Distribution Function dari Data

Line Plot diskrit atau categorical data Mis. sample space dari X adalah S = { h1, h2, , hk }
Frekuensi relatif dari tiap nilai data adalah pj = nj/n dimana nj = {jumlah nilai xi = hi }. Line plot adalah grafik pj thd hi
Histogram data kontinyu
Histogram
Range dari X dibagi kedalam k interval dg ukuran sama disebut cells Lebar dari cell adalah
Frekuensi dari tiap cell adalah fj = nj/n dimana nj = jumlah xi dimana cj xi < cj+1 Sturges rule menyarankan
Contoh Histogram
Contoh Histogram
Quantile vs Quantile Plot

1. Urut (sort) data (n titik data) dari terkecil ke terbesar 2. Cari parameter-parameter dari distribusi teoritis 3. Plot nilai set data vs quantiles dari distribusi teoritis F(x) dg parameter-parameter diestimasi dari data. Quantiles dari distribusi teoritis didp dari inverse distribusi
4. Lihat utk garis yg lurus, tekankan perbedaan pd tails dari densitas
Quantile vs Quantile Plot
Probabilitas vs Plot Probabilitas

1. Urut (sort) data (n titik data) dari terkecil ke terbesar 2. Plot nilai probabilitas dari tiap titik data vs probabilitas ditentukan dari distribusi teoritis dg parameter diestimasi dari data
3. Lihat utk garis yg lurus, tekankan perbedaan di tengah dari densitas
Normal Probability Plot
Fitting Distribution ke Data

1) Kumpulkan observasi (secara random) 2) Periksa independensi dan hilangkan outliers 3) Hipotesa satu set kandidat utk distribusi teoritis
Gunakan pengetahuan teoritis, yaitu hasil dari studi yang sama dari literatur Perhatikan summary statistics dari data Secara visual nilai dari Histogram (kontinyu) atau Line Plot (diskrit)
Fitting Distribution ke Data Pengukuran

4) Parameteriasi density function
Maximum likelihood estimators (MLE)
5) Bandingkan parameterisasi density function dari data

Bandingkan summary behavior Bandingkan frequency behavior Plot f(x) versus histogram dari data Q-Q plot P-P plot Statistical goodness of fit test (Chi -squared test)
Useful Summary Statistics
Maximum Likelihood Estimators (MLE)

MLE adalah estimator parameter yg memaksimumkan probabilitas dari kemunculan sampel data random yg dioberservasi Mis. sampel random X = { x1, x2, , xn } Mis. Densitas probabilitas yg diusulkan untuk X adalah f(x, ) dimana adalah parameter dari densitas The likelihood function L( ) utk f(x, ) adalah L() = f(x1,) , f(x2, ) , , f(xn, ) Cari yg memaksimumkan L()
MLE untuk Distribusi Normal

Normal density function
mempunyai 2 parameter: dan The likelihood function L(,) adalah
MLE untuk Distribusi Normal

MLE ditentukan dengan mengambil partial derivatives dari L(,) thd (, ) dan setting sama dengan 0 Lalu
Fitting Distribution ke Data Pengukuran

4) Parameteriasi density function
Maximum likelihood estimators (MLE)
5) Bandingkan parameterisasi density function dari data

Bandingkan summary behavior Bandingkan frequency behavior Plot f(x) versus histogram dari data Q-Q plot P-P plot Statistical goodness of fit test (Chi -squared test)
Overlay pdf pd histogram
Contoh Histogram
Chi-squared Test
Test perbedaan histogram dari data dan densitas teoritis Bagi rentang (range) data kedalam k intervals (a0, a1) , (a1, a2) , (a2, a3) , , (ak-1, an) Dari data sampel, tentukan jumlah observasi pada tiap interval n1 , n2 , n3 , , nk Dari density function teoritis, tentukan probabilitas yang dimuat dalam tiap interval p1 , p2 , p3 , , pk dimana pj = P { aj-1 X aj } = F(aj ) - F(aj-1 )
Chi-squared Test
Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg
E adalah Chi-squared distributed E akan kecil jika fit is good
Chi-squared Test
Normalized error antara bilangan teoritis yg diharapkan dg bilangan aktual dari observasi diukur dg
E adalah Chi-squared distributed Tolak f(x) matches dg data jika dimana k = number of intervals, s = number of parameters diestimasi dari data

An Alisa Data Pen Gu Kuran

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

An Alisa Data Pen Gu Kuran

Diunggah oleh

Hak Cipta:

Format Tersedia

Pengumpulan Data dan Analisis Pengukuran

Tipe Studi Pengukuran

2. Pembandingkan rancangan sistem alternatif, peralatan atau seting parameter

Tipe Studi Pengukuran

4. Parameterisasi analitis atau model simulasi

Hardware vs. Software

Screen Shot dari Sniffer

Histogram dari Data Ping

TCP Dump Data

Prosedur yg digunakan utk menggambarkan korelasi

Contoh Plot Correlation j vs j

Melihat pada form, direction, strength, outliers

Relasi yg Mungkin antara X dan Y pada Scatter Diagrams

Contoh Scatter Plot

Memperlihatkan relasi linier yg positif

Contoh Scatter Plot

Contoh Scatter Plot

Data Numerik Properties & Measures

Deskripsi Numerik dari Data Kuantitatif

Mean, Mode atau Median?

Mengukur Sebaran (Spread)

Mengabaikan bagaimana data terdistribusi

Variance & Standard Deviation

Contoh Sample Variance

Posisi dari quartile ke-i

Contoh Interquartile Range

Data Numerik Properties & Measures

Probability Distribution Function dari Data

Quantile vs Quantile Plot

4. Lihat utk garis yg lurus, tekankan perbedaan pd tails dari densitas

Quantile vs Quantile Plot

Probabilitas vs Plot Probabilitas

3. Lihat utk garis yg lurus, tekankan perbedaan di tengah dari densitas

Normal Probability Plot

Fitting Distribution ke Data

Fitting Distribution ke Data Pengukuran

5) Bandingkan parameterisasi density function dari data

Useful Summary Statistics

Maximum Likelihood Estimators (MLE)

MLE untuk Distribusi Normal

mempunyai 2 parameter: dan The likelihood function L(,) adalah

MLE untuk Distribusi Normal

Fitting Distribution ke Data Pengukuran

5) Bandingkan parameterisasi density function dari data

Overlay pdf pd histogram

E adalah Chi-squared distributed E akan kecil jika fit is good

Anda mungkin juga menyukai