Describing Data

Describing Data
1. Tendesi central
 Mean (Rata-rata) : Nilai rata – rata suatu kelompok data.
 Weighted Mean : rata-rata yang dihitung dengan memperhitungkan

timbangan/bobot untuk setiap datanya. Setiap penimbang/bobot tersebut
merupakan pasangan setiap data.
 Median : nilai tengah dari sekumpulan data setelah diurutkan dari data yang
terkecil sampai data terbesar.
 Modus adalah nilai yang paling sering muncul. Dalam data kelompok yang
telah disajikan frekuensinya, modus suatu nilai yang memiliki frekuensi paling
besar.
Contoh Modus Data Tunggal :
57, 38, 55, 55, 80, 87, 98
Modusnya adalah 55, karena frekuensinya lebih besar / 55 muncul sebanyak
2x
2. Measuring Dispersion
Ukuran tendensi sentral (Mean, Median, Mode) saja tidak cukup untuk menggambarkan
distribusi frekuensi. Selain itu kita harus memiliki ukuran persebaran data pengamatan.
Ukuran penyebaran atau ukuran keragaman pengamatan dari nilai rata-ratanya disebut
simpangan (deviation/dispersi). Terdapat beberapa ukuran untuk menentukan dispersi data
pengamatan, seperti jangkauan/rentang (range), simpangan kuartil (quartile deviation),
simpangan rata-rata (mean deviation), dan simpangan baku (standard deviation).
 Populasi : keseluruhan dari subjek penelitian.
 Sampel = Sampel adalah wakil atau sebagian dari populasi yang memiliki sifat dan
karakteristik yang sama bersifat representatif dan menggambarkan populasi sehingga
dianggap dapat mewakili semua populasi yang diteliti.
 Standar deviasi (simpangan baku) merupakan akar kuadrat dari varian.
Dasar penghitungan varian dan standar deviasi adalah keinginan untuk mengetahui
keragaman suatu kelompok data. Salah satu cara untuk mengetahui keragaman dari suatu
kelompok data adalah dengan mengurangi setiap nilai data dengan rata-rata kelompok data
tersebut, selanjutnya semua hasilnya dijumlahkan. Namun cara seperti itu tidak bisa
digunakan karena hasilnya akan selalu menjadi 0.
Oleh karena itu, solusi agar nilainya tidak menjadi 0 adalah dengan mengkuadratkan
setiap pengurangan nilai data dan rata-rata kelompok data tersebut, selanjutnya dilakukan
penjumlahan. Hasil penjumlahan kuadrat (sum of squares) tersebut akan selalu bernilai
positif.
Nilai varian diperoleh dari pembagian hasil penjumlahan kuadrat (sum of squares)
dengan ukuran data (n).
Namun begitu, dalam penerapannya, nilai varian tersebut bias untuk menduga

varian populasi. Dengan menggunakan rumus tersebut, nilai varian populasi lebih besar
dari varian sampel.
Oleh karena itu, agar tidak bias dalam menduga varian populasi, maka n sebagai
pembagi penjumlahan kuadrat (sum of squares) diganti dengan n-1 (derajat bebas) agar
nilai varian sampel mendekati varian populasi. Oleh karena itu rumus varian sampel
menjadi:
Nilai varian yang dihasilkan merupakan nilai yang berbentuk kuadrat. Untuk
menyeragamkan nilai satuannya maka varian diakarkuadratkan sehingga hasilnya adalah
standar deviasi (simpangan baku).
Ketika kita menghitung varians atau disperse/ kita mencari selisih dari nilai rata-rata.
Contoh
No Body Height (X)
1. 166
2. 169
3. 162
4. 170
5. 162
6. 164
7. 168
8. 166
9. 165
10. 160
Contoh, Terdapat data tinggi badan 10 siswa sebagai berikut:

Tentukan Nilai Varians dan Standar Deviasi :
Jawaban :
Berdasarkan data di atas, pertama, mari kita cari nilai mean atau rata-rata terlebih dahulu:
X=
∑X
n
166+169+162+170+162+170+162+164+168+166 +165+160
= = 165.1
10
No Body Height (X) x- x (x- x ¿2
1. 166 0.9 0.81
2. 169 3.9 15.21
3. 162 -3.1 9.61
4. 170 4.9 24.01
5. 162 -3.1 9.61
6. 164 -1.1 1.21
7. 168 2.9 8.41
8. 166 -0.1 0.01
9. 165 -0.1 0.01
10. 160 -5.1 26.01
Total 1651 0 94.9
n
1
s2 =
n−1 ∑ ¿¿I - x )2
i=1
1
s2 = 94.9
10−1
s2 = 10.544
s = 3.22
 Variance adalah pengukuran suatu variabilitas dari data untuk mengetahui seberapa
jauh data yang dimiliki tersebar. Rumus dari Variance adalah sebagai berikut:
(Rumus Variance untuk Populasi)

(Rumus Variance untuk Sampel)
Variance dihitung berdasarkan total dari setiap data (Xi) dikurangi dengan mean data
(x̄). Sedikit perbedaan jika kita berbicara mengenai data pada populasi dan sampel. Pada
variance populasi kita membagi data kita dengan seluruh jumlah sampel data (N),
sedangkan jika data sampel maka kita membaginya dengan jumlah data yang ada
dikurangi 1 (N-1). Ini dilakukan karena data sampel memiliki ketidakpastian
dibandingkan populasi sehingga kita memperbesar perhitungan persebaran kita.
Menggunakan variance berarti kita menjelaskan dasar kita melalui titik tengah mean,
sehingga variance dapat menjelaskan seberapa tersebar data kita dari mean dan satu sama
lainnya. Jika variance kita kecil, maka data kita tersebar dekat dengan nilai mean
sedangkan jika nilai variance besar menandakan data kita semakin tersebar jauh dari mean
dan dengan satu sama lain. Selain itu, karena variance melakukan pemangkatan dari data
maka data yang semakin jauh nilainya akan semakin dibesarkan sehingga kita bisa
memperkirakan seberapa banyak data yang jauh dari mean.
 Standard Deviation
Standard deviation adalah measure of spread yang paling sering digunakan
karena memberikan informasi yang jelas dan intuitif. Untuk mendapatkan nilai
Standard deviation kita hanya perlu melakukan akar kuadrat terhadap variance,
sehingga jika dirumuskan adalah:
(Rumus standard deviation populasi)
(Rumus standard deviation sampel)

Standard deviation menggambarkan seberapa berbeda nilai di data kita terhadap mean.
Selain itu standar deviation juga digunakan di dalam empirical rule atau 68–95–99.7. Jadi
Data yang terletak lebih atau kurang dari batas tersebut menandakan bahwa data tersebut
adalah suatu outlier.
Keterangan : distribusi normal punya 3 ciri yang disebut dengan ‘empirical rule’.
Jika suatu feature berdistribusi normal, maka
≈68% datanya ada dalam jarak 1 standar deviasi σ dari nilai mean μ,
≈95% data ada dalam jarak 2 Standar Deviasi (σ) dari μ, serta
≈99.7% data ada dalam 3σ dari μ. E
empirical rule ini disebut juga dengan ‘three-sigma rule’ atau ‘68-95-99.7 rule’.
Konsep distribusi normal ini penting temen-temen. Kenapa? Karena distribusi inilah yang
jadi referensi ‘titik nol’ skewness suatu data! Dengan membandingkan seberapa jauh
distribusi data ‘menyimpang’ dari distribusi normal yang simetris, kita bisa mengukur
skewness dari data.
Kaida empiric adalah aturan yang ada dalam statistika, aturan ini berlaku untuk kurva yang
normal atau data yang berdistribusi normal. Data yang berdistribusi normal bentuknya
memiliki kurva yang menyerupai bel/lonceng yang kurvanya simetris antara kiri dan kanan,
dan nilai mean median dan modus berada di tengah . Kaidah empiric adalah membagi data
dengan melibatkan rata rata dan standar deviasi. Proposi kaidah empiric sudah paten
misalnya Kita membahas µ - σ sampai µ + σ maka presentasenya adalah 34% dikiri, 34%
dikanan, begitu seterusnya.
Contoh :
Penjelasan : µ - σ sampai µ + σ maka penyebaran datanya adalah 68%, artinya 68% siswa
memiliki tinggi badan antara 161.88 – 168.32.
Intinya ini adalah untuk mengetahui penyebaran data pada kurva normal atau yang
berdistribusi normal.
 Coefficient of Variation (CoV)

 koefisien variasi ialah perbandingan antara simpangan standar dan harga atau nilai rata-
rata yang dinyatakan dengan persentase.
 Koefisien variasi berguna untuk mengamati variasi data atau sebaran data dari rata-rata
hitungnya; dalam pengertian jika koefisien variasinya semakin kecil, datanya semakin
seragam (homogen). Sebaliknya, jika koefisien variasinya semakin besar, datanya
semakin heterogen.
Nilai COV kurang dari 0,5 dapat menunjukkan distribusi normal. COV juga merupakan
indikator kualitas sampel yang baik dan dapat membantu memilih metode interpolasi kadar
untuk pemodelan blok. Untuk grade, jika data setnya bagus dia memiliki nilai Covnya kurang
dari 1,5.
 Quantile (Kuartil)
Kuartil adalah ilai yang membagi seluruh distribusi frekuensi kedalam empat bagian yang
sama besar,.
 Quantiles are values extracted at regular intervals from a dataset that has been sorted into
increasing order.
 Calculating quantiles involves dividing the sorted data into equal-sized subsets and then
identifying the values at the boundaries between subsets.
 Quartiles are useful for summarising and comparing data and have the advantage of being
less susceptible to outliers than the mean.
Q1 = Lower Quartile
Q2 = Median
Q3 = Upper Quatile
 Interquertile (IQR) : Jarak antara Q3 dan Q1 .
Penjelasan :
1. Range = rentang data nilai minimum dg data nilai maksimum .
2. Interquatile range = Jarak antara Q3 dan Q1 atau jarak dari 50% antara median.
3. – Range adalah sangat terpengaruh dg outlier . Outlier itu Nilai ekstrim / nilai yang
sangat jauh dari nilai – nilai pada umumnya.
4. + IQR adalah tidak terpengaruh outlier.
5. Skewness (kemiringan) dan kurtosis (keruncingan) merupakan ukuran untuk
melihat apakah suatu
6. data statistik terdistribusi secara normal atau tidak. Skewness adalah ukuran
yang menyatakan
7. derajat ketidaksimetrisan kurva distribusi frekuensi, atau dengan kata lain
menunjukkan seberapa
8. jauh distribusi itu menyimpang dari simetris atau normal. Sedangkan
Kurtosis (kadang-kadang
9. disebut juga peadkedness) dari suatu distribusi adalah derajat kelancipan dari
distribusi tersebut
10. terhadap distribusi normal (kurva normal)
 Skewness dan Kurtosis
Skewness (kemiringan) dan kurtosis (keruncingan) merupakan ukuran untuk melihat
apakah suatu data statistik terdistribusi secara normal atau tidak. Skewness adalah ukuran
yang menyatakan derajat ketidaksimetrisan kurva distribusi frekuensi, atau dengan kata lain
menunjukkan seberapa jauh distribusi itu menyimpang dari simetris atau normal. Sedangkan
Kurtosis (kadang-kadang disebut juga peadkedness) dari suatu distribusi adalah derajat
kelancipan dari distribusi tersebut terhadap distribusi normal (kurva normal).
Contoh :
Exploratory Data
1. Quick Summary : menghasilkan ringkasan statistik cepat dan laporan kuantil untuk
data dalam file. fungsi ini menghasilkan laporan sederhana yang berisi properti dasar
data.

Skewness Ditinjau dari segi kemiringannya, suatu distribusi dapat dibedakan

menjadi tiga:
Jika koefisien kemiringannya lebih kecil dari nol (<0), model
distribusinya negative.
Jika koefisien kemiringannya sama dengan nol (=0),model
distribusinya simetris.
Jika koefisien kemiringannya lebih besar dari nol (>0), model
distribusinya positif.
Kurtosis Ditinjau dari segi kelancipannya, suatu distribusi dapat dibedakan

menjadi tiga :
Jika suatu distribusi (kurva) lebih lancip ataulebih ramping
dibandingkan terhadap kurva normal, distribusinya disebut leptokurtis.
Jika suatu distribusi (kurva) normal, distribusinya disebut mesokurtis.
Jika suatu distribusi (kurva) lebih landai atau lebih tumpul
dibandingkan terhadap kurva normal, distribusinya disebut platikurtis
 Weighting field : Ketika bidang Pembobotan diterapkan, rata-rata
tertimbang, deviasi standar, interval kepercayaan, dan varians akan
ditulis ke Statistical Summary Report
Exploratory Data Analysis
Exploratory Data Analysis memungkinkan analyst memahami isi data yang digunakan, mulai
dari distribusi, frekuensi, korelasi dan lainnya.
 Pareto chart
Diagram Pareto adalah suatu grafik batang (nilai/jumlah asal) yang dipadukan dengan
diagram garis (jumlah kumulatif %) yang terdiri dari berbagai faktor yang behubungan
dengan suatu variabel yang disusun menurut besarnya dampak faktor tersebut.
Diagram Pareto adalah grafik batang yang menunjukkan masalah berdasarkan urutan
banyaknya jumlah kejadian. Dalam aplikasinya, Diagram Pareto sangat bermanfaat dalam
menentukan dan mengidentifikasikan prioritas permasalahan yang akan diselesaikan. rinsip
Pareto, atau dikenal juga sebagai “Aturan 80/20”, adalah suatu prinsip yang menyebutkan
bahwa dalam banyak peristiwa, 80% efeknya terjadi karena 20% penyebabnya.
20% menunjukkan pekerjaan yang akan dikerjakan, sedangkan 80% nya menunjukkan
manfaat atau hasil dari pekerjaan tersebut.
Prinsip Pareto mengingatkan kita untuk fokus pada 20% pekerjaan yang akan dikerjakan
namun tidak mengabaikan 80% hasil dari pekerjaan tersebut.
Urutannya mulai dari jumlah permasalahan yang paling banyak terjadi sampai yang
paling sedikit terjadi. Dalam Grafik, ditunjukkan dengan batang grafik tertinggi (paling kiri)
hingga grafik terendah (paling kanan).
Penjelasan dari gambar : Contoh kasus penyebab factor utama keterlambatan kepada
orang-orang. Bar ini menunjukan variabelnya, didalam grafik terlihat Bar Traffic menunjukan
50.4 % atau hampir 35%.
Catatan : Nilai individual suatu transaksi, dipresentasikan dalam bentuk bar atau column -
diurutkan dari nilai terbesar sampai terkecil. Nilai persentase akumulatif dari nilai
individual, dipresentasikan dalam bentuk line chart.
 Box and Whisker
Box-Plot merupakan ringkasan distribusi sampel yang disajikan secara grafis yang bisa
menggambarkan bentuk distribusi data (skewness), ukuran tendensi sentral dan ukuran
penyebaran (keragaman) data pengamatan.
Terdapat 5 ukuran statistik yang bisa kita baca dari boxplot, yaitu:
 Nilai minimum: nilai observasi terkecil
 Q1: kuartil terendah atau kuartil pertama
 Q2: median atau nilai pertengahan
 Q3: kuartil tertinggi atau kuartil ketiga
 nilai maksimum: nilai observasi terbesar.
 Selain itu, boxplot juga dapat menunjukkan ada tidaknya nilai outlier dan
nilai ekstrim dari data pengamatan.
 Bagian utama boxplot adalah kotak berbentuk persegi (Box) yang merupakan bidang
yang menyajikan interquartile range (IQR), dimana 50 % dari nilai data pengamatan
terletak di sana.
o Panjang kotak sesuai dengan jangkauan kuartil dalam (inner Quartile Range,
IQR) yang merupakan selisih antara Kuartil ketiga (Q3) dengan Kuartil
pertama (Q1). IQR menggambarkan ukuran penyebaran data. Semakin
panjang bidang IQR menunjukkan data semakin menyebar. Pada Gambar,
IQR = UQ – LQ = Q3 – Q1
o Garis bawah kotak (LQ) = Q1 (Kuartil pertama), dimana 25% data
pengamatan lebih kecil atau sama dengan nilai Q1
o Garis tengah kotak = Q2 (median), dimana 50% data pengamatan lebih
kecil atau sama dengan nilai ini
o Garis atas kotak (UQ) = Q3 (Kuartil ketiga) dimana 75% data pengamatan
lebih kecil atau sama dengan nilai Q1
 Garis yang merupakan perpanjangan dari box(baik ke arah atas ataupun ke arah
bawah) dinamakan dengan whiskers.
o Whiskers bawah menunjukkan nilai yang lebih rendah dari kumpulan data
yang berada dalam IQR
o Whiskers atas menunjukkan nilai yang lebih tinggi dari kumpulan data yang
berada dalam IQR
o Panjang whisker ≤ 1.5 x IQR. Masing-masing garis whisker dimulai dari
ujung kotak IQR, dan berakhir pada nilai data yang bukan dikategorikan
sebagai outlier (Pada gambar, batasnya adalah garis UIF dan LIF).
Dengan demikian, nilai terbesar dan terkecil dari data pengamatan (tanpa
termasuk outlier) masih merupakan bagian dari Boxplot yang terletak tepat
di ujung garis tepi whiskers.
 Nilai yang berada di atas atau dibawah whisker dinamakan
nilai outlier atau ekstrim.
o Nilai outlieradalah nilai data yang letaknya lebih dari 1.5 x panjang kotak
(IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak). Pada Gambar
di atas, ada 2 data pengamatan yang merupakan outlier, yaitu data pada
case 33 dan case 55 (ada pada baris ke 33 dan baris 35)
 Q3 + (1.5 x IQR) < outlier atas ≤ Q3 + (3 x IQR)
 Q1 – (1.5 x IQR) > outlier bawah ≥ Q1 – (3 x IQR)
o Nilai ekstrimadalah nilai-nilai yang letaknya lebih dari 3 x panjang kotak
(IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak). Pada gambar di
atas, ada 1 data yang merupakan nilai ekstem, yaitu data pada case 15.
 Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR)
dan
 Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 – (3 x
IQR)
Catatan :
Boxplots dapat membantu kita dalam memahami karakteristik dari distribusi data. Selain
untuk melihat derajat penyebaran data (yang dapat dilihat dari tinggi/panjang boxplot) juga
dapat digunakan untuk menilai kesimetrisan sebaran data. Panjang kotak menggambarkan
tingkat penyebaran atau keragaman data pengamatan, sedangkan letak median dan panjang
whisker menggambarkan tingkat kesimetrisannya.
 Jika data simetris (berasal dari distribusi normal):
o garis median akan berada di tengah box dan whisker bagian
atas dan bawah akan memiliki panjang yang sama serta tidak
terdapat nilai outlier ataupun nilai ekstrim.
o diharapkan nilai-nilai pengamatan yang berada di luar
whiskers tidak lebih dari 1%.
 Jika data tidak simetris (miring), median tidak akan berada di tengah box
dan salah satu dari whisker lebih panjang dari yang lainnya.
o Adanya outlier di bagian atas boxplot yang disertai dengan
whisker bagian atas yang lebih panjang, menunjukkan bahwa
distribusi data cenderung menjulur ke arah kanan (positive
skewness).
o Sebaliknya, adanya outlier di bagian bawah boxplot yang
disertai dengan whisker bagian bawah yang lebih panjang,
menunjukkan bahwa distribusi data cenderung menjulur ke
arah kiri (negatif skewness).
 Scattergram
Scatter Plot (scatterplot, scatter graph, scatter chart, scattergram, atau scatter
diagram) merupakan sebuah tipe grafik yang digunakan untuk menggambarkan suatu data
dengan menggunakan koordinat cartesian. Data-data yang di tampilkan menggunakan scatter
plot di represntasikan dengan titik yang terletak di antara 2 axis. Scatter Plot baik digunakan
ketika kita ingin melihat relasi antara 2 variabel.
 Q-Q Plot
teknik grafis untuk memeriksa apakah dua himpunan data berasal dari populasi yang
berdistribusi sama. Quantil menunjukkan fraksi atau persentil, misal quantil 0.3 (atau 30%)
adalah nilai dimana terdapat 30% data berada dibawahnya dan ada 70% data di atas nilai
tersebut (setelah diurutkan).
Pada plot juga digambar garis lurus dengan kemiringan 45 derajat. Jika dua himpunan data
berasal dari populasi yang berdistribusi sama, maka titik-titik quantil akan jatuh di sekitar
garis lurus tersebut. Semakin besar penyimpangan dari garis lurus maka semakin meyakinkan
untuk menyimpulkan bahwa dua himpunan data berasal dari populasi dengan distribusi
berbeda.
Dalam Histogram bisa menampilkan 3 jenis graph, yaitu Histogram, Kumulatif Frekuensi,
dan Probability Plot.
# HISTOGRAM
Histogram adalah representasi grafis (diagram) yang mengatur dan menampilkan frekuensi
data sampel pada rentang tertentu. Frekuensi data yang ada pada masing – masing kelas
direpresntasikan dengan bentuk grafik diagram batang atau kolom.
Grafik histogram ini dibuat berdasarkan satu kelas interval pada sumbu horizontal berupa
frekuensi yang absolut dengan frekuensi relative (presentase) berada pada sumbu vertikalnya.
Artinya, angka yang terdapat pada sumbu vertikal menyajikan hasil observasi dari tiap kelas
sampel data penelitian yang diuji.
Rule of tumb dari choosing the bin size :
1. Dibagi 50, nanti bisa dilihat bentuk dari histogram yang telah kita buat.
Setelah itu bisa ditambah atau dikurangi 25%.
2. Tidak ada nilai paten dalam memilih bin size.
3. Bin size : Class interval
#Cumulative Frequency
Kumulatif frekuensi adalah memplot kumulatif dari setiap kelas interval yang kita tampilkan
dari histogram sebelumnya.
Kurva frekuensi kumulatif adalah cara lain untuk memvisualisasikan distribusi statistik data
kelas. Berbeda dengan histogram, kurva frekuensi kumulatif menunjukkan jumlah total data
kurang dari atau sama dengan nilai maksimum setiap bin.
Dari kumulatif frekuensi kitab isa melihat Top Cut atau Balancing Cut, Top cut perlu
dilakukan jika data kita memiliki outlier, dimana outliernya berupa high grade yang jumlah
frekuensinya sedikit.
Perusahaan biasaya melakukan top cut pada 2 standar deviasi atau pada 97.7 percentile yang
didapatkan dari Empirical Rule : Setiap distribusi data dan Mean kemudian standar deviasi
kita bisa lihat berapa persen data yang tercakup didalam distribusi normal.
Nilai Top Cut tidak buang tetapi nilai outliernya diturunkan ke nilai 97.7 percentile.
# PROBABILITY PLOT
Plot probabilitas adalah cara yang berbeda untuk melihat hubungan antara data mentah
dan kurva normal. Ini seperti plot frekuensi kumulatif, dengan dua perbedaan utama:
 Sumbu X dan Y ditukar. Dalam plot probabilitas sumbu X adalah persentase kumulatif
dan sumbu Y adalah nilai.
 Sumbu X terdistorsi sehingga kurva lonceng menjadi garis lurus, dengan meregangkan
ujung-ujungnya dan sedikit mengecilkan pusat grafik.
Mata manusia jauh lebih baik dalam membandingkan garis lurus daripada
membandingkan kurva, jadi meregangkan grafik dan melapisi kurva normal yang diluruskan
pada data mentah membuat normalitas data langsung terlihat.
Jika data terdistribusi normal muncul sebagai garis lurus pada plot probabilitas, maka
penyimpangan dari garis lurus mewakili penyimpangan dari distribusi normal. Properti garis
lurus ini memudahkan untuk menentukan secara visual
normalitas.
Statistical Decompotition
Ketika kita menemui sebuah dat set yang memiliki mix populasi dan tidak terlihat seperti satu
single normal distribusi, disitu kitab isa mengunnakan fungsi statistical decomposisi.
#Decompotition pada probability plot
Data terdistribusi normal muncul sebagai garis lurus pada plot probabilitas. Jika Anda dapat
mengidentifikasi segmen lurus atau kira-kira lurus dalam grafik . Anda dapat
menggambarkan bagian-bagian itu sebagai kira-kira terdistribusi secara normal.
Lebih dari satu segmen lurus berarti sampel berisi data dari lebih dari satu populasi, dan
biasanya ada zona transisi antara segmen yang berdekatan.
Dekomposisi statistik pada plot probabilitas melibatkan langkah-langkah berikut:
 Identifikasi bagian yang relatif lurus dari grafik dengan Flat Slope. Ini memiliki
standar deviasi terendah dan seharusnya karena itu mewakili populasi yang
berkontribusi.
 Periksa transisi antara bagian yang lebih datar. Cari bagian garis yang miring lebih
curam yang menyerupai bentuk S terbuka. Mereka mungkin halus atau tidak ada sama
sekali jika perbedaan antara populasi bertahap. Dalam hal ini hanya mencari
perubahan kemiringan.
 Identifikasi infleksi atau perubahan kemiringan pada titik tengah dari
zona transisi. Ini mendefinisikan breakpoint(s), dengan kata lain nilai di mana satu populasi
berakhir dan populasi berikutnya dimulai.
Zona transisi pada plot probabilitas cenderung menjadi lebih curam karena perubahan antar
populasi menjadi lebih jelas, dan lebih datar atau kurang terlihat saat perubahan antar
populasi menjadi lebih bertahap.
Penjelasan:
Ada mix populasi pada histogram didalam gambar. Jika single normal distribusi data akan
terlihat seperti kurva/ lonceng, didalam gambar terlihat ada dua .
Pada probability plot kita mencara sisi/ section yang hampir flat

Describing Data

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Describing Data

Diunggah oleh

Hak Cipta:

Format Tersedia

Describing Data

 Weighted Mean : rata-rata yang dihitung dengan memperhitungkan

Namun begitu, dalam penerapannya, nilai varian tersebut bias untuk menduga

Contoh, Terdapat data tinggi badan 10 siswa sebagai berikut:

(Rumus Variance untuk Populasi)

(Rumus standard deviation populasi)

(Rumus standard deviation sampel)

 Coefficient of Variation (CoV)

 Interquertile (IQR) : Jarak antara Q3 dan Q1 .

Skewness Ditinjau dari segi kemiringannya, suatu distribusi dapat dibedakan

Kurtosis Ditinjau dari segi kelancipannya, suatu distribusi dapat dibedakan

Anda mungkin juga menyukai