1. Tendesi central
Mean (Rata-rata) : Nilai rata – rata suatu kelompok data.
Median : nilai tengah dari sekumpulan data setelah diurutkan dari data yang
terkecil sampai data terbesar.
Modus adalah nilai yang paling sering muncul. Dalam data kelompok yang
telah disajikan frekuensinya, modus suatu nilai yang memiliki frekuensi paling
besar.
Contoh Modus Data Tunggal :
57, 38, 55, 55, 80, 87, 98
Modusnya adalah 55, karena frekuensinya lebih besar / 55 muncul sebanyak
2x
2. Measuring Dispersion
Ukuran tendensi sentral (Mean, Median, Mode) saja tidak cukup untuk menggambarkan
distribusi frekuensi. Selain itu kita harus memiliki ukuran persebaran data pengamatan.
Ukuran penyebaran atau ukuran keragaman pengamatan dari nilai rata-ratanya disebut
simpangan (deviation/dispersi). Terdapat beberapa ukuran untuk menentukan dispersi data
pengamatan, seperti jangkauan/rentang (range), simpangan kuartil (quartile deviation),
simpangan rata-rata (mean deviation), dan simpangan baku (standard deviation).
Populasi : keseluruhan dari subjek penelitian.
Sampel = Sampel adalah wakil atau sebagian dari populasi yang memiliki sifat dan
karakteristik yang sama bersifat representatif dan menggambarkan populasi sehingga
dianggap dapat mewakili semua populasi yang diteliti.
Standar deviasi (simpangan baku) merupakan akar kuadrat dari varian.
Dasar penghitungan varian dan standar deviasi adalah keinginan untuk mengetahui
keragaman suatu kelompok data. Salah satu cara untuk mengetahui keragaman dari suatu
kelompok data adalah dengan mengurangi setiap nilai data dengan rata-rata kelompok data
tersebut, selanjutnya semua hasilnya dijumlahkan. Namun cara seperti itu tidak bisa
digunakan karena hasilnya akan selalu menjadi 0.
Oleh karena itu, solusi agar nilainya tidak menjadi 0 adalah dengan mengkuadratkan
setiap pengurangan nilai data dan rata-rata kelompok data tersebut, selanjutnya dilakukan
penjumlahan. Hasil penjumlahan kuadrat (sum of squares) tersebut akan selalu bernilai
positif.
Nilai varian diperoleh dari pembagian hasil penjumlahan kuadrat (sum of squares)
dengan ukuran data (n).
Nilai varian yang dihasilkan merupakan nilai yang berbentuk kuadrat. Untuk
menyeragamkan nilai satuannya maka varian diakarkuadratkan sehingga hasilnya adalah
standar deviasi (simpangan baku).
Ketika kita menghitung varians atau disperse/ kita mencari selisih dari nilai rata-rata.
Contoh
No Body Height (X)
1. 166
2. 169
3. 162
4. 170
5. 162
6. 164
7. 168
8. 166
9. 165
10. 160
X=
∑X
n
166+169+162+170+162+170+162+164+168+166 +165+160
= = 165.1
10
No Body Height (X) x- x (x- x ¿2
1. 166 0.9 0.81
2. 169 3.9 15.21
3. 162 -3.1 9.61
4. 170 4.9 24.01
5. 162 -3.1 9.61
6. 164 -1.1 1.21
7. 168 2.9 8.41
8. 166 -0.1 0.01
9. 165 -0.1 0.01
10. 160 -5.1 26.01
Total 1651 0 94.9
n
1
s2 =
n−1 ∑ ¿¿I - x )2
i=1
1
s2 = 94.9
10−1
s2 = 10.544
s = 3.22
Variance adalah pengukuran suatu variabilitas dari data untuk mengetahui seberapa
jauh data yang dimiliki tersebar. Rumus dari Variance adalah sebagai berikut:
Standard Deviation
Standard deviation adalah measure of spread yang paling sering digunakan
karena memberikan informasi yang jelas dan intuitif. Untuk mendapatkan nilai
Standard deviation kita hanya perlu melakukan akar kuadrat terhadap variance,
sehingga jika dirumuskan adalah:
Keterangan : distribusi normal punya 3 ciri yang disebut dengan ‘empirical rule’.
Jika suatu feature berdistribusi normal, maka
≈68% datanya ada dalam jarak 1 standar deviasi σ dari nilai mean μ,
≈95% data ada dalam jarak 2 Standar Deviasi (σ) dari μ, serta
≈99.7% data ada dalam 3σ dari μ. E
empirical rule ini disebut juga dengan ‘three-sigma rule’ atau ‘68-95-99.7 rule’.
Konsep distribusi normal ini penting temen-temen. Kenapa? Karena distribusi inilah yang
jadi referensi ‘titik nol’ skewness suatu data! Dengan membandingkan seberapa jauh
distribusi data ‘menyimpang’ dari distribusi normal yang simetris, kita bisa mengukur
skewness dari data.
Kaida empiric adalah aturan yang ada dalam statistika, aturan ini berlaku untuk kurva yang
normal atau data yang berdistribusi normal. Data yang berdistribusi normal bentuknya
memiliki kurva yang menyerupai bel/lonceng yang kurvanya simetris antara kiri dan kanan,
dan nilai mean median dan modus berada di tengah . Kaidah empiric adalah membagi data
dengan melibatkan rata rata dan standar deviasi. Proposi kaidah empiric sudah paten
misalnya Kita membahas µ - σ sampai µ + σ maka presentasenya adalah 34% dikiri, 34%
dikanan, begitu seterusnya.
Contoh :
Penjelasan : µ - σ sampai µ + σ maka penyebaran datanya adalah 68%, artinya 68% siswa
memiliki tinggi badan antara 161.88 – 168.32.
Intinya ini adalah untuk mengetahui penyebaran data pada kurva normal atau yang
berdistribusi normal.
Q1 = Lower Quartile
Q2 = Median
Q3 = Upper Quatile
Penjelasan :
1. Range = rentang data nilai minimum dg data nilai maksimum .
2. Interquatile range = Jarak antara Q3 dan Q1 atau jarak dari 50% antara median.
3. – Range adalah sangat terpengaruh dg outlier . Outlier itu Nilai ekstrim / nilai yang
sangat jauh dari nilai – nilai pada umumnya.
4. + IQR adalah tidak terpengaruh outlier.
5. Skewness (kemiringan) dan kurtosis (keruncingan) merupakan ukuran untuk
melihat apakah suatu
6. data statistik terdistribusi secara normal atau tidak. Skewness adalah ukuran
yang menyatakan
7. derajat ketidaksimetrisan kurva distribusi frekuensi, atau dengan kata lain
menunjukkan seberapa
8. jauh distribusi itu menyimpang dari simetris atau normal. Sedangkan
Kurtosis (kadang-kadang
9. disebut juga peadkedness) dari suatu distribusi adalah derajat kelancipan dari
distribusi tersebut
10. terhadap distribusi normal (kurva normal)
Skewness dan Kurtosis
Skewness (kemiringan) dan kurtosis (keruncingan) merupakan ukuran untuk melihat
apakah suatu data statistik terdistribusi secara normal atau tidak. Skewness adalah ukuran
yang menyatakan derajat ketidaksimetrisan kurva distribusi frekuensi, atau dengan kata lain
menunjukkan seberapa jauh distribusi itu menyimpang dari simetris atau normal. Sedangkan
Kurtosis (kadang-kadang disebut juga peadkedness) dari suatu distribusi adalah derajat
kelancipan dari distribusi tersebut terhadap distribusi normal (kurva normal).
Contoh :
Exploratory Data
1. Quick Summary : menghasilkan ringkasan statistik cepat dan laporan kuantil untuk
data dalam file. fungsi ini menghasilkan laporan sederhana yang berisi properti dasar
data.
Terdapat 5 ukuran statistik yang bisa kita baca dari boxplot, yaitu:
Nilai minimum: nilai observasi terkecil
Q1: kuartil terendah atau kuartil pertama
Q2: median atau nilai pertengahan
Q3: kuartil tertinggi atau kuartil ketiga
nilai maksimum: nilai observasi terbesar.
Selain itu, boxplot juga dapat menunjukkan ada tidaknya nilai outlier dan
nilai ekstrim dari data pengamatan.
Bagian utama boxplot adalah kotak berbentuk persegi (Box) yang merupakan bidang
yang menyajikan interquartile range (IQR), dimana 50 % dari nilai data pengamatan
terletak di sana.
o Panjang kotak sesuai dengan jangkauan kuartil dalam (inner Quartile Range,
IQR) yang merupakan selisih antara Kuartil ketiga (Q3) dengan Kuartil
pertama (Q1). IQR menggambarkan ukuran penyebaran data. Semakin
panjang bidang IQR menunjukkan data semakin menyebar. Pada Gambar,
IQR = UQ – LQ = Q3 – Q1
o Garis bawah kotak (LQ) = Q1 (Kuartil pertama), dimana 25% data
pengamatan lebih kecil atau sama dengan nilai Q1
o Garis tengah kotak = Q2 (median), dimana 50% data pengamatan lebih
kecil atau sama dengan nilai ini
o Garis atas kotak (UQ) = Q3 (Kuartil ketiga) dimana 75% data pengamatan
lebih kecil atau sama dengan nilai Q1
Garis yang merupakan perpanjangan dari box(baik ke arah atas ataupun ke arah
bawah) dinamakan dengan whiskers.
o Whiskers bawah menunjukkan nilai yang lebih rendah dari kumpulan data
yang berada dalam IQR
o Whiskers atas menunjukkan nilai yang lebih tinggi dari kumpulan data yang
berada dalam IQR
o Panjang whisker ≤ 1.5 x IQR. Masing-masing garis whisker dimulai dari
ujung kotak IQR, dan berakhir pada nilai data yang bukan dikategorikan
sebagai outlier (Pada gambar, batasnya adalah garis UIF dan LIF).
Dengan demikian, nilai terbesar dan terkecil dari data pengamatan (tanpa
termasuk outlier) masih merupakan bagian dari Boxplot yang terletak tepat
di ujung garis tepi whiskers.
Nilai yang berada di atas atau dibawah whisker dinamakan
nilai outlier atau ekstrim.
o Nilai outlieradalah nilai data yang letaknya lebih dari 1.5 x panjang kotak
(IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak). Pada Gambar
di atas, ada 2 data pengamatan yang merupakan outlier, yaitu data pada
case 33 dan case 55 (ada pada baris ke 33 dan baris 35)
Q3 + (1.5 x IQR) < outlier atas ≤ Q3 + (3 x IQR)
Q1 – (1.5 x IQR) > outlier bawah ≥ Q1 – (3 x IQR)
o Nilai ekstrimadalah nilai-nilai yang letaknya lebih dari 3 x panjang kotak
(IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak). Pada gambar di
atas, ada 1 data yang merupakan nilai ekstem, yaitu data pada case 15.
Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR)
dan
Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 – (3 x
IQR)
Catatan :
Boxplots dapat membantu kita dalam memahami karakteristik dari distribusi data. Selain
untuk melihat derajat penyebaran data (yang dapat dilihat dari tinggi/panjang boxplot) juga
dapat digunakan untuk menilai kesimetrisan sebaran data. Panjang kotak menggambarkan
tingkat penyebaran atau keragaman data pengamatan, sedangkan letak median dan panjang
whisker menggambarkan tingkat kesimetrisannya.
Jika data simetris (berasal dari distribusi normal):
o garis median akan berada di tengah box dan whisker bagian
atas dan bawah akan memiliki panjang yang sama serta tidak
terdapat nilai outlier ataupun nilai ekstrim.
o diharapkan nilai-nilai pengamatan yang berada di luar
whiskers tidak lebih dari 1%.
Jika data tidak simetris (miring), median tidak akan berada di tengah box
dan salah satu dari whisker lebih panjang dari yang lainnya.
o Adanya outlier di bagian atas boxplot yang disertai dengan
whisker bagian atas yang lebih panjang, menunjukkan bahwa
distribusi data cenderung menjulur ke arah kanan (positive
skewness).
o Sebaliknya, adanya outlier di bagian bawah boxplot yang
disertai dengan whisker bagian bawah yang lebih panjang,
menunjukkan bahwa distribusi data cenderung menjulur ke
arah kiri (negatif skewness).
Scattergram
Scatter Plot (scatterplot, scatter graph, scatter chart, scattergram, atau scatter
diagram) merupakan sebuah tipe grafik yang digunakan untuk menggambarkan suatu data
dengan menggunakan koordinat cartesian. Data-data yang di tampilkan menggunakan scatter
plot di represntasikan dengan titik yang terletak di antara 2 axis. Scatter Plot baik digunakan
ketika kita ingin melihat relasi antara 2 variabel.
Q-Q Plot
teknik grafis untuk memeriksa apakah dua himpunan data berasal dari populasi yang
berdistribusi sama. Quantil menunjukkan fraksi atau persentil, misal quantil 0.3 (atau 30%)
adalah nilai dimana terdapat 30% data berada dibawahnya dan ada 70% data di atas nilai
tersebut (setelah diurutkan).
Pada plot juga digambar garis lurus dengan kemiringan 45 derajat. Jika dua himpunan data
berasal dari populasi yang berdistribusi sama, maka titik-titik quantil akan jatuh di sekitar
garis lurus tersebut. Semakin besar penyimpangan dari garis lurus maka semakin meyakinkan
untuk menyimpulkan bahwa dua himpunan data berasal dari populasi dengan distribusi
berbeda.
Dalam Histogram bisa menampilkan 3 jenis graph, yaitu Histogram, Kumulatif Frekuensi,
dan Probability Plot.
# HISTOGRAM
Histogram adalah representasi grafis (diagram) yang mengatur dan menampilkan frekuensi
data sampel pada rentang tertentu. Frekuensi data yang ada pada masing – masing kelas
direpresntasikan dengan bentuk grafik diagram batang atau kolom.
Grafik histogram ini dibuat berdasarkan satu kelas interval pada sumbu horizontal berupa
frekuensi yang absolut dengan frekuensi relative (presentase) berada pada sumbu vertikalnya.
Artinya, angka yang terdapat pada sumbu vertikal menyajikan hasil observasi dari tiap kelas
sampel data penelitian yang diuji.
Rule of tumb dari choosing the bin size :
1. Dibagi 50, nanti bisa dilihat bentuk dari histogram yang telah kita buat.
Setelah itu bisa ditambah atau dikurangi 25%.
2. Tidak ada nilai paten dalam memilih bin size.
3. Bin size : Class interval
#Cumulative Frequency
Kumulatif frekuensi adalah memplot kumulatif dari setiap kelas interval yang kita tampilkan
dari histogram sebelumnya.
Kurva frekuensi kumulatif adalah cara lain untuk memvisualisasikan distribusi statistik data
kelas. Berbeda dengan histogram, kurva frekuensi kumulatif menunjukkan jumlah total data
kurang dari atau sama dengan nilai maksimum setiap bin.
Dari kumulatif frekuensi kitab isa melihat Top Cut atau Balancing Cut, Top cut perlu
dilakukan jika data kita memiliki outlier, dimana outliernya berupa high grade yang jumlah
frekuensinya sedikit.
Perusahaan biasaya melakukan top cut pada 2 standar deviasi atau pada 97.7 percentile yang
didapatkan dari Empirical Rule : Setiap distribusi data dan Mean kemudian standar deviasi
kita bisa lihat berapa persen data yang tercakup didalam distribusi normal.
Nilai Top Cut tidak buang tetapi nilai outliernya diturunkan ke nilai 97.7 percentile.
# PROBABILITY PLOT
Plot probabilitas adalah cara yang berbeda untuk melihat hubungan antara data mentah
dan kurva normal. Ini seperti plot frekuensi kumulatif, dengan dua perbedaan utama:
Sumbu X dan Y ditukar. Dalam plot probabilitas sumbu X adalah persentase kumulatif
dan sumbu Y adalah nilai.
Sumbu X terdistorsi sehingga kurva lonceng menjadi garis lurus, dengan meregangkan
ujung-ujungnya dan sedikit mengecilkan pusat grafik.
Mata manusia jauh lebih baik dalam membandingkan garis lurus daripada
membandingkan kurva, jadi meregangkan grafik dan melapisi kurva normal yang diluruskan
pada data mentah membuat normalitas data langsung terlihat.
Jika data terdistribusi normal muncul sebagai garis lurus pada plot probabilitas, maka
penyimpangan dari garis lurus mewakili penyimpangan dari distribusi normal. Properti garis
lurus ini memudahkan untuk menentukan secara visual
normalitas.
Statistical Decompotition
Ketika kita menemui sebuah dat set yang memiliki mix populasi dan tidak terlihat seperti satu
single normal distribusi, disitu kitab isa mengunnakan fungsi statistical decomposisi.
#Decompotition pada probability plot
Data terdistribusi normal muncul sebagai garis lurus pada plot probabilitas. Jika Anda dapat
mengidentifikasi segmen lurus atau kira-kira lurus dalam grafik . Anda dapat
menggambarkan bagian-bagian itu sebagai kira-kira terdistribusi secara normal.
Lebih dari satu segmen lurus berarti sampel berisi data dari lebih dari satu populasi, dan
biasanya ada zona transisi antara segmen yang berdekatan.
Dekomposisi statistik pada plot probabilitas melibatkan langkah-langkah berikut:
Identifikasi bagian yang relatif lurus dari grafik dengan Flat Slope. Ini memiliki
standar deviasi terendah dan seharusnya karena itu mewakili populasi yang
berkontribusi.
Periksa transisi antara bagian yang lebih datar. Cari bagian garis yang miring lebih
curam yang menyerupai bentuk S terbuka. Mereka mungkin halus atau tidak ada sama
sekali jika perbedaan antara populasi bertahap. Dalam hal ini hanya mencari
perubahan kemiringan.
Identifikasi infleksi atau perubahan kemiringan pada titik tengah dari
zona transisi. Ini mendefinisikan breakpoint(s), dengan kata lain nilai di mana satu populasi
berakhir dan populasi berikutnya dimulai.
Zona transisi pada plot probabilitas cenderung menjadi lebih curam karena perubahan antar
populasi menjadi lebih jelas, dan lebih datar atau kurang terlihat saat perubahan antar
populasi menjadi lebih bertahap.
Penjelasan:
Ada mix populasi pada histogram didalam gambar. Jika single normal distribusi data akan
terlihat seperti kurva/ lonceng, didalam gambar terlihat ada dua .
Pada probability plot kita mencara sisi/ section yang hampir flat