Anda di halaman 1dari 20

Analisis Data Eksploratif

Ringkasan Numerik

Novi Hidayat Pusponegoro

Data Kepegawaian
Nama

Usia

JK

Gaji (Juta Rp)

Nasya

39

6,210 Managemen

Ilham

27

4,735 Tekhnik

Malika

20

3,825 Tekhnik

Dedi

48

7,760 Managemen

Deskripsi nilai data:


Usia, Gaji: Kuantitatif
JK, Jenis Pekerjaan: Kategorik

Tipe Pekerjaan

Analisis Data Eksploratif


Metode statistik yang dapat digunakan untuk memeriksa data sehingga

peneliti akan mengetahui kondisi data


Strategi dasar

Beda histogram
dan Stem-Leaf
diagram?

Gambar:
Histogram
Stemplots
Plot data berdasar waktu, dll

Ringkasan numerik :
Mean
Median
Kuartil
Range
Standard deviation, dll

Histogram untuk data berukuran besar,


Stem-Leaf untuk data berukuran kecil

Ringkasan Numerik untuk Data


Kuantitatif
Untuk mengetahui kondisi pemusatan dan persebaran nilai data
Pemusatan
Mean
Median
Modus
Persebaran
Range
Inter-quartile range
Standard deviation
5 ringkasan nilai yang biasanya digunakan adalah:
Nilai minimum, Kuartil I (Q1), Median, Kuartil III (Q3), dan nilai maksimum

Mean
Merupakan nilai rata-rata hitung dari keseluruhan nilai data yang

dimiliki
Notasi:
Mean populasi :
Mean sampel:
Contoh:
Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik
untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai rata-rata
hitungnya?

Median
Merupakan nilai yang berada tepat di tengah suatu distribusi nilai data
Sehingga separo dari nilai data berada di bawah nilai median dan

sisanya berada dia atas nilai median


Merupakan persentil kelimapuluh (P50) atau kuartil II (Q2)
Untuk menghitung median
Urutkan pengamatan
Jika jumlah observasi ganjil, maka nilai median adalah nilai yang
berada tepat di tengah
Jika jumlah observasi genap, maka nilai median adalah rata-rata
nilai dua pengamatan yang berada di tengah

Contoh Median
Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik
untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai mediannya?

Mean vs Median
Nilai mean dan median sama, jika distribusi nilai data berupa kurva yang

setangkup/simetris
Mean dan median berbeda, jika distribusi nilai data menceng
Menceng kanan : mean lebih besar dari median
Menceng kiri: mean lebih kecil dari median

Mean vs Median (2)


Pendapatan per tahun 6 orang di suatu kota kecil adalah:

$25,000 $27,000 $29,000


$35,000 $37,000 $38,000
Rata-ratanya adalah $31,830 dan mediannya $32,000
Bill Gates pindah, dengan pendapatan per tahunnya $40,000,000
Rata-ratanya menjadi $5,741,571 dan mediannya tetap $35,000

Mean ditarik oleh nilai ekstrim, namun tidak dengan

median. Median lebih baik digunakan sebagai ukuran


pusat data jika nilai datanya bervariasi

Mean vs Median (3)


Data
3, 7, 9, 11, 22

Median Mean
9

10.4

Data
3, 7, 9, 11, 22
2, 6, 7, 12, 13, 16, 17, 20

Median Mean
9
12.5

10.4
11.625
Data

3, 7, 9, 11, 22
2, 6, 7, 12, 13, 16, 17, 20
2, 6, 7, 12, 13, 16, 17, 200

Median Mean
9
10.4
12.5 11.625
12.5 34.125

Is a central measure enough?


Penggunaan ukuran pemusatan saja dapat menyesatkan.
Penjelasan numerik berguna untuk menjelaskan distribusi baik dari

ukuran pemusatan dan ukuran penyebaran.

Ukuran Penyebaran Data


Jarak /range (R) :
R= Max-Min

Jarak antar kuartil/Inter-quartile range:


IQR=Q3-Q1

Standard Deviation (SD):


rata-rata jarak nilai data terhadap mean

Manakah yang harus digunakan?

Standard Deviation
1 n
2
x i
N i1

Manakah data set yang memiliki SD yang lebih kecil?

a) 50, 40, 60, 30, 70, 25, 75


b) 50, 40, 60, 30, 70, 25, 75, 50, 50, 50

Properties dari SD
SD 0. (Kapankah SD = 0)?
Memiliki unit pengukuran yang sama dengan data observasi
Dipengaruhi oleh nilai ekstrim

Mean dan SD
Jika ditambahkan nilai 5 pada masing-masing nilai data diatas

Bagaimanakah niali mean dan SD nya?


N

1
xi
N i1
1
2
x i
N i1
n

Kuartil (Q)
Kuartil membagi data (n) yang berurutan atas 4 bagian yang sama banyak.

------|------|-------|------Q1 Q2 Q3
Q1 = kuartil bawah (1/4n )
Q2 = kuartil tengah/median (1/2n)
Q3 = kuartil atas (1/4n )
Untuk data yang tidak dikelompokkan terlebih dahulu dicari mediannya,
kemudian kuartil bawah dan kuartil atas.
Untuk data yang dikelompokkan rumusan kuartil identik dengan rumusan
mencari median.
Jarak antar kuartil atau IQR (Inter Quartile Range) merupak selisih antara Q3
dan Q1.

Hinges
Arti; Engsel
Jenis:
Lower-Hinges (H1), merupakan median dari nilai minimum data s.d nilai median (identik

dengan Q1)
Upper-Hinges (H2), merupakan median dari nilai median s.d nilai maksimum data ((identik
dengan Q3)

*Note: Kecuali untuk data berjumlah genap, dimana median akan berada diantara 2 nilai
Contoh:

Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik untuk 10 siswa:
80 73 92 85 75 98 93 55 80. Tentukan nilai hinges-nya?

Nilai Ekstrim
Outliers adalah titik data merepotkan, dan penting untuk dapat

mengidentifikasi mereka.
Kandidatnya adalah nilai minimum dan maksimum
IQR digunakan sebagai bagian dari aturan praktis untuk
mengidentifikasi outlier.
Nilai data dianggap outlier rendah: setiap nilai <Q1 - 1,5IQR
Nilai data dianggap outlier tinggi: setiap nilai> Q3 + 1,5IQR

Ilustrasi 5 number summaries


Banyak data

Notasi Median pada


nilai ke7
Notasi Hinges pada
nilai ke4
Notasi nilai ekstrim

Nilai Median
Nilai Hinges

Resume
Memilih Ringkasan nilai yang tepat
Mean dan Standar Deviasi, hanya untuk distribusi cukup

simetris yang tidak memiliki outlier


Median dan IQR biasanya lebih baik daripada mean dan standar
deviasi untuk menggambarkan distribusi miring atau distribusi
dengan outlier.
CATATAN: ringkasan numerik tidak sepenuhnya

menggambarkan bentuk distribusi.


ALWAYS PLOT YOUR DATA FIRST TO GET A FEEL OF
YOUR DATA!

Anda mungkin juga menyukai