Anda di halaman 1dari 10

4

Ukuran Penyebaran Data

Tujuan Perkuliahan
Setelah mengikuti perkuliahan ini, mahasiswa dapat:

1. mengetahui jenis ukuran penyebaran data


2. menghitung variansi dan standar deviasi dari data

Ukuran pemusatan data (central tendency) merupakan ukuran yang penting dalam
mendeskripsikan data. Namun bukan satu-satunya ukuran yang diperlukan untuk
menggambarkan data secara komprehensif.
Untuk memahami hal di atas, perhatikan contoh di bawah:

Contoh 4.1 Diketahui 2 set data sebagai berikut:

X 0 2 4 4 6 8
Y 2 3 4 4 5 6
Ukuran pemusatan data dari kedua data adalah:

Data Mean Median Modus


X 4 4 4
Y 4 4 4

Berdasarkan tabel di atas, ukuran pemusatan – mean, median, dan modus –


untuk kedua data bernilai sama, 4. Jika deksripsi dari data hanya dengan ukuran
pemusatan, bukankah informasi yang diperoleh memberi kesan bahwa kedua
set data – baik X maupun Y – adalah sama?. Namun secara intuitif, dengan
memperhatikan kedua data, menyimpulkan kedua set sama adalah keliru, kan?.

Wirawan Setialaksana, S.Pd., M.Sc.


20 Bab 4. Ukuran Penyebaran Data

Berdasarkan contoh 4.1 di atas, ukuran pemusatan belum cukup untuk mendeskripsik-
an data secara komprehensif. Diperlukan ukuran lain yang bukan hanya memberikan
informasi tentang pusat dari data, namun juga bagaimana variabilitas dari data.
Informasi mengenai kedalaman laut tidak dapat diwakili oleh rata-rata kedalaman
laut yang 150 cm, kan?.
Untuk itu, di bab ini akan dibahas beberapa ukuran penyebaran data yang
populer digunakan: Range, Deviasi Mutlak Rata-Rata (Mean Absolute Deviation),
Variansi, dan Standar Deviasi. Dua yang disebut terakhir lebih populer dibanding
yang lainnya.

4.1 Range
Definisi 4.1 Range adalah ukuran penyebaran yang menggambarkan panjang
interval minimum yang memuat semua data.

Definisi di atas adalah definisi yang tidak operasional secara matematis. Untuk
dapat menghitung Range, definsi di atas akan dibentuk dalam bentuk operasional.
Berdasarkan definisi di atas, formula Range dapat dituliskan sebagai:

R = Xmax − Xmin

Dengan:

R = Range
Xmax = Data paling besar
Xmin = Data paling kecil

Contoh 4.2 Diketahui data nilai UTS TIK 10 orang siswa.

75 91 96 68 85
63 51 58 78 81
Berdasarkan data di atas, Range dapat diperoleh dengan menentukan data terbe-
sar dan data terkecil terlebih dahulu.

Xmax = 96
Xmin = 51
Sehingga Range dari data 10 nilai UTS TIK siswa di atas adalah:

Range = Xmax − Xmin


= 96 − 51
=45

Wirawan Setialaksana, S.Pd., M.Sc.


4.2 Mean Absolute Deviation 21

Range bukanlah ukuran penyebaran yang banyak dipakai. Hal ini disebabkan
Range memiliki kelemahan. Kelemahan dari range adalah range hanya sensitif
terhadap data terbesar dan data terkecil. Penambahan data dengan besaran yang
berada di antara data terbesar dan data terkecil tidak akan mengubah nilai Range.
Perhatikan contoh di bawah.

Contoh 4.3 Dari data pada contoh 3.1 di atas, nilai seorang siswa lain dimasukkan.
Sehingga diperoleh:
75 91 96 68 85
63 51 58 78 81
55
Range dari data 11 nilai UTS TIK siswa di atas adalah:

Range = Xmax − Xmin


= 96 − 51
=45

Contoh 4.4 Dalam konteks yang sama, siswa ke-11 yang dikeluarkan dari kelom-
pok kemudian siswa lainnya dimasukkan. Sehingga data nilai UTS siswa yang
baru adalah:
75 91 96 68 85
63 51 58 78 81
93
Range dari data 11 nilai UTS TIK siswa di atas adalah:

Range = Xmax − Xmin


= 96 − 51
=45

Dari contoh 3.2 yang menambahkan data ke-11 dengan nilai 55 serta contoh 3.3
yang menambahkan data ke-11 dengan nilai 93, Range tidak mengalami perubahan.
Karena data ke-11 yang ditambahkan, tidak lebih kecil dari data terkecil dan tidak
lebih besar dari data terbesar.
Secara intuitif, seharusnya penambahan data secara umum, apalagi dengan
data yang cukup berbeda dari pusat data (mendekati Xm in dan Xm ax), harusnya
berkontribusi terhadap perubahan ukuran penyebaran data.

4.2 Mean Absolute Deviation


Mean Absolute Deviation (MAD) merupakan salah satu dari 3 ukuran penyebaran
yang mendasarkan ukurannya terhadap rata-rata data. Ketiganya – MAD, Variansi,

Wirawan Setialaksana, S.Pd., M.Sc.


22 Bab 4. Ukuran Penyebaran Data

dan Standar Deviasi – merupakan ukuran penyebaran yang populer digunakan.


Setidaknya lebih populer dibanding Range.
Ketiga ukuran penyebaran ini berusaha mencari formula dengan mengukur hasil
pengurangan setiap data dengan rata-ratanya. Secara matematis, formula dari
konsep ini adalah sebagai berikut:

Pn
i=1 (Xi − X̄)
Dev = (4.1)
n

Namun perumusan formula ini menemui masalah. Masalah ini dipaparkan pada
contoh dibawah.

Contoh 4.5 Diketahui data IPK dari 10 orang Mahasiswa:

2,5 2,8 3,0 3,2 3,0


3,5 3,7 3,1 2,9 3,3
Karena MAD mendasarkan tingkat penyebaran data pada rata-rata, maka lang-
kah pertama yang dilakukan adalah dengan menghitung rata-rata dari data di atas.

P10
X
1
X̄ = i=1 n
2,5+2,8+3,0+3,2+3,0+3,5+3,7+3,1+2,9+3,3
= 10
= 31
10
= 3, 1
Untuk melihat hasil pengurangan data dan rata-ratanya, tabel di bawah dapat
membantu.
Xi X̄ Xi − X̄
2,5 3,1 -0,6
2,8 3,1 -0,3
3,0 3,1 -0,1
3,2 3,1 0,1
3,0 3,1 -0,1
3,5 3,1 0,4
3,7 3,1 0,6
3,1 3,1 0
2,9 3,1 -0,2
3,3 3,1 0,2
Total 0

Hasil penjumlahan dari mengurangkan data dengan rata-ratanya ternyata meng-


hasilkan 0. Hal ini terjadi bukan karena kebetulan. Setiap data statistik akan
selalu menghasilkan nol. Sehingga mendasarkan ukuran penyebaran pada ide ini
tidaklah mungkin (karena setiap data selalu menunjukkan hasil yang sama, 0).

Secara matematis, nilai nol memang akan selalu diperoleh dari formula 4.1.

Wirawan Setialaksana, S.Pd., M.Sc.


4.2 Mean Absolute Deviation 23
Pn Pn Pn
i=1 (Xi −X̄) X
i X̄
n
= i=1n
− i=1
n
= X̄ − n.nX̄
= X̄ − X̄
=0

Agar konsep penyebaran dengan mendasarkan ukuran penyebaran pada jumlah hasil
pengurangan data terhadap rata-ratanya dapat dimanfaatkan, formula di atas perlu
dimodifikasi. Salah satu ide modifikasinya adalah dengan menentukan jarak (bukan
hanya mengurangkan data dengan rata-ratanya) dari data dan rata-ratanya.
Konsep jarak tentu saja berbeda. Jarak tidak mengenal arah, sehingga nilainya
selalu positif. Menggunakan jarak pada formula 4.1 akan menghasilkan formula:
Pn
|Xi − X̄|
M AD = i=1
n
Formula diatas adalah formula yang dikenal sebagai Mean Absolute Devia-
tion(MAD). Berdasarkan formula di atas, definisi dari MAD adalah sebagai beri-
kut:
Definisi 4.2 MAD adalah rata-rata dari jarak data terhadap mean nya.

Untuk memahami bagaimana menghitung MAD, perhatikan contoh di bawah:

Contoh 4.6 Berdasarkan data pada contoh 3.4, diperoleh tabel bantuan yang
sama dengan contoh 3.4 pula. Namun perlu ditambahkan kolom ke-4 yang memuat
nilai mutlak dari hasil pengurangan data dengan meannya. Karena dalam MAD,
yang diolah adalah jarak data dari mean nya.
Xi X̄ Xi − X̄ |Xi − X̄|
2,5 3,1 -0,6 0,6
2,8 3,1 -0,3 0,3
3,0 3,1 -0,1 0,1
3,2 3,1 0,1 0,1
3,0 3,1 -0,1 0,1
3,5 3,1 0,4 0,4
3,7 3,1 0,6 0,6
3,1 3,1 0 0
2,9 3,1 -0,2 0,2
3,3 3,1 0,2 0,2
Total 2,6

Berdasarkan tabel bantuan di atas, diperoleh jumlahan jarak data dari mean nya
sebesar 2,6. Sehingga MAD yang diperoleh adalah:
Pn
|Xi −X̄|
M AD = i=1 n
= 2,6
10
=0,26

Wirawan Setialaksana, S.Pd., M.Sc.


24 Bab 4. Ukuran Penyebaran Data

Formula MAD juga banyak digunakan sebagai ukuran kebaikan sebuah model statistik
dengan memperhatikan nilai absolut/mutlak dari galat/residu dari fitting model
yang diperoleh dengan data. Galat diperoleh dengan mengurangkan data dengan
prediksi/estimasi dari model. Berikut adalah formula MAD untuk menguji kebaikan
suatu model statistik yang parameter-parameternya telah diestimasi:
Pn
(Xi − X̂i )
M AD = i=1
n
Dengan:

Xi = Data Asli
X̂i = Data hasil estimasi model

4.3 Variansi
Seperti MAD, variansi juga mendasarkan konsep penyebaran data pada mean dari
data. Untuk menghindari masalah yang diberikan pada contoh 4.5, variansi memang-
katduakan hasil pengurangan data dengan mean dari data, sehingga formula dari
variansi adalah sebagai berikut:
Pn
(Xi − X̄)2
V ar(x) = i=1 (4.2)
n
Meskipun sebenarnya, formula variansi diperoleh dari distribusi Normal (yang meru-
pakan distribusi data yang paling populer dalam statistika). Namun mengurai ide
variansi berdasarkan masalah pada contoh 4.1, bukanlah pola pikir yang keliru
Variansi merupakan hasil estimasi parameter σ 2 dari distribusi normal. Seperti
yang telah dijelaskan sebelumnya, sebagai distribusi yang paling populer (banyak
model statistika mengasumsikan data/galat datanya berdistribusi normal), hasil
estimasi parameter-parameter dari distribusi normal juga menjadi bagian yang tak
kalah populernya.Formula mean yang dibahas pada bab 3 juga merupakan bentuk
estimator dari µ pada distribusi normal.Variansi, seperti halnya mean, juga menjadi
ukuran penyebaran yang banyak digunakan.
Dalam proses estimasi parameter, bias merupakan hal yang dihindari. Bias
adalah perbedaan dari estimasi/prediksi/pendugaan statistik dengan statistik yang
sesungguhnya. Formula variansi pada 4.2 merupakan penduga bias dari variansi.
Formula variansi yang lebih tepat adalah sebagai berikut:
Pn
2 (Xi − X̄)2
S = i=1 (4.3)
n−1
Formula variansi pada persamaan 4.3 di atas merupakan variansi dari sampel. Vari-
ansi populasi memiliki formula yang sedikit berbeda dengan simbol σ 2 .
PN
2 (Xi − X̄)2
σ = i=1 (4.4)
N
Perbedaan formulasi variansi sampel dan variansi populasi di atas hanya pada simbol
banyaknya data (banyak data pada sampel memang disimbolkan dalam n, sedangkan

Wirawan Setialaksana, S.Pd., M.Sc.


4.3 Variansi 25

untuk populasi dalam N) dan pembaginya – pada variansi sampel, banyak data
dikurangi 1, sedangkan pada populasi tidak. Untuk dapat memahami bagaimana
menghitung variansi, perhatikan contoh di bawah:

Contoh 4.7 Data hasil pengisian angket penilaian user dari Sistem Informasi
yang sedang dikembangkan oleh mahasiswa PTIK UNM adalah sebagai berikut:

92 84 91 87 94
81 89 90 92 90
Agar dapat digunakan, formula variansi membutuhkan rata-rata dari sampel.
Sehingga langkah pertama untuk menghitung variansi adalah menghitung rata-
rata sampel.
Pn
iX
X̄ = i=1 n
= 92+84+91+87+94+81+89+90+92+90
10
= 890
10
=89
Setelah menghitung rata-rata dari data, membuat tabel untuk menghitung variansi
dari data akan sangat membantu. Kolom-kolom dari tabel bantuan yang dibuat
harus disesuaikan dengan rumus 4.3. Berdasarkan rumus 4.3, ada 4 kolom yang
dibutuhkan: kolom Xi , X̄, Xi − X̄, dan (Xi − X̄)2 .

Xi X̄ Xi − X̄ (Xi − X̄)2
92 89 3 9
84 89 -5 25
91 89 2 4
87 89 -2 4
94 89 5 25
81 89 -7 49
89 89 0 0
90 89 1 1
92 89 3 9
90 89 1 1
Total 127

Menghitung variansi akan lebih sederhana dengan bantuan tabel. Berdasarkan


tabel di atas, variansi sampel adalah:
127
S2 = 10−1
=14,11

Meskipun menjadi salah satu ukuran penyebaran yang populer, variansi memiliki
kelemahan. Dengan memperhatikan rumus 4.3, formula variansi diperoleh dengan
mengkuadratkan sebuah nilai (diperoleh dengan mengurangkan data dengan mean-
nya). Sehingga, variansi berada pada dimensi pengukuran yang berbeda dengan

Wirawan Setialaksana, S.Pd., M.Sc.


26 Bab 4. Ukuran Penyebaran Data

data. Akibatnya, tidak rasional untuk mengatakan bahwa data berada pada rentang
(X̄ − S 2 , X̄ + S 2 ). Pada contoh 4.7 di atas, dengan X̄ = 89 dan S 2 = 14, 11, diperoleh
interval data 74,89-103,11 yang tentu kurang rasional.
Untuk mengatasi masalah ini, dirumuskan ukuran yang lebih baik, standar deviasi.

4.4 Standar Deviasi


Standar Deviasi merupakan turunan dari variansi. Kata "standar" merujuk pada
istilah membakukan/menormalkan ukurannya. Karena variansi berada pada dimensi
yang berbeda dengan pangkat pada formulanya, standar deviasi merupakan bentuk
baku dari deviasi dengan menyamakan "dimensi" variansi dengan data. Lalu, bagai-
mana caranya?.
Invers dari bentuk pangkat dua adalah akar pangkat 2. Membakukan variansi
dilakukan dengan mengakarkan nilainya. Nilai yang diperoleh setelah diakarkan ini
merupakan standar deviasi. √
SD = S 2

Contoh 4.8 Berdasarkan contoh 4.7 sebelumnya. Diperoleh nilai S 2 = 14, 11.
Sehingga, standar deviasi dari data respon 10 orang pada angket pengembangan
sistem adalah:

SD = √S 2
= 14, 11
= 3.75

Standar deviasi ini akan menjadi ukuran penyebaran yang penting dalam beberapa
statistik inferensial, terutama pada statistik yang mensyaratkan data/galat nya
berdistribusi normal baku. Data berdistribusi normal 95% dari datanya akan termuat
dalam interval µ ± 2.σ.
Perhatikan contoh 4.7 dan hasil dari contoh 4.8, dengan asumsi data berdistribusi
normal, 95% dari data respon tersebut akan berada pada interval 89 ± 2 × 3, 75
atau pada rentang 82-96. Interval ini disebut sebagai interval konfidensi yang akan
dibahas lebih jauh pada Statistik Inferensial.

4.5 Interpretasi
Setelah mampu menghitung 4 ukuran penyebaran yang telah dibahas di atas dan
memperoleh angka-angka tertentu, selanjutnya apa makna dari angka-angka terse-
but?.
Keempat ukuran penyebaran yang telah dibahas di atas merentang pada interval
[0, ∞). Hasil dari keempatnya tidak memungkinkan nilai negatif. Nilai terkecil yang
mungkin diperoleh adalah 0. Nilai 0 pada ukuran penyebaran mencerminkan bahwa
data homogen, tidak ada data yang berbeda.Bagaimana dengan ukuran penyebaran
yang lebih besar dari nol?
Dua ukuran penyebaran – MAD dan SD – merupakan ukuran yang menunjukkan

Wirawan Setialaksana, S.Pd., M.Sc.


4.5 Interpretasi 27

secara rata-rata, seberapa jauh data dari mean nya. Dengan ukuran penyebaran yang
semakin besar, artinya beberapa data berada cukup jauh dari mean nya. Dengan
kata lain, interval terkecil yang memuat data akan semakin panjang.
Semua ukuran penyebaran yang telah dibahas, berfungsi baik dalam memban-
dingkan 2 kelompok data. Untuk menyimpulkan sebuah kelompok lebih homogen
(memiliki variabilitas yang lebih kecil), keempatnya dapat dijadikan rujukan yang
baik. Namun, Range tidak disarankan untuk digunakan karena lemahnya sensitifitas
ukuran ini terhadap variabilitas data. Hasil pengukuran yang penyebaran lebih kecil
dari kelompok data yang lain, menunjukkan bahwa kelompok tersebut lebih homogen
dibanding yang lainnya.
Untuk memahami penjelasan di atas, perhatikan contoh 4.1 pada awal bab. Dua
set data pada contoh 4.1 akan dihitung ukuran penyebarannya pada contoh di bawah.

Contoh 4.9 Range dari dua set data tersebut adalah:

Data Data Terbesar Data Terkecil Range


X 8 0 8
Y 6 2 4

Untuk menghitung MAD, variansi, dan standar deviasi digunakan bantuan tabel
berikut:
Xi X̄ Xi − X̄ |Xi − X̄| (Xi − X̄)2
Data X
0 4 -4 4 16
2 4 -2 2 4
4 4 0 0 0
4 4 0 0 0
6 4 2 2 4
8 4 4 4 16
Total 12 40
Data Y
2 4 -2 2 4
3 4 -1 1 1
4 4 0 0 0
4 4 0 0 0
5 4 1 1 1
6 4 2 2 4
Total 6 10

Berdasarkan tabel bantu di atas, diperoleh:

Wirawan Setialaksana, S.Pd., M.Sc.


28 Bab 4. Ukuran Penyebaran Data

M ADx = 12
6
M ADy = 66
=2 =1
40 10
Sx2 = 6−1 Sy2 = 6−1
= 40
5
= 10
5
=p8 =2
p
SDx = √ Sx2 SDy = √ Sy2
= 8 = 2
= 2, 83 = 1, 41

Banyaknya data pada masing-masing set data pada contoh 4.9 tidak besar (n=6),
sehingga secara intuitif terlihat data Y lebih homogen (variabilitasnya rendah)
dibanding data X. Dugaan ini sejalan dengan hasil penghitungan 4 ukuran penyebaran
– Range, MAD, Variansi, dan SD – dari masing-masing set data. Ukuran penyebaran
data Y selalu lebih rendah daripada data X untuk semua ukuran yang dihitung.
Sehingga, dapat disimpulkan bahwa data Y lebih homogen dibanding data X.
Kegunaan ukuran penyebaran pada data tunggal, tanpa membandingkan 2 atau
lebih set data, akan dibahas pada pokok bahasan interval konfidensi yang merupakan
interval yang dalam taraf konfidensi tertentu, memuat data. Penentuan interval
konfidensi pada data berdistribusi normal bergantung pada besarnya standar deviasi.

Wirawan Setialaksana, S.Pd., M.Sc.

Anda mungkin juga menyukai