A. PENGERTIAN
Steam and leaf digram adalah penyajian data dalam bentuk diagram dengan cara
menyusun/menata data menjadi dua bagian, yaitu batang (stem) dan daun (leaf). Pembagian
batang dan daun mengikuti aturan tertentu (key). Misalkan batang berisi digit pertama atau
beberapa digit pertama, dan daun berisi digit terakhir. Sebuah kunci (key) dari diagram batang
dan daun menunjukkan kekhususan apa yang direpresentasikan oleh data (cara penyusunan
data). Key juga bisa menunjukkan satuan pengukuran (persen, kaki, inci, dll).
Diagram batang daun menyajikan penyebaran dari suatu data sehingga secara
keseluruhan data individu-individu dapat terlihat apakah ada kecendrungan data tersebut
menyebar atau memusat pada suatu nilai tertentu, atau nilai manakah yang paling sering
muncul dan yang jarang muncul. Penyajian data dengan diagram batang daun, selain dapat
memperoleh informasi mengenai distribusi dari gugus data juga dapat dilihat nilai-nilai
pengamatan aslinya.
Tujuan penggunaan diagram batang daun yaitu:
1. Mengurutkan data
2. Mengetahui pola/bentuk distribusi data (simetris, menceng, bimodal, uniform)
3. Membandingkan distribusi dua atau lebih kelompok data
4. Mengetahui penyebaran atau variasi dari data pengamatan
4
5. Mendeteksi adanya pencilan (outlier)
6. Mengetahui titik pemusatan data
7. Mengetahui lokasi yang merupakan gap (kesenjangan dalam data)
2. Berikut adalah jumlah pendapatan pengemudi ojek online A dan B per hari selama 20 hari
dalam ribuan rupiah.
A: 89, 90, 95, 78, 132, 120, 119, 128, 130, 120, 80, 97, 100, 105, 85, 96, 87, 125, 110, 92
B: 105, 110, 98, 90, 130, 128, 130, 143, 148, 156, 95, 120, 110, 105, 125, 95, 134, 120, 95, 100
Buatlah diagram batang dan daun dari data di atas.
3. Berikut adalah jumlah produksi kecap dan saos dari suatu pabrik (puluhan botol).
No. Kecap Saos
1. 56 60
2. 43 76
3. 44 77
4. 55 65
5. 60 54
6. 67 55
7. 45 70
8. 56 70
9. 50 62
10. 65 51
Buatlah back-to-back stem and leaf diagram dari data di atas.
4. Berikut adalah hasil tes IQ (Intelligent Quotient) yang dilakukan sebuah perusahaan kepada 40
karyawannya: 139 114 121 123 118 104 97 105 101 117 128 115 104 119 120 122 132 107
116 104 112 109 113 127 114 120 117 122 98 100 108 103 119 109 124 101 112 106 102
105
Buatlah diagram dteam and leaf nya.
JAWABAN:
1. Pertama kali yaitu mengurutkan data dari terkecil ke terbesar
50, 50, 53, 59, 65, 68, 75, 77, 89, 92
Kemudian, buat diagram stem and leaf. Batang dimulai dari 5 sampai ke 9.
5 0 0 3 9
6 5 8
7 5 7
8 9
9 2
Key: 5 0 = 50
PENGEMUDI A PENGEMUDI B
8 7
9 7 5 0 8
7 6 5 2 0 9 0 5 5 5 8
5 0 10 0 5 5
9 0 11 0 0
8 5 0 0 12 0 0 5 8
2 0 13 0 0 4
14 3 8
15 6
Key:
7 8 = 78
KECAP SAOS
5 4 3 4
6 6 5 0 5 1 4 5
7 5 0 6 0 2 5
7 0 0 6 7
Key: 4 3 = 430
9 7 8
10 0 1 1 2 3 4 4 4 5 5 6 7 8 9 9
11 2 2 3 4 4 5 6 7 7 8 9 9
12 0 0 1 2 2 3 4 7 8
13 2 9
Key: 9 7 = 97
1. Median
Median adalah nilai yang ada di tengah dari suatu agregat dimana nilai-nilai yang
diobservasi disusun dalam suatu array (diurutkan dari nilai terendah sampai nilai yang
tertinggi). Hal ini berarti bahwa separuh (50%) pengamatan mempunyai nilai di
bawahnya median dan separuhnya lagi (50%) berada di atasnya. Beberapa sifat median
yang harus diketahui:
Median mudah dihitung dan mudah dimengerti dan dipengaruhi oleh jumlah
pengamatan.
Contoh: 2 4 4 6 7 8 8 9 9; median: 7
2 4 4 6 7 8 8 9 9 9; median: 7,5
Tidak dipengaruhi oleh nilai observasi
Contoh: 2 4 4 6 7 8 8 9 9; median: 7
2 4 4 6 7 8 8 9 1000; median: 7,5
Median digunakan untuk distribusi frekuensi yang miring
Cocok untuk data yang heterogen
Hanya ada satu median di dalam data
2. Mean
Mean atau rata-rata hitung dari suatu agregat adalah jumlah semua nilai agregat dibagi
dengan jumlah observasi dalam agregat tersebut atau secara sederhana mean adalah
jumlah seluruh nilai observasi dibagi dengan banyaknya observasi tersebut. Beberapa sifat
mean yang perlu diketahui:
Notasi untuk mean populasi adalah m (baca: myu) dan untuk mean sampel digunakan
notasi 𝑥̅ (baca: x-bar)
Hanya dapat digunakan dalam data yang berskala rasio atau memiliki data numerik,
misalnya: umur, tinggi badan, lama sekolah, tekanan darah.
Penggunaan rata-rata lebih popular di masyarakat dan lebih mudah digunakan
Rata-rata selalu ada dan nilainya hanya ada satu
Tidak peka dengan penambahan jumlah data
Mean cocok digunakan untuk data yang bersifat homogen
Kelemahan mean adalah nilainya sangat bergantung dengan nilai data sehingga sangat
dipengaruhi oleh data-data yang bersifat ekstrem, baik terlalu rendah maupun terlalu
tinggi. Setiap ada perubahan pada setiap nilai data, sangat mempengaruhi nilai mean.
Sangat tidak disarankan digunakan untuk mencari nilai pemusatan data dari data
yang heterogen dengan menggunakan mean karena sifatnya yang sangat peka
terhadap nilai data.
3. Modus
Modus dapat didefinisikan sebagai nilai pengamatan yang memiliki frekuensi paling
tinggi atau dengan kata lain yang paling sering muncul. Beberapa sifat modus yang
sebagai berikut.
8
Modus kurang dikenal di masyarakat dibandingkan mean dan median
Dalam suatu distribusi frekuensi bias jadi terdapat lebih dari satu modus ataupun tidak
terdapat modus sama sekali
Modus tidak dapat dipengaruhi oleh adanya suatu nilai ekstrem dari suatu kelompok
data
Modus dapat digunakan baik pada data yang bersifat kualitatif maupun kuantitatif, dan
berskala nominal, ordinal, interval, rasio.
Bila suatu distribusi frekuensi memiliki satu modus disebut unimodal, dua modus
disebut bimodal, dan tiga modus atau lebih disebut multimodal.
C. HINGES
Hinges merupakan cara mencari nilai yang membagi sekelompok data menjadi dua bagian
sama besar antara nilai minimum dengan median dan antara nilai median dengan nilai
maksimum. Hinges identic dengan kuartil, tetapi berbeda dari cara mencarinya. Hinges dicari
menggunakan lipatan data yaitu menampilkan data dari minimum ke maksimum menjadi
seperti huruf “W”. hinges terdiri atas hinges bawah (lower hinges) − nilai yang membagi data
9
dari nilai maksimum sampai median menjadi sama besar − serta hinges atas (high
hinges) – nilai yang membagi data dari median sampai nilai maksimum menjadi
sama besar.
Cara membuat Hinges:
1. Siapkan data
5, 45, 60, 34, 54, 66, 23, 45, 31, 20, 17, 10, 48, 39, 6, 15, 32
2. Mengurutkan data dari nilai terkecil ke terbesar
5, 6, 10, 15, 17, 20, 23, 31, 32, 34, 39, 45, 45, 48, 54, 60, 66
Setelah data diurutkan, maka data pertama menjadi data minimum dan yang terakhir
menjadi data minimum.
3. Menghitung letak Median, Hinges atas, dan Hinges bawah
Untuk menghitung letak median, hinges atas, dan hinges bawah, maka kita mengikuti
perhitungan Tukey dengan membulatkan bilangan-bilangannya. Untuk median banyaknya
data dibagi 2 dan untuk hinges banyak data dibagi 4. Lihat angka di belakang koma hasil
pembagian, letaknya dibulatkan mengikuti aturan di bawah ini.
Jika ,00 bulatkan menjadi ,50 ke atas
Jika ,25 bulatkan menjadi ,00 ke atas
Jika ,50 bulatkan menjadi ,00 ke atas
Jika ,75 bulatkan menjadi ,50 ke atas.
Jumlah Data: 17
17
Letak median= = 8,5 dibulatkan ke atas menjadi 9,00
2
17
Letak Hinges= = 4,25 dibulatkan ke atas menjadi 5,00
4
Jadi, median terletak pada data ke-9, hinges bawah terletak pada data ke-5, dan hinges atas
terletak pada data ke-5 dihitung dari nilai maksimum.
𝑚𝑒𝑑𝑖𝑎𝑛 = 32
ℎ𝑖𝑛𝑔𝑒𝑠 𝑏𝑎𝑤𝑎ℎ = 17
ℎ𝑖𝑛𝑔𝑒𝑠 𝑎𝑡𝑎𝑠 = 45
4. Menyusun Hinges
Dari data yang diperoleh yaitu:
𝑚𝑖𝑛 = 5
𝑚𝑎𝑘𝑠 = 66
𝑚𝑒𝑑𝑖𝑎𝑛 = 32
ℎ𝑖𝑛𝑔𝑒𝑠 𝑏𝑎𝑤𝑎ℎ = 17
ℎ𝑖𝑛𝑔𝑒𝑠 𝑎𝑡𝑎𝑠 = 45
Akan disusun menjadi bentuk seperti berikut:
5 32 66
6 31 34 60
10 23 39 54
15 20 45 48
17 45
D. 5 NUMBER SUMMARIES
Ringkasan lima angka adalah statistik deskriptif yang menyediakan informasi tentang
kumpulan pengamatan yang terdiri atas nilai maksimum, minimum, kuartil 1, median, dan
kuartil 3. Selain itu, terdapat juga banyaknya data.
10
#N
𝑀𝑖 Med
𝐻𝑖 Q1 Q3
1 Min Maks
Dengan hinges yang telah dibuat pada pembahasan hinges di atas, dapat dibuat 5 Number
Summary sebagai berikut.
#17
M9 32
H5 17 45
1 5 66
𝐼𝑄𝑅 = 𝑄3 − 𝑄1
Outiler: Outlier disebut juga dengan data pencilan. Outlier adalah data observasi yang muncul
dengan nilai-nilai ekstrem, baik ekstrem atas maupun ekstrem bawah. Yang dimaksud dengan
nilai ekstrem dalam observasi adalah nilai yang jauh atau beda sama sekali dengan sebagian
besar nilai lain dalam kelompoknya.
Cara menghitung outlier dengan IQR:
1. Urutkanlah data observasi
2. Tentukan median, kuartil 1, dan kuartil 3.
3. Hitunglah nilai IQR
4. Hitunglah Lower Outlier dan Higher Outlier dengan cara;
𝑙𝑜𝑤𝑒𝑟 𝑜𝑢𝑡𝑙𝑖𝑒𝑟 = 𝑄1 − 1,5 𝐼𝑄𝑅
ℎ𝑖𝑔ℎ𝑒𝑟 𝑜𝑢𝑡𝑙𝑖𝑒𝑟 = 𝑄3 + 1,5 𝐼𝑄𝑅
5. Kriteria suatu data disebut outlier, yaitu:
𝐿𝑜𝑤𝑒𝑟 𝑂𝑢𝑡𝑙𝑖𝑒𝑟: 𝑠𝑒𝑡𝑖𝑎𝑝 𝑑𝑎𝑡𝑎 < 𝑄1 − 1,5 𝐼𝑄𝑅
𝐻𝑖𝑔ℎ𝑒𝑟 𝑂𝑢𝑡𝑙𝑖𝑒𝑟: 𝑠𝑒𝑡𝑖𝑎𝑝 𝑑𝑎𝑡𝑎 > 𝑄3 + 1,5 𝐼𝑄𝑅
CONTOH SOAL:
Buatlah hinges dari data berikut!
1. 63, 83, 34, 81, 92, 72, 75, 65, 46, 63, 64, 82, 84, 68, 53, 55, 51, 62, 59
2. 75, 93, 41, 77, 64, 68, 51, 72, 74, 37, 74, 63, 89, 52, 73, 57, 56, 79, 53, 49, 34, 66, 63, 39
JAWABAN:
1. Dilakukan pengurutan data
34, 46, 51, 53, 55, 59, 62, 63, 63, 64, 65, 68, 72, 75, 81, 82, 83, 84, 92
34 63 64 93
37 63 66 89
39 57 68 79
41 56 72 77
49 53 73 75
51 52 74 74
A. DOT PLOT
Dot plot adalah jenis tampilan grafis yang digunakan untuk membandingkan frekuensi
dalam kategori atau kelompok. Dot plot berbentuk seperti diagram batang dengan titik-titik
sebagai gambaran dari frekuensi data pada tiap kategori. Bentuk lain dari dot plot adalah
seperti diagram kartesius dengan sumbu-x adalah frekuensi dan sumbu-y adalah kategori. Dot
plot cocok untuk data yang memiliki sedikit observasi dan jangkauan yang tidak terlalu besar.
Informasi yang dapat diperoleh dari dot plot adalah nilai setiap observasi, sebaran data,
bentuk distribusi, kandidat pencilan.
Bentuk lain,
10
8
6
4
2
0
10 15 20
12
Langkah-langkah dalam membuat dot-plot, yaitu:
1. Gambarkan garis horizontal dan tandai dengan skala yang sesuai
2. Gambarkan setiap observasi dalam bentuk titik di atas garis horizontal pada skala yang
sesuai. Jika dua atau lebih observasi bernilai sama, tempatkan titik-titik secara vertikal.
B. BOX PLOT
Box plot (atau juga disebut diagram whisker) adalah cara menampilakn distribusi data
berdasarkan ringkasan numerik, yaitu: nilai minimum, kuartil bawah, median, kuartil atas, dan
nilai maksimum.
Box plot kita menggambarkan ringkasan numerik secara visual, memberikan gambaran
pusat data, sebaran data, bentuk distribusi data, dan dapat membandingkan antar data.
Dengan membaca box plot, dapat diketahui nilai minimum, nilai maksimum, Q1, median, Q3,
ada tidaknya nilai outlier (pencilan) dan nilai ekstrim (pencilan jauh), serta distribusi dari
data pengamatan.
1. Bagian-bagian Box Plot
Bagian utama kotak berbentuk persegi merupakan bidang menyajikan IQR dimana
50% dari nilai data pengamatan terletak di sana. IQR menggambarkan ukuran
penyebaran data. Semakin Panjang bidang IQR menunjukkan data semakin menyebar.
Garis bawah kotak (LQ) = Q1 (kuartil pertama), dimana 25% data pengamatan lebih
kecil atau sama dengan Q1.
Garis tengah kotak = Q2 (median), dimana 50% data pengamatan lebih kecil atau sama
dengan nilai ini.
Garis atas kotak (UQ) = Q3 (kuartil ketiga) dimana 75% data pengamatan lebih kecil
atau sama dengan nilai Q3.
Garis yang merupajan perpanjangan dari box (baik kea rah atas ataupun kea rah
bawah) dinamakan dengan whisker.
Whisker bawah menunjukkan nilai yang lebih rendah dari kumpulan data yang berada
dalam IQR
Whisker atas menunjukkan nilai yang lebih tinggi dari kumpulan data yang berada
dalam IQR.
Panjang whisker ≤ 1,5 × 𝐼𝑄𝑅. Garis whisker dimulai dari ujung kotak IQR dan
berakhir pada nilai data yang bukan dikategorikan sebagai outlier. Dengan demikian,
nilai terbesar dan terkecil dari data pengamatan (tanpa termasuk outlier) masih
merupaan bagian dari box plot yang terletak tepat di ujung garis tepi whisker.
Panjang boxplot dapat digunakan untuk menggambarkan tingkat penyebaran atau
keragaman data pengamatan
Letak median dan panjang whisker menggambarkan tingkat kesimetrisannya.
2. Kelebihan Box Plot
Secara visual menggambarkan lokasi dari data
Menunjukkan sebaran data tersebut simetri atau tidak
Tidak seperti metode yang lain, box plot memperlihatkan outlier
Dapat cepat digunakan untuk membandingkan lebih dari satu distribusi data pada satu
tampilan secara bersamaan.
3. Kekurangan Box Plot
Cenderung memperhatikan outlier, yang mungkin tidak diperlukan dalam suatu data.
Selain itu bentuk distribusi terpengaruh pula adanya outlier.
Cenderung menyembunyikan detail dari distribusi data.
13
4. Pembuatan Box Plot
Median adalah nilai yang terletak di tengah setelah data diurutkan. Untuk
menentukan posisi nilai median suatu data tunggal dapat menggunakan rumus:
𝑛+1
𝑀𝑒 = 2
Kuartil adalah nilai yang membagi data menjadi 4 bagian. Kuartil dinotasikan dengan
Q. Rumus untuk menentukan kuartil untuk data tunggal adalah
𝑖(𝑛+1)
𝑄𝑖 = 4
Interquartile Range (IQR) adalah selisih 𝑄3 dan 𝑄1 .
Nilai outlier atau pencilan adalah nilai data yang letaknya lebih dari 1.5 x panjang kotak
(IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak).
Q3 + (1.5 x IQR) < outlier atas ≤ Q3 + (3 x IQR)
Q1 – (1.5 x IQR) > outlier bawah ≥ Q1 – (3 x IQR)
Nilai ekstrim atau pencilan jauh adalah nilai-nilai yang letaknya lebih dari 3 x panjang
kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak).
Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR) dan
Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 – (3 x IQR)
Panjang whisker maksimal adalah 1,5 x IQR dari kotak dan digambarkan hingga nilai
maksimum atau minimum data yang terletak diantara Q1-1,5 x IQR dan Q3+1,5 x IQR.
CONTOH SOAL:
1. Berikut ini adalah data APK dan APM SD provinsi di Indonesia tahun 2018/2019
Buatlah box plot dari data APK dan APM provinsi di Indonesia yang diletakkan dalam satu
diagram kartesius, kemudian berikan analisisnya (Periksa pencilan)!
JAWABAN:
1. Urutkan data terlebih dahulu !!!
Untuk APK SD:
↔ Buat 5-Number Summary terlebih dahulu
𝑛 = 34
34
𝑚𝑒𝑑 = = 17 → 17,5
2
34
𝐻= 4
= 8,5 = 9
#34
M17,5 90.335
H9 84.66 97.47
1 56.7 104.03
↔ Hitung pencilan
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 97,47 − 84,66 = 12,81
𝑏𝑎𝑡𝑎𝑠 𝑏𝑎𝑤𝑎ℎ 𝑝𝑒𝑛𝑐𝑖𝑙𝑎𝑛 = 𝑄1 − 1,5 (𝐼𝑄𝑅) = 84,66 − 1,5 (12,81) = 65,445
𝑏𝑎𝑡𝑎𝑠 𝑎𝑡𝑎𝑠 𝑝𝑒𝑛𝑐𝑖𝑙𝑎𝑛 = 𝑄3 + 1,5 (𝐼𝑄𝑅) = 97,47 + 1,5 (12,81) = 116,685
Ada pencilan bawah
#33
M17 90.63
H9 86.18 97.47
1 82.23 104.03
↔ Hitung pencilan
𝐼𝑄𝑅 = 𝑄3 − 𝑄1 = 71,19 − 63,92 = 7,27
𝑏𝑎𝑡𝑎𝑠 𝑏𝑎𝑤𝑎ℎ 𝑝𝑒𝑛𝑐𝑖𝑙𝑎𝑛 = 𝑄1 − 1,5 (𝐼𝑄𝑅) = 63,92 − 1,5 (7,27) = 53,015
𝑏𝑎𝑡𝑎𝑠 𝑎𝑡𝑎𝑠 𝑝𝑒𝑛𝑐𝑖𝑙𝑎𝑛 = 𝑄3 + 1,5 (𝐼𝑄𝑅) = 71,19 + 1,5 (7,27) = 82,095
Ada pencilan atas dan bawah.
#32
M16,5 65.96
H8,5 64.025 69.775
1 59.76 79.94
Box plot yang lebih kiri menunjukkan APK SD. Dapat terlihat bahwa sebaran data APK
SD lebih tersebar dibandingkan dengan APM SD, ditunjukkan dengan lebih panjangnya box
yang dimiliki APK SD. Selain itu juga terlihat bahwa APK dan APM SD cenderung menceng
kanan, yang menunjukkan banyak data yang terpusat pada nilai nilai yang rendah. Untuk APK
terdapat satu pencilan bawah dan APM SD memiliki satu pencilan atas dan satu pencilan
bawah. Untuk nilai-nilai datanya sendiri, nilai-nilai data APK cenderung lebih tinggi
dibandingkan nilai-nilai data APM SD.
17
TRANSFORMASI DATA
1 1
− 2
− log 𝑦 √𝑦 𝑦 𝑦2 𝑦3 𝑎𝑛𝑡𝑖 log(𝑦)
𝑦 𝑦
lebih kuat sedang tetap sedang lebih kuat
Catatan :
𝜆 < 1 digunakan ketika data menceng kanan dan 𝜆 > 1 digunakan ketika data menceng
kiri.
𝑦′ yang bernilai negatif saat 𝜆 < 0 berguna untuk mempertahankan urutan data, agar data
yang minimum tetap menjadi minimum, dan data yang maksimum tetap menjadi
maksimum.
E. TRANSORMASI BOX-COX
Teknik transformasi pangkat lain yang dapat digunakan untuk memperbaiki kenormalan data
adalah teknik yang dikenal dengan transformasi Box-Cox. Box dan Cox (1964) mengusulkan
prosedur transformasi
𝑦𝜆 − 1
𝑦′ = { 𝜆 ; 𝜆≠0
𝑙𝑜𝑔 𝑦 ; 𝜆 = 0
Nilai 𝜆 berkisar diantara −5 hingga 5. Nilai 𝜆 yang optimal didapat dengan menggunakan
perhitungan profile likelihood. Nilai 𝜆 ditentukan sedemikian rupa sehingga meminimumkan:
𝑣 𝑣
𝐿=− 𝑙𝑛 𝑆𝑇2 + (𝜆 − 1) ∑ ln(𝑦)
2 𝑛
Dengan 𝑆𝑇2 adalah ragam dari data yang ditransformasi dan 𝑣 adalah derajat bebas.
Bentuk Transormasi Box-Cox yang Umum Digunakan
𝜆 𝑦′
1
−2 𝑦 −2 = 2
𝑦
1
−1 𝑦 −1 = 1
𝑦
1
−0,5 𝑦 −0,5 =
√𝑦
0 log 𝑦
0,5 𝑦 0,5 = √𝑦
1 𝑦1 = 𝑦
2 𝑦2
CONTOH SOAL:
1. Berikut adalah data persentase balita yang mendapat imunisasi DPT dan Polio di Papua Tahun
2016.
Kabupaten/Kota DPT Polio Kabupaten/Kota DPT (y) Polio
Dogiyai 9.05 9.09 Waropen 68.59 71.88
Intan Jaya 10.49 10.07 Nduga 68.75 77.47
Yahukimo 14.99 13.46 Kep. Yapen 72.07 78.9
Puncak Jaya 17.56 19.44 Sarmi 72.57 80.47
Puncak Jaya 19.09 20.78 Blak Numfor 74.55 82.7
Tolikara 20.35 26.29 Mamberamo Raya 79.58 84.08
Pegunungan Bintang 23.93 33.42 Keerom 79.64 85.58
Yalimo 33.42 43.34 Boven Digoel 83.42 85.72
Lanny Jaya 40.36 46.96 Supiori 84 86.18
Panial 44.05 47.46 Kota Jayapura 87.58 86.26
Mappi 47.24 57.85 Mimika 89.92 91.71
Asmat 58.89 61.02 Merauke 90.75 92.59
Jayapura 65.21 65.71 Jawawijaya 93 93.23
Nabire 65.45 66.2 Mamberamo Tengah 100 100
Lakukan transformasi pada di atas sehingga didapatkan data yang simetris.
2. Berikut ini adalah data jarak rumah beberapa mahasiswa dari kampus. Lakukanlah transomasi
dari data tersebut agar menjadi data yang simetris.
0.3 0.7 0.9 0.9 1.2 1.5 1.6 2.3 3.9
0.6 0.8 0.9 1 1.2 1.5 1.6 2.9 4.2
JAWABAN:
1. Penghitungan akan dibagi menjadi dua bagian, yaitu untuk imunisasi DPT dan untuk imunisasi
Polio
Imunisasi DPT
Kabupaten/Kota 𝑦 𝑦2 𝑦3
Dogiyai 9.05 81.9025 741.2176
Intan Jaya 10.49 110.0401 1154.321
Yahukimo 14.99 224.70 3368.254
Puncak Jaya 17.56 308.35 5414.689
Puncak Jaya 19.09 364.42 6956.932
Tolikara 20.35 414.12 8427.393
Pegunungan Bintang 23.93 572.64 13703.39
20
Yalimo 33.42 1116.89 37326.68
Lanny Jaya 40.36 1628.92 65743.6
Panial 44.05 1940.40 85474.73
Mappi 47.24 2231.61 105421.6
Asmat 58.89 3468.03 204232.4
Jayapura 65.21 4252.34 277295.4
Nabire 65.45 4283.70 280368.3
Waropen 68.59 4704.58 322687.7
Nduga 68.75 4726.56 324951.2
Kep. Yapen 72.07 5194.08 374337.7
Sarmi 72.57 5266.40 382183
Blak Numfor 74.55 5557.70 414326.7
Mamberamo Raya 79.58 6332.97 503978.3
Keerom 79.64 6342.52 505119.1
Boven Digoel 83.42 6958.89 580511.1
Supiori 84 7056 592704
Kota Jayapura 87.58 7670.25 671761.1
Mimika 89.92 8085.60 727057.7
Merauke 90.75 8235.56 747377.3
Jawawijaya 93 8649 804357
Mamberamo Tengah 100 10000 1000000
Berdasarkan box plot yang terbentuk maka dapat dilihat bahwa data awal berdistribusi
menceng kiri sehingga dilakukan transormasi ke pangkat 2, pangkat 2.5, dan pangkat 3. Pada
awalnya, dilakukan transformasi dengan 𝜆 = 2 dapat dilihat bahwa data masih cenderung
menceng kiri, namun sudah dapat dilihat mulai menuju ke bentuk yang simetris.
Kemudian dilakukan transformasi dengan 𝜆 = 3, disini dapat terlihat bahwa data sudah
21
menunjukkan kesimetrisan. Oleh karena itu, dapat disimpulkan bahwa 𝜆 = 3
melakukan transformasi data menjadi bentuk yang simetris.
Imunisasi Polio
Kabupaten/Kota 𝑦 𝑦2 𝑦3
Intan Jaya 9.09 82.6281 751.0894
Dogiyai 10.07 101.4049 1021.147
Puncak Jaya 13.46 181.1716 2438.57
Yahukimo 19.44 377.9136 7346.64
Puncak Jaya 20.78 431.8084 8972.979
Tolikara 26.29 691.1641 18170.7
Yalimo 33.42 1116.896 37326.68
Lanny Jaya 43.34 1878.356 81407.93
Panial 46.96 2205.242 103558.1
Pegunungan Bintang 47.46 2252.452 106901.4
Mappi 57.85 3346.623 193602.1
Nduga 61.02 3723.44 227204.3
Asmat 65.71 4317.804 283722.9
Nabire 66.2 4382.44 290117.5
Waropen 71.88 5166.734 371384.9
Jayapura 77.47 6001.601 464944
Sarmi 78.9 6225.21 491169.1
Blak Numfor 80.47 6475.421 521077.1
Mamberamo Raya 82.7 6839.29 565609.3
Mimika 84.08 7069.446 594399.1
Kota Jayapura 85.58 7323.936 626782.5
Keerom 85.72 7347.918 629863.6
Kep. Yapen 86.18 7426.992 640058.2
Boven Digoel 86.26 7440.788 641842.3
Supiori 91.71 8410.724 771347.5
Merauke 92.59 8572.908 793765.6
Jawawijaya 93.23 8691.833 810339.6
Mamberamo Tengah 100 10000 1000000
22
Berdasarkan diagram box plot yang dibentuk, maka untuk data imunisasi polio disimpulkan
bahwa data tersebut menceng kiri. Oleh karena itu, dilakukan transformasi dengan nilai 𝜆 = 2.
Diagram box plot menunjukkan bahwa data masih cenderung menceng kiri. Kemudian diambil
nilai nilai 𝜆 = 3 menunjukkan sebaran data yang sudah simetris.
1
2. Berikut ini adalah tabel dengan nilai 𝜆 = 2 dan 𝜆 = 0
𝑦 √𝑦 log 𝑦
0.3 0.547723 -0.52288
0.6 0.774597 -0.22185
0.7 0.83666 -0.1549
0.8 0.894427 -0.09691
0.9 0.948683 -0.04576
0.9 0.948683 -0.04576
0.9 0.948683 -0.04576
1 1 0
1.2 1.095445 0.079181
1.2 1.095445 0.079181
1.5 1.224745 0.176091
1.5 1.224745 0.176091
1.6 1.264911 0.20412
1.6 1.264911 0.20412
2.3 1.516575 0.361728
2.9 1.702939 0.462398
3.9 1.974842 0.591065
4.2 2.04939 0.623249
Berdasarkan box plot yang digambarkan, data awal menunjukkan data cenderung menceng
kanan. Kemudian dilakukan transformasi sehingga didapatkan nilai 𝜆 = 0, 𝑦 ′ = log 𝑦,
memberikan bentuk box plot yang simetris.
23
3. Berikut ini tabel data yang telah dilakukan transformasi
1
𝑦 √𝑦 log 𝑦 −
𝑦
2566 50.6557 3.409257 -0.00039
1866 43.19722 3.270912 -0.00054
1699 41.21893 3.230193 -0.00059
1588 39.84972 3.20085 -0.00063
1451 38.09199 3.161667 -0.00069
1410 37.54997 3.149219 -0.00071
1236 35.15679 3.092018 -0.00081
1523 39.02563 3.1827 -0.00066
2117 46.01087 3.325721 -0.00047
1879 43.34743 3.273927 -0.00053
STANDARDISASI DATA
A. PENGERTIAN
“Waaah udah belajar sampai standardisasi aja nih. Semangat ya hehhe, ngomong ngomong IP
mu semester 1 berapa?” pertanyaan nilai IP merupakan salah satu hal yang harus kamu
hindari karena hal itu bisa jadi membuat insecure orang-orang terhadap dirinya sendiri, nah
tau gak kalian bahwa membandingkan IP antar kelas yang berbeda juga merupakan salah satu
hal menurut pakar data itu perbuatan anak bocah heheh, maaf nih alasannya karena setiap
dosen di masing- masing kelas berbeda jadi patokan penilaian-nya pun berbeda , nah pakar
data memberikan tips nih jika kalian mau membandingkan nilai IP kalian ke teman kalian yang
beda kelas yakni dengan melakukan standarisasi terlebih dahulu, ehm btw apasih itu
standarisasi. Standardisasi Data adalah mengubah nilai data asli menjadi bentuk z, yaitu data
yang berdistribusi normal standar.
B. TUJUAN
Dari contoh membandingkan nilai IP yang pakar data berikan sebenarnya ada tujuan
tersendiri dari melakukan standarisasi data mau tau? skuy kita bahas bersama
1. Membandingkan beberapa angkatan data:
Satuan data yang berbeda
24
D. PRINSIP STANDARDISASI
1. Hanya mengubah pusat dan sebaran data
2. Menghindari sifat pengukuran yang berlainan
Adrogen (ng/ml)
Rusa
Waktu suntikan 30 menit setelah suntikan
1 2.76 7.02
2 5.18 3.1
3 2.68 5.44
4 3.05 3.99
5 4.1 5.21
6 7.05 10.26
7 6.6 13.91
8 4.79 18.53
9 7.39 7.91
10 7.3 4.85
11 11.78 11.1
12 3.9 3.74
13 26 94,03
14 67.48 94,03
15 17.04 41,7
26
3. Pada UAS Metode Statistik 2 Raka mendapatkan nilai 80 di kelasnya. Sedangkan pada
mata kuliah Statistik Matematik Raka mendapatkan nilai UAS 60. Rata-rata dan standar
deviasi nilai UAS teman sekelas Raka untuk mata kuliah Metode Statistik 2 secara berurut
adalah 70 dan 5. Sedangkan rata-rata dan standar deviasi nilai UAS teman sekelas Raka
untuk mata kuliah Statistik Matematik secara berurut adalah 40 dan 2. Pada mata kuliah
apa posisi nilai UAS Raka lebih baik dibandingkan teman-temannya?
4. Seorang apoteker mempunyai gaji Rp5.000.000 dan seorang dokter mempunyai gaji
Rp7.000.000. Jika diketahui rata-rata dan standar deviasi gaji apoteker adalah Rp4.000.000
dan Rp4.000 serta rata-rata dan standar deviasi gaji dokter adalah Rp6.000.000 dan Rp8.000,
maka gaji siapakah yang lebih besar menurut kelompoknya?
JAWABAN:
1. Karena data yang akan dicari bentuk normal standarnya adalah data sampel, maka rata-rata
dan standar deviasi yang digunakan adalah ukuran statistiknya.
∑ 𝑥𝑖 𝑏𝑒𝑟𝑎𝑡 57 + 53 + ⋯ + 48
𝑋̅𝑏𝑒𝑟𝑎𝑡 = = = 57,105
𝑛 20
∑(𝑥𝑖 𝑏𝑒𝑟𝑎𝑡 − 𝑋̅𝑏𝑒𝑟𝑎𝑡 )2
𝑠𝑏𝑒𝑟𝑎𝑡 = √ = 5,405
𝑛−1
57 − 57,105
𝑧𝑏𝑒𝑟𝑎𝑡 𝐴𝑛𝑑𝑖 = = −0,019
5,405
53 − 57,105
𝑧𝑏𝑒𝑟𝑎𝑡 𝐵𝑎𝑦𝑢 = = −0,760
5,405
.dst
48 − 57,105
𝑧𝑏𝑒𝑟𝑎𝑡 𝐿𝑖𝑙𝑖 = = −1,684
5,405
2. Ayo berlatih ikuti cara penyelesaian no 1 dan selesaikan pengerjaan no 2 berikut kunci
jawaban no 2 nya semingit
Z standar
Rusa
Waktu suntikan 30 menit setelah suntikan
1 -0.54379 -0.4733
2 -0.39832 -0.60007
3 -0.5486 -0.5244
4 -0.52636 -0.57129
5 -0.46324 -0.53183
6 -0.28592 -0.36851
7 -0.31297 -0.25047
8 -0.42177 -0.10105
9 -0.26548 -0.44451
10 -0.27089 -0.54348
11 -0.0016 -0.34135
12 -0.47526 -0.57937
13 0.853149 2.340676
14 3.346475 2.340676
15 0.314571 0.648282
3. 𝑆𝑚𝑒𝑡𝑜𝑑𝑒 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 = 5
𝑆𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 𝑚𝑎𝑡𝑒𝑚𝑎𝑡𝑖𝑘𝑎 = 2
𝑥̅𝑀𝑒𝑡𝑜𝑑𝑒 𝑚𝑎𝑡𝑒𝑚𝑎𝑡𝑖𝑘𝑎 = 70
𝑥̅𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 𝑚𝑎𝑡𝑒𝑚𝑎𝑡𝑖𝑘𝑎 = 40
80 − 70
𝑍𝑚𝑒𝑡𝑜𝑑𝑒 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 = =2
5
60 − 40
𝑍𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 𝑚𝑎𝑡𝑒𝑚𝑎𝑡𝑖𝑘𝑎 = = 10
2
Karena nilai 𝑍𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 𝑚𝑎𝑡𝑒𝑚𝑎𝑡𝑖𝑘𝑎 lebih tinggi dari 𝑍𝑚𝑒𝑡𝑜𝑑𝑒 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑘𝑎 maka dapat disimpulkan
bahwa posisi nilai uas RAKA lebih baik pada mata kuliah Statistik Matematika dibandingkan
Metode Statistik 2.
4. Ayo berlatih ikuti cara penyelesaian no 3 dan selesaikan pengerjaan no 4 berikut kunci
jawaban no 4 nya semingit
Karena 𝑧𝑎𝑝𝑜𝑡𝑒𝑘𝑒𝑟 lebih besar daripada 𝑧𝑑𝑜𝑘𝑡𝑒𝑟 maka dapat disimpulkan bahwa gaji apoteker
lebih tinggi daripada gaji dokter di kelompoknya masing-masing.
PEMULUSAN DATA
A. PENGERTIAN
Pemulusan Data (Smoothing) adalah proses untuk menghilangkan fluktuasi data
random dari data time series. Hal ini memungkinakn setiap tren pokok terlihat jelas, agar
sesuai garis dan dapat untuk membuat prediksi. Terdapat dua macam teknik pemulusan
data, yaitu Moving Average dan Moving Median. Penggunaan keduanya akan terlihat lebih
jelas apabila digunakan untuk data yang sangat fluktuatif.
28
a. Moving Average/Mean Smoothing
Moving average merupakan metode peramalan yang menghitung nilai rata-rata suatu nilai
runtut waktu dan kemudian digunakan untuk memperkirakan nilai pada periode
selanjutnya. Diperoleh melalui penjumlahan dan pencarian nilai rata-rata dari sejumlah
periode tertentu, kemudian menghilangkan nilai terlamanya dan menambahkan nilai yang
baru. Moving average lebih baik digunakan untuk menghitung data yang bersiat stabil atau
data yang tidak berfluktuasi tajam.
Cocok untuk data yang stasioner
Datanya harus memiliki variasi konstan
CONTOH SOAL:
1. Berikut ini adalah data Tingkat Pengangguran Terbuka Provinsi Aceh
Lakukan pemulusan pada data di atas menggunakan 3-median smoothing dan 5-median
smoothing!
2. Disajikan data kurs tengah mata uang Dolllar Australia terhadap Rupiah. Lakukan pemulusan
data berikut menggunakan 3-median smoothing dan 5-median smoothing!
JAWABAN:
1.
Tahun TPT 3 median 5 median Tahun TPT 3 median 5 median
1986 2.4 2008 9.2 9.56 9.56
1987 1.67 2.09 2008 9.56 9.31 9.31
1988 2.09 2.09 2.28 2009 9.31 9.31 9.2
1989 3.21 2.28 2.28 2009 8.71 8.71 8.71
1990 2.28 2.44 2.28 2010 8.6 8.6 8.62
1991 2.44 2.28 2.44 2010 8.37 8.6 8.62
1992 1.96 2.44 2.44 2011 8.62 8.62 8.6
1993 4.01 4.01 4.01 2011 9 8.62 8.62
1994 5.51 5.51 5.24 2012 7.94 9 8.62
1996 6.47 5.51 5.51 2012 9.06 8.34 9
1997 5.24 6.21 6.21 2013 8.34 9.06 8.34
1998 6.21 6.21 6.21 2013 10.12 8.34 9.02
1999 7.56 6.21 6.21 2014 6.75 9.02 8.34
2000 4.8 7.56 7.56 2014 9.02 7.73 9.02
2001 7.71 7.71 7.71 2015 7.73 9.02 8.13
2002 9.34 8.97 8.97 2015 9.93 8.13 8.13
2003 8.97 9.34 9.34 2016 8.13 8.13 7.73
2004 9.35 9.35 9.35 2016 7.57 7.57 7.57
2005 12.5 12.5 12.08 2017 7.39 7.39 7.39
2005 14 12.5 12.08 2017 6.57 6.57 6.57
2006 12.08 12.08 12.08 2018 6.55 6.55 6.55
30
2006 10.43 10.43 10.43 2018 6.36 6.36
2007 10.27 10.27 10.27 2019 5.53
2007 9.84 9.84 9.84
10
0
1986
1988
1990
1992
1994
1996
1998
2000
2002
2004
2006
2008
2010
2012
2014
2016
2018
3 median
15
10
5 median
15
10
2.
Tahun Kurs 3-median 5-median Tahun Kurs 3-median 5-median
2000 5318 2010 9143 9143 9143
2001 5309 5309 2011 9203 9203 9203
2002 5065 5309 5318 2012 10025 10025 10025
2003 6347 6347 6347 2013 10876 10218 10064
2004 7242 7207 7133 2014 10218 10218 10064
2005 7207 7207 7207 2015 10064 10064 10218
2006 7133 7207 7242 2016 9724 10064 10211
2007 8229 7556 7556 2017 10557 10211 10064
2008 7556 8229 8229 2018 10211 10211
2009 8432 8432 8432 2019 9739
31
Data Asli
12000
10000
8000
6000
4000
2000
3-Median Smoothing
12000
10000
8000
6000
4000
2000
0
200120032005200720092011201320152017
5-Median Smoothing
12000
10000
8000
6000
4000
2000
0
2002
2004
2006
2008
2010
2012
2014
2016
LATIHAN SOAL:
1. Buatlah diagram batang dan daun dari data berikut ini:
a. 83, 79, 94, 88, 81, 80, 90, 75, 77, 84, 94
b. 543, 596, 552, 579, 562, 522, 548, 559, 566, 539, 590, 561, 596, 554, 590
2. Berikut perolehan nilai pada ujian sesi 1 dan sesi 2. Anda diminta untuk membuat back-
to-back stem and leaf diagram.
Sesi 1 96 84 43 95 83 32 33 67 49 76
Sesi 2 79 67 55 53 77 77 53 33 86 70
32
3. Karena kekurangan pegawai, Perusahaan XX ingin mengadakan tes penerimaan pegawai
baru. Pihak HRD perusahaan mengadakan sebuah tes IQ dilakukan pada 50 calon pegawai
di kota A dan kota B dengan hasil sebagai berikut.
KOTA A KOTA B
144 131 108 83 99 122
139 130 107 86 104 123
137 121 104 88 109 123
136 118 101 88 112 128
134 116 101 91 114 129
134 114 97 96 115 130
132 113 96 97 116 141
132 112 91 99 120 142
a. Buatlah diagram batang dan daun.
b. Jika Perusahaan XX hanya menerima calon pegawai yang memiliki IQ lebih dari 125,
berapakah jumlah pegawai yang diterima oleh perusahaan XX?
Data proporsi remaja dan dewasa usia 15-59 tahun dengan keterampilan teknologi informasi dan
komputer (TIK) menurut provinsi (persen). Data di bawah ini untuk menjawab soal nomor 5, 6, dan 7.
Provinsi 2017 2018 2019
Aceh 30.56 40.47 46.77
Bali 48.33 57.71 65.48
Bangka Belitung 45.49 57.86 66.96
Banten 32.9 40.42 48.7
Bengkulu 57.37 68.82 75.04
D.I. Yogyakarta 71.39 77.14 85.17
D.K.I. Jakarta 34.39 42.71 50.62
Gorontalo 32.8 43.42 50.83
Jambi 46.09 55.91 65.37
Jawa Barat 38.75 48.63 58.75
Jawa Tengah 38.76 48.07 57.23
Jawa Timur 30.38 38.92 47.04
Kalimantan Barat 37.37 49.32 57.82
Kalimantan Selatan 35.43 43.17 54.54
Kalimantan Tengah 50.56 60.85 69.44
Kalimantan Timur 45.68 58.42 65.36
Kalimantan Utara 35.31 45.45 54.93
Kepulauan Riau 58.87 65.6 77.18
Lampung 28.36 40.23 48.37
Maluku 31.55 39.2 44.02
Maluku Utara 25.1 34.24 38.11
Nusa Tenggara Barat 30.04 37.11 47.85
Nusa Tenggara Timur 25.3 29.65 36.33
33
Papua 21.29 24.23 26.45
Papua Barat 34.68 45.41 52.37
Riau 39.78 49.45 55.37
Sulawesi Barat 26.24 33.95 40.95
Sulawesi Selatan 38.74 47.07 54.85
Sulawesi Tengah 31.7 37.02 44.13
Sulawesi Tenggara 35.14 43.94 53.36
Sulawesi Utara 44.7 51.22 57.48
Sumatera Barat 38.03 47.49 52.85
Sumatera Selatan 32.03 41.33 46.5
Sumatera Utara 35.11 43.65 51.78
6. Buatlah box plot berdasarkan data di atas setelah dilakukan analisis pencilan.
9. Jika dilakukan transformasi akar kuadrat pada data nomor 8, jelaskan apa yang terjadi?
10. Lakukan pemulusan data dengan menggunakan 3 median smoothing dan 5 median
smoothing pada data jumlah impor beras dari Vietnam (dalam ton).
Tahun Jumlah Tahun Jumlah
2000 369 546.8 2010 467 369.6
2001 142 511.8 2011 1 778 480.6
34
2002 561 728.9 2012 1 084 782.8
2003 506 012.8 2013 171 286.6
2004 58 810.1 2014 306 418.1
2005 44 772.5 2015 509 374.2
2006 272 832.7 2016 535 577.0
2007 1 022 834.6 2017 16 599.9
2008 125 070.5 2018 767 180.9
2009 20 970.5 2019 33 133.1
JAWABAN:
1. a. b.
7 5 7 9 2 2
0 1 3 3 9
8 4 8 4 3 8
9 0 4 4 5 2 4 9
6 1 2 6
Key: 7 5 = 75 7 9
8
0 0 6
9 6
SESI 2 SESI 1
2=
3 3 2 3
Key: 2 522
4 3 9
2. 5 3 3 5
7 6 7
9 7 7 0 7 6
6 8 3 4
9 5 6
Key: 3 2 = 32
3.
Kota A Kota B
6 8 3 6 8 8
7 6 1 9 1 6 7 9 9
8 7 4 1 1 10 4 9
8 6 4 3 2 11 2 4 5 6
1 12 0 2 3 3 8 9
9 7 6 4 4 2 2 1 0 13 0
4 14 1 2 3
Key: 12 3 = 123
35
76 133
81 133
4.
84 132
137 87 128 198
138 90 120 194
141 95 115 194
158 95 100 193
168 98 191
169 188
174 184
182
5.
90
80
70
60
50
40
30
20
10
0
Tahun 2017 Tahun 2018 Tahun 2019
6.
7. Pada box plot sebelum dilakukan analisis pencilan, data cenderung menceng kanan
semuanya pada tahun 2017, 2018, dan 2019. Setelah dilakukan analisis pencilan,
distribusi data tidak berubah, tetapi terdeteksi satu pencilan atas pada tahun 2017, satu
pencilan atas pada tahun 2018, dan satu pencilan atas dan satu pencilan bawah pada
tahun 2019.
36
8.
Data setelah ditransformasi kuadrat menjadi lebih simetris (:jika kurang dapat dilihat, dapat
dilakukan penghitungan rasio jarak antara kuartil 3 ke median dan jarak median ke kuartil 1).
Setelah dilakukan transformasi, muncul tambahan satu buah pencilan, dari sebelumn
dilakukan transformasi terdapat satu buah pencilan dan setelah dilakukan transformasi
menjadi dua buah pencilan.
9. Karena data awal menceng kiri, apabila dilakukan transformasi akar kuadrat maka akan
menjadi semakin menceng kiri atau dengan kata lain semakin tidak simetris.
10.
2016
2002
2003
2004
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2017