02 Eksplorasi Data Dengan Grafis PDF
02 Eksplorasi Data Dengan Grafis PDF
Dosen Pengampu
I Wayan Sumarjaya (sumarjaya@unud.ac.id)
Indikator
1. Ketepatan dan kesesuaian menggunakan software untuk membuat grafik untuk variabel
kuantitatif: plot titik (dot plot), plot batang dan daun (stem and leaf plot), tabel distribusi
frekuensi, histogram, dan plot deret waktu
2. Ketepatan dan kesesuaian menggunakan software untuk membuat grafik untuk variabel
kualitatif: diagram lingkaran (pie chart), diagram batang (bar chart)
1. Grafik untuk variabel kuantitatif: plot titik (dot plot), plot batang dan daun (stem and leaf
plot), tabel distribusi frekuensi, histogram, dan plot deret waktu
2. Grafik untuk variabel kualitatif: diagram lingkaran (pie chart), diagram batang (bar chart)
Pada materi kuliah sebelumnya kita telah mempelajari beberapa jenis data. Bab ini kita akan mem-
pelajari bagaimana mengeksplorasi data. Kita juga tahu bahwa terdapat variabilitas dalam data
2-1
Kuliah 2: Eksplorasi Data dengan Grafik 2-2
dan statistika memberikan metode untuk mengukur dan memahami data tersebut (Agresti et al.,
2018). Setiap karakteristik yang kita amati dalam suatu studi disebut variabel. Kita juga telah
mempelajari secara garis besar ada dua variabel: variabel kuantitatif dan variabel kualitatif. Vari-
abel kuantitatif dibedakan lagi menjadi tipe diskret dan tipe kontinu.
Tahap pertama dalam menganalisis data yang dikumpulkan adalah mengeksplorasi data dan mer-
ingkasnya. Tujuan tahap ini adalah melihat distribusi atau sebaran dari suatu variabel. Dis-
tribusi suatu variabel mendeskripsikan bagaimana amatan menyebar sepanjang rentang nilai yang
mungkin dari suatu nilai-nilai variabel.
Materi ini meliputi bagaimana membuat plot titik, plot batang daun (stem and leaf plot), diagram
lingkaran (pie chart), box plot, dan lain-lain.
Plot batang-daun (stem-and-leaf plot) menampilkan data secara langsung sebagai langkah awal
membuat tabel distribusi frekuensi. Untuk membuat plot batang-daun, gambar garis vertikal dan
tempatkan masing-masing digit pertama untuk setiap kelas (disebut batang) pada sisi kiri garis
vertikal. Bilangan di sebelah kanan garis vertikal menyatakan digit kedua dari masing-masing
amatan; bilangan-bilangan ini disebut daun.
Berikut ini adalah panduan dalam membuat plot batang-daun (Ott and Longnecker, 2001, hlm. 56):
1. Pisahkan masing-masing skor atau nilai menjadi dua kelompok angka. Kumpulan atau kelom-
pok angka pertama disebut batang (stem) dan angka kedua disebut daun (leaf ).
3. Untuk setiap masing-masing skor atau nilai dalam data, tulis nilai daun pada baris berlabel
nomor batang yang bersesuaian.
4. Jika tampilan terlihat terlalu sempit, perlebar tampilan dengan menggunakan dua baris pada
setiap batang, misalnya angka daun 0,1,2,3, dan 4 ditempatkan pada baris pertama pada
batang dan angka daun 5, 6, 7, 8, dan 9 ditempatkan pada baris kedua.
5. Jika terlalu banyak angka muncul, misalnya enam atau tujuh angka skor, buang digit paling
kanan untuk memaksimalkan tampilan.
Kuliah 2: Eksplorasi Data dengan Grafik 2-3
Sebagai contoh berikut ini adalah data berat badan (dalam kg) 30 orang Asia. Plot batang-daun
(stem-and-leaf plot) data berat badan 30 orang Asia di atas adalah sebagai berikut.
1 | 0
2 | 05
3 | 0356
4 | 058
5 | 0005
6 | 0555
7 | 055578
8 | 0005
9 | 05
Angka di sebelah kiri | menyatakan puluhan dan data di sebelah kanan | menyatakan satuan.
Berdasarkan plot batang-daun di atas dapat dilihat bahwa data yang paling sering muncul adalah 7
(puluhan).
Plot titik (dot chart) dibuat dengan mengurutkan data dan memplot masing-masing amatan berdasarkan
nilai numeriknya sepanjang sumbu yang diberi skala. Kemudian masing-masing data yang identik
ditumpuk. Perhatikan Gambar 2.1.
Pada tabel frekuensi, amatan dibagi menjadi beberapa kelas seperti halnya pada plot batang-daun.
Langkah-langkah menyusun tabel frekuensi adalah sebagai berikut (Ott and Longnecker, 2001).
1. Bagi rentang (selisih amatan terbesar dan terkecil) dari pengukuran dengan banyaknya kelas
interval yang diinginkan. Biasanya kita menginginkan 5–20 kelas interval.
Kuliah 2: Eksplorasi Data dengan Grafik 2-4
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
20 40 60 80
berat badan
2. Setelah membagi rentang dengan banyaknya subinterval yang diinginkan, bulatkan angka
yang diperoleh ke unit yang mudah dikerjakan. Unit ini menyatakan lebar umum kelas inter-
val.
3. Pilih kelas interval pertama sedemikian hingga berisi pengukuran terkecil. Sangat disarankan
untuk memilih nilai awal untuk kelas pertama sedemikian hingga tidak ada pengukuran yang
jatuh pada di antara subinterval, sehingga menghilangkan keraguan dalam menempatkan pen-
gukuran ke dalam interval kelas.
Sebagai contoh kita akan membuat tabel frekuensi untuk berat badan 30 orang Asia dengan mengikuti
langkah-langkah di atas.
10 – 27 3
28 – 45 6
46 – 63 6
64 – 81 12
82 – 99 3
Total 30
Kuliah 2: Eksplorasi Data dengan Grafik 2-5
Catatan: Menurut Vardeman and Jobe (2001) pemilihan interval dalam pembuatan tabel frekuensi
adalah masalah pilihan. Anda tidak mesti memiliki jumlah interval yang sama dengan teman. Na-
mun, perlu diperhatikan bahwa interval dengan panjang yang sama hendaknya dipilih.
Selain tabel frekuensi di atas, kita juga bisa menghitung frekuensi relatif dan kumulatif. Frekuensi
relatif diperoleh dengan membagi frekuensi kelas dengan total amatan.
10 – 27 3 0,10 0,10
28 – 45 6 0,20 0,30
46 – 63 6 0,20 0,50
64 – 81 12 0,40 0,90
82 – 99 3 0,10 1,00
Total 30 1,00
2.1.4 Histogram
Histogram menyajikan informasi dari amatan yang akan diteliti pada sumbu X dan jumlah atau
persentase amatan pada sumbu Y . Panduan membuat histogram adalah sebagai berikut (Vardeman
and Jobe (2001)):
4. tempatkan batang dengan tinggi yang sesuai pada titik tengah interval.
Sebagai contoh Gambar 2.2 memperlihatkan histogram berat badan 30 orang Asia. Setiap ru-
ang kosong pada histogram menunjukkan celah sebenarnya pada data. Dengan kata lain, hal ini
mengindikasikan daerah yang tidak memiliki nilai.
Histogram memberikan informasi tentang bentuk sebaran data, pusat sebaran data, dan penyebaran
data. Berkaitan dengan sebaran data, histogram memberikan informasi apakah data memiliki nilai
yang paling sering muncul yang disebut modus. Modus ini dapat berupa hanya satu nilai (uni-
modal), dua (bimodal), atau lebih (multimodal). Selain itu histogram juga memberikan informasi
apakah sebaran data simetrik atau pencong (skew). Selanjutnya, informasi penting lain yang bisa
diperoleh dari modus adalah pencilan yaitu data yang terletak jauh dari sebaran data. Dengan kata
lain data yang bernilai ekstrem. Perhatikan Gambar 2.3.
Kuliah 2: Eksplorasi Data dengan Grafik 2-6
12
10
8
Frequency
6
4
2
0
20 40 60 80 100
sbb
Gambar 2.2: Histogram berat badan 30 orang Asia menggunakan perangkat lunak R.
Dalam hal pusat sebaran data, histogram memberikan informasi tentang rata-rata dan median. Apa-
bila data simetrik dan bermodus tunggal, kita akan melihat pusat dari penyebaran data. Suatu se-
baran data yang memiliki dua modus disebut bimodal. Histogram bimodal biasanya menunjukkan
populasi terpolarisasi pada isu-isu kontroversial. Selain itu histogram juga memberikan informasi
tentang bentuk penyebaran data. Suatu distribusi dikatakan simetrik jika sisi kiri dan kanan simetris
dan pencong atau condong (skewed) jika satu sisi distribusi merentang lebih panjang dibandingkna
sisi lain. Gambar 2.3 memperlihatkan beberapa bentuk histogram untuk beragam tipe sebaran data.
Gambar 2.3: Bentuk histogram untuk beberapa tipe sebaran data. [Sumber: (Vardeman and Jobe,
2001, hlm. 73)]
Plot kotak (box plot), disebut juga box-and-whisker plot, merupakan suatu cara untuk menampilkan
informasi dengan tujuan menggambarkan lokasi tertentu dalam penyebaran data.
Plot kotak untuk data berat badan 30 orang Asia di atas dapat dilihat pada gambar berikut. Pada
Kuliah 2: Eksplorasi Data dengan Grafik 2-7
80
60
40
20
Gambar 2.4, median data ditunjukkan oleh garis di tengah-tengah kotak. Kemudian garis di atas
dan di bawah median masing-masing adalah kuartil ketiga dan kuartil kepertama.
Poligon frekuensi adalah grafik garis yang serupa dengan histogram dan berguna dalam memband-
ingkan dua sebaran dalam grafik yang sama. Gambar 2.5 memperlihatkan poligon frekuensi data
berat badan 30 orang Asia.
Histogram of berat.badan
8
6
Frequency
4
2
0
20 40 60 80
berat.badan
Gambar 2.5: Poligon frekuensi untuk data berat badan 30 orang Asia.
Kuliah 2: Eksplorasi Data dengan Grafik 2-8
Apabila data diurutkan berdasarkan waktu kita dapat menghubungkan data-data tersebut menggu-
nakan garis. Plot yang terbentuk ini disebut plot deret waktu. Gambar berikut menunjukkan plot
deret waktu data konsentrsi CO2
Konsentrasi CO2
360
350
340
330
320
Antidepressan Jumlah
A 60
B 50
C 55
Data contoh data jumlah tiga jenis obat antidepressan di atas sudah berupa tabel frekuensi yang
mencatat jumlah total tiga jenis obat dan kategorinya. Namun, sering kali kita juga tertarik dengan
proporsi masing-masing jumlah antidepressan. Masing-masing jumlah jenis obat antidepressan
Kuliah 2: Eksplorasi Data dengan Grafik 2-9
akan dibagi dengan jumlah total obat antidepressan dan dikalikan dengan 100 untuk dinyatakan
persentase. Dengan demikian, kita akan memperoleh tabel frekuensi relatif.
Bagan lingkaran (pie charts) memperlihatkan keseluruhan proporsi atau jumlah dalam bentuk lingkaran
(pie). Sebagai contoh untuk data obat antidepressan di atas kita peroleh bagan lingkaran sebagai
berikut.
Diagram Lingkaran Obat Antidepressan
Bagan batang (bar charts) menampilkan sebaran dari data kategorik dengan menunjukkan jumlah
masing-masing kategori bersebelahan dengan kategori lain. Bagan ini biasanya berisi sedikit ruang
kosong yang menandakan bahwa batang ini adalah batang yang berdiri bebas, artinya dapat disusun
sesuai dengan urutan yang diinginkan. Untuk data obat antidepressan di atas kita akan mendapatkan
diagram batang sebagai berikut.
Tentu saja kita juga bisa membuat bagan batang jumlah siswa SMP untuk frekuensi relatif.
Kuliah 2: Eksplorasi Data dengan Grafik 2-10
60
50
40
30
20
10
0
A B C
A B C
2.3 Latihan
1. Untuk semua data pada latihan Bab 2, buatlah plot batang dan daun, tabel distribusi frekuensi
(relatif dan kumulatif), histogram, dan box plot.
2. Berikut ini adalah waktu perlakuan (dalam menit) pasien dalam suatu klinik kesehatan. Bu-
21 20 31 24 15 21 24 18 33 8
26 17 27 29 24 14 29 41 15 11
13 28 22 16 12 15 11 16 18 17
29 16 24 21 19 7 16 12 45 24
21 12 10 13 20 35 32 22 12 10
atlah plot titik, plot batang dan daun, tabel distribusi frekuensi (relatif dan kumulatif), his-
togram, dan box plot.
3. Waktu sintasan (survival times) dari 72 marmot (guinea pig) setelah dinjeksi basilus tuberkel
dalam suatu percobaan medis.
43 45 53 56 56 57 58 66 67 73
74 79 80 80 81 81 81 82 83 83
84 88 89 91 91 92 92 97 99 99
100 100 101 102 102 102 103 104 107 108
109 113 114 118 121 123 126 128 137 138
139 144 145 147 156 162 174 178 179 184
191 198 211 214 243 249 329 380 403 511
522 598
4. Seorang ilmuwan Inggris Henry Cavendish mengukur densitas bumi dengan neraca puntir
(torsion balance). Variabel yang dicatat adalah densitas bumi sebagai kelipatan densitas air.
Berikut data yang diperoleh dari pengukuran Cavendish tersebut.
Daftar Pustaka
Alan Agresti, Christine Franklin, Bernhard Klingenberg, and Michael Posner. Statistics: The Art
and Science of Learning from Data. Pearson Education Limited, Harlow, England, fourth edition,
2018.
R. Lyman Ott and Michael Longnecker. An Introduction to Statistical Methods and Data Analysis.
Duxbury, Pacific Groove, California, fifth edition, 2001.
Stephen B Vardeman and J Marcus Jobe. Basic Engineering Data Collection and Analysis.
Duxbury, Pacific Groove, California, 2001.