Anda di halaman 1dari 29

EKSPLORASI DATA

Bab 4
Menampilkan dan Menjelajahi Data

Eksplorasi Data:
Diagram Batang-Daun dan
Kotak-Garis

Diagram Batang-Daun
o

o
1.

2.

Diagram Batang-Daun (Stem-and-Leaf Diagram)


Diagram batang-daun mudah dibaca dan mudah
dibuat
Cara membuat:
Telitilah data yang hendak diolah, carilah data terkecil
dan terbesar
Pisahkan masing-masing data ke dalam batang
(biasanya angka pertama dari data) dan daun (angka
kedua dari data).
Catatan : batang bisa lebih dari dua angka, sesuai
kebutuhan. Tetapi daun hanya mengandung satu angka.
3

Diagram Batang-Daun
Diagram Batang-Daun (Stem-and-Leaf Diagram)
3. Daftarkan batang secara vertikal dan
berurutan, gambarkan garis vertikal di sebelah
kanan batang.
4. Aturlah daun di sebelah kanan garis vertikal
sedemikian rupa sehingga berurutan dan
bersesuaian dengan batang.

Diagram Batang-Daun
Contoh:
o Data home runs (berhasil masuk seluruh base
dan mendapat angka tertinggi) dalam permainan
baseball per tahun (dari tahun 1920 s/d 1934):
54 59 35 41 46 25 47 60 54 46 49 46 41 34 22
Batang
Daun
2
25
3
45
4
1166679
5
449
6
0

Diagram Batang-Daun
Via diagram batang-daun terlihat bahwa:
o Lokasi pemusatan dari sebaran data dapat diketahui.
o Bentuk (shape) sebaran data dapat diketahui,
apakah simetri ataukah tidak simetri
(melenceng/menjulur/skewed). Tentu saja dalam hal
ini tidak tepat benar kesimetri-annya. Apakah
sebaran memiliki satu puncak ataukah dua puncak?
o Apakah ada data yang berperilaku menyimpang?

Diagram Batang-Daun
Kelemahan Diagram Batang-Daun:
** Sulit menyusun diagram ini pada kasus data
sangat menyebar. Misalnya, data berkisar
antara 0.5 dengan 1122.
** Sebaliknya, kalau kisarannya kecil,
penggunaan diagram ini menjadi kurang tepat.
Misalnya, data berkisar antara 42 dengan 45.

Diagram Batang-Daun

Stem-and-leaf display is a statistical technique to present a set of data. Each numerical value is divided
into two parts. The leading digit(s) becomes the stem and the trailing digit the leaf. The stems are located
along the vertical axis, and the leaf values are stacked against each other along the horizontal axis.
Two disadvantages to organizing the data into a frequency distribution:
(1)
The exact identity of each value is lost
(2)
Difficult to tell how the values within each class are distributed.
EXAMPLE
Listed in Table 41 is the number of 30-second radio advertising spots purchased by each of the 45
members of the Greater Buffalo Automobile Dealers Association last year. Organize the data into a
stem-and-leaf display. Around what values do the number of advertising spots tend to cluster?
What is the fewest number of spots purchased by a dealer? The largest number purchased?

Diagram Batang-Daun

Contoh: Manajer pasar swalayan mencatat data


banyaknya belanja (dalam dollar US) dari 50 pelanggan:
2.32
10.26
13.67
15.01
18.30
20.89
27.07
32.82
37.52
52.36

6.61
11.34
13.72
15.33
18.71
20.91
28.76
33.26
39.28
61.57

6.90
11.63
14.35
16.55
19.54
21.13
29.15
33.80
40.80
63.85

8.04
12.66
14.52
17.15
19.55
23.85
30.54
34.76
43.97
64.30

9.45
12.95
14.55
18.22
20.58
26.04
31.99
36.22
45.58
69.49

Diagram Batang Daun


Untuk membuat diagram batang-daun dari data di atas, kita
dapat memodifikasi dengan menghilangkan angka-angka
yang ada di belakang koma (titik):
0 2
atau
0
26689
0 6689 1
112233444556788899
1 011223344
2
000136789
1 556788899
3
012334679
2 00013
4
035
2 6789 5
2
3 012334
6
1349
3 67903
4 5
5 2
5
6 134
6 9
10

Diagram Batang-Daun
Interpretasi:
o Sebaran/distribusi data melenceng ke kanan (ke arah data
yang tinggi)
o Sebagian besar pelanggan belanja di bawah 20 $ (dihitung
jumlahnya ada 25 pelanggan)
o Tetapi ada 5 pelanggan yang berbelanja lebih dari 50 $
o

Bagi manajer : bisa meneliti lagi secara lebih detail bagaimana


cara menarik pelanggan untuk berbelanja lebih banyak lagi.

11

Diagram Kotak-Garis (Box Plot)


o

Box Plot ditentukan oleh statistik lima


serangkai

Statistik-Lima-Serangkai:
1.
2.
3.
4.
5.

Statistik minimum (nilai data terkecil)


Statistik maksimum (nilai data terbesar)
Kuartil pertama (Q1)
Kuartil kedua (Q2) atau median
Kuartil ketiga (Q3)

Kuartil (Quartile)
Quartile (kuartil) arti harafiahnya : "perempatan"
sehingga,
o Median disebut kuartil kedua (Q2) karena
merupakan dua kuartil atau dua perempatan
atau 50 % dari semua pengamatan nilainya
lebih kecil dari median tersebut.
o

Q1: 25 % dari semua data berada dibawahnya.


Q3 : 75 % dari semua data berada dibawahnya.

Kuartil (Quartile)

Quartiles split the ranked data into 4 equal


groups
25% 25%
25%
25%
Q1

Q2

Q3

Example: Find the first quartile

Sample Data in Ordered Array: 11 12 13 16 16 17 18 21 22


(n = 9)
Q1 = 25th percentile, so find the
25

(9+1) = 2.5 position

100

so use the value half way between the 2nd and 3rd values,
so

Q1 = 12.5

Kuartil (Quartile)
Sehingga,
25%

25%

Q1

25%

25%

Q2
Q3
Median
Bila Median nilai UN Matematika sama dengan 6,
artinya?
Bila Kuartil 3 nilai UN IPA sama dengan 8,
artinya?

Diagram Kotak-Garis (Box Plot)

A Graphical display of data using 5-number


summary:
Minimum -- Q1 -- Median -- Q3 -- Maximum

Example:
25%

Minimum
Minimum

25%

1st
Quartile
1st
Quartile

25%

Median
Median

Business Statistics: A Decision-Making Approach, 6e 2005 PrenticeHall, Inc.

25%

3rd
3rd
Quartile
Quartile

Maximum
Maximum
Chap 3-16

Diagram Kotak-Garis (Box Plot)

The Box and central line are centered between the


endpoints if data is symmetric around the median

A Box and Whisker plot can be shown in either vertical


or horizontal format

Contoh Box Plot

Below is a Box-and-Whisker plot for the following


data:
Min

Q1

23 5

Q2

Q3

Max

10

27

27

This data is very right skewed, as the plot depicts

Diagram Kotak Garis


Q1
opencilan

Q2

Q3
*

IQR = Kisaran antarkuartil = Q3 - Q1

pencilan

Q1-3(IQR) Q1-1.5(IQR) Q3+1.5(IQR)Q3+3(IQR)

Interquartile Range
(IQR)

Can eliminate some outlier problems by using


the interquartile range

Eliminate some high-and low-valued


observations and calculate the range from the
remaining values.

Interquartile range = 3rd quartile 1st quartile

Interquartile Range (IQR)


Example:
X

minimum

Q1

25%

12

Median
(Q2)
25%

30

25%

45

Q3

maximum

25%

57

Interquartile range
= 57 30 = 27

70

Distribution Shape and


Box and Whisker Plot
Left-Skewed

Q1

Q2 Q3

Symmetric

Q1 Q2 Q3

Business Statistics: A Decision-Making Approach, 6e 2005 PrenticeHall, Inc.

Right-Skewed

Q1 Q2 Q3

Chap 3-22

Contoh Interpretasi Box


Plot
Statistik NEM Bhs Indonesia:
Variable Mean StDev Minimum
Q1 Median
Q3 Maximum
INDO
630.95 81.96 440.00 572.50 625.00 680.00 844.00

o Berdasarkan box plot, tebaran


data NEM bhs Indonesia
relatif simetrik atau setangkup
o Kesetangkupan dicerminkan
oleh letak median yang
dipertengahan antara Q1 dan
Q3, kedua ekor kotak ke arah
bawah dan atas hampir sama
panjangnya
o Ada satu NEM sebagai
pencilan (bertanda *)

Contoh Interpretasi Box


Plot
Statistik NEM IPA:
Variable Mean StDev Minimum
Q1 Median Q3
Maximum
IPA
458.68 88.29 275.00
398.00 449.00 517.00 683.00

o Berdasarkan box plot, tebaran


data NEM bhs Indonesia
relatif menjulur ke arah positif
o Ketaksetangkupan
dicerminkan oleh ekor kotak
ke arah atas (positif) lebih
panjang dari ekor ke arah
bawah
o Tidak ada pencilan
o Perhatikan besarnya Mean
dan Median! (kaitkan dengan
ketaksetangkupan)

Contoh Interpretasi Box


Plot
Statistik NEM Matematika:
Variable Mean StDev Minimum
Q1 Median Q3
Maximum
MAT
343.2 106.8 145.0
260.0 333.0
406.0 663.0

o Berdasarkan box plot, tebaran


data NEM Matematika
menjulur ke arah positif
o Ketaksetangkupan
dicerminkan oleh ekor kotak
ke arah atas (positif) lebih
panjang dari ekor ke arah
bawah
o Ada 2 pencilan
o Q3 di sekitar 4, artinya sekitar
75 % siswa dengan NEM di
bawah 4!

Contoh Interpretasi Box


Plot
Statistik NEM IPA:
Variable Mean StDev Minimum
Q1 Median Q3
Maximum
IPA
458.68 88.29 275.00
398.00 449.00 517.00 683.00

o Berdasarkan box plot, tebaran


data NEM bhs Indonesia
relatif menjulur ke arah positif
o Ketaksetangkupan
dicerminkan oleh ekor kotak
ke arah atas (positif) lebih
panjang dari ekor ke arah
bawah
o Tidak ada pencilan
o Perhatikan besarnya Mean
dan Median! (kaitkan dengan
ketaksetangkupan)

Membandingkan 2 Gugus
Data dengan Box Plot

Box Plot dapat digunakan untuk


membandingkan 2 atau lebih gugus data

Contoh:
Misalkan ingin dikaji apakah ada perbedaan
kandungan kalori dari sejenis hotdog yang terbuat
dari daging Beef dan Poultry. Berikut ini adalah data
(Moore dan McCabe, 1989) kandungan kalori dari
hotdog yang terbuat dari Beef dan Poultry:

Membandingkan 2 Gugus
Data dengan Box Plot

Data hotdog yang terbuat dari Beef dan Poultry:


Kandungan Kalori Beef
181
176
149
184
190
158
139
175
148
152
111
141
153
190
157
131
149
135
132

132
102
106
94
102
87
99
170
113
135
142
86
143
152
146
144

Kandungan Kalori Poultry

186

129

Membandingkan 2 Gugus
Data dengan Box Plot

Kalori

200

150

100

Bahan

Berdasarkan gambar: Kandungan kalori bahan 1 (Beef) lebih


tinggi dari bahan 2 (Poultry), karena Q3 Beef lebih tinggi dari Q2,
bahkan Q3 Beef hampir sama dengan Q1 Poultry; Q2 Beef lebih
tinggi dari Q1 Poultry; Q1 Beef lebih tinggi dari seluruh data Poultry

Anda mungkin juga menyukai