06211840000029, Yuniar Mega Kartikasari, EDA, 18 Februari 2020

1.
STEM AND LEAF

Stem and leaf plot adalah menu EDA yang menyajikan dengan cara memisahkan setiap
nilai menjadi dua bagian, yaitu stem(batang) yang bagian paling kiri, dan diikuti
leaf(daun) yang terletak pada bagian paling kanan.
a. Manfaat/Tujuan :
-untuk mengamati pola simetris
-mengamati penyebaran atau variasi dari data pengamatan
-mengetahui adanya pencilan
-mengamati titik pemusatan data
-mengethaui adanya gap (kesenjangan) dalam data
b. Contoh
#Contoh Stem and Leaf di MINITAB :
Berikut adalah contoh stem and leaf pada pengamatan persentase lemak .
Kolom paling kiri menunjukkan frekuensi, kolom tengah menunjukkan stem, dan kolom
paling kanan menunjukkan leaf. Jadi, misalkan data observasi 15.2, stemnya adalah 15
dan leafnya adalah 2.
#Contoh Stem and Leaf pada Data Boston Housing (Variabel :AGE).
Berikut adalah stem plot variable AGE pada data Boston Housing.
Intepretasi :
-Pusat data terletak pada stem 7, sekitar 7 puluhan.
-Sebaran data tidak simetris, namun menjulur ke kiri.
-Modus terletak pada stem 9, data 9 puluhan
-Pada data housing, penduduk paling banyak adalah umur 9 puluhan, dan terlihat bahwa
penduduk yang berumur lebih tua jumlahnya lebih banyak, karena datanya tidak simetris,
namun menjulur ke kiri.
#Contoh Stem and Leaf pada Data Boston Housing (Variabel :AGE) by CHAS.
Berikut adalah stem plot variable AGE pada data Boston Housing berkategori CHAS.
AGE, CHAS=0
Intepretasi:
-Pemusatan data terletak pada stem 7, sekitar 7 puluhan
-Data tidak simetris, namun menjulur ke kiri
-Modus data terletak pada stem 9, sekitar 9 puluhan
-Pada data housing, penduduk yang jauh dari sungai banyak yang berumur sudah tua,
ditinjau dari modus dan penjuluran datanya.
AGE, CHAS=1
Intepretasi:
-Data tidak simetri, menjulur ke kiri, sehingga semakin berumur frekuensinya semakin
banyak
-Modus data terletak pada stem 9, sekitar 9 puluhan.
-Penduduk yang tinggal di dekat sungai banyak yang berumur 9 puluhan.
#Contoh Stem and Leaf pada Data Housing(Variabel:MEDV).
Berikut adalah stem plot variable MEDV pada data housing berkategori.
Intepretasi :
- Pusat data terletak pada stem 2, sekitar 2 puluhan.
- Data tidak simetris, menjulur ke kanan
-Modus data terletak pada stem 2, sekitar 2 puluhan
-Pada data housing, harga rumah terbanyak yaitu pada harga rumah 2 puluhan, dan harga
rumah pada data housing relative murah, karena datanya menjulur ke kanan, semakin ke
kanan frekuensinya semakin sedikit, sehingga harga rumah yang mahal juga semakin
sedikit.
#Contoh Stem and Leaf pada Data Housing(Variabel:MEDV) by CHAS .

Berikut adalah stem plot variable MEDV pada data housing berkategori CHAS.
MEDV, CHAS=0
Intepretasi:
-Data tidak simetri, namun menjulur ke kanan, artinya semakin ke kanan frekuensi
semakin sedikit.
-Modus terletak pada stem 1, sekitar belasan
-Pada data housing, harga rumah yang jauh dari sungai banyak yang lebih murah.
MEDV,CHAS=1
Intepretasi:
-Data tidak simetri, namun menjulur ke kanan.
-Pemusatan data terletak pada stem 2
-Modus juga terletak pada stem data stem 2
-Harga rumah yang dekat dengan sungai relatif murah.
2. BOX PLOT
a. Manfaat dan Tujuan:
-Menilai dan membandingkan distribusi sampel
-Menilai kesimetrisan sebaran data
b. Contoh:
#Box Plot pada Data Housing (Variabel: AGE) berkategori CHAS
Boxplot of AGE
100
80
60
AGE
40
20
0
0 1
CHAS
Intepretasi:
Penduduk yang berusia lebih tua banyak yang tinggal di dekat sungai, sedangkan penduduk
yang tinggal jauh dari sungai, median umurnya lebih muda. Data tidak terdapat outlier.
Median umur penduduk yang jauh dari sungai adalah 76,5. Median umur penduduk yang
dekat dari sungai adalah 88,5.
#Box Plot pada Data Housing (Variabel: MEDV) berkategori CHAS
Boxplot of MEDV
50
40
30
MEDV
20
10
0
0 1
CHAS
Intepretasi:
Harga rumah yang dekat dengan sungai lebih mahal daripada yang jauh dari sungai,
walaupun perbedaan harganya tidak terlalu signifikan. Pada data harga rumah yang jauh
dengan sungai terdapat outlier. Median harga rumah yang jauh dari sungai adalah 20,9.
Sedangkan median harga rumah yang dekat dengan sungai adalah 23,3.
3. LETTER VALUES
a. Manfaat dan Tujuan
-Menggambarkan lokasi dan penyebaran distribusi sampel
b. Contoh
Letter Value Display: AGE
Depth Lower Upper Mid Spread

N= 506
M 253,5 77,500 77,500 77,500
H 127,0 45,000 94,100 69,550 49,100
E 64,0 29,700 98,100 63,900 68,400
D 32,5 18,950 100,000 59,475 81,050
C 16,5 14,300 100,000 57,150 85,700
B 8,5 7,800 100,000 53,900 92,200
A 4,5 6,550 100,000 53,275 93,450
Z 2,5 6,100 100,000 53,050 93,900
Y 1,5 4,450 100,000 52,225 95,550
1 2,900 100,000 51,450 97,100
Intepretasi:
Dari data yang dihasilkan pada letter value, terlihat penyebaran data yang signifikan
dengan menampilkan lower dan upper data.
Letter Value Display: MEDV
Depth Lower Upper Mid Spread

N= 506
M 253.5 21.200 21.200 21.200
H 127.0 17.000 25.000 21.000 8.000
E 64.0 13.400 32.700 23.050 19.300
D 32.5 10.850 39.250 25.050 28.400
C 16.5 8.450 49.400 28.925 40.950
B 8.5 7.200 50.000 28.600 42.800
A 4.5 6.650 50.000 28.325 43.350
Z 2.5 5.300 50.000 27.650 44.700
Y 1.5 5.000 50.000 27.500 45.000
1 5.000 50.000 27.500 45.000
4. Median Polish
Mengidentifikasi adanya suatu trends dan outliers dengan menghitung median dari
kolom dan baris secara iteraksi dimana hasil akhirnya adalah sebuah model linear dari
data tersebut.
b. Contoh
5. Resistant Line
-Untuk melihat apakah hubungan itu linier, untuk menemukan kembali pengalaman
untuk mer linierisasi hubungan jika perlu, dan untuk mengidentifikasi outlier.
b. Contoh
Resistant Line Fit: AGE versus MEDV
Slope = 226,1239 Level = -56,5583 Half-slope ratio = 0,323
Intepretasi: Dari data diatas diperoleh kemiringan sebesar 226,1239 dan level sebesar
-56,5583 menunjukkan bahwa data tersebut memiliki hubungan yang linier atau tidak.
Hal tersebut akan mengindentifikasi terdapat data yang outlier.
6. Resistant Smooth
-Memuluskan serangkaian data yang terurut, biasanya dikumpulkan dari waktu ke
waktu, untuk menghilangkan fluktuasi acak. Menghaluskan berguna untuk
menemukan dan meringkas tren data dan outlier.
b. Contoh
MTB > RSmooth 'AGE' C30 c31.
Intepretasi:
Variabel yang dipilih akan mengurutkan datanya sehingga pada data tersebut
ditemukan data yang outlier dan menghilangkan fluktuasi acak pada data.
7. Rootogram
Histogram dengan kesesuaian distribusi normal, yang menampilkan penyimpangan
dari distribusi normal yang sesuai, rootogram cocok menggunakan persentil.
b. Contoh
Rootogram: AGE
c. Bin Count RawRes DRRes Suspended Rootogram

d. 1 0,0 -9,7 -5,32 *--------------- .
e. 2 1,0 -7,8 -3,57 *--------------- .
f. 3 16,0 1,6 0,46 . +++ .
g. 4 32,0 10,1 1,98 . ++++++++++
h. 5 42,0 11,1 1,88 . ++++++++++
i. 6 35,0 -5,2 -0,80 . ----- .
j. 7 40,0 -8,4 -1,23 . ------- .
k. 8 32,0 -22,1 -3,34 *--------------- .
l. 9 45,0 -11,0 -1,51 . -------- .
m. 10 53,0 -0,6 -0,04 . - .
n. 11 97,0 49,5 5,93 . +++++++++++++++*
o. 12 113,0 74,0 8,77 . +++++++++++++++*
p. 13 0,0 -81,4 -17,07 *--------------- .
q.
r. In display, value of one character is .2 OO
Interpretasi :
Dari data yang diperoleh pada rootogram diatas, terdapat data yang memiliki nilai
113,0 yang merupakan data outlier dari keseluruhan data yang diperoleh. Sehingga
data tersebut menampilkan penyimpangan nilai dari distribusi normal.

06211840000029, Yuniar Mega Kartikasari, EDA, 18 Februari 2020

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

06211840000029, Yuniar Mega Kartikasari, EDA, 18 Februari 2020

Diunggah oleh

Hak Cipta:

Format Tersedia

1.

STEM AND LEAF

#Contoh Stem and Leaf pada Data Housing(Variabel:MEDV) by CHAS .

Letter Value Display: AGE

Depth Lower Upper Mid Spread

Letter Value Display: MEDV

Depth Lower Upper Mid Spread

Slope = 226,1239 Level = -56,5583 Half-slope ratio = 0,323

c. Bin Count RawRes DRRes Suspended Rootogram

Anda mungkin juga menyukai