Anda di halaman 1dari 61

STK111 – Statistika dan Analisis Data

Memahami Data melalui


Explorasi Data

Edited by: Yeni Angraeni-Akbar Rizki


Departemen Statistika dan Sain Data
Outline:
Apa itu Eksplorasi Data?

Eksplorasi Kualitas Data Pertemuan minggu ke-4

Eksplorasi Pola Sebaran Data

Eksplorasi Perbandingan Antar Grup


Pertemuan minggu ke-5
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 2


Tim Dept STK - IPB University 3
Apa itu Eksplorasi Data?
(What is Data Exploration?)

Tim Dept STK - IPB University 4


Explorasi Data
“The best thing about being a statistician is that you get to play in
everyone’s backyard.” – John Tukey (1915-2000)
Pada 1960-an, John Tukey dari Universitas Princeton prihatin bahwa Para Statistisi
terlalu menekankan pada analisis data yang kompleks dan mengabaikan cara yang
lebih sederhana untuk memeriksa dan belajar dari data. Tukey mengembangkan
metode deskriptif baru, dengan judul Exploratory Data Analysis (EDA).

 Eksplorasi data adalah langkah awal sebelum analisis data dilakukan.


 Eksplorasi data dilakukan untuk lebih memahami karakteristik dari data.
 Eksplorasi data dilakukan dengan memvisualisasikan data.
 Penyajian data dalam bentuk tabel dan angka memang cukup bagus, tetapi akan sulit untuk
memahami tren dan polanya.
 Komunikasi informasi tersebut akan jauh lebih mudah dalam bentuk grafik, chart, atau format
visual lainnya.

Tim Dept STK - IPB University 5


Boxplot
(Diagram Kotak Garis)
Melihat ukuran penyebaran dan ukuran pemusatan
data.
Melihat adanya data pencilan.
Sebagai alat pembandingan sebaran dua kelompok
data atau lebih.
LANGKAH TEKNIS Untuk lebih memahami Boxplot, bisa dilihat
• Hitung Video berikut (link ada di deskripsi dan komentar):
• Statistik lima serangkai : Min, Q1, Q2, Q3, Max
• Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR)
1. Penjelasan Median (Q2) :
• Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) https://youtu.be/DhxHGzI-PLE?t=294
• Identifikasi data 2. Penjelasan Q1, Q2, Q3 :
• Jika data < PDB atau data > PDA maka data dikatakan memiliki Pencilan https://youtu.be/DhxHGzI-PLE?t=394
• Gambar 3. Penjelasan IQR : https://youtu.be/2yih-
• Kotak dengan batas Q1 dan Q3
• Jika Tidak ada Pencilan, maka Tarik garis dari Q1 sampai data terkecil dan 1iOfGw?t=130
tarik garis dari Q3 sampai data terbesar 4. Penjelasan mengenai Boxplot :
• Jika ada Pencilan Tarik garis Q1 dan atau Q3 sampai data sebelum pencilan
• Pencilan digambarkan dengan asterik https://youtu.be/vTwscU1nESI 6
Tim Dept STK - IPB University
Boxplot
(lanjutan)

2 Langkah membuat Boxplot di Ms. Excel :


1. Pilih seluruh data yang ingin dibuat Boxplot.

4 3 2.
3.
Pilih Menu “Insert”.
Klik Panah Kecil untuk “See All Charts”
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.

7
5 6
Tim Dept STK - IPB University 7
Boxplot
(lanjutan)

Tim Dept STK - IPB University 8


Histogram
Melihat ukuran penyebaran dan
ukuran pemusatan data
Melihat adanya data outlier
Mendeteksi ada bimodus/tidak

Untuk lebih memahami Histogram, bisa dilihat


Video berikut (link ada di deskripsi dan komentar):
1. Tabel Distribusi Frekuensi :
https://youtu.be/t2KaSBYwanw?t=70
2. Histogram :
https://youtu.be/t2KaSBYwanw?t=258

Tim Dept STK - IPB University 9


Histogram
(lanjutan)

2 Langkah membuat Histogram di Ms. Excel :


1. Pilih seluruh data yang ingin dibuat Histogram.
3 2. Pilih Menu “Insert”.

4 3.
4.
Klik Panah Kecil untuk “See All Charts”
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.

7
5 6
Tim Dept STK - IPB University 10
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)

60 15; 60
13; 58
Sales Revenue

14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60

Tim Dept STK - IPB University 11


Scatter Plot
(lanjutan)

2 Langkah membuat Scatter Plot di Ms. Excel :

3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
Pilih Menu “Insert”.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.

Y
70
60
50
40
5
30
20
10

Tim Dept STK - IPB University


0
0 2 4 6 8 10 12 14
12
16
Eksplorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 13


Explorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)
 Nilai ekstrem (atau dikenal sebagai 'pencilan’ (outlier))
adalah titik data yang tersebar di ekor distribusi suatu
data
 Nilai-nilai ekstrim tersebut akan memengaruhi analisis
statistik
 Bagaimana cara mendeteksi nilai ekstrem menggunakan
eksplorasi data?  Boxplot, Histogram, Scatter Plot

Tim Dept STK - IPB University 14


Boxplot
(Contoh Manual Boxplot untuk Pendugaan Nilai Ekstrem)
Cereal Sodium Data.
Sebanyak 20 macam sereal diukur kandungan Sodium (mg)
didalamnya, dan didapat data (yang sudah diurutkan) sebagai
berikut : 0, 50, 70, 100, 130, 140, 140, 150, 160, 180, 180, 180,
190, 200, 200, 210, 210, 220, 290, 340

Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎

Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Tim Dept STK - IPB University 15
Boxplot
(Contoh Visual Boxplot untuk Pendugaan Nilai Ekstrem)

Perhatikan contoh berikut ini :


 Gambar boxplot ini menampilkan
profil pelanggan dan menemukan
bahwa pendapatan tahunan rata-rata
pelanggan adalah $ 0,8 juta.
 Namun, ada dua pelanggan yang
memiliki pendapatan tahunan $ 4
dan $ 4,2 juta.
 Pendapatan tahunan kedua
pelanggan ini jauh lebih tinggi
daripada populasi lainnya
Pencilan (Outlier).

Tim Dept STK - IPB University 16


Histogram
(Contoh Visual Histogram untuk Pendugaan Nilai Ekstrem)

NILAI EKSTREM NILAI EKSTREM KAH?

Tim Dept STK - IPB University 17


Histogram with Boxplot
Pencilan diidentifikasi sebagai nilai terbesar
dalam kumpulan data, 1441, dan muncul
sebagai lingkaran di sebelah kanan boxplot
maupun histogram.

 Pencilan harus diselidiki dengan hati-hati.


 Seringkali pencilan berisi informasi berharga
tentang proses yang sedang diselidiki atau proses
pengumpulan dan pencatatan data.
 Sebelum mempertimbangkan kemungkinan
penghapusan pencilan dari data, terlebih dahulu
harus dicoba untuk dipahami mengapa pencilan
tersebut muncul dan apakah kemungkinan nilai
serupa akan terus muncul.

Tim Dept STK - IPB University 18


Histogram with Boxplot
(Contoh Visual Histogram untuk Pendugaan Nilai Ekstrem)

Dengan
Nilai Ekstrem

Ketika Nilai
Ekstrem pada data
dibuang

Tim Dept STK - IPB University 19


Scatter Plot
(Contoh Scatter Plot untuk Pendugaan Nilai Ekstrem)

Scatter plot disamping menyajikan data untuk


siswa dalam perjalanan backpacking. (Setiap poin
mewakili seorang siswa.)
Perhatikan bagaimana dua titik yang berwarna
merah dimana posisinya jauh dari data lainnya.
Kedua titik tersebut diberi label Brad dan
Sharon, yang merupakan nama siswa yang
mereka wakili.
Sharon bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih berat.
Brad bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih ringan.
Tim Dept STK - IPB University 20
Scatter Plot
(Contoh Scatter Plot untuk Pendugaan Nilai Ekstrem)

 Pencilan dapat terdiri dari dua jenis: Univariat dan Multivariat


 Misalkan kita memahami hubungan antara tinggi dan berat.
 Dari kedua boxplot untuk tinggi dan berat badan, tidak terlihat adanya pencilan.
 Namun ketika kedua peubah divisualisasikan dengan menggunakan Scatter plot, terlihat adanya
pencilan.
 Dua nilai di bawah dan satu di atas rata-rata dalam segmen berat dan tinggi tertentu.
Tim Dept STK - IPB University 21
Eksplorasi Pola Sebaran Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 22


Eksplorasi Pola Sebaran Data
(Histogram)

Histogram adalah salah satu alat yang sering


digunakan untuk melihat distribusi dari suatu
data

Yang perlu dicermati:


1. Apakah data mengumpul atau berpencar,
atau ada pengamatan yang memencil?
2. Apakah ada satu puncak (unimodal) atau ada
dua puncak (bimodal)?
3. Bentuk sebaran data  simetrik atau
menjulur (skewed)

Tim Dept STK - IPB University 23


Eksplorasi Pola Sebaran Data
(Histogram – Unimodal dan Bimodal)

Tim Dept STK - IPB University 24


Eksplorasi Pola Sebaran Data
(Pola Sebaran Data)
Relatif sedikit orang Relatif sedikit
meninggal di usia
Banyak orang kaya, di ekor
muda, di ekor kiri kanan panjang.
panjang. Pengamatan di sini

Life Span (Masa Hidup) IQ Income (Pendapatan)


menjulur ke kiri. menyebar Simetrik menjulur ke kanan.

Tim Dept STK - IPB University 25


Eksplorasi Pola Sebaran Data
(Histogram – Pola Sebaran Data)

Pada histogram disamping, dapat  Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan  Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri  (Histogram of % Fat)
Distribusinya kira-kira simetris dan  Sementara untuk distribusi yang menjulur ke kiri sebaliknya 
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
Tim Dept STK - IPB University 26
Eksplorasi Pola Sebaran Data
(Histogram)

 Apakah ada satu atau dua


puncak?
 Apakah simetris atau
menjulur?
 Apakah ada nilai eksrem?

Tim Dept STK - IPB University 27


Eksplorasi Pola Sebaran Data
(Histogram)

Infectious disease “novel corona virus disease


(COVID-19)” data set of different states and union
territories (UTs) in India.

Histogram disamping menampilkan histogram dari


1. total kasus COVID-19,
2. total kasus COVID-19 yang sembuh dan
3. Total kasus COVID-19 yang meninggal
di India

 Apakah ada satu atau dua puncak?


https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/  Apakah simetris atau menjulur?
 Apakah ada nilai eksrem?

Tim Dept STK - IPB University 28


Tim Dept STK - IPB University 29
Eksplorasi Perbandingan Antar Grup
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 30


Eksplorasi Perbandingan Antar Grup

Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.

Tim Dept STK - IPB University 31


Eksplorasi Perbandingan Antar Grup
(Histogram vs Boxplot)

Tim Dept STK - IPB University 32


Eksplorasi Perbandingan Antar Grup
(Boxplot)

 Box plot di samping menunjukkan bahwa median


dari jumlah penjualan dengan iklan di youtube lebih
besar dari pada jumlah penjualan dengan iklan di
facebook.
 Jarak antar kuartil dari kedua boxplot sangat
Penjualan

berbeda. JAK Youtube jauh lebih lebar dari


facebook. Namun keduanya menunjukkan sebaran
data yang simetris
 Jadi dapat disimpulkan bahwa jumlah penjualan
terkait dengan media iklan yang dipilih.

Facebook Youtube

Tim Dept STK - IPB University 33


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Contoh berikut berkaitan dengan berat lahir bayi yang menunjukkan sindrom gangguan pernapasan idiopatik parah
(SIRDS), dan pertanyaan ‘Apakah mungkin menghubungkan kemungkinan bertahan hidup dengan berat
lahir?

Tim Dept STK - IPB University 34


Eksplorasi Perbandingan Antar Grup
(Boxplot) BERAT LAHIR
Meninggal Hidup
MINimum 1.030 1.130
Kuartil pertama (Q1) 1.246 1.740
Median (Q2) 1.600 2.200
Kuartil ketiga (Q3) 2.070 2.765
Meninggal Hidup
MAKSimum 2.730 3.640
 Box plot di atas menunjukkan bahwa median berat lahir bayi yang selamat, lebih besar dari pada bayi yang meninggal.
 Jarak antar kuartil dari kedua boxplot cukup mirip (seperti yang ditunjukkan oleh panjang kotak), meskipun terlihat bahwa secara keseluruhan
boxplot untuk bayi yang masih selamat lebih besar dibandingkan boxplot untuk bayi yang meninggal (seperti yang ditunjukkan oleh jarak antara
ujung dua garis untuk setiap boxplot).
 Meskipun kedua kelompok data tampak menjulur ke kanan, namun kelompok untuk bayi yang selamat sedikit lebih menjulur daripada
kelompok bayi yang meninggal.
 Secara keseluruhan, dua grup data terlihat seolah-olah memiliki sebaran yang sama, tetapi berat lahir bayi yang selamat memiliki sebaran lebih
beragam dibandingkan berat lahir bayi yang meninggal. Median berat lahir bayi yang meninggal lebih kecil dari kuartil bawah berat lahir
bayi yang selamat . Jadi dapat disimpulkan bahwa kelangsungan hidup bayi terkait dengan berat bayi ketika lahir.
Tim Dept STK - IPB University 35
Eksplorasi Perbandingan Antar Grup
(Boxplot)
 Box plot di samping menunjukkan bahwa median
pengeluaran per bulan mahasiswa TPB perempuan
lebih tinggi dari mahasiswa TPB laki-laki
 Jarak antar kuartil dari kedua boxplot cukup mirip
(seperti yang ditunjukkan oleh panjang kotak),
meskipun terlihat bahwa secara keseluruhan boxplot
untuk mahasiswa TPB perempuan lebih besar
dibandingkan mahasiswa TPB laki-laki
 Boxplot mahasiswa TPB perempuan tampak
menjulur ke kanan, sementara boxplot mahasiswa
TPB laki-laki cenderung simetrik.
 Di kedua boxplot terlihat ada pencilan atas.
 Secara keseluruhan, Median pengeluaran per bulan
mahasiswa TPB perempuan lebih besar dari kuartil
atas pengeluaran per bulan mahasiswa TPB laki-laki.
Jadi dapat disimpulkan bahwa pengeluaran per bulan
mahasiswa TPB ada kaitannya dengan jenis kelamin
Tim Dept STK - IPB University 36
Eksplorasi Perbandingan Antar Grup
(Boxplot)

Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.

Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1

Tim Dept STK - IPB University 37


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Infectious disease “novel corona
virus disease (COVID-19)” data set of
different states and union territories
(UTs) in India.

Boxplot disamping menampilkan


boxplot dari total kasus COVID-19,
total kasus COVID-19 yang sembuh
dan yang meninggal di India dibagi
per cluster wilayah (Cluster I sd VI)

Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
Tim Dept STK - IPB University 38
Eksplorasi Perbandingan Antar Grup
(Boxplot)

Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/

Tim Dept STK - IPB University 39


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Tabel di samping berisi data tentang ukuran
(jumlah anak) dari keluarga lengkap dari dua
kelompok ibu di Ontario. Kelompok pertama
adalah ibu-ibu yang memiliki tahun Pendidikan
≤ 6 tahun, sementara kelompok kedua adalah
ibu-ibu yang tahun pendidikannya ≥ 7 tahun.

1. Bandingkan kedua kelompok data


berdasarkan kedua boxplot di samping !
2. Kesimpulan apa yang dapat Anda tarik
tentang hubungan antara pendidikan dan
jumlah anak dalam keluarga?
Tim Dept STK - IPB University 40
Eksplorasi Perbandingan Antar Grup
(Histogram)
 Selain dengan boxplot, kita dapat melakukan
perbandingan antar grup dengan menggunakan
histogram
 Membuat histogram yang dikelompokkan pada
dasarnya membuat histogram individual secara
terpisah untuk setiap grup dan menempatkannya
pada sumbu yang sama dan menggunakan lebar
kotak yang sama
 Skala yang digunakan harus identik pada sumbu y
maupun sumbu x sehingga kita dapat
membandingkan nilai di seluruh grup yang
dibandingkan

Tim Dept STK - IPB University 41


Eksplorasi Perbandingan Antar Grup
(Histogram)
Saat membandingkan beberapa grup dengan histogram,
perlu mempertimbangkan hal sebagai berikut :
 Bagaimana bentuk sebaran dari grup yang
dibandingkan? Apakah ada sebaran dari suatu grup
yang menjulur sedangkan grup yang lainnya tidak ?
Apakah semua kelompok memiliki jumlah modus yang
sama?
 Apakah grup-grup tersebut memiliki nilai rata-
rata/median/modus yang sama?
 Apakah semua grup memiliki sebaran yang serupa?
 Apakah suatu grup tampaknya memiliki lebih banyak
variasi daripada yang lain?
 Apakah salah satu grup terdapat pencilan?

Tim Dept STK - IPB University 42


Eksplorasi Perbandingan Antar Grup
(Histogram)
Group A Group B

 Sebaran Grup A simetris dan sebaran Grup B menjulur ke kanan.


 Median Grup A, 55, lebih besar dari median Grup B, 40.
 Namun, kedua grup memiliki sebaran yang sama, dengan rentang interkuartil (IQR)
untuk Grup A sama dengan 23, dan untuk Grup B sama dengan 25.
 Kedua grup tidak memiliki pencilan.

Tim Dept STK - IPB University 43


Eksplorasi Perbandingan Antar Grup
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di
negara berkembang dan di negara maju
Pada negara maju (Western Europe and
Negara Berkembang Negara Maju North America), income menjadi
sedikit lebih meningkat pada tahun
2010 dibandingkan tahun 1970, tetapi
secara persentase, income negara-
negara berkembang tampaknya lebih
meningkat, terjadi pergeseran ke kanan
pada tahun 2010 dibandingkan tahun
1970. Dari histogram di samping
terlihat juga bahwa proporsi income
negara berkembang yang
berpenghasilan lebih dari $ 16 per hari
Sumber : https://rafalab.github.io/dsbook/gapminder.html meningkat secara substansial.
Tim Dept STK - IPB University 44
Eksplorasi Perbandingan Antar Grup
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di negara berkembang dan di negara maju

Negara Berkembang Negara Maju

Untuk melihat wilayah tertentu


mana yang paling meningkat, Dari Boxplot di atas terlihat bahwa income tahun 2010 dari setiap
eksplorasi perbandingan antar wilayah di negara berkembang lebih meningkat dari pada tahun
tahun 1970 dan 2010 dipecah 1970. Peningkatan terbesar terjadi pada wilayah Asia timur diikuti
per wilayah dengan Amaerika latin, others. Sementara wilayah sub-Saharan
menggunakan boxplot (note : peningkatannya kecil namun terdapat beberapa negara di sub-
Saharan yang menjadi pencilan
west -> negara maju)
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 45
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 46


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
 Scatter Plots (juga disebut diagram pencar)
digunakan untuk melihat hubungan antara dua
peubah
 Sebagai contoh, scatter plot disamping
menunjukkan diagram pencar untuk dua peubah
yang memiliki hubungan nonlinier di antara
keduanya
 Setiap titik pada diagram pencar mewakili satu
pasangan (X, Y).
 Karena diagram pencar bukan garis lurus,
hubungan antara X dan Y adalah nonlinier.
 Perhatikan bahwa dimulai dengan nilai X yang
paling negatif, dengan meningkatnya X, Y pada
awalnya menurun; lalu ketika X terus meningkat, Y
meningkat.

Tim Dept STK - IPB University 47


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
 Scatter plot menunjukkan hubungan dua
peubah yang memiliki hubungan linier
positif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk X
dan Y, semakin naik nilai X maka nilai Y
juga akan semakin meningkat.
 Garis lurus adalah garis tren, dirancang
sedekat mungkin dengan semua titik data.
 Garis tren memiliki kemiringan positif,
yang menunjukkan hubungan positif
antara X dan Y.
Tim Dept STK - IPB University 48
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot berikutnya menunjukkan


hubungan dua peubah yang memiliki
hubungan linier positif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

Tim Dept STK - IPB University 49


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

 Scatter plot menunjukkan hubungan


dua peubah yang memiliki hubungan
linier negatif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk
X dan Y dengan arah yang berlawanan,
semakin naik nilai X maka nilai Y
semakin menurun
 Garis tren memiliki kemiringan negatif,
yang menunjukkan hubungan negatif
antara X dan Y.

Tim Dept STK - IPB University 50


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot berikutnya menunjukkan


hubungan dua peubah yang memiliki
hubungan linier negatif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

Tim Dept STK - IPB University 51


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.

Tim Dept STK - IPB University 52


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Correlation r = 0 Correlation r = – 0,3 Correlation r = 0,5

Correlation r = – 0,7 Correlation r = 0,9 Correlation r = – 0,99


Tim Dept STK - IPB University 53
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot antara jumlah tweet dan


jumlah pengguna Internet per
negara bagian yang tercantum
dalam sensus Conatel 2015 di
Venezuela

Tim Dept STK - IPB University 54


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25

Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook

Tim Dept STK - IPB University 55


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Ada anggapan yang terbentuk bahwa bahwa dunia dibagi menjadi dua kelompok: dunia barat (Eropa Barat dan
Amerika Utara), yang dicirikan oleh angka harapan hidup yang panjang dan keluarga kecil, versus dunia berkembang
(Afrika, Asia, dan Amerika Latin) yang dicirkan dengan angka harapan hidup yang pendek dan keluarga besar.
Perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per wanita) tahun
1962

Terlihat bahwa angka harapan hidup negara-


negara maju (Europe dan Amerika) lebih tinggi
dibandingkan negara-negara berkembang. Terlihat
juga bahwa ada beberapa titik negara berkembang
di Asia dan Oceania juga memiliki angka harapan
hidup yang tinggi. Namun Sebagian besar negara
berkembang memiliki angka harapan hidup yang
rendah

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 56
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012

Terlihat bahwa terjadi peningkatan angka


harapan hidup baik di negara maju maupun di
negara berkembang pada tahun 2012. Di
wilayah Amerika, Asia, Eropa dan Oceania
terlihat bahwa selain angka harapan hidup
meningkat namun jumlah rata-rata anak per
wanita menurun pada tahun 2012. Secara umum
scatter plot di samping menunjukkan hubungan
dua peubah (angka harapan hidup versus
tingkat kesuburan) pada tahun 2012 di beberapa
wilayah memiliki hubungan linier negatif lemah
kecuali wilayah Eropa.

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 57
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot antara rata-rata income per hari dalam dollar


versus angka kematian bayi
Dari scatter di samping, ada hubungan linier positif
yang kuat antar kedua peubah. Selain itu dapat dilihat
juga ada keragaman yang cukup tinggi antar
group/wilayah. Negara-negara dari kawasan yang
sama bisa sangat berbeda dan negara-negara dengan
pendapatan yang sama dapat memiliki tingkat
kelangsungan hidup yang berbeda. Misalnya,
meskipun rata-rata Afrika Sub-Sahara memiliki
tingkat kesehatan dan ekonomi yang lebih buruk,
terdapat keragaman yang cukup tinggi di dalam
kelompok tersebut. Mauritius dan Botswana lebih
baik daripada Angola dan Sierra Leone, dengan
Mauritius sebanding dengan negara-negara Barat.

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 58
Eksplorasi Hubungan Antar Peubah
(LATIHAN)
Pleasant Unpleasant  Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67  Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32  Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47  Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93

Tim Dept STK - IPB University 59


Terima Kasih

Tim Dept STK - IPB University 60


Preface Slide

Tim Dept STK - IPB University 61

Anda mungkin juga menyukai