Anda di halaman 1dari 343

Konsep Dasar

Statistika
ProgramStudi Sarjana Statistika dan Sains Data
DepartemenStatistika - FMIPA
Outline
• Apa dan Mengapa Statistika
• Pengertian Populasi dan Sampel
• Statistika Deskriptif dan Inferensia
• Pengertian Peubah, Jenis Peubah, dan Skala Pengukuran

Referensi :
Agresti A, Franklin C, Kingenberg B. 2018. Statistics: the art and science
of learning from data. Pearson – Harlow, England.
Apa dan Mengapa Statistika
Fakta tentang perlunya statistika
Aktivitas
keseharian
manusia
sejatinya
merupakan
aktivitas
memproduksi
data.
Dalam sebuah institusi
bisa dipastikan bahwa
kegiatan operasionalnya
juga memproduksi data
Suatu negara juga
sudah pasti
memproduksi data
diantaranya
Data kependudukan
Data Ekonomi
Data Sosial
Data Pertanian
Poin Penting
• Data ada di mana-mana
• Data ada di sekitar kita
• Data perlu dimanfaatkan

Data Diolah Bermanfaat


Pemanfaatan Data dalam kehidupan

o Kehidupan manusia tak terlepas dari MASALAH


o Data dimanfaatkan untuk menyelesaikan masalah
o Solusi dari masalah melahirkan kebijakan
o Kebijakan akan tepat sasaran jika berbasis data yang benar
o Alat yang digunakan adalah STATISTIKA
Statistical Problem Solving

Problems Investigation Solution

Data
Masalah
Pengangguran
Masalah
Prestasi Mahasiswa
https://corona.jakarta.go.id/id/data-pemantauan
Diunduh 30 Agustus 2020 20:50
Apa itu Statistika?

(Agresti, Franklin, Klingenberg)


Merancang
Seni
Statistika = + Menganalisis
Ilmu
Menyimpulkan
Dengan kata lain,

Statistika adalah ilmu yg mempelajari seluk- beluk data.


Mengapa Menggunakan Statistika?

Statistical Problem Solving 3 Main Components of


meliputi 4 komponen Statistics:
proses : 1. Design : Stating the goal
1. Merumuskan statistical &/Statistical Question, how
Question to obtain data
Statistics
2. Mengumpulkan data 2. Description : Summarizing
3. Menganalisis Data and Analyzing Data
4. Menginterpretasikan 3. Inference : Making
hasil analisis Data Decisions and Predictions
Statistical Question :
Apakah ada perbedaan hasil penjualan antara Perlu dirumuskan
berjualan secara online di Shopee dengan Tokopedia? bagaimana
mengumpulkan datanya.
Data Penjualan dalam sehari (pcs)

Tokopedia Shopee
4 4
5 7
7 8 Kesimpulan :
8 9 Analisis
10 10 Statistika Berbeda / tidak?
12 10
14 10
16 11
20 12
25 18
Without Data, you are
just another person
with an opinion.
W. Edward Deming
(Data Scientist)
Pengertian Populasi dan Sampel
Populasi Parameter
Keseluruhan Karakteristik numerik
objek/pengamatan yang Parameter
(Ex : Rata-rata, dari populasi
menjadi pusat perhatian Proporsi,Ragam) Misal :
Misal : Rata-rata pengeluaran
seluruh Mahasiswa PPKU
Seluruh Mahasiswa PPKU

Statistik
Data Statistik Karakteristik numerik
(Ex : Rata-rata,
dari sampel
Sampel Proporsi,Ragam
sampel) Misal :
Himpunan bagian dari populasi Rata-rata pengeluaran
Mahasiswa PPKU dari data
(mewakili) sampel missal kelas
Misal : parallel 19
Sebagian Mahasiswa PPKU yang
menjadi objek pengukuran Statistik merupakan penduga
bagi parameter
Statistika Deskriptif dan Inferensia
Statistika Deskriptif
vs
Populasi Statistika Inferensia

Tingkat Keyakinan

Sampel Statistika Inferensia


Mempelajari kaidah-kaidah pengambilan
keputusan statistika dari data yang dimiliki
Deskriptif dengan menggunakan ilmu peluang

Mempelajari teknik-teknik yang berguna


dalam peringkasan data dan pemberian
gambaran umum tentang data yang dimiliki
Statistika Deskriptif

Penyajian Peringkasan
Data Data

Statistika Inferensia
Pengujian
Pendugaan
Hipotesis

Inference is the process of drawing conclusions


or making decisions about a population based
on sample results
Statistika Deskriptif
Tabel
1. Penyajian data Segmen Persentase yang
masyarakat menyukai program
Grafik salah satu TV A (%)
Pelajar SMP/SMA 30
Mahasiswa 70
Pegawai negeri 40
Pegawai swasta 20
Pengusaha 50
Petani 10
Politisi 80
Statistika Deskriptif
2. Peringkasan data
Statistik Ringkasan
Data Min 43
Max 99
82 50 84 43 67 45 71 51 89 89
Rata-rata 71,23
77 74 55 83 65 73 99 53 77 66 Median 72,5
83 56 72 99 65 58 64 88 80 79 Modus 89
Ragam 232,73
Simpangan Baku 15,25
Statistika Inferensia
Pendugaan
Menduga Pendapatan perkapita
penduduk Indonesia menggunakan
data pendapatan sampel

Pengujian Hipotesis
Menguji kebenaran anggapan yang
menyatakan bahwa pendapatan
perkapita penduduk Indonesia
adalah lebih dari Rp 3 juta per
bulan.
Peubah dan Skala Pengukuran
Karakteristik dari objek yang diamati

• Umur
• Jenis Kelamin Peubah-peubah
• Pekerjaan ini memiliki jenis
• Berat Badan dan Skala
Pengukuran
• Tinggi Badan yang berbeda
• Pendidikan
• dll
Skala Pengukuran Peubah
• Umur
• Berat
• Skor
badan
intelegensi
• Tingkat • Suhu
pendidikan
• Jenis
• Skala likert
kelamin Rasio
• Agama
Interval
Ordinal
Nominal
Tipe Peubah berdasarkan Skala Pengukuran
Peubah

Kategorik Numerik

Nominal Ordinal Interval Rasio


Tipe Peubah berdasarkan jenisnya
Variable

Categorical Numerical

Examples:
 Marital Status
 Are you registered to
vote?
Discrete Continuous
 Eye Color
(Defined categories or
groups) Examples: Examples:
 Number of Children  Weight
 Defects per hour  Voltage
(Counted items) (Measured characteristics)
Data dan Metode Pengumpulan Data
Apa itu Data?
• Data merupakan gugus/himpunan hasil pengukuran karakteristik dari
seluruh objek yang menjadi focus penelitian

• Data menurut periode pengukuran dibedakan menjadi:


• Data Cross-section: merupakan kumpulan hasil pengukuran terhadap beberapa
objek data dan periode waktu tertentu.
• Data Time series: merupakan kumpulan hasil pengukuran terhadap suatu objek,
yang dicatat mengikuti urutan waktu.
• Data panel: merupakan kumpulan hasil pengukuran terhadap beberapa objek, yang
dicatat mengikuti urutan waktu.
• Data space-time adalah merupakan hasil pengukuran suatu objek, yang diamati pada
beberapa lokasi dan mengikuti urutan waktu. Struktur data space-time mirip seperti
data panel. Apa bedanya?
Cross-section Data
Terdiri dari beberapa objek data pada suatu waktu tertentu.
Misalnya data penduduk dan pendapatan perkapita tingkat
kabupaten pada tahun 2015.

Kabupaten Jumlah Penduduk Pendapatan per kapita


(juta) (ribu Rp/bulan)
A 1.3 670
B 0.9 750
C 1.1 1.100
D 1.4 830
…. …. ….
Time-series Data
Time-series merupakan data
yang terdiri atas satu objek
tetapi meliputi beberapa
periode waktu yaitu harian,
bulanan, mingguan, tahunan,
dan lain-lain.
Panel Data (Longitudinal data)
Individu waktu Peubah 1 Peubah 2 Peubah 3

Data panel adalah data 1 1


yang menggabungkan 2

antara data time-series dan T
data cross-section. 2 1
Sehingga data panel akan 2
memiliki beberapa objek …
T
dan beberapa periode … 1
waktu. 2

T
n 1
2

T
Data space-time Lokasi waktu Produksi
jagung
Produksi
padi
A 1
2
adalah merupakan hasil …
T
pengukuran suatu B 1
objek, yang diamati 2

pada beberapa lokasi T
…. 1
dan mengikuti urutan 2

waktu. T
Z 1
2

T
Pengumpulan Data

Percobaan/ Survei Administratif


experiment

Data yang diperoleh dari hasil


Data dibangkitkan dengan Data sudah tersedia di pencatatan administrasi suatu
memberikan perlakuan terhadap alam, tinggal dikumpulkan institusi
suatu objek

Misal :
Banyak diterapkan pada Data transaksi perbankan
Sering diterapkan pada penelitian bidang sosial ekonomi /
Data transaksi supermarket
pertanian/IPA/psikologi non IPA

Data ini tergolong Data


Mechanistic
Ketersediaan Data secara Natural

• Data aktivitas manusia yang terekam secara otomatis


• Misalnya :
aktivitas pengguna aplikasi smartphone, browser, media sosial, belanja
online, nonton youtube, dll

aktivitas jalan kaki juga dapat terekam (oleh GMaps, Google Fit, Samsung
Health, dsb)

juga ada aktivitas yang terekam oleh satelit, radar, lalu lintas (oleh CCTV-nya
NTMC Polri),

Dan sebagainya
Big Data
Data sangat besar dan Volume
kompleks, tidak dapat dikelola (Ukuran data sangat besar)
(capture, store, manage,
analyze) dengan software dan
tools pemrograman database
biasa/konvensional
BIG
Variety DATA Velocity
(banyak jenisnya : (Berubah cepat,
Dibutuhkan skill
baru text, gambar, suara) perlu analisis real time)
Dalam analisis data
Penerapan Statistika
Bidang Ekonomi Bidang Bisnis
Bidang Politik Bidang Iklim
Terima Kasih
Preface Slide
STA111 – Statistika dan Analisis Data

Data Understanding:
Deskripsi-Penyajian Data

Program studi Statistika dan Sain Data


Departemen Statistika - FMIPA
Reviu – Tipe Data
Data

Categorical Numerical

Contoh :
 Status Pernikahan
 Memiliki Laptop/PC? (Ya/Tidak)
 Warna Rambu
Discrete Continuous
(Mengkategorikan / mengelompokkan)
Contoh : Contoh :

 Jumlah Laptop yang dimiliki?  Berat Badan


(Menghitung Barang)  Suhu Badan
(Mengukur Karakteristik)

2
Reviu – Skala Pengukuran Peubah
•Umur
•Berat Badan
•Penghasilan
•Suhu Badan
•Pendidikan
•Jenis kelamin
Rasio
•Warna Rambut Interval
Perbandingan antar
Ordinal Pengukuran, ada
NOL MUTLAK
Perbedaan antar
Nominal Mengurutkan
Pengukuran tapi
tidak ada NOL
MUTLAK.
(peringkat, urutan,
Mengkategorikan or scaling)
(tanpa urutan)

Data Kualitatif Data Kuantitatif


Penyajian Data
• Data dalam BENTUK MENTAH biasanya tidak mudah digunakan untuk pengambilan
keputusan.

• Beberapa bentuk Penyajian yang dibutuhkan adalah :


• Tabel
• Grafik / Diagram / Chart
• Tipe Grafik yang digunakan tergantung dari Peubah yang diringkas.
Akbar Rizki, S.Stat, M.Si 4
Outline Tabulasi Satu Peubah Tabel Distribusi Frekuensi

Tabulasi Dua Peubah Cross Table / Tabulasi Silang


Peubah Kategorik
Bar Chart / Diagram Batang

Grafik Pie Chart / Diagram Lingkaran

Diagram Pareto

Tabel Distribusi Frekuensi

Line Chart / Diagram Garis

Histogram
Satu Peubah
Ogive

Peubah Numerik Steam & Leaf Diagram/


Diagram Dahan Daun

AkbarDua
Rizki, S.Stat, M.Si
Peubah Scatter Plot / Diagram Pencar 5
Tabel dan Grafik Peubah Kategorik
(Tables and Graphs for Categorical Variables)
Tabulasi Satu Peubah Tabel Distribusi Frekuensi

Tabulasi Dua Peubah Cross Table / Tabel Kontingensi


Peubah Kategorik
Bar Chart / Diagram Batang

Grafik Pie Chart / Diagram Lingkaran

Diagram Pareto

6
Tabel Distribusi Frekuensi
• Tabel Distribusi Frekuensi meringkas data berdasarkan kategorik (kualitatif)

Contoh :
Dalam Suatu Survei, Mahasiswa baru Kelas X Universitas Y ditanyakan mengenai Kendala yang
dihadapi ketika Kuliah dilaksanakan secara Online. Didapatkan respon sebagai berikut.
RESPONDEN KENDALA
1 Sinyal Tabel Distribusi Frekuensi Kendala Kuliah Online
2 Sinyal Mahasiswa Baru Kelas X Universitas Y
3 Sinyal
4 Kuota KENDALA JUMLAH
5 Device (laptop/hp) Device (laptop/hp) 10
6 Kuota
7 Sinyal Kuota 42
8 Kuota Sinyal 67
9 Kuota
… … Tidak ada 3
… … Website terlalu banyak 1
… …
125 Kuota
Listrik 1
126 Device (laptop/hp) Jarang online 1
Peubahnya berupa Kategori
Diagram Batang dan Diagram Lingkaran
• Diagram Batang dan Diagram Lingkaran charts sering digunakan untuk meringkas data kategorik (kualitatif)
• Tinggi Batang atau Ukuran ‘Potongan Pie’ menunjukkan Frekuensi atau Persentase tiap kategori.
Diagram Batang
Diagram Batang
Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
80

Jumlah Kendala
60
40

KENDALA JUMLAH PERSENTASE 20


Device (laptop/hp) 10 8.0% 0
Device Kuota Sinyal Tidak ada Website Listrik Jarang
Kuota 42 33.6% (laptop/hp) terlalu online
Sinyal 67 53.6% banyak

Tidak ada 3 2.4%


Diagram Lingkaran
Website terlalu banyak 1 0.8% Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
Listrik 1 0.8% Website Listrik Jarang online
Jarang online 1 0.8% terlalu 1% 1%
banyak Tidak ada Device
1% 2% (laptop/hp)
8%
Kuota
33%
Sinyal
54% Persentase
dibulatkan
Diagram Pareto
• Menggambarkan data kategorik, digunakan untuk memisahkan “vital few” dari “trivial many”.
• Diagram batang ditampilkan dari tertinggi ke terendah.
• Polygon Kulumatif ditampilan dalam grafik yang sama.
Diagram Pareto
Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
2
KENDALA JUMLAH KENDALA JUMLAH PERSENTASE
Device (laptop/hp) 10 Sinyal 67 53.6%
Kuota
Sinyal
42
67
1 Kuota
Device (laptop/hp)
42
10
33.6%
8.0%
Tidak ada 3 Tidak ada 3 2.4%
Website terlalu banyak 1 Website terlalu banyak 1 0.8%
Listrik 1 Listrik 1 0.8%
Jarang online 1 Jarang online 1 0.8%

Langkah-Langkah :
1. Urutkan berdasarkan Jumlah Kendala, dari yang terbesar ke yang terkecil.
2. Hitung Persentase setiap kategori.
3. Gambarkan secara Grafis
Cross Tables / Tabulasi Silang
• Cross Tables (atau juga dikenal dengan Tabel Kontingensi) memuat daftar jumlah amatan dari setiap
kombinasi dari nilai dua peubah kategorik.
Jika ada r kategori untuk peubah pertama (baris) dan c kategori untuk peubah kedua (kolom)
maka table tersebut dinamakan r x c cross table.
Contoh :
Dalam Suatu Survei, Mahasiswa baru Kelas X Universitas Y selain ditanyakan mengenai Kendala yang dihadapi
ketika Kuliah dilaksanakan secara Online. Juga ditanyakan mengenai Lokasi mereka berada. Didapatkan respon
sebagai berikut. LOKASI
TOTAL
RESPONDEN KENDALA LOKASI Jawa Kalimantan Papua Sulawesi Sumatera
1 Sinyal Jawa
2 Sinyal Sumatera Device (laptop/hp) 9 1 10
3 Sinyal Jawa
4 Kuota Jawa
Jarang online 1 1
5 Device (laptop/hp) Jawa Kuota 29 1 3 9 42

KENDALA
6 Kuota Sumatera
7 Sinyal Jawa Listrik 1 1
8 Kuota Jawa
9 Kuota Jawa Sinyal 48 1 3 15 67
… … …
… … … Tidak ada 3 3
… … …
125 Kuota Jawa
Website terlalu banyak 1 1
126 Device (laptop/hp) Jawa TOTAL 92 1 1 6 25 125
Tabel dan Grafik Peubah Numerik
(Tables and Graphs for Numerical Variables)
Tabel Distribusi Frekuensi

Line Chart / Diagram Garis

Histogram
Satu Peubah
Ogive
Peubah Numerik Stem & Leaf Diagram /
Diagram Dahan Daun

Dua Peubah Scatter Plot / Diagram Pencar


11
Line Chart / Diagram Garis
• Line chart (Plot Deret Waktu) digunkan untuk menunjukkan nilai-nilai peubah seiring berjalannya
waktu.
• Waktu ditampilkan pada axis horizontal, sedangkan Peubah yang sedang dibahas ditampilkan
pada axis vertikal.

TOTAL KASUS POSITIF COVID KUMULATIF


INDONESIA
200 000
174 796
180 000
160 000
140 000
120 000 108 376

100 000
80 000 56 385
60 000
40 000 26 473
10 118
20 000 1 528
0
Maret April Mei Juni Juli Agustus
Tabel Distribusi Frekuensi
• Distribusi Frekuensi adalah Daftar atau Tabel yang berisi class groupings (kategori atau jangkauan kelas)
dan frekuensi kemunculan data di kategori atau kelas tersebut.
• Distribusi Frekuensi adalah salah satu cara meringkas data, data diringkas ke dalam bentuk yang lebih
berguna sehingga memudahkan untuk interpretasi visual data lebih cepat.
• Dalam pembuatan Distribusi Frekuensi dikenal istilah Class Interval dan Class Boundaries, dimana
• Setiap Kelas selalu memiliki lebar (Class Interval) yang sama.
• Class Interval dihitung dengan membagi selisih nilai maksimum dan nilai minimum dengan jumlah
kelas yang diinginkan.
max − 𝑚𝑖𝑛
𝑤 = 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 𝑤𝑖𝑑𝑡ℎ =
𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑙𝑎𝑠 𝑦𝑎𝑛𝑔 𝑑𝑖𝑖𝑛𝑔𝑖𝑛𝑘𝑎𝑛
• Jumlah kelas sebaiknya lebih dari 5 namun tidak lebih dari 10-15 atau bisa juga menggunakan
Sturgis’s Rule dimana jumlah kelas = 3.3 log (n) + 1, dimana n adalah jumlah data.
• Class Interval tidak pernah tumpang tindih.
• Class Interval dibulatkan sehingga memudahkan pembuatan Class interval.
Tabel Distribusi Frekuensi(lanjutan)
Contoh :
Seorang pengamat cuaca mengukur suhu harian selama dua puluh hari ketika musim dingin.
Catatan : Suhu dicatat dalam Fahrenheit.

Data yang dicatat : 24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Langkah :
1. Urutkan data dari kecil ke besar : 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
2. Hitung Jangkauan Data = max – min = 58 – 12 = 46
3. Pilih jumlah kelas = 5 (biasanya antara 5-15). Sturgis’s Rule = 3.3 log (20) + 1 = 5,29
4. Hitung Lebar Kelas = 46 / 5 = 9,2  10 (dibulatkan ke atas)
5. Tentukan Batas Kelas = 10≤x<20, 20≤x<30, 30≤x<40, 40≤x<50, 50≤x<60.
6. Tempatkan data pada kelasnya masing-masing.
Tabel Distribusi Frekuensi(lanjutan)
DATA INTERVAL
12
13 10≤x<20 Tabel Distribusi Frekuensi
17 Suhu selama 20 hari di Musim Dingin (oF)
21
24 FREKUENSI
INTERVAL FREKUENSI PERSENTASE
24
20≤x<30 RELATIF
26
10≤x<20 3 0.15 15
27
27 20≤x<30 6 0.30 30
30
32 30≤x<40 5 0.25 25
35 30≤x<40 40≤x<50 4 0.20 20
37
38 50≤x<60 2 0.10 10
41
43 Total 20 1.00 100
40≤x<50
44
46
53
50≤x<60
58
Histogram
• Grafik dari Tabel Distribusi Frekuensi disebut histogram.
• Axis Horizontal menampilkan garis akhir interval (interval endpoints)
• Axis Vertikal bisa berupa frekuensi, frekuensi relative, persentase.
• Batang dengan tinggi yang sesuai digunakan untuk mewakili jumlah amatan yang ada di setiap
kelas.
Histogram: Daily High Temperature
INTERVAL FREKUENSI
7 6 Tidak ada
10≤x<20 3 celah antar
6 5 Batang
20≤x<30 6 5 4

Frequency
30≤x<40 5 4 3
40≤x<50 4 3 2
2
50≤x<60 2
1 0 0
Total 20 0
0 0 10 10 20 2030 30
40 50
40 6050 70 60
Temperature in Degrees
Pertanyaan – Pertanyaan Pengelompokan Data
3.5

1. Berapa lebar kelas (berapa banyak kelas)? 3


2.5

Frequency
a. Banyak Kelas (Interval Kelas yang Sempit) 2

• dapat menghasilkan distribusi yang sangat tidak rata dengan celah dari kelas 1.5
1
kosong 0.5
• Dapat memberikan indikasi yang buruk tentang variasi frekuensi antar kelas 0

4
8
12
16
20
24
28
32
36
40
44
48
52
56
60
More
Temperature
b. Sedikit Kelas (Interval Kelas yang Lebar)
• Dapat menghilangkan keragaman 12

• Dapat mengaburkan pola variasi yang penting


10

Frequency
8

6
4
2. Bagaimana garis akhir dari interval (endpoints of the 2

intervals) ditentukan? 0

• Sering terjawab dengan trial and error, tergantung pada penilaian 0 30


Temperature
60 More

pengguna.
• Tujuannya adalah untuk menciptakan distribusi yang tidak terlalu
"bergerigi" atau terlalu “rata”
• Tujuannya adalah untuk menunjukkan pola variasi dalam data dengan
tepat
The Ogive
• Menggambarkan Frekuensi Kumulatif.
FREKUENSI PERSENTASE
INTERVAL FREKUENSI PERSENTASE
KUMULATIF KUMULATIF
10≤x<20 3 15 3 15
20≤x<30 6 30 9 45
30≤x<40 5 25 14 70
Ogive: Daily High Temperature
40≤x<50 4 20 18 90
50≤x<60 2 10 20 100 100

Cumulative Percentage
Total 20 100 100 100
80
60
INTERVAL UPPER INTERVAL ENDPOINT PERSENTASE KUMULATIF
40
10<x 10 0
20
10≤x<20 20 15
20≤x<30 30 45 0
10 20 30 40 50 60
30≤x<40 40 70
40≤x<50 50 90
50≤x<60 60 100
Total 20 100
Distribusi Data
Negatively Skewed Distribution Symmetric Distribution Positively Skewed Distribution

12 10 12
9
10 8 10

8 7 8
Frequency

Frequency

Frequency
6
6 5 6
4
4 3 4
2 2
2
1
0 0 0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9

Distribusi miring negatif (miring Bentuk distribusi dikatakan Distribusi miring positif (miring
ke kiri) memiliki ekor yang simetris jika pengamatan ke kanan) memiliki ekor yang
memanjang ke kiri ke arah nilai seimbang, atau merata, di sekitar memanjang ke kanan ke arah
negatif. pusat. nilai positif.

Catatan : Akan dipelajari lebih lanjut di Pertemuan ke 3.


Stem-and-Leaf Diagram / Diagram Dahan Daun
Sebuah cara mudah untuk melihat sebaran data secara detil suatu set data.
Langkah :
Pisahkan seri data yang diurutkan menjadi digit terdepan (batang) dan digit berikutnya (daun)
Contoh : Data yang telah diurutkan : 21, 24, 24, 26, 27, 27, 30, 32, 38, 41
DAHAN DAUN
21 ditampilkan sebagai 2 1
38 ditampilkan sebagai 3 8

Diagram Dahan Daun secara Lengkap


N = 10 Leaf Unit : 1.0
DAHAN DAUN
(6) 2 1 4 4 6 7 7
4 3 0 2 8
1 4 1
Stem-and-Leaf Diagram / Diagram Dahan Daun
(lanjutan)
Menggunakan Unit Dahan yang lain
Menggunakan angka ratusan sebagai dahan, maka bulatkan angka puluhan untuk membentuk daun.
Contoh : 613, 632, 658, 717, 722, 750, 776, 827, 841, 859, 863, 891, 894, 906, 928, 933, 955, 982, 1034,
1047,1056, 1140, 1169, 1224 DAHAN DAUN
613 ditampilkan sebagai 6 1
776 ditampilkan sebagai 7 8
1224 ditampilkan sebagai 12 2
Diagram Dahan Daun secara Lengkap N = 24 Leaf Unit : 10
DAHAN DAUN
3 6 136
7 7 2 2 58
(6) 8 3 4 66 9 9

11 9 1 3 36 8
6 10 356
3 11 47
1 12 2
Scatter Plot / Diagram Pencar
• Scatter Diagrams digunakan untuk observasi berpasangan yang diambil dari dua peubah numerik.
Peubah yang satu ditaruh di axis vertikal dan yang lain di axis horizontal.

Volume per Hari Biaya per Hari Diagram Pencar


Volume (per hari) dan Biaya (per hari)
23 125
250
26 140
200
29 146

Biaya per Hari


33 160 150

38 167 100

42 170
50
50 188
0
55 195 0 10 20 30 40 50 60 70
Volume Per Hari
60 200
Pengayaan
(Enrichment)

23
Membuat Grafik Data Kategorik Multivariate
Pada kenyataannya, seringkali yang ingin disajikan terdiri dari banyak peubah, sehingga penyajian data
bisa dikombinasikan.
Side by side bar charts Side by side charts
Investment 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Investor A Investor B Investor C Total
Category East 20.4 27.4 59 20.4
Stocks 46.5 55.0 27.5 129.0 West 30.6 38.6 34.6 31.6
Bonds 32.0 44.0 19.0 95.0
CD 15.5 20.0 13.5 49.0
North 45.9 46.9 45 43.9
Savings 16.0 28.0 7.0 51.0
Total 110.0 147.0 67.0 324.0 60

Invesment 50
7,0 40
Savings 28,0
16,0 East
13,5 30 West
CD 20,0
15,5
19,0 North
Bonds 44,0 20
32,0
27,5
Stocks 55,0 10
46,5
0,0 10,0 20,0 30,0 40,0 50,0 60,0 0
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Investor C Investor B Investor A
Scatter Diagrams di Microsoft Excel
Langkah :
1 Blok Dua Peubah beserta Datanya yang ingin
dibuat Scatter Plot.

2 Pilih Menu “INSERT”

Diagram Pencar
Volume (per hari) dan Biaya (per hari)
250

200

Biaya per Hari


150

3 Pada SubMenu “CHART”, 100

Pilih “Insert Scatter (X,Y) or 50


Buble Chart” 0
0 10 20 30 40 50 60 70

4 Pilih “SCATTER” Volume Per Hari

5 Maka anda bisa mendapat “Scatter


Plot/Diagram Pencar”
Histograms in Excel
Untuk membuat Histogram pada Ms Excel, anda perlu mengaktifkan Add In “Data Analysis”.

Langkah Aktivasi Add-in:

1 Klik “FILE”

2 Klik “OPTION”
Histograms in Excel
(lanjutan)
Langkah Aktivasi Add-in:

3 Klik “Add-ins”

4 Klik “Go…”
Histograms in Excel
(lanjutan)
Langkah Aktivasi Add-in:

5 Klik sehingga muncul ✔ menu “Analysis


Toolpak”

6 Klik “OK”

7 Maka pada Menu “Data”

8 Akan muncul Sub Menu “Analysis – Data


Analysis”
Histograms in Excel
(lanjutan)
Langkah Membuat Histogtam
Jika Anda, sudah klik Data Analysis sebagaimana
1 ditunjukkan sebelumnya, Anda bisa memilih Histogram
lalu Klik OK.

Di sini Anda bisa memasukan Data yang hendak dibuat


2 Histogram.

Di sini Anda bisa memasukan BIN Range dari Histogram.


3

4 Klik sehingga, muncul ✔ pada Chart Output.


Histograms in Excel
(lanjutan)

Histogram Langkah Membuat Histogtam


8
Frequency

6
4
2 Frequency
5 Maka akan muncul bentuk default.
0
10 20 30 40 50 60 More
Bin

Histogram
8

Frequency
4
Frequency
2

0
10 20 30 40 50 60 More
Bin

6 Jika Gap Width pada Format Data Series dibuat = 0, maka


akan muncul Histogram sebagai berikut.
Terima Kasih

Tim Editor: I Made Sumertajaya-Yeni Anggraini-Akbar Rizki


31
Preface Slide

Akbar Rizki, S.Stat, M.Si 32


Statistika dan Analisis Data (STA111)

Data Understanding:
Deskripsi-Peringkasan Data

Program Studi Statistika dan Sain Data


Departemen Statistika - FMIPA
Outline
Ukuran Pemusatan Data

Ukuran Penyebaran Data

Boxplot

Akbar Rizki, S.Stat, M.Si 2


Deskripsi Data secara Numerik

Ukuran Pemusatan Ukuran Penyebaran

Arithmetic Mean Range

Weighted Mean Interquartile Range

Median Variance

Quartil Standard Deviation

Mode Coefficient of Variation

Covariance
3
Ukuran Pemusatan Data
(Measure of Central Tendency)

4
Ukuran Pemusatan

Mean Median Mode


n

x i
x i 1
n
Rata-rata Aritmetika Titik tengah daya yang Nilai yang paling
sudah diurutkan sering muncul.

5
Mean
• Rata-Rata Aritmetika (mean) adalah Ukuran Pemusatan yang paling
umum digunakan.
• merupakan ukuran yang menimbang data menjadi dua kelompok
data yang memiliki massa yang sama
• Untuk POPULASI sejumlah N :
N

x x1  x 2    x N
i Nilai-Nilai Amatan pada Populasi
μ 
i1
Jumlah Populasi
N N
• Untuk SAMPEL
n
sejumlah n :
x i
x1  x 2    x n Nilai-Nilai Amatan pada Sampel
x i1

n n Jumlah Sampel 6
Mean (continued)
• Ukuran Pemusatan yang Paling Umum digunakan.
• Mean = Jumlah Total dibagi dengan banyaknya data.
• Dipengaruhi oleh Nilai Ekstrim (Outliers atau Pencilan)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mean = 3 Mean = 4

1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5

7
Weighted Mean
(Mean Terboboti)

• Mean terboboti dari suatu data adalah

w x i i
w1x1  w 2 x 2    w n x n
x i1

w  wi
• Dimana wi bobot dari amatan ith

• Ketika data sudah dikelompokkan dalam sebanyak n kelompok, dengan memberi


bobot nilai wi pada kelompok ith

8
Median
• Dalam data yang urut, Median adalah nilai yang tepat di tengah (50% data di
atasnya, 50% data di bawahnya)
Pencilan

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Median = 3 Median = 3

• Tidak dipengaruhi oleh nilai pencilan (outliers)

9
Median(continued)
• Langkah Teknis Menghitung Median :
• Urutkan data dari kecil ke besar
𝑛+1 𝑛+1
• Cari posisi median (𝑛𝑚𝑒𝑑 = ) Catatan : 2 bukan NILAI dari Median,
2 hanya menunjukkan POSISI Median
pada data yang telah diurutkan.
• Jika 𝑛𝑚𝑒𝑑 bulat, maka 𝑀𝑒𝑑𝑖𝑎𝑛 = 𝑋 𝑛+1
2
𝑋𝑛 +𝑋𝑛
2 +1
• Jika 𝑛𝑚𝑒𝑑 pecahan, maka 𝑀𝑒𝑑𝑖𝑎𝑛 = 2
2
(rata-rata dua pengamatan yang berada sebelum dan setelah posisi median)

10
Quartiles (Kuartil)
• Kuartil membagi data yang telah diurutkan menjadi 4 bagian, dengan jumlah data
per segmen sama.
25% 25% 25% 25%

Q1 Q2 Q3

 Kuartil Pertama, Q1, nilai dimana 25% data yang diamati lebih
kecil dan 75% data lebih besar.
 Q2 sama dengan Median (50% lebih kecil, 50% lebih besar)
 Hanya 25% data yang diamati lebih besar dari Q3.

11
Quartiles (Kuartil)
(continued)
Langkah menghitung kuartil
Metode Belah dua Metode Interpolasi
• Urutkan data dari kecil ke besar • Urutkan data dari kecil ke besar
• Cari posisi kuartil • Cari posisi kuartil
• nQ2=(n+1)/2 • nq1=(1/4)(n+1)
• nQ1=(nQ2*+1)/2= nQ3, nQ2* posisi • nq2=(2/4)(n+1)
kuartil dua terpangkas (pecahan • nq3=(3/4)(n+1)
dibuang)
• Nilai kuartil dihitung sebagai berikut:
• Nilai kuartil 2 ditentukan sama • Xqi=Xa,i + hi (Xb,i-Xa,i)
seperti mencari nilai median. Kuartil
• Xa,i = pengamatan sebelum posisi kuartil ke-
1 dan 3 prinsipnya sama seperti i, Xb,i = pengamatan setelah posisi kuartil ke-
median tapi kuartil 1 dihitung dari i dan hi adalah nilai pecahan dari posisi
kiri, sedangkan kuartil 3 dihitung kuartil
dari kanan.

12
Quartiles (Kuartil)
(continued)

 Contoh : Temukan Q1
Contoh Data yang telah diurutkan : 11 12 13 16 16 17 18 21 22

(n = 9)
Q1 = terletak pada 0.25(9+1) = 2.5 position pada data
yang telah diurutkan. Jadi gunakan nilai di tengah-tengah
antara nilai kedua dan nilai ketiga,

jadi Q1 = 12.5

13
Mode
• Ukuran Pemusatan Data yang menunjukkan nilai yang paling sering
muncul.
• Tidak dipengaruhi oleh Nilai Ekstrim (outlier atau pencilan)
• Dapat digunakan pada data numerik maupun data kategorik.
• Mungkin ada data tanpa Mode (Modus). Mungkin juga ada beberapa Mode.

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Tidak Ada Mode Mode = 4 Mode = 4 dan 8


14
Contoh
• Berikut adalah harga 5 rumah disebuah bukit di tepi pantai

Harga Rumah
Rp 2.000.000.000
Rp 500.000.000
Rp 300.000.000
Rp 100.000.000
Rp 100.000.000

15
Contoh(continued)
• Berikut adalah harga 5 rumah disebuah bukit di tepi pantai

• Mean : Rp 3.000.000.000/5
Harga Rumah
Rp 2.000.000.000 = Rp 600.000.000
Rp 500.000.000
Rp 300.000.000
Rp 100.000.000 • Median : Nilai Tengah dari data yang diurutkan
Rp 100.000.000
TOTAL = Rp 3.000.000.000
= Rp 300.000.000

• Mode : Nilai yang paling sering muncul


= Rp 100.000.000
16
Manakah Ukuran Pemusatan yang terbaik?

• Mean secara umum digunakan, kecuali ada nilai ekstrim


(outlier atau pencilan) ada di data tersebut.
• Jika ada nilai ekstrim, maka Median yang digunakan karena
Median tidak sensitif terhadap nilai pencilan.

17
Kaitan Bentuk Sebaran dengan Ukuran Pemusatan

18
Mean = Median = Mode
Ukuran Penyebaran Data
(Measure of Variability)

19
Ukuran Penyebaran Data
Variation

Range Interquartile Variance Standard Coefficient of


Range Deviation Variation

 Ukuran Penyebaran Data


memberikan informasi tentang
sebaran atau keragaman nilai-nilai
suatu data.

Ukuran Pemusatan Sama,


Namun Ukuran Penyebaran berbeda20
Range (Jangkauan)
• Ukuran Penyebaran Data paling sederhana
• Perbedaan antara data amatan paling besar dan paling kecil :

Range = Xlargest – Xsmallest

Contoh :

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Range = 14 - 1 = 13
21
Kelemahan Range (Jangkauan)
• Tidak memperhatikan pola distribusi data

7 8 9 10 11 12 7 8 9 10 11 12
Range = 12 - 7 = 5 Range = 12 - 7 = 5

• Sensitif dengan Pencilan (Outliers)


1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5

Range = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120

Range = 120 - 1 = 119


22
Interquartile Range
(Jangkauan InterKuartil)

• Dapat mengeliminasi masalah akibat Outlier (Pencilan)


• Eliminasi data amatan atas dan bawah, hanya memperhitungkan 50%
data yang ada di tengah.
• Interquartile range = 3rd quartile – 1st quartile
IQR = Q3 – Q1

23
Interquartile Range
(Jangkauan InterKuartil)
(continued)

Contoh :
X Median X
minimum Q1 Q3 maximum
(Q2)
25% 25% 25% 25%

12 30 45 57 70

InterQuartile Range
= 57 – 30
= 27

24
Population Variance
(Ragam Populasi)

• Rata-rata dari kuadrat jarak antara nilai dan Mean

• Population variance:

Dimana μ = population mean


N = population size
xi = ith value of the variable x

25
Sample Variance
(Ragam Contoh)

• Rata-rata (pendekatan) dari kuadrat jarak antara nilai amatan dan


Mean
n
• Sample variance:
 (x  x) i
2

s 
2 i1
n -1
Dimana X = arithmetic mean
n = sample size
Xi = ith value of the variable X
Akbar Rizki, S.Stat, M.Si 26
Population Standard Deviasi
(Simpangan Baku Populasi)

• Ukuran Penyebaran Data yang paling sering digunakan


• Menunjukkan keragaman terhadap Mean.
• Memiliki satuan yang sama dengan data awal.

• Population standard deviation :

27
Sample Standard Deviasi
(Simpangan Baku Contoh)

• Ukuran Penyebaran Data yang paling sering digunakan


• Menunjukkan keragaman terhadap Mean.
• Memiliki satuan yang sama dengan data awal.

• Sample standard deviation:


n

 (x  x)
i
2

S i1
n -1
28
Contoh Perhitungan
Simpangan Baku Contoh
Sample
Data (xi) : 10 12 14 15 17 18 18 24

n=8 Mean = 𝑥 = 16

(10  X)2  (12  x)2  (14  x)2    (24  x)2


s
n 1

(10  16) 2  (12  16) 2  (14  16) 2    (24  16) 2



8 1

126 Ukuran Rata-rata Sebaran data disekitar


  4.2426 Mean.
7
29
Mengukur Keragaman

Small standard deviation

Large standard deviation

30
Membandingkan Simpangan Baku
Data A
Mean = 15.5

11 12 13 14 15 16 17 18 19 20 21
s = 3.338

Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.926

Data C
Mean = 15.5

11 12 13 14 15 16 17 18 19 20 21 s = 4.570

31
Kelebihan Ragam dan Simpangan Baku
• Tiap nilai pada data digunakan dalam perhitungan

• Nilai yang jauh dari Mean diberikan bobot yang lebih.


(karena selisih dari Mean dikuadratkan)

32
The Empirical Rule

• Jika Data Menyebar Normal, maka :

68% 95% 99.7%

μ μ μ
μ  1σ μ  2σ μ  3σ
• ada 68% data di antara 𝜇 ± 𝜎
• ada 95% data di antara 𝜇 ± 2𝜎
• Ada 99,7% data di antara 𝜇 ± 3𝜎
33
Coefficient of Variation
• Mengukur Variasi Relatif antara Ragam terhadap Mean
• Dalam bentuk Persentase (%)
• Dapat digunakan untuk membandingkan 2 atau lebih set data yang
diukur dalam satuan yang berbeda.

 s
CV     100%
x 

34
Membandingkan
Coefficient of Variation

• Saham A:
• Mean Harga tahun Lalu = $50
• Simpangan Baku = $5
s $5
CVA    100%  100%  10% Kedua Saham memiliki
x $50
Simpangan Baku yang
• Stock B: sama, namun saham B
memiliki fluktuasi
• Mean Harga tahun Lalu = $100 relative terhadap pusat
• Simpangan Baku = $5 data, yang lebih rendah.

s $5
CVB    100%  100%  5%
x $100
35
Covariance
• Covariance mengukur kekuatan hubungan liniear diantara dua peubah
• Covariance Populasi:
N

 (x  i x )(y i   y )
Cov (x , y)   xy  i1
N
• Covariance Contoh:
n

 (x i  x)(y i  y)
Cov (x , y)  s xy  i1
n 1

• Hanya mengukur kekuatan hubungan. Tidak mengindikasikan hubungan sebab


akibat.
36
Interpretasi Covariance

• Covariance diantara dua peubah:


Cov(x,y) > 0  x dan y cenderung bergerak ke arah yang sama

Cov(x,y) < 0  x dan y cenderung bergerak ke arah berlawanan

Cov(x,y) = 0 x dan y saling bebas

37
Aproksimasi untuk Data Berkelompok
Suppose a data set contains values m 1, m2, . . ., mk, occurring with frequencies f 1, f2, .
. . fK
• Untuk Population dengan N amatan
K K

 fimi i i
f (m  μ) 2
where
K
N   fi
μ i1
σ 
2 i1 i1

N N
• Untuk Sample dengan n amatan
K

i i
K

 fm  2
f (m x) K
i i where n   fi
x i 1
s 
2 i1
i1

n n 1 38
Terima Kasih

Tim Editor: I Made Sumertajaya-Yeni Anggraini-Akbar Rizki


39
Preface Slide

Akbar Rizki, S.Stat, M.Si 40


STA111 – Statistika dan Analisis Data

Data Understanding:
Explorasi Data
(Kualitas dan Pola Sebaran Data

Program Studi Statistika dan Sain Data


Departemen Statistika
Outline:
Apa itu Eksplorasi Data?

Eksplorasi Kualitas Data Pertemuan minggu ke-4

Eksplorasi Pola Sebaran Data

Eksplorasi Perbandingan Antar Grup


Pertemuan minggu ke-5
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 2


Tim Dept STK - IPB University 3
Apa itu Eksplorasi Data?
(What is Data Exploration?)

Tim Dept STK - IPB University 4


Explorasi Data
“The best thing about being a statistician is that you get to play in
everyone’s backyard.” – John Tukey (1915-2000)
Pada 1960-an, John Tukey dari Universitas Princeton prihatin bahwa Para Statistisi
terlalu menekankan pada analisis data yang kompleks dan mengabaikan cara yang
lebih sederhana untuk memeriksa dan belajar dari data. Tukey mengembangkan
metode deskriptif baru, dengan judul Exploratory Data Analysis (EDA).

 Eksplorasi data adalah langkah awal sebelum analisis data dilakukan.


 Eksplorasi data dilakukan untuk lebih memahami karakteristik dari data.
 Eksplorasi data dilakukan dengan memvisualisasikan data.
 Penyajian data dalam bentuk tabel dan angka memang cukup bagus, tetapi akan sulit untuk
memahami tren dan polanya.
 Komunikasi informasi tersebut akan jauh lebih mudah dalam bentuk grafik, chart, atau format
visual lainnya.

Tim Dept STK - IPB University 5


Boxplot
(Diagram Kotak Garis)
Melihat ukuran penyebaran dan ukuran pemusatan
data.
Melihat adanya data pencilan.
Sebagai alat pembandingan sebaran dua kelompok
data atau lebih.
LANGKAH TEKNIS Untuk lebih memahami Boxplot, bisa dilihat
• Hitung Video berikut (link ada di deskripsi dan komentar):
• Statistik lima serangkai : Min, Q1, Q2, Q3, Max
• Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR)
1. Penjelasan Median (Q2) :
• Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) https://youtu.be/DhxHGzI-PLE?t=294
• Identifikasi data 2. Penjelasan Q1, Q2, Q3 :
• Jika data < PDB atau data > PDA maka data dikatakan memiliki Pencilan https://youtu.be/DhxHGzI-PLE?t=394
• Gambar 3. Penjelasan IQR : https://youtu.be/2yih-
• Kotak dengan batas Q1 dan Q3
• Jika Tidak ada Pencilan, maka Tarik garis dari Q1 sampai data terkecil dan 1iOfGw?t=130
tarik garis dari Q3 sampai data terbesar 4. Penjelasan mengenai Boxplot :
• Jika ada Pencilan Tarik garis Q1 dan atau Q3 sampai data sebelum pencilan
• Pencilan digambarkan dengan asterik https://youtu.be/vTwscU1nESI 6
Tim Dept STK - IPB University
Boxplot
(lanjutan)

2 Langkah membuat Boxplot di Ms. Excel :


1. Pilih seluruh data yang ingin dibuat Boxplot.

4 3 2.
3.
Pilih Menu “Insert”.
Klik Panah Kecil untuk “See All Charts”
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.

7
5 6
Tim Dept STK - IPB University 7
Boxplot
(lanjutan)

Tim Dept STK - IPB University 8


Histogram
Melihat ukuran penyebaran dan
ukuran pemusatan data
Melihat adanya data outlier
Mendeteksi ada bimodus/tidak

Untuk lebih memahami Histogram, bisa dilihat


Video berikut (link ada di deskripsi dan komentar):
1. Tabel Distribusi Frekuensi :
https://youtu.be/t2KaSBYwanw?t=70
2. Histogram :
https://youtu.be/t2KaSBYwanw?t=258

Tim Dept STK - IPB University 9


Histogram
(lanjutan)

2 Langkah membuat Histogram di Ms. Excel :


1. Pilih seluruh data yang ingin dibuat Histogram.
3 2. Pilih Menu “Insert”.

4 3.
4.
Klik Panah Kecil untuk “See All Charts”
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.

7
5 6
Tim Dept STK - IPB University 10
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)

60 15; 60
13; 58
Sales Revenue

14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60

Tim Dept STK - IPB University 11


Scatter Plot
(lanjutan)

2 Langkah membuat Scatter Plot di Ms. Excel :

3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
Pilih Menu “Insert”.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.

Y
70
60
50
40
5
30
20
10

Tim Dept STK - IPB University


0
0 2 4 6 8 10 12 14
12
16
Eksplorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 13


Explorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)
 Nilai ekstrem (atau dikenal sebagai 'pencilan’ (outlier))
adalah titik data yang tersebar di ekor distribusi suatu
data
 Nilai-nilai ekstrim tersebut akan memengaruhi analisis
statistik
 Bagaimana cara mendeteksi nilai ekstrem menggunakan
eksplorasi data?  Boxplot, Histogram, Scatter Plot

Tim Dept STK - IPB University 14


Boxplot
(Contoh Manual Boxplot untuk mendeteksi Nilai Ekstrem)
Cereal Sodium Data.
Sebanyak 20 macam sereal diukur kandungan Sodium (mg)
didalamnya, dan didapat data (yang sudah diurutkan) sebagai
berikut : 0, 50, 70, 100, 130, 140, 140, 150, 160, 180, 180, 180,
190, 200, 200, 210, 210, 220, 290, 340

Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎

Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Tim Dept STK - IPB University 15
Boxplot
(Contoh Visual Boxplot untuk mendeteksi Nilai Ekstrem)

Perhatikan contoh berikut ini :


 Gambar boxplot ini menampilkan
profil pelanggan dan menemukan
bahwa pendapatan tahunan rata-rata
pelanggan adalah $ 0,8 juta.
 Namun, ada dua pelanggan yang
memiliki pendapatan tahunan $ 4
dan $ 4,2 juta.
 Pendapatan tahunan kedua
pelanggan ini jauh lebih tinggi
daripada populasi lainnya
Pencilan (Outlier).

Tim Dept STK - IPB University 16


Boxplot
(Contoh Visual Boxplot untuk mendeteksi Nilai Ekstrem)

Hasil Quiz 1
(26/09/2020) kelas SS09

Tim Dept STK - IPB University 17


Histogram
(Contoh Visual Histogram untuk mendeteksi Nilai Ekstrem)

NILAI EKSTREM NILAI EKSTREM KAH?

Tim Dept STK - IPB University 18


Histogram with Boxplot
Pencilan diidentifikasi sebagai nilai terbesar
dalam kumpulan data, 1441, dan muncul
sebagai lingkaran di sebelah kanan boxplot
maupun histogram.

 Pencilan harus diselidiki dengan hati-hati.


 Seringkali pencilan berisi informasi berharga
tentang proses yang sedang diselidiki atau proses
pengumpulan dan pencatatan data.
 Sebelum mempertimbangkan kemungkinan
penghapusan pencilan dari data, terlebih dahulu
harus dicoba untuk dipahami mengapa pencilan
tersebut muncul dan apakah kemungkinan nilai
serupa akan terus muncul.

Tim Dept STK - IPB University 19


Histogram with Boxplot
(Contoh Visual Histogram untuk mendeteksi Nilai Ekstrem)

Dengan
Nilai Ekstrem

Ketika Nilai
Ekstrem pada data
dibuang

Tim Dept STK - IPB University 20


Scatter Plot
(Contoh Scatter Plot untuk mendeteksi Nilai Ekstrem)

Scatter plot disamping menyajikan data untuk


siswa dalam perjalanan backpacking. (Setiap poin
mewakili seorang siswa.)
Perhatikan bagaimana dua titik yang berwarna
merah dimana posisinya jauh dari data lainnya.
Kedua titik tersebut diberi label Brad dan
Sharon, yang merupakan nama siswa yang
mereka wakili.
Sharon bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih berat.
Brad bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih ringan.
Tim Dept STK - IPB University 21
Scatter Plot
(Contoh Scatter Plot untuk mendeteksi Nilai Ekstrem)

 Pencilan dapat terdiri dari dua jenis: Univariat dan Multivariat


 Misalkan kita memahami hubungan antara tinggi dan berat.
 Dari kedua boxplot untuk tinggi dan berat badan, tidak terlihat adanya pencilan.
 Namun ketika kedua peubah divisualisasikan dengan menggunakan Scatter plot, terlihat adanya
pencilan.
 Dua nilai di bawah dan satu di atas rata-rata dalam segmen berat dan tinggi tertentu.
Tim Dept STK - IPB University 22
Scatter Plot
(Contoh Scatter Plot untuk mendeteksi Nilai Ekstrem)
120

100

80
Grade

60

40

20 Scatter plot nilai quiz vs lama waktu


pengerjaan
0
0 5 10 15 20 25 30 35
time

Tim Dept STK - IPB University 23


Eksplorasi Pola Sebaran Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 24


Eksplorasi Pola Sebaran Data
(Histogram)

Histogram adalah salah satu alat yang sering


digunakan untuk melihat distribusi dari suatu
data

Yang perlu dicermati:


1. Apakah data mengumpul atau berpencar,
atau ada pengamatan yang memencil?
2. Apakah ada satu puncak (unimodal) atau ada
dua puncak (bimodal)?
3. Bentuk sebaran data  simetrik atau
menjulur (skewed)

Tim Dept STK - IPB University 25


Eksplorasi Pola Sebaran Data
(Histogram – Unimodal dan Bimodal)

Tim Dept STK - IPB University 26


Eksplorasi Pola Sebaran Data
(Pola Sebaran Data)
Relatif sedikit orang Relatif sedikit
meninggal di usia
Banyak orang kaya, di ekor
muda, di ekor kiri kanan panjang.
panjang. Pengamatan di sini

Life Span (Masa Hidup) IQ Income (Pendapatan)


menjulur ke kiri. menyebar Simetrik menjulur ke kanan.

Tim Dept STK - IPB University 27


Eksplorasi Pola Sebaran Data
(Histogram – Pola Sebaran Data)

Pada histogram disamping, dapat  Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan  Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri  (Histogram of % Fat)
Distribusinya kira-kira simetris dan  Sementara untuk distribusi yang menjulur ke kiri sebaliknya 
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
Tim Dept STK - IPB University 28
Eksplorasi Pola Sebaran Data
(Histogram)

 Apakah ada satu atau dua


puncak?
 Apakah simetris atau
menjulur?
 Apakah ada nilai eksrem?

Tim Dept STK - IPB University 29


Eksplorasi Pola Sebaran Data
(Histogram)

Infectious disease “novel corona virus disease


(COVID-19)” data set of different states and union
territories (UTs) in India.

Histogram disamping menampilkan histogram dari


1. total kasus COVID-19,
2. total kasus COVID-19 yang sembuh dan
3. Total kasus COVID-19 yang meninggal
di India

 Apakah ada satu atau dua puncak?


https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/  Apakah simetris atau menjulur?
 Apakah ada nilai eksrem?

Tim Dept STK - IPB University 30


Terima Kasih

Tim Editor: I Made Sumertajaya-Yeni Anggraini-Akbar Rizki


Tim Dept STK - IPB University 31
Preface Slide

Tim Dept STK - IPB University 32


STA111 – Statistika dan Analisis Data

Data Understanding:
Explorasi Data
(Hubungan antar peubah dan
perbandingan antar grup)

Program Studi Statistika dan Sain Data


Departemen Statistika
Outline:
Apa itu Eksplorasi Data?

Eksplorasi Kualitas Data Pertemuan minggu ke-4

Eksplorasi Pola Sebaran Data

Eksplorasi Perbandingan Antar Grup


Pertemuan minggu ke-5
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 2


Tim Dept STK - IPB University 3
Eksplorasi Perbandingan Antar Grup
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 4


Eksplorasi Perbandingan Antar Grup

Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.

Tim Dept STK - IPB University 5


Eksplorasi Perbandingan Antar Grup
(Histogram vs Boxplot)

Tim Dept STK - IPB University 6


Eksplorasi Perbandingan Antar Grup
(Boxplot)

 Box plot di samping menunjukkan bahwa median


dari jumlah penjualan dengan iklan di youtube lebih
besar dari pada jumlah penjualan dengan iklan di
facebook.
 Jarak antar kuartil dari kedua boxplot sangat
Penjualan

berbeda. JAK Youtube jauh lebih lebar dari


facebook. Namun keduanya menunjukkan sebaran
data yang simetris
 Jadi dapat disimpulkan bahwa jumlah penjualan
terkait dengan media iklan yang dipilih.

Facebook Youtube

Tim Dept STK - IPB University 7


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Contoh berikut berkaitan dengan berat lahir bayi yang menunjukkan sindrom gangguan pernapasan idiopatik parah
(SIRDS), dan pertanyaan ‘Apakah mungkin menghubungkan kemungkinan bertahan hidup dengan berat
lahir?

Tim Dept STK - IPB University 8


Eksplorasi Perbandingan Antar Grup
(Boxplot) BERAT LAHIR
Meninggal Hidup
MINimum 1.030 1.130
Kuartil pertama (Q1) 1.246 1.740
Median (Q2) 1.600 2.200
Kuartil ketiga (Q3) 2.070 2.765
Meninggal Hidup
MAKSimum 2.730 3.640
 Box plot di atas menunjukkan bahwa median berat lahir bayi yang selamat, lebih besar dari pada bayi yang meninggal.
 Jarak antar kuartil dari kedua boxplot cukup mirip (seperti yang ditunjukkan oleh panjang kotak), meskipun terlihat bahwa secara keseluruhan
boxplot untuk bayi yang masih selamat lebih besar dibandingkan boxplot untuk bayi yang meninggal (seperti yang ditunjukkan oleh jarak antara
ujung dua garis untuk setiap boxplot).
 Meskipun kedua kelompok data tampak menjulur ke kanan, namun kelompok untuk bayi yang selamat sedikit lebih menjulur daripada
kelompok bayi yang meninggal.
 Secara keseluruhan, dua grup data terlihat seolah-olah memiliki sebaran yang sama, tetapi berat lahir bayi yang selamat memiliki sebaran lebih
beragam dibandingkan berat lahir bayi yang meninggal. Median berat lahir bayi yang meninggal lebih kecil dari kuartil bawah berat lahir
bayi yang selamat . Jadi dapat disimpulkan bahwa kelangsungan hidup bayi terkait dengan berat bayi ketika lahir.
Tim Dept STK - IPB University 9
Eksplorasi Perbandingan Antar Grup
(Boxplot)
 Box plot di samping menunjukkan bahwa median
pengeluaran per bulan mahasiswa TPB perempuan
lebih tinggi dari mahasiswa TPB laki-laki
 Jarak antar kuartil dari kedua boxplot cukup mirip
(seperti yang ditunjukkan oleh panjang kotak),
meskipun terlihat bahwa secara keseluruhan boxplot
untuk mahasiswa TPB perempuan lebih besar
dibandingkan mahasiswa TPB laki-laki
 Boxplot mahasiswa TPB perempuan tampak
menjulur ke kanan, sementara boxplot mahasiswa
TPB laki-laki cenderung simetrik.
 Di kedua boxplot terlihat ada pencilan atas.
 Secara keseluruhan, Median pengeluaran per bulan
mahasiswa TPB perempuan lebih besar dari kuartil
atas pengeluaran per bulan mahasiswa TPB laki-laki.
Jadi dapat disimpulkan bahwa pengeluaran per bulan
mahasiswa TPB ada kaitannya dengan jenis kelamin
Tim Dept STK - IPB University 10
Eksplorasi Perbandingan Antar Grup
(Boxplot)

Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.

Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1

Tim Dept STK - IPB University 11


Eksplorasi Perbandingan Antar Grup
(Boxplot)

Infectious disease “novel corona


virus disease (COVID-19)” data set of
different states and union territories
(UTs) in India.

Boxplot disamping menampilkan


boxplot dari total kasus COVID-19,
total kasus COVID-19 yang sembuh
dan yang meninggal di India dibagi
per cluster wilayah (Cluster I sd VI)

Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
Tim Dept STK - IPB University 12
Eksplorasi Perbandingan Antar Grup
(Boxplot)

Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/

Tim Dept STK - IPB University 13


Eksplorasi Perbandingan Antar Grup
(Boxplot)

Tim Dept STK - IPB University 14


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Tabel di samping berisi data tentang ukuran
(jumlah anak) dari keluarga lengkap dari dua
kelompok ibu di Ontario. Kelompok pertama
adalah ibu-ibu yang memiliki tahun Pendidikan
≤ 6 tahun, sementara kelompok kedua adalah
ibu-ibu yang tahun pendidikannya ≥ 7 tahun.

1. Bandingkan kedua kelompok data


berdasarkan kedua boxplot di samping !
2. Kesimpulan apa yang dapat Anda tarik
tentang hubungan antara pendidikan dan
jumlah anak dalam keluarga?
Tim Dept STK - IPB University 15
Eksplorasi Perbandingan Antar Grup
(Histogram)
 Selain dengan boxplot, kita dapat melakukan
perbandingan antar grup dengan menggunakan
histogram
 Membuat histogram yang dikelompokkan pada
dasarnya membuat histogram individual secara
terpisah untuk setiap grup dan menempatkannya
pada sumbu yang sama dan menggunakan lebar
kotak yang sama
 Skala yang digunakan harus identik pada sumbu y
maupun sumbu x sehingga kita dapat
membandingkan nilai di seluruh grup yang
dibandingkan

Tim Dept STK - IPB University 16


Eksplorasi Perbandingan Antar Grup
(Histogram)
Saat membandingkan beberapa grup dengan histogram,
perlu mempertimbangkan hal sebagai berikut :
 Bagaimana bentuk sebaran dari grup yang
dibandingkan? Apakah ada sebaran dari suatu grup
yang menjulur sedangkan grup yang lainnya tidak ?
Apakah semua kelompok memiliki jumlah modus yang
sama?
 Apakah grup-grup tersebut memiliki nilai rata-
rata/median/modus yang sama?
 Apakah semua grup memiliki sebaran yang serupa?
 Apakah suatu grup tampaknya memiliki lebih banyak
variasi daripada yang lain?
 Apakah salah satu grup terdapat pencilan?

Tim Dept STK - IPB University 17


Eksplorasi Perbandingan Antar Grup
(Histogram)
Group A Group B

 Sebaran Grup A simetris dan sebaran Grup B menjulur ke kanan.


 Median Grup A, 55, lebih besar dari median Grup B, 40.
 Namun, kedua grup memiliki sebaran yang sama, dengan rentang interkuartil (IQR)
untuk Grup A sama dengan 23, dan untuk Grup B sama dengan 25.
 Kedua grup tidak memiliki pencilan.

Tim Dept STK - IPB University 18


Eksplorasi Perbandingan Antar Grup
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di
negara berkembang dan di negara maju
Pada negara maju (Western Europe and
Negara Berkembang Negara Maju North America), income menjadi
sedikit lebih meningkat pada tahun
2010 dibandingkan tahun 1970, tetapi
secara persentase, income negara-
negara berkembang tampaknya lebih
meningkat, terjadi pergeseran ke kanan
pada tahun 2010 dibandingkan tahun
1970. Dari histogram di samping
terlihat juga bahwa proporsi income
negara berkembang yang
berpenghasilan lebih dari $ 16 per hari
Sumber : https://rafalab.github.io/dsbook/gapminder.html meningkat secara substansial.
Tim Dept STK - IPB University 19
Eksplorasi Perbandingan Antar Grup
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di negara berkembang dan di negara maju

Negara Berkembang Negara Maju

Untuk melihat wilayah tertentu


mana yang paling meningkat, Dari Boxplot di atas terlihat bahwa income tahun 2010 dari setiap
eksplorasi perbandingan antar wilayah di negara berkembang lebih meningkat dari pada tahun
tahun 1970 dan 2010 dipecah 1970. Peningkatan terbesar terjadi pada wilayah Asia timur diikuti
per wilayah dengan Amaerika latin, others. Sementara wilayah sub-Saharan
menggunakan boxplot (note : peningkatannya kecil namun terdapat beberapa negara di sub-
Saharan yang menjadi pencilan
west -> negara maju)
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 20
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 21


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
 Scatter Plots (juga disebut diagram pencar)
digunakan untuk melihat hubungan antara dua
peubah
 Sebagai contoh, scatter plot disamping
menunjukkan diagram pencar untuk dua peubah
yang memiliki hubungan nonlinier di antara
keduanya
 Setiap titik pada diagram pencar mewakili satu
pasangan (X, Y).
 Karena diagram pencar bukan garis lurus,
hubungan antara X dan Y adalah nonlinier.
 Perhatikan bahwa dimulai dengan nilai X yang
paling negatif, dengan meningkatnya X, Y pada
awalnya menurun; lalu ketika X terus meningkat, Y
meningkat.

Tim Dept STK - IPB University 22


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
 Scatter plot menunjukkan hubungan dua
peubah yang memiliki hubungan linier
positif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk X
dan Y, semakin naik nilai X maka nilai Y
juga akan semakin meningkat.
 Garis lurus adalah garis tren, dirancang
sedekat mungkin dengan semua titik data.
 Garis tren memiliki kemiringan positif,
yang menunjukkan hubungan positif
antara X dan Y.
Tim Dept STK - IPB University 23
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot berikutnya menunjukkan


hubungan dua peubah yang memiliki
hubungan linier positif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

Tim Dept STK - IPB University 24


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

 Scatter plot menunjukkan hubungan


dua peubah yang memiliki hubungan
linier negatif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk
X dan Y dengan arah yang berlawanan,
semakin naik nilai X maka nilai Y
semakin menurun
 Garis tren memiliki kemiringan negatif,
yang menunjukkan hubungan negatif
antara X dan Y.

Tim Dept STK - IPB University 25


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot berikutnya menunjukkan


hubungan dua peubah yang memiliki
hubungan linier negatif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

Tim Dept STK - IPB University 26


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.

Tim Dept STK - IPB University 27


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Correlation r = 0 Correlation r = – 0,3 Correlation r = 0,5

Correlation r = – 0,7 Correlation r = 0,9 Correlation r = – 0,99


Tim Dept STK - IPB University 28
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot antara jumlah tweet dan


jumlah pengguna Internet per
negara bagian yang tercantum
dalam sensus Conatel 2015 di
Venezuela

Tim Dept STK - IPB University 29


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25

Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook

Tim Dept STK - IPB University 30


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Ada anggapan yang terbentuk bahwa bahwa dunia dibagi menjadi dua kelompok: dunia barat (Eropa Barat dan
Amerika Utara), yang dicirikan oleh angka harapan hidup yang panjang dan keluarga kecil, versus dunia berkembang
(Afrika, Asia, dan Amerika Latin) yang dicirkan dengan angka harapan hidup yang pendek dan keluarga besar.
Perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per wanita) tahun
1962

Terlihat bahwa angka harapan hidup negara-


negara maju (Europe dan Amerika) lebih tinggi
dibandingkan negara-negara berkembang. Terlihat
juga bahwa ada beberapa titik negara berkembang
di Asia dan Oceania juga memiliki angka harapan
hidup yang tinggi. Namun Sebagian besar negara
berkembang memiliki angka harapan hidup yang
rendah

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 31
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012

Terlihat bahwa terjadi peningkatan angka


harapan hidup baik di negara maju maupun di
negara berkembang pada tahun 2012. Di
wilayah Amerika, Asia, Eropa dan Oceania
terlihat bahwa selain angka harapan hidup
meningkat namun jumlah rata-rata anak per
wanita menurun pada tahun 2012. Secara umum
scatter plot di samping menunjukkan hubungan
dua peubah (angka harapan hidup versus
tingkat kesuburan) pada tahun 2012 di beberapa
wilayah memiliki hubungan linier negatif lemah
kecuali wilayah Eropa.

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 32
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot antara rata-rata income per hari dalam dollar


versus angka kematian bayi
Dari scatter di samping, ada hubungan linier positif
yang kuat antar kedua peubah. Selain itu dapat dilihat
juga ada keragaman yang cukup tinggi antar
group/wilayah. Negara-negara dari kawasan yang
sama bisa sangat berbeda dan negara-negara dengan
pendapatan yang sama dapat memiliki tingkat
kelangsungan hidup yang berbeda. Misalnya,
meskipun rata-rata Afrika Sub-Sahara memiliki
tingkat kesehatan dan ekonomi yang lebih buruk,
terdapat keragaman yang cukup tinggi di dalam
kelompok tersebut. Mauritius dan Botswana lebih
baik daripada Angola dan Sierra Leone, dengan
Mauritius sebanding dengan negara-negara Barat.

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 33
Eksplorasi Hubungan Antar Peubah
(LATIHAN)
Pleasant Unpleasant  Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67  Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32  Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47  Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93

Tim Dept STK - IPB University 34


Terima Kasih

Tim Editor: I Made Sumertajaya-Yeni Anggraini-Akbar Rizki

Tim Dept STK - IPB University 35


Preface Slide

Tim Dept STK - IPB University 36


STK111 – Statistika dan Analisis Data

Memahami Data melalui


Explorasi Data

Edited by: Yeni Angraeni-Akbar Rizki


Departemen Statistika dan Sain Data
Outline:
Apa itu Eksplorasi Data?

Eksplorasi Kualitas Data Pertemuan minggu ke-4

Eksplorasi Pola Sebaran Data

Eksplorasi Perbandingan Antar Grup


Pertemuan minggu ke-5
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 2


Tim Dept STK - IPB University 3
Apa itu Eksplorasi Data?
(What is Data Exploration?)

Tim Dept STK - IPB University 4


Explorasi Data
“The best thing about being a statistician is that you get to play in
everyone’s backyard.” – John Tukey (1915-2000)
Pada 1960-an, John Tukey dari Universitas Princeton prihatin bahwa Para Statistisi
terlalu menekankan pada analisis data yang kompleks dan mengabaikan cara yang
lebih sederhana untuk memeriksa dan belajar dari data. Tukey mengembangkan
metode deskriptif baru, dengan judul Exploratory Data Analysis (EDA).

 Eksplorasi data adalah langkah awal sebelum analisis data dilakukan.


 Eksplorasi data dilakukan untuk lebih memahami karakteristik dari data.
 Eksplorasi data dilakukan dengan memvisualisasikan data.
 Penyajian data dalam bentuk tabel dan angka memang cukup bagus, tetapi akan sulit untuk
memahami tren dan polanya.
 Komunikasi informasi tersebut akan jauh lebih mudah dalam bentuk grafik, chart, atau format
visual lainnya.

Tim Dept STK - IPB University 5


Boxplot
(Diagram Kotak Garis)
Melihat ukuran penyebaran dan ukuran pemusatan
data.
Melihat adanya data pencilan.
Sebagai alat pembandingan sebaran dua kelompok
data atau lebih.
LANGKAH TEKNIS Untuk lebih memahami Boxplot, bisa dilihat
• Hitung Video berikut (link ada di deskripsi dan komentar):
• Statistik lima serangkai : Min, Q1, Q2, Q3, Max
• Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR)
1. Penjelasan Median (Q2) :
• Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) https://youtu.be/DhxHGzI-PLE?t=294
• Identifikasi data 2. Penjelasan Q1, Q2, Q3 :
• Jika data < PDB atau data > PDA maka data dikatakan memiliki Pencilan https://youtu.be/DhxHGzI-PLE?t=394
• Gambar 3. Penjelasan IQR : https://youtu.be/2yih-
• Kotak dengan batas Q1 dan Q3
• Jika Tidak ada Pencilan, maka Tarik garis dari Q1 sampai data terkecil dan 1iOfGw?t=130
tarik garis dari Q3 sampai data terbesar 4. Penjelasan mengenai Boxplot :
• Jika ada Pencilan Tarik garis Q1 dan atau Q3 sampai data sebelum pencilan
• Pencilan digambarkan dengan asterik https://youtu.be/vTwscU1nESI 6
Tim Dept STK - IPB University
Boxplot
(lanjutan)

2 Langkah membuat Boxplot di Ms. Excel :


1. Pilih seluruh data yang ingin dibuat Boxplot.

4 3 2.
3.
Pilih Menu “Insert”.
Klik Panah Kecil untuk “See All Charts”
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.

7
5 6
Tim Dept STK - IPB University 7
Boxplot
(lanjutan)

Tim Dept STK - IPB University 8


Histogram
Melihat ukuran penyebaran dan
ukuran pemusatan data
Melihat adanya data outlier
Mendeteksi ada bimodus/tidak

Untuk lebih memahami Histogram, bisa dilihat


Video berikut (link ada di deskripsi dan komentar):
1. Tabel Distribusi Frekuensi :
https://youtu.be/t2KaSBYwanw?t=70
2. Histogram :
https://youtu.be/t2KaSBYwanw?t=258

Tim Dept STK - IPB University 9


Histogram
(lanjutan)

2 Langkah membuat Histogram di Ms. Excel :


1. Pilih seluruh data yang ingin dibuat Histogram.
3 2. Pilih Menu “Insert”.

4 3.
4.
Klik Panah Kecil untuk “See All Charts”
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.

7
5 6
Tim Dept STK - IPB University 10
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)

60 15; 60
13; 58
Sales Revenue

14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60

Tim Dept STK - IPB University 11


Scatter Plot
(lanjutan)

2 Langkah membuat Scatter Plot di Ms. Excel :

3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
Pilih Menu “Insert”.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.

Y
70
60
50
40
5
30
20
10

Tim Dept STK - IPB University


0
0 2 4 6 8 10 12 14
12
16
Eksplorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 13


Explorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)
 Nilai ekstrem (atau dikenal sebagai 'pencilan’ (outlier))
adalah titik data yang tersebar di ekor distribusi suatu
data
 Nilai-nilai ekstrim tersebut akan memengaruhi analisis
statistik
 Bagaimana cara mendeteksi nilai ekstrem menggunakan
eksplorasi data?  Boxplot, Histogram, Scatter Plot

Tim Dept STK - IPB University 14


Boxplot
(Contoh Manual Boxplot untuk Pendugaan Nilai Ekstrem)
Cereal Sodium Data.
Sebanyak 20 macam sereal diukur kandungan Sodium (mg)
didalamnya, dan didapat data (yang sudah diurutkan) sebagai
berikut : 0, 50, 70, 100, 130, 140, 140, 150, 160, 180, 180, 180,
190, 200, 200, 210, 210, 220, 290, 340

Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎

Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Tim Dept STK - IPB University 15
Boxplot
(Contoh Visual Boxplot untuk Pendugaan Nilai Ekstrem)

Perhatikan contoh berikut ini :


 Gambar boxplot ini menampilkan
profil pelanggan dan menemukan
bahwa pendapatan tahunan rata-rata
pelanggan adalah $ 0,8 juta.
 Namun, ada dua pelanggan yang
memiliki pendapatan tahunan $ 4
dan $ 4,2 juta.
 Pendapatan tahunan kedua
pelanggan ini jauh lebih tinggi
daripada populasi lainnya
Pencilan (Outlier).

Tim Dept STK - IPB University 16


Histogram
(Contoh Visual Histogram untuk Pendugaan Nilai Ekstrem)

NILAI EKSTREM NILAI EKSTREM KAH?

Tim Dept STK - IPB University 17


Histogram with Boxplot
Pencilan diidentifikasi sebagai nilai terbesar
dalam kumpulan data, 1441, dan muncul
sebagai lingkaran di sebelah kanan boxplot
maupun histogram.

 Pencilan harus diselidiki dengan hati-hati.


 Seringkali pencilan berisi informasi berharga
tentang proses yang sedang diselidiki atau proses
pengumpulan dan pencatatan data.
 Sebelum mempertimbangkan kemungkinan
penghapusan pencilan dari data, terlebih dahulu
harus dicoba untuk dipahami mengapa pencilan
tersebut muncul dan apakah kemungkinan nilai
serupa akan terus muncul.

Tim Dept STK - IPB University 18


Histogram with Boxplot
(Contoh Visual Histogram untuk Pendugaan Nilai Ekstrem)

Dengan
Nilai Ekstrem

Ketika Nilai
Ekstrem pada data
dibuang

Tim Dept STK - IPB University 19


Scatter Plot
(Contoh Scatter Plot untuk Pendugaan Nilai Ekstrem)

Scatter plot disamping menyajikan data untuk


siswa dalam perjalanan backpacking. (Setiap poin
mewakili seorang siswa.)
Perhatikan bagaimana dua titik yang berwarna
merah dimana posisinya jauh dari data lainnya.
Kedua titik tersebut diberi label Brad dan
Sharon, yang merupakan nama siswa yang
mereka wakili.
Sharon bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih berat.
Brad bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih ringan.
Tim Dept STK - IPB University 20
Scatter Plot
(Contoh Scatter Plot untuk Pendugaan Nilai Ekstrem)

 Pencilan dapat terdiri dari dua jenis: Univariat dan Multivariat


 Misalkan kita memahami hubungan antara tinggi dan berat.
 Dari kedua boxplot untuk tinggi dan berat badan, tidak terlihat adanya pencilan.
 Namun ketika kedua peubah divisualisasikan dengan menggunakan Scatter plot, terlihat adanya
pencilan.
 Dua nilai di bawah dan satu di atas rata-rata dalam segmen berat dan tinggi tertentu.
Tim Dept STK - IPB University 21
Eksplorasi Pola Sebaran Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 22


Eksplorasi Pola Sebaran Data
(Histogram)

Histogram adalah salah satu alat yang sering


digunakan untuk melihat distribusi dari suatu
data

Yang perlu dicermati:


1. Apakah data mengumpul atau berpencar,
atau ada pengamatan yang memencil?
2. Apakah ada satu puncak (unimodal) atau ada
dua puncak (bimodal)?
3. Bentuk sebaran data  simetrik atau
menjulur (skewed)

Tim Dept STK - IPB University 23


Eksplorasi Pola Sebaran Data
(Histogram – Unimodal dan Bimodal)

Tim Dept STK - IPB University 24


Eksplorasi Pola Sebaran Data
(Pola Sebaran Data)
Relatif sedikit orang Relatif sedikit
meninggal di usia
Banyak orang kaya, di ekor
muda, di ekor kiri kanan panjang.
panjang. Pengamatan di sini

Life Span (Masa Hidup) IQ Income (Pendapatan)


menjulur ke kiri. menyebar Simetrik menjulur ke kanan.

Tim Dept STK - IPB University 25


Eksplorasi Pola Sebaran Data
(Histogram – Pola Sebaran Data)

Pada histogram disamping, dapat  Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan  Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri  (Histogram of % Fat)
Distribusinya kira-kira simetris dan  Sementara untuk distribusi yang menjulur ke kiri sebaliknya 
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
Tim Dept STK - IPB University 26
Eksplorasi Pola Sebaran Data
(Histogram)

 Apakah ada satu atau dua


puncak?
 Apakah simetris atau
menjulur?
 Apakah ada nilai eksrem?

Tim Dept STK - IPB University 27


Eksplorasi Pola Sebaran Data
(Histogram)

Infectious disease “novel corona virus disease


(COVID-19)” data set of different states and union
territories (UTs) in India.

Histogram disamping menampilkan histogram dari


1. total kasus COVID-19,
2. total kasus COVID-19 yang sembuh dan
3. Total kasus COVID-19 yang meninggal
di India

 Apakah ada satu atau dua puncak?


https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/  Apakah simetris atau menjulur?
 Apakah ada nilai eksrem?

Tim Dept STK - IPB University 28


Tim Dept STK - IPB University 29
Eksplorasi Perbandingan Antar Grup
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Tim Dept STK - IPB University 30


Eksplorasi Perbandingan Antar Grup

Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.

Tim Dept STK - IPB University 31


Eksplorasi Perbandingan Antar Grup
(Histogram vs Boxplot)

Tim Dept STK - IPB University 32


Eksplorasi Perbandingan Antar Grup
(Boxplot)

 Box plot di samping menunjukkan bahwa median


dari jumlah penjualan dengan iklan di youtube lebih
besar dari pada jumlah penjualan dengan iklan di
facebook.
 Jarak antar kuartil dari kedua boxplot sangat
Penjualan

berbeda. JAK Youtube jauh lebih lebar dari


facebook. Namun keduanya menunjukkan sebaran
data yang simetris
 Jadi dapat disimpulkan bahwa jumlah penjualan
terkait dengan media iklan yang dipilih.

Facebook Youtube

Tim Dept STK - IPB University 33


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Contoh berikut berkaitan dengan berat lahir bayi yang menunjukkan sindrom gangguan pernapasan idiopatik parah
(SIRDS), dan pertanyaan ‘Apakah mungkin menghubungkan kemungkinan bertahan hidup dengan berat
lahir?

Tim Dept STK - IPB University 34


Eksplorasi Perbandingan Antar Grup
(Boxplot) BERAT LAHIR
Meninggal Hidup
MINimum 1.030 1.130
Kuartil pertama (Q1) 1.246 1.740
Median (Q2) 1.600 2.200
Kuartil ketiga (Q3) 2.070 2.765
Meninggal Hidup
MAKSimum 2.730 3.640
 Box plot di atas menunjukkan bahwa median berat lahir bayi yang selamat, lebih besar dari pada bayi yang meninggal.
 Jarak antar kuartil dari kedua boxplot cukup mirip (seperti yang ditunjukkan oleh panjang kotak), meskipun terlihat bahwa secara keseluruhan
boxplot untuk bayi yang masih selamat lebih besar dibandingkan boxplot untuk bayi yang meninggal (seperti yang ditunjukkan oleh jarak antara
ujung dua garis untuk setiap boxplot).
 Meskipun kedua kelompok data tampak menjulur ke kanan, namun kelompok untuk bayi yang selamat sedikit lebih menjulur daripada
kelompok bayi yang meninggal.
 Secara keseluruhan, dua grup data terlihat seolah-olah memiliki sebaran yang sama, tetapi berat lahir bayi yang selamat memiliki sebaran lebih
beragam dibandingkan berat lahir bayi yang meninggal. Median berat lahir bayi yang meninggal lebih kecil dari kuartil bawah berat lahir
bayi yang selamat . Jadi dapat disimpulkan bahwa kelangsungan hidup bayi terkait dengan berat bayi ketika lahir.
Tim Dept STK - IPB University 35
Eksplorasi Perbandingan Antar Grup
(Boxplot)
 Box plot di samping menunjukkan bahwa median
pengeluaran per bulan mahasiswa TPB perempuan
lebih tinggi dari mahasiswa TPB laki-laki
 Jarak antar kuartil dari kedua boxplot cukup mirip
(seperti yang ditunjukkan oleh panjang kotak),
meskipun terlihat bahwa secara keseluruhan boxplot
untuk mahasiswa TPB perempuan lebih besar
dibandingkan mahasiswa TPB laki-laki
 Boxplot mahasiswa TPB perempuan tampak
menjulur ke kanan, sementara boxplot mahasiswa
TPB laki-laki cenderung simetrik.
 Di kedua boxplot terlihat ada pencilan atas.
 Secara keseluruhan, Median pengeluaran per bulan
mahasiswa TPB perempuan lebih besar dari kuartil
atas pengeluaran per bulan mahasiswa TPB laki-laki.
Jadi dapat disimpulkan bahwa pengeluaran per bulan
mahasiswa TPB ada kaitannya dengan jenis kelamin
Tim Dept STK - IPB University 36
Eksplorasi Perbandingan Antar Grup
(Boxplot)

Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.

Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1

Tim Dept STK - IPB University 37


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Infectious disease “novel corona
virus disease (COVID-19)” data set of
different states and union territories
(UTs) in India.

Boxplot disamping menampilkan


boxplot dari total kasus COVID-19,
total kasus COVID-19 yang sembuh
dan yang meninggal di India dibagi
per cluster wilayah (Cluster I sd VI)

Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
Tim Dept STK - IPB University 38
Eksplorasi Perbandingan Antar Grup
(Boxplot)

Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/

Tim Dept STK - IPB University 39


Eksplorasi Perbandingan Antar Grup
(Boxplot)
Tabel di samping berisi data tentang ukuran
(jumlah anak) dari keluarga lengkap dari dua
kelompok ibu di Ontario. Kelompok pertama
adalah ibu-ibu yang memiliki tahun Pendidikan
≤ 6 tahun, sementara kelompok kedua adalah
ibu-ibu yang tahun pendidikannya ≥ 7 tahun.

1. Bandingkan kedua kelompok data


berdasarkan kedua boxplot di samping !
2. Kesimpulan apa yang dapat Anda tarik
tentang hubungan antara pendidikan dan
jumlah anak dalam keluarga?
Tim Dept STK - IPB University 40
Eksplorasi Perbandingan Antar Grup
(Histogram)
 Selain dengan boxplot, kita dapat melakukan
perbandingan antar grup dengan menggunakan
histogram
 Membuat histogram yang dikelompokkan pada
dasarnya membuat histogram individual secara
terpisah untuk setiap grup dan menempatkannya
pada sumbu yang sama dan menggunakan lebar
kotak yang sama
 Skala yang digunakan harus identik pada sumbu y
maupun sumbu x sehingga kita dapat
membandingkan nilai di seluruh grup yang
dibandingkan

Tim Dept STK - IPB University 41


Eksplorasi Perbandingan Antar Grup
(Histogram)
Saat membandingkan beberapa grup dengan histogram,
perlu mempertimbangkan hal sebagai berikut :
 Bagaimana bentuk sebaran dari grup yang
dibandingkan? Apakah ada sebaran dari suatu grup
yang menjulur sedangkan grup yang lainnya tidak ?
Apakah semua kelompok memiliki jumlah modus yang
sama?
 Apakah grup-grup tersebut memiliki nilai rata-
rata/median/modus yang sama?
 Apakah semua grup memiliki sebaran yang serupa?
 Apakah suatu grup tampaknya memiliki lebih banyak
variasi daripada yang lain?
 Apakah salah satu grup terdapat pencilan?

Tim Dept STK - IPB University 42


Eksplorasi Perbandingan Antar Grup
(Histogram)
Group A Group B

 Sebaran Grup A simetris dan sebaran Grup B menjulur ke kanan.


 Median Grup A, 55, lebih besar dari median Grup B, 40.
 Namun, kedua grup memiliki sebaran yang sama, dengan rentang interkuartil (IQR)
untuk Grup A sama dengan 23, dan untuk Grup B sama dengan 25.
 Kedua grup tidak memiliki pencilan.

Tim Dept STK - IPB University 43


Eksplorasi Perbandingan Antar Grup
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di
negara berkembang dan di negara maju
Pada negara maju (Western Europe and
Negara Berkembang Negara Maju North America), income menjadi
sedikit lebih meningkat pada tahun
2010 dibandingkan tahun 1970, tetapi
secara persentase, income negara-
negara berkembang tampaknya lebih
meningkat, terjadi pergeseran ke kanan
pada tahun 2010 dibandingkan tahun
1970. Dari histogram di samping
terlihat juga bahwa proporsi income
negara berkembang yang
berpenghasilan lebih dari $ 16 per hari
Sumber : https://rafalab.github.io/dsbook/gapminder.html meningkat secara substansial.
Tim Dept STK - IPB University 44
Eksplorasi Perbandingan Antar Grup
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di negara berkembang dan di negara maju

Negara Berkembang Negara Maju

Untuk melihat wilayah tertentu


mana yang paling meningkat, Dari Boxplot di atas terlihat bahwa income tahun 2010 dari setiap
eksplorasi perbandingan antar wilayah di negara berkembang lebih meningkat dari pada tahun
tahun 1970 dan 2010 dipecah 1970. Peningkatan terbesar terjadi pada wilayah Asia timur diikuti
per wilayah dengan Amaerika latin, others. Sementara wilayah sub-Saharan
menggunakan boxplot (note : peningkatannya kecil namun terdapat beberapa negara di sub-
Saharan yang menjadi pencilan
west -> negara maju)
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 45
Eksplorasi Hubungan Antar Peubah

Tim Dept STK - IPB University 46


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
 Scatter Plots (juga disebut diagram pencar)
digunakan untuk melihat hubungan antara dua
peubah
 Sebagai contoh, scatter plot disamping
menunjukkan diagram pencar untuk dua peubah
yang memiliki hubungan nonlinier di antara
keduanya
 Setiap titik pada diagram pencar mewakili satu
pasangan (X, Y).
 Karena diagram pencar bukan garis lurus,
hubungan antara X dan Y adalah nonlinier.
 Perhatikan bahwa dimulai dengan nilai X yang
paling negatif, dengan meningkatnya X, Y pada
awalnya menurun; lalu ketika X terus meningkat, Y
meningkat.

Tim Dept STK - IPB University 47


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
 Scatter plot menunjukkan hubungan dua
peubah yang memiliki hubungan linier
positif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk X
dan Y, semakin naik nilai X maka nilai Y
juga akan semakin meningkat.
 Garis lurus adalah garis tren, dirancang
sedekat mungkin dengan semua titik data.
 Garis tren memiliki kemiringan positif,
yang menunjukkan hubungan positif
antara X dan Y.
Tim Dept STK - IPB University 48
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot berikutnya menunjukkan


hubungan dua peubah yang memiliki
hubungan linier positif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

Tim Dept STK - IPB University 49


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

 Scatter plot menunjukkan hubungan


dua peubah yang memiliki hubungan
linier negatif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk
X dan Y dengan arah yang berlawanan,
semakin naik nilai X maka nilai Y
semakin menurun
 Garis tren memiliki kemiringan negatif,
yang menunjukkan hubungan negatif
antara X dan Y.

Tim Dept STK - IPB University 50


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot berikutnya menunjukkan


hubungan dua peubah yang memiliki
hubungan linier negatif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

Tim Dept STK - IPB University 51


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.

Tim Dept STK - IPB University 52


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Correlation r = 0 Correlation r = – 0,3 Correlation r = 0,5

Correlation r = – 0,7 Correlation r = 0,9 Correlation r = – 0,99


Tim Dept STK - IPB University 53
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot antara jumlah tweet dan


jumlah pengguna Internet per
negara bagian yang tercantum
dalam sensus Conatel 2015 di
Venezuela

Tim Dept STK - IPB University 54


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25

Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook

Tim Dept STK - IPB University 55


Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Ada anggapan yang terbentuk bahwa bahwa dunia dibagi menjadi dua kelompok: dunia barat (Eropa Barat dan
Amerika Utara), yang dicirikan oleh angka harapan hidup yang panjang dan keluarga kecil, versus dunia berkembang
(Afrika, Asia, dan Amerika Latin) yang dicirkan dengan angka harapan hidup yang pendek dan keluarga besar.
Perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per wanita) tahun
1962

Terlihat bahwa angka harapan hidup negara-


negara maju (Europe dan Amerika) lebih tinggi
dibandingkan negara-negara berkembang. Terlihat
juga bahwa ada beberapa titik negara berkembang
di Asia dan Oceania juga memiliki angka harapan
hidup yang tinggi. Namun Sebagian besar negara
berkembang memiliki angka harapan hidup yang
rendah

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 56
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012

Terlihat bahwa terjadi peningkatan angka


harapan hidup baik di negara maju maupun di
negara berkembang pada tahun 2012. Di
wilayah Amerika, Asia, Eropa dan Oceania
terlihat bahwa selain angka harapan hidup
meningkat namun jumlah rata-rata anak per
wanita menurun pada tahun 2012. Secara umum
scatter plot di samping menunjukkan hubungan
dua peubah (angka harapan hidup versus
tingkat kesuburan) pada tahun 2012 di beberapa
wilayah memiliki hubungan linier negatif lemah
kecuali wilayah Eropa.

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 57
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)

Scatter plot antara rata-rata income per hari dalam dollar


versus angka kematian bayi
Dari scatter di samping, ada hubungan linier positif
yang kuat antar kedua peubah. Selain itu dapat dilihat
juga ada keragaman yang cukup tinggi antar
group/wilayah. Negara-negara dari kawasan yang
sama bisa sangat berbeda dan negara-negara dengan
pendapatan yang sama dapat memiliki tingkat
kelangsungan hidup yang berbeda. Misalnya,
meskipun rata-rata Afrika Sub-Sahara memiliki
tingkat kesehatan dan ekonomi yang lebih buruk,
terdapat keragaman yang cukup tinggi di dalam
kelompok tersebut. Mauritius dan Botswana lebih
baik daripada Angola dan Sierra Leone, dengan
Mauritius sebanding dengan negara-negara Barat.

Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 58
Eksplorasi Hubungan Antar Peubah
(LATIHAN)
Pleasant Unpleasant  Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67  Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32  Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47  Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93

Tim Dept STK - IPB University 59


Terima Kasih

Tim Dept STK - IPB University 60


Preface Slide

Tim Dept STK - IPB University 61


STATISTIKADANANALISIS DATA(STA111)

POKOK BAHASAN: MODELLING

Sekretariat :
Jalan Meranti Wing 22 Level 4
Kampus IPB Darmaga - Bogor, 16680
ProgramStudi Sarjana Statistika danSains Data
Telp dan Fax: 0251 – 8624535
Departemen Statistika - FMIPA Email: statistika@ipb.ac.id
URL : stat.ipb.ac.id
LINGKUP MATERI

PERTEMUAN 6:
ASOSIASI DAN KORELASI
• Analisis hubungan dua peubah kategorik:
• Tabel frekuensi dua arah
• Ukuran asosiasi
• Analisis hubungan dua peubah numerik:
• Line chart
• Ukuran korelasi
PERTEMUAN 7:
ANALISIS REGRESI
• Regresi Linier Sederhana:
• Formulasi model,
• Pendugaan parameter model
Analisis hubungan dua peubah kategorik

• Untuk melihat hubungan antar dua peubah kategorik dapat


menggunakan:
• Tabel frekuensi dua arah (two ways frequently table) atau disebut juga
tabulasi silang (cross tables) atau disebut juga klasifikasi silang (cross-
classification)
• Ukuran keeratan hubungan antar peubah kategorik, sering disebut sebagai
ukuran asosiasi. Beberapa ukuran asosiasi seperti:
• Chi-square,
• Tau-Kendall,
• Somer,
• Gamma,
Two Ways Frequently Table or Cross Tables

• Cross Tables (or contingency tables) list the number of


observations for every combination of values for two categorical or
ordinal variables

• If there are r categories for the first variable (rows) and c


categories for the second variable (columns), the table is called an
r x c cross table
r x c Contingency Table

Attribute B

Attribute A 1 2 ... C Totals

1 O11 O12 … O1c R1


2 O21 O22 … O2c R2
. . . … . .
. . . … . .
. . . … . .
r Or1 Or2 … Orc Rr
Totals C1 C2 … Cc n
Example 1: Asociation Gender vs Hand Preference
Sample results organized in a contingency table:

sample size = n = 300: Hand BAR CHART: GENDER VS


HAND PREFERENCE
Preference
120 Females, 12 Gender 180

were left handed Left Right 160


140
120
180 Males, 24 were Female 12 108 120
100
80
left handed 60
40
20
Male 24 156 180 0
Female Male

36 264 300 Left Right


Logic of the Test

H0: There is no association between hand preference and gender


H1: Hand preference is not independent of gender

• If H0 is true, then the proportion of left-handed females should be the


same as the proportion of left-handed males
• The two proportions above should be the same as the proportion of left-
handed people overall
Finding Asociation Between Sex and Hand Preference

120 Females, 12 Overall:


were left handed
180 Males, 24 were P(Left Handed)
left handed
= 36/300 = .12
If no association, then
P(Left Handed | Female) = P(Left Handed | Male) = .12

So we would expect 12% of the 120 females and 12% of the 180
males to be left handed…

i.e., we would expect (120)(.12) = 14.4 females to be left handed


(180)(.12) = 21.6 males to be left handed
Cross Table Example 2
• 4 x 3 Cross Table for Investment Choices by Investor (values in $1000’s)

Investment Investor A Investor B Investor C Total


Category
Stocks 46.5 55 27.5 129
Bonds 32.0 44 19.0 95
CD 15.5 20 13.5 49
Savings 16.0 28 7.0 51
Total 110.0 147 67.0 324

Coba anda eksplorasi table di atas, apakah ada asosiasi antara Jenis
Investasi dengan Investor ?
Contoh
• Di suatu perusahaan minyak diketahui bahwa jumlah lulusan S-1 yang bekerja pada
perusahaan tersebut adalah sepertiga dari jumlah lulusan S2 yang bekerja. Enam puluh
persen (60%) yang bekerja pada perusahaan tersebut adalah perempuan. Sedangkan
perbandingan lulusan S-1 yang berjenis kelamin perempuan dan laki-laki adalah 3 : 2.
Buatlah tabel kontingensi dari kasus di atas !
Jumlah pegawai pada perusahaan tersebut sebanyak 200 orang
Jumlah peg perempuan = 60% × 200 = 120
Jumlah peg laki-laki = 200 − 120 = 80
1
Jumlah lulusan S-1 = 3 × Jumlah lulusan S-2 Perempuan Laki-laki total
Jumlah lulusan S-1 + Jumlah lulusan S-2 = 200 (Pr) (L)
1
3
× Jumlah lulusan S-2 + Jumlah lulusan S-2 = 200
600 Lulusan S-1 30 20 50
Jumlah lulusan S-2 = = 150
4
1 Lulusan S-2 90 60 150
Jumlah lulusan S-1 = 3 × 150 = 50
Jumlah lulusan S-1 perempuan : Jumlah lulusan S-1 lak-laki = 3 : 2 total 120 80 200
Jumlah lulusan S-1 perempuan + Jumlah lulusan S-1 lak-laki =50
Jumlah lulusan S-1 perempuan = 30
Jumlah lulusan S-1 lak-laki = 20
Jumlah lulusan S-2 perempuan =120 – 30 = 90
Jumlah lulusan S-2 laki-laki = 80 – 20 = 60 YA DEPT STK - IPB University
Ukuran Asosiasi Dua Peubah Kategorik Berskala Ordinal

Beberapa kejadian yang mungkin terjadi antar dua buah peubah kategorik
berskala ordinal yaitu:
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian yang
sama, yang disebut sebagai kejadian Concordant
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian
berbeda, yang disebut sebagai kejadian Discordant
• Kedua peubah kategorik yang dianalisis kejadiannya tidak berubah,
yang disebut sebagai Ties. Kejadian yang tidak berubah dapat terjadi
pada peubah kategorik pertama (Ties X) atau kedua (Ties Y).
Uses the concordance and discordance of all of the possible pairs of data

• If x1 > x2 and y1 > y2 OR x1 < x2 and y1 < y2 pairs 1 and 2 are considered
concordant (P)
• If x1 > x2 and y1 < y2 OR x1 < x2 and y1 > y2 pairs 1 and 2 are considered
discordant (Q)
• If x1 = x2 and y1 < y2 OR y1 > y2 pairs 1 and 2 are ties in X (T1)
• If y1 = y2 and x1 < x2 OR x1 > x2 pairs 1 and 2 are ties in Y (T2)
• Can calculate the same thing based on ranks
Concordant Pairs:
Ideology and Voting
• Ideology - conserv (1), moderate (2), liberal (3)
• Voting - never (1), sometimes (2), often (3)

• Consider two hypothetical individuals in the sample with scores


• Individual A: Ideology=1, Voting=1
• Individual B: Ideology=2, Voting=2

• Pair A&B are considered a concordant pair because B’s ideology score is greater than A’s
score, and B’s voting score is greater than A’s score
Concordant Pairs (cont’d)
• All of the following are concordant pairs

• A(1,1) B(2,2)
• A(1,1) B(2,3)
• A(1,1) B(3,2)
• A(1,2) B(2,3)
• A(2,2) B(3,3)

• Concordant pairs are consistent with a positive relationship between the IV and
the DV (ideology and voting)
Discordant Pairs
• All of the following are discordant pairs

• A(1,2) B(2,1)
• A(1,3) B(2,2)
• A(2,2) B(3,1)
• A(1,2) B(3,1)
• A(3,1) B(1,2)

• Discordant pairs are consistent with a negative relationship between the IV and
the DV (ideology and voting)
Identifying Concordant Pairs
• Concordant Pairs for Never - Conserv (1,1)
• #Concordant = 80*70 + 80*10 + 80*20 + 80*80
= 14,400

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Identifying Concordant Pairs
• Concordant Pairs for Never - Moderate (1,2)
• #Concordant = 10*10 + 10*80 = 900

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Conserv (1,3)
• #Discordant = 0*10 + 0*10 + 0*70 + 0*10 = 0

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Moderate (2,3)
• #Discordant = 20*10 + 20*10

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Square tables:

Non-Square tables:
• Example 1: Participants in the 2002 General Social Survey, a major national survey done every other year,
were asked if they own a gun and whether they favor or oppose a law requiring all guns to be registered
with local authorities. A two-way table of counts for these two variables is shown below. Rows indicate
whether the person owns a gun or not.

Owns Gun Opposes Gun Law (0) Favors Gun Law (1) All

No (0) 72 527 599

Yes (1) 102 206 308

All 174 733 907

Coba identifikasi pasangan kejadian yang termasuk Concordant dan Discordant. Setelah itu
hitunglah ukuran asosiasi Tau-a dan Tau-b, berikanlah interpretasi Anda.
• Example 2 : Students from a Stat 200 course we're asked how important religion is in your life
(not important, fairly important, very important ). A two-way table of counts for the relationship
between religious importance and achievements during the course (not good, fairly good, good,
very good) is shown below.

Not important Fairly important Very important


All
(0) (1) (2)

Not good (0) 32 56 59 127


Fairly good (1) 31 43 25 99
Good (2) 30 26 35 91
Very Good (3) 20 25 15 60
All 113 150 114 377

Coba identifikasi pasangan kejadian yang termasuk Concordant dan Discordant. Kemudian
hitunglah ukuran asosiasi Somer (dxy, dyx dan d), berikanlah interpretasi Anda.
Analisis hubungan dua peubah numerik

Untuk melihat hubungan antar dua peubah numerik dapat


menggunakan:
• Line chart
• Ukuran keeratan hubungan antar peubah numerik, sering disebut sebagai
ukuran korelasi. Beberapa ukuran asosiasi seperti:
• Korelasi peringkat spearman
• Korelasi Pearson atau Korelasi Product Moment,
Scatter Diagrams

• Scatter Diagrams are used for paired observations


taken from two numerical variables

• The Scatter Diagram:


• one variable is measured on the vertical axis and the
other variable is measured on the horizontal axis
Scatter Diagram Example

Volume Cost per


Cost per Day vs. Production Volume
per day day
23 125 250
26 140
200

Cost per Day


29 146
150
33 160
38 167 100
42 170 50
50 188
0
55 195
0 10 20 30 40 50 60 70
60 200
Volume per Day
Scatter Diagrams in Excel

1
Select the chart wizard

2
Select XY(Scatter) option,
then click “Next”
3
When prompted, enter the
data range, desired
legend, and desired
destination to complete
the scatter diagram
Rank Correlation
• The Pearson correlation coefficient, r, is a measure of the linear
association between two variables for which interval or ratio data are
available.
• The Spearman rank-correlation coefficient, rs , is a measure of
association between two variables when only ordinal data are
available.
• Values of rs can range from –1.0 to +1.0, where
• values near 1.0 indicate a strong positive association between the rankings,
and
• values near -1.0 indicate a strong negative association between the rankings.
Spearman Rank Correlation
• Spearman Rank-Correlation Coefficient, rs

6 di2
rs  1 
n(n2  1)

where: n = number of items being ranked


xi = rank of item i with respect to one variable
yi = rank of item i with respect to a second
variable
di = xi - yi
Example: Connor Investors
Connor Investors provides a portfolio management service for its
clients. Two of Connor’s analysts rated ten investments from high (6) to
low (1) risk as shown below. Use rank correlation, with a = .10, to
comment on the agreement of the two analysts’ ratings.

Investment A B C D E F G H I J
Analyst #1 1 4 9 8 6 3 5 7 2 10
Analyst #2 1 5 6 2 9 7 3 10 4 8
Example: Connor Investors
Analyst #1 Analyst #2
Investment Rating Rating Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum = 92

Korelasi Peringkat Spearman


6 di2 6(92)
rs  1  1  0.4424
n(n  1)
2
10(100  1)
Coefficient of Pearson Correlation
• Measures the relative strength of the linear relationship
between two variables

• Population correlation coefficient:

Cov (x , y)
ρ
σXσY
• Sample correlation coefficient:
Cov (x , y)
r
sX sY
Features of Correlation Coefficient, r

• Unit free
• Ranges between –1 and 1
• The closer to –1, the stronger the negative linear relationship
• The closer to 1, the stronger the positive linear relationship
• The closer to 0, the weaker any positive linear relationship
Scatter Plots of Data with Various
Correlation Coefficients
Y Y Y

X X X
r = -1 r = -.6 r=0

Y
Y Y

X X X
r = +1 r = +.3 r=0
Using Excel to Find
the Correlation Coefficient
• Select
Tools/Data Analysis
• Choose Correlation from the
selection menu
• Click OK . . .
Using Excel to Find
the Correlation Coefficient (continued)

• Input data range and select


appropriate options
• Click OK to get output
Interpreting the Result
Scatter Plot of Test Scores
• r = .733 100

95

• There is a relatively

Test #2 Score
90

85

strong positive linear 80

relationship between 75

70
test score #1 70 75 80 85 90 95 100

Test #1 Score
and test score #2

• Students who scored high on the first test tended to


score high on second test
Tim Editor: I Made Sumertajaya-Yeni Anggraini
PENGANTARSTATISTIKADANANALISISDATA

POKOK BAHASAN: MODELLING


PERTEMUAN: 6-7
LINGKUP MATERI

PERTEMUAN 6:
ASOSIASI DAN KORELASI
• Analisis hubungan dua peubah kategorik:
• Tabel frekuensi dua arah
• Ukuran asosiasi
• Analisis hubungan dua peubah numerik:
• Line chart
• Ukuran korelasi
PERTEMUAN 7:
ANALISIS REGRESI
• Regresi Linier Sederhana:
• Formulasi model,
• Pendugaan parameter model
Analisis hubungan dua peubah kategorik

• Untuk melihat hubungan antar dua peubah kategorik dapat


menggunakan:
• Tabel frekuensi dua arah (two ways frequently table) atau disebut juga
tabulasi silang (cross tables) atau disebut juga klasifikasi silang (cross-
classification)
• Ukuran keeratan hubungan antar peubah kategorik, sering disebut sebagai
ukuran asosiasi. Beberapa ukuran asosiasi seperti:
• Chi-square,
• Tau-Kendall,
• Somer,
• Gamma,
Two Ways Frequently Table or Cross Tables

• Cross Tables (or contingency tables) list the number of


observations for every combination of values for two categorical or
ordinal variables

• If there are r categories for the first variable (rows) and c


categories for the second variable (columns), the table is called an
r x c cross table
r x c Contingency Table

Attribute B

Attribute A 1 2 ... C Totals

1 O11 O12 … O1c R1


2 O21 O22 … O2c R2
. . . … . .
. . . … . .
. . . … . .
r Or1 Or2 … Orc Rr
Totals C1 C2 … Cc n
Example 1: Asociation Gender vs Hand Preference
Sample results organized in a contingency table:

sample size = n = 300: Hand BAR CHART: GENDER VS


HAND PREFERENCE
Preference
120 Females, 12 Gender 180

were left handed Left Right 160


140
120
180 Males, 24 were Female 12 108 120
100
80
left handed 60
40
20
Male 24 156 180 0
Female Male

36 264 300 Left Right


Logic of the Test

H0: There is no association between hand preference and gender


H1: Hand preference is not independent of gender

• If H0 is true, then the proportion of left-handed females should be the


same as the proportion of left-handed males
• The two proportions above should be the same as the proportion of left-
handed people overall
Finding Asociation Between Sex and Hand Preference

120 Females, 12 Overall:


were left handed
180 Males, 24 were P(Left Handed)
left handed
= 36/300 = .12
If no association, then
P(Left Handed | Female) = P(Left Handed | Male) = .12

So we would expect 12% of the 120 females and 12% of the 180
males to be left handed…

i.e., we would expect (120)(.12) = 14.4 females to be left handed


(180)(.12) = 21.6 males to be left handed
Cross Table Example 2
• 4 x 3 Cross Table for Investment Choices by Investor (values in $1000’s)

Investment Investor A Investor B Investor C Total


Category
Stocks 46.5 55 27.5 129
Bonds 32.0 44 19.0 95
CD 15.5 20 13.5 49
Savings 16.0 28 7.0 51
Total 110.0 147 67.0 324

Coba anda eksplorasi table di atas, apakah ada asosiasi antara Jenis
Investasi dengan Investor ?
Ukuran Asosiasi Dua Peubah Kategorik Berskala Ordinal

Beberapa kejadian yang mungkin terjadi antar dua buah peubah kategorik
berskala ordinal yaitu:
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian yang
sama, yang disebut sebagai kejadian Concordant
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian
berbeda, yang disebut sebagai kejadian Discordant
• Kedua peubah kategorik yang dianalisis kejadiannya tidak berubah,
yang disebut sebagai Ties. Kejadian yang tidak berubah dapat terjadi
pada peubah kategorik pertama (Ties X) atau kedua (Ties Y).
Uses the concordance and discordance of all of the possible pairs of data

• If x1 > x2 and y1 > y2 OR x1 < x2 and y1 < y2 pairs 1 and 2 are considered
concordant (P)
• If x1 > x2 and y1 < y2 OR x1 < x2 and y1 > y2 pairs 1 and 2 are considered
discordant (Q)
• If x1 = x2 and y1 < y2 OR y1 > y2 pairs 1 and 2 are ties in X (T1)
• If y1 = y2 and x1 < x2 OR x1 > x2 pairs 1 and 2 are ties in Y (T2)
• Can calculate the same thing based on ranks
Concordant Pairs:
Ideology and Voting
• Ideology - conserv (1), moderate (2), liberal (3)
• Voting - never (1), sometimes (2), often (3)

• Consider two hypothetical individuals in the sample with scores


• Individual A: Ideology=1, Voting=1
• Individual B: Ideology=2, Voting=2

• Pair A&B are considered a concordant pair because B’s ideology score is greater than A’s
score, and B’s voting score is greater than A’s score
Concordant Pairs (cont’d)
• All of the following are concordant pairs

• A(1,1) B(2,2)
• A(1,1) B(2,3)
• A(1,1) B(3,2)
• A(1,2) B(2,3)
• A(2,2) B(3,3)

• Concordant pairs are consistent with a positive relationship between the IV and
the DV (ideology and voting)
Discordant Pairs
• All of the following are discordant pairs

• A(1,2) B(2,1)
• A(1,3) B(2,2)
• A(2,2) B(3,1)
• A(1,2) B(3,1)
• A(3,1) B(1,2)

• Discordant pairs are consistent with a negative relationship between the IV and
the DV (ideology and voting)
Identifying Concordant Pairs
• Concordant Pairs for Never - Conserv (1,1)
• #Concordant = 80*70 + 80*10 + 80*20 + 80*80
= 14,400

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Identifying Concordant Pairs
• Concordant Pairs for Never - Moderate (1,2)
• #Concordant = 10*10 + 10*80 = 900

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Conserv (1,3)
• #Discordant = 0*10 + 0*10 + 0*70 + 0*10 = 0

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Moderate (2,3)
• #Discordant = 20*10 + 20*10

Conservative (1) Moderate (2) Liberal (3)

Never (1) 80 10 10

Sometimes (2) 20 70 10

Often (3) 0 20 80
Square tables:

Non-Square tables:
• Example 1: Participants in the 2002 General Social Survey, a major
national survey done every other year, were asked if they own a gun
and whether they favor or oppose a law requiring all guns to be
registered with local authorities. A two-way table of counts for these
two variables is shown below. Rows indicate whether the person
owns a gun or not.
Opposes Gun
Owns Gun Favors Gun Law All
Law

No 527 72 599

Yes 206 102 308

All 733 174 907

Coba identifikasi pasangan kejadian yang termasuk Concordant


dan Discordant
• Example 2 : Students from a Stat 200 course we're asked how
important religion is in your life (very important, fairly important, not
important). A two-way table of counts for the relationship between
religious importance and gender (female, male) is shown below.
Fairly Not Very
All
important important important

Female 56 32 39 127

Male 43 31 25 99

All 99 63 64 226

Coba identifikasi pasangan kejadian yang termasuk Concordant


dan Discordant
Analisis hubungan dua peubah numerik

Untuk melihat hubungan antar dua peubah numerik dapat


menggunakan:
• Line chart
• Ukuran keeratan hubungan antar peubah numerik, sering disebut sebagai
ukuran korelasi. Beberapa ukuran asosiasi seperti:
• Korelasi peringkat spearman
• Korelasi Pearson atau Korelasi Product Moment,
Scatter Diagrams

• Scatter Diagrams are used for paired observations


taken from two numerical variables

• The Scatter Diagram:


• one variable is measured on the vertical axis and the
other variable is measured on the horizontal axis
Scatter Diagram Example

Volume Cost per


Cost per Day vs. Production Volume
per day day
23 125 250
26 140
200

Cost per Day


29 146
150
33 160
38 167 100
42 170 50
50 188
0
55 195
0 10 20 30 40 50 60 70
60 200
Volume per Day
Scatter Diagrams in Excel

1
Select the chart wizard

2
Select XY(Scatter) option,
then click “Next”
3
When prompted, enter the
data range, desired
legend, and desired
destination to complete
the scatter diagram
Rank Correlation
• The Pearson correlation coefficient, r, is a measure of the linear
association between two variables for which interval or ratio data are
available.
• The Spearman rank-correlation coefficient, rs , is a measure of
association between two variables when only ordinal data are
available.
• Values of rs can range from –1.0 to +1.0, where
• values near 1.0 indicate a strong positive association between the rankings,
and
• values near -1.0 indicate a strong negative association between the rankings.
Spearman Rank Correlation
• Spearman Rank-Correlation Coefficient, rs

6 di2
rs  1 
n(n2  1)

where: n = number of items being ranked


xi = rank of item i with respect to one variable
yi = rank of item i with respect to a second
variable
di = xi - yi
Example: Connor Investors
Connor Investors provides a portfolio management service for its
clients. Two of Connor’s analysts rated ten investments from high (6) to
low (1) risk as shown below. Use rank correlation, with a = .10, to
comment on the agreement of the two analysts’ ratings.

Investment A B C D E F G H I J
Analyst #1 1 4 9 8 6 3 5 7 2 10
Analyst #2 1 5 6 2 9 7 3 10 4 8
Example: Connor Investors
Analyst #1 Analyst #2
Investment Rating Rating Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum = 92

Korelasi Peringkat Spearman


6 di2 6(92)
rs  1  1  0.4424
n(n  1)
2
10(100  1)
Coefficient of Pearson Correlation
• Measures the relative strength of the linear relationship
between two variables

• Population correlation coefficient:

Cov (x , y)
ρ
σXσY
• Sample correlation coefficient:
Cov (x , y)
r
sX sY
Features of Correlation Coefficient, r

• Unit free
• Ranges between –1 and 1
• The closer to –1, the stronger the negative linear relationship
• The closer to 1, the stronger the positive linear relationship
• The closer to 0, the weaker any positive linear relationship
Scatter Plots of Data with Various
Correlation Coefficients
Y Y Y

X X X
r = -1 r = -.6 r=0

Y
Y Y

X X X
r = +1 r = +.3 r=0
Using Excel to Find
the Correlation Coefficient
• Select
Tools/Data Analysis
• Choose Correlation from the
selection menu
• Click OK . . .
Using Excel to Find
the Correlation Coefficient (continued)

• Input data range and select


appropriate options
• Click OK to get output
Interpreting the Result
Scatter Plot of Test Scores
• r = .733 100

95

• There is a relatively

Test #2 Score
90

85

strong positive linear 80

relationship between 75

70
test score #1 70 75 80 85 90 95 100

Test #1 Score
and test score #2

• Students who scored high on the first test tended to


score high on second test
Introduction to Regression Analysis

• Regression analysis is used to:


• Predict the value of a dependent variable based on the value of at least one
independent variable
• Explain the impact of changes in an independent variable on the dependent
variable
Dependent variable: the variable we wish to explain
(also called the endogenous variable)
Independent variable: the variable used to explain the
dependent variable
(also called the exogenous variable)

Statistics for Business and Economics, 6e


Chap 12-40
© 2007 Pearson Education, Inc.
Linear Regression Model

• The relationship between X and Y is described by a linear function


• Changes in Y are assumed to be caused by changes in X
• Linear regression population equation model

Yi  β0  β1xi  ε i

• Where 0 and 1 are the population model coefficients and  is a random error
term.

Statistics for Business and Economics, 6e


Chap 12-41
© 2007 Pearson Education, Inc.
Simple Linear Regression Model

The population regression model:

Population Random
Population Independent Error
Slope
Y intercept Variable term
Coefficient
Dependent
Variable

Yi  β0  β1Xi  ε i
Linear component Random Error
component

Statistics for Business and Economics, 6e


Chap 12-42
© 2007 Pearson Education, Inc.
Simple Linear Regression Model
(continued)

Y Yi  β0  β1Xi  ε i
Observed Value
of Y for Xi

εi Slope = β1

Predicted Value Random Error for this Xi


of Y for Xi value

Intercept = β0

Xi
X
Statistics for Business and Economics, 6e
Chap 12-43
© 2007 Pearson Education, Inc.
Simple Linear Regression Equation
The simple linear regression equation provides an estimate of the
population regression line

Estimated (or Estimate of the Estimate of the


predicted) y regression regression slope
value for intercept
observation i
Value of x for

yˆ i  b0  b1xi observation i

The individual random error terms ei have a mean of zero

ei  (yi - yˆ i )  yi - (b0  b1xi )


Statistics for Business and Economics, 6e
Chap 12-44
© 2007 Pearson Education, Inc.
Least Squares Estimators
• b0 and b1 are obtained by finding the values of b0
and b1 that minimize the sum of the squared
differences between y and : ŷ
min SSE  min  ei2

 min  (y i yˆ i )2

 min  [y i  (b 0  b1x i )] 2

Differential calculus is used to obtain the coefficient


Statistics for Business and Economics, 6e estimators b0 and b1 that minimize SSE
Chap 12-45
© 2007 Pearson Education, Inc.
Least Squares Estimators
(continued)

• The slope coefficient estimator is


n

 (x  x)(y
i i  y)
sY
b1  i1
n
 rxy
sX
 i
(x
i1
 x) 2 x

• And the constant or y-intercept is

b0  y  b1x

• The regression line always goes through the mean x, y


Statistics for Business and Economics, 6e
Chap 12-46
© 2007 Pearson Education, Inc.
Finding the Least Squares Equation

• The coefficients b0 and b1 , and other


regression results in this chapter, will be found
using a computer
• Hand calculations are tedious
• Statistical routines are built into Excel
• Other statistical analysis software can be used

Statistics for Business and Economics, 6e


Chap 12-47
© 2007 Pearson Education, Inc.
Linear Regression Model Assumptions

• The true relationship form is linear (Y is a linear function of X, plus random error)
• The error terms, εi are independent of the x values
• The error terms are random variables with mean 0 and constant variance, σ2
(the constant variance property is called homoscedasticity)

E[ε i ]  0 and E[ε i ]  σ 2 for (i  1, , n)


2

• The random error terms, εi, are not correlated with one another, so that
E[ε iε j ]  0 for all i  j

Statistics for Business and Economics, 6e


Chap 12-48
© 2007 Pearson Education, Inc.
Interpretation of the Slope and the Intercept

• b0 is the estimated average value of y


when the value of x is zero (if x = 0 is in
the range of observed x values)

• b1 is the estimated change in the average


value of y as a result of a one-unit change
in x

Statistics for Business and Economics, 6e


Chap 12-49
© 2007 Pearson Education, Inc.
Simple Linear Regression Example

• A real estate agent wishes to examine the relationship


between the selling price of a home and its size
(measured in square feet)

• A random sample of 10 houses is selected


• Dependent variable (Y) = house price in $1000s
• Independent variable (X) = square feet

Statistics for Business and Economics, 6e


Chap 12-50
© 2007 Pearson Education, Inc.
Sample Data for House Price Model
House Price in $1000s Square Feet
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700

Statistics for Business and Economics, 6e


Chap 12-51
© 2007 Pearson Education, Inc.
Graphical Presentation
• House price model: scatter plot
450
400

House Price ($1000s)


350
300
250
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
Square Feet

Statistics for Business and Economics, 6e


Chap 12-52
© 2007 Pearson Education, Inc.
Regression Using Excel
• Tools / Data Analysis / Regression

Statistics for Business and Economics, 6e


Chap 12-53
© 2007 Pearson Education, Inc.
Excel Output
Regression Statistics
Multiple R 0.76211 The regression equation is:
R Square 0.58082
Adjusted R Square 0.52842 house price  98.24833  0.10977 (square feet)
Standard Error 41.33032
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Statistics for Business and Economics, 6e


Chap 12-54
© 2007 Pearson Education, Inc.
Graphical Presentation
• House price model: scatter plot and regression
line
450
400

House Price ($1000s)


350 Slope
300
250
= 0.10977
200
150
100
50
Intercept 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet

house price  98.24833  0.10977 (square feet)


Statistics for Business and Economics, 6e
Chap 12-55
© 2007 Pearson Education, Inc.
Interpretation of the Intercept, b0

house price  98.24833  0.10977 (square feet)

• b0 is the estimated average value of Y when the


value of X is zero (if X = 0 is in the range of observed
X values)
• Here, no houses had 0 square feet, so b0 = 98.24833 just
indicates that, for houses within the range of sizes
observed, $98,248.33 is the portion of the house price not
explained by square feet

Statistics for Business and Economics, 6e


Chap 12-56
© 2007 Pearson Education, Inc.
Interpretation of the Slope Coefficient, b1

house price  98.24833  0.10977 (square feet)

• b1 measures the estimated change in the


average value of Y as a result of a one-unit
change in X
• Here, b1 = .10977 tells us that the average value of a
house increases by .10977($1000) = $109.77, on average,
for each additional one square foot of size

Statistics for Business and Economics, 6e


Chap 12-57
© 2007 Pearson Education, Inc.

Anda mungkin juga menyukai