Gabungan Stat 1-7

Konsep Dasar
Statistika
ProgramStudi Sarjana Statistika dan Sains Data
DepartemenStatistika - FMIPA
Outline
• Apa dan Mengapa Statistika
• Pengertian Populasi dan Sampel
• Statistika Deskriptif dan Inferensia
• Pengertian Peubah, Jenis Peubah, dan Skala Pengukuran
Referensi :
Agresti A, Franklin C, Kingenberg B. 2018. Statistics: the art and science
of learning from data. Pearson – Harlow, England.
Apa dan Mengapa Statistika
Fakta tentang perlunya statistika
Aktivitas
keseharian
manusia
sejatinya
merupakan
aktivitas
memproduksi
data.
Dalam sebuah institusi
bisa dipastikan bahwa
kegiatan operasionalnya
juga memproduksi data
Suatu negara juga
sudah pasti
memproduksi data
diantaranya
Data kependudukan
Data Ekonomi
Data Sosial
Data Pertanian
Poin Penting
• Data ada di mana-mana
• Data ada di sekitar kita
• Data perlu dimanfaatkan
Data Diolah Bermanfaat

Pemanfaatan Data dalam kehidupan
o Kehidupan manusia tak terlepas dari MASALAH

o Data dimanfaatkan untuk menyelesaikan masalah
o Solusi dari masalah melahirkan kebijakan
o Kebijakan akan tepat sasaran jika berbasis data yang benar
o Alat yang digunakan adalah STATISTIKA
Statistical Problem Solving
Problems Investigation Solution
Data
Masalah
Pengangguran
Masalah
Prestasi Mahasiswa
https://corona.jakarta.go.id/id/data-pemantauan
Diunduh 30 Agustus 2020 20:50
Apa itu Statistika?
(Agresti, Franklin, Klingenberg)

Merancang
Seni
Statistika = + Menganalisis
Ilmu
Menyimpulkan
Dengan kata lain,
Statistika adalah ilmu yg mempelajari seluk- beluk data.

Mengapa Menggunakan Statistika?
Statistical Problem Solving 3 Main Components of

meliputi 4 komponen Statistics:
proses : 1. Design : Stating the goal
1. Merumuskan statistical &/Statistical Question, how
Question to obtain data
Statistics
2. Mengumpulkan data 2. Description : Summarizing
3. Menganalisis Data and Analyzing Data
4. Menginterpretasikan 3. Inference : Making
hasil analisis Data Decisions and Predictions
Statistical Question :
Apakah ada perbedaan hasil penjualan antara Perlu dirumuskan
berjualan secara online di Shopee dengan Tokopedia? bagaimana
mengumpulkan datanya.
Data Penjualan dalam sehari (pcs)
Tokopedia Shopee
4 4
5 7
7 8 Kesimpulan :
8 9 Analisis
10 10 Statistika Berbeda / tidak?
12 10
14 10
16 11
20 12
25 18
Without Data, you are
just another person
with an opinion.
W. Edward Deming
(Data Scientist)
Pengertian Populasi dan Sampel
Populasi Parameter
Keseluruhan Karakteristik numerik
objek/pengamatan yang Parameter
(Ex : Rata-rata, dari populasi
menjadi pusat perhatian Proporsi,Ragam) Misal :
Misal : Rata-rata pengeluaran
seluruh Mahasiswa PPKU
Seluruh Mahasiswa PPKU
Statistik
Data Statistik Karakteristik numerik
(Ex : Rata-rata,
dari sampel
Sampel Proporsi,Ragam
sampel) Misal :
Himpunan bagian dari populasi Rata-rata pengeluaran
Mahasiswa PPKU dari data
(mewakili) sampel missal kelas
Misal : parallel 19
Sebagian Mahasiswa PPKU yang
menjadi objek pengukuran Statistik merupakan penduga
bagi parameter
Statistika Deskriptif dan Inferensia
Statistika Deskriptif
vs
Populasi Statistika Inferensia
Tingkat Keyakinan
Sampel Statistika Inferensia

Mempelajari kaidah-kaidah pengambilan
keputusan statistika dari data yang dimiliki
Deskriptif dengan menggunakan ilmu peluang
Mempelajari teknik-teknik yang berguna

dalam peringkasan data dan pemberian
gambaran umum tentang data yang dimiliki
Penyajian Peringkasan
Data Data
Statistika Inferensia
Pengujian
Pendugaan
Hipotesis
Inference is the process of drawing conclusions

or making decisions about a population based
on sample results
Tabel
1. Penyajian data Segmen Persentase yang
masyarakat menyukai program
Grafik salah satu TV A (%)
Pelajar SMP/SMA 30
Mahasiswa 70
Pegawai negeri 40
Pegawai swasta 20
Pengusaha 50
Petani 10
Politisi 80
2. Peringkasan data
Statistik Ringkasan
Data Min 43
Max 99
82 50 84 43 67 45 71 51 89 89
Rata-rata 71,23
77 74 55 83 65 73 99 53 77 66 Median 72,5
83 56 72 99 65 58 64 88 80 79 Modus 89
Ragam 232,73
Simpangan Baku 15,25
Statistika Inferensia
Pendugaan
Menduga Pendapatan perkapita
penduduk Indonesia menggunakan
data pendapatan sampel
Pengujian Hipotesis
Menguji kebenaran anggapan yang
menyatakan bahwa pendapatan
perkapita penduduk Indonesia
adalah lebih dari Rp 3 juta per
bulan.
Peubah dan Skala Pengukuran
Karakteristik dari objek yang diamati
• Umur
• Jenis Kelamin Peubah-peubah
• Pekerjaan ini memiliki jenis
• Berat Badan dan Skala
Pengukuran
• Tinggi Badan yang berbeda
• Pendidikan
• dll
Skala Pengukuran Peubah
• Umur
• Berat
• Skor
badan
intelegensi
• Tingkat • Suhu
pendidikan
• Jenis
• Skala likert
kelamin Rasio
• Agama
Interval
Ordinal
Nominal
Tipe Peubah berdasarkan Skala Pengukuran
Peubah
Kategorik Numerik
Nominal Ordinal Interval Rasio

Tipe Peubah berdasarkan jenisnya
Variable
Categorical Numerical
Examples:
 Marital Status
 Are you registered to
vote?
Discrete Continuous
 Eye Color
(Defined categories or
groups) Examples: Examples:
 Number of Children  Weight
 Defects per hour  Voltage
(Counted items) (Measured characteristics)
Data dan Metode Pengumpulan Data
Apa itu Data?
• Data merupakan gugus/himpunan hasil pengukuran karakteristik dari
seluruh objek yang menjadi focus penelitian
• Data menurut periode pengukuran dibedakan menjadi:

• Data Cross-section: merupakan kumpulan hasil pengukuran terhadap beberapa
objek data dan periode waktu tertentu.
• Data Time series: merupakan kumpulan hasil pengukuran terhadap suatu objek,
yang dicatat mengikuti urutan waktu.
• Data panel: merupakan kumpulan hasil pengukuran terhadap beberapa objek, yang
dicatat mengikuti urutan waktu.
• Data space-time adalah merupakan hasil pengukuran suatu objek, yang diamati pada
beberapa lokasi dan mengikuti urutan waktu. Struktur data space-time mirip seperti
data panel. Apa bedanya?
Cross-section Data
Terdiri dari beberapa objek data pada suatu waktu tertentu.
Misalnya data penduduk dan pendapatan perkapita tingkat
kabupaten pada tahun 2015.
Kabupaten Jumlah Penduduk Pendapatan per kapita

(juta) (ribu Rp/bulan)
A 1.3 670
B 0.9 750
C 1.1 1.100
D 1.4 830
…. …. ….
Time-series Data
Time-series merupakan data
yang terdiri atas satu objek
tetapi meliputi beberapa
periode waktu yaitu harian,
bulanan, mingguan, tahunan,
dan lain-lain.
Panel Data (Longitudinal data)
Individu waktu Peubah 1 Peubah 2 Peubah 3
Data panel adalah data 1 1

yang menggabungkan 2
…
antara data time-series dan T
data cross-section. 2 1
Sehingga data panel akan 2
memiliki beberapa objek …
T
dan beberapa periode … 1
waktu. 2
…
T
n 1
2
…
T
Data space-time Lokasi waktu Produksi
jagung
Produksi
padi
A 1
2
adalah merupakan hasil …
T
pengukuran suatu B 1
objek, yang diamati 2
…
pada beberapa lokasi T
…. 1
dan mengikuti urutan 2
…
waktu. T
Z 1
2
…
T
Pengumpulan Data
Percobaan/ Survei Administratif

experiment
Data yang diperoleh dari hasil

Data dibangkitkan dengan Data sudah tersedia di pencatatan administrasi suatu
memberikan perlakuan terhadap alam, tinggal dikumpulkan institusi
suatu objek
Misal :
Banyak diterapkan pada Data transaksi perbankan
Sering diterapkan pada penelitian bidang sosial ekonomi /
Data transaksi supermarket
pertanian/IPA/psikologi non IPA
Data ini tergolong Data

Mechanistic
Ketersediaan Data secara Natural
• Data aktivitas manusia yang terekam secara otomatis

• Misalnya :
aktivitas pengguna aplikasi smartphone, browser, media sosial, belanja
online, nonton youtube, dll
aktivitas jalan kaki juga dapat terekam (oleh GMaps, Google Fit, Samsung
Health, dsb)
juga ada aktivitas yang terekam oleh satelit, radar, lalu lintas (oleh CCTV-nya
NTMC Polri),
Dan sebagainya
Big Data
Data sangat besar dan Volume
kompleks, tidak dapat dikelola (Ukuran data sangat besar)
(capture, store, manage,
analyze) dengan software dan
tools pemrograman database
biasa/konvensional
BIG
Variety DATA Velocity
(banyak jenisnya : (Berubah cepat,
Dibutuhkan skill
baru text, gambar, suara) perlu analisis real time)
Dalam analisis data
Penerapan Statistika
Bidang Ekonomi Bidang Bisnis
Bidang Politik Bidang Iklim
Terima Kasih
Preface Slide
STA111 – Statistika dan Analisis Data
Data Understanding:
Deskripsi-Penyajian Data
Program studi Statistika dan Sain Data

Departemen Statistika - FMIPA
Reviu – Tipe Data
Data
Categorical Numerical
Contoh :
 Status Pernikahan
 Memiliki Laptop/PC? (Ya/Tidak)
 Warna Rambu
Discrete Continuous
(Mengkategorikan / mengelompokkan)
Contoh : Contoh :
 Jumlah Laptop yang dimiliki?  Berat Badan

(Menghitung Barang)  Suhu Badan
(Mengukur Karakteristik)
2
Reviu – Skala Pengukuran Peubah
•Umur
•Berat Badan
•Penghasilan
•Suhu Badan
•Pendidikan
•Jenis kelamin
Rasio
•Warna Rambut Interval
Perbandingan antar
Ordinal Pengukuran, ada
NOL MUTLAK
Perbedaan antar
Nominal Mengurutkan
Pengukuran tapi
tidak ada NOL
MUTLAK.
(peringkat, urutan,
Mengkategorikan or scaling)
(tanpa urutan)
Data Kualitatif Data Kuantitatif

Penyajian Data
• Data dalam BENTUK MENTAH biasanya tidak mudah digunakan untuk pengambilan
keputusan.
• Beberapa bentuk Penyajian yang dibutuhkan adalah :

• Tabel
• Grafik / Diagram / Chart
• Tipe Grafik yang digunakan tergantung dari Peubah yang diringkas.
Akbar Rizki, S.Stat, M.Si 4
Outline Tabulasi Satu Peubah Tabel Distribusi Frekuensi
Tabulasi Dua Peubah Cross Table / Tabulasi Silang

Peubah Kategorik
Bar Chart / Diagram Batang
Grafik Pie Chart / Diagram Lingkaran
Diagram Pareto
Tabel Distribusi Frekuensi
Line Chart / Diagram Garis
Histogram
Satu Peubah
Ogive
Peubah Numerik Steam & Leaf Diagram/

Diagram Dahan Daun
AkbarDua
Rizki, S.Stat, M.Si
Peubah Scatter Plot / Diagram Pencar 5
Tabel dan Grafik Peubah Kategorik
(Tables and Graphs for Categorical Variables)
Tabulasi Satu Peubah Tabel Distribusi Frekuensi
Tabulasi Dua Peubah Cross Table / Tabel Kontingensi

Peubah Kategorik
Bar Chart / Diagram Batang
Grafik Pie Chart / Diagram Lingkaran
Diagram Pareto
6
• Tabel Distribusi Frekuensi meringkas data berdasarkan kategorik (kualitatif)
Contoh :
Dalam Suatu Survei, Mahasiswa baru Kelas X Universitas Y ditanyakan mengenai Kendala yang
dihadapi ketika Kuliah dilaksanakan secara Online. Didapatkan respon sebagai berikut.
RESPONDEN KENDALA
1 Sinyal Tabel Distribusi Frekuensi Kendala Kuliah Online
2 Sinyal Mahasiswa Baru Kelas X Universitas Y
3 Sinyal
4 Kuota KENDALA JUMLAH
5 Device (laptop/hp) Device (laptop/hp) 10
6 Kuota
7 Sinyal Kuota 42
8 Kuota Sinyal 67
9 Kuota
… … Tidak ada 3
… … Website terlalu banyak 1
… …
125 Kuota
Listrik 1
126 Device (laptop/hp) Jarang online 1
Peubahnya berupa Kategori
Diagram Batang dan Diagram Lingkaran
• Diagram Batang dan Diagram Lingkaran charts sering digunakan untuk meringkas data kategorik (kualitatif)
• Tinggi Batang atau Ukuran ‘Potongan Pie’ menunjukkan Frekuensi atau Persentase tiap kategori.
Diagram Batang
Diagram Batang
Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
80
Jumlah Kendala
60
40
KENDALA JUMLAH PERSENTASE 20

Device (laptop/hp) 10 8.0% 0
Device Kuota Sinyal Tidak ada Website Listrik Jarang
Kuota 42 33.6% (laptop/hp) terlalu online
Sinyal 67 53.6% banyak
Tidak ada 3 2.4%

Diagram Lingkaran
Website terlalu banyak 1 0.8% Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
Listrik 1 0.8% Website Listrik Jarang online
Jarang online 1 0.8% terlalu 1% 1%
banyak Tidak ada Device
1% 2% (laptop/hp)
8%
Kuota
33%
Sinyal
54% Persentase
dibulatkan
Diagram Pareto
• Menggambarkan data kategorik, digunakan untuk memisahkan “vital few” dari “trivial many”.
• Diagram batang ditampilkan dari tertinggi ke terendah.
• Polygon Kulumatif ditampilan dalam grafik yang sama.
Diagram Pareto
Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
2
KENDALA JUMLAH KENDALA JUMLAH PERSENTASE
Device (laptop/hp) 10 Sinyal 67 53.6%
Kuota
Sinyal
42
67
1 Kuota
Device (laptop/hp)
42
10
33.6%
8.0%
Tidak ada 3 Tidak ada 3 2.4%
Website terlalu banyak 1 Website terlalu banyak 1 0.8%
Listrik 1 Listrik 1 0.8%
Jarang online 1 Jarang online 1 0.8%
Langkah-Langkah :
1. Urutkan berdasarkan Jumlah Kendala, dari yang terbesar ke yang terkecil.
2. Hitung Persentase setiap kategori.
3. Gambarkan secara Grafis
Cross Tables / Tabulasi Silang
• Cross Tables (atau juga dikenal dengan Tabel Kontingensi) memuat daftar jumlah amatan dari setiap
kombinasi dari nilai dua peubah kategorik.
Jika ada r kategori untuk peubah pertama (baris) dan c kategori untuk peubah kedua (kolom)
maka table tersebut dinamakan r x c cross table.
Contoh :
Dalam Suatu Survei, Mahasiswa baru Kelas X Universitas Y selain ditanyakan mengenai Kendala yang dihadapi
ketika Kuliah dilaksanakan secara Online. Juga ditanyakan mengenai Lokasi mereka berada. Didapatkan respon
sebagai berikut. LOKASI
TOTAL
RESPONDEN KENDALA LOKASI Jawa Kalimantan Papua Sulawesi Sumatera
1 Sinyal Jawa
2 Sinyal Sumatera Device (laptop/hp) 9 1 10
3 Sinyal Jawa
4 Kuota Jawa
Jarang online 1 1
5 Device (laptop/hp) Jawa Kuota 29 1 3 9 42
KENDALA
6 Kuota Sumatera
7 Sinyal Jawa Listrik 1 1
8 Kuota Jawa
9 Kuota Jawa Sinyal 48 1 3 15 67
… … …
… … … Tidak ada 3 3
… … …
125 Kuota Jawa
Website terlalu banyak 1 1
126 Device (laptop/hp) Jawa TOTAL 92 1 1 6 25 125
Tabel dan Grafik Peubah Numerik
(Tables and Graphs for Numerical Variables)
Histogram
Satu Peubah
Ogive
Peubah Numerik Stem & Leaf Diagram /
Diagram Dahan Daun
Dua Peubah Scatter Plot / Diagram Pencar

11
• Line chart (Plot Deret Waktu) digunkan untuk menunjukkan nilai-nilai peubah seiring berjalannya
waktu.
• Waktu ditampilkan pada axis horizontal, sedangkan Peubah yang sedang dibahas ditampilkan
pada axis vertikal.
TOTAL KASUS POSITIF COVID KUMULATIF

INDONESIA
200 000
174 796
180 000
160 000
140 000
120 000 108 376
100 000
80 000 56 385
60 000
40 000 26 473
10 118
20 000 1 528
0
Maret April Mei Juni Juli Agustus
• Distribusi Frekuensi adalah Daftar atau Tabel yang berisi class groupings (kategori atau jangkauan kelas)
dan frekuensi kemunculan data di kategori atau kelas tersebut.
• Distribusi Frekuensi adalah salah satu cara meringkas data, data diringkas ke dalam bentuk yang lebih
berguna sehingga memudahkan untuk interpretasi visual data lebih cepat.
• Dalam pembuatan Distribusi Frekuensi dikenal istilah Class Interval dan Class Boundaries, dimana
• Setiap Kelas selalu memiliki lebar (Class Interval) yang sama.
• Class Interval dihitung dengan membagi selisih nilai maksimum dan nilai minimum dengan jumlah
kelas yang diinginkan.
max − 𝑚𝑖𝑛
𝑤 = 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 𝑤𝑖𝑑𝑡ℎ =
𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑙𝑎𝑠 𝑦𝑎𝑛𝑔 𝑑𝑖𝑖𝑛𝑔𝑖𝑛𝑘𝑎𝑛
• Jumlah kelas sebaiknya lebih dari 5 namun tidak lebih dari 10-15 atau bisa juga menggunakan
Sturgis’s Rule dimana jumlah kelas = 3.3 log (n) + 1, dimana n adalah jumlah data.
• Class Interval tidak pernah tumpang tindih.
• Class Interval dibulatkan sehingga memudahkan pembuatan Class interval.
Tabel Distribusi Frekuensi(lanjutan)
Contoh :
Seorang pengamat cuaca mengukur suhu harian selama dua puluh hari ketika musim dingin.
Catatan : Suhu dicatat dalam Fahrenheit.
Data yang dicatat : 24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Langkah :
1. Urutkan data dari kecil ke besar : 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
2. Hitung Jangkauan Data = max – min = 58 – 12 = 46
3. Pilih jumlah kelas = 5 (biasanya antara 5-15). Sturgis’s Rule = 3.3 log (20) + 1 = 5,29
4. Hitung Lebar Kelas = 46 / 5 = 9,2  10 (dibulatkan ke atas)
5. Tentukan Batas Kelas = 10≤x<20, 20≤x<30, 30≤x<40, 40≤x<50, 50≤x<60.
6. Tempatkan data pada kelasnya masing-masing.
Tabel Distribusi Frekuensi(lanjutan)
DATA INTERVAL
12
13 10≤x<20 Tabel Distribusi Frekuensi
17 Suhu selama 20 hari di Musim Dingin (oF)
21
24 FREKUENSI
INTERVAL FREKUENSI PERSENTASE
24
20≤x<30 RELATIF
26
10≤x<20 3 0.15 15
27
27 20≤x<30 6 0.30 30
30
32 30≤x<40 5 0.25 25
35 30≤x<40 40≤x<50 4 0.20 20
37
38 50≤x<60 2 0.10 10
41
43 Total 20 1.00 100
40≤x<50
44
46
53
50≤x<60
58
Histogram
• Grafik dari Tabel Distribusi Frekuensi disebut histogram.
• Axis Horizontal menampilkan garis akhir interval (interval endpoints)
• Axis Vertikal bisa berupa frekuensi, frekuensi relative, persentase.
• Batang dengan tinggi yang sesuai digunakan untuk mewakili jumlah amatan yang ada di setiap
kelas.
Histogram: Daily High Temperature
INTERVAL FREKUENSI
7 6 Tidak ada
10≤x<20 3 celah antar
6 5 Batang
20≤x<30 6 5 4
Frequency
30≤x<40 5 4 3
40≤x<50 4 3 2
2
50≤x<60 2
1 0 0
Total 20 0
0 0 10 10 20 2030 30
40 50
40 6050 70 60
Temperature in Degrees
Pertanyaan – Pertanyaan Pengelompokan Data
3.5
1. Berapa lebar kelas (berapa banyak kelas)? 3

2.5
Frequency
a. Banyak Kelas (Interval Kelas yang Sempit) 2
• dapat menghasilkan distribusi yang sangat tidak rata dengan celah dari kelas 1.5
1
kosong 0.5
• Dapat memberikan indikasi yang buruk tentang variasi frekuensi antar kelas 0
4
8
12
16
20
24
28
32
36
40
44
48
52
56
60
More
Temperature
b. Sedikit Kelas (Interval Kelas yang Lebar)
• Dapat menghilangkan keragaman 12
• Dapat mengaburkan pola variasi yang penting

10
Frequency
8
6
4
2. Bagaimana garis akhir dari interval (endpoints of the 2
intervals) ditentukan? 0
• Sering terjawab dengan trial and error, tergantung pada penilaian 0 30

Temperature
60 More
pengguna.
• Tujuannya adalah untuk menciptakan distribusi yang tidak terlalu
"bergerigi" atau terlalu “rata”
• Tujuannya adalah untuk menunjukkan pola variasi dalam data dengan
tepat
The Ogive
• Menggambarkan Frekuensi Kumulatif.
FREKUENSI PERSENTASE
INTERVAL FREKUENSI PERSENTASE
KUMULATIF KUMULATIF
10≤x<20 3 15 3 15
20≤x<30 6 30 9 45
30≤x<40 5 25 14 70
Ogive: Daily High Temperature
40≤x<50 4 20 18 90
50≤x<60 2 10 20 100 100
Cumulative Percentage
Total 20 100 100 100
80
60
INTERVAL UPPER INTERVAL ENDPOINT PERSENTASE KUMULATIF
40
10<x 10 0
20
10≤x<20 20 15
20≤x<30 30 45 0
10 20 30 40 50 60
30≤x<40 40 70
40≤x<50 50 90
50≤x<60 60 100
Total 20 100
Distribusi Data
Negatively Skewed Distribution Symmetric Distribution Positively Skewed Distribution
12 10 12
9
10 8 10
8 7 8
Frequency
Frequency
Frequency
6
6 5 6
4
4 3 4
2 2
2
1
0 0 0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Distribusi miring negatif (miring Bentuk distribusi dikatakan Distribusi miring positif (miring
ke kiri) memiliki ekor yang simetris jika pengamatan ke kanan) memiliki ekor yang
memanjang ke kiri ke arah nilai seimbang, atau merata, di sekitar memanjang ke kanan ke arah
negatif. pusat. nilai positif.
Catatan : Akan dipelajari lebih lanjut di Pertemuan ke 3.

Stem-and-Leaf Diagram / Diagram Dahan Daun
Sebuah cara mudah untuk melihat sebaran data secara detil suatu set data.
Langkah :
Pisahkan seri data yang diurutkan menjadi digit terdepan (batang) dan digit berikutnya (daun)
Contoh : Data yang telah diurutkan : 21, 24, 24, 26, 27, 27, 30, 32, 38, 41
DAHAN DAUN
21 ditampilkan sebagai 2 1
Diagram Dahan Daun secara Lengkap

N = 10 Leaf Unit : 1.0
DAHAN DAUN
(6) 2 1 4 4 6 7 7
4 3 0 2 8
1 4 1
Stem-and-Leaf Diagram / Diagram Dahan Daun
(lanjutan)
Menggunakan Unit Dahan yang lain
Menggunakan angka ratusan sebagai dahan, maka bulatkan angka puluhan untuk membentuk daun.
Contoh : 613, 632, 658, 717, 722, 750, 776, 827, 841, 859, 863, 891, 894, 906, 928, 933, 955, 982, 1034,
1047,1056, 1140, 1169, 1224 DAHAN DAUN
Diagram Dahan Daun secara Lengkap N = 24 Leaf Unit : 10
DAHAN DAUN
3 6 136
7 7 2 2 58
(6) 8 3 4 66 9 9
11 9 1 3 36 8
6 10 356
3 11 47
1 12 2
Scatter Plot / Diagram Pencar
• Scatter Diagrams digunakan untuk observasi berpasangan yang diambil dari dua peubah numerik.
Peubah yang satu ditaruh di axis vertikal dan yang lain di axis horizontal.
Volume per Hari Biaya per Hari Diagram Pencar

Volume (per hari) dan Biaya (per hari)
23 125
250
26 140
200
29 146
Biaya per Hari

33 160 150
38 167 100
42 170
50
50 188
0
55 195 0 10 20 30 40 50 60 70
Volume Per Hari
60 200
Pengayaan
(Enrichment)
23
Membuat Grafik Data Kategorik Multivariate
Pada kenyataannya, seringkali yang ingin disajikan terdiri dari banyak peubah, sehingga penyajian data
bisa dikombinasikan.
Side by side bar charts Side by side charts
Investment 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Investor A Investor B Investor C Total
Category East 20.4 27.4 59 20.4
Stocks 46.5 55.0 27.5 129.0 West 30.6 38.6 34.6 31.6
Bonds 32.0 44.0 19.0 95.0
CD 15.5 20.0 13.5 49.0
North 45.9 46.9 45 43.9
Savings 16.0 28.0 7.0 51.0
Total 110.0 147.0 67.0 324.0 60
Invesment 50
7,0 40
Savings 28,0
16,0 East
13,5 30 West
CD 20,0
15,5
19,0 North
Bonds 44,0 20
32,0
27,5
Stocks 55,0 10
46,5
0,0 10,0 20,0 30,0 40,0 50,0 60,0 0
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Investor C Investor B Investor A
Scatter Diagrams di Microsoft Excel
Langkah :
1 Blok Dua Peubah beserta Datanya yang ingin
dibuat Scatter Plot.
2 Pilih Menu “INSERT”
Diagram Pencar
Volume (per hari) dan Biaya (per hari)
250
200
Biaya per Hari

150
3 Pada SubMenu “CHART”, 100
Pilih “Insert Scatter (X,Y) or 50

Buble Chart” 0
0 10 20 30 40 50 60 70
4 Pilih “SCATTER” Volume Per Hari
5 Maka anda bisa mendapat “Scatter

Plot/Diagram Pencar”
Histograms in Excel
Untuk membuat Histogram pada Ms Excel, anda perlu mengaktifkan Add In “Data Analysis”.
Langkah Aktivasi Add-in:
1 Klik “FILE”
2 Klik “OPTION”
Histograms in Excel
(lanjutan)
3 Klik “Add-ins”
4 Klik “Go…”
Histograms in Excel
(lanjutan)
5 Klik sehingga muncul ✔ menu “Analysis

Toolpak”
6 Klik “OK”
7 Maka pada Menu “Data”
8 Akan muncul Sub Menu “Analysis – Data

Analysis”
Histograms in Excel
(lanjutan)
Langkah Membuat Histogtam
Jika Anda, sudah klik Data Analysis sebagaimana
1 ditunjukkan sebelumnya, Anda bisa memilih Histogram
lalu Klik OK.
Di sini Anda bisa memasukan Data yang hendak dibuat

2 Histogram.
Di sini Anda bisa memasukan BIN Range dari Histogram.

3
4 Klik sehingga, muncul ✔ pada Chart Output.

Histograms in Excel
(lanjutan)
Histogram Langkah Membuat Histogtam

8
Frequency
6
4
2 Frequency
5 Maka akan muncul bentuk default.
0
10 20 30 40 50 60 More
Bin
Histogram
8
Frequency
4
Frequency
2
0
10 20 30 40 50 60 More
Bin
6 Jika Gap Width pada Format Data Series dibuat = 0, maka

akan muncul Histogram sebagai berikut.
Terima Kasih
Tim Editor: I Made Sumertajaya-Yeni Anggraini-Akbar Rizki

31
Preface Slide

Statistika dan Analisis Data (STA111)
Data Understanding:
Deskripsi-Peringkasan Data
Program Studi Statistika dan Sain Data

Departemen Statistika - FMIPA
Outline
Ukuran Pemusatan Data
Ukuran Penyebaran Data
Boxplot

Deskripsi Data secara Numerik
Ukuran Pemusatan Ukuran Penyebaran
Arithmetic Mean Range
Weighted Mean Interquartile Range
Median Variance
Quartil Standard Deviation
Mode Coefficient of Variation
Covariance
3
Ukuran Pemusatan Data
(Measure of Central Tendency)
4
Ukuran Pemusatan
Mean Median Mode

n
x i
x i 1
n
Rata-rata Aritmetika Titik tengah daya yang Nilai yang paling
sudah diurutkan sering muncul.
5
Mean
• Rata-Rata Aritmetika (mean) adalah Ukuran Pemusatan yang paling
umum digunakan.
• merupakan ukuran yang menimbang data menjadi dua kelompok
data yang memiliki massa yang sama
• Untuk POPULASI sejumlah N :
N
x x1  x 2    x N
i Nilai-Nilai Amatan pada Populasi
μ 
i1
Jumlah Populasi
N N
• Untuk SAMPEL
n
sejumlah n :
x i
x1  x 2    x n Nilai-Nilai Amatan pada Sampel
x i1

n n Jumlah Sampel 6
Mean (continued)
• Ukuran Pemusatan yang Paling Umum digunakan.
• Mean = Jumlah Total dibagi dengan banyaknya data.
• Dipengaruhi oleh Nilai Ekstrim (Outliers atau Pencilan)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Mean = 3 Mean = 4
1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5
7
Weighted Mean
(Mean Terboboti)
• Mean terboboti dari suatu data adalah
w x i i
w1x1  w 2 x 2    w n x n
x i1

w  wi
• Dimana wi bobot dari amatan ith
• Ketika data sudah dikelompokkan dalam sebanyak n kelompok, dengan memberi

bobot nilai wi pada kelompok ith
8
Median
• Dalam data yang urut, Median adalah nilai yang tepat di tengah (50% data di
atasnya, 50% data di bawahnya)
Pencilan
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Median = 3 Median = 3
• Tidak dipengaruhi oleh nilai pencilan (outliers)
9
Median(continued)
• Langkah Teknis Menghitung Median :
• Urutkan data dari kecil ke besar
𝑛+1 𝑛+1
• Cari posisi median (𝑛𝑚𝑒𝑑 = ) Catatan : 2 bukan NILAI dari Median,
2 hanya menunjukkan POSISI Median
pada data yang telah diurutkan.
• Jika 𝑛𝑚𝑒𝑑 bulat, maka 𝑀𝑒𝑑𝑖𝑎𝑛 = 𝑋 𝑛+1
2
𝑋𝑛 +𝑋𝑛
2 +1
• Jika 𝑛𝑚𝑒𝑑 pecahan, maka 𝑀𝑒𝑑𝑖𝑎𝑛 = 2
2
(rata-rata dua pengamatan yang berada sebelum dan setelah posisi median)
10
Quartiles (Kuartil)
• Kuartil membagi data yang telah diurutkan menjadi 4 bagian, dengan jumlah data
per segmen sama.
25% 25% 25% 25%
Q1 Q2 Q3
 Kuartil Pertama, Q1, nilai dimana 25% data yang diamati lebih
kecil dan 75% data lebih besar.
 Q2 sama dengan Median (50% lebih kecil, 50% lebih besar)
 Hanya 25% data yang diamati lebih besar dari Q3.
11
Quartiles (Kuartil)
(continued)
Langkah menghitung kuartil
Metode Belah dua Metode Interpolasi
• Urutkan data dari kecil ke besar • Urutkan data dari kecil ke besar
• Cari posisi kuartil • Cari posisi kuartil
• nQ2=(n+1)/2 • nq1=(1/4)(n+1)
• nQ1=(nQ2*+1)/2= nQ3, nQ2* posisi • nq2=(2/4)(n+1)
kuartil dua terpangkas (pecahan • nq3=(3/4)(n+1)
dibuang)
• Nilai kuartil dihitung sebagai berikut:
• Nilai kuartil 2 ditentukan sama • Xqi=Xa,i + hi (Xb,i-Xa,i)
seperti mencari nilai median. Kuartil
• Xa,i = pengamatan sebelum posisi kuartil ke-
1 dan 3 prinsipnya sama seperti i, Xb,i = pengamatan setelah posisi kuartil ke-
median tapi kuartil 1 dihitung dari i dan hi adalah nilai pecahan dari posisi
kiri, sedangkan kuartil 3 dihitung kuartil
dari kanan.
12
Quartiles (Kuartil)
(continued)
 Contoh : Temukan Q1
Contoh Data yang telah diurutkan : 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 = terletak pada 0.25(9+1) = 2.5 position pada data
yang telah diurutkan. Jadi gunakan nilai di tengah-tengah
antara nilai kedua dan nilai ketiga,
jadi Q1 = 12.5
13
Mode
• Ukuran Pemusatan Data yang menunjukkan nilai yang paling sering
muncul.
• Tidak dipengaruhi oleh Nilai Ekstrim (outlier atau pencilan)
• Dapat digunakan pada data numerik maupun data kategorik.
• Mungkin ada data tanpa Mode (Modus). Mungkin juga ada beberapa Mode.
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Tidak Ada Mode Mode = 4 Mode = 4 dan 8

14
Contoh
• Berikut adalah harga 5 rumah disebuah bukit di tepi pantai
Harga Rumah
Rp 2.000.000.000
Rp 500.000.000
Rp 300.000.000
Rp 100.000.000
Rp 100.000.000
15
Contoh(continued)
• Berikut adalah harga 5 rumah disebuah bukit di tepi pantai
• Mean : Rp 3.000.000.000/5
Harga Rumah
Rp 2.000.000.000 = Rp 600.000.000
Rp 500.000.000
Rp 300.000.000
Rp 100.000.000 • Median : Nilai Tengah dari data yang diurutkan
Rp 100.000.000
TOTAL = Rp 3.000.000.000
= Rp 300.000.000
• Mode : Nilai yang paling sering muncul

= Rp 100.000.000
16
Manakah Ukuran Pemusatan yang terbaik?
• Mean secara umum digunakan, kecuali ada nilai ekstrim

(outlier atau pencilan) ada di data tersebut.
• Jika ada nilai ekstrim, maka Median yang digunakan karena
Median tidak sensitif terhadap nilai pencilan.
17
Kaitan Bentuk Sebaran dengan Ukuran Pemusatan
18
Mean = Median = Mode
(Measure of Variability)
19
Variation
Range Interquartile Variance Standard Coefficient of

Range Deviation Variation
 Ukuran Penyebaran Data

memberikan informasi tentang
sebaran atau keragaman nilai-nilai
suatu data.
Ukuran Pemusatan Sama,

Namun Ukuran Penyebaran berbeda20
Range (Jangkauan)
• Ukuran Penyebaran Data paling sederhana
• Perbedaan antara data amatan paling besar dan paling kecil :
Range = Xlargest – Xsmallest
Contoh :
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Range = 14 - 1 = 13
21
Kelemahan Range (Jangkauan)
• Tidak memperhatikan pola distribusi data
7 8 9 10 11 12 7 8 9 10 11 12
Range = 12 - 7 = 5 Range = 12 - 7 = 5
• Sensitif dengan Pencilan (Outliers)

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Range = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
Range = 120 - 1 = 119

22
Interquartile Range
(Jangkauan InterKuartil)
• Dapat mengeliminasi masalah akibat Outlier (Pencilan)

• Eliminasi data amatan atas dan bawah, hanya memperhitungkan 50%
data yang ada di tengah.
• Interquartile range = 3rd quartile – 1st quartile
IQR = Q3 – Q1
23
Interquartile Range
(Jangkauan InterKuartil)
(continued)
Contoh :
X Median X
minimum Q1 Q3 maximum
(Q2)
25% 25% 25% 25%
12 30 45 57 70
InterQuartile Range
= 57 – 30
= 27
24
Population Variance
(Ragam Populasi)
• Rata-rata dari kuadrat jarak antara nilai dan Mean
• Population variance:
Dimana μ = population mean

N = population size
xi = ith value of the variable x
25
Sample Variance
(Ragam Contoh)
• Rata-rata (pendekatan) dari kuadrat jarak antara nilai amatan dan

Mean
n
• Sample variance:
 (x  x) i
2
s 
2 i1
n -1
Dimana X = arithmetic mean
n = sample size
Xi = ith value of the variable X
Population Standard Deviasi
(Simpangan Baku Populasi)
• Ukuran Penyebaran Data yang paling sering digunakan

• Menunjukkan keragaman terhadap Mean.
• Memiliki satuan yang sama dengan data awal.
• Population standard deviation :
27
Sample Standard Deviasi
(Simpangan Baku Contoh)
• Ukuran Penyebaran Data yang paling sering digunakan

• Menunjukkan keragaman terhadap Mean.
• Memiliki satuan yang sama dengan data awal.
• Sample standard deviation:

n
 (x  x)
i
2
S i1
n -1
28
Contoh Perhitungan
Simpangan Baku Contoh
Sample
Data (xi) : 10 12 14 15 17 18 18 24
n=8 Mean = 𝑥 = 16
(10  X)2  (12  x)2  (14  x)2    (24  x)2

s
n 1
(10  16) 2  (12  16) 2  (14  16) 2    (24  16) 2


8 1
126 Ukuran Rata-rata Sebaran data disekitar

  4.2426 Mean.
7
29
Mengukur Keragaman
Small standard deviation
Large standard deviation
30
Membandingkan Simpangan Baku
Data A
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21
s = 3.338
Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.926
Data C
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.570
31
Kelebihan Ragam dan Simpangan Baku
• Tiap nilai pada data digunakan dalam perhitungan
• Nilai yang jauh dari Mean diberikan bobot yang lebih.

(karena selisih dari Mean dikuadratkan)
32
The Empirical Rule
• Jika Data Menyebar Normal, maka :
68% 95% 99.7%
μ μ μ
μ  1σ μ  2σ μ  3σ
• ada 68% data di antara 𝜇 ± 𝜎
• ada 95% data di antara 𝜇 ± 2𝜎
• Ada 99,7% data di antara 𝜇 ± 3𝜎
33
Coefficient of Variation
• Mengukur Variasi Relatif antara Ragam terhadap Mean
• Dalam bentuk Persentase (%)
• Dapat digunakan untuk membandingkan 2 atau lebih set data yang
diukur dalam satuan yang berbeda.
 s
CV     100%
x 
34
Membandingkan
Coefficient of Variation
• Saham A:
• Mean Harga tahun Lalu = $50
• Simpangan Baku = $5
s $5
CVA    100%  100%  10% Kedua Saham memiliki
x $50
Simpangan Baku yang
• Stock B: sama, namun saham B
memiliki fluktuasi
• Mean Harga tahun Lalu = $100 relative terhadap pusat
• Simpangan Baku = $5 data, yang lebih rendah.
s $5
CVB    100%  100%  5%
x $100
35
Covariance
• Covariance mengukur kekuatan hubungan liniear diantara dua peubah
• Covariance Populasi:
N
 (x  i x )(y i   y )
Cov (x , y)   xy  i1
N
• Covariance Contoh:
n
 (x i  x)(y i  y)
Cov (x , y)  s xy  i1
n 1
• Hanya mengukur kekuatan hubungan. Tidak mengindikasikan hubungan sebab

akibat.
36
Interpretasi Covariance
• Covariance diantara dua peubah:

Cov(x,y) > 0  x dan y cenderung bergerak ke arah yang sama
Cov(x,y) < 0  x dan y cenderung bergerak ke arah berlawanan
Cov(x,y) = 0 x dan y saling bebas
37
Aproksimasi untuk Data Berkelompok
Suppose a data set contains values m 1, m2, . . ., mk, occurring with frequencies f 1, f2, .
. . fK
• Untuk Population dengan N amatan
K K
 fimi i i
f (m  μ) 2
where
K
N   fi
μ i1
σ 
2 i1 i1
N N
• Untuk Sample dengan n amatan
K
i i
K
 fm  2
f (m x) K
i i where n   fi
x i 1
s 
2 i1
i1
n n 1 38
Terima Kasih

39
Preface Slide

Data Understanding:
Explorasi Data
(Kualitas dan Pola Sebaran Data

Departemen Statistika
Outline:
Apa itu Eksplorasi Data?
Eksplorasi Kualitas Data Pertemuan minggu ke-4
Eksplorasi Pola Sebaran Data
Eksplorasi Perbandingan Antar Grup

Pertemuan minggu ke-5
Eksplorasi Hubungan Antar Peubah
Tim Dept STK - IPB University 2

(What is Data Exploration?)

Explorasi Data
“The best thing about being a statistician is that you get to play in
everyone’s backyard.” – John Tukey (1915-2000)
Pada 1960-an, John Tukey dari Universitas Princeton prihatin bahwa Para Statistisi
terlalu menekankan pada analisis data yang kompleks dan mengabaikan cara yang
lebih sederhana untuk memeriksa dan belajar dari data. Tukey mengembangkan
metode deskriptif baru, dengan judul Exploratory Data Analysis (EDA).
 Eksplorasi data adalah langkah awal sebelum analisis data dilakukan.

 Eksplorasi data dilakukan untuk lebih memahami karakteristik dari data.
 Eksplorasi data dilakukan dengan memvisualisasikan data.
 Penyajian data dalam bentuk tabel dan angka memang cukup bagus, tetapi akan sulit untuk
memahami tren dan polanya.
 Komunikasi informasi tersebut akan jauh lebih mudah dalam bentuk grafik, chart, atau format
visual lainnya.

Boxplot
(Diagram Kotak Garis)
Melihat ukuran penyebaran dan ukuran pemusatan
data.
Melihat adanya data pencilan.
Sebagai alat pembandingan sebaran dua kelompok
data atau lebih.
LANGKAH TEKNIS Untuk lebih memahami Boxplot, bisa dilihat
• Hitung Video berikut (link ada di deskripsi dan komentar):
• Statistik lima serangkai : Min, Q1, Q2, Q3, Max
• Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR)
1. Penjelasan Median (Q2) :
• Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) https://youtu.be/DhxHGzI-PLE?t=294
• Identifikasi data 2. Penjelasan Q1, Q2, Q3 :
• Jika data < PDB atau data > PDA maka data dikatakan memiliki Pencilan https://youtu.be/DhxHGzI-PLE?t=394
• Gambar 3. Penjelasan IQR : https://youtu.be/2yih-
• Kotak dengan batas Q1 dan Q3
• Jika Tidak ada Pencilan, maka Tarik garis dari Q1 sampai data terkecil dan 1iOfGw?t=130
tarik garis dari Q3 sampai data terbesar 4. Penjelasan mengenai Boxplot :
• Jika ada Pencilan Tarik garis Q1 dan atau Q3 sampai data sebelum pencilan
• Pencilan digambarkan dengan asterik https://youtu.be/vTwscU1nESI 6
Tim Dept STK - IPB University
Boxplot
(lanjutan)
2 Langkah membuat Boxplot di Ms. Excel :

1. Pilih seluruh data yang ingin dibuat Boxplot.
4 3 2.
3.
Pilih Menu “Insert”.
Klik Panah Kecil untuk “See All Charts”
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.
7
5 6
Boxplot
(lanjutan)

Histogram
Melihat ukuran penyebaran dan
ukuran pemusatan data
Melihat adanya data outlier
Mendeteksi ada bimodus/tidak
Untuk lebih memahami Histogram, bisa dilihat

Video berikut (link ada di deskripsi dan komentar):
1. Tabel Distribusi Frekuensi :
https://youtu.be/t2KaSBYwanw?t=70
2. Histogram :

Histogram
(lanjutan)
2 Langkah membuat Histogram di Ms. Excel :

1. Pilih seluruh data yang ingin dibuat Histogram.
3 2. Pilih Menu “Insert”.
4 3.
4.
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.
7
5 6
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)
60 15; 60
13; 58
Sales Revenue
14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60

Scatter Plot
(lanjutan)
2 Langkah membuat Scatter Plot di Ms. Excel :
3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.
Y
70
60
50
40
5
30
20
10

0
0 2 4 6 8 10 12 14
12
16
Eksplorasi Kualitas Data
(Identifikasi Keberadaan Nilai-Nilai Ekstrem)

Explorasi Kualitas Data
 Nilai ekstrem (atau dikenal sebagai 'pencilan’ (outlier))
adalah titik data yang tersebar di ekor distribusi suatu
data
 Nilai-nilai ekstrim tersebut akan memengaruhi analisis
statistik
 Bagaimana cara mendeteksi nilai ekstrem menggunakan
eksplorasi data?  Boxplot, Histogram, Scatter Plot

Boxplot
(Contoh Manual Boxplot untuk mendeteksi Nilai Ekstrem)
Cereal Sodium Data.
Sebanyak 20 macam sereal diukur kandungan Sodium (mg)
didalamnya, dan didapat data (yang sudah diurutkan) sebagai
berikut : 0, 50, 70, 100, 130, 140, 140, 150, 160, 180, 180, 180,
190, 200, 200, 210, 210, 220, 290, 340
Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎
Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Boxplot
(Contoh Visual Boxplot untuk mendeteksi Nilai Ekstrem)
Perhatikan contoh berikut ini :

 Gambar boxplot ini menampilkan
profil pelanggan dan menemukan
bahwa pendapatan tahunan rata-rata
pelanggan adalah $ 0,8 juta.
 Namun, ada dua pelanggan yang
memiliki pendapatan tahunan $ 4
dan $ 4,2 juta.
 Pendapatan tahunan kedua
pelanggan ini jauh lebih tinggi
daripada populasi lainnya
Pencilan (Outlier).

Boxplot
(Contoh Visual Boxplot untuk mendeteksi Nilai Ekstrem)
Hasil Quiz 1
(26/09/2020) kelas SS09

Histogram
(Contoh Visual Histogram untuk mendeteksi Nilai Ekstrem)
NILAI EKSTREM NILAI EKSTREM KAH?

Histogram with Boxplot
Pencilan diidentifikasi sebagai nilai terbesar
dalam kumpulan data, 1441, dan muncul
sebagai lingkaran di sebelah kanan boxplot
maupun histogram.
 Pencilan harus diselidiki dengan hati-hati.

 Seringkali pencilan berisi informasi berharga
tentang proses yang sedang diselidiki atau proses
pengumpulan dan pencatatan data.
 Sebelum mempertimbangkan kemungkinan
penghapusan pencilan dari data, terlebih dahulu
harus dicoba untuk dipahami mengapa pencilan
tersebut muncul dan apakah kemungkinan nilai
serupa akan terus muncul.

(Contoh Visual Histogram untuk mendeteksi Nilai Ekstrem)
Dengan
Nilai Ekstrem
Ketika Nilai
Ekstrem pada data
dibuang

Scatter Plot
(Contoh Scatter Plot untuk mendeteksi Nilai Ekstrem)
Scatter plot disamping menyajikan data untuk

siswa dalam perjalanan backpacking. (Setiap poin
mewakili seorang siswa.)
Perhatikan bagaimana dua titik yang berwarna
merah dimana posisinya jauh dari data lainnya.
Kedua titik tersebut diberi label Brad dan
Sharon, yang merupakan nama siswa yang
mereka wakili.
Sharon bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih berat.
Brad bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih ringan.
Scatter Plot
 Pencilan dapat terdiri dari dua jenis: Univariat dan Multivariat

 Misalkan kita memahami hubungan antara tinggi dan berat.
 Dari kedua boxplot untuk tinggi dan berat badan, tidak terlihat adanya pencilan.
 Namun ketika kedua peubah divisualisasikan dengan menggunakan Scatter plot, terlihat adanya
pencilan.
 Dua nilai di bawah dan satu di atas rata-rata dalam segmen berat dan tinggi tertentu.
Scatter Plot
120
100
80
Grade
60
40
20 Scatter plot nilai quiz vs lama waktu

pengerjaan
0
0 5 10 15 20 25 30 35
time


(Histogram)
Histogram adalah salah satu alat yang sering

digunakan untuk melihat distribusi dari suatu
data
Yang perlu dicermati:

1. Apakah data mengumpul atau berpencar,
atau ada pengamatan yang memencil?
2. Apakah ada satu puncak (unimodal) atau ada
dua puncak (bimodal)?
3. Bentuk sebaran data  simetrik atau
menjulur (skewed)

(Histogram – Unimodal dan Bimodal)

(Pola Sebaran Data)
Relatif sedikit orang Relatif sedikit
meninggal di usia
Banyak orang kaya, di ekor
muda, di ekor kiri kanan panjang.
panjang. Pengamatan di sini
Life Span (Masa Hidup) IQ Income (Pendapatan)

menjulur ke kiri. menyebar Simetrik menjulur ke kanan.

(Histogram – Pola Sebaran Data)
Pada histogram disamping, dapat  Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan  Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri  (Histogram of % Fat)
Distribusinya kira-kira simetris dan  Sementara untuk distribusi yang menjulur ke kiri sebaliknya 
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
(Histogram)
 Apakah ada satu atau dua

puncak?
 Apakah simetris atau
menjulur?
 Apakah ada nilai eksrem?

(Histogram)
Infectious disease “novel corona virus disease

(COVID-19)” data set of different states and union
territories (UTs) in India.
Histogram disamping menampilkan histogram dari

1. total kasus COVID-19,
2. total kasus COVID-19 yang sembuh dan
3. Total kasus COVID-19 yang meninggal
di India
 Apakah ada satu atau dua puncak?

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/  Apakah simetris atau menjulur?

Terima Kasih

Preface Slide

Data Understanding:
Explorasi Data
(Hubungan antar peubah dan
perbandingan antar grup)

Departemen Statistika
Outline:



Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.

(Histogram vs Boxplot)

(Boxplot)
 Box plot di samping menunjukkan bahwa median

dari jumlah penjualan dengan iklan di youtube lebih
besar dari pada jumlah penjualan dengan iklan di
facebook.
 Jarak antar kuartil dari kedua boxplot sangat
Penjualan
berbeda. JAK Youtube jauh lebih lebar dari

facebook. Namun keduanya menunjukkan sebaran
data yang simetris
 Jadi dapat disimpulkan bahwa jumlah penjualan
terkait dengan media iklan yang dipilih.
Facebook Youtube

(Boxplot)
Contoh berikut berkaitan dengan berat lahir bayi yang menunjukkan sindrom gangguan pernapasan idiopatik parah
(SIRDS), dan pertanyaan ‘Apakah mungkin menghubungkan kemungkinan bertahan hidup dengan berat
lahir?

(Boxplot) BERAT LAHIR
Meninggal Hidup
MINimum 1.030 1.130
Kuartil pertama (Q1) 1.246 1.740
Median (Q2) 1.600 2.200
Kuartil ketiga (Q3) 2.070 2.765
Meninggal Hidup
MAKSimum 2.730 3.640
 Box plot di atas menunjukkan bahwa median berat lahir bayi yang selamat, lebih besar dari pada bayi yang meninggal.
 Jarak antar kuartil dari kedua boxplot cukup mirip (seperti yang ditunjukkan oleh panjang kotak), meskipun terlihat bahwa secara keseluruhan
boxplot untuk bayi yang masih selamat lebih besar dibandingkan boxplot untuk bayi yang meninggal (seperti yang ditunjukkan oleh jarak antara
ujung dua garis untuk setiap boxplot).
 Meskipun kedua kelompok data tampak menjulur ke kanan, namun kelompok untuk bayi yang selamat sedikit lebih menjulur daripada
kelompok bayi yang meninggal.
 Secara keseluruhan, dua grup data terlihat seolah-olah memiliki sebaran yang sama, tetapi berat lahir bayi yang selamat memiliki sebaran lebih
beragam dibandingkan berat lahir bayi yang meninggal. Median berat lahir bayi yang meninggal lebih kecil dari kuartil bawah berat lahir
bayi yang selamat . Jadi dapat disimpulkan bahwa kelangsungan hidup bayi terkait dengan berat bayi ketika lahir.
(Boxplot)
pengeluaran per bulan mahasiswa TPB perempuan
lebih tinggi dari mahasiswa TPB laki-laki
 Jarak antar kuartil dari kedua boxplot cukup mirip
(seperti yang ditunjukkan oleh panjang kotak),
meskipun terlihat bahwa secara keseluruhan boxplot
untuk mahasiswa TPB perempuan lebih besar
dibandingkan mahasiswa TPB laki-laki
 Boxplot mahasiswa TPB perempuan tampak
menjulur ke kanan, sementara boxplot mahasiswa
TPB laki-laki cenderung simetrik.
 Di kedua boxplot terlihat ada pencilan atas.
 Secara keseluruhan, Median pengeluaran per bulan
mahasiswa TPB perempuan lebih besar dari kuartil
atas pengeluaran per bulan mahasiswa TPB laki-laki.
Jadi dapat disimpulkan bahwa pengeluaran per bulan
mahasiswa TPB ada kaitannya dengan jenis kelamin
(Boxplot)
Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.
Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1

(Boxplot)
Infectious disease “novel corona

virus disease (COVID-19)” data set of
different states and union territories
(UTs) in India.
Boxplot disamping menampilkan

boxplot dari total kasus COVID-19,
total kasus COVID-19 yang sembuh
dan yang meninggal di India dibagi
per cluster wilayah (Cluster I sd VI)
Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
(Boxplot)
Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/

(Boxplot)

(Boxplot)
Tabel di samping berisi data tentang ukuran
(jumlah anak) dari keluarga lengkap dari dua
kelompok ibu di Ontario. Kelompok pertama
adalah ibu-ibu yang memiliki tahun Pendidikan
≤ 6 tahun, sementara kelompok kedua adalah
ibu-ibu yang tahun pendidikannya ≥ 7 tahun.
1. Bandingkan kedua kelompok data

berdasarkan kedua boxplot di samping !
2. Kesimpulan apa yang dapat Anda tarik
tentang hubungan antara pendidikan dan
jumlah anak dalam keluarga?
(Histogram)
 Selain dengan boxplot, kita dapat melakukan
perbandingan antar grup dengan menggunakan
histogram
 Membuat histogram yang dikelompokkan pada
dasarnya membuat histogram individual secara
terpisah untuk setiap grup dan menempatkannya
pada sumbu yang sama dan menggunakan lebar
kotak yang sama
 Skala yang digunakan harus identik pada sumbu y
maupun sumbu x sehingga kita dapat
membandingkan nilai di seluruh grup yang
dibandingkan

(Histogram)
Saat membandingkan beberapa grup dengan histogram,
perlu mempertimbangkan hal sebagai berikut :
 Bagaimana bentuk sebaran dari grup yang
dibandingkan? Apakah ada sebaran dari suatu grup
yang menjulur sedangkan grup yang lainnya tidak ?
Apakah semua kelompok memiliki jumlah modus yang
sama?
 Apakah grup-grup tersebut memiliki nilai rata-
rata/median/modus yang sama?
 Apakah semua grup memiliki sebaran yang serupa?
 Apakah suatu grup tampaknya memiliki lebih banyak
variasi daripada yang lain?
 Apakah salah satu grup terdapat pencilan?

(Histogram)
Group A Group B
 Sebaran Grup A simetris dan sebaran Grup B menjulur ke kanan.

 Median Grup A, 55, lebih besar dari median Grup B, 40.
 Namun, kedua grup memiliki sebaran yang sama, dengan rentang interkuartil (IQR)
untuk Grup A sama dengan 23, dan untuk Grup B sama dengan 25.
 Kedua grup tidak memiliki pencilan.

(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di
negara berkembang dan di negara maju
Pada negara maju (Western Europe and
Negara Berkembang Negara Maju North America), income menjadi
sedikit lebih meningkat pada tahun
2010 dibandingkan tahun 1970, tetapi
secara persentase, income negara-
negara berkembang tampaknya lebih
meningkat, terjadi pergeseran ke kanan
pada tahun 2010 dibandingkan tahun
1970. Dari histogram di samping
terlihat juga bahwa proporsi income
negara berkembang yang
berpenghasilan lebih dari $ 16 per hari
Sumber : https://rafalab.github.io/dsbook/gapminder.html meningkat secara substansial.
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di negara berkembang dan di negara maju
Negara Berkembang Negara Maju
Untuk melihat wilayah tertentu

mana yang paling meningkat, Dari Boxplot di atas terlihat bahwa income tahun 2010 dari setiap
eksplorasi perbandingan antar wilayah di negara berkembang lebih meningkat dari pada tahun
tahun 1970 dan 2010 dipecah 1970. Peningkatan terbesar terjadi pada wilayah Asia timur diikuti
per wilayah dengan Amaerika latin, others. Sementara wilayah sub-Saharan
menggunakan boxplot (note : peningkatannya kecil namun terdapat beberapa negara di sub-
Saharan yang menjadi pencilan
west -> negara maju)
Sumber : https://rafalab.github.io/dsbook/gapminder.html

(Scatter Plot)
 Scatter Plots (juga disebut diagram pencar)
digunakan untuk melihat hubungan antara dua
peubah
 Sebagai contoh, scatter plot disamping
menunjukkan diagram pencar untuk dua peubah
yang memiliki hubungan nonlinier di antara
keduanya
 Setiap titik pada diagram pencar mewakili satu
pasangan (X, Y).
 Karena diagram pencar bukan garis lurus,
hubungan antara X dan Y adalah nonlinier.
 Perhatikan bahwa dimulai dengan nilai X yang
paling negatif, dengan meningkatnya X, Y pada
awalnya menurun; lalu ketika X terus meningkat, Y
meningkat.

(Scatter Plot)
 Scatter plot menunjukkan hubungan dua
peubah yang memiliki hubungan linier
positif yang kuat.
 Scatter plot tersebut menunjukkan
kecenderungan yang sangat kuat untuk X
dan Y, semakin naik nilai X maka nilai Y
juga akan semakin meningkat.
 Garis lurus adalah garis tren, dirancang
sedekat mungkin dengan semua titik data.
 Garis tren memiliki kemiringan positif,
yang menunjukkan hubungan positif
antara X dan Y.
(Scatter Plot)
Scatter plot berikutnya menunjukkan

hubungan dua peubah yang memiliki
hubungan linier positif lemah.
Perhatikan bahwa titik-titik pada grafik
lebih tersebar di sekitar garis tren
daripada di gambar sebelumnya, karena
hubungan yang lebih lemah antara X
dan Y.

(Scatter Plot)
 Scatter plot menunjukkan hubungan

dua peubah yang memiliki hubungan
linier negatif yang kuat.
kecenderungan yang sangat kuat untuk
X dan Y dengan arah yang berlawanan,
semakin naik nilai X maka nilai Y
semakin menurun
 Garis tren memiliki kemiringan negatif,
yang menunjukkan hubungan negatif
antara X dan Y.

(Scatter Plot)

hubungan linier negatif lemah.
dan Y.

(Scatter Plot)
Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.

(Scatter Plot)
Correlation r = 0 Correlation r = – 0,3 Correlation r = 0,5
Correlation r = – 0,7 Correlation r = 0,9 Correlation r = – 0,99

(Scatter Plot)
Scatter plot antara jumlah tweet dan

jumlah pengguna Internet per
negara bagian yang tercantum
dalam sensus Conatel 2015 di
Venezuela

(Scatter Plot)
Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25
Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook

(Scatter Plot)
Ada anggapan yang terbentuk bahwa bahwa dunia dibagi menjadi dua kelompok: dunia barat (Eropa Barat dan
Amerika Utara), yang dicirikan oleh angka harapan hidup yang panjang dan keluarga kecil, versus dunia berkembang
(Afrika, Asia, dan Amerika Latin) yang dicirkan dengan angka harapan hidup yang pendek dan keluarga besar.
Perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per wanita) tahun
1962
Terlihat bahwa angka harapan hidup negara-

negara maju (Europe dan Amerika) lebih tinggi
dibandingkan negara-negara berkembang. Terlihat
juga bahwa ada beberapa titik negara berkembang
di Asia dan Oceania juga memiliki angka harapan
hidup yang tinggi. Namun Sebagian besar negara
berkembang memiliki angka harapan hidup yang
rendah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012
Terlihat bahwa terjadi peningkatan angka

harapan hidup baik di negara maju maupun di
negara berkembang pada tahun 2012. Di
wilayah Amerika, Asia, Eropa dan Oceania
terlihat bahwa selain angka harapan hidup
meningkat namun jumlah rata-rata anak per
wanita menurun pada tahun 2012. Secara umum
scatter plot di samping menunjukkan hubungan
dua peubah (angka harapan hidup versus
tingkat kesuburan) pada tahun 2012 di beberapa
wilayah memiliki hubungan linier negatif lemah
kecuali wilayah Eropa.
(Scatter Plot)
Scatter plot antara rata-rata income per hari dalam dollar

versus angka kematian bayi
Dari scatter di samping, ada hubungan linier positif
yang kuat antar kedua peubah. Selain itu dapat dilihat
juga ada keragaman yang cukup tinggi antar
group/wilayah. Negara-negara dari kawasan yang
sama bisa sangat berbeda dan negara-negara dengan
pendapatan yang sama dapat memiliki tingkat
kelangsungan hidup yang berbeda. Misalnya,
meskipun rata-rata Afrika Sub-Sahara memiliki
tingkat kesehatan dan ekonomi yang lebih buruk,
terdapat keragaman yang cukup tinggi di dalam
kelompok tersebut. Mauritius dan Botswana lebih
baik daripada Angola dan Sierra Leone, dengan
Mauritius sebanding dengan negara-negara Barat.
(LATIHAN)
Pleasant Unpleasant  Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67  Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32  Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47  Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93

Terima Kasih

Preface Slide

STK111 – Statistika dan Analisis Data
Memahami Data melalui

Explorasi Data
Edited by: Yeni Angraeni-Akbar Rizki

Departemen Statistika dan Sain Data
Outline:


(What is Data Exploration?)

Explorasi Data
“The best thing about being a statistician is that you get to play in
everyone’s backyard.” – John Tukey (1915-2000)
Pada 1960-an, John Tukey dari Universitas Princeton prihatin bahwa Para Statistisi
terlalu menekankan pada analisis data yang kompleks dan mengabaikan cara yang
lebih sederhana untuk memeriksa dan belajar dari data. Tukey mengembangkan
metode deskriptif baru, dengan judul Exploratory Data Analysis (EDA).
 Eksplorasi data adalah langkah awal sebelum analisis data dilakukan.

 Eksplorasi data dilakukan untuk lebih memahami karakteristik dari data.
 Eksplorasi data dilakukan dengan memvisualisasikan data.
 Penyajian data dalam bentuk tabel dan angka memang cukup bagus, tetapi akan sulit untuk
memahami tren dan polanya.
 Komunikasi informasi tersebut akan jauh lebih mudah dalam bentuk grafik, chart, atau format
visual lainnya.

Boxplot
(Diagram Kotak Garis)
Melihat ukuran penyebaran dan ukuran pemusatan
data.
Melihat adanya data pencilan.
Sebagai alat pembandingan sebaran dua kelompok
data atau lebih.
LANGKAH TEKNIS Untuk lebih memahami Boxplot, bisa dilihat
• Hitung Video berikut (link ada di deskripsi dan komentar):
• Statistik lima serangkai : Min, Q1, Q2, Q3, Max
• Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR)
1. Penjelasan Median (Q2) :
• Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) https://youtu.be/DhxHGzI-PLE?t=294
• Identifikasi data 2. Penjelasan Q1, Q2, Q3 :
• Jika data < PDB atau data > PDA maka data dikatakan memiliki Pencilan https://youtu.be/DhxHGzI-PLE?t=394
• Gambar 3. Penjelasan IQR : https://youtu.be/2yih-
• Kotak dengan batas Q1 dan Q3
• Jika Tidak ada Pencilan, maka Tarik garis dari Q1 sampai data terkecil dan 1iOfGw?t=130
tarik garis dari Q3 sampai data terbesar 4. Penjelasan mengenai Boxplot :
• Jika ada Pencilan Tarik garis Q1 dan atau Q3 sampai data sebelum pencilan
• Pencilan digambarkan dengan asterik https://youtu.be/vTwscU1nESI 6
Boxplot
(lanjutan)
2 Langkah membuat Boxplot di Ms. Excel :

1. Pilih seluruh data yang ingin dibuat Boxplot.
4 3 2.
3.
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.
7
5 6
Boxplot
(lanjutan)

Histogram
Melihat ukuran penyebaran dan
ukuran pemusatan data
Melihat adanya data outlier
Mendeteksi ada bimodus/tidak
Untuk lebih memahami Histogram, bisa dilihat

Video berikut (link ada di deskripsi dan komentar):
1. Tabel Distribusi Frekuensi :
2. Histogram :

Histogram
(lanjutan)
2 Langkah membuat Histogram di Ms. Excel :

1. Pilih seluruh data yang ingin dibuat Histogram.
3 2. Pilih Menu “Insert”.
4 3.
4.
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.
7
5 6
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)
60 15; 60
13; 58
Sales Revenue
14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60

Scatter Plot
(lanjutan)
2 Langkah membuat Scatter Plot di Ms. Excel :
3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.
Y
70
60
50
40
5
30
20
10

0
0 2 4 6 8 10 12 14
12
16
Eksplorasi Kualitas Data

Explorasi Kualitas Data
 Nilai ekstrem (atau dikenal sebagai 'pencilan’ (outlier))
adalah titik data yang tersebar di ekor distribusi suatu
data
 Nilai-nilai ekstrim tersebut akan memengaruhi analisis
statistik
 Bagaimana cara mendeteksi nilai ekstrem menggunakan
eksplorasi data?  Boxplot, Histogram, Scatter Plot

Boxplot
(Contoh Manual Boxplot untuk Pendugaan Nilai Ekstrem)
Cereal Sodium Data.
Sebanyak 20 macam sereal diukur kandungan Sodium (mg)
didalamnya, dan didapat data (yang sudah diurutkan) sebagai
berikut : 0, 50, 70, 100, 130, 140, 140, 150, 160, 180, 180, 180,
190, 200, 200, 210, 210, 220, 290, 340
Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎
Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Boxplot
(Contoh Visual Boxplot untuk Pendugaan Nilai Ekstrem)
Perhatikan contoh berikut ini :

 Gambar boxplot ini menampilkan
profil pelanggan dan menemukan
bahwa pendapatan tahunan rata-rata
pelanggan adalah $ 0,8 juta.
 Namun, ada dua pelanggan yang
memiliki pendapatan tahunan $ 4
dan $ 4,2 juta.
 Pendapatan tahunan kedua
pelanggan ini jauh lebih tinggi
daripada populasi lainnya
Pencilan (Outlier).

Histogram
(Contoh Visual Histogram untuk Pendugaan Nilai Ekstrem)
NILAI EKSTREM NILAI EKSTREM KAH?

Pencilan diidentifikasi sebagai nilai terbesar
dalam kumpulan data, 1441, dan muncul
sebagai lingkaran di sebelah kanan boxplot
maupun histogram.
 Pencilan harus diselidiki dengan hati-hati.

 Seringkali pencilan berisi informasi berharga
tentang proses yang sedang diselidiki atau proses
pengumpulan dan pencatatan data.
 Sebelum mempertimbangkan kemungkinan
penghapusan pencilan dari data, terlebih dahulu
harus dicoba untuk dipahami mengapa pencilan
tersebut muncul dan apakah kemungkinan nilai
serupa akan terus muncul.

(Contoh Visual Histogram untuk Pendugaan Nilai Ekstrem)
Dengan
Nilai Ekstrem
Ketika Nilai
Ekstrem pada data
dibuang

Scatter Plot
(Contoh Scatter Plot untuk Pendugaan Nilai Ekstrem)
Scatter plot disamping menyajikan data untuk

siswa dalam perjalanan backpacking. (Setiap poin
mewakili seorang siswa.)
Perhatikan bagaimana dua titik yang berwarna
merah dimana posisinya jauh dari data lainnya.
Kedua titik tersebut diberi label Brad dan
Sharon, yang merupakan nama siswa yang
mereka wakili.
Sharon bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih berat.
Brad bisa dianggap orang yang aneh karena dia
membawa ransel yang jauh lebih ringan.
Scatter Plot
(Contoh Scatter Plot untuk Pendugaan Nilai Ekstrem)
 Pencilan dapat terdiri dari dua jenis: Univariat dan Multivariat

 Misalkan kita memahami hubungan antara tinggi dan berat.
 Dari kedua boxplot untuk tinggi dan berat badan, tidak terlihat adanya pencilan.
 Namun ketika kedua peubah divisualisasikan dengan menggunakan Scatter plot, terlihat adanya
pencilan.
 Dua nilai di bawah dan satu di atas rata-rata dalam segmen berat dan tinggi tertentu.

(Histogram)
Histogram adalah salah satu alat yang sering

digunakan untuk melihat distribusi dari suatu
data
Yang perlu dicermati:

1. Apakah data mengumpul atau berpencar,
atau ada pengamatan yang memencil?
2. Apakah ada satu puncak (unimodal) atau ada
dua puncak (bimodal)?
3. Bentuk sebaran data  simetrik atau
menjulur (skewed)

(Histogram – Unimodal dan Bimodal)

(Pola Sebaran Data)
Relatif sedikit orang Relatif sedikit
meninggal di usia
Banyak orang kaya, di ekor
muda, di ekor kiri kanan panjang.
panjang. Pengamatan di sini
Life Span (Masa Hidup) IQ Income (Pendapatan)

menjulur ke kiri. menyebar Simetrik menjulur ke kanan.

(Histogram – Pola Sebaran Data)
Pada histogram disamping, dapat  Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan  Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri  (Histogram of % Fat)
Distribusinya kira-kira simetris dan  Sementara untuk distribusi yang menjulur ke kiri sebaliknya 
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
(Histogram)
 Apakah ada satu atau dua

puncak?
 Apakah simetris atau
menjulur?

(Histogram)
Infectious disease “novel corona virus disease

(COVID-19)” data set of different states and union
territories (UTs) in India.
Histogram disamping menampilkan histogram dari

1. total kasus COVID-19,
2. total kasus COVID-19 yang sembuh dan
3. Total kasus COVID-19 yang meninggal
di India
 Apakah ada satu atau dua puncak?

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/  Apakah simetris atau menjulur?


Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.

(Histogram vs Boxplot)

(Boxplot)

dari jumlah penjualan dengan iklan di youtube lebih
besar dari pada jumlah penjualan dengan iklan di
facebook.
 Jarak antar kuartil dari kedua boxplot sangat
Penjualan
berbeda. JAK Youtube jauh lebih lebar dari

facebook. Namun keduanya menunjukkan sebaran
data yang simetris
 Jadi dapat disimpulkan bahwa jumlah penjualan
terkait dengan media iklan yang dipilih.
Facebook Youtube

(Boxplot)
Contoh berikut berkaitan dengan berat lahir bayi yang menunjukkan sindrom gangguan pernapasan idiopatik parah
(SIRDS), dan pertanyaan ‘Apakah mungkin menghubungkan kemungkinan bertahan hidup dengan berat
lahir?

(Boxplot) BERAT LAHIR
Meninggal Hidup
MINimum 1.030 1.130
Kuartil pertama (Q1) 1.246 1.740
Median (Q2) 1.600 2.200
Kuartil ketiga (Q3) 2.070 2.765
Meninggal Hidup
MAKSimum 2.730 3.640
 Box plot di atas menunjukkan bahwa median berat lahir bayi yang selamat, lebih besar dari pada bayi yang meninggal.
 Jarak antar kuartil dari kedua boxplot cukup mirip (seperti yang ditunjukkan oleh panjang kotak), meskipun terlihat bahwa secara keseluruhan
boxplot untuk bayi yang masih selamat lebih besar dibandingkan boxplot untuk bayi yang meninggal (seperti yang ditunjukkan oleh jarak antara
ujung dua garis untuk setiap boxplot).
 Meskipun kedua kelompok data tampak menjulur ke kanan, namun kelompok untuk bayi yang selamat sedikit lebih menjulur daripada
kelompok bayi yang meninggal.
 Secara keseluruhan, dua grup data terlihat seolah-olah memiliki sebaran yang sama, tetapi berat lahir bayi yang selamat memiliki sebaran lebih
beragam dibandingkan berat lahir bayi yang meninggal. Median berat lahir bayi yang meninggal lebih kecil dari kuartil bawah berat lahir
bayi yang selamat . Jadi dapat disimpulkan bahwa kelangsungan hidup bayi terkait dengan berat bayi ketika lahir.
(Boxplot)
pengeluaran per bulan mahasiswa TPB perempuan
lebih tinggi dari mahasiswa TPB laki-laki
 Jarak antar kuartil dari kedua boxplot cukup mirip
(seperti yang ditunjukkan oleh panjang kotak),
meskipun terlihat bahwa secara keseluruhan boxplot
untuk mahasiswa TPB perempuan lebih besar
dibandingkan mahasiswa TPB laki-laki
 Boxplot mahasiswa TPB perempuan tampak
menjulur ke kanan, sementara boxplot mahasiswa
TPB laki-laki cenderung simetrik.
 Di kedua boxplot terlihat ada pencilan atas.
 Secara keseluruhan, Median pengeluaran per bulan
mahasiswa TPB perempuan lebih besar dari kuartil
atas pengeluaran per bulan mahasiswa TPB laki-laki.
Jadi dapat disimpulkan bahwa pengeluaran per bulan
mahasiswa TPB ada kaitannya dengan jenis kelamin
(Boxplot)
Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.
Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1

(Boxplot)
Infectious disease “novel corona
virus disease (COVID-19)” data set of
different states and union territories
(UTs) in India.
Boxplot disamping menampilkan

boxplot dari total kasus COVID-19,
total kasus COVID-19 yang sembuh
dan yang meninggal di India dibagi
per cluster wilayah (Cluster I sd VI)
Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
(Boxplot)
Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/

(Boxplot)
Tabel di samping berisi data tentang ukuran
(jumlah anak) dari keluarga lengkap dari dua
kelompok ibu di Ontario. Kelompok pertama
adalah ibu-ibu yang memiliki tahun Pendidikan
≤ 6 tahun, sementara kelompok kedua adalah
ibu-ibu yang tahun pendidikannya ≥ 7 tahun.
1. Bandingkan kedua kelompok data

berdasarkan kedua boxplot di samping !
2. Kesimpulan apa yang dapat Anda tarik
tentang hubungan antara pendidikan dan
jumlah anak dalam keluarga?
(Histogram)
 Selain dengan boxplot, kita dapat melakukan
perbandingan antar grup dengan menggunakan
histogram
 Membuat histogram yang dikelompokkan pada
dasarnya membuat histogram individual secara
terpisah untuk setiap grup dan menempatkannya
pada sumbu yang sama dan menggunakan lebar
kotak yang sama
 Skala yang digunakan harus identik pada sumbu y
maupun sumbu x sehingga kita dapat
membandingkan nilai di seluruh grup yang
dibandingkan

(Histogram)
Saat membandingkan beberapa grup dengan histogram,
perlu mempertimbangkan hal sebagai berikut :
 Bagaimana bentuk sebaran dari grup yang
dibandingkan? Apakah ada sebaran dari suatu grup
yang menjulur sedangkan grup yang lainnya tidak ?
Apakah semua kelompok memiliki jumlah modus yang
sama?
 Apakah grup-grup tersebut memiliki nilai rata-
rata/median/modus yang sama?
 Apakah semua grup memiliki sebaran yang serupa?
 Apakah suatu grup tampaknya memiliki lebih banyak
variasi daripada yang lain?
 Apakah salah satu grup terdapat pencilan?

(Histogram)
Group A Group B
 Sebaran Grup A simetris dan sebaran Grup B menjulur ke kanan.

 Median Grup A, 55, lebih besar dari median Grup B, 40.
 Namun, kedua grup memiliki sebaran yang sama, dengan rentang interkuartil (IQR)
untuk Grup A sama dengan 23, dan untuk Grup B sama dengan 25.
 Kedua grup tidak memiliki pencilan.

(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di
negara berkembang dan di negara maju
Pada negara maju (Western Europe and
Negara Berkembang Negara Maju North America), income menjadi
sedikit lebih meningkat pada tahun
2010 dibandingkan tahun 1970, tetapi
secara persentase, income negara-
negara berkembang tampaknya lebih
meningkat, terjadi pergeseran ke kanan
pada tahun 2010 dibandingkan tahun
1970. Dari histogram di samping
terlihat juga bahwa proporsi income
negara berkembang yang
berpenghasilan lebih dari $ 16 per hari
Sumber : https://rafalab.github.io/dsbook/gapminder.html meningkat secara substansial.
(Histogram)
Sebaran Pendapatan Tahun 1970 vs Tahun 2010 di negara berkembang dan di negara maju
Negara Berkembang Negara Maju
Untuk melihat wilayah tertentu

mana yang paling meningkat, Dari Boxplot di atas terlihat bahwa income tahun 2010 dari setiap
eksplorasi perbandingan antar wilayah di negara berkembang lebih meningkat dari pada tahun
tahun 1970 dan 2010 dipecah 1970. Peningkatan terbesar terjadi pada wilayah Asia timur diikuti
per wilayah dengan Amaerika latin, others. Sementara wilayah sub-Saharan
menggunakan boxplot (note : peningkatannya kecil namun terdapat beberapa negara di sub-
Saharan yang menjadi pencilan
west -> negara maju)

(Scatter Plot)
 Scatter Plots (juga disebut diagram pencar)
digunakan untuk melihat hubungan antara dua
peubah
 Sebagai contoh, scatter plot disamping
menunjukkan diagram pencar untuk dua peubah
yang memiliki hubungan nonlinier di antara
keduanya
 Setiap titik pada diagram pencar mewakili satu
pasangan (X, Y).
 Karena diagram pencar bukan garis lurus,
hubungan antara X dan Y adalah nonlinier.
 Perhatikan bahwa dimulai dengan nilai X yang
paling negatif, dengan meningkatnya X, Y pada
awalnya menurun; lalu ketika X terus meningkat, Y
meningkat.

(Scatter Plot)
 Scatter plot menunjukkan hubungan dua
peubah yang memiliki hubungan linier
positif yang kuat.
kecenderungan yang sangat kuat untuk X
dan Y, semakin naik nilai X maka nilai Y
juga akan semakin meningkat.
 Garis lurus adalah garis tren, dirancang
sedekat mungkin dengan semua titik data.
 Garis tren memiliki kemiringan positif,
yang menunjukkan hubungan positif
antara X dan Y.
(Scatter Plot)

hubungan linier positif lemah.
dan Y.

(Scatter Plot)
 Scatter plot menunjukkan hubungan

dua peubah yang memiliki hubungan
linier negatif yang kuat.
kecenderungan yang sangat kuat untuk
X dan Y dengan arah yang berlawanan,
semakin naik nilai X maka nilai Y
semakin menurun
 Garis tren memiliki kemiringan negatif,
yang menunjukkan hubungan negatif
antara X dan Y.

(Scatter Plot)

hubungan linier negatif lemah.
dan Y.

(Scatter Plot)
Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.

(Scatter Plot)
Correlation r = 0 Correlation r = – 0,3 Correlation r = 0,5
Correlation r = – 0,7 Correlation r = 0,9 Correlation r = – 0,99

(Scatter Plot)
Scatter plot antara jumlah tweet dan

jumlah pengguna Internet per
negara bagian yang tercantum
dalam sensus Conatel 2015 di
Venezuela

(Scatter Plot)
Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25
Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook

(Scatter Plot)
Ada anggapan yang terbentuk bahwa bahwa dunia dibagi menjadi dua kelompok: dunia barat (Eropa Barat dan
Amerika Utara), yang dicirikan oleh angka harapan hidup yang panjang dan keluarga kecil, versus dunia berkembang
(Afrika, Asia, dan Amerika Latin) yang dicirkan dengan angka harapan hidup yang pendek dan keluarga besar.
Perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per wanita) tahun
1962
Terlihat bahwa angka harapan hidup negara-

negara maju (Europe dan Amerika) lebih tinggi
dibandingkan negara-negara berkembang. Terlihat
juga bahwa ada beberapa titik negara berkembang
di Asia dan Oceania juga memiliki angka harapan
hidup yang tinggi. Namun Sebagian besar negara
berkembang memiliki angka harapan hidup yang
rendah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012
Terlihat bahwa terjadi peningkatan angka

harapan hidup baik di negara maju maupun di
negara berkembang pada tahun 2012. Di
wilayah Amerika, Asia, Eropa dan Oceania
terlihat bahwa selain angka harapan hidup
meningkat namun jumlah rata-rata anak per
wanita menurun pada tahun 2012. Secara umum
scatter plot di samping menunjukkan hubungan
dua peubah (angka harapan hidup versus
tingkat kesuburan) pada tahun 2012 di beberapa
wilayah memiliki hubungan linier negatif lemah
kecuali wilayah Eropa.
(Scatter Plot)
Scatter plot antara rata-rata income per hari dalam dollar

versus angka kematian bayi
Dari scatter di samping, ada hubungan linier positif
yang kuat antar kedua peubah. Selain itu dapat dilihat
juga ada keragaman yang cukup tinggi antar
group/wilayah. Negara-negara dari kawasan yang
sama bisa sangat berbeda dan negara-negara dengan
pendapatan yang sama dapat memiliki tingkat
kelangsungan hidup yang berbeda. Misalnya,
meskipun rata-rata Afrika Sub-Sahara memiliki
tingkat kesehatan dan ekonomi yang lebih buruk,
terdapat keragaman yang cukup tinggi di dalam
kelompok tersebut. Mauritius dan Botswana lebih
baik daripada Angola dan Sierra Leone, dengan
Mauritius sebanding dengan negara-negara Barat.
(LATIHAN)
Pleasant Unpleasant  Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67  Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32  Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47  Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93

Terima Kasih

Preface Slide

STATISTIKADANANALISIS DATA(STA111)
POKOK BAHASAN: MODELLING
Sekretariat :
Jalan Meranti Wing 22 Level 4
Kampus IPB Darmaga - Bogor, 16680
ProgramStudi Sarjana Statistika danSains Data
Telp dan Fax: 0251 – 8624535
Departemen Statistika - FMIPA Email: statistika@ipb.ac.id
URL : stat.ipb.ac.id
LINGKUP MATERI
PERTEMUAN 6:
ASOSIASI DAN KORELASI
• Analisis hubungan dua peubah kategorik:
• Tabel frekuensi dua arah
• Ukuran asosiasi
• Analisis hubungan dua peubah numerik:
• Line chart
• Ukuran korelasi
PERTEMUAN 7:
ANALISIS REGRESI
• Regresi Linier Sederhana:
• Formulasi model,
• Pendugaan parameter model
Analisis hubungan dua peubah kategorik
• Untuk melihat hubungan antar dua peubah kategorik dapat

menggunakan:
• Tabel frekuensi dua arah (two ways frequently table) atau disebut juga
tabulasi silang (cross tables) atau disebut juga klasifikasi silang (cross-
classification)
• Ukuran keeratan hubungan antar peubah kategorik, sering disebut sebagai
ukuran asosiasi. Beberapa ukuran asosiasi seperti:
• Chi-square,
• Tau-Kendall,
• Somer,
• Gamma,
Two Ways Frequently Table or Cross Tables
• Cross Tables (or contingency tables) list the number of

observations for every combination of values for two categorical or
ordinal variables
• If there are r categories for the first variable (rows) and c

categories for the second variable (columns), the table is called an
r x c cross table
r x c Contingency Table
Attribute B
Attribute A 1 2 ... C Totals
1 O11 O12 … O1c R1

2 O21 O22 … O2c R2
. . . … . .
. . . … . .
. . . … . .
r Or1 Or2 … Orc Rr
Totals C1 C2 … Cc n
Example 1: Asociation Gender vs Hand Preference
Sample results organized in a contingency table:
sample size = n = 300: Hand BAR CHART: GENDER VS

HAND PREFERENCE
Preference
120 Females, 12 Gender 180
were left handed Left Right 160

140
120
180 Males, 24 were Female 12 108 120
100
80
left handed 60
40
20
Male 24 156 180 0
Female Male
36 264 300 Left Right

Logic of the Test
H0: There is no association between hand preference and gender

H1: Hand preference is not independent of gender
• If H0 is true, then the proportion of left-handed females should be the

same as the proportion of left-handed males
• The two proportions above should be the same as the proportion of left-
handed people overall
Finding Asociation Between Sex and Hand Preference
120 Females, 12 Overall:

were left handed
180 Males, 24 were P(Left Handed)
left handed
= 36/300 = .12
If no association, then
P(Left Handed | Female) = P(Left Handed | Male) = .12
So we would expect 12% of the 120 females and 12% of the 180
males to be left handed…
i.e., we would expect (120)(.12) = 14.4 females to be left handed

(180)(.12) = 21.6 males to be left handed
Cross Table Example 2
• 4 x 3 Cross Table for Investment Choices by Investor (values in $1000’s)
Investment Investor A Investor B Investor C Total

Category
Stocks 46.5 55 27.5 129
Bonds 32.0 44 19.0 95
CD 15.5 20 13.5 49
Savings 16.0 28 7.0 51
Total 110.0 147 67.0 324
Coba anda eksplorasi table di atas, apakah ada asosiasi antara Jenis
Investasi dengan Investor ?
Contoh
• Di suatu perusahaan minyak diketahui bahwa jumlah lulusan S-1 yang bekerja pada
perusahaan tersebut adalah sepertiga dari jumlah lulusan S2 yang bekerja. Enam puluh
persen (60%) yang bekerja pada perusahaan tersebut adalah perempuan. Sedangkan
perbandingan lulusan S-1 yang berjenis kelamin perempuan dan laki-laki adalah 3 : 2.
Buatlah tabel kontingensi dari kasus di atas !
Jumlah pegawai pada perusahaan tersebut sebanyak 200 orang
Jumlah peg perempuan = 60% × 200 = 120
Jumlah peg laki-laki = 200 − 120 = 80
1
Jumlah lulusan S-1 = 3 × Jumlah lulusan S-2 Perempuan Laki-laki total
Jumlah lulusan S-1 + Jumlah lulusan S-2 = 200 (Pr) (L)
1
3
× Jumlah lulusan S-2 + Jumlah lulusan S-2 = 200
600 Lulusan S-1 30 20 50
Jumlah lulusan S-2 = = 150
4
1 Lulusan S-2 90 60 150
Jumlah lulusan S-1 = 3 × 150 = 50
Jumlah lulusan S-1 perempuan : Jumlah lulusan S-1 lak-laki = 3 : 2 total 120 80 200
Jumlah lulusan S-1 perempuan + Jumlah lulusan S-1 lak-laki =50
Jumlah lulusan S-1 perempuan = 30
Jumlah lulusan S-1 lak-laki = 20
Jumlah lulusan S-2 perempuan =120 – 30 = 90
Jumlah lulusan S-2 laki-laki = 80 – 20 = 60 YA DEPT STK - IPB University
Ukuran Asosiasi Dua Peubah Kategorik Berskala Ordinal
Beberapa kejadian yang mungkin terjadi antar dua buah peubah kategorik
berskala ordinal yaitu:
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian yang
sama, yang disebut sebagai kejadian Concordant
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian
berbeda, yang disebut sebagai kejadian Discordant
• Kedua peubah kategorik yang dianalisis kejadiannya tidak berubah,
yang disebut sebagai Ties. Kejadian yang tidak berubah dapat terjadi
pada peubah kategorik pertama (Ties X) atau kedua (Ties Y).
Uses the concordance and discordance of all of the possible pairs of data
• If x1 > x2 and y1 > y2 OR x1 < x2 and y1 < y2 pairs 1 and 2 are considered
concordant (P)
• If x1 > x2 and y1 < y2 OR x1 < x2 and y1 > y2 pairs 1 and 2 are considered
discordant (Q)
• If x1 = x2 and y1 < y2 OR y1 > y2 pairs 1 and 2 are ties in X (T1)
• If y1 = y2 and x1 < x2 OR x1 > x2 pairs 1 and 2 are ties in Y (T2)
• Can calculate the same thing based on ranks
Concordant Pairs:
Ideology and Voting
• Ideology - conserv (1), moderate (2), liberal (3)
• Voting - never (1), sometimes (2), often (3)
• Consider two hypothetical individuals in the sample with scores

• Individual A: Ideology=1, Voting=1
• Individual B: Ideology=2, Voting=2
• Pair A&B are considered a concordant pair because B’s ideology score is greater than A’s
score, and B’s voting score is greater than A’s score
Concordant Pairs (cont’d)
• All of the following are concordant pairs
• A(1,1) B(2,2)
• A(1,1) B(2,3)
• A(1,1) B(3,2)
• A(1,2) B(2,3)
• A(2,2) B(3,3)
• Concordant pairs are consistent with a positive relationship between the IV and
the DV (ideology and voting)
Discordant Pairs
• All of the following are discordant pairs
• A(1,2) B(2,1)
• A(1,3) B(2,2)
• A(2,2) B(3,1)
• A(1,2) B(3,1)
• A(3,1) B(1,2)
• Discordant pairs are consistent with a negative relationship between the IV and
Identifying Concordant Pairs
• Concordant Pairs for Never - Conserv (1,1)
• #Concordant = 80*70 + 80*10 + 80*20 + 80*80
= 14,400
Conservative (1) Moderate (2) Liberal (3)
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
• Concordant Pairs for Never - Moderate (1,2)
• #Concordant = 10*10 + 10*80 = 900
Never (1) 80 10 10
Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Conserv (1,3)
• #Discordant = 0*10 + 0*10 + 0*70 + 0*10 = 0
Never (1) 80 10 10
Often (3) 0 20 80
• Discordant Pairs for Often - Moderate (2,3)
• #Discordant = 20*10 + 20*10
Never (1) 80 10 10
Often (3) 0 20 80
Square tables:
Non-Square tables:
• Example 1: Participants in the 2002 General Social Survey, a major national survey done every other year,
were asked if they own a gun and whether they favor or oppose a law requiring all guns to be registered
with local authorities. A two-way table of counts for these two variables is shown below. Rows indicate
whether the person owns a gun or not.
Owns Gun Opposes Gun Law (0) Favors Gun Law (1) All
No (0) 72 527 599
Yes (1) 102 206 308
All 174 733 907
Coba identifikasi pasangan kejadian yang termasuk Concordant dan Discordant. Setelah itu
hitunglah ukuran asosiasi Tau-a dan Tau-b, berikanlah interpretasi Anda.
• Example 2 : Students from a Stat 200 course we're asked how important religion is in your life
(not important, fairly important, very important ). A two-way table of counts for the relationship
between religious importance and achievements during the course (not good, fairly good, good,
very good) is shown below.
Not important Fairly important Very important

All
(0) (1) (2)
Not good (0) 32 56 59 127

Fairly good (1) 31 43 25 99
Good (2) 30 26 35 91
Very Good (3) 20 25 15 60
All 113 150 114 377
Coba identifikasi pasangan kejadian yang termasuk Concordant dan Discordant. Kemudian
hitunglah ukuran asosiasi Somer (dxy, dyx dan d), berikanlah interpretasi Anda.
Analisis hubungan dua peubah numerik
Untuk melihat hubungan antar dua peubah numerik dapat

menggunakan:
• Line chart
• Ukuran keeratan hubungan antar peubah numerik, sering disebut sebagai
ukuran korelasi. Beberapa ukuran asosiasi seperti:
• Korelasi peringkat spearman
• Korelasi Pearson atau Korelasi Product Moment,
Scatter Diagrams
• Scatter Diagrams are used for paired observations

taken from two numerical variables
• The Scatter Diagram:

• one variable is measured on the vertical axis and the
other variable is measured on the horizontal axis
Scatter Diagram Example
Volume Cost per

Cost per Day vs. Production Volume
per day day
23 125 250
26 140
200
Cost per Day

29 146
150
33 160
38 167 100
42 170 50
50 188
0
55 195
0 10 20 30 40 50 60 70
60 200
Volume per Day
Scatter Diagrams in Excel
1
Select the chart wizard
2
Select XY(Scatter) option,
then click “Next”
3
When prompted, enter the
data range, desired
legend, and desired
destination to complete
the scatter diagram
Rank Correlation
• The Pearson correlation coefficient, r, is a measure of the linear
association between two variables for which interval or ratio data are
available.
• The Spearman rank-correlation coefficient, rs , is a measure of
association between two variables when only ordinal data are
available.
• Values of rs can range from –1.0 to +1.0, where
• values near 1.0 indicate a strong positive association between the rankings,
and
• values near -1.0 indicate a strong negative association between the rankings.
Spearman Rank Correlation
• Spearman Rank-Correlation Coefficient, rs
6 di2
rs  1 
n(n2  1)
where: n = number of items being ranked

xi = rank of item i with respect to one variable
yi = rank of item i with respect to a second
variable
di = xi - yi
Example: Connor Investors
Connor Investors provides a portfolio management service for its
clients. Two of Connor’s analysts rated ten investments from high (6) to
low (1) risk as shown below. Use rank correlation, with a = .10, to
comment on the agreement of the two analysts’ ratings.
Investment A B C D E F G H I J
Analyst #1 1 4 9 8 6 3 5 7 2 10
Analyst #2 1 5 6 2 9 7 3 10 4 8
Analyst #1 Analyst #2
Investment Rating Rating Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum = 92
Korelasi Peringkat Spearman

6 di2 6(92)
rs  1  1  0.4424
n(n  1)
2
10(100  1)
Coefficient of Pearson Correlation
• Measures the relative strength of the linear relationship
between two variables
• Population correlation coefficient:
Cov (x , y)
ρ
σXσY
• Sample correlation coefficient:
Cov (x , y)
r
sX sY
Features of Correlation Coefficient, r
• Unit free
• Ranges between –1 and 1
• The closer to –1, the stronger the negative linear relationship
• The closer to 1, the stronger the positive linear relationship
• The closer to 0, the weaker any positive linear relationship
Scatter Plots of Data with Various
Correlation Coefficients
Y Y Y
X X X
r = -1 r = -.6 r=0
Y
Y Y
X X X
r = +1 r = +.3 r=0
Using Excel to Find
the Correlation Coefficient
• Select
Tools/Data Analysis
• Choose Correlation from the
selection menu
• Click OK . . .
Using Excel to Find
the Correlation Coefficient (continued)
• Input data range and select

appropriate options
• Click OK to get output
Interpreting the Result
Scatter Plot of Test Scores
• r = .733 100
95
• There is a relatively
Test #2 Score
90
85
strong positive linear 80
relationship between 75
70
test score #1 70 75 80 85 90 95 100
Test #1 Score
and test score #2
• Students who scored high on the first test tended to

score high on second test
Tim Editor: I Made Sumertajaya-Yeni Anggraini
PENGANTARSTATISTIKADANANALISISDATA
POKOK BAHASAN: MODELLING

PERTEMUAN: 6-7
LINGKUP MATERI
PERTEMUAN 6:
ASOSIASI DAN KORELASI
• Analisis hubungan dua peubah kategorik:
• Tabel frekuensi dua arah
• Ukuran asosiasi
• Analisis hubungan dua peubah numerik:
• Line chart
• Ukuran korelasi
PERTEMUAN 7:
ANALISIS REGRESI
• Regresi Linier Sederhana:
• Formulasi model,
• Pendugaan parameter model
Analisis hubungan dua peubah kategorik
• Untuk melihat hubungan antar dua peubah kategorik dapat

menggunakan:
• Tabel frekuensi dua arah (two ways frequently table) atau disebut juga
tabulasi silang (cross tables) atau disebut juga klasifikasi silang (cross-
classification)
• Ukuran keeratan hubungan antar peubah kategorik, sering disebut sebagai
ukuran asosiasi. Beberapa ukuran asosiasi seperti:
• Chi-square,
• Tau-Kendall,
• Somer,
• Gamma,
Two Ways Frequently Table or Cross Tables
• Cross Tables (or contingency tables) list the number of

observations for every combination of values for two categorical or
ordinal variables
• If there are r categories for the first variable (rows) and c

categories for the second variable (columns), the table is called an
r x c cross table
r x c Contingency Table
Attribute B
Attribute A 1 2 ... C Totals
1 O11 O12 … O1c R1

2 O21 O22 … O2c R2
. . . … . .
. . . … . .
. . . … . .
r Or1 Or2 … Orc Rr
Totals C1 C2 … Cc n
Example 1: Asociation Gender vs Hand Preference
Sample results organized in a contingency table:
sample size = n = 300: Hand BAR CHART: GENDER VS

HAND PREFERENCE
Preference
120 Females, 12 Gender 180
were left handed Left Right 160

140
120
180 Males, 24 were Female 12 108 120
100
80
left handed 60
40
20
Male 24 156 180 0
Female Male
36 264 300 Left Right

Logic of the Test
H0: There is no association between hand preference and gender

H1: Hand preference is not independent of gender
• If H0 is true, then the proportion of left-handed females should be the

same as the proportion of left-handed males
• The two proportions above should be the same as the proportion of left-
handed people overall
Finding Asociation Between Sex and Hand Preference
120 Females, 12 Overall:

were left handed
180 Males, 24 were P(Left Handed)
left handed
= 36/300 = .12
If no association, then
P(Left Handed | Female) = P(Left Handed | Male) = .12
So we would expect 12% of the 120 females and 12% of the 180
males to be left handed…
i.e., we would expect (120)(.12) = 14.4 females to be left handed

(180)(.12) = 21.6 males to be left handed
Cross Table Example 2
• 4 x 3 Cross Table for Investment Choices by Investor (values in $1000’s)
Investment Investor A Investor B Investor C Total

Category
Stocks 46.5 55 27.5 129
Bonds 32.0 44 19.0 95
CD 15.5 20 13.5 49
Savings 16.0 28 7.0 51
Total 110.0 147 67.0 324
Coba anda eksplorasi table di atas, apakah ada asosiasi antara Jenis
Investasi dengan Investor ?
Ukuran Asosiasi Dua Peubah Kategorik Berskala Ordinal
Beberapa kejadian yang mungkin terjadi antar dua buah peubah kategorik
berskala ordinal yaitu:
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian yang
sama, yang disebut sebagai kejadian Concordant
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian
berbeda, yang disebut sebagai kejadian Discordant
• Kedua peubah kategorik yang dianalisis kejadiannya tidak berubah,
yang disebut sebagai Ties. Kejadian yang tidak berubah dapat terjadi
pada peubah kategorik pertama (Ties X) atau kedua (Ties Y).
Uses the concordance and discordance of all of the possible pairs of data
• If x1 > x2 and y1 > y2 OR x1 < x2 and y1 < y2 pairs 1 and 2 are considered
concordant (P)
• If x1 > x2 and y1 < y2 OR x1 < x2 and y1 > y2 pairs 1 and 2 are considered
discordant (Q)
• If x1 = x2 and y1 < y2 OR y1 > y2 pairs 1 and 2 are ties in X (T1)
• If y1 = y2 and x1 < x2 OR x1 > x2 pairs 1 and 2 are ties in Y (T2)
• Can calculate the same thing based on ranks
Concordant Pairs:
Ideology and Voting
• Ideology - conserv (1), moderate (2), liberal (3)
• Voting - never (1), sometimes (2), often (3)
• Consider two hypothetical individuals in the sample with scores

• Individual A: Ideology=1, Voting=1
• Individual B: Ideology=2, Voting=2
• Pair A&B are considered a concordant pair because B’s ideology score is greater than A’s
score, and B’s voting score is greater than A’s score
Concordant Pairs (cont’d)
• All of the following are concordant pairs
• A(1,1) B(2,2)
• A(1,1) B(2,3)
• A(1,1) B(3,2)
• A(1,2) B(2,3)
• A(2,2) B(3,3)
• Concordant pairs are consistent with a positive relationship between the IV and
Discordant Pairs
• All of the following are discordant pairs
• A(1,2) B(2,1)
• A(1,3) B(2,2)
• A(2,2) B(3,1)
• A(1,2) B(3,1)
• A(3,1) B(1,2)
• Discordant pairs are consistent with a negative relationship between the IV and
• Concordant Pairs for Never - Conserv (1,1)
• #Concordant = 80*70 + 80*10 + 80*20 + 80*80
= 14,400
Never (1) 80 10 10
Often (3) 0 20 80
• Concordant Pairs for Never - Moderate (1,2)
• #Concordant = 10*10 + 10*80 = 900
Never (1) 80 10 10
Often (3) 0 20 80
• Discordant Pairs for Often - Conserv (1,3)
• #Discordant = 0*10 + 0*10 + 0*70 + 0*10 = 0
Never (1) 80 10 10
Often (3) 0 20 80
• Discordant Pairs for Often - Moderate (2,3)
• #Discordant = 20*10 + 20*10
Never (1) 80 10 10
Often (3) 0 20 80
Square tables:
Non-Square tables:
• Example 1: Participants in the 2002 General Social Survey, a major
national survey done every other year, were asked if they own a gun
and whether they favor or oppose a law requiring all guns to be
registered with local authorities. A two-way table of counts for these
two variables is shown below. Rows indicate whether the person
owns a gun or not.
Opposes Gun
Owns Gun Favors Gun Law All
Law
No 527 72 599
Yes 206 102 308
All 733 174 907
Coba identifikasi pasangan kejadian yang termasuk Concordant

dan Discordant
• Example 2 : Students from a Stat 200 course we're asked how
important religion is in your life (very important, fairly important, not
important). A two-way table of counts for the relationship between
religious importance and gender (female, male) is shown below.
Fairly Not Very
All
important important important
Female 56 32 39 127
Male 43 31 25 99
All 99 63 64 226
Coba identifikasi pasangan kejadian yang termasuk Concordant

dan Discordant
Analisis hubungan dua peubah numerik
Untuk melihat hubungan antar dua peubah numerik dapat

menggunakan:
• Line chart
• Ukuran keeratan hubungan antar peubah numerik, sering disebut sebagai
ukuran korelasi. Beberapa ukuran asosiasi seperti:
• Korelasi peringkat spearman
• Korelasi Pearson atau Korelasi Product Moment,
Scatter Diagrams
• Scatter Diagrams are used for paired observations

taken from two numerical variables
• The Scatter Diagram:

• one variable is measured on the vertical axis and the
other variable is measured on the horizontal axis
Scatter Diagram Example
Volume Cost per

Cost per Day vs. Production Volume
per day day
23 125 250
26 140
200
Cost per Day

29 146
150
33 160
38 167 100
42 170 50
50 188
0
55 195
0 10 20 30 40 50 60 70
60 200
Volume per Day
Scatter Diagrams in Excel
1
Select the chart wizard
2
Select XY(Scatter) option,
then click “Next”
3
When prompted, enter the
data range, desired
legend, and desired
destination to complete
the scatter diagram
Rank Correlation
• The Pearson correlation coefficient, r, is a measure of the linear
association between two variables for which interval or ratio data are
available.
• The Spearman rank-correlation coefficient, rs , is a measure of
association between two variables when only ordinal data are
available.
• Values of rs can range from –1.0 to +1.0, where
• values near 1.0 indicate a strong positive association between the rankings,
and
• values near -1.0 indicate a strong negative association between the rankings.
Spearman Rank Correlation
• Spearman Rank-Correlation Coefficient, rs
6 di2
rs  1 
n(n2  1)
where: n = number of items being ranked

xi = rank of item i with respect to one variable
yi = rank of item i with respect to a second
variable
di = xi - yi
Connor Investors provides a portfolio management service for its
clients. Two of Connor’s analysts rated ten investments from high (6) to
low (1) risk as shown below. Use rank correlation, with a = .10, to
comment on the agreement of the two analysts’ ratings.
Investment A B C D E F G H I J
Analyst #1 1 4 9 8 6 3 5 7 2 10
Analyst #2 1 5 6 2 9 7 3 10 4 8
Analyst #1 Analyst #2
Investment Rating Rating Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum = 92
Korelasi Peringkat Spearman

6 di2 6(92)
rs  1  1  0.4424
n(n  1)
2
10(100  1)
Coefficient of Pearson Correlation
• Measures the relative strength of the linear relationship
between two variables
• Population correlation coefficient:
Cov (x , y)
ρ
σXσY
• Sample correlation coefficient:
Cov (x , y)
r
sX sY
Features of Correlation Coefficient, r
• Unit free
• Ranges between –1 and 1
• The closer to –1, the stronger the negative linear relationship
• The closer to 1, the stronger the positive linear relationship
• The closer to 0, the weaker any positive linear relationship
Scatter Plots of Data with Various
Correlation Coefficients
Y Y Y
X X X
r = -1 r = -.6 r=0
Y
Y Y
X X X
r = +1 r = +.3 r=0
Using Excel to Find
the Correlation Coefficient
• Select
Tools/Data Analysis
• Choose Correlation from the
selection menu
• Click OK . . .
Using Excel to Find
the Correlation Coefficient (continued)
• Input data range and select

appropriate options
• Click OK to get output
Interpreting the Result
Scatter Plot of Test Scores
• r = .733 100
95
• There is a relatively
Test #2 Score
90
85
strong positive linear 80
relationship between 75
70
test score #1 70 75 80 85 90 95 100
Test #1 Score
and test score #2
• Students who scored high on the first test tended to

score high on second test
Introduction to Regression Analysis
• Regression analysis is used to:

• Predict the value of a dependent variable based on the value of at least one
independent variable
• Explain the impact of changes in an independent variable on the dependent
variable
Dependent variable: the variable we wish to explain
(also called the endogenous variable)
Independent variable: the variable used to explain the
dependent variable
(also called the exogenous variable)
Statistics for Business and Economics, 6e

Chap 12-40
© 2007 Pearson Education, Inc.
Linear Regression Model
• The relationship between X and Y is described by a linear function

• Changes in Y are assumed to be caused by changes in X
• Linear regression population equation model
Yi  β0  β1xi  ε i
• Where 0 and 1 are the population model coefficients and  is a random error
term.

Chap 12-41
Simple Linear Regression Model
The population regression model:
Population Random
Population Independent Error
Slope
Y intercept Variable term
Coefficient
Dependent
Variable
Yi  β0  β1Xi  ε i
Linear component Random Error
component

Chap 12-42
Simple Linear Regression Model
(continued)
Y Yi  β0  β1Xi  ε i
Observed Value
of Y for Xi
εi Slope = β1
Predicted Value Random Error for this Xi

of Y for Xi value
Intercept = β0
Xi
X
Chap 12-43
Simple Linear Regression Equation
The simple linear regression equation provides an estimate of the
population regression line
Estimated (or Estimate of the Estimate of the

predicted) y regression regression slope
value for intercept
observation i
Value of x for
yˆ i  b0  b1xi observation i
The individual random error terms ei have a mean of zero
ei  (yi - yˆ i )  yi - (b0  b1xi )

Chap 12-44
Least Squares Estimators
• b0 and b1 are obtained by finding the values of b0
and b1 that minimize the sum of the squared
differences between y and : ŷ
min SSE  min  ei2
 min  (y i yˆ i )2
 min  [y i  (b 0  b1x i )] 2
Differential calculus is used to obtain the coefficient

Statistics for Business and Economics, 6e estimators b0 and b1 that minimize SSE
Chap 12-45
Least Squares Estimators
(continued)
• The slope coefficient estimator is

n
 (x  x)(y
i i  y)
sY
b1  i1
n
 rxy
sX
 i
(x
i1
 x) 2 x
• And the constant or y-intercept is
b0  y  b1x
• The regression line always goes through the mean x, y

Chap 12-46
Finding the Least Squares Equation
• The coefficients b0 and b1 , and other

regression results in this chapter, will be found
using a computer
• Hand calculations are tedious
• Statistical routines are built into Excel
• Other statistical analysis software can be used

Chap 12-47
Linear Regression Model Assumptions
• The true relationship form is linear (Y is a linear function of X, plus random error)
• The error terms, εi are independent of the x values
• The error terms are random variables with mean 0 and constant variance, σ2
(the constant variance property is called homoscedasticity)
E[ε i ]  0 and E[ε i ]  σ 2 for (i  1, , n)

2
• The random error terms, εi, are not correlated with one another, so that
E[ε iε j ]  0 for all i  j

Chap 12-48
Interpretation of the Slope and the Intercept
• b0 is the estimated average value of y

when the value of x is zero (if x = 0 is in
the range of observed x values)
• b1 is the estimated change in the average

value of y as a result of a one-unit change
in x

Chap 12-49
Simple Linear Regression Example
• A real estate agent wishes to examine the relationship

between the selling price of a home and its size
(measured in square feet)
• A random sample of 10 houses is selected

• Dependent variable (Y) = house price in $1000s
• Independent variable (X) = square feet

Chap 12-50
Sample Data for House Price Model
House Price in $1000s Square Feet
(Y) (X)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700

Chap 12-51
Graphical Presentation
• House price model: scatter plot
450
400
House Price ($1000s)

350
300
250
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
Square Feet

Chap 12-52
Regression Using Excel
• Tools / Data Analysis / Regression

Chap 12-53
Excel Output
Regression Statistics
Multiple R 0.76211 The regression equation is:
R Square 0.58082
Adjusted R Square 0.52842 house price  98.24833  0.10977 (square feet)
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386
Square Feet 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

Chap 12-54
Graphical Presentation
• House price model: scatter plot and regression
line
450
400
House Price ($1000s)

350 Slope
300
250
= 0.10977
200
150
100
50
Intercept 0
= 98.248 0 500 1000 1500 2000 2500 3000
Square Feet
house price  98.24833  0.10977 (square feet)

Chap 12-55
Interpretation of the Intercept, b0
• b0 is the estimated average value of Y when the

value of X is zero (if X = 0 is in the range of observed
X values)
• Here, no houses had 0 square feet, so b0 = 98.24833 just
indicates that, for houses within the range of sizes
observed, $98,248.33 is the portion of the house price not
explained by square feet

Chap 12-56
Interpretation of the Slope Coefficient, b1
• b1 measures the estimated change in the

average value of Y as a result of a one-unit
change in X
• Here, b1 = .10977 tells us that the average value of a
house increases by .10977($1000) = $109.77, on average,
for each additional one square foot of size

Chap 12-57

Gabungan Stat 1-7

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Gabungan Stat 1-7

Diunggah oleh

Hak Cipta:

Format Tersedia

Konsep Dasar

Data Diolah Bermanfaat

o Kehidupan manusia tak terlepas dari MASALAH

Problems Investigation Solution

(Agresti, Franklin, Klingenberg)

Statistika adalah ilmu yg mempelajari seluk- beluk data.

Statistical Problem Solving 3 Main Components of

Sampel Statistika Inferensia

Mempelajari teknik-teknik yang berguna

Inference is the process of drawing conclusions

Nominal Ordinal Interval Rasio

• Data menurut periode pengukuran dibedakan menjadi:

Kabupaten Jumlah Penduduk Pendapatan per kapita

Data panel adalah data 1 1

Percobaan/ Survei Administratif

Data yang diperoleh dari hasil

Data ini tergolong Data

• Data aktivitas manusia yang terekam secara otomatis

Program studi Statistika dan Sain Data

 Jumlah Laptop yang dimiliki?  Berat Badan

Data Kualitatif Data Kuantitatif

• Beberapa bentuk Penyajian yang dibutuhkan adalah :

Tabulasi Dua Peubah Cross Table / Tabulasi Silang

Grafik Pie Chart / Diagram Lingkaran

Tabel Distribusi Frekuensi

Line Chart / Diagram Garis

Peubah Numerik Steam & Leaf Diagram/

Tabulasi Dua Peubah Cross Table / Tabel Kontingensi

Grafik Pie Chart / Diagram Lingkaran

KENDALA JUMLAH PERSENTASE 20

Tidak ada 3 2.4%

Line Chart / Diagram Garis

Dua Peubah Scatter Plot / Diagram Pencar

TOTAL KASUS POSITIF COVID KUMULATIF

1. Berapa lebar kelas (berapa banyak kelas)? 3

• Dapat mengaburkan pola variasi yang penting

• Sering terjawab dengan trial and error, tergantung pada penilaian 0 30

Catatan : Akan dipelajari lebih lanjut di Pertemuan ke 3.

Diagram Dahan Daun secara Lengkap

Volume per Hari Biaya per Hari Diagram Pencar

Biaya per Hari

2 Pilih Menu “INSERT”

Biaya per Hari

3 Pada SubMenu “CHART”, 100

Pilih “Insert Scatter (X,Y) or 50

4 Pilih “SCATTER” Volume Per Hari

5 Maka anda bisa mendapat “Scatter

Langkah Aktivasi Add-in:

5 Klik sehingga muncul ✔ menu “Analysis

7 Maka pada Menu “Data”

8 Akan muncul Sub Menu “Analysis – Data

Di sini Anda bisa memasukan Data yang hendak dibuat

Di sini Anda bisa memasukan BIN Range dari Histogram.

4 Klik sehingga, muncul ✔ pada Chart Output.

Histogram Langkah Membuat Histogtam

6 Jika Gap Width pada Format Data Series dibuat = 0, maka

Tim Editor: I Made Sumertajaya-Yeni Anggraini-Akbar Rizki

Akbar Rizki, S.Stat, M.Si 32

Program Studi Statistika dan Sain Data

Ukuran Penyebaran Data

Akbar Rizki, S.Stat, M.Si 2

Ukuran Pemusatan Ukuran Penyebaran

Arithmetic Mean Range