Statistika
ProgramStudi Sarjana Statistika dan Sains Data
DepartemenStatistika - FMIPA
Outline
• Apa dan Mengapa Statistika
• Pengertian Populasi dan Sampel
• Statistika Deskriptif dan Inferensia
• Pengertian Peubah, Jenis Peubah, dan Skala Pengukuran
Referensi :
Agresti A, Franklin C, Kingenberg B. 2018. Statistics: the art and science
of learning from data. Pearson – Harlow, England.
Apa dan Mengapa Statistika
Fakta tentang perlunya statistika
Aktivitas
keseharian
manusia
sejatinya
merupakan
aktivitas
memproduksi
data.
Dalam sebuah institusi
bisa dipastikan bahwa
kegiatan operasionalnya
juga memproduksi data
Suatu negara juga
sudah pasti
memproduksi data
diantaranya
Data kependudukan
Data Ekonomi
Data Sosial
Data Pertanian
Poin Penting
• Data ada di mana-mana
• Data ada di sekitar kita
• Data perlu dimanfaatkan
Data
Masalah
Pengangguran
Masalah
Prestasi Mahasiswa
https://corona.jakarta.go.id/id/data-pemantauan
Diunduh 30 Agustus 2020 20:50
Apa itu Statistika?
Tokopedia Shopee
4 4
5 7
7 8 Kesimpulan :
8 9 Analisis
10 10 Statistika Berbeda / tidak?
12 10
14 10
16 11
20 12
25 18
Without Data, you are
just another person
with an opinion.
W. Edward Deming
(Data Scientist)
Pengertian Populasi dan Sampel
Populasi Parameter
Keseluruhan Karakteristik numerik
objek/pengamatan yang Parameter
(Ex : Rata-rata, dari populasi
menjadi pusat perhatian Proporsi,Ragam) Misal :
Misal : Rata-rata pengeluaran
seluruh Mahasiswa PPKU
Seluruh Mahasiswa PPKU
Statistik
Data Statistik Karakteristik numerik
(Ex : Rata-rata,
dari sampel
Sampel Proporsi,Ragam
sampel) Misal :
Himpunan bagian dari populasi Rata-rata pengeluaran
Mahasiswa PPKU dari data
(mewakili) sampel missal kelas
Misal : parallel 19
Sebagian Mahasiswa PPKU yang
menjadi objek pengukuran Statistik merupakan penduga
bagi parameter
Statistika Deskriptif dan Inferensia
Statistika Deskriptif
vs
Populasi Statistika Inferensia
Tingkat Keyakinan
Penyajian Peringkasan
Data Data
Statistika Inferensia
Pengujian
Pendugaan
Hipotesis
Pengujian Hipotesis
Menguji kebenaran anggapan yang
menyatakan bahwa pendapatan
perkapita penduduk Indonesia
adalah lebih dari Rp 3 juta per
bulan.
Peubah dan Skala Pengukuran
Karakteristik dari objek yang diamati
• Umur
• Jenis Kelamin Peubah-peubah
• Pekerjaan ini memiliki jenis
• Berat Badan dan Skala
Pengukuran
• Tinggi Badan yang berbeda
• Pendidikan
• dll
Skala Pengukuran Peubah
• Umur
• Berat
• Skor
badan
intelegensi
• Tingkat • Suhu
pendidikan
• Jenis
• Skala likert
kelamin Rasio
• Agama
Interval
Ordinal
Nominal
Tipe Peubah berdasarkan Skala Pengukuran
Peubah
Kategorik Numerik
Categorical Numerical
Examples:
Marital Status
Are you registered to
vote?
Discrete Continuous
Eye Color
(Defined categories or
groups) Examples: Examples:
Number of Children Weight
Defects per hour Voltage
(Counted items) (Measured characteristics)
Data dan Metode Pengumpulan Data
Apa itu Data?
• Data merupakan gugus/himpunan hasil pengukuran karakteristik dari
seluruh objek yang menjadi focus penelitian
Misal :
Banyak diterapkan pada Data transaksi perbankan
Sering diterapkan pada penelitian bidang sosial ekonomi /
Data transaksi supermarket
pertanian/IPA/psikologi non IPA
aktivitas jalan kaki juga dapat terekam (oleh GMaps, Google Fit, Samsung
Health, dsb)
juga ada aktivitas yang terekam oleh satelit, radar, lalu lintas (oleh CCTV-nya
NTMC Polri),
Dan sebagainya
Big Data
Data sangat besar dan Volume
kompleks, tidak dapat dikelola (Ukuran data sangat besar)
(capture, store, manage,
analyze) dengan software dan
tools pemrograman database
biasa/konvensional
BIG
Variety DATA Velocity
(banyak jenisnya : (Berubah cepat,
Dibutuhkan skill
baru text, gambar, suara) perlu analisis real time)
Dalam analisis data
Penerapan Statistika
Bidang Ekonomi Bidang Bisnis
Bidang Politik Bidang Iklim
Terima Kasih
Preface Slide
STA111 – Statistika dan Analisis Data
Data Understanding:
Deskripsi-Penyajian Data
Categorical Numerical
Contoh :
Status Pernikahan
Memiliki Laptop/PC? (Ya/Tidak)
Warna Rambu
Discrete Continuous
(Mengkategorikan / mengelompokkan)
Contoh : Contoh :
2
Reviu – Skala Pengukuran Peubah
•Umur
•Berat Badan
•Penghasilan
•Suhu Badan
•Pendidikan
•Jenis kelamin
Rasio
•Warna Rambut Interval
Perbandingan antar
Ordinal Pengukuran, ada
NOL MUTLAK
Perbedaan antar
Nominal Mengurutkan
Pengukuran tapi
tidak ada NOL
MUTLAK.
(peringkat, urutan,
Mengkategorikan or scaling)
(tanpa urutan)
Diagram Pareto
Histogram
Satu Peubah
Ogive
AkbarDua
Rizki, S.Stat, M.Si
Peubah Scatter Plot / Diagram Pencar 5
Tabel dan Grafik Peubah Kategorik
(Tables and Graphs for Categorical Variables)
Tabulasi Satu Peubah Tabel Distribusi Frekuensi
Diagram Pareto
6
Tabel Distribusi Frekuensi
• Tabel Distribusi Frekuensi meringkas data berdasarkan kategorik (kualitatif)
Contoh :
Dalam Suatu Survei, Mahasiswa baru Kelas X Universitas Y ditanyakan mengenai Kendala yang
dihadapi ketika Kuliah dilaksanakan secara Online. Didapatkan respon sebagai berikut.
RESPONDEN KENDALA
1 Sinyal Tabel Distribusi Frekuensi Kendala Kuliah Online
2 Sinyal Mahasiswa Baru Kelas X Universitas Y
3 Sinyal
4 Kuota KENDALA JUMLAH
5 Device (laptop/hp) Device (laptop/hp) 10
6 Kuota
7 Sinyal Kuota 42
8 Kuota Sinyal 67
9 Kuota
… … Tidak ada 3
… … Website terlalu banyak 1
… …
125 Kuota
Listrik 1
126 Device (laptop/hp) Jarang online 1
Peubahnya berupa Kategori
Diagram Batang dan Diagram Lingkaran
• Diagram Batang dan Diagram Lingkaran charts sering digunakan untuk meringkas data kategorik (kualitatif)
• Tinggi Batang atau Ukuran ‘Potongan Pie’ menunjukkan Frekuensi atau Persentase tiap kategori.
Diagram Batang
Diagram Batang
Kendala Kuliah Online Mahasiswa Baru Kelas X Universitas Y
80
Jumlah Kendala
60
40
Langkah-Langkah :
1. Urutkan berdasarkan Jumlah Kendala, dari yang terbesar ke yang terkecil.
2. Hitung Persentase setiap kategori.
3. Gambarkan secara Grafis
Cross Tables / Tabulasi Silang
• Cross Tables (atau juga dikenal dengan Tabel Kontingensi) memuat daftar jumlah amatan dari setiap
kombinasi dari nilai dua peubah kategorik.
Jika ada r kategori untuk peubah pertama (baris) dan c kategori untuk peubah kedua (kolom)
maka table tersebut dinamakan r x c cross table.
Contoh :
Dalam Suatu Survei, Mahasiswa baru Kelas X Universitas Y selain ditanyakan mengenai Kendala yang dihadapi
ketika Kuliah dilaksanakan secara Online. Juga ditanyakan mengenai Lokasi mereka berada. Didapatkan respon
sebagai berikut. LOKASI
TOTAL
RESPONDEN KENDALA LOKASI Jawa Kalimantan Papua Sulawesi Sumatera
1 Sinyal Jawa
2 Sinyal Sumatera Device (laptop/hp) 9 1 10
3 Sinyal Jawa
4 Kuota Jawa
Jarang online 1 1
5 Device (laptop/hp) Jawa Kuota 29 1 3 9 42
KENDALA
6 Kuota Sumatera
7 Sinyal Jawa Listrik 1 1
8 Kuota Jawa
9 Kuota Jawa Sinyal 48 1 3 15 67
… … …
… … … Tidak ada 3 3
… … …
125 Kuota Jawa
Website terlalu banyak 1 1
126 Device (laptop/hp) Jawa TOTAL 92 1 1 6 25 125
Tabel dan Grafik Peubah Numerik
(Tables and Graphs for Numerical Variables)
Tabel Distribusi Frekuensi
Histogram
Satu Peubah
Ogive
Peubah Numerik Stem & Leaf Diagram /
Diagram Dahan Daun
100 000
80 000 56 385
60 000
40 000 26 473
10 118
20 000 1 528
0
Maret April Mei Juni Juli Agustus
Tabel Distribusi Frekuensi
• Distribusi Frekuensi adalah Daftar atau Tabel yang berisi class groupings (kategori atau jangkauan kelas)
dan frekuensi kemunculan data di kategori atau kelas tersebut.
• Distribusi Frekuensi adalah salah satu cara meringkas data, data diringkas ke dalam bentuk yang lebih
berguna sehingga memudahkan untuk interpretasi visual data lebih cepat.
• Dalam pembuatan Distribusi Frekuensi dikenal istilah Class Interval dan Class Boundaries, dimana
• Setiap Kelas selalu memiliki lebar (Class Interval) yang sama.
• Class Interval dihitung dengan membagi selisih nilai maksimum dan nilai minimum dengan jumlah
kelas yang diinginkan.
max − 𝑚𝑖𝑛
𝑤 = 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 𝑤𝑖𝑑𝑡ℎ =
𝑗𝑢𝑚𝑙𝑎ℎ 𝑘𝑒𝑙𝑎𝑠 𝑦𝑎𝑛𝑔 𝑑𝑖𝑖𝑛𝑔𝑖𝑛𝑘𝑎𝑛
• Jumlah kelas sebaiknya lebih dari 5 namun tidak lebih dari 10-15 atau bisa juga menggunakan
Sturgis’s Rule dimana jumlah kelas = 3.3 log (n) + 1, dimana n adalah jumlah data.
• Class Interval tidak pernah tumpang tindih.
• Class Interval dibulatkan sehingga memudahkan pembuatan Class interval.
Tabel Distribusi Frekuensi(lanjutan)
Contoh :
Seorang pengamat cuaca mengukur suhu harian selama dua puluh hari ketika musim dingin.
Catatan : Suhu dicatat dalam Fahrenheit.
Data yang dicatat : 24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Langkah :
1. Urutkan data dari kecil ke besar : 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
2. Hitung Jangkauan Data = max – min = 58 – 12 = 46
3. Pilih jumlah kelas = 5 (biasanya antara 5-15). Sturgis’s Rule = 3.3 log (20) + 1 = 5,29
4. Hitung Lebar Kelas = 46 / 5 = 9,2 10 (dibulatkan ke atas)
5. Tentukan Batas Kelas = 10≤x<20, 20≤x<30, 30≤x<40, 40≤x<50, 50≤x<60.
6. Tempatkan data pada kelasnya masing-masing.
Tabel Distribusi Frekuensi(lanjutan)
DATA INTERVAL
12
13 10≤x<20 Tabel Distribusi Frekuensi
17 Suhu selama 20 hari di Musim Dingin (oF)
21
24 FREKUENSI
INTERVAL FREKUENSI PERSENTASE
24
20≤x<30 RELATIF
26
10≤x<20 3 0.15 15
27
27 20≤x<30 6 0.30 30
30
32 30≤x<40 5 0.25 25
35 30≤x<40 40≤x<50 4 0.20 20
37
38 50≤x<60 2 0.10 10
41
43 Total 20 1.00 100
40≤x<50
44
46
53
50≤x<60
58
Histogram
• Grafik dari Tabel Distribusi Frekuensi disebut histogram.
• Axis Horizontal menampilkan garis akhir interval (interval endpoints)
• Axis Vertikal bisa berupa frekuensi, frekuensi relative, persentase.
• Batang dengan tinggi yang sesuai digunakan untuk mewakili jumlah amatan yang ada di setiap
kelas.
Histogram: Daily High Temperature
INTERVAL FREKUENSI
7 6 Tidak ada
10≤x<20 3 celah antar
6 5 Batang
20≤x<30 6 5 4
Frequency
30≤x<40 5 4 3
40≤x<50 4 3 2
2
50≤x<60 2
1 0 0
Total 20 0
0 0 10 10 20 2030 30
40 50
40 6050 70 60
Temperature in Degrees
Pertanyaan – Pertanyaan Pengelompokan Data
3.5
Frequency
a. Banyak Kelas (Interval Kelas yang Sempit) 2
• dapat menghasilkan distribusi yang sangat tidak rata dengan celah dari kelas 1.5
1
kosong 0.5
• Dapat memberikan indikasi yang buruk tentang variasi frekuensi antar kelas 0
4
8
12
16
20
24
28
32
36
40
44
48
52
56
60
More
Temperature
b. Sedikit Kelas (Interval Kelas yang Lebar)
• Dapat menghilangkan keragaman 12
Frequency
8
6
4
2. Bagaimana garis akhir dari interval (endpoints of the 2
intervals) ditentukan? 0
pengguna.
• Tujuannya adalah untuk menciptakan distribusi yang tidak terlalu
"bergerigi" atau terlalu “rata”
• Tujuannya adalah untuk menunjukkan pola variasi dalam data dengan
tepat
The Ogive
• Menggambarkan Frekuensi Kumulatif.
FREKUENSI PERSENTASE
INTERVAL FREKUENSI PERSENTASE
KUMULATIF KUMULATIF
10≤x<20 3 15 3 15
20≤x<30 6 30 9 45
30≤x<40 5 25 14 70
Ogive: Daily High Temperature
40≤x<50 4 20 18 90
50≤x<60 2 10 20 100 100
Cumulative Percentage
Total 20 100 100 100
80
60
INTERVAL UPPER INTERVAL ENDPOINT PERSENTASE KUMULATIF
40
10<x 10 0
20
10≤x<20 20 15
20≤x<30 30 45 0
10 20 30 40 50 60
30≤x<40 40 70
40≤x<50 50 90
50≤x<60 60 100
Total 20 100
Distribusi Data
Negatively Skewed Distribution Symmetric Distribution Positively Skewed Distribution
12 10 12
9
10 8 10
8 7 8
Frequency
Frequency
Frequency
6
6 5 6
4
4 3 4
2 2
2
1
0 0 0
1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
Distribusi miring negatif (miring Bentuk distribusi dikatakan Distribusi miring positif (miring
ke kiri) memiliki ekor yang simetris jika pengamatan ke kanan) memiliki ekor yang
memanjang ke kiri ke arah nilai seimbang, atau merata, di sekitar memanjang ke kanan ke arah
negatif. pusat. nilai positif.
11 9 1 3 36 8
6 10 356
3 11 47
1 12 2
Scatter Plot / Diagram Pencar
• Scatter Diagrams digunakan untuk observasi berpasangan yang diambil dari dua peubah numerik.
Peubah yang satu ditaruh di axis vertikal dan yang lain di axis horizontal.
38 167 100
42 170
50
50 188
0
55 195 0 10 20 30 40 50 60 70
Volume Per Hari
60 200
Pengayaan
(Enrichment)
23
Membuat Grafik Data Kategorik Multivariate
Pada kenyataannya, seringkali yang ingin disajikan terdiri dari banyak peubah, sehingga penyajian data
bisa dikombinasikan.
Side by side bar charts Side by side charts
Investment 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Investor A Investor B Investor C Total
Category East 20.4 27.4 59 20.4
Stocks 46.5 55.0 27.5 129.0 West 30.6 38.6 34.6 31.6
Bonds 32.0 44.0 19.0 95.0
CD 15.5 20.0 13.5 49.0
North 45.9 46.9 45 43.9
Savings 16.0 28.0 7.0 51.0
Total 110.0 147.0 67.0 324.0 60
Invesment 50
7,0 40
Savings 28,0
16,0 East
13,5 30 West
CD 20,0
15,5
19,0 North
Bonds 44,0 20
32,0
27,5
Stocks 55,0 10
46,5
0,0 10,0 20,0 30,0 40,0 50,0 60,0 0
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Investor C Investor B Investor A
Scatter Diagrams di Microsoft Excel
Langkah :
1 Blok Dua Peubah beserta Datanya yang ingin
dibuat Scatter Plot.
Diagram Pencar
Volume (per hari) dan Biaya (per hari)
250
200
1 Klik “FILE”
2 Klik “OPTION”
Histograms in Excel
(lanjutan)
Langkah Aktivasi Add-in:
3 Klik “Add-ins”
4 Klik “Go…”
Histograms in Excel
(lanjutan)
Langkah Aktivasi Add-in:
6 Klik “OK”
6
4
2 Frequency
5 Maka akan muncul bentuk default.
0
10 20 30 40 50 60 More
Bin
Histogram
8
Frequency
4
Frequency
2
0
10 20 30 40 50 60 More
Bin
Data Understanding:
Deskripsi-Peringkasan Data
Boxplot
Median Variance
Covariance
3
Ukuran Pemusatan Data
(Measure of Central Tendency)
4
Ukuran Pemusatan
x i
x i 1
n
Rata-rata Aritmetika Titik tengah daya yang Nilai yang paling
sudah diurutkan sering muncul.
5
Mean
• Rata-Rata Aritmetika (mean) adalah Ukuran Pemusatan yang paling
umum digunakan.
• merupakan ukuran yang menimbang data menjadi dua kelompok
data yang memiliki massa yang sama
• Untuk POPULASI sejumlah N :
N
x x1 x 2 x N
i Nilai-Nilai Amatan pada Populasi
μ
i1
Jumlah Populasi
N N
• Untuk SAMPEL
n
sejumlah n :
x i
x1 x 2 x n Nilai-Nilai Amatan pada Sampel
x i1
n n Jumlah Sampel 6
Mean (continued)
• Ukuran Pemusatan yang Paling Umum digunakan.
• Mean = Jumlah Total dibagi dengan banyaknya data.
• Dipengaruhi oleh Nilai Ekstrim (Outliers atau Pencilan)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Mean = 3 Mean = 4
1 2 3 4 5 15 1 2 3 4 10 20
3 4
5 5 5 5
7
Weighted Mean
(Mean Terboboti)
w x i i
w1x1 w 2 x 2 w n x n
x i1
w wi
• Dimana wi bobot dari amatan ith
8
Median
• Dalam data yang urut, Median adalah nilai yang tepat di tengah (50% data di
atasnya, 50% data di bawahnya)
Pencilan
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Median = 3 Median = 3
9
Median(continued)
• Langkah Teknis Menghitung Median :
• Urutkan data dari kecil ke besar
𝑛+1 𝑛+1
• Cari posisi median (𝑛𝑚𝑒𝑑 = ) Catatan : 2 bukan NILAI dari Median,
2 hanya menunjukkan POSISI Median
pada data yang telah diurutkan.
• Jika 𝑛𝑚𝑒𝑑 bulat, maka 𝑀𝑒𝑑𝑖𝑎𝑛 = 𝑋 𝑛+1
2
𝑋𝑛 +𝑋𝑛
2 +1
• Jika 𝑛𝑚𝑒𝑑 pecahan, maka 𝑀𝑒𝑑𝑖𝑎𝑛 = 2
2
(rata-rata dua pengamatan yang berada sebelum dan setelah posisi median)
10
Quartiles (Kuartil)
• Kuartil membagi data yang telah diurutkan menjadi 4 bagian, dengan jumlah data
per segmen sama.
25% 25% 25% 25%
Q1 Q2 Q3
Kuartil Pertama, Q1, nilai dimana 25% data yang diamati lebih
kecil dan 75% data lebih besar.
Q2 sama dengan Median (50% lebih kecil, 50% lebih besar)
Hanya 25% data yang diamati lebih besar dari Q3.
11
Quartiles (Kuartil)
(continued)
Langkah menghitung kuartil
Metode Belah dua Metode Interpolasi
• Urutkan data dari kecil ke besar • Urutkan data dari kecil ke besar
• Cari posisi kuartil • Cari posisi kuartil
• nQ2=(n+1)/2 • nq1=(1/4)(n+1)
• nQ1=(nQ2*+1)/2= nQ3, nQ2* posisi • nq2=(2/4)(n+1)
kuartil dua terpangkas (pecahan • nq3=(3/4)(n+1)
dibuang)
• Nilai kuartil dihitung sebagai berikut:
• Nilai kuartil 2 ditentukan sama • Xqi=Xa,i + hi (Xb,i-Xa,i)
seperti mencari nilai median. Kuartil
• Xa,i = pengamatan sebelum posisi kuartil ke-
1 dan 3 prinsipnya sama seperti i, Xb,i = pengamatan setelah posisi kuartil ke-
median tapi kuartil 1 dihitung dari i dan hi adalah nilai pecahan dari posisi
kiri, sedangkan kuartil 3 dihitung kuartil
dari kanan.
12
Quartiles (Kuartil)
(continued)
Contoh : Temukan Q1
Contoh Data yang telah diurutkan : 11 12 13 16 16 17 18 21 22
(n = 9)
Q1 = terletak pada 0.25(9+1) = 2.5 position pada data
yang telah diurutkan. Jadi gunakan nilai di tengah-tengah
antara nilai kedua dan nilai ketiga,
jadi Q1 = 12.5
13
Mode
• Ukuran Pemusatan Data yang menunjukkan nilai yang paling sering
muncul.
• Tidak dipengaruhi oleh Nilai Ekstrim (outlier atau pencilan)
• Dapat digunakan pada data numerik maupun data kategorik.
• Mungkin ada data tanpa Mode (Modus). Mungkin juga ada beberapa Mode.
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Harga Rumah
Rp 2.000.000.000
Rp 500.000.000
Rp 300.000.000
Rp 100.000.000
Rp 100.000.000
15
Contoh(continued)
• Berikut adalah harga 5 rumah disebuah bukit di tepi pantai
• Mean : Rp 3.000.000.000/5
Harga Rumah
Rp 2.000.000.000 = Rp 600.000.000
Rp 500.000.000
Rp 300.000.000
Rp 100.000.000 • Median : Nilai Tengah dari data yang diurutkan
Rp 100.000.000
TOTAL = Rp 3.000.000.000
= Rp 300.000.000
17
Kaitan Bentuk Sebaran dengan Ukuran Pemusatan
18
Mean = Median = Mode
Ukuran Penyebaran Data
(Measure of Variability)
19
Ukuran Penyebaran Data
Variation
Contoh :
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Range = 14 - 1 = 13
21
Kelemahan Range (Jangkauan)
• Tidak memperhatikan pola distribusi data
7 8 9 10 11 12 7 8 9 10 11 12
Range = 12 - 7 = 5 Range = 12 - 7 = 5
Range = 5 - 1 = 4
1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
23
Interquartile Range
(Jangkauan InterKuartil)
(continued)
Contoh :
X Median X
minimum Q1 Q3 maximum
(Q2)
25% 25% 25% 25%
12 30 45 57 70
InterQuartile Range
= 57 – 30
= 27
24
Population Variance
(Ragam Populasi)
• Population variance:
25
Sample Variance
(Ragam Contoh)
s
2 i1
n -1
Dimana X = arithmetic mean
n = sample size
Xi = ith value of the variable X
Akbar Rizki, S.Stat, M.Si 26
Population Standard Deviasi
(Simpangan Baku Populasi)
27
Sample Standard Deviasi
(Simpangan Baku Contoh)
(x x)
i
2
S i1
n -1
28
Contoh Perhitungan
Simpangan Baku Contoh
Sample
Data (xi) : 10 12 14 15 17 18 18 24
n=8 Mean = 𝑥 = 16
30
Membandingkan Simpangan Baku
Data A
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21
s = 3.338
Data B
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.926
Data C
Mean = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.570
31
Kelebihan Ragam dan Simpangan Baku
• Tiap nilai pada data digunakan dalam perhitungan
32
The Empirical Rule
μ μ μ
μ 1σ μ 2σ μ 3σ
• ada 68% data di antara 𝜇 ± 𝜎
• ada 95% data di antara 𝜇 ± 2𝜎
• Ada 99,7% data di antara 𝜇 ± 3𝜎
33
Coefficient of Variation
• Mengukur Variasi Relatif antara Ragam terhadap Mean
• Dalam bentuk Persentase (%)
• Dapat digunakan untuk membandingkan 2 atau lebih set data yang
diukur dalam satuan yang berbeda.
s
CV 100%
x
34
Membandingkan
Coefficient of Variation
• Saham A:
• Mean Harga tahun Lalu = $50
• Simpangan Baku = $5
s $5
CVA 100% 100% 10% Kedua Saham memiliki
x $50
Simpangan Baku yang
• Stock B: sama, namun saham B
memiliki fluktuasi
• Mean Harga tahun Lalu = $100 relative terhadap pusat
• Simpangan Baku = $5 data, yang lebih rendah.
s $5
CVB 100% 100% 5%
x $100
35
Covariance
• Covariance mengukur kekuatan hubungan liniear diantara dua peubah
• Covariance Populasi:
N
(x i x )(y i y )
Cov (x , y) xy i1
N
• Covariance Contoh:
n
(x i x)(y i y)
Cov (x , y) s xy i1
n 1
37
Aproksimasi untuk Data Berkelompok
Suppose a data set contains values m 1, m2, . . ., mk, occurring with frequencies f 1, f2, .
. . fK
• Untuk Population dengan N amatan
K K
fimi i i
f (m μ) 2
where
K
N fi
μ i1
σ
2 i1 i1
N N
• Untuk Sample dengan n amatan
K
i i
K
fm 2
f (m x) K
i i where n fi
x i 1
s
2 i1
i1
n n 1 38
Terima Kasih
Data Understanding:
Explorasi Data
(Kualitas dan Pola Sebaran Data
4 3 2.
3.
Pilih Menu “Insert”.
Klik Panah Kecil untuk “See All Charts”
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.
7
5 6
Tim Dept STK - IPB University 7
Boxplot
(lanjutan)
4 3.
4.
Klik Panah Kecil untuk “See All Charts”
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.
7
5 6
Tim Dept STK - IPB University 10
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)
60 15; 60
13; 58
Sales Revenue
14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60
3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
Pilih Menu “Insert”.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.
Y
70
60
50
40
5
30
20
10
Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎
Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Tim Dept STK - IPB University 15
Boxplot
(Contoh Visual Boxplot untuk mendeteksi Nilai Ekstrem)
Hasil Quiz 1
(26/09/2020) kelas SS09
Dengan
Nilai Ekstrem
Ketika Nilai
Ekstrem pada data
dibuang
100
80
Grade
60
40
Pada histogram disamping, dapat Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri (Histogram of % Fat)
Distribusinya kira-kira simetris dan Sementara untuk distribusi yang menjulur ke kiri sebaliknya
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
Tim Dept STK - IPB University 28
Eksplorasi Pola Sebaran Data
(Histogram)
Data Understanding:
Explorasi Data
(Hubungan antar peubah dan
perbandingan antar grup)
Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.
Facebook Youtube
Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.
Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1
Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
Tim Dept STK - IPB University 12
Eksplorasi Perbandingan Antar Grup
(Boxplot)
Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/
Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.
Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25
Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 31
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 32
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 33
Eksplorasi Hubungan Antar Peubah
(LATIHAN)
Pleasant Unpleasant Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67 Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32 Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47 Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93
4 3 2.
3.
Pilih Menu “Insert”.
Klik Panah Kecil untuk “See All Charts”
4. Pilih “All Charts”
Pilih “Box & Whisker”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Boxplot sebagai berikut.
7
5 6
Tim Dept STK - IPB University 7
Boxplot
(lanjutan)
4 3.
4.
Klik Panah Kecil untuk “See All Charts”
Pilih “All Charts”
Pilih “Histogram”
1 5.
6.
7.
Pilih “OK”,
Maka akan muncul Histogram sebagai berikut.
7
5 6
Tim Dept STK - IPB University 10
Scatter Plot
(Diagram Pencar)
Ads Expenditure vs Sales Revenue Scatter Plot adalah grafik yang menggunakan titik
65 untuk mewakili nilai dua peubah numerik yang
berbeda.
(millions of dollars)
60 15; 60
13; 58
Sales Revenue
14; 56
55
12; 52
13; 54 Posisi setiap titik pada sumbu horizontal dan vertikal
50
11; 48 menunjukkan nilai untuk satu titik data.
45 12; 46
10; 44
40 9; 40
11; 42 Scatter plot biasanya digunakan untuk mengamati
35
hubungan antar variabel.
8 10 12 14 16
Ads Expenditure
(millions of dollars) Untuk lebih memahami
Misalnya dalam satu perusahaan ingin melihat hubungan antara pengeluaran untuk Boxplot, bisa dilihat Video
iklan (ads expenditures, X, million of dollars)dengan penerimaan melalui penjualan berikut (link ada di deskripsi dan
(sales revenue, Y, millions of dollars) komentar):
Waktu 1 2 3 4 5 6 7 8 9 10 1. Scatter Plot :
https://youtu.be/t2KaSBY
X 10 9 11 12 11 12 13 13 14 15
wanw?t=949
Y 44 40 42 46 48 52 54 58 56 60
3 1.
2.
Pilih 2 set data yang ingin dibuat Scatter Plot.
Pilih Menu “Insert”.
4 3. Klik Panah Kecil untuk “Insert Scatter (X,Y) or
Bubble Chart”
1 4.
5.
Pilih “Scatter”
Maka akan muncul Scatter Plot sebagai berikut
6. Untuk merubah sebagaimana halaman
sebelumnya, perlu sedikit editing.
Y
70
60
50
40
5
30
20
10
Langkah Teknis :
1. Hitung Statistik 5 Serangkai : Min, Q1, Q2, Q3, Max
0 50 70 100 130 140 140 150 160 180 180 180 190 200 200 210 210 220 290 340
𝟏𝟑𝟎+𝟏𝟒𝟎 𝟏𝟖𝟎+𝟏𝟖𝟎 𝟐𝟎𝟎+𝟐𝟏𝟎
Min = 0 𝑸𝟏 = =135 𝑸𝟐 = =180 𝑸𝟑 = =205 Max = 340
𝟐 𝟐 𝟐
𝑰𝑸𝑹 = 𝑸𝟑 − 𝑸𝟏 = 𝟐𝟎𝟓 − 𝟏𝟑𝟓 = 𝟕𝟎
Pagar Dalam Atas (PDA) : Q3 +1.5(Q3-Q1) = Q3 +1.5(IQR) = 205 + 1.5(70) = 205 + 105 = 310
Pagar Dalam Bawah (PDB) : Q1 – 1.5(Q3-Q1) = Q1 – 1.5(IQR) = 135 – 1.5(70) = 135 – 105 = 30
2. Ada Pencilan Bawah (0) lebih kecil dari PDB. Ada Pencilan Atas (340) lebih besar dari PDA.
Tim Dept STK - IPB University 15
Boxplot
(Contoh Visual Boxplot untuk Pendugaan Nilai Ekstrem)
Dengan
Nilai Ekstrem
Ketika Nilai
Ekstrem pada data
dibuang
Pada histogram disamping, dapat Untuk distribusi yang menjulur, arah kemenjulurannya
dilihat bahwa pusatnya mendekati 50. ditunjukkan oleh arah ekor yang lebih panjang.
Sebagian besar nilai dalam kumpulan Untuk distribusi yang menjulur ke kanan, ekor panjang meluas ke
data akan mendekati 50, dan nilai yang kanan sementara sebagian besar nilai mengelompok di sebelah
lebih jauh lebih jarang.
kiri (Histogram of % Fat)
Distribusinya kira-kira simetris dan Sementara untuk distribusi yang menjulur ke kiri sebaliknya
nilainya berkisar antara sekitar 40 dan
64. (Histogram of Left Skew)
Tim Dept STK - IPB University 26
Eksplorasi Pola Sebaran Data
(Histogram)
Eksplorasi perbandingan antar grup dapat dilakukan dengan menggunakan Boxplot dan
Histogram serta Statistik lima serangkai.
Facebook Youtube
Boxplots of
sentiment scores of
all normalised
tweets with tweets
containing
share/stock
information and
company names
excluded.
Sumber :
https://www.researchgate.net/publication/269765271_Using_Twitter_to_investigate_opinions_about_multi
ple_sclerosis_treatments_A_descriptive_exploratory_study/figures?lo=1
Sumber : https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7236640/
Tim Dept STK - IPB University 38
Eksplorasi Perbandingan Antar Grup
(Boxplot)
Sumber : https://blogs.sas.com/content/graphicallyspeaking/2019/12/17/have-trumps-tweets-per-day-been-increasing/
Jika tidak ada hubungan yang jelas antara kedua peubah, maka dapat
katakan tidak ada korelasi antara kedua peubah tersebut.
Bagaimana hubungan
Scatter Plot
antar kedua peubah?
Iklan dan Penjualan
35
30
25
Penjualan
20
15
10
5
0
0 10 20 30 40 50 60 70
Iklan Facebook
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 56
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Selanjutnya, perhatikan scatter plot antara angka harapan hidup versus tingkat kesuburan (jumlah rata-rata anak per
wanita) tahun 1962 dan 2012
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 57
Eksplorasi Hubungan Antar Peubah
(Scatter Plot)
Sumber : https://rafalab.github.io/dsbook/gapminder.html
Tim Dept STK - IPB University 58
Eksplorasi Hubungan Antar Peubah
(LATIHAN)
Pleasant Unpleasant Dalam sebuah studi tentang memory recall times, serangkaian kata-kata stimulus
memory memory
1.07 1.45
ditampilkan ke subjek di layar komputer.
1.17 1.67 Untuk setiap kata, subjek diinstruksikan untuk mengingat memori yang
1.22 1.90
1.42 2.02
menyenangkan atau tidak menyenangkan yang terkait dengan kata itu.
1.63 2.32 Berhasil mengingat memori ditunjukkan oleh subjek menekan menekan tombol
1.98 2.35 pada keyboard komputer.
2.12 2.43
2.32 2.47 Gunakan boxplot di bawah ini untuk membandingkan sebaran memory recall times
2.56 2.57 kedua jenis memori (pleasant dan unpleasant).
2.70 3.33
2.93 3.87
2.97 4.33
3.03 5.35
3.15 5.72
3.22 6.48
3.42 6.90
4.63 8.68
4.70 9.47
5.55 10.00
6.17 10.93
Sekretariat :
Jalan Meranti Wing 22 Level 4
Kampus IPB Darmaga - Bogor, 16680
ProgramStudi Sarjana Statistika danSains Data
Telp dan Fax: 0251 – 8624535
Departemen Statistika - FMIPA Email: statistika@ipb.ac.id
URL : stat.ipb.ac.id
LINGKUP MATERI
PERTEMUAN 6:
ASOSIASI DAN KORELASI
• Analisis hubungan dua peubah kategorik:
• Tabel frekuensi dua arah
• Ukuran asosiasi
• Analisis hubungan dua peubah numerik:
• Line chart
• Ukuran korelasi
PERTEMUAN 7:
ANALISIS REGRESI
• Regresi Linier Sederhana:
• Formulasi model,
• Pendugaan parameter model
Analisis hubungan dua peubah kategorik
Attribute B
So we would expect 12% of the 120 females and 12% of the 180
males to be left handed…
Coba anda eksplorasi table di atas, apakah ada asosiasi antara Jenis
Investasi dengan Investor ?
Contoh
• Di suatu perusahaan minyak diketahui bahwa jumlah lulusan S-1 yang bekerja pada
perusahaan tersebut adalah sepertiga dari jumlah lulusan S2 yang bekerja. Enam puluh
persen (60%) yang bekerja pada perusahaan tersebut adalah perempuan. Sedangkan
perbandingan lulusan S-1 yang berjenis kelamin perempuan dan laki-laki adalah 3 : 2.
Buatlah tabel kontingensi dari kasus di atas !
Jumlah pegawai pada perusahaan tersebut sebanyak 200 orang
Jumlah peg perempuan = 60% × 200 = 120
Jumlah peg laki-laki = 200 − 120 = 80
1
Jumlah lulusan S-1 = 3 × Jumlah lulusan S-2 Perempuan Laki-laki total
Jumlah lulusan S-1 + Jumlah lulusan S-2 = 200 (Pr) (L)
1
3
× Jumlah lulusan S-2 + Jumlah lulusan S-2 = 200
600 Lulusan S-1 30 20 50
Jumlah lulusan S-2 = = 150
4
1 Lulusan S-2 90 60 150
Jumlah lulusan S-1 = 3 × 150 = 50
Jumlah lulusan S-1 perempuan : Jumlah lulusan S-1 lak-laki = 3 : 2 total 120 80 200
Jumlah lulusan S-1 perempuan + Jumlah lulusan S-1 lak-laki =50
Jumlah lulusan S-1 perempuan = 30
Jumlah lulusan S-1 lak-laki = 20
Jumlah lulusan S-2 perempuan =120 – 30 = 90
Jumlah lulusan S-2 laki-laki = 80 – 20 = 60 YA DEPT STK - IPB University
Ukuran Asosiasi Dua Peubah Kategorik Berskala Ordinal
Beberapa kejadian yang mungkin terjadi antar dua buah peubah kategorik
berskala ordinal yaitu:
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian yang
sama, yang disebut sebagai kejadian Concordant
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian
berbeda, yang disebut sebagai kejadian Discordant
• Kedua peubah kategorik yang dianalisis kejadiannya tidak berubah,
yang disebut sebagai Ties. Kejadian yang tidak berubah dapat terjadi
pada peubah kategorik pertama (Ties X) atau kedua (Ties Y).
Uses the concordance and discordance of all of the possible pairs of data
• If x1 > x2 and y1 > y2 OR x1 < x2 and y1 < y2 pairs 1 and 2 are considered
concordant (P)
• If x1 > x2 and y1 < y2 OR x1 < x2 and y1 > y2 pairs 1 and 2 are considered
discordant (Q)
• If x1 = x2 and y1 < y2 OR y1 > y2 pairs 1 and 2 are ties in X (T1)
• If y1 = y2 and x1 < x2 OR x1 > x2 pairs 1 and 2 are ties in Y (T2)
• Can calculate the same thing based on ranks
Concordant Pairs:
Ideology and Voting
• Ideology - conserv (1), moderate (2), liberal (3)
• Voting - never (1), sometimes (2), often (3)
• Pair A&B are considered a concordant pair because B’s ideology score is greater than A’s
score, and B’s voting score is greater than A’s score
Concordant Pairs (cont’d)
• All of the following are concordant pairs
• A(1,1) B(2,2)
• A(1,1) B(2,3)
• A(1,1) B(3,2)
• A(1,2) B(2,3)
• A(2,2) B(3,3)
• Concordant pairs are consistent with a positive relationship between the IV and
the DV (ideology and voting)
Discordant Pairs
• All of the following are discordant pairs
• A(1,2) B(2,1)
• A(1,3) B(2,2)
• A(2,2) B(3,1)
• A(1,2) B(3,1)
• A(3,1) B(1,2)
• Discordant pairs are consistent with a negative relationship between the IV and
the DV (ideology and voting)
Identifying Concordant Pairs
• Concordant Pairs for Never - Conserv (1,1)
• #Concordant = 80*70 + 80*10 + 80*20 + 80*80
= 14,400
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Identifying Concordant Pairs
• Concordant Pairs for Never - Moderate (1,2)
• #Concordant = 10*10 + 10*80 = 900
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Conserv (1,3)
• #Discordant = 0*10 + 0*10 + 0*70 + 0*10 = 0
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Moderate (2,3)
• #Discordant = 20*10 + 20*10
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Square tables:
Non-Square tables:
• Example 1: Participants in the 2002 General Social Survey, a major national survey done every other year,
were asked if they own a gun and whether they favor or oppose a law requiring all guns to be registered
with local authorities. A two-way table of counts for these two variables is shown below. Rows indicate
whether the person owns a gun or not.
Owns Gun Opposes Gun Law (0) Favors Gun Law (1) All
Coba identifikasi pasangan kejadian yang termasuk Concordant dan Discordant. Setelah itu
hitunglah ukuran asosiasi Tau-a dan Tau-b, berikanlah interpretasi Anda.
• Example 2 : Students from a Stat 200 course we're asked how important religion is in your life
(not important, fairly important, very important ). A two-way table of counts for the relationship
between religious importance and achievements during the course (not good, fairly good, good,
very good) is shown below.
Coba identifikasi pasangan kejadian yang termasuk Concordant dan Discordant. Kemudian
hitunglah ukuran asosiasi Somer (dxy, dyx dan d), berikanlah interpretasi Anda.
Analisis hubungan dua peubah numerik
1
Select the chart wizard
2
Select XY(Scatter) option,
then click “Next”
3
When prompted, enter the
data range, desired
legend, and desired
destination to complete
the scatter diagram
Rank Correlation
• The Pearson correlation coefficient, r, is a measure of the linear
association between two variables for which interval or ratio data are
available.
• The Spearman rank-correlation coefficient, rs , is a measure of
association between two variables when only ordinal data are
available.
• Values of rs can range from –1.0 to +1.0, where
• values near 1.0 indicate a strong positive association between the rankings,
and
• values near -1.0 indicate a strong negative association between the rankings.
Spearman Rank Correlation
• Spearman Rank-Correlation Coefficient, rs
6 di2
rs 1
n(n2 1)
Investment A B C D E F G H I J
Analyst #1 1 4 9 8 6 3 5 7 2 10
Analyst #2 1 5 6 2 9 7 3 10 4 8
Example: Connor Investors
Analyst #1 Analyst #2
Investment Rating Rating Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum = 92
Cov (x , y)
ρ
σXσY
• Sample correlation coefficient:
Cov (x , y)
r
sX sY
Features of Correlation Coefficient, r
• Unit free
• Ranges between –1 and 1
• The closer to –1, the stronger the negative linear relationship
• The closer to 1, the stronger the positive linear relationship
• The closer to 0, the weaker any positive linear relationship
Scatter Plots of Data with Various
Correlation Coefficients
Y Y Y
X X X
r = -1 r = -.6 r=0
Y
Y Y
X X X
r = +1 r = +.3 r=0
Using Excel to Find
the Correlation Coefficient
• Select
Tools/Data Analysis
• Choose Correlation from the
selection menu
• Click OK . . .
Using Excel to Find
the Correlation Coefficient (continued)
95
• There is a relatively
Test #2 Score
90
85
relationship between 75
70
test score #1 70 75 80 85 90 95 100
Test #1 Score
and test score #2
PERTEMUAN 6:
ASOSIASI DAN KORELASI
• Analisis hubungan dua peubah kategorik:
• Tabel frekuensi dua arah
• Ukuran asosiasi
• Analisis hubungan dua peubah numerik:
• Line chart
• Ukuran korelasi
PERTEMUAN 7:
ANALISIS REGRESI
• Regresi Linier Sederhana:
• Formulasi model,
• Pendugaan parameter model
Analisis hubungan dua peubah kategorik
Attribute B
So we would expect 12% of the 120 females and 12% of the 180
males to be left handed…
Coba anda eksplorasi table di atas, apakah ada asosiasi antara Jenis
Investasi dengan Investor ?
Ukuran Asosiasi Dua Peubah Kategorik Berskala Ordinal
Beberapa kejadian yang mungkin terjadi antar dua buah peubah kategorik
berskala ordinal yaitu:
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian yang
sama, yang disebut sebagai kejadian Concordant
• Kedua peubah kategorik yang dianalisis memiliki urutan kejadian
berbeda, yang disebut sebagai kejadian Discordant
• Kedua peubah kategorik yang dianalisis kejadiannya tidak berubah,
yang disebut sebagai Ties. Kejadian yang tidak berubah dapat terjadi
pada peubah kategorik pertama (Ties X) atau kedua (Ties Y).
Uses the concordance and discordance of all of the possible pairs of data
• If x1 > x2 and y1 > y2 OR x1 < x2 and y1 < y2 pairs 1 and 2 are considered
concordant (P)
• If x1 > x2 and y1 < y2 OR x1 < x2 and y1 > y2 pairs 1 and 2 are considered
discordant (Q)
• If x1 = x2 and y1 < y2 OR y1 > y2 pairs 1 and 2 are ties in X (T1)
• If y1 = y2 and x1 < x2 OR x1 > x2 pairs 1 and 2 are ties in Y (T2)
• Can calculate the same thing based on ranks
Concordant Pairs:
Ideology and Voting
• Ideology - conserv (1), moderate (2), liberal (3)
• Voting - never (1), sometimes (2), often (3)
• Pair A&B are considered a concordant pair because B’s ideology score is greater than A’s
score, and B’s voting score is greater than A’s score
Concordant Pairs (cont’d)
• All of the following are concordant pairs
• A(1,1) B(2,2)
• A(1,1) B(2,3)
• A(1,1) B(3,2)
• A(1,2) B(2,3)
• A(2,2) B(3,3)
• Concordant pairs are consistent with a positive relationship between the IV and
the DV (ideology and voting)
Discordant Pairs
• All of the following are discordant pairs
• A(1,2) B(2,1)
• A(1,3) B(2,2)
• A(2,2) B(3,1)
• A(1,2) B(3,1)
• A(3,1) B(1,2)
• Discordant pairs are consistent with a negative relationship between the IV and
the DV (ideology and voting)
Identifying Concordant Pairs
• Concordant Pairs for Never - Conserv (1,1)
• #Concordant = 80*70 + 80*10 + 80*20 + 80*80
= 14,400
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Identifying Concordant Pairs
• Concordant Pairs for Never - Moderate (1,2)
• #Concordant = 10*10 + 10*80 = 900
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Conserv (1,3)
• #Discordant = 0*10 + 0*10 + 0*70 + 0*10 = 0
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Identifying Discordant Pairs
• Discordant Pairs for Often - Moderate (2,3)
• #Discordant = 20*10 + 20*10
Never (1) 80 10 10
Sometimes (2) 20 70 10
Often (3) 0 20 80
Square tables:
Non-Square tables:
• Example 1: Participants in the 2002 General Social Survey, a major
national survey done every other year, were asked if they own a gun
and whether they favor or oppose a law requiring all guns to be
registered with local authorities. A two-way table of counts for these
two variables is shown below. Rows indicate whether the person
owns a gun or not.
Opposes Gun
Owns Gun Favors Gun Law All
Law
No 527 72 599
Female 56 32 39 127
Male 43 31 25 99
All 99 63 64 226
1
Select the chart wizard
2
Select XY(Scatter) option,
then click “Next”
3
When prompted, enter the
data range, desired
legend, and desired
destination to complete
the scatter diagram
Rank Correlation
• The Pearson correlation coefficient, r, is a measure of the linear
association between two variables for which interval or ratio data are
available.
• The Spearman rank-correlation coefficient, rs , is a measure of
association between two variables when only ordinal data are
available.
• Values of rs can range from –1.0 to +1.0, where
• values near 1.0 indicate a strong positive association between the rankings,
and
• values near -1.0 indicate a strong negative association between the rankings.
Spearman Rank Correlation
• Spearman Rank-Correlation Coefficient, rs
6 di2
rs 1
n(n2 1)
Investment A B C D E F G H I J
Analyst #1 1 4 9 8 6 3 5 7 2 10
Analyst #2 1 5 6 2 9 7 3 10 4 8
Example: Connor Investors
Analyst #1 Analyst #2
Investment Rating Rating Differ. (Differ.)2
A 1 1 0 0
B 4 5 -1 1
C 9 6 3 9
D 8 2 6 36
E 6 9 -3 9
F 3 7 -4 16
G 5 3 2 4
H 7 10 -3 9
I 2 4 -2 4
J 10 8 2 4
Sum = 92
Cov (x , y)
ρ
σXσY
• Sample correlation coefficient:
Cov (x , y)
r
sX sY
Features of Correlation Coefficient, r
• Unit free
• Ranges between –1 and 1
• The closer to –1, the stronger the negative linear relationship
• The closer to 1, the stronger the positive linear relationship
• The closer to 0, the weaker any positive linear relationship
Scatter Plots of Data with Various
Correlation Coefficients
Y Y Y
X X X
r = -1 r = -.6 r=0
Y
Y Y
X X X
r = +1 r = +.3 r=0
Using Excel to Find
the Correlation Coefficient
• Select
Tools/Data Analysis
• Choose Correlation from the
selection menu
• Click OK . . .
Using Excel to Find
the Correlation Coefficient (continued)
95
• There is a relatively
Test #2 Score
90
85
relationship between 75
70
test score #1 70 75 80 85 90 95 100
Test #1 Score
and test score #2
Yi β0 β1xi ε i
• Where 0 and 1 are the population model coefficients and is a random error
term.
Population Random
Population Independent Error
Slope
Y intercept Variable term
Coefficient
Dependent
Variable
Yi β0 β1Xi ε i
Linear component Random Error
component
Y Yi β0 β1Xi ε i
Observed Value
of Y for Xi
εi Slope = β1
Intercept = β0
Xi
X
Statistics for Business and Economics, 6e
Chap 12-43
© 2007 Pearson Education, Inc.
Simple Linear Regression Equation
The simple linear regression equation provides an estimate of the
population regression line
yˆ i b0 b1xi observation i
min (y i yˆ i )2
min [y i (b 0 b1x i )] 2
(x x)(y
i i y)
sY
b1 i1
n
rxy
sX
i
(x
i1
x) 2 x
b0 y b1x
• The true relationship form is linear (Y is a linear function of X, plus random error)
• The error terms, εi are independent of the x values
• The error terms are random variables with mean 0 and constant variance, σ2
(the constant variance property is called homoscedasticity)
• The random error terms, εi, are not correlated with one another, so that
E[ε iε j ] 0 for all i j
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000