Anda di halaman 1dari 18

MODUL PERKULIAHAN SESI 1

PENGANTAR STATISTIKA 2 DAN RUANG LINGKUP


PENERAPAN

Dr. Dedy Sugiarto, SSi, MM

Pendahuluan
Beberapa definisi yang digunakan

◼ Populasi adakah keseluruhan pengamatan yang menjadi pusat perhatian kita.


◼ Sampel adalah himpunan bagian dari populasi
◼ Parameter adalah sembarang ukuran yang mewakili populasi
◼ Statistik adalah sembarang ukuran yang mewakili sampel
◼ Statistik merupakan penduga bagi parameter

Huruf yunani biasa digunakan untuk paramater seperti rata-rata populasi (mu) dan
simpangan baku populasi (sigma)

Gambar 1. Huruf Yunani

Sumber : https://sites.google.com/site/futurespaceprogram/greek-alphabet
Tujuan dari perkuliah statistika 2 sesi 1 adalah memahami ruang lingkup statistika
inferensi serta penerapannya dalam bidang teknik industri menggunakan salah satu
perangkat lunak statistika. Secara umum ilmu statistika terbagi dua yaitu statistika
deskriptif dan statistika inferensi. Statistika deskriptif berbicara mengenai bagaimana
menggambarkan data yang kita kumpulkan menjadi sebuah informasi yang lebih mudah
dipahami melalui ukuran-ukuran numerik serta berbagai metode grafikal. Sedangkan
statistika inferensi berbicara mengenai bagaimana menggambarkan karakteristik
populasi melalui berdasarkan sampel atau himpunan bagian dari populasi. Terdapat dua
bagian umum dari statistika inferensi yaitu pendugaan mengenai parameter populasi
melalui pembuatan interval pendugaan serta pengujian hipotesis mengenai parameter
populasi.

Pelajaran pertama mengenai statistika inferensi biasanya diawali dengan bagaimana


melakukan pendugaan paramater mengenai rata-rata populasi dan ragam populasi untuk
tipe data yang bersifat numerik (kuantitatitf) serta pendugaan parameter mengenai
proporsi untuk tipe data yang bersifat kategorik (kualitatif).

Ilustrasi Penerapan Statistika Inferensi


Ilustrasi pertama mengenai penerapan statistika inferensi adalah pada riset terkait
elaktabilitas dalam pemilihan presiden maupun pemilihan kepala daerah. Biasanya usai
dilaksanakan pemilihan,beberapa lembaga survai akan langsung melakukan proses
hitung cepat (Quick count) yang mengandalkan sampel sekitar 2000 sd 4000 TPS dari
sekitar 800 ribu TPS yang ada (dalam kasus pilpres). Hitung cepat itu sendiri merupakan
kegiatan ilmiah, terutama bertumpu pada ilmu Statistika, yang bertujuan untuk
memprediksi hasil pemilu. Parameter yang ingin diduga adalah persentase perolehan
suara seorang calon dengan disertai nilai rentang kesalahan dalam pendugaannya atau
margin of error (MOE) sekitar 1 % sd 3 %. Lebih rinci terkait hal ini dapat dilihat pada
https://saifulmujani.com/metodologi-proses-dan-hasil-quick-count-pemilu-2019/

Ilustrasi kedua mengenai penerapan statistika inferensi dapat dibaca pada beberapa
artikel terkait covid-19: Bagaimana statistika inferensi bisa membuktikan beberapa
pernyataan berikut ini? Telusuri berapa ukuran sampel yang digunakan serta bagaimana
proses penarikan kesimpulannya.
Alasan Pria Lebih Rentan Tewas Akibat Virus Corona
https://www.cnnindonesia.com/teknologi/20200512220109-199-502701/alasan-pria-
lebih-rentan-tewas-akibat-virus-corona
COVID-19 Lebih Berbahaya bagi Lansia di Atas 70 Tahun
https://www.alodokter.com/covid-19-lebih-berbahaya-bagi-lansia-di-atas-70-tahun

Untuk menjawab ilustrasi di atas dapat digunakan dataset yang berasal dari
https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset
Gambar 2. Contoh dataset covid19 dengan sampel 1085 pasien

Data tersebut dapat ditarik dan diolah menggunakan software R studio melalui perintah
berikut ini:
# copy data dari excel
dataku <- read.delim("clipboard")

Sedangkan untuk membuktikan pria lebih rentan dalam kasus covid19 dapat dilakukan
pengolahan data di R Studio melalui perintah berikut ini :
dataku$death_dummy=as.integer(dataku$death != 0)
table(dataku$death_dummy)

male=subset(dataku, dataku$gender=="male")
female=subset(dataku, dataku$gender=="female")
sum(male$death_dummy)/nrow(male)
#0.08461538
sum(female$death_dummy)/nrow(female)
#0.03664921

Dapat diketahui bahwa tingkat kematian pada kasus pasien pria adalah sebesar 8,46 %
sedangkan pada kasus pasien wanita hanyalah sebesar 3,66 %. Langkah selanjutnya
bila ingin diuji perbedaan proporsi antar 2 grup dapat digunakan z-test sebagai berikut :

# Ho : p death_rate_male is egual to p death_rate_female


# Ha : p death_rate_male is not equal to p death_rate_female
prop.test(x = c(44, 14), n = c(520, 382),alternative = "two.sided")
Bila nilai p-value < significance level (alpha) maka tolak Ho (reject Ho). Nilai alpha dapat
berkisar pada 0.1% , 1% , 5% atau 10%. Dalam uji beda dua proporsi tersebut
didapatkan nilai p-value = 0.0057 maka kurang dari 1% (0.01) sehinggga terjadi
perbedaan yang sangat signifikan antara persentase kematian pria dan wanita.

Selanjutnya dalam kasus apakah usia berpengaruh terhadap tingkat kematian pasien.
Perintah yang dapat dijalankan pada software R studio adalah sebagai berikut :

dead=subset(dataku, dataku$death_dummy ==1)


alive=subset(dataku, dataku$death_dummy == 0)
# rerata usia yang meninggal di kelompok dataset male karena usia adalah numerical
data bisa pakai mean
mean(dead$age, na.rm="TRUE")

# 68.58621 berarti rerata usia pasien yang meninggal berusia sekitar 68 tahun

mean(alive$age, na.rm="TRUE")
# 48.07229 usia pasien yang tetap hidup sekitar 48 tahun

# uji perbedaan rerata antara dead dan alive


t.test(dead$age, alive$age, alternative = "two.sided")

Hasilnya menunjukkan nilai p-value sebesar 2.2e-16 sangat signfikan bedanya karena
nilai p value < 1% atau sangat sangat signifikan karena nilai p value < 0.1%
Keterangan lebih rinci dapat dilihat pada Youtube Using R to Analyze COVID-19
https://www.youtube.com/watch?v=D_CNmYkGRUc
Proses instalasi softare R studio dilakukan secara bertahap, pertama install R kemudian
dilanjtkan R Studio. Software R dapat didownload pada
https://rstudio.com/products/rstudio/download/#download

Ilustrasi ketiga adalah dalam kasus riset di bdang Ergonomi. Misalkan seorang
mahasiswa tugas akhir ingin meneliti denyut jantung mahasiswa. Salah satu variabel
yang diteliti adalah denyut jantung pada posisi istirahat. Dia mengambil sampel yang
berukuran 35 orang. Data set secara lengkap dapat dilihat pada
https://support.minitab.com/en-us/datasets/tables-data-sets/pulse-rates-data/.
Sedangkan Minitab versi trial dapat didownload pada https://www.minitab.com/en-
us/products/minitab/free-trial/

Beberapa pertanyaan dalam risetnya adalah Bagaimanakah tebaran variasi data dari
resting pulse untuk pria dan wanita serta rata-rata dan simpangan bakunya ? apakah
terdapat outlier dari resting pulse untuk pria dan wanita serta merokok dan tidak merokok
? (Petunjuk : gunakan boxplot), apakah resting pulse pria dan wanita berdistribusi Normal
? Andaikan terdapat pengamatan outlier dan pengamatan tersebut dibuang,
bagaimanakah kenormalan datanya sekarang? apakah terdapat perbedaan rata-rata
resting pulse yang signifikan antara pria dan wanita ? (petunjuk : lakukan uji statistik)
Gambar 3. Keterangan variabel

Histogram (with Normal Curve) of Pulse1 by Sex


50 60 70 80 90 100 110
1 2 1
Mean 70.25
7 StDev 8.892
N 24
6
2
Mean 80.91
5 StDev 13.31
Frequency

N 11
4

0
50 60 70 80 90 100 110
Pulse1
Panel variable: Sex

Gambar 4 Histogram resting pulse untuk pria dan wanita

Dengan menggunakan teknik-teknik dalam Exploratory Data Analysis dengan bantuan


Minitab, dapat terlihat bahwa rata-rata resting pulse pria adalah 70,25, lebih rendah dari
rata-rata resting pulse wanita yang sebesar 80,91. Resting pulse pria memiliki histogram
yang lebih runcing, menandai keragaman data yang lebih kecil bila dibandingkan dengan
wanita yang memiliki histogram lebih landai serta keragaman data yang lebih besar
(Gambar 4)
Boxplot of Pulse1 vs Sex

100

90
Pulse1

80

70

60

1 2
Sex

Gambar 5 Boxplot resting pulse untuk pria dan wanita serta merokok dan tidak
merokok

Pengamatan outlier (pengamatan yang menyimpang jauh dari suatu data) ditandai
dengan lambang bintang. Outlier terjadi bila terdapat pengamatan yang melebihi 1,5 IQR
(Interquartile range) atau 1,5 (Q3-Q1). Terlihat bahwa terdapat 2 titik outlier pada resting
pulse pria yaitu resting pulse 92 dan 90. Perlu kehati-hatian untuk memeriksa outlier
tersebut, apakah karena terjadi kesalahan pengukuran atau apakah sebenarnya resting
pulse pria dapat dipilah lagi berdasarkan kategori lainnya seperti kebiasaan merokok.
Boxplot of Pulse1 vs Sex, Smokes

100

90
Pulse1

80

70

60

Smokes 1 2 1 2
Sex 1 2

Gambar 6 Boxplot deyut jantung berdasarkan kategeori kebiasaan merokok dan gender

Bila boxplot dibuat lebih detail lagi untuk kategori merokok atau tidak maka pengamatan
yang sebelumnya dianggap outlier tersebut ternyata tidak lagi dianggap outlier untuk
kalangan pria perokok

Selanjutnya bila ingin dilakukan pengujian statistika misalnya terkait rata-rata kita dapat
memeriksa terlebih dahulu bentuk distribusi peluang dari datanya. Contoh berikut adalah
pemeriksanan apakah resting pulse dari pria dan wanita berdistribusi Normal melalui
teknik normal probability plot.
Probability Plot of Pulse1
Normal - 95% CI
99
Sex
1
95 2

90 Mean StDev N AD P
70.25 8.892 24 0.806 0.032
80 80.91 13.31 11 0.299 0.523
70
Percent

60
50
40
30
20

10

1
40 60 80 100 120 140
Pulse1

Gambar 7. Normal Probability Plot

Pemeriksaan bentuk distribusi dari data yang dikumpulkan sangatlah penting. Beberapa
teknik statistika seperti uji t yang biasa dipakai untuk uji rata-rata sampel kecil
mensyaratkan populasi harus berdistribusi normal. Oleh karena itu bila data yang
dikumpulkan masih cukup untuk melakukan uji distribusi, sebaiknya dilakukan terlebih uji
distribusi Normal. Terlihat bahwa resting pulse pria diidentifikasi tidak berdistribusi
Normal (p value sebesar 0,032 atau kurang dari taraf nyata 0,05). Hal ini diduga karena
adanya data outlier pada resting pulse pria
Probability Plot of Pulse1
Normal - 95% CI
99
Sex
1
95 2

90 Mean StDev N AD P
68.36 6.463 22 0.310 0.530
80 80.91 13.31 11 0.299 0.523
70
Percent

60
50
40
30
20

10

1
40 60 80 100 120 140
Pulse1

Gambar 8. Normal Probability Plot setalah dilakukan eliminasi terhadap data outlier

Apabila data ekstrim tersebut dibuang resting pulse pria sekarang telah berdistribusi
Normal. Setelah itu bisa dilanjutkan dengan menggunakan ujit t untuk menguji perbedaan
rerata antar 2 grup (pria dan wanita)

Gambar 9. Hasil uji t


Data telah diuji ternyata berdistribusi Normal sehinnga uji t dengan sampel kecil dapat
digunakan. Hasil pengujian menunjukkan nilai p value sebesar 0,012 atau kurang dari
taraf signifikan 0,05 yang berarti terjadi perbedaan rata-rata yang signifikan antara resting
pulse pria dan wanita

Petunjuk Penggunaan R Studio

# copy data dari excel


dataku <- read.delim("clipboard")

# melihat isi data frame untuk beberapa baris awal


head(dataku)

# melihat struktur datanya (tipe variabel)


str(dataku)

#m melihat ukuran atau dimensi data (jumlah baris dan kolom)


dim(dataku)

# menghitung rata-rata untuk variabel yang bersifat integer dan numerik


mean(dataku$age)

Latihan 1. Merancang Interface User (Sumber Laporan Praktikum an Dimmas Mulya


/ Kino)

Install R dan Rstudio terlebih dahulu. Kemudian buat lah data yang diperlukan di aplikasi
Ms. Excel, contoh seperti berikut :

Lalu blok seluruh sel excel yang telah diisi, kemudian copy. 1.5 Buka konsol R Studio,
lalu ketik perintah ini, misal kino = read.delim(“clipboard”).Kemudian ketik View(kino)
dn akan muncul tampilan seperti berikut
Kemudian ketik perintah mean(kino$tinggi) dan akan muncuk seperti ini

Kemudian ketik lagi perintah str(kino) untuk melihat struktur datanya.


Latihan 2. Melihat dataset yang terdapat di R

Terdapat beberapa data set yang sudah terdapat di R. Untuk melihatnya tuliskan
perintah di bawah ini.

> data()

Salah satu dataset yang dapat dijadikan latihan adalah dataset iris. Iris memiliki
memiliki 3 jenis species seperti dapat dilihat pada gambar dan memiliki variabel
panjang dan lebar petal dan sepal yang berbeda-beda.

> iris
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
7 4.6 3.4 1.4 0.3 setosa
8 5.0 3.4 1.5 0.2 setosa
9 4.4 2.9 1.4 0.2 setosa
10 4.9 3.1 1.5 0.1 setosa
11 5.4 3.7 1.5 0.2 setosa
12 4.8 3.4 1.6 0.2 setosa
13 4.8 3.0 1.4 0.1 setosa
14 4.3 3.0 1.1 0.1 setosa
15 5.8 4.0 1.2 0.2 setosa
16 5.7 4.4 1.5 0.4 setosa
17 5.4 3.9 1.3 0.4 setosa
18 5.1 3.5 1.4 0.3 setosa
19 5.7 3.8 1.7 0.3 setosa
20 5.1 3.8 1.5 0.3 setosa
21 5.4 3.4 1.7 0.2 setosa
22 5.1 3.7 1.5 0.4 setosa
23 4.6 3.6 1.0 0.2 setosa
24 5.1 3.3 1.7 0.5 setosa
25 4.8 3.4 1.9 0.2 setosa
26 5.0 3.0 1.6 0.2 set osa
27 5.0 3.4 1.6 0.4 setosa
28 5.2 3.5 1.5 0.2 setosa
29 5.2 3.4 1.4 0.2 setosa
30 4.7 3.2 1.6 0.2 setosa
31 4.8 3.1 1.6 0.2 setosa
32 5.4 3.4 1.5 0.4 setosa
33 5.2 4.1 1.5 0.1 setosa
34 5.5 4.2 1.4 0.2 setosa
35 4.9 3.1 1.5 0.2 setosa
36 5.0 3.2 1.2 0.2 setosa
37 5.5 3.5 1.3 0.2 setosa
38 4.9 3.6 1.4 0.1 setosa
39 4.4 3.0 1.3 0.2 setosa
40 5.1 3.4 1.5 0.2 setosa
41 5.0 3.5 1.3 0.3 setosa
42 4.5 2.3 1.3 0.3 setosa
43 4.4 3.2 1.3 0.2 setosa
44 5.0 3.5 1.6 0.6 setosa
45 5.1 3.8 1.9 0.4 setosa
46 4.8 3.0 1.4 0.3 setosa
47 5.1 3.8 1.6 0.2 setosa
48 4.6 3.2 1.4 0.2 setosa
49 5.3 3.7 1.5 0.2 set osa
50 5.0 3.3 1.4 0.2 setosa
51 7.0 3.2 4.7 1.4 versicolor
52 6.4 3.2 4.5 1.5 versicolor
53 6.9 3.1 4.9 1.5 ver sicolor
54 5.5 2.3 4.0 1.3 versicolor
55 6.5 2.8 4.6 1.5 versicolor
56 5.7 2.8 4.5 1.3 versicolor
57 6.3 3.3 4.7 1.6 versicolor
58 4.9 2.4 3.3 1.0 versicolor
59 6.6 2.9 4.6 1.3 versicolor
60 5.2 2.7 3.9 1.4 versicolor
61 5.0 2.0 3.5 1.0 versicolor
62 5.9 3.0 4.2 1.5 versicolor
63 6.0 2.2 4.0 1.0 versicolor
64 6.1 2.9 4.7 1.4 versicolor
65 5.6 2.9 3.6 1.3 versicolor
66 6.7 3.1 4.4 1.4 versicolor
67 5.6 3.0 4.5 1.5 versicolor
68 5.8 2.7 4.1 1.0 versicolor
69 6.2 2.2 4.5 1.5 versicolor
70 5.6 2.5 3.9 1.1 versicolor
71 5.9 3.2 4.8 1.8 versicolor
72 6.1 2.8 4.0 1.3 versicolor
73 6.3 2.5 4.9 1.5 versicolor
74 6.1 2.8 4.7 1.2 versicolor
75 6.4 2.9 4.3 1.3 versicolor
76 6.6 3.0 4.4 1.4 versicolor
77 6.8 2.8 4.8 1.4 versicolor
78 6.7 3.0 5.0 1.7 versicolor
79 6.0 2.9 4.5 1.5 versicolor
80 5.7 2.6 3.5 1.0 versicolor
81 5.5 2.4 3.8 1.1 versicolor
82 5.5 2.4 3.7 1.0 versicolor
83 5.8 2.7 3.9 1.2 versicolor
84 6.0 2.7 5.1 1.6 versicolor
85 5.4 3.0 4.5 1.5 versicolor
86 6.0 3.4 4.5 1.6 versicolor
87 6.7 3.1 4.7 1.5 versicolor
88 6.3 2.3 4.4 1.3 versicolor
89 5.6 3.0 4.1 1.3 versicolor
90 5.5 2.5 4.0 1.3 versicolor
91 5.5 2.6 4.4 1.2 versicolor
92 6.1 3.0 4.6 1.4 versicolor
93 5.8 2.6 4.0 1.2 versicolor
94 5.0 2.3 3.3 1.0 versicolor
95 5.6 2.7 4.2 1.3 versicolor
96 5.7 3.0 4.2 1.2 versicolor
97 5.7 2.9 4.2 1.3 versicolor
98 6.2 2.9 4.3 1.3 versicolor
99 5.1 2.5 3.0 1.1 versicolor
100 5.7 2.8 4.1 1.3 versicolor
101 6.3 3.3 6.0 2.5 virginica
102 5.8 2.7 5.1 1.9 virginica
103 7.1 3.0 5.9 2.1 virginica
104 6.3 2.9 5.6 1.8 virginica
105 6.5 3.0 5.8 2.2 virginica
106 7.6 3.0 6.6 2.1 virginica
107 4.9 2.5 4.5 1.7 virginica
108 7.3 2.9 6.3 1.8 virginica
109 6.7 2.5 5.8 1.8 virginica
110 7.2 3.6 6.1 2.5 virginica
111 6.5 3.2 5.1 2.0 virginica
112 6.4 2.7 5.3 1.9 virginica
113 6.8 3.0 5.5 2.1 virginica
114 5.7 2.5 5.0 2.0 virginica
115 5.8 2.8 5.1 2.4 virginica
116 6.4 3.2 5.3 2.3 virginica
117 6.5 3.0 5.5 1.8 virginica
118 7.7 3.8 6.7 2.2 virginica
119 7.7 2.6 6.9 2.3 virginica
120 6.0 2.2 5.0 1.5 virginica
121 6.9 3.2 5.7 2.3 virginica
122 5.6 2.8 4.9 2.0 virginica
123 7.7 2.8 6.7 2.0 virgin ica
124 6.3 2.7 4.9 1.8 virginica
125 6.7 3.3 5.7 2.1 virginica
126 7.2 3.2 6.0 1.8 virginica
127 6.2 2.8 4.8 1.8 vi rginica
128 6.1 3.0 4.9 1.8 virginica
129 6.4 2.8 5.6 2.1 virginica
130 7.2 3.0 5.8 1.6 virginica
131 7.4 2.8 6.1 1.9 virginica
132 7.9 3.8 6.4 2.0 virginica
133 6.4 2.8 5.6 2.2 virginica
134 6.3 2.8 5.1 1.5 virginica
135 6.1 2.6 5.6 1.4 virginica
136 7.7 3.0 6.1 2.3 virginica
137 6.3 3.4 5.6 2.4 virginica
138 6.4 3.1 5.5 1.8 virginica
139 6.0 3.0 4.8 1.8 virginica
140 6.9 3.1 5.4 2.1 virginica
141 6.7 3.1 5.6 2.4 virginica
142 6.9 3.1 5.1 2.3 virginica
143 5.8 2.7 5.1 1.9 virginica
144 6.8 3.2 5.9 2.3 virginica
145 6.7 3.3 5.7 2.5 virginica
146 6.7 3.0 5.2 2.3 virgin ica
147 6.3 2.5 5.0 1.9 virginica
148 6.5 3.0 5.2 2.0 virginica
149 6.2 3.4 5.4 2.3 virginica
150 5.9 3.0 5.1 1.8 vi rginica
Hubungan antara sebuah variabel kategorik dengan sebuah variabel kontinu
> by(iris$petal.length, iris$iris, mean)
iris$iris: Iris-setosa
[1] 1.464
---------------------------------------------------------------------
iris$iris: Iris-versicolor
[1] 4.26
---------------------------------------------------------------------
iris$iris: Iris-virginica
[1] 5.552

> by(iris$petal.length, iris$iris, sd)


iris$iris: Iris-setosa
[1] 0.1735112
---------------------------------------------------------------------
iris$iris: Iris-versicolor
[1] 0.469911
---------------------------------------------------------------------
iris$iris: Iris-virginica
[1] 0.5518947
> by(iris$petal.length, iris$iris, summary)
iris$iris: Iris-setosa
Min. 1st Qu. Median Mean 3rd Qu. Max.
1.000 1.400 1.500 1.464 1.575 1.900
---------------------------------------------------------------------
iris$iris: Iris-versicolor
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.00 4.00 4.35 4.26 4.60 5.10
---------------------------------------------------------------------
iris$iris: Iris-virginica
Min. 1st Qu. Median Mean 3rd Qu. Max.
4.500 5.100 5.550 5.552 5.875 6.900

Metode visualisasi
> library(ggplot2)
> qplot(iris,petal.length, data=iris, geom="boxplot", fill=iris)

Anda mungkin juga menyukai