BIOSTATISTIKA DASAR
B. Penyajian Data
Jenis penyajian data dibagi menjadi tiga, yaitu
1. Teks: Disajikan dalam bentuk teks dan kalimat, merupakan gambaran umum
tentang kesimpulan hasil pengamatian.
2. Tabel: Penyajian data dilakukan dalam kolom dan baris. Ada beberapa jenis table,
yaitu:
a. Dummy table: sesuai namanya, hanyalah kerangka tabel dengan parameter
yang diinginkan, dengan sel-sel yang akan diisi setelah mendapat hasil
statistik
Dalam contoh di atas, interval pertama memiliki batas bawah 30 dan batas
atas 39. Penentuan jumlah interval harus baik, karena interval yang terlalu
sedikit tidak akan menampilkan banyak informasi, sedangkan interval
yang terlalu banyak akan membuat usaha mengelompokkan sia-sia.
C. Peringkasan Data
1. Ukuran tengah:
a. Mean:
Disimbolkan dengan x̄ (x bar), yang berarti mean dari variabel x. Sedangkan µ
digunakan untuk mean populasi. Merupakan jumlah semua nilai observasi
dibagi jumlah observasi. Mean rentan terpengaruh oleh nilai ekstrem atau
outlier (nilai yang berbeda jauh dengan nilai-nilai lain)
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑥𝑥𝑥 =
𝑛𝑛
b. Median:
Jika kita mengurutkan semua nilai observasi dari yang paling rendah hingga
paling tinggi, lalu kita ambil nilai yang berada di tengah, kita bisa mendapatkan
nilai median, yang merupakan nilai yang berada di tengah dari seluruh nilai
observasi, atau pada posisi (n+1)/2. Median juga merupakan kuartil kedua.
Disimbolkan sebagai Md atau Me.
c. Modus:
Merupakan nilai yang paling banyak muncul dari seluruh nilai observasi.
Dalam seluruh nilai observasi, bisa didapat lebih dari satu modus.
2. Hubungan mean-median-modus:
1. Skewness:
Distribusi data dapat diklasifikasikan berdasarkan kesimetrisan mereka. Jika
suatu data simetris, maka dia memiliki nilai mean, median, dan modus yang
sama. Jika suatu data condong ke kanan (condong positif), berarti nilai mean
lebih tinggi dari modusnya. Jika data condong ke kiri (condong negatif),
maka nilai mean lebih rendah dari nilai modusnya.
2. Kurtosis:
Seperti kecondongan, kurtosis digunakan untuk mendeskripsikan distribusi
data. Kurtosis mengukur apakah suatu distribusi data memuncak atau datar.
Kurtosis lebih berurusan dengan tail, yang berarti data dngan kurtosis tinggi
akan memiliki outlier yang lebih besar pula. Jika kurtosis semakin rendah,
distribusi akan semakin datar, sementara kurtosis yang tinggi akan memiliki
tail yang berat. Rumus kurtosis adalah
𝑛𝑛 ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥1 − 𝑥𝑥̄ )4
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = −3
(𝑛𝑛 − 1)2 𝑠𝑠 4
Dengan s merupakan standar deviasi. Kadang jika kita menggunakan program
komputer, ada yang mengurangi dengan 3, dan ada yang tidak. Kurtosis
dibagi menjadi tiga jenis, yaitu:
a. Mesokurtik: Distribusi normal dengan bentuk lonceng, hasil
perhitungan menghasilkan kurtosis 3 (0 setelah dikurangi 3)
b. Leptokurtik: Distribusi yang terlalu memuncak karena kurangnya data
yang ada pada tail. Nilai kurtosis lebih tinggi dari mesokurtik.
c. Platikurtic: Disribusi yang memiliki bentuk datar karena terlalu
banyak yang berada pada tail. Nilai kurtosis lebih rendah dari
mesokurtik.
3. Variasi
Untuk dapat menjelakan data dengan baik, mean, modus, dan median saja
tidak cukup, dibutuhkan pula pengukuran variasi atau dispersi dari nilai-nilai
yang terobservasi, yaitu seberapa nilai-nilai tersebut berbeda antar satu dengan
yang lain
1. Range:
Pengukuran palig simpel dan paling kasar untuk variasi adalah range atau
jarak, yang merupakan perbedaan antara nilai tertinggi dan terendah dari
seluruh nilai-nilai yang terobservasi. Pengukuran ini tidak bisa
menjelaskan secara sempurna variasi yang ada karena hanya melihat nilai
tertinggi dan terendah saja dan tidak memperhartikan masing-masing nilai
lainnya yang ada.
2. Interquartile Range:
Karena jarak hanya melihat nilai tertnggi dan terendah, kita bisa membuat
perhitungan serupa yang melibatkan nilai median. Perhitungan ini
menggunakan kuartil, dan disebut sebagai interquartile range. Rumusnya
adalah
𝐼𝐼𝐼𝐼𝐼𝐼 = 𝑄𝑄3 − 𝑄𝑄1
Kuartil yang besar menyatakan bahwa banyak variasi pada nilai median
3. Mean Absolute Deviation:
Semakin besar variasi dari seluruh nilai-nilai yang ada, maka semakin
besar pula perbedaan atau deviasi antara nilai-nilai yang ada dengan mean.
Oleh karena itu, otomatis salah satu cara pengukuran variasi adalah
dengan menghitung rata-rata dari seluruh deviasi tersebut. Namun, karena
pasti ada nilai yang lebih besar dan lebih rendah dari nilai mean, kalau kita
jumlahkan seluruh nilai deviasi, maka kita akan dapatkan. Contohnya:
5 6 9 11 14
Mean dari seluruh nilai tersebut adalah 9. Dari situ, kita akan mendapatkan
nilai-nilai deviasi:
-4 -3 0 2 5
Jika kita jumlahkan seluruh nilai tersebut, maka kita akan mendapatkan
nilai 0, yang tidak bisa kita bagi untuk mendapatkan nilai mean. Salah satu
cara untuk melalui permasalahan ini adalah dengan menggunakan nilai
absolut dari masing-masing nilai deviasi, lalu mengambil mean dari
jumlah deviasi absolut. Dari situ, kita akan mendapatkan mean absolute
deviation, yang merupakan rata-rata dari perbedaan masing-masing
nilai yang terobservasi, yang kalau kita buat rumusnya, menjadi:
∑|𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ |
𝑥𝑥𝑥𝑥𝑥 =
𝑛𝑛
Jika kita gunakan contoh yang tadi, dari nilai-nilai
5 6 9 11 14
Maka kita akan dapatkan nilai absolut deviasi
4 3 0 2 5
Yang kalau kita jumlahkan menghasilkan nilai 14, dan jika kita ambil
mean dari nilai tersebut, maka menghasilkan mean absolute deviation 2.8
Mean absolute deviation sendiri sebaiknya tidak digunakan karena dia
menggunakan nilai absolut
4. Varians:
Sekarang, kita menggunakan metode lain untuk melewati masalah yang
tadi. Jika sebelumnya kita menggunakan nilai absolut, sekarang kita
mencoba mengkuadratkan masing-masing deviasi, yang juga akan
menghasilkan nilai-nilai positif, dan juga tidak mengandalkan nilai absolut
seperti tadi. Dari situ, kita juga bisa mendapatkan mean dari setiap deviasi
yang telah dikuadratkan. Perhitungan ini disebut sebagai varians, yaitu
rata-rata dari setiap deviasi kuadrat. Jika kita buat dalam bentuk rumus,
yaitu:
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
2
σ =
𝑁𝑁
Rumus di atas berlaku untuk varians di populasi. Jika kita ingin
mengetahui nilai varians dari sampel, kita harus memodifikasi rumus
tersebut, karena jika kita menggunakan rumus di atas untuk sampel, maka
kita akan menemukan bahwa hasilnya akan lebih rendah dari yang
seharusnya. Maksudnya, jika kita mengambil sampel terus menerus, dan
dari setiap sampel tersebut kita ambil nilai varians-nya, dan kita ambil
mean dari nilai varians-varians tersebut, maka nilainya akan lebih rendah
dari nilai sebenarnya dari populasi. Oleh karena itu, untuk menghindari
hal tersebut dalam menghitung varians sampel, kita gunakan koreksi
Fisher-Wilks, atau degree of freedom, yaitu dengan membagi tidak dengan
nilai seluruh sampel, namun sampel dikurangi satu (n-1). Jika kita jadikan
rumus, maka rumus varians di sampel menjadi:
2
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
𝑠𝑠 =
𝑛𝑛 − 1
Contohnya, jika kita memiliki nilai-nilai dari sampel sebagai berikut
1 5 6 7 8 9
Dengan mean 6, dan kita akan mendapatkan deviasi dari masing-masing
yaitu
-5 -1 0 1 2 3
Dan jika kita kuadratkan masing-masing, akan mendapat
25 1 0 1 4 9
Dan kita akan bagi jumlah seluruhnya, yaitu 40, dengan jumlah observasi
yang ada di sampel, namun kita kurangi jumah observasi dengan satu,
yang akan menjadi 5, maka hasil varians-nya adalah 8. Perlu diingat,
karena nilai-nilai observasi tadi dikuadratkan, maka satuannya juga dalam
bentuk kuadrat, seperti cm2 atau kg2.
5. Standar Deviasi atau Simpangan Baku:
Karena varians tadi adalah nilai dari hasil mengkuadratkan nilai-nilai yang
ada, maka jika kita ingin mendapatkan nilai variasi tepat tanpa bentuk
kuadrat, maka kita cukup mengakarkan varians. Dari situ kita akan
mendapatkan nilai standar deviasi, atau nilai akar dari varians. Jika kita
buat dalam rumus, maka
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
σ=�
𝑁𝑁
Untuk standar deviasi di populasi. Sedangkan, untuk standar deviasi di
sampel, maka rumusnya adalah
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
𝑠𝑠 = �
𝑛𝑛 − 1
Karena standar deviasi adalah akar (root) dari mean dari deviasi-deviasi
kuadrat (squared deviations), maka standar deviasi juga disebut sebagai
RMS, atau Root Mean Square.
6. Coefficient of Variation:
Standar deviasi berguna untuk mengukur seberapa variasi yang ada dari
suatu set data. Namun, jika kita ingin membandingkan antara satu set data
dengan set data lannya, kita tidak bisa langsung membandingkannya,
apalagi jika satuannya berbeda. Contohnya, jika kita ingin mengetahui
apakah tingkat kolesterol (dengan satuan mg/100 mL) lebih bervariasi dari
berat badan (dalam kg). Dan juga, walaupun satuannya sama, mean-nya
bisa saja berbeda, seperti jika kita membandingkan standari deviasi dari
berat badan murid-murid kelas 1 SD dengan berat badan murid-murid
kelas 10 SMA. Walau keduanya dalam bentuk kg, kita akan menemukan
standar deviasi di murid kelas 10 SMA lebih tinggi hanya karena berat
badan di murid kelas 10 SMA lebih tinggi dari murid kelas 1 SD, dan
bukan karena variasi yang lebih tersebar. Oleh karena itu, kita
membutuhkan pengukuran variasi relatif, dan bukan variasi absolut.
Pengukuran ini merupakan coefficient of variation, yang menyatakan
standar deviasi sebagai presentase dari mean. Jika kita jadikan rumus,
maka
𝑠𝑠
𝐶𝐶𝐶𝐶 = 100%
𝑥𝑥̄
Karena mean dan standar deviasi memiliki satuan yang sama, kita bisa
dengan gampang coret, menghasilkan pengukuran variasi tanpa satuan.
Sebagai contoh, kita memiliki dua set data berat badan
Set data 1 Set data 2
Mean 145 kg 80 kg
Standar deviasi 10 kg 10 kg
Jika kita ingin mengetahui mana yang lebih bervariasi, maka kita akan
menghitung CV keduanya. Untuk CV set data 1, kita akan mendapatkan
10
𝐶𝐶𝐶𝐶 = 100% = 6.9%
145
Untuk CV set data 2, kita akan dapatkan
10
𝐶𝐶𝐶𝐶 = 100% = 12.5%
80
Dari situ, kita akan mendapatkan bahwa variasi lebih tinggi pada set data
2 dibandingkan pada set data 1
4. Proporsi dan Presentase
Proporsi atau presentase merupakan jumlah atau frekuensi dari suatu sifat
tertentu dibanding dengan seluruh data. Untuk mendapat nilai presentase,
cukup mengalikan jumlah proporsi dengan 100%
Sebagai contoh, proporsi dari jumlah yang berumur 20-24 tahun dari tabel di
atas adalah 5638/13465, yang berarti sekitar 0.42 atau dengan presentase 42%
dari seluruh data.
5. Ukuran posisi:
1. Kuartil: Membagi suatu distribusi frekuensi menjadi empat bagian yang
sama rata, yang dipisahkan oleh tiga kuartil
𝑛𝑛+1
a. Kuartil 1: nilai berada pada
4
2(𝑛𝑛+1) 𝑛𝑛+1
b. Kuartil 2: nilainya sama dengan nilai median, atau atau
4 2
3(𝑛𝑛+1)
c. Kuartil 3: nilainya berada pada
4
2. Desil: Jika kuartil membagi set data menjadi empat bagian, desil membagi
set data menjadi 10 bagian yang sama
3. Persentil: Persentil membagi suatu set data menjadi 100 bagian yang sama.
D. Teori Probabilitas
Probabilitas merupakan dasar dari statistik inferens. Dalam menyatakan probabilitas,
kita menggunakan nilai antara 0 hingga 1, dengan 0 merupakan kejadian yang tidak
mungkin terjadi sama sekali, dan 1 adalah kejadian yang pasti akan terjadi.
1. Pendekatan probabilitas
Pendekatan probabilitas dibagi menjadi dua, yaitu pendekatan objektif, dan juga
pendekatan subjektif.
a. Objektif:
1. Klasik:
Probabilitas klasik, atau a priori, merupakan konsep probabilitas yang biasa
ditemui. Kemungkinan suatu peristiwa terjadi di antara seluruh peristiwa
yang mungkin terjadi. Perlu diingat, kejadian harus terjadi saling terpisah
atau mutually exculsive.
𝑚𝑚
𝑃𝑃 (𝐸𝐸 ) =
𝑁𝑁
2. Empirik:
Disebut juga sebagai probabilitas eksperimental, frekuensi relative, atau a
priori. Mendeskripsikan probabilitas sebagai hasil dari pengalaman,
observasi, atau kejadian yang terjadi secara berulang-ulang, dan
kemampuan untuk menghitung jumlah pengulangan, dan juga jumlah
kejadian yang diinginkan yang telah terjadi.
𝑚𝑚
𝑃𝑃(𝐸𝐸 ) = lim 𝑚𝑚 /𝑛𝑛 atau 𝑃𝑃(𝐸𝐸 ) =
𝑛𝑛
Perlu diingat bahwa m/n hanya merupakan perkiraan atau estimasi dari
P(E), karena hanya didasarkan dari apa yang telah berhasil diamati (dan
karena itu kita menggunakan n dan bukan N). Contohnya, jika kita melihat
dari 10000 hasil produksi, dan 100 diantaranya mengalami kecacatan,
maka kita sebut sebagai probabilitas kecacatannya 100/10000, yaitu 0.01
atau 1%.
b. Subjektif:
Merupakan pandangan bahwa probabilitas diukur pada pernyataan subjektif
suatu individu. Semua bergantung pada si pembuat pernyataan. Konsep ini
tidak bergantung pada pengulangan apapun, dan bahkan seseorang bisa
mengevaluasi kemungkinan terjadinya sesuatu yang hanya berlangsung
sekali. Contohnya, seseorang yakin 70% kemungkinan terjadinya muncul
obat untuk kanker akan terjadi pada 10 tahun berikutnya.
2. Hukum probabilitas:
Sebelumnya, perlu diketahui beberapa konsep dasar probabilitas
1. Jika suatu proses atau eksperimen dengan jumlah hasil n yang saling lepas
(mutually exclusive) dari satu sama lain, E1, E2, …, En, maka probabilitas suatu
kejadian Ei tidak boleh dinyatakan dengan angka negatif
𝑃𝑃 (𝐸𝐸𝑖𝑖 ) ≥ 0
Semua kejadian harus memiliki probabilitas terjadi yang lebih besar atau sama
dengan nol. Konsep penting di sini lebih terletak pada konsep saling lepas atau
mutually exclusive. Dua kejadian disebut saling terlepas jika mereka tidak
dapat terjadi secara bersamaan.
2. Jika probabilitas yang saling terpisah dijumlahkan, maka akan menghasilkan
nilai 1
𝑃𝑃(𝐸𝐸1 ) + 𝑃𝑃(𝐸𝐸2 ) + ⋯ + 𝑃𝑃(𝐸𝐸𝑛𝑛 ) = 1
3. Jika ada dua kejadian yang saling terpisah, yaitu Ei dan Ej, maka kemungkinan
antara keduanya terjadi adalah jumlah dari probabilitas masing-masing
𝑃𝑃�𝐸𝐸𝑖𝑖 + 𝐸𝐸𝑗𝑗 � = 𝑃𝑃(𝐸𝐸𝑖𝑖 ) + 𝑃𝑃�𝐸𝐸𝑗𝑗 �
Sekarang, dengan konsep di atas, kita akan membahas bagaimana hukum
perhitungan antara suatu kejadian. Di sini akan kita lihat dulu, apakah suatu
kejadian saling terpisah (mutually exclusive) atau dapat terjadi secara bersamaan
(non-mutually exclusive)
1. Penjumlahan:
a. Mutually exclusive:
Jika probabilitas suatu kejadian terjadi akan meniadakan kejadian lain
terjadi, atau jika keduanya tidak dapat terjadi secara bersamaan, maka
disebut sebagai kejadian mutually exclusive, saling terpisah, atau
saling meniadakan. Tidak ada irisan antara kedua kejadian tersebut
atau 0.375
Mencari probabilitas dua laki-laki dan satu perempuan = independent
0.6 ∗ 0.6 ∗ 0.4 = 0.144
0.144 ∗ 0.375 = 0.054
Probabilitasnya adalah 0.054 atau 5.4%
b) Paling kurang satu laki-laki
Kita ambil probabilitas dimana minimal ada satu laki-laki
LLL, LPP, LLP, PLL, PPL, PLP, dan LPL
Pilih salah satu dulu. Kita akan pilih probabilitas hanya satu laki-laki
0.6 ∗ 0.4 ∗ 0.4 = 0.096
0.096 ∗ 0.375 = 0.036
Selanjutnya dihitung probabilitas dua laki-laki
0.6 ∗ 0.6 ∗ 0.4 = 0.144
0.144 ∗ 0.375 = 0.054
Selanjutnya untuk tiga laki-laki
0.6 ∗ 0.6 ∗ 0.6 = 0.216
0.216 ∗ 0.125 = 0.027
Kita hitung probabilitas totalnya
0.036 + 0.054 + 0.027 = 0.117
Probabilitasnya adalah 0.117 atau 11.7%
c) Tidak ada perempuan
Tidak ada perempuan berarti ketiganya laki-laki
0.6 ∗ 0.6 ∗ 0.6 = 0.216
0.216 ∗ 0.125 = 0.027
Probabilitasnya adalah 0.027 atau 2.7%
2. Sebuah dadu dilempar sekali. Berapa probabiltas angka yang didapatkan
adalah angka genap atau angka prima?
Angka genap di dadu: 2, 4, 6
Angka prima di dadu: 2, 3, 5
Di antara keduanya, mendapat angka 2 bisa terjadi di antara keduanya,
yang berarti dia irisan
Probabilitas akhirnya adalah
3 3 1 5
+ − =
6 6 6 6
Maka dari itu probabilitas mendapat angka genap atau angka prima
5
adalah
6
3. Suatu percobaan dari bahan toksik yang disuntikkan terhadap tikus putih dan
hitam. Probabilitas tikus putih masih hidup setelah 10 jam adalah 0.7
sedangkan tikus hitam adalah 0.9. Kalau dilakukan percobaan tersebut, hitung
probabilitas setelah sepuluh jam
a) Kedua tikus masih hidup
Gunakan rumus probabilitas independen
0.7 ∗ 0.9 = 0.63
b) Hanya tikus hitam yang masih hidup
Probabilitas tikus putih mati = 1 – 0.7 = 0.3
0.3 ∗ 0.9 = 0.27
c) Hanya tikus putih yang masih hidup
Probabilitas tikus hitam mati = 1 – 0.9 = 0.1
0.7 ∗ 0.1 = 0.07
d) Paling kurang satu tikus masih hidup
Tikus hitam mati, tikus putih hidup atau tikus hitam hidup, tikus putih
mati atau keduanya hidup
0.27 + 0.07 + 0.63 = 0.97
4. Anggaplah kita mengamati pelemparan suatu dadu. Seberapa sering kita akan
melihat angka 1 dalam 60 lemparan? Dan seberapa sering kita akan melihat
masing-masing angka lainnya dalam 60 lemparan?
1
Probabilitas angka 1 dalam 1 kali lemparan
6
Kita ingin total 8 yang muncul, dan itu bisa didapat dari (2, 6), (3, 5),
(4, 4), (5, 3), dan (6, 2)
Masing-masing merupakan kejadian mutually exclusive, jadi kita
hanya perlu menambahkan semuanya
5
Total probabilitas
36
Angka yang sama muncul berarti (1, 1), (2, 2), (3, 3), (4, 4), (5, 5),
6
dan (6, 6) =
36
E. Distribusi Probabilitas
Di bagian ini akan membahas hubungan antara nilai suatu variabel acak dan
probabilitas terjadinya nilai tersebut dapat dilihat dalam distribusi probabilitas.
Distribusi probabilitas dapat dinyatakan dalam bentuk tabel, grafik, maupun suatu
rumus. Intinya, distribusi probabilitas menyatakan seluruh probabilitas kejadian yang
dapat terjadi.
1. Distribusi binomial:
Disebut binomial karena menggambarkan dua hasil, seperti hidup atau meninggal,
sehat atau sakit. Distribusinya diambil dari uji Bernoulli, yang dibuat oleh James
Bernoulli. Uji-uji yang dilakukan menghasilkan proses Bernoulli. Beberapa
syaratnya adalah:
b. Setiap uji menghasilkan dua hasil yang saling terlepas (mutually exclusive).
Salah satu hasil dianggap berhasil, dan satunya dianggap gagal.
c. Probabilitas kesuksesan, disebut sebagai p, memiliki nilai yang tetap antar
uji. Probabilitas kegagalan merupakan 1 – p, dan disebut sebagai q.
d. Uji-uji independent antar satu sama lain, atau tidak saling mempengaruhi.
𝑛𝑛!
𝐶𝐶𝑥𝑥𝑛𝑛 =
𝑥𝑥! (𝑛𝑛 − 𝑥𝑥 )!
Dengan n merupakan jumlah uji, dan x merupakan jumlah kejadian yang
diharapkan. Selain itu, seperti yang bisa dilihat, ada dua parameter di distribusi
binomial, yaitu n dan p. Keduanya cukup untuk menyatakan distribusi binomial,
dengan mean 𝜇𝜇 = 𝑛𝑛𝑛𝑛 dan varians 𝜎𝜎 2 = 𝑛𝑛𝑛𝑛(1 − 𝑝𝑝) atau 𝑛𝑛𝑛𝑛𝑛𝑛.
Contoh:
Kita memiliki data bahwa pada suatu populasi ada 14% ibu yang merokok satu
atau lebih batang per harinya selama masa kehamilan. Jika kita memiliki jumlah
sampel acak 10 yang dipilih dari populasi ini, probabilitas dari 10 tersebut akan
ada 4 ibu-ibu yang merokok pada masa kehamilan adalah?
𝑓𝑓(4) = 𝐶𝐶410 (. 86)6 (. 14)4
10!
= (. 4045672). 0003842) = .0326
4! 6!
Kita akan mendapat probabilitasnya adalah 3.26%. Untuk memudahkan
perhitungan, terutama pada julah sampel yang besar, kita bisa menggunakan tabel
distribusi binomial untuk membantu kita.
2. Distribusi Poisson:
Jika suatu jumlah x kejadian pada suatu peristiwa acak pada suatu waktu atau
tempat, maka probabilitas x terjadi adalah
𝑒𝑒 −𝜆𝜆 𝜆𝜆𝑥𝑥
𝑓𝑓(𝑥𝑥 ) = , 𝑥𝑥 = 0, 1, 2, …
𝑥𝑥!
Lambda (λ) di sini merupakan parameter distribusi dan merupakan rata-rata
jumlah kejadian pada peristiwa acak pada suatu waktu atau tempat, sedangkan e
merupakan konstanta angka Euler, yaitu 2.71828. Seperti distribusi binomial,
distribusi Poisson juga memiliki proses Poisson, yang memiiki beberapa syarat:
a. Kejadian terjadi secara independent
b. Secara teoritis, kejadian dapat terjadi secara infinit
c. Probabilitas terjadinya satu kejadian pada suatu rentang sebanding
dengan panjang interval
d. Dalam satu bagian infinitesimal interval, probabilitas terjadinya lebih
dari satu kejadian bisa tidak dihiraukan
Pada distribusi Poisson, mean dan varians sama, dan direpresentasikan dengan
simbol λ. Distribusi Poisson biasanya digunakan jika probabilitas kejadian (n)
sangat kecil namun menyangkut populasi atau interval (p) yang luas.
Contoh:
Suatu studi meneliti mengenai kejadian anaphylaxis pada pasien yang
menggunakan rocuronium bromide untuk anastesi mereka. Laake dan Røttingen
menemukan bahwa kejadian anaphylaxis mengikuti model Poisson λ = 12 insiden
per tahun di Norwegia. Jika kita ingin mengetahui probabilitas tepat 3 orang
mengalami anaphylaxis setelah mendapat rocuronium bromide untuk anastesi,
kita bisa menggunakan rumus sebelumnya
𝑒𝑒 −12 123
𝑃𝑃 (𝑥𝑥 = 3) = = .00177
3!
1 2 /2
𝑓𝑓(𝑧𝑧) = 𝑒𝑒 −𝑧𝑧 , −∞ < 𝑧𝑧 < ∞
√2𝜋𝜋
Untuk menemukan probabilitas z untuk nilai yang berada di antara dua titik,
pertama kita harus menentukan luas yang dibatasi antara dua titik tersebut (anggap
z0 dan z1), kurva, dan sumbu x. Luas ditemukan dengan mengintegralkan
persamaan di antara dua nilai variabel. Di distribusi normal standar, untuk
menentukan luas antara kedua z0 dan z1 secara langsung, kita harus mengevaluasi
integral
z1
1 2 /2
� 𝑒𝑒 −𝑧𝑧 𝑑𝑑𝑑𝑑
z0 √2𝜋𝜋
Untungnya, kita tidak perlu repot-repot dan hanya perlu menggunakan tabel Z
untuk melihat hasilnya. Ada beberapa jenis tabel Z yang ada. Ada yang tabel luas
kurva kiri (antara -∞ hingga z, kurva a) dan kanan (antara z hingga ∞, kurva b),
ada yang one-tail dari 0 hingga z (kurva c), dan ada pula yang two-tail (dari -z
hingga z, kurva d). Di buku bu Luknis yang biasa digunakan sebagai acuan,
digunakan tabel untuk kurva c, yaitu dari titik 0 hingga z. Tabel z yang biasa kalian
temukan di internet biasanya menggunakan kurva a, tapi untuk kemudahan, di sini
akan digunakan tabel yang sama dengan yang digunakan di buku bu Luknis. Perlu
diingat, untuk tabel ini, walau nilai z yang kalian dapatkan berbentuk negatif, kita
akan tetap gunakan bentuk positifnya. Jikalau tabel yang kalian dapatkan
menggunakan kurva d, maka kalian hanya perlu membaginya dengan dua.
Contoh soal:
Kurva di atas adalah distribusi normal data. Kita harus hitung dalam
distribusi normal standar P (292 < x < 649), jadi kita harus rubah x dengan
transformasi z agar mendapat posisinya di distribusi normal standar.
Dari situ, kita harus temukan nilai z dengan x = 292 dan juga x = 649.
Pertama kita coba cari untuk x = 292. Kita dapatkan hasilnya -1.67.
292 − 491
𝑧𝑧 = = −1.67
119
Kita lalu cari untuk x = 649, dan kita dapatkan hasilnya adalah 1.33
649 − 491
𝑧𝑧 = = 1.33
119
Kita cari luas untuk keduanya, yaitu 1.67 (karena kita gunakan tabel untuk
grafik c, anggap semuanya dalam bentuk positif) dan 1.33. Kita dapatkan
untuk 1.67 luasnya adalah 0.4525, sedangkan untuk 1.33 adalah 0.4082
Kurva di sebelah kiri adalah untuk 1.67, dan di sebelah kanan adalah 1.33.
Namun, perlu diingat, karena tadi yang kita dapatkan sebenarnya adalah
-1.67 dan bukan 1.67, maka untuk kurva sebelah kiri perlu kita putar 180o
untuk mendapatkan grafik -1.67
Kita dapatkan kurva akhirnya sebagai berikut, dengan bagian yang diarsir
dari titik -1.67 hingga titik 1.33
Untuk mendapatkan P (292 < x < 649), kita harus menjumlahkan kedua
luas yang kita temukan untuk mendapat luas total, yang berarti
0.4525 + 0.4082 = 0.8607
Dari situ kita dapatkan bahwa, untuk probabilitas di suatu hari acak, kita
temukan kadar ammonia di dalam nafas berada sekitar 292 hingga 649 ppb
adalah 0.8607 atau 86.07%
2. Suatu penelitian dilakukan seorang dokter kebidanan untuk meneliti kadar
haemoglobin ibu hamil. Untuk penelitian ini telah diambil sebanyak 50 bumil
dan didapatkan rata-rata kadar Hb = 9.5 gr/dL, dengan simpangan baku 4.5
gr/dL
a. Hitunglah probabilitas akan mendapatkan seorang bumil yang diambil
dari 50 orang tersebut mempunyai Hb > 12 gr/dL
Kita cari posisi 12 di distribusi normal standarnya dengan
transformasi z
12 − 9.5
𝑧𝑧 = = 0.56
4.5
Kita cari luas dari titik 0 hingga titik 0.56 di tabel, dan kita
dapatkan 0.2123
Kita perlu mencari Hb > 12 gr/dL, padahal luas yang kita dapatkan
adalah luas antara titik 0 hingga 0.2123 yang merupakan 12 gr/dL
Maka dari itu, kita harus menemukan luas dari titik 0.56 hingga
titik ∞. Ini dapat ditemukan dengan mengurangi 0.5 dengan luas
yang kita dapatkan (perlu diingat bahwa luas kurva total dari kanan
ke kiri adalah 1, yang berarti luas bagian kanan adalah 0.5)
0.5 − 0.2123 = 0.2877
Dari situ kita dapatkan bahwa probabilitasnya adalah 0.2877 atau
28.77%
Tips: cara mudahnya adalah dengan melihat tabel z untuk luas
kurva dari sisi kanan. Cukup dengan melihat hasil di tabel untuk titik
0.56, tanpa perlu mengurangi hasilnya dengan 0.5.
b. Hitunglah probabilitas akan mendapatkan seorang bumil yang diambil
dari 50 orang tersebut mempunyai Hb < 8 gr/dL
Sama seperti sebelumnya, kita temukan posisi 8 di distribusi
normal standar. Kita masukkan ke rumus transformasi z
8 − 9.5
𝑧𝑧 = = −0.33
4.5
Kita cari luas dari titik 0 hingga titik 0.33 di tabel, kita dapatkan
luasnya adalah 0.1293
Jadi, sama seperti sebelumnya, kita kurangi 0.5 dengan luas yang
kita dapatkan. Yang berarti
0.5 − 0.1293 = 0.3707
Hasil akhirya, kita dapatkan bahwa probabilitasnya adalah 0.3707
atau 37.07%
Tips: cara mudahnya adalah dengan melihat tabel z untuk luas
kurva dari sisi kiri. Cukup melihat hasil di tabel untuk titik -0.33,
tanpa perlu mengurangi hasilnya dengan 0.5
Kegunaan:
Ada beberapa kegunaan distribusi normal standar, yaitu:
1. Memiliki sifat yang dapat dijadikan suatu patokan dalam pengambilan
kesimpulan dari beberapa sampel
2. Distribusi normal terjadi secara alamiah, dan banyak fenomena alam yang
terdistribusi normal. Kecuali hal-hal seperti uang dan waktu.
Dan seperti yang disebutkan di awal, distribusi normal digunakan untuk uji
parametrik, sedangkan yang tidak mengikuti distribusi normal menggunakan uji
non-parametrik.
F. Distribusi Sampling
Jika kita ingin membuat perkiraan tentang suatu populasi berdasarkan sampel, kita
perlu mengembangkan teori yang menghubungkan statistika sampel yang kita miliki
dengan parameter populasi yang berkaitan. Karena sampel kita hanyalah sebagian
dari populasi, nilai yang kita dapat akan berbeda dari populasi dengan jumlah yang
kita tidak ketahui. Tapi jika mengetahui perilaku sampel, bagaimana nilainya berubah
jika kita mengambil sampel secara tak hingga dan berulang-ulang, dengan konsep
probabilitas, kita bisa menyatakan dengan suatu tingkat kepercayaan bahwa nilai
sampel yang kita dapat akan berbeda dengan interval tertentu dari nilai asli di populasi.
Oleh karena itu, kita butuh distribusi probabilitas untuk statistik sampel. Distribusi
probabilitas tersebut merupakan distribusi samping, yaitu distribusi dari rata-rata
atau proporsi sampel yang diambil secara berulang-ulang dan tak hingga dari
populasi atau dengan definisi lain, distribusi dari seluruh nilai yang mungkin dari
hasil statistik sampel, diambil dari sampel yang diambil dari populasi.
Sifat-sifat dari distribusi sampel dikenal sebagai Central Limit Theorem.
1. Jika populasi berdistribusi normal, maka distribusi sampling juga akan
berdistribusi normal. Jika populasi berdistribusi tidak normal, dan n cukup besar
maka distribusi sampling akan tetap berdistribusi normal.
2. Rata-rata dari distribusi sampling sama dengan rata-rata populasi
3. Standar deviasi dari distribusi sampling sama dengan standar deviasi populai
dibagi dengan akar jumlah sampel, atau dikenal juga sebagai Standard Error
𝜎𝜎
𝑆𝑆𝑆𝑆 =
√𝑛𝑛
4. Dari sifat CLT di atas maka terlihat bahwa suatu penelitian tidak perlu menarik
sampel berulang-ulang, karena suatu sampel sudah merepresentasukan estimasi
populasi
Mean:
Rumusnya untuk mean di distribusi sampling sama dengan untuk distribusi normal
sebelumnya, namun standar deviasi diganti dengan standar error
𝑥𝑥̄ − 𝜇𝜇
𝑧𝑧 =
𝑆𝑆𝑆𝑆
Bagaimana mengetahui apakah suatu soal menggunakan distribusi normal biasa atau
distribusi sampling? Jika di suatu soal disebutkan “diambil sampel dari populasi”,
maka soal tersebut adalah soal distribusi sampling, dan jika tidak, maka distribusi
normal biasa
Contoh:
12.7
= 4.0161
√10
Untuk mean, berdasarkan CLT, kita dapatkan nilainya sama dengan populasi,
yaitu 185.6 mm. Kita lalu masukkan rumus yang sebelumnya
190 − 185.6
𝑧𝑧 = = 1.10
4.0161
Dengan melihat tabel, kita menemukan bahwa luas dari titik 0 hingga titik 1.1
adalah 0.3643
Karena kita ingin mengetahui mean yang lebih besar dari 190, maka kita
kurangi luas yang kita dapatkan dengan 0.5
0.5 − 0.3643 = 0.1357
Dari situ kita dapatkan probabilitas atau presentasenya adalah 0.1357 atau
13.57%
2. Tinggi badan dari laki-laki muda diketahui berdsitribusi normal dengan mean 60
in dan standar deviasi 10 in. Suatu sampel diambil dari populasi tersebut yang
besarnya 25. Berapa persentase sampel yang diambil dengan rata-rata berikut?
a. Antara 57 dan 63
Kita hitung dulu berapa SEnya
10
𝑆𝑆𝑆𝑆 = =2
√25
Kita ingin mengetahui P (57 < x < 63). Maka kita harus cari titik 57
dan 63 di kurva distribusi normal standar. Masukkan ke rumus
transformasi z
57 − 60
𝑧𝑧 = = −1.5
2
63 − 60
𝑧𝑧 = = 1.5
2
Kita dapatkan untuk titik 57 berada di titik -1.5 kurva dan titik 63
berada di titik 1.5 kurva. Karena keduanya sama, kita hanya perlu
mencari luas dari titik 0 ke 1.5, atau gunakan tabel two-tail. Dari -1.5
ke 1.5.
Kita lihat bahwa luas dari titik 0 ke 1.5 adalah 0.4332. Karena dua-
duanya sama, kita gandakan luas tersebut dan dapatkan luas akhir
0.8664. Atau jika menggunakan tabel two-tail, kita dapatkan langsung
hasilnya 0.8664.
Maka dari itu, presentase sampel yang memiliki rata-rata di antara 57
hingga 63 adalah 0.8664 atau 86.64%
b. Kurang dari 55
Karena SE sama, langsung saja kita transformasikan titik 55 ke kurva
normal standar untuk menemukan P (x < 55)
55 − 60
𝑧𝑧 = = −2.5
2
Kita dapatkan luas dari titik 0 hingga 2.5 di tabel adalah 0.4938
Karena itu adalah luas dari titik 0 hingga titik-2.5, sementara yang kita
inginkan adalah luas dari titik -∞ hingga titik -2.5, maka kita kurangi
0.5 dengan luas yang tadi, yaitu 0.4938
0.5 − 0.4938 = 0.0062
Kita dapatkan bahwa presentasenya adalah 0.0062 atau 0.62%
c. 64 atau lebih
Kita transformasikan titik 64 ke kurva normal standar untuk dapatkan
P (x > 64)
64 − 60
𝑧𝑧 = =2
2
Kita dapatkan luas dari titik 0 hingga 2 di tabel adalah 0.4772
Karena itu adalah luas dari titik 0 hingga titik 2, sementara yang kita
inginkan adalah luas dari titik 2 hingga titik ∞, maka kita kurangi 0.5
dengan luas yang tadi, 0.4772
0.5 − 0.4772 = 0.0228
Kita dapatkan bahwa presentasenya adalah 0.0228 atau 2.28%
d. 75 atau lebih
Kalau misal kita masukkan ke rumus transformasi z, kita akan
temukan bahwa nilai z
75 − 60
𝑧𝑧 = = 7.5
2
Di tabel z pada umumnya, tidak akan ditemukan luas untuk titik 0
hingga 7.5. Ini disebabkan karena, semakin suatu titik mendekati titik
∞, luasnya dari titik 0 hingga titik tersebut akan semakin membesar
hingga 0.5
Sebagai contoh, untuk 3.9, luasnya adalah 0.499952
Dari sini dapat kita simpulkan, karena kita ingin mengetahui luas dari
titik 7.5 hingga titik ∞, luasnya sangatlah kecil, sehingga bisa kita
anggap presentase atau probabilitasnya juga sangatlah kecil untuk
terjadi
Proporsi:
Jika sebelumnya berurusan dengan mean, maka sekarang kita akan berurusan dengan
proporsi di distribusi sampling. Sama dengan mean, berdasarkan CLT, jika ukuran
sampelnya cukup besar, maka distribusi dari distribusi sampel harga proporsi akan
menghasilkan distribusi normal. Rumus untuk proporsi adalah
𝑝𝑝̂ − 𝑝𝑝
𝑧𝑧 =
�𝑝𝑝(1 − 𝑝𝑝)
𝑛𝑛
Seberapa besar ukuran sampel agar pernyataan di atas valid? Ada yang menyatakan
bahwa np dan juga n(1 - p) haruslah lebih besar dari 5 agar valid.
Sebagai contoh, misal kita ingin mengetahui penggunaan layanan prenatal di wanita
Afrika-Amerika dengan status ekonomi rendah. Kita menemukan bahwa 51% wanita
tersebut melakukan layanan prenatal. Jika 200 wanita dari populasi ini diambil secara
acak, berapa probabilitas bahwa kurang dari 45% akan memiliki layanan prenatal
yang cukup?
Dari sini kita akan dapatkan µp = 0.51 dan σ2p = ((0.51)(0.49))/200 = 0.00125. Kita
masukkan ke rumus
Jika kita lihat tabel, maka kita akan dapatkan luas di sebelah kiri dari titik -1.7 adalah
0.0446. Oleh karena itu, probabilitasnya adalah 0.0446 atau 4.46%.
Anggaplah kita ingin mengukur P (a=x) dengan a merupakan bilangan bulat dan
x berdistribusi binomial dengan parameter p dan q. Karena kita menggunakan
distribusi normal (distribusi kontinyu) untuk memperkirakan distribusi binomial
(distribusi diskrit), kita harus melakukan sebuah koreksi. Karena kita ingin
1
mencari probabilitas x, kita harus mencari luas kurva dari titik 𝑎𝑎 − ke titik 𝑎𝑎 +
2
1
. Koreksi ini disebut koreksi kontinyuitas. Sementara jika kita ingin melihat P (a
2
1 1
< x < b), maka luas yang kita cari berubah menjadi dari titik 𝑎𝑎 − ke titik 𝑏𝑏 + .
2 2
Tambahan, bahwa distribusi normal dengan mean np dan varians npq hanya bisa
digunakan untuk memperkirakan distribusi binomial dengan parameter n
dan p pada np≥5 dan nq≥5, dengan alasan bahwa jika kurang dari itu, distribusi
akan condong dan tidak normal.
Rumus yang digunakan sama seperti distribusi normal. Sementara untuk koreksi
kontinuitas, mengikuti:
Contoh:
1. Anggaplah kita ingin menghitung probabilitas antara 50 hingga 75 dari 100
sel darah putih adalah neutrofil (binomial dengan anggapan outcome ya dan
tidak), dengan probabilitas bahwa suatu sel benar-benar neutrophil adalah 0.6.
Nilai tersebut (50-70 neutrofil dari 100) dianggap sebagai batas neutrofil di
orang sehat. Di sini kita ingin mengetahui perkiraan probabilitasnya karena n
terlalu besar.
Pertama kali kita harus mendapatkan mean dan varians dulu
𝑛𝑛𝑝𝑝 = 100(0.6) = 60
𝑛𝑛𝑛𝑛𝑛𝑛 = 100(0.6)(0.4) = 24
Dari sini berarti distribusi normal yang kita gunakan memiliki mean 60 dan
varians 24. Kita ingin menghitung P (50 ≤ x ≤ 75), maka kita harus
menghitung luas di bawah kurva dari titik 50 − 0.5 = 49.5 ke titik 75 +
0.5 = 75.5 setelah ditransformasikan ke z (perlu diingat kita harus
mengakarkan varians untuk mendapat standar deviasi)
49.5 − 60 75.5 − 60
P(49.5 < 𝑥𝑥 < 75.5) = 𝑃𝑃 � < 𝑧𝑧 < �
√24 √24
untuk λ≥10. Sama seperti sebelumnya, alasannya adalah karena kurang dari 10,
distribusi akan condong. Untuk pembuktian bisa dilihat:
Contoh:
1. Probabilitas mengamati jumlah x bakteri di suatu cawan Petri dengan luas A
didistribusikan dengan distribusi Poison dengan parameter λ=0.1 bakteria/cm2
dan A=100cm2. Kita menemukan bahwa ada 20 bakteri di cawan Petri. Kita
ingin mengetahui berapa besar probabilitas yang ditemukan tepat 20 bakteri
atau lebih.
Pertama, karena λ dilihat per cm2, kita harus kalikan dengan luas cawan
Petri untuk mendapatkan λ untuk cawan Petri A
𝜆𝜆 = 0.1(100) = 10
Kita kemudian perkirakan menggunakan distribusi normal dengan mean
dan varians 10. Kita berikan koreksi sehingga titik awalnya menjadi 20 −
0.5 = 19.5. Kita kemudian transformasikan 19.5 ke nilai z
19.5 − 10
𝑧𝑧 = =3
√10
Kita dapatkan luas dari titik 0 hingga 3 di tabel adalah 0.49865. Karena
kita ingin melihat 20 atau lebih, maka kita kurangi 0.5 dengan luas yang
kita dapatkan tadi
0.5 − 0.49865 = 0.00135
Akhirnya, kita temukan bahwa probabilitas menemukan 20 atau lebih
bakteri pada cawan Petri berukuran 100cm2 hanyalah 0.00135 atau 0.135%
2. Kejadian tetanus neonatorum (tetanus pada bayi baru lahir) adalah kejadian
yang jarang terjadi. Diperkirakan probabilitasnya hanyalah 0.0025. Kalau di
suatu kabupaten pada tahun 2007 telah lahir sebanyak 1000 bayi,
perkirakanlah kejadian tetanus neonatorum
a. Tepat satu kasus
Pertama kita temukan dulu λ untuk 1000 bayi
𝜆𝜆 = 0.0025(1000) = 2.5
Dari situ, berarti mean dan varians untuk distribusi normalnya
adalah 2.5
Kita ingin menemukan tepat satu kasus, maka, setelah dkoreksi,
kita harus mencari luas dari titik 0.5 ke 1.5 (P (0.5 < x < 1.5)).
Mari kita transformasikan dulu masing-masing titik
0.5 − 2.5
𝑧𝑧 = = −1.27
√2.5
1.5 − 2.5
𝑧𝑧 = = −0.63
√2.5
Kita temukan luas untuk titik 0 hingga titik 1.27 adalah 0.398,
sementara luas untuk titik 0 hingga titik 0.63 adalah 0.2357
Kita lihat di sini bahwa keduanya bersifat negatif. Maka dari itu,
tidak seperti kasus-kasus sebelumnya, di sini kita akan
mengurangi luas keduanya untuk mendapat luas di antara kedua
titik
0.398 − 0.2357 = 0.1623
Dari situ kita dapatkan luas antara titik -1.27 hingga titik -0.63
adalah 0.1623, yang berarti probabilitas terjadinya tepat satu
kasus adalah 0.1623, atau 16.23%
b. Paling banyak dua kasus
Karena kita ingin menemukan probabilitas paling banyak dua
kasus, maka berarti P (x ≤ 2), yang setelah diberi koreksi menjadi
P (x < 2.5)
Kita transformasikan ke nilai ke nilai z, maka kita dapatkan
2.5 − 2.5
𝑧𝑧 = =0
√2.5
Kita dapatkan letaknya di titik 0. Maka, luasnya jika dari titik 0
sendiri adalah 0
Karena kita ingin mengetahui probabilitas maksimal di titik 0,
maka kita kurangi 0.5 dengan 0
0.5 − 0 = 0.5
Dari situ kita dapatkan bahwa probabilitasnya merupakan 0.5 atau
50%
c. Lebih dari lima kasus
Karena kita ingin menemukan probabilitas lebih dari lima kasus
terjadi, maka perarti P (x > 5), yang setelah diberi koreksi menjadi
P (x > 5.5)
Kita transformasikan ke nilai z, maka kita dapatkan
5.5 − 2.5
𝑧𝑧 = = 1.9
√2.5
Kita dapatkan letaknya di titik 1.9. Beerdasar tabel, luas dari titik
0 hingga titik 1.9 adalah 0.4713
Kita mencari probabilitas lebih dari lima kasus, maka kita harus
kurangi 0.5 dengan 0.4713 untuk mendapatkan probabilitasnya
0.5 − 0.4713 = 0.0287
Kita dapatkan probabilitas akhirnya adalah 0.0287 atau 2.87%
Referensi:
1. Daniel, W., Cross, C. 2013. Biostatistics: A Foundation for Analysis in the Health
Sciences. 10th ed. New Jersey: Wiley.
2. Kachigan, S. 1991. Multivariate Statistical Analysis: a conceptual introduction.
2nd ed. New York: Radius Press.
3. Rosner B. 2015. Fundamentals of Biostatistics. 8th ed. Boston, MA: Cengage
Learning.
4. Sabri, L. 2006. Statistik Kesehatan. Jakarta: RajaGrafindo Persada.
5. Weiss, N. 2017. Introductory Statistics. 10th ed. Harlow: Pearson Education
Limited.