Anda di halaman 1dari 42

Easy Bios

BIOSTATISTIKA DASAR

Bidang Keilmuan Analitico 2020


#With System We Think, With Data We Act
A. Pengenalan: Ruang Lingkup Biostatistika, Data, dan Variabel
1. Ruang lingkup:
• Statistika:
- Sekumpulan konsep dan metode yang digunakan untuk mengumpulkan
dan menginterpretasi data tentang bidang kegiatan tertentu dan mengambil
kesimpulan dalam situasi di mana ada ketidakpastian dan variasi
- Ilmu yang membuat kesimpulan atau inferensi dari sesuatu fenomena
dengan dasar sampel yang relatif terbatas
- Cabang ilmu yang berkaitan dengan pengumpulan, manajemen, analisis,
dan penyimpulan data
• Biostatistika: Cabang dari statistik terapan yang menerapkan metode statistik
terhadap permasalahan biologis dan kesehatan
• Populasi: Keseluruhan dari unit di dalam pengamatan yang akan dilakukan
o Terbatas: Jumlah dan anggota di dalam populsai tetap
o Tak terbatas: Jumlah dan anggota di dalam populasi berubah-iubah
• Sampel: Sebagian dari populasi yang nilai atau karakteristiknya diukur dan
nantinya dapat digunakan untuk memperkirakan nilai populasi
• Statistik deskriptif: Mendeskripsikan dan menggambarkan data. Hasil hanya
merepresentasikan sampel dan tidak digeneralisasi populasi. Mulai dari
pengumpulan data, entri data, pengolahan data data, hingga penyajian data.
• Statistik inferensial: Metode untuk mengambil suatu kesimpulan dari nilai-
nilai yang didapat dari sampel yang akan digeneralisasi menjadi nilai populasi
2. Jenis data:
a. Kategorik atau kualitatif: Data yang tidak dapat diukur, dan hanya bisa
dikelompokkan.
b. Numerik atau kuantitatif: Data dapat diukur atau dihitung dan bersifat
faktual. Dibagi menjadi:
a. Diskrit : Data perhitungan, dan bersifat bilangan bulat (tidak ada
desimal)
b. Kontinyu: data pengukuran, dapat bersifat apa saja (dapat dalam
bentuk desimal)
3. Skala pengukuran:
1. Nominal: Tidak memiliki tingkatan antar kategori, hanya sebatas
pengelompokkan berdasarkan karakteristik (beda) -> contohnya: jenis
kelamin, ras, agama
2. Ordinal: Memiliki tingkatan antar kategori (beda dan tingkatan) ->
contohnya: tingkat pendidikan, status sosio-ekonomi, tahapan kanker
3. Interval: Data tidak memiliki nilai nol absolut (beda, tingkatan, dan jarak) -
> contohnya: temperatur dan tahun kalendar
4. Rasio: Skala tingkat tertinggi, data memiliki nilai nol absolut (beda, tingkat,
jarak, nilai absolut) -> contohnya: berat dan tinggi

Cara mudah untuk membedakan interval dan ratio -> jumlahkan

25ºC + 15ºC ≠ 40ºC, sedangkan 35 kg + 45 kg = 100 kg

B. Penyajian Data
Jenis penyajian data dibagi menjadi tiga, yaitu
1. Teks: Disajikan dalam bentuk teks dan kalimat, merupakan gambaran umum
tentang kesimpulan hasil pengamatian.
2. Tabel: Penyajian data dilakukan dalam kolom dan baris. Ada beberapa jenis table,
yaitu:
a. Dummy table: sesuai namanya, hanyalah kerangka tabel dengan parameter
yang diinginkan, dengan sel-sel yang akan diisi setelah mendapat hasil
statistik

contoh dummy table dari WHO untuk uji pre-eklampsia


b. Tabel silang: Bisa juga disebut tabel kontingensi atau tabel dua arah, berisi
dua variabel, satu di baris dan satu di kolom. Biasanya digunakan untuk
melihat hubungan antara kedua variable tersebut.

contoh tabel silang

c. Distribusi frekuensi: Merupakan tabel yang menunjukkan kelas tau


interval data dengan jumlah entri per kelas. Jika dikelompokkan, setiap
interval akan memiliki batas bawah dan batas atas, yang masing-masing
merupakan nilai terendah dan tertinggi dalam interval tersebut.

Dalam contoh di atas, interval pertama memiliki batas bawah 30 dan batas
atas 39. Penentuan jumlah interval harus baik, karena interval yang terlalu
sedikit tidak akan menampilkan banyak informasi, sedangkan interval
yang terlalu banyak akan membuat usaha mengelompokkan sia-sia.

Dalam penentuannya, dapat dilihat dari variabel yang ditampilkan,


sekiranya berapa yang dibutuhkan untuk variabel tersebut. Atau untuk
spesifiknya, dapat digunakan rumus dari Sturges, yaitu 𝒌𝒌 = 𝟏𝟏 +
𝟑𝟑. 𝟑𝟑𝟑𝟑𝟑𝟑 𝐥𝐥𝐥𝐥𝐥𝐥 𝒏𝒏 , dengan k sebagai jumlah interbal dan n adalah jumlah data
yang ada. Rumus ini bisa digunakan untuk n yang tidak terlalu besar,
namun, jika n terlalu besar, sebaiknya tidak digunakan. Selain itu, rumus
ini sebaikny tidak digunakan sebagai keputusan final dalam menentukan
jumlah interval, dan hanya digunakan sebagai arahan saja.
3. Diagram atau grafik
Grafik adalah gambaran visual yang pembuatannya didasarkan pada data. Grafik
tertentu dapat digunakan untuk jenis data tertentu pula.
a. Data numerik: Histogram, polygon, ogive, stem and leaf, box plot, scatter
diagram
b. Data kategorik: Bar, pareto chart, pie chart, line diagram, pictogram,
mapgram

C. Peringkasan Data
1. Ukuran tengah:
a. Mean:
Disimbolkan dengan x̄ (x bar), yang berarti mean dari variabel x. Sedangkan µ
digunakan untuk mean populasi. Merupakan jumlah semua nilai observasi
dibagi jumlah observasi. Mean rentan terpengaruh oleh nilai ekstrem atau
outlier (nilai yang berbeda jauh dengan nilai-nilai lain)
∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖
𝑥𝑥𝑥 =
𝑛𝑛
b. Median:
Jika kita mengurutkan semua nilai observasi dari yang paling rendah hingga
paling tinggi, lalu kita ambil nilai yang berada di tengah, kita bisa mendapatkan
nilai median, yang merupakan nilai yang berada di tengah dari seluruh nilai
observasi, atau pada posisi (n+1)/2. Median juga merupakan kuartil kedua.
Disimbolkan sebagai Md atau Me.
c. Modus:
Merupakan nilai yang paling banyak muncul dari seluruh nilai observasi.
Dalam seluruh nilai observasi, bisa didapat lebih dari satu modus.
2. Hubungan mean-median-modus:
1. Skewness:
Distribusi data dapat diklasifikasikan berdasarkan kesimetrisan mereka. Jika
suatu data simetris, maka dia memiliki nilai mean, median, dan modus yang
sama. Jika suatu data condong ke kanan (condong positif), berarti nilai mean
lebih tinggi dari modusnya. Jika data condong ke kiri (condong negatif),
maka nilai mean lebih rendah dari nilai modusnya.

2. Kurtosis:
Seperti kecondongan, kurtosis digunakan untuk mendeskripsikan distribusi
data. Kurtosis mengukur apakah suatu distribusi data memuncak atau datar.
Kurtosis lebih berurusan dengan tail, yang berarti data dngan kurtosis tinggi
akan memiliki outlier yang lebih besar pula. Jika kurtosis semakin rendah,
distribusi akan semakin datar, sementara kurtosis yang tinggi akan memiliki
tail yang berat. Rumus kurtosis adalah
𝑛𝑛 ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥1 − 𝑥𝑥̄ )4
𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾𝐾 = −3
(𝑛𝑛 − 1)2 𝑠𝑠 4
Dengan s merupakan standar deviasi. Kadang jika kita menggunakan program
komputer, ada yang mengurangi dengan 3, dan ada yang tidak. Kurtosis
dibagi menjadi tiga jenis, yaitu:
a. Mesokurtik: Distribusi normal dengan bentuk lonceng, hasil
perhitungan menghasilkan kurtosis 3 (0 setelah dikurangi 3)
b. Leptokurtik: Distribusi yang terlalu memuncak karena kurangnya data
yang ada pada tail. Nilai kurtosis lebih tinggi dari mesokurtik.
c. Platikurtic: Disribusi yang memiliki bentuk datar karena terlalu
banyak yang berada pada tail. Nilai kurtosis lebih rendah dari
mesokurtik.

3. Variasi
Untuk dapat menjelakan data dengan baik, mean, modus, dan median saja
tidak cukup, dibutuhkan pula pengukuran variasi atau dispersi dari nilai-nilai
yang terobservasi, yaitu seberapa nilai-nilai tersebut berbeda antar satu dengan
yang lain
1. Range:
Pengukuran palig simpel dan paling kasar untuk variasi adalah range atau
jarak, yang merupakan perbedaan antara nilai tertinggi dan terendah dari
seluruh nilai-nilai yang terobservasi. Pengukuran ini tidak bisa
menjelaskan secara sempurna variasi yang ada karena hanya melihat nilai
tertinggi dan terendah saja dan tidak memperhartikan masing-masing nilai
lainnya yang ada.
2. Interquartile Range:
Karena jarak hanya melihat nilai tertnggi dan terendah, kita bisa membuat
perhitungan serupa yang melibatkan nilai median. Perhitungan ini
menggunakan kuartil, dan disebut sebagai interquartile range. Rumusnya
adalah
𝐼𝐼𝐼𝐼𝐼𝐼 = 𝑄𝑄3 − 𝑄𝑄1
Kuartil yang besar menyatakan bahwa banyak variasi pada nilai median
3. Mean Absolute Deviation:
Semakin besar variasi dari seluruh nilai-nilai yang ada, maka semakin
besar pula perbedaan atau deviasi antara nilai-nilai yang ada dengan mean.
Oleh karena itu, otomatis salah satu cara pengukuran variasi adalah
dengan menghitung rata-rata dari seluruh deviasi tersebut. Namun, karena
pasti ada nilai yang lebih besar dan lebih rendah dari nilai mean, kalau kita
jumlahkan seluruh nilai deviasi, maka kita akan dapatkan. Contohnya:
5 6 9 11 14
Mean dari seluruh nilai tersebut adalah 9. Dari situ, kita akan mendapatkan
nilai-nilai deviasi:
-4 -3 0 2 5
Jika kita jumlahkan seluruh nilai tersebut, maka kita akan mendapatkan
nilai 0, yang tidak bisa kita bagi untuk mendapatkan nilai mean. Salah satu
cara untuk melalui permasalahan ini adalah dengan menggunakan nilai
absolut dari masing-masing nilai deviasi, lalu mengambil mean dari
jumlah deviasi absolut. Dari situ, kita akan mendapatkan mean absolute
deviation, yang merupakan rata-rata dari perbedaan masing-masing
nilai yang terobservasi, yang kalau kita buat rumusnya, menjadi:
∑|𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ |
𝑥𝑥𝑥𝑥𝑥 =
𝑛𝑛
Jika kita gunakan contoh yang tadi, dari nilai-nilai
5 6 9 11 14
Maka kita akan dapatkan nilai absolut deviasi
4 3 0 2 5
Yang kalau kita jumlahkan menghasilkan nilai 14, dan jika kita ambil
mean dari nilai tersebut, maka menghasilkan mean absolute deviation 2.8
Mean absolute deviation sendiri sebaiknya tidak digunakan karena dia
menggunakan nilai absolut
4. Varians:
Sekarang, kita menggunakan metode lain untuk melewati masalah yang
tadi. Jika sebelumnya kita menggunakan nilai absolut, sekarang kita
mencoba mengkuadratkan masing-masing deviasi, yang juga akan
menghasilkan nilai-nilai positif, dan juga tidak mengandalkan nilai absolut
seperti tadi. Dari situ, kita juga bisa mendapatkan mean dari setiap deviasi
yang telah dikuadratkan. Perhitungan ini disebut sebagai varians, yaitu
rata-rata dari setiap deviasi kuadrat. Jika kita buat dalam bentuk rumus,
yaitu:
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
2
σ =
𝑁𝑁
Rumus di atas berlaku untuk varians di populasi. Jika kita ingin
mengetahui nilai varians dari sampel, kita harus memodifikasi rumus
tersebut, karena jika kita menggunakan rumus di atas untuk sampel, maka
kita akan menemukan bahwa hasilnya akan lebih rendah dari yang
seharusnya. Maksudnya, jika kita mengambil sampel terus menerus, dan
dari setiap sampel tersebut kita ambil nilai varians-nya, dan kita ambil
mean dari nilai varians-varians tersebut, maka nilainya akan lebih rendah
dari nilai sebenarnya dari populasi. Oleh karena itu, untuk menghindari
hal tersebut dalam menghitung varians sampel, kita gunakan koreksi
Fisher-Wilks, atau degree of freedom, yaitu dengan membagi tidak dengan
nilai seluruh sampel, namun sampel dikurangi satu (n-1). Jika kita jadikan
rumus, maka rumus varians di sampel menjadi:

2
∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
𝑠𝑠 =
𝑛𝑛 − 1
Contohnya, jika kita memiliki nilai-nilai dari sampel sebagai berikut
1 5 6 7 8 9
Dengan mean 6, dan kita akan mendapatkan deviasi dari masing-masing
yaitu
-5 -1 0 1 2 3
Dan jika kita kuadratkan masing-masing, akan mendapat
25 1 0 1 4 9
Dan kita akan bagi jumlah seluruhnya, yaitu 40, dengan jumlah observasi
yang ada di sampel, namun kita kurangi jumah observasi dengan satu,
yang akan menjadi 5, maka hasil varians-nya adalah 8. Perlu diingat,
karena nilai-nilai observasi tadi dikuadratkan, maka satuannya juga dalam
bentuk kuadrat, seperti cm2 atau kg2.
5. Standar Deviasi atau Simpangan Baku:
Karena varians tadi adalah nilai dari hasil mengkuadratkan nilai-nilai yang
ada, maka jika kita ingin mendapatkan nilai variasi tepat tanpa bentuk
kuadrat, maka kita cukup mengakarkan varians. Dari situ kita akan
mendapatkan nilai standar deviasi, atau nilai akar dari varians. Jika kita
buat dalam rumus, maka

∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
σ=�
𝑁𝑁
Untuk standar deviasi di populasi. Sedangkan, untuk standar deviasi di
sampel, maka rumusnya adalah

∑(𝑥𝑥𝑖𝑖 − 𝑥𝑥̄ )2
𝑠𝑠 = �
𝑛𝑛 − 1

Karena standar deviasi adalah akar (root) dari mean dari deviasi-deviasi
kuadrat (squared deviations), maka standar deviasi juga disebut sebagai
RMS, atau Root Mean Square.
6. Coefficient of Variation:
Standar deviasi berguna untuk mengukur seberapa variasi yang ada dari
suatu set data. Namun, jika kita ingin membandingkan antara satu set data
dengan set data lannya, kita tidak bisa langsung membandingkannya,
apalagi jika satuannya berbeda. Contohnya, jika kita ingin mengetahui
apakah tingkat kolesterol (dengan satuan mg/100 mL) lebih bervariasi dari
berat badan (dalam kg). Dan juga, walaupun satuannya sama, mean-nya
bisa saja berbeda, seperti jika kita membandingkan standari deviasi dari
berat badan murid-murid kelas 1 SD dengan berat badan murid-murid
kelas 10 SMA. Walau keduanya dalam bentuk kg, kita akan menemukan
standar deviasi di murid kelas 10 SMA lebih tinggi hanya karena berat
badan di murid kelas 10 SMA lebih tinggi dari murid kelas 1 SD, dan
bukan karena variasi yang lebih tersebar. Oleh karena itu, kita
membutuhkan pengukuran variasi relatif, dan bukan variasi absolut.
Pengukuran ini merupakan coefficient of variation, yang menyatakan
standar deviasi sebagai presentase dari mean. Jika kita jadikan rumus,
maka
𝑠𝑠
𝐶𝐶𝐶𝐶 = 100%
𝑥𝑥̄
Karena mean dan standar deviasi memiliki satuan yang sama, kita bisa
dengan gampang coret, menghasilkan pengukuran variasi tanpa satuan.
Sebagai contoh, kita memiliki dua set data berat badan
Set data 1 Set data 2
Mean 145 kg 80 kg
Standar deviasi 10 kg 10 kg
Jika kita ingin mengetahui mana yang lebih bervariasi, maka kita akan
menghitung CV keduanya. Untuk CV set data 1, kita akan mendapatkan
10
𝐶𝐶𝐶𝐶 = 100% = 6.9%
145
Untuk CV set data 2, kita akan dapatkan
10
𝐶𝐶𝐶𝐶 = 100% = 12.5%
80
Dari situ, kita akan mendapatkan bahwa variasi lebih tinggi pada set data
2 dibandingkan pada set data 1
4. Proporsi dan Presentase
Proporsi atau presentase merupakan jumlah atau frekuensi dari suatu sifat
tertentu dibanding dengan seluruh data. Untuk mendapat nilai presentase,
cukup mengalikan jumlah proporsi dengan 100%

Sebagai contoh, proporsi dari jumlah yang berumur 20-24 tahun dari tabel di
atas adalah 5638/13465, yang berarti sekitar 0.42 atau dengan presentase 42%
dari seluruh data.

5. Ukuran posisi:
1. Kuartil: Membagi suatu distribusi frekuensi menjadi empat bagian yang
sama rata, yang dipisahkan oleh tiga kuartil

𝑛𝑛+1
a. Kuartil 1: nilai berada pada
4
2(𝑛𝑛+1) 𝑛𝑛+1
b. Kuartil 2: nilainya sama dengan nilai median, atau atau
4 2
3(𝑛𝑛+1)
c. Kuartil 3: nilainya berada pada
4

2. Desil: Jika kuartil membagi set data menjadi empat bagian, desil membagi
set data menjadi 10 bagian yang sama
3. Persentil: Persentil membagi suatu set data menjadi 100 bagian yang sama.

D. Teori Probabilitas
Probabilitas merupakan dasar dari statistik inferens. Dalam menyatakan probabilitas,
kita menggunakan nilai antara 0 hingga 1, dengan 0 merupakan kejadian yang tidak
mungkin terjadi sama sekali, dan 1 adalah kejadian yang pasti akan terjadi.
1. Pendekatan probabilitas
Pendekatan probabilitas dibagi menjadi dua, yaitu pendekatan objektif, dan juga
pendekatan subjektif.
a. Objektif:
1. Klasik:
Probabilitas klasik, atau a priori, merupakan konsep probabilitas yang biasa
ditemui. Kemungkinan suatu peristiwa terjadi di antara seluruh peristiwa
yang mungkin terjadi. Perlu diingat, kejadian harus terjadi saling terpisah
atau mutually exculsive.

𝑚𝑚
𝑃𝑃 (𝐸𝐸 ) =
𝑁𝑁

Dengan m merupakan kejadian yang diharapkan dan N merupakan seluruh


kejadian yang terjadi. Contohnya, dalam melempar sebuah dadu, kita
memiliki kemungkinan 1/6 untuk mendapatkan salah satu sisi, melihat dari
jumlah sisi yang ada dan jumlah kejadian yang diharapkan.

2. Empirik:
Disebut juga sebagai probabilitas eksperimental, frekuensi relative, atau a
priori. Mendeskripsikan probabilitas sebagai hasil dari pengalaman,
observasi, atau kejadian yang terjadi secara berulang-ulang, dan
kemampuan untuk menghitung jumlah pengulangan, dan juga jumlah
kejadian yang diinginkan yang telah terjadi.
𝑚𝑚
𝑃𝑃(𝐸𝐸 ) = lim 𝑚𝑚 /𝑛𝑛 atau 𝑃𝑃(𝐸𝐸 ) =
𝑛𝑛

Perlu diingat bahwa m/n hanya merupakan perkiraan atau estimasi dari
P(E), karena hanya didasarkan dari apa yang telah berhasil diamati (dan
karena itu kita menggunakan n dan bukan N). Contohnya, jika kita melihat
dari 10000 hasil produksi, dan 100 diantaranya mengalami kecacatan,
maka kita sebut sebagai probabilitas kecacatannya 100/10000, yaitu 0.01
atau 1%.
b. Subjektif:
Merupakan pandangan bahwa probabilitas diukur pada pernyataan subjektif
suatu individu. Semua bergantung pada si pembuat pernyataan. Konsep ini
tidak bergantung pada pengulangan apapun, dan bahkan seseorang bisa
mengevaluasi kemungkinan terjadinya sesuatu yang hanya berlangsung
sekali. Contohnya, seseorang yakin 70% kemungkinan terjadinya muncul
obat untuk kanker akan terjadi pada 10 tahun berikutnya.
2. Hukum probabilitas:
Sebelumnya, perlu diketahui beberapa konsep dasar probabilitas
1. Jika suatu proses atau eksperimen dengan jumlah hasil n yang saling lepas
(mutually exclusive) dari satu sama lain, E1, E2, …, En, maka probabilitas suatu
kejadian Ei tidak boleh dinyatakan dengan angka negatif
𝑃𝑃 (𝐸𝐸𝑖𝑖 ) ≥ 0
Semua kejadian harus memiliki probabilitas terjadi yang lebih besar atau sama
dengan nol. Konsep penting di sini lebih terletak pada konsep saling lepas atau
mutually exclusive. Dua kejadian disebut saling terlepas jika mereka tidak
dapat terjadi secara bersamaan.
2. Jika probabilitas yang saling terpisah dijumlahkan, maka akan menghasilkan
nilai 1
𝑃𝑃(𝐸𝐸1 ) + 𝑃𝑃(𝐸𝐸2 ) + ⋯ + 𝑃𝑃(𝐸𝐸𝑛𝑛 ) = 1

Ini merujuk pada pengamat probabilitas harus mengizinkan semua kejadian


yang dapat terjadi, dan jika semua dijumlahkan, maka total probabilitasnya
adalah 1.

3. Jika ada dua kejadian yang saling terpisah, yaitu Ei dan Ej, maka kemungkinan
antara keduanya terjadi adalah jumlah dari probabilitas masing-masing
𝑃𝑃�𝐸𝐸𝑖𝑖 + 𝐸𝐸𝑗𝑗 � = 𝑃𝑃(𝐸𝐸𝑖𝑖 ) + 𝑃𝑃�𝐸𝐸𝑗𝑗 �
Sekarang, dengan konsep di atas, kita akan membahas bagaimana hukum
perhitungan antara suatu kejadian. Di sini akan kita lihat dulu, apakah suatu
kejadian saling terpisah (mutually exclusive) atau dapat terjadi secara bersamaan
(non-mutually exclusive)

1. Penjumlahan:
a. Mutually exclusive:
Jika probabilitas suatu kejadian terjadi akan meniadakan kejadian lain
terjadi, atau jika keduanya tidak dapat terjadi secara bersamaan, maka
disebut sebagai kejadian mutually exclusive, saling terpisah, atau
saling meniadakan. Tidak ada irisan antara kedua kejadian tersebut

Penjumlahan sama seperti yang disebutkan sebelumnya, yaitu


𝑃𝑃 (𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵)
b. Non-mutually exclusive:
Jika dua kejadian dapat terjadi secara bersamaan, dan terdapat irisan
antara kedua kejadian tersebut karena itu

Jika kita ingin menghitung total probabilitas terjadinya kedua kejadian


tersebut terjadi (yang tidak diarsir), maka kita sebelumnya harus
menghitung berapa probabilitas keduanya terjadi secara bersamaan (yang
diarsir). Setelah itu, kita dapat menjumlahkan kemungkinan kejadian pada
daerah yang tidak diarsir, dan menguranginya dengan probabilitas
kejadian yang diarsir.
𝑃𝑃 (𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃 (𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)
Jika ada tiga kejadian, sama seperti sebelumnya, kita juga harus
menghitung probabilitas jika ada yang terjadi secara bersamaan. Hal ini
berarti ada tiga probabilitas yang harus kita temukan dulu, yaitu
probabilitas A∩B, A∩C, dan A∩B∩C
𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶 ) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃 (𝐶𝐶 ) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶 )
− 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶)
2. Perkalian
a. Independen:
Disebut independen atau bebas apabila suatu kejadian tidak
mempengaruhi kejadian yang lain. Jika mutually exclusive merupakan
kejadian yang tidak dapat muncul bersamaan, independen merupakan
kejadian yang tidak mempengaruhi kejadian yang lain.
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) 𝑥𝑥 𝑃𝑃(𝐵𝐵)
b. Dependen:
Disebut dependen atau kondisional apabila terjadinya suatu kejadian
akan mempengaruhi kejadian lainnya
𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) 𝑥𝑥 𝑃𝑃(𝐵𝐵|𝐴𝐴)
3. Permutasi dan kombinasi:
1. Kaidah umum penggandaan, jika suatu peristiwa menghasilkan n hasil,
dan selanjutnya menghasilkan m hasil yang berbeda dari hasil sebelumnya,
maka hasilnya merupakan m x n
𝑘𝑘 = 𝑛𝑛 𝑥𝑥 𝑚𝑚
2. Permutasi:
Merupakan probabilitas dengan memperhatikan urutan objek yang ada.
𝑛𝑛!
𝑛𝑛𝑛𝑛𝑛𝑛 =
(𝑛𝑛 − 𝑟𝑟)!
Dengan n merupakan banyaknya objek, dan r merupakan jumlah pasangan
3. Kombinasi:
Merupakan probabilitas jika tidak memperhatikan urutan objek yang ada
𝑛𝑛!
𝑛𝑛𝑛𝑛𝑛𝑛 =
𝑟𝑟! (𝑛𝑛 − 𝑟𝑟)!
Contoh soal probabilitas:
1. Sepasang suami istri ingin mempuanyai tiga orang anak. Probabilitas
kelahiran anak laki-laki adalah 0.6. Hitunglah probabilitas
a) Dua laki-laki dan satu perempuan
 Probabilitas laki-laki = 0.6, sedangkan perempuan = 0.4
 Kita list dulu semua yang mungkin: LLL, PPP, LPP, LLP, PLL, PPL,
3
PLP, dan LPL, dari sini yang ada dua laki-laki dan satu perempuan ada
8

atau 0.375
 Mencari probabilitas dua laki-laki dan satu perempuan = independent
0.6 ∗ 0.6 ∗ 0.4 = 0.144
0.144 ∗ 0.375 = 0.054
 Probabilitasnya adalah 0.054 atau 5.4%
b) Paling kurang satu laki-laki
 Kita ambil probabilitas dimana minimal ada satu laki-laki
LLL, LPP, LLP, PLL, PPL, PLP, dan LPL
 Pilih salah satu dulu. Kita akan pilih probabilitas hanya satu laki-laki
0.6 ∗ 0.4 ∗ 0.4 = 0.096
0.096 ∗ 0.375 = 0.036
 Selanjutnya dihitung probabilitas dua laki-laki
0.6 ∗ 0.6 ∗ 0.4 = 0.144
0.144 ∗ 0.375 = 0.054
 Selanjutnya untuk tiga laki-laki
0.6 ∗ 0.6 ∗ 0.6 = 0.216
0.216 ∗ 0.125 = 0.027
 Kita hitung probabilitas totalnya
0.036 + 0.054 + 0.027 = 0.117
 Probabilitasnya adalah 0.117 atau 11.7%
c) Tidak ada perempuan
 Tidak ada perempuan berarti ketiganya laki-laki
0.6 ∗ 0.6 ∗ 0.6 = 0.216
0.216 ∗ 0.125 = 0.027
 Probabilitasnya adalah 0.027 atau 2.7%
2. Sebuah dadu dilempar sekali. Berapa probabiltas angka yang didapatkan
adalah angka genap atau angka prima?
 Angka genap di dadu: 2, 4, 6
 Angka prima di dadu: 2, 3, 5
 Di antara keduanya, mendapat angka 2 bisa terjadi di antara keduanya,
yang berarti dia irisan
 Probabilitas akhirnya adalah
3 3 1 5
+ − =
6 6 6 6
 Maka dari itu probabilitas mendapat angka genap atau angka prima
5
adalah
6

3. Suatu percobaan dari bahan toksik yang disuntikkan terhadap tikus putih dan
hitam. Probabilitas tikus putih masih hidup setelah 10 jam adalah 0.7
sedangkan tikus hitam adalah 0.9. Kalau dilakukan percobaan tersebut, hitung
probabilitas setelah sepuluh jam
a) Kedua tikus masih hidup
 Gunakan rumus probabilitas independen
0.7 ∗ 0.9 = 0.63
b) Hanya tikus hitam yang masih hidup
 Probabilitas tikus putih mati = 1 – 0.7 = 0.3
0.3 ∗ 0.9 = 0.27
c) Hanya tikus putih yang masih hidup
 Probabilitas tikus hitam mati = 1 – 0.9 = 0.1
0.7 ∗ 0.1 = 0.07
d) Paling kurang satu tikus masih hidup
 Tikus hitam mati, tikus putih hidup atau tikus hitam hidup, tikus putih
mati atau keduanya hidup
0.27 + 0.07 + 0.63 = 0.97
4. Anggaplah kita mengamati pelemparan suatu dadu. Seberapa sering kita akan
melihat angka 1 dalam 60 lemparan? Dan seberapa sering kita akan melihat
masing-masing angka lainnya dalam 60 lemparan?
1
 Probabilitas angka 1 dalam 1 kali lemparan
6

 Probabilitas mendapat angka 1 dalam lemparan ini atau angka 1 pada


lemparan berikutnya
 Gunakan mutually exclusive
1 1 1 1 1
+ + + … + ℎ𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 60 𝑘𝑘𝑘𝑘𝑙𝑙𝑙𝑙
6 6 6 6 6
1
∗ 60 = 10
6
 Kita akan mendapatka angka 1 dalam 60 lemparan selama 10 kali.
 Untuk angka lainnya, memiliki probabilitas yang sama karena
1
memiliki probabilitas awal juga
6

5. Dalam suatu lemparan sepasang dadu, berapa besar probabilitas


a) Total angka 8 muncul
 Pertama kita list dulu seluruh kemungkinan yang ada
1 2 3 4 5 6
1 1, 1 1, 2 1, 3 1, 4 1, 5 1, 6
2 2, 1 2, 2 2, 3 2, 4 2, 5 2, 6
3 3, 1 3, 2 3, 3 3, 4 3, 5 3, 6
4 4, 1 4, 2 4, 3 4, 4 4, 5 4, 6
5 5, 1 5, 2 5, 3 5, 4 5, 5 5, 6
6 6, 1 6, 2 6, 3 6, 4 6, 5 6, 6
1
 Masing-masing memiliki probabilitas untuk muncul
36

 Kita ingin total 8 yang muncul, dan itu bisa didapat dari (2, 6), (3, 5),
(4, 4), (5, 3), dan (6, 2)
 Masing-masing merupakan kejadian mutually exclusive, jadi kita
hanya perlu menambahkan semuanya
5
 Total probabilitas
36

b) Total angka 7 atau 11 yang muncul


 Total angka 7 didapat dari (1, 6), (2, 5), (3, 4), (4, 3), (5, 2), dan (6,
6
1), yang berarti
36
2
 Total angka 11 didapat dari (5, 6) dan (6, 5), yang berarti
36

 Kita ingin tahu probabilitas salah satu muncul, maka mutually


exclusive
6 2 8
+ =
36 36 36
8 2
 Maka dari itu probabilitasnya adalah atau
36 9

c) Total angka 8 muncul atau angka yang sama muncul


 Total angka 8 muncul didapat dari (2, 6), (3, 5), (4, 4), (5, 3), dan (6,
5
2) =
36

 Angka yang sama muncul berarti (1, 1), (2, 2), (3, 3), (4, 4), (5, 5),
6
dan (6, 6) =
36

 Karena kita mencari probabilitas salah satu kejadian muncul, maka


mutually exclusive
5 6 11
+ =
36 36 36
11
 Maka dari itu probabilitas akhirnya adalah
36

d) Total angka 7 muncul dan kedua dadu menunjukkan angka kurang


dari 4
 Tidak mungkin terjadi karena untuk menunjukkan total angka 7
membutuhkan angka minimal 4
6. Sebuah bola diambil secara acak dari kotak yang mengandung 10 bola merah,
30 bola putih, 20 bola biru, dan 15 bola oranye. Temukan probabilitas
diambilnya oranye atau merah
 Jumlahkan dulu seluruh bola, 10+30+20+15=75
15
 Probabilitas mengambil oranye adalah , sedangkan merah adalah
75
10
75

 Probabilitasnya tinggal kita jumlahkan


25
 Probabilitas akhir
75

7. Anggaplah ada 10 desa, dari A hingga J. Setiap desa memiliki jumlah


populasi yang berbeda. Si Budi tinggal di desa D yang memiliki populasi 50
orang. Berapa probabilitas si Budi terpilih, jika pemilihan dilaksanakan
secara dua tahap, yaitu pemilihan desa lalu pemilihan orang?
1
 Probabilitas terpilih desa D =
10
1
 Probabilitas si Budi terpilih dari seluruh penduduk di desa D =
50

 Budi hanya akan terpilih jika desa D terpilih, maka probabilitasnya


dependen
1 1 1
∗ =
10 50 500
1
 Probabilitas Budi terpilih adalah
500

E. Distribusi Probabilitas
Di bagian ini akan membahas hubungan antara nilai suatu variabel acak dan
probabilitas terjadinya nilai tersebut dapat dilihat dalam distribusi probabilitas.
Distribusi probabilitas dapat dinyatakan dalam bentuk tabel, grafik, maupun suatu
rumus. Intinya, distribusi probabilitas menyatakan seluruh probabilitas kejadian yang
dapat terjadi.
1. Distribusi binomial:
Disebut binomial karena menggambarkan dua hasil, seperti hidup atau meninggal,
sehat atau sakit. Distribusinya diambil dari uji Bernoulli, yang dibuat oleh James
Bernoulli. Uji-uji yang dilakukan menghasilkan proses Bernoulli. Beberapa
syaratnya adalah:
b. Setiap uji menghasilkan dua hasil yang saling terlepas (mutually exclusive).
Salah satu hasil dianggap berhasil, dan satunya dianggap gagal.
c. Probabilitas kesuksesan, disebut sebagai p, memiliki nilai yang tetap antar
uji. Probabilitas kegagalan merupakan 1 – p, dan disebut sebagai q.
d. Uji-uji independent antar satu sama lain, atau tidak saling mempengaruhi.

Rumus umumnya adalah

𝑓𝑓(𝑥𝑥 ) = 𝐶𝐶𝑥𝑥𝑛𝑛 𝑞𝑞 𝑛𝑛−𝑥𝑥 𝑝𝑝 𝑥𝑥

𝑛𝑛!
𝐶𝐶𝑥𝑥𝑛𝑛 =
𝑥𝑥! (𝑛𝑛 − 𝑥𝑥 )!
Dengan n merupakan jumlah uji, dan x merupakan jumlah kejadian yang
diharapkan. Selain itu, seperti yang bisa dilihat, ada dua parameter di distribusi
binomial, yaitu n dan p. Keduanya cukup untuk menyatakan distribusi binomial,
dengan mean 𝜇𝜇 = 𝑛𝑛𝑛𝑛 dan varians 𝜎𝜎 2 = 𝑛𝑛𝑛𝑛(1 − 𝑝𝑝) atau 𝑛𝑛𝑛𝑛𝑛𝑛.
Contoh:
Kita memiliki data bahwa pada suatu populasi ada 14% ibu yang merokok satu
atau lebih batang per harinya selama masa kehamilan. Jika kita memiliki jumlah
sampel acak 10 yang dipilih dari populasi ini, probabilitas dari 10 tersebut akan
ada 4 ibu-ibu yang merokok pada masa kehamilan adalah?
𝑓𝑓(4) = 𝐶𝐶410 (. 86)6 (. 14)4
10!
= (. 4045672). 0003842) = .0326
4! 6!
Kita akan mendapat probabilitasnya adalah 3.26%. Untuk memudahkan
perhitungan, terutama pada julah sampel yang besar, kita bisa menggunakan tabel
distribusi binomial untuk membantu kita.
2. Distribusi Poisson:
Jika suatu jumlah x kejadian pada suatu peristiwa acak pada suatu waktu atau
tempat, maka probabilitas x terjadi adalah
𝑒𝑒 −𝜆𝜆 𝜆𝜆𝑥𝑥
𝑓𝑓(𝑥𝑥 ) = , 𝑥𝑥 = 0, 1, 2, …
𝑥𝑥!
Lambda (λ) di sini merupakan parameter distribusi dan merupakan rata-rata
jumlah kejadian pada peristiwa acak pada suatu waktu atau tempat, sedangkan e
merupakan konstanta angka Euler, yaitu 2.71828. Seperti distribusi binomial,
distribusi Poisson juga memiliki proses Poisson, yang memiiki beberapa syarat:
a. Kejadian terjadi secara independent
b. Secara teoritis, kejadian dapat terjadi secara infinit
c. Probabilitas terjadinya satu kejadian pada suatu rentang sebanding
dengan panjang interval
d. Dalam satu bagian infinitesimal interval, probabilitas terjadinya lebih
dari satu kejadian bisa tidak dihiraukan
Pada distribusi Poisson, mean dan varians sama, dan direpresentasikan dengan
simbol λ. Distribusi Poisson biasanya digunakan jika probabilitas kejadian (n)
sangat kecil namun menyangkut populasi atau interval (p) yang luas.

Contoh:
Suatu studi meneliti mengenai kejadian anaphylaxis pada pasien yang
menggunakan rocuronium bromide untuk anastesi mereka. Laake dan Røttingen
menemukan bahwa kejadian anaphylaxis mengikuti model Poisson λ = 12 insiden
per tahun di Norwegia. Jika kita ingin mengetahui probabilitas tepat 3 orang
mengalami anaphylaxis setelah mendapat rocuronium bromide untuk anastesi,
kita bisa menggunakan rumus sebelumnya
𝑒𝑒 −12 123
𝑃𝑃 (𝑥𝑥 = 3) = = .00177
3!

Dari situ kita mengetahui probabilitasnya adalah 0.177%

3. Perkiraan Poisson untuk distribusi binomial:


Untuk suatu distribusi binomial memiliki n yang besar dan p yang kecil (seperti
distribusi Poisson, namun tetap memiliki dua outcome), means dan varians kurang
lebih bernilai sama (𝑛𝑛𝑛𝑛 ≈ 𝑛𝑛𝑛𝑛𝑛𝑛). Ini disebabkan karena nilai p yang kecil, yang
berarti nilai q akan semakin mendekati 1. Karena itu, hasil untuk distribusi
binomial dengan n yang besar dan p yang kecil bisa diperkirakan dengan
distribusi Poisson, dengan 𝛌𝛌 = 𝒏𝒏𝒏𝒏. Distribusi Poisson lebih mudah digunakan
daripada distribusi binomial di kasus seperti ini, karena distribusi binomial susah
dihitung untuk n yang besar.
4. Distribusi normal:
Disebut juga sebagai distribusi Gauss. Tidak seperti distribusi binomial dan
Poisson, yang merupakan distribusi variabel diskrit, distribusi normal digunakan
untuk variabel kontinyu. Distribusi ini penting digunakan pada statistik, karena
merupakan dasar dari uji parametrik. Jika data tidak berbentuk distribusi normal,
maka yang digunakan adalah uji non-paramterik. Bentuknya seperti lonceng.
Pertama kali persamaannya ditemukan oleh Abraham De Moivre (1667-1754)
pada 12 November 1733. Gauss menemukan bahwa pengukuran yang berulang-
ulang untuk fenomena alam menghasilkan distribusi yang sama, dan oleh karena
itu distribusi ini disebut distribusi normal. Distribusi bisa ditulis dengan N (µ, σ2).
Rumus umumnya adalah
1 2 /2𝜎𝜎 2
𝑓𝑓 (𝑥𝑥 ) = 𝑒𝑒 −(𝑥𝑥−𝜇𝜇) , −∞ < 𝑥𝑥 < ∞
√2𝜋𝜋𝜋𝜋

Ciri-ciri distribusi normal:


a. Variabel kontinyu dengan n tak terhingga, tidak seperti dsitribusi binomial
dan Poisson yang merupakan distribusi diskrit
b. Kejadian independen
c. Simetris di µ yang berada pada 0. Kedua sisi di sebelah µ seimbang.
Karena f(x) = f(-x)
d. Mean, median, dan modus terletak pada satu titik
e. Total luas area di bawah kurva merupakan 1
f. Jika kita menarik garis dengan jarak 1 standar deviasi dari mean ke kedua
arah, maka kurva yang didapatkan akan sekitar 68% dari luas total. Jika 2
standar deviasi, maka 95%. Dan jika 3 standar deviasi, maka 99.7%.
g. Distribusi normal bergantung pada mean dan standar deviasi. Mean
merubah posisi pada sumbu x, dan standar deviasi merubah kepuncakan
distribusi. Mean disebut parameter lokasi dan standar deviasi disebut
parameter bentuk.
Distribusi normal standar:
Seperti yang telah disebutkan sebelumnya, distribusi normal bergantung pada µ
(mean) dan σ (standar deviasi). Dari sini, kita akan memiliki distribusi normal
standar, yang memiliki µ = 0 dan σ = 1. Untuk dapat menentukan probabilitas dari
distribusi normal umum ke dalam distribusi normal standar, nilai yang dicari akan
ditranformasikan dulu melalui transformasi z (deviasi relatif)
𝑥𝑥 − 𝜇𝜇 𝑥𝑥 − 𝑥𝑥̄
𝑧𝑧 = 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑧𝑧 =
𝜎𝜎 𝑠𝑠

Persamaan untuk distribusi normal standar ditulis dengan

1 2 /2
𝑓𝑓(𝑧𝑧) = 𝑒𝑒 −𝑧𝑧 , −∞ < 𝑧𝑧 < ∞
√2𝜋𝜋

Untuk menemukan probabilitas z untuk nilai yang berada di antara dua titik,
pertama kita harus menentukan luas yang dibatasi antara dua titik tersebut (anggap
z0 dan z1), kurva, dan sumbu x. Luas ditemukan dengan mengintegralkan
persamaan di antara dua nilai variabel. Di distribusi normal standar, untuk
menentukan luas antara kedua z0 dan z1 secara langsung, kita harus mengevaluasi
integral

z1
1 2 /2
� 𝑒𝑒 −𝑧𝑧 𝑑𝑑𝑑𝑑
z0 √2𝜋𝜋

Untungnya, kita tidak perlu repot-repot dan hanya perlu menggunakan tabel Z
untuk melihat hasilnya. Ada beberapa jenis tabel Z yang ada. Ada yang tabel luas
kurva kiri (antara -∞ hingga z, kurva a) dan kanan (antara z hingga ∞, kurva b),
ada yang one-tail dari 0 hingga z (kurva c), dan ada pula yang two-tail (dari -z
hingga z, kurva d). Di buku bu Luknis yang biasa digunakan sebagai acuan,
digunakan tabel untuk kurva c, yaitu dari titik 0 hingga z. Tabel z yang biasa kalian
temukan di internet biasanya menggunakan kurva a, tapi untuk kemudahan, di sini
akan digunakan tabel yang sama dengan yang digunakan di buku bu Luknis. Perlu
diingat, untuk tabel ini, walau nilai z yang kalian dapatkan berbentuk negatif, kita
akan tetap gunakan bentuk positifnya. Jikalau tabel yang kalian dapatkan
menggunakan kurva d, maka kalian hanya perlu membaginya dengan dua.
Contoh soal:

1. Diskin, et all melakukan penelitian mengenai hasil metabolisme dari nafas


normal seperti ammonia, aseton, isoprene, etanol, dan asetaldehid pada 5
subjek selama 30 hari. Setiap hari, sampel nafas diambil dan dianalisis pada
pagi harinya. Untuk subjek A, wanita berusia 27 tahun, konsentrasi amonia
pada nafasnya yang diukur dengan satuan konsentrasi ppb (parts per billion),
mengikuti distribusi normal selama 30 hari dengan mean 491 dan standar
deviasi 119. Berapa probabiltas, pada suatu hari, konsentrasi ammonia pada
subjek A berada antara 292 hingga 649 ppb?
 Pertama, untuk kemudahan, kita lihat jika kita gambarkan dengan kurva

Kurva di atas adalah distribusi normal data. Kita harus hitung dalam
distribusi normal standar P (292 < x < 649), jadi kita harus rubah x dengan
transformasi z agar mendapat posisinya di distribusi normal standar.
 Dari situ, kita harus temukan nilai z dengan x = 292 dan juga x = 649.
Pertama kita coba cari untuk x = 292. Kita dapatkan hasilnya -1.67.
292 − 491
𝑧𝑧 = = −1.67
119
 Kita lalu cari untuk x = 649, dan kita dapatkan hasilnya adalah 1.33
649 − 491
𝑧𝑧 = = 1.33
119
 Kita cari luas untuk keduanya, yaitu 1.67 (karena kita gunakan tabel untuk
grafik c, anggap semuanya dalam bentuk positif) dan 1.33. Kita dapatkan
untuk 1.67 luasnya adalah 0.4525, sedangkan untuk 1.33 adalah 0.4082

Kurva di sebelah kiri adalah untuk 1.67, dan di sebelah kanan adalah 1.33.
Namun, perlu diingat, karena tadi yang kita dapatkan sebenarnya adalah
-1.67 dan bukan 1.67, maka untuk kurva sebelah kiri perlu kita putar 180o
untuk mendapatkan grafik -1.67

Kita dapatkan kurva akhirnya sebagai berikut, dengan bagian yang diarsir
dari titik -1.67 hingga titik 1.33
 Untuk mendapatkan P (292 < x < 649), kita harus menjumlahkan kedua
luas yang kita temukan untuk mendapat luas total, yang berarti
0.4525 + 0.4082 = 0.8607
 Dari situ kita dapatkan bahwa, untuk probabilitas di suatu hari acak, kita
temukan kadar ammonia di dalam nafas berada sekitar 292 hingga 649 ppb
adalah 0.8607 atau 86.07%
2. Suatu penelitian dilakukan seorang dokter kebidanan untuk meneliti kadar
haemoglobin ibu hamil. Untuk penelitian ini telah diambil sebanyak 50 bumil
dan didapatkan rata-rata kadar Hb = 9.5 gr/dL, dengan simpangan baku 4.5
gr/dL
a. Hitunglah probabilitas akan mendapatkan seorang bumil yang diambil
dari 50 orang tersebut mempunyai Hb > 12 gr/dL
 Kita cari posisi 12 di distribusi normal standarnya dengan
transformasi z
12 − 9.5
𝑧𝑧 = = 0.56
4.5
 Kita cari luas dari titik 0 hingga titik 0.56 di tabel, dan kita
dapatkan 0.2123

 Kita perlu mencari Hb > 12 gr/dL, padahal luas yang kita dapatkan
adalah luas antara titik 0 hingga 0.2123 yang merupakan 12 gr/dL
 Maka dari itu, kita harus menemukan luas dari titik 0.56 hingga
titik ∞. Ini dapat ditemukan dengan mengurangi 0.5 dengan luas
yang kita dapatkan (perlu diingat bahwa luas kurva total dari kanan
ke kiri adalah 1, yang berarti luas bagian kanan adalah 0.5)
0.5 − 0.2123 = 0.2877
 Dari situ kita dapatkan bahwa probabilitasnya adalah 0.2877 atau
28.77%
 Tips: cara mudahnya adalah dengan melihat tabel z untuk luas
kurva dari sisi kanan. Cukup dengan melihat hasil di tabel untuk titik
0.56, tanpa perlu mengurangi hasilnya dengan 0.5.
b. Hitunglah probabilitas akan mendapatkan seorang bumil yang diambil
dari 50 orang tersebut mempunyai Hb < 8 gr/dL
 Sama seperti sebelumnya, kita temukan posisi 8 di distribusi
normal standar. Kita masukkan ke rumus transformasi z
8 − 9.5
𝑧𝑧 = = −0.33
4.5
 Kita cari luas dari titik 0 hingga titik 0.33 di tabel, kita dapatkan
luasnya adalah 0.1293

 Namun, ini hanya menunjukkan luas dari titik 0 hingga -0.33.


Yang kita ingingkan adalah luas dari titik -∞ hingga -0.33

 Jadi, sama seperti sebelumnya, kita kurangi 0.5 dengan luas yang
kita dapatkan. Yang berarti
0.5 − 0.1293 = 0.3707
 Hasil akhirya, kita dapatkan bahwa probabilitasnya adalah 0.3707
atau 37.07%
 Tips: cara mudahnya adalah dengan melihat tabel z untuk luas
kurva dari sisi kiri. Cukup melihat hasil di tabel untuk titik -0.33,
tanpa perlu mengurangi hasilnya dengan 0.5

Kegunaan:
Ada beberapa kegunaan distribusi normal standar, yaitu:
1. Memiliki sifat yang dapat dijadikan suatu patokan dalam pengambilan
kesimpulan dari beberapa sampel
2. Distribusi normal terjadi secara alamiah, dan banyak fenomena alam yang
terdistribusi normal. Kecuali hal-hal seperti uang dan waktu.

Dan seperti yang disebutkan di awal, distribusi normal digunakan untuk uji
parametrik, sedangkan yang tidak mengikuti distribusi normal menggunakan uji
non-parametrik.

F. Distribusi Sampling
Jika kita ingin membuat perkiraan tentang suatu populasi berdasarkan sampel, kita
perlu mengembangkan teori yang menghubungkan statistika sampel yang kita miliki
dengan parameter populasi yang berkaitan. Karena sampel kita hanyalah sebagian
dari populasi, nilai yang kita dapat akan berbeda dari populasi dengan jumlah yang
kita tidak ketahui. Tapi jika mengetahui perilaku sampel, bagaimana nilainya berubah
jika kita mengambil sampel secara tak hingga dan berulang-ulang, dengan konsep
probabilitas, kita bisa menyatakan dengan suatu tingkat kepercayaan bahwa nilai
sampel yang kita dapat akan berbeda dengan interval tertentu dari nilai asli di populasi.
Oleh karena itu, kita butuh distribusi probabilitas untuk statistik sampel. Distribusi
probabilitas tersebut merupakan distribusi samping, yaitu distribusi dari rata-rata
atau proporsi sampel yang diambil secara berulang-ulang dan tak hingga dari
populasi atau dengan definisi lain, distribusi dari seluruh nilai yang mungkin dari
hasil statistik sampel, diambil dari sampel yang diambil dari populasi.
Sifat-sifat dari distribusi sampel dikenal sebagai Central Limit Theorem.
1. Jika populasi berdistribusi normal, maka distribusi sampling juga akan
berdistribusi normal. Jika populasi berdistribusi tidak normal, dan n cukup besar
maka distribusi sampling akan tetap berdistribusi normal.
2. Rata-rata dari distribusi sampling sama dengan rata-rata populasi
3. Standar deviasi dari distribusi sampling sama dengan standar deviasi populai
dibagi dengan akar jumlah sampel, atau dikenal juga sebagai Standard Error
𝜎𝜎
𝑆𝑆𝑆𝑆 =
√𝑛𝑛
4. Dari sifat CLT di atas maka terlihat bahwa suatu penelitian tidak perlu menarik
sampel berulang-ulang, karena suatu sampel sudah merepresentasukan estimasi
populasi

Mean:
Rumusnya untuk mean di distribusi sampling sama dengan untuk distribusi normal
sebelumnya, namun standar deviasi diganti dengan standar error
𝑥𝑥̄ − 𝜇𝜇
𝑧𝑧 =
𝑆𝑆𝑆𝑆

Bagaimana mengetahui apakah suatu soal menggunakan distribusi normal biasa atau
distribusi sampling? Jika di suatu soal disebutkan “diambil sampel dari populasi”,
maka soal tersebut adalah soal distribusi sampling, dan jika tidak, maka distribusi
normal biasa

Contoh:

1. Diketahui bahwa di suatu populasi panjang tengkoraknya kira-kira berdistribusi


normal dengan mean 185.6 mm dan dengan standar deviasi 12.7 mm. Kita ingin
mengetahui presentase dari suatu sampel acak berjumlah 10 dari populasi ini
yang akan memiliki mean lebih besar dari 190.
 Pertama, kita harus menemukan SE dari distribusi sampling. Kita dapatkan

12.7
= 4.0161
√10
 Untuk mean, berdasarkan CLT, kita dapatkan nilainya sama dengan populasi,
yaitu 185.6 mm. Kita lalu masukkan rumus yang sebelumnya

190 − 185.6
𝑧𝑧 = = 1.10
4.0161

 Dengan melihat tabel, kita menemukan bahwa luas dari titik 0 hingga titik 1.1
adalah 0.3643
 Karena kita ingin mengetahui mean yang lebih besar dari 190, maka kita
kurangi luas yang kita dapatkan dengan 0.5
0.5 − 0.3643 = 0.1357
 Dari situ kita dapatkan probabilitas atau presentasenya adalah 0.1357 atau
13.57%
2. Tinggi badan dari laki-laki muda diketahui berdsitribusi normal dengan mean 60
in dan standar deviasi 10 in. Suatu sampel diambil dari populasi tersebut yang
besarnya 25. Berapa persentase sampel yang diambil dengan rata-rata berikut?
a. Antara 57 dan 63
 Kita hitung dulu berapa SEnya
10
𝑆𝑆𝑆𝑆 = =2
√25
 Kita ingin mengetahui P (57 < x < 63). Maka kita harus cari titik 57
dan 63 di kurva distribusi normal standar. Masukkan ke rumus
transformasi z
57 − 60
𝑧𝑧 = = −1.5
2
63 − 60
𝑧𝑧 = = 1.5
2
 Kita dapatkan untuk titik 57 berada di titik -1.5 kurva dan titik 63
berada di titik 1.5 kurva. Karena keduanya sama, kita hanya perlu
mencari luas dari titik 0 ke 1.5, atau gunakan tabel two-tail. Dari -1.5
ke 1.5.
 Kita lihat bahwa luas dari titik 0 ke 1.5 adalah 0.4332. Karena dua-
duanya sama, kita gandakan luas tersebut dan dapatkan luas akhir
0.8664. Atau jika menggunakan tabel two-tail, kita dapatkan langsung
hasilnya 0.8664.
 Maka dari itu, presentase sampel yang memiliki rata-rata di antara 57
hingga 63 adalah 0.8664 atau 86.64%
b. Kurang dari 55
 Karena SE sama, langsung saja kita transformasikan titik 55 ke kurva
normal standar untuk menemukan P (x < 55)
55 − 60
𝑧𝑧 = = −2.5
2
 Kita dapatkan luas dari titik 0 hingga 2.5 di tabel adalah 0.4938
 Karena itu adalah luas dari titik 0 hingga titik-2.5, sementara yang kita
inginkan adalah luas dari titik -∞ hingga titik -2.5, maka kita kurangi
0.5 dengan luas yang tadi, yaitu 0.4938
0.5 − 0.4938 = 0.0062
 Kita dapatkan bahwa presentasenya adalah 0.0062 atau 0.62%
c. 64 atau lebih
 Kita transformasikan titik 64 ke kurva normal standar untuk dapatkan
P (x > 64)
64 − 60
𝑧𝑧 = =2
2
 Kita dapatkan luas dari titik 0 hingga 2 di tabel adalah 0.4772
 Karena itu adalah luas dari titik 0 hingga titik 2, sementara yang kita
inginkan adalah luas dari titik 2 hingga titik ∞, maka kita kurangi 0.5
dengan luas yang tadi, 0.4772
0.5 − 0.4772 = 0.0228
 Kita dapatkan bahwa presentasenya adalah 0.0228 atau 2.28%
d. 75 atau lebih
 Kalau misal kita masukkan ke rumus transformasi z, kita akan
temukan bahwa nilai z
75 − 60
𝑧𝑧 = = 7.5
2
 Di tabel z pada umumnya, tidak akan ditemukan luas untuk titik 0
hingga 7.5. Ini disebabkan karena, semakin suatu titik mendekati titik
∞, luasnya dari titik 0 hingga titik tersebut akan semakin membesar
hingga 0.5
 Sebagai contoh, untuk 3.9, luasnya adalah 0.499952
 Dari sini dapat kita simpulkan, karena kita ingin mengetahui luas dari
titik 7.5 hingga titik ∞, luasnya sangatlah kecil, sehingga bisa kita
anggap presentase atau probabilitasnya juga sangatlah kecil untuk
terjadi

Proporsi:
Jika sebelumnya berurusan dengan mean, maka sekarang kita akan berurusan dengan
proporsi di distribusi sampling. Sama dengan mean, berdasarkan CLT, jika ukuran
sampelnya cukup besar, maka distribusi dari distribusi sampel harga proporsi akan
menghasilkan distribusi normal. Rumus untuk proporsi adalah
𝑝𝑝̂ − 𝑝𝑝
𝑧𝑧 =
�𝑝𝑝(1 − 𝑝𝑝)
𝑛𝑛

Seberapa besar ukuran sampel agar pernyataan di atas valid? Ada yang menyatakan
bahwa np dan juga n(1 - p) haruslah lebih besar dari 5 agar valid.

Sebagai contoh, misal kita ingin mengetahui penggunaan layanan prenatal di wanita
Afrika-Amerika dengan status ekonomi rendah. Kita menemukan bahwa 51% wanita
tersebut melakukan layanan prenatal. Jika 200 wanita dari populasi ini diambil secara
acak, berapa probabilitas bahwa kurang dari 45% akan memiliki layanan prenatal
yang cukup?

Dari sini kita akan dapatkan µp = 0.51 dan σ2p = ((0.51)(0.49))/200 = 0.00125. Kita
masukkan ke rumus

0.45 − 0.51 −0.06


𝑧𝑧 = = = −1.7
√0.00125 0.0353

Jika kita lihat tabel, maka kita akan dapatkan luas di sebelah kiri dari titik -1.7 adalah
0.0446. Oleh karena itu, probabilitasnya adalah 0.0446 atau 4.46%.

G. Pendekatan atau perkiraan normal


1. Perkiraan normal terhadap distribusi binomial:
Sama seperti kasus pada perkiraan Poisson untuk distribusi binomial, kita bisa
megginakan distribusi normal untuk memperikaran distribusi binomial yang
memiliki n besar.
Sebelumnya, kita harus mengetahui karakteristik distribusi binomial yang tepat
diperkirakan dengan distribusi normal. Jika n berukuran lumayan besar (tidak
sebesar Poisson), dan p bernilai mendekati 0 maupun 1, distribusinya akan,
masing-masing, berbentuk condong positif dan condong negatif (grafik a dan b).
Hal yang sama akan terjadi pada distribusi binomial yang memiliki n kecil, walau
dengan nilai p apapun, distribusinya akan condong (grafik c). Namun, jika n
berukuran sedang dan nilai p tidak terlalu ektrem, maka distribusinya akan
cenderung simetris dan bisa diperkirakan dengan distribusi normal (grafik d).
Kita mengetahui bahwa mean dan varians untuk distibusi binomial adalah np dan
npq. Perkiraan yang kita gunakan otomatis akan memiliki mean dan varians yang
sama, yang berarti N (np, npq).

Anggaplah kita ingin mengukur P (a=x) dengan a merupakan bilangan bulat dan
x berdistribusi binomial dengan parameter p dan q. Karena kita menggunakan
distribusi normal (distribusi kontinyu) untuk memperkirakan distribusi binomial
(distribusi diskrit), kita harus melakukan sebuah koreksi. Karena kita ingin
1
mencari probabilitas x, kita harus mencari luas kurva dari titik 𝑎𝑎 − ke titik 𝑎𝑎 +
2
1
. Koreksi ini disebut koreksi kontinyuitas. Sementara jika kita ingin melihat P (a
2
1 1
< x < b), maka luas yang kita cari berubah menjadi dari titik 𝑎𝑎 − ke titik 𝑏𝑏 + .
2 2

Tambahan, bahwa distribusi normal dengan mean np dan varians npq hanya bisa
digunakan untuk memperkirakan distribusi binomial dengan parameter n
dan p pada np≥5 dan nq≥5, dengan alasan bahwa jika kurang dari itu, distribusi
akan condong dan tidak normal.

Rumus yang digunakan sama seperti distribusi normal. Sementara untuk koreksi
kontinuitas, mengikuti:

• Jika P (X = n) maka P (n-0.5 < X < n+0.5)


• Jika P (X > n) maka P (X > n+0.5)
• Jika P (X < n) maka P (X < n-0.5)
• Jika P (X ≥ n) maka P (X > n-0.5)
• Jika P (X ≤ n) maka P (X < n+0.5)

Contoh:
1. Anggaplah kita ingin menghitung probabilitas antara 50 hingga 75 dari 100
sel darah putih adalah neutrofil (binomial dengan anggapan outcome ya dan
tidak), dengan probabilitas bahwa suatu sel benar-benar neutrophil adalah 0.6.
Nilai tersebut (50-70 neutrofil dari 100) dianggap sebagai batas neutrofil di
orang sehat. Di sini kita ingin mengetahui perkiraan probabilitasnya karena n
terlalu besar.
 Pertama kali kita harus mendapatkan mean dan varians dulu
𝑛𝑛𝑝𝑝 = 100(0.6) = 60

𝑛𝑛𝑛𝑛𝑛𝑛 = 100(0.6)(0.4) = 24

 Dari sini berarti distribusi normal yang kita gunakan memiliki mean 60 dan
varians 24. Kita ingin menghitung P (50 ≤ x ≤ 75), maka kita harus
menghitung luas di bawah kurva dari titik 50 − 0.5 = 49.5 ke titik 75 +
0.5 = 75.5 setelah ditransformasikan ke z (perlu diingat kita harus
mengakarkan varians untuk mendapat standar deviasi)

49.5 − 60 75.5 − 60
P(49.5 < 𝑥𝑥 < 75.5) = 𝑃𝑃 � < 𝑧𝑧 < �
√24 √24

= 𝑃𝑃 (−2.14 < 𝑧𝑧 < 3.16)

= 0.4992 + 0.4838 = 0.983

 Kita dapatkan probabilitas perkiraannya adalah 0.983 atau 98.3%

2. Perkiraan normal terhadap distribusi Poisson:


Sama seperti kasus perkiraan normal terhadap distribusi binomial, kita bisa juga
melakukan perkiraan terhadap distribusi Poisson yang memiliki λ besar. Cara
yang digunakan sama seperti sebelumnya, yaitu dengan mean dan varians
bernilai sama dengan λ. P (a=x) diperkirakan dengan luas di bawah kurva N
𝟏𝟏 𝟏𝟏
(λ, λ) dari titik 𝒂𝒂 − ke titik 𝒂𝒂 − untuk a > 0. Perkiraan hanya digunakan
𝟐𝟐 𝟐𝟐

untuk λ≥10. Sama seperti sebelumnya, alasannya adalah karena kurang dari 10,
distribusi akan condong. Untuk pembuktian bisa dilihat:
Contoh:
1. Probabilitas mengamati jumlah x bakteri di suatu cawan Petri dengan luas A
didistribusikan dengan distribusi Poison dengan parameter λ=0.1 bakteria/cm2
dan A=100cm2. Kita menemukan bahwa ada 20 bakteri di cawan Petri. Kita
ingin mengetahui berapa besar probabilitas yang ditemukan tepat 20 bakteri
atau lebih.
 Pertama, karena λ dilihat per cm2, kita harus kalikan dengan luas cawan
Petri untuk mendapatkan λ untuk cawan Petri A
𝜆𝜆 = 0.1(100) = 10
 Kita kemudian perkirakan menggunakan distribusi normal dengan mean
dan varians 10. Kita berikan koreksi sehingga titik awalnya menjadi 20 −
0.5 = 19.5. Kita kemudian transformasikan 19.5 ke nilai z
19.5 − 10
𝑧𝑧 = =3
√10
 Kita dapatkan luas dari titik 0 hingga 3 di tabel adalah 0.49865. Karena
kita ingin melihat 20 atau lebih, maka kita kurangi 0.5 dengan luas yang
kita dapatkan tadi
0.5 − 0.49865 = 0.00135
 Akhirnya, kita temukan bahwa probabilitas menemukan 20 atau lebih
bakteri pada cawan Petri berukuran 100cm2 hanyalah 0.00135 atau 0.135%
2. Kejadian tetanus neonatorum (tetanus pada bayi baru lahir) adalah kejadian
yang jarang terjadi. Diperkirakan probabilitasnya hanyalah 0.0025. Kalau di
suatu kabupaten pada tahun 2007 telah lahir sebanyak 1000 bayi,
perkirakanlah kejadian tetanus neonatorum
a. Tepat satu kasus
 Pertama kita temukan dulu λ untuk 1000 bayi
𝜆𝜆 = 0.0025(1000) = 2.5
 Dari situ, berarti mean dan varians untuk distribusi normalnya
adalah 2.5
 Kita ingin menemukan tepat satu kasus, maka, setelah dkoreksi,
kita harus mencari luas dari titik 0.5 ke 1.5 (P (0.5 < x < 1.5)).
Mari kita transformasikan dulu masing-masing titik
0.5 − 2.5
𝑧𝑧 = = −1.27
√2.5
1.5 − 2.5
𝑧𝑧 = = −0.63
√2.5
 Kita temukan luas untuk titik 0 hingga titik 1.27 adalah 0.398,
sementara luas untuk titik 0 hingga titik 0.63 adalah 0.2357

Kurva sebelah kiri merupakan kurva dari titik -1.27 hingga 0,


sementara kurva sebelah kanan merupakan kurva dari titik -0.63
hingga 0

 Kita lihat di sini bahwa keduanya bersifat negatif. Maka dari itu,
tidak seperti kasus-kasus sebelumnya, di sini kita akan
mengurangi luas keduanya untuk mendapat luas di antara kedua
titik
0.398 − 0.2357 = 0.1623
 Dari situ kita dapatkan luas antara titik -1.27 hingga titik -0.63
adalah 0.1623, yang berarti probabilitas terjadinya tepat satu
kasus adalah 0.1623, atau 16.23%
b. Paling banyak dua kasus
 Karena kita ingin menemukan probabilitas paling banyak dua
kasus, maka berarti P (x ≤ 2), yang setelah diberi koreksi menjadi
P (x < 2.5)
 Kita transformasikan ke nilai ke nilai z, maka kita dapatkan
2.5 − 2.5
𝑧𝑧 = =0
√2.5
 Kita dapatkan letaknya di titik 0. Maka, luasnya jika dari titik 0
sendiri adalah 0
 Karena kita ingin mengetahui probabilitas maksimal di titik 0,
maka kita kurangi 0.5 dengan 0
0.5 − 0 = 0.5
 Dari situ kita dapatkan bahwa probabilitasnya merupakan 0.5 atau
50%
c. Lebih dari lima kasus
 Karena kita ingin menemukan probabilitas lebih dari lima kasus
terjadi, maka perarti P (x > 5), yang setelah diberi koreksi menjadi
P (x > 5.5)
 Kita transformasikan ke nilai z, maka kita dapatkan
5.5 − 2.5
𝑧𝑧 = = 1.9
√2.5
 Kita dapatkan letaknya di titik 1.9. Beerdasar tabel, luas dari titik
0 hingga titik 1.9 adalah 0.4713
 Kita mencari probabilitas lebih dari lima kasus, maka kita harus
kurangi 0.5 dengan 0.4713 untuk mendapatkan probabilitasnya
0.5 − 0.4713 = 0.0287
 Kita dapatkan probabilitas akhirnya adalah 0.0287 atau 2.87%
Referensi:

1. Daniel, W., Cross, C. 2013. Biostatistics: A Foundation for Analysis in the Health
Sciences. 10th ed. New Jersey: Wiley.
2. Kachigan, S. 1991. Multivariate Statistical Analysis: a conceptual introduction.
2nd ed. New York: Radius Press.
3. Rosner B. 2015. Fundamentals of Biostatistics. 8th ed. Boston, MA: Cengage
Learning.
4. Sabri, L. 2006. Statistik Kesehatan. Jakarta: RajaGrafindo Persada.
5. Weiss, N. 2017. Introductory Statistics. 10th ed. Harlow: Pearson Education
Limited.

Anda mungkin juga menyukai