Statistik Deskriptif

BIOSTATISTIK I (DESKRIPTIF) – SEMESTER 3
A. Pengantar Biostatistik
Pengertian Statistik
Ilmu, prinsip, dan metode dalam pengumpulan, analisis, penyajian, dan interpretasi data. Data
merupakan informasi yang digunakan untuk menggambarkan situasi dari suatu peristiwa. Data juga
dapat digunakan untuk menyimpulkan suatu hal.
Metode Statistik
Statistik Matematik (Mathematical Statistics)
Statistik Terapan (Applied Statistics) -> Biostatistik
Jenis Analisis Statistik
Analisis Deskriptif
- To describe untuk menggambarkan data
- To summarize untuk merangkum data
- To present untuk menyajikan data
- To interprete untuk interpretasi data
Jadi analisis deskriptif hanya terbatas pada 4 hal tersebut saja.
Contoh pertanyaan yg dpt dijawab dgn analisis deskriptif
“Berapa jumlah kunjungan di Poli KIA-KB Puskesmas X dalam satu bulan?”
“Berapa lama waktu kerja perawat di RS X selama seminggu?”
Hal2 yg perlu diperhatikan dalam statistik deskriptif antara lain nilai yg paling mewakili, distribusi data,
variasi/sebaran data, penyajian data, perbandingan data, dan interpretasi data yang informatif.
Analisis Inferensial
- To infer untuk mengambil kesimpulan
- To explore relation untuk mencari/menganalisis hubungan antar variabel
- To compare untuk membandingkan
- To explore causality untuk mencari/menganalisis hub sebab-akibat antar variabel
Jadi, analisis inferensial diperlukan ketika kita memerlukan keempat hal tsb di atas.
Contoh pertanyaan yg dpt dijawab dgn analisis inferensial
”Apakah perilaku merokok dapat meningkatkan risiko penyakit jantung koroner?”
“Apakah ada peningkatan pengetahuan ibu tentang ASI dari sebelum dan sesudah diberikan
penyuluhan?”
Poin2 penting dalam statistik inferensial antara lain dapat menggambarkan keadaan dari populasi
secara keseluruhan meskipun hanya berdasarkan data dari sampel, data sampel yang digunakan utk
generalisasi harus representatif, cara atau metode yg digunakan adalah estimasi dan uji hipotesis,
konsep peluang/probabilitas merupakan konsep dasar dari statistik inferensial.
Peranan Statistik dalam Kesehatan Masyarakat
 Menentukan derajat kesmas  Surveilans
 Menentukan determinan faktor  Perencanaan/evaluasi program kesehatan
 Identifikasi faktor risiko
B. Pengenalan Populasi, Sampel, Data, dan Variabel
Pengertian Populasi
Populasi adalah kumpulan individu atau obyek lain yg memiliki setidaknya satu karakteristik yg sama
dan pada suatu waktu menjadi kelompok yang diminati oleh peneliti. Populasi dapat dibagi menjadi 2
yaitu populasi target dan populasi terjangkau.
 Populasi Target
Merupakan populasi yang memenuhi kriteria yang diinginkan peneliti. Nantinya peneliti berharap
hasil penelitiannya dapat digeneralisasikan pada populasi target.
 Populasi Terjangkau
Merupakan sebagian dari populasi target yang dapat dijangkau oleh peneliti. Umumnya dibatasi oleh
wilayah administrasi seperti kabupaten/kota, kecamatan, desa atau institusi seperti rumah sakit,
puskesmas, dan klinik. Beberapa populasi terjangkau nantinya akan diambil untuk dijadikan sampel
dalam penelitian
Pengertian Sampel dan Istilah Lain yang Terkait
Sampel merupakan bagian dari populasi terjangkau yang dipilih oleh peneliti untuk diikutsertakan
dalam penelitian. Sampel juga sering disebut subyek penelitian, responden, atau peserta.
 Sampling
Proses pemilihan sampel untuk diikutsertakan dalam penelitian
 Sampling Frame
Daftar dari semua individu dalam populasi dimana sampel itu diambil
 Random/Acak
Masing-masing individu pada populasi memiliki kesempatan/peluang yang sama untuk terpilih
menjadi sampel dalam penelitian
 Representatif
Sampel dapat mewakili keseluruhan individu dalam populasi
 Parameter
Nilai angka atau hasil pengukuran/perhitungan dari suatu populasi. Ingat P untuk parameter dan
populasi
 Statistik
Nilai angka atau hasil pengukuran/perhitungan dari suatu sampel. Ingat S untuk statistik dan sampel
Hubungan Populasi Target, Populasi Terjangkau, dan Sampel
Contoh: peneliti ingin mengetahui lama waktu sembuh pasien katarak pasca-operasi
Populasi Target : Semua pasien katarak
Populasi Terjangkau : Semua pasien katarak yang dirawat di RSUP Sanglah Bulan Juli – Desember 2018
Sampel : Pasien katarak yang dipilih dari pop terjangkau. Misal dari 200 pasien hanya diambil 80 sampel
Representativitas Sampel
Representativitas sampel bergantung dari
 Teknik sampling
 Jumlah sampel yg tetap bertahan/merespon dalam penelitian (lost to follow up/response rate)
 Makin besar sampel, maka sampel tersebut semakin representatif meskipun tidak selalu
Langkah-langkah paling efektif untuk menjaga representativitas sampel antara lain
 Randomization
 Random selection
 Random assignment
Intinya sampel dipilih secara random utk menjaga sampel tetap representatif.
Teknik Sampling
Random Sampling Non-random Sampling
Setiap orang dalam populasi memiliki peluang Setiap individu dalam populasi tidak memiliki
yang sama untuk terpilih menjadi sampel dalam peluang yg sama utk jadi sampel dalam
penelitian. Random sampling dapat penelitian. Tidak ada kerangka sampel.
meningkatkan representativitas sampel pada Mengurangi representativitas sampel
populasi
1. Simple Random Sampling Purposive Sampling
2. Stratified R.S. Convenient S.
3. Systematic R.S. Consecutive S.
4. Multistage R.S. Quota S.
5. Cluster S. Snowballing
6. PPS etc
Besar Sampel
Besar sampel sangat bergantung dari desain penelitian, variasi dalam populasi, teknik sampling,
response level, tingkat kepercayaan (confidence level).
Kriteria Sampel
Inklusi : mewakili atau menggambarkan populasi target
Eksklusi : kontraindikasi, kontrol variabel perancu, menjamin kualitas data
Pengertian Data
Bahan dasar (raw material) dari data adalah angka. Angka tersebut dapat diperoleh dari hasil
pengukuran atau perhitungan. Berdasarkan sumbernya, data dapat dibagi menjadi 2 yaitu data primer
dan data sekunder.
Data Primer
Merupakan data yang dikumpulkan langsung oleh peneliti dari sumber pertama atau di lokasi
penelitian. Data primer dikumpulkan melalui wawancara, survei, observasi.
Data Sekunder
Merupakan data yang dikumpulkan oleh pihak lain atau dari sumber yang sudah ada. Contohnya rekam
medis, data register pasien di RS.
Pengertian Variabel
Variabel adalah seluruh karakteristik dari individu yang diukur, diobservasi atau dicatat. Contoh variabel
yaitu umur, tinggi badan, dan berat badan.
Perbandingan Variabel, Data, dan Statistik
Jenis-jenis Variabel
*skala interval = tidak punya 0 absolut shg nilainya bs dibawah nol seperti suhu
skala rasio = punya nilai 0 absolut shg nilainya tidak bs dibawah nol contoh BB dan TB
Statistik Deskriptif
Nominal : Frekuensi, distribusi, dan proporsi
Ordinal : Sama spt nominal namun ditambah median
Interval & Ratio : Ditambah lagi dengan Mean dan SD
Jenis Data Menurut Hubungan
================================= End of Chapter 2 ===================================
C. Analisis Deskriptif dan Penyajian Data Numerikal

Analisis Statistik Deskriptif Data Numerik
Beberapa jenis statistik deskriptif yang digunakan untuk menganalisis data numerikal adalah sebagai
berikut.
Mean (rerata) dipakai meringkas data numerikal berdistribusi normal
Median dipakai meringkas data yang tidak berdistribusi normal
Standar Deviasi/SD (simpang baku) dipakai meringkas sebaran data yang berdistribusi normal
IQR (inter quartile range) dipakai menggambarkan sebaran data tidak normal
Penyajian Data Numerikal
Statistik
Tendensi sentral, sebaran, percentile, decile, quartil
Tabel
Distribusi Frekuensi tunggal
Distribusi Frekuensi berkelompok
Grafik
Histogram, Boxplot, Scatter plot, stem and leaf plot
Penjelasan Lanjutan Statistik Deskriptif
1. Tendensi Sentral
Mean (Rerata/Average)
Ciri-ciri dari mean yaitu, unik dan hanya ada satu dalam data, mudah dimengerti, sangat dipengaruhi
oleh nilai ekstrim. Mean digunakan dalam analisis deskriptif data numerik yang berdistribusi normal
Median (Nilai Tengah)
Rumus: Median = data ke (n+1)/2 ; n adalah jumlah data
Cth: Diketahui n = 15, maka median dari data tersebut terletak pada data ke (15+1)/2 = data ke 8
Diketahui n = 10, maka median dari data tersebut terletak pada data ke (10+1)/2 = data ke 5,5
Ciri median yaitu unik, mudah dimengerti dan dihitung, tidak terlalu dipengaruhi oleh nilai ekstrim.
Median digunakan untuk analisis deskriptif data numerik yang tidak berdistribusi normal
Modus (Nilai yang Paling Sering Muncul)
Modus menggambarkan data kualitatif, misalnya pasien pada klinik kesehatan jiwa dalam satu tahun
datang dengan bermacam2 diagnosis, ada yang mental retardation, organis brain syndrome,
neurosis dan personality disorder. Diagnosis yang paling sering ditemukan padasemua pasien yg
datang dalam 1 tahun tersebut disebut modus.
2. Distribusi Data
Distribusi data adalah…. Fungsinya adalah….
Indikator Distribusi Data
Data berdistribusi normal jika mean, median, dan modus berhimpit atau nilainya sama. Selain itu,
data yg berdistribusi normal juga dapat ditunjukkan oleh bentuk kurva yang simetris seperti contoh
di bawah
Sebaliknya, data tidak berdistribusi normal jika mean, median, dan modus tidak berhimpit atau
nilainya tidak sama. Selain itu, data yg tidak berdistribusi normal juga dapat ditunjukkan oleh bentuk
kurva yang tidak simetris (skewed) seperti contoh di bawah
Distribusi data menceng ke kanan jika mean lebih besar dari median. Arah menceng/skew bisa dilihat
dari ekor kurva tersebut (positive skewed)
Distribusi data menceng ke kiri jika mean lebih kecil dari median. Arah menceng/skew bisa dilihat
dari ekor kurva tersebut (negative skewed)
Skewness
Menunjukkan apakah distribusi datanya simetris atau tidak simetris.
Simetris -> distribusi normal (right half and left half of the graph are a mirror images of each other)
Tidak simetris
Data menceng kanan/mengekor di kanan (positive skewed)
Data menceng kiri/mengekor di kiri (negative skewed)
Nilai skewness data yang berdistribusi normal adalah 0
Kurtosis
Gampangnya, kurtosis adalah tingkat keruncingan dari suatu kurva distribusi yg biasanya diukur
relatif terhadap kurva distribusi normal (berbentuk bell). Data yg berdistribusi normal biasanya
memiliki nilai kurtosis 3
3. Ukuran Sebaran/Variabilitas
Kenapa perlu sebaran? Memahami variasi data dan karakteristik data (menyebar dgn lebar atau
cenderung menyempit). Variasi nilai satu ke lainnya atau ke titik pusatnya.
Range
Range= nilai terbesar-terkecil
Standar Deviasi/SD
Mengukur variasi/ sebaran nilai setiap observasi terhadap mean. Contoh SD 5 mean 3 artinya data
terdistribusi pada mean +/- 5 yaitu atara 3 sampai 8 atau -2 sampai 3.
RUMUS STANDAR DEVIASI
atau
Variance = SD2
Koefisien Variasi/Coefficient Variation (CV)
Untuk membandingkan variabilitas data dengan 2 unit pengukuran yang berbeda. Contohnya untuk
membandingkan data dengan alat ukur yang berbeda (misal bb siswa SD vs bb siswa SMA). Standar
Deviasi akan lebih besar pada BB anak SMA daripada SD karena BB nya yg lebih besar, bukan karena
sebarannya yg lebih besar/ beragam/bervariasi. Oleh karena itu nilai Standar Deviasi keduanya tidak
bisa dibandingkan secara langsung, perbandingan dapat dilakukan dengan mencari koefisien
variasi/CV terlebih dahulu. Contoh lain dari penerapan CV adalah sebagai berikut
Dari data tersebut kita bisa melihat bahwa range dan standar deviasi dari variabel tinggi lebih besar
daripada variabel berat. Namun, apakah kita bisa langsung menarik kesimpulan jika data dari
variabel tinggi lebih bervariasi daripada variabel berat?. Jawabannya tidak karena tinggi dan berat
badan memiliki unit pengukuran yang berbeda. Maka dari itu diperlukan koefisien variasi / CV agar
kedua variabel tersebut bisa dibandingkan variabilitasnya. Dari hasil penghitungan CV maka dapat
disimpulkan jika data berat badan lebih bervariasi dibandingkan data tinggi badan.
Quartile dan Inter Quartile Range
Quartil terdiri dari quartil 1, quartil 2, dan quartil 3. Quartil 1 menyatakan nilai sampel yang ke 25%
atau sama dengan nilai persetil 25, quartil 2 menyatakan nilai sampel yang ke 50% atau sama dengan
persentil 50 (median), dan quatil 3 menyatakan nilai sampel yang ke 75% atau sama dengan nilai
persentil 75. Inter Quartil adalah lebar rentang data antara quartil 1 (Q1) sampai dengan quartil 3
(Q3) atau = Q3 – Q1.
Rumus Quartile dan Inter Quartile Range (IQR)
Q1 = (n+1)/4
Q2 = 2(n+1)/4 (sama spt median)
Q3 = 3(n+1)/4
IQR = Q3 – Q1
Quartile 1 (nilai orang ke 25%) = (3+5)/2 = 4
Quartile 2 (nilai orang ke 50%) = (12+15)/2 = 13,5
Quartile 3 (nilai orang ke 75%) = (20+22)/2 = 21
IQR = Q3 – Q1 = 17
Penyajian Data dengan Tabel
1. Tabel Distribusi Frekuensi Tunggal
Range data sempit
Penting menampilkan individual value
Sampel kecil
Contoh
2. Tabel Distribusi Frekuensi Berkelompok

Range lebar
Bisa dikelompokkan atau sesuai dgn tujuan
Cara membuat:
- Urutkan data dari terkecil -> terbesar
- Tentukan range dari data (data terbesar- data terkecil)
- Tentukan jumlah kelas
- Tentukan intervalnya
- Contoh Tabel
Tabel Distribusi Konsumsi Protein Keluarga
Frek. Kumulatif Frek. Relatif Kumulatif

Konsumsi Protein (Xi) Frekuensi (Fi)
(f.cum) (% cum)
15-24 30 30 7,5
25-34 40 70 17,5
35-44 100 170 42,5
45-54 110 280 70,0
55-64 80 360 90,0
65-74 30 390 97,5
75-84 10 400 100
Jumlah 400
Penyajian Data dengan Grafik

1. Histogram
Adalah tipe spesial dari bar graph (namun tidak ada jarak antar balok) yang menampilkan distribusi
frekuensi. Mampu membantu untuk melihat/memvisualisasikan distribusi data.
2. Scatter Plot
3. Poligon
Merupakan tipe lain dari grafik garis. Sebuah titik diletakan di atas nilai tengah interval, tinggi titik
menunjukkan frekuensi dari kelas interval tersebut.
4. Stem and Leaf
Untuk menyajikan range dari data, menunjukkan sifat data (apa yg sebenarnya ada dalam suatu
data), informasi/data dari setiap individu yang ada pada data. Ini tidak begitu popular digunakan
untuk informasi publik atau laporan dan bila sampel besar. Efektif digunakan pada data dengan
sampel yang kecil dan tujuan utamanya adalah untuk memudahkan pengambil keputusan atau
peneliti untuk memahami sifat, sebaran data.
5. Box Plot (Box and Whisker Plot)
Jika data simetris (berasal dari distribusi normal): garis median akan berada di tengah box dan
whisker bagian atas dan bawah akan memiliki panjang yang sama serta tidak terdapat nilai outlier
ataupun nilai ekstrim. Diharapkan nilai-nilai pengamatan yang berada di luar whiskers tidak lebih
dari 1%.
Jika data tidak simetris (miring), median tidak akan berada di tengah box dan salah satu dari whisker
lebih panjang dari yang lainnya. Adanya outlier di bagian atas boxplot yang disertai dengan whisker
bagian atas yang lebih panjang, menunjukkan bahwa distribusi data cenderung menjulur ke arah
kanan (positive skewness). Sebaliknya, adanya outlier di bagian bawah boxplot yang disertai dengan
whisker bagian bawah yang lebih panjang, menunjukkan bahwa distribusi data cenderung menjulur
ke arah kiri (negatif skewness).
Box-Plot Perbandingan 2 Kelompok
Efektif digunakan bila akan membandingkan antara 2 kelompok. Dapat membantu peneliti untuk
menilai data dan melihat apakah terdapat trend, hubungan, identifikasi nilai observasi yang unik dari
sebuah set data untuk memfasilitasi dan mengeksplor lebih jauh analysis deskriptif dan ringkasan
statistiknya.
6. Outlier dan Nilai Ekstrim
Outlier
Observasi dimana nilai x terlalu kecil atau terlalu besar, yang melebihi nilai pada Q3 (lebih dari
1.5(IQR)) atau yang kurang dari nilai pada Q1 (lebih dari 1.5 (IQR)).
Yaitu…..
Outlier atas jika nilai x > Q3 + 1.5(IQR) atau
Outlier bawah jika nilai x < Q1 -1.5(IQR)
Nilai Ekstrim
Nilai ekstrim adalah nilai-nilai yang letaknya lebih dari 3 x panjang kotak (IQR), diukur dari UQ (atas
kotak) atau LQ (bawah kotak).
Ekstrim bagian atas apabila nilai x > Q3 + (3 x IQR) dan
Ekstrim bagian bawah apabila nilai x < Q1 – (3 x IQR)
Related STATA Command
Ringkasan statistik
sum varlist, detail
Tab var
Tabstat varlist, option
Pengelompokan variabel :
Recode var (rule) (rule), gen(newvar)
Kemudian tab var
Grafik
histogram variable_name,
histogram variable_name, normal by (variable_name)
Praktik Command STATA pada CHD Data
Ringkasan statistik dapat diperoleh dari berbagai command berikut :
sum sbp, detail
by sex, sort: sum sbp, detail
tabstat sbp, by (sex) stat (mean p50 sd iqr skew kurtosis)
tab sex, missing
tab sex tox -> untuk tabulasi silang
Grafik
histogram sbp
histogram sbp, bin(10) normal by(sex)
graph box sbp
graph box sbp, by(sex)
================================= End of Chapter 3 ===================================
D. Analisis Deskriptif dan Penyajian Data Kategorikal

Cara Menyajikan Data Kategorikal
Tabel
- Tabel tunggal
- Tabel silang (cross table)
Grafik
- Grafik batang (bar)
- Grafik pie
Statistik
- Persentase
- Rasio
Contoh Penyajian Data
1. One Categorical Variable
Variable: Tingkat Pendidikan Bumil
Table : Single Frequency Distribution
Graph : Bar or Pie
Statistics : Percentage
Tingkat Pendidikan 16 Sampel Bumil
1. SD 9. SMP
2. SD 10.Tdk Sekolah
3. SMA 11. PT
4. SMP 12. Tdk sekolah
5. SD 13. SD
6. SMP 14. SMP
7. SMP 15. SMA
8. SMA 16. SMA
Tabel Distribusi Frekuensi Tingkat Pendidikan Bumil
Tingkat Pendidikan Frekuensi Persentase
Tidak Sekolah 2 12,5%
SD 4 25%
SMP 5 31,25%
SMA 4 25%
Perguruan Tinggi 1 6,25%
Total 16 100%
Grafik Distribusi Frekuensi Tingkat Pendidikan Bumil (Pie dan Bar)
Variable: Anemia
Table : Single Frequency Distribution
Graph : Bar or Pie
Statistics : Percentage
Anemia Data
(1= anemia; 2=non anemia)
1 1 2 1 2 1 2 1 2 2 1 2 2 2 1 1 2 2 2 1 1 2 2 2 1 2
2 1 2 2 2 2 1 2 2 1 2 2 1 2 1 1 2 2 2 1 1 2 2 2 2 2
1 1 2 2 2 1 2 1 1 1 2 1 2 1 2 1 2 2 1 2 2 2 1 1 2 2
2 1 1 2 2 2 1 2 2 1 2 2 2 2 1 2 2 1 2 2 1 2 1 1 2 2
2 1 1 2 2 2 2 2 1 1 2 2 2 1 2 1 1 1 2 1 2 1 2 1 2 2
1 2 2 2 1 1 2 2 2 1 1 2 2 2 1 2 2 1 2 2 2 2 1 2 2
1 2 2 1 2 1 1 2 2 2 1 1 2 2 2 2 2 1 1 2 2 2 1 2 1
Tabel Distribusi Frekuensi Anemia
Anemia Frekuensi Persentase
Anemia 59 25,5%
Non-anemia 172 74,5%
Total 231 100%
Grafik
2. Two Categorical Variable (Jika Hanya Menanyakan Prevalensi)

Variable: Anemia dan District
Table : Cross Tabulation (karena dua variabel)
Graph : Bar (clustered or stacked bar)
Statistics : Percent (specific prevalence), ratio
Districts Anemia Non-Anemia Total

Gianyar : count 33 102 135
% row 24,4% 75,6% 100%
Karangasem: count 26 70 96
% row 27,1% 72,9% 100%
Total : count 59 172 231
% row 25,5% 74,5% 100%
Grafik (Kiri Clustered Bar; Kanan Stacked Bar)
2. Two Categorical Variable (Jika Menanyakan Hubungan Antara Var Dependen dan Independen)
Variable: Smoking (independent) and CHD (dependent)
Table : Cross Tabulation (karena dua variabel)
Graph : -
Statistics : Percent (specific prevalence), RR (prospektif) atau OR (retrospektif)
~ Dibahas lebih lanjut di bagian lain nanti
================================= End of Chapter 4 ===================================
E. Manajemen Data dengan Aplikasi STATA

Encoding
Merubah data string menjadi numerik, urutan numerik sesuai alphabetical order. Misal Female (1),
male (2)
encode varname, generate (varnamenew)
describe
list varname varnamenew
list varname varnamenew, nolabel -> lihat apa yg terjadi
labelbook varnamenew -> urutan numerik sesuai abjad
Silakan coba pada data lowbirthweight. Masukkan namevar dengan (sex) dan generate dengan nama
variabel yg diinginkan, misal sex2. Lakukan dengan langkah tersebut di atas. Walaupun di encoding,
data ini tetap bersifat kategorikal, hanya pada stata digunakan dengan angka untuk menyatakan
kategori.
Sorting and Listing
Mengurut data dari nilai terendah ke tertinggi
sort namevar -> sort birth_rate
(artinya data diurut berdasarkan nilai birth_rate terendah ke tertinggi)
Listing (daftar)
Dapat digunakan untuk melihat data yg missing
list namevar -> list birth_rate
By
Analisis stratifikasi
Misal ingin mendapatkan mean berdasarkan jenis kelamin. Jenis kelamin harus diurutkan terlebih
dahulu
bysort sex : sum sbp
Tak terbatas pada variabel sex saja, silakan lakukan pada variabel lain, sesuai tujuan penelitian.
Qualifier with IF…..
Beberapa command :
list sbp if sex ==1
(hanya akan menampikan daftar data sbp pada sex = 1 yaitu female)
sum sbp if sex ==2 (menampilkan statistik sbp pada sex = 2 yaitu male)
Tanda :
== adalah sama dengan
!= adalah tidak sama dengan
< adalah kurang dari ; > adalah lebih dari
<= kurang dari sama dengan ; >= lebih dari sama dengan
/ adalah sampai misal 1/10 artinya nilai ke 1 sampai ke 10
Replace/Recode
Misal mengganti data sbp 19 menjadi 20
replace sbp = 20 if sbp ==19
Mengganti code sex, 1 menjadi male dan 2 menjadi female
recode sex 1 = 2 2 = 1
Kalau takut kehilangan data original maka
recode sex 1 = 2 2 = 1, gen (newsex)
ORGANIZING DATA (additional)
Menampilkan hasil analisis tanpa label
tab sex
tab sex, nolabel
disingkat
tab sex, nolab
Lihat apa bedanya!
Menghapus data/variabel
drop namevar
Generate
Misal data lowbirthweight
gen apgar5new = apgar -> Variabel baru berisi data sesuai apgar
(Variabel apgar5 bisa diubah tanpa menghilangkan data apgar original).
gen klp_sbp = 1 if sbp >= 19 & sbp <= 26
recode klp_sbp = 2 if sbp >= 27 & sbp <= 47
recode klp_sbp = 3 if sbp >= 48 & sbp <= 53
recode klp_sbp = 4 if sbp >=54
tab klp_sbp sbp (lihat apa yg terjadi, dan apa ada missing?)
Atau :
recode sbp (20/40 = 1) (41/47 = 2) (48/52.5 = 3) (52./max = 4), gen(klp_sbp1)
tab klp_sbp1 (lihat apa yg terjadi)
Misal data worldbank
gen populasi = pop_male + pop_female -> dari data worldbank
Labelling
Membuat label pada variabel sex = jenis kelamin
Label var sex “jenis kelamin”
Teknik membuat label pada kategori sebuah variabel
Membuat label
label define sexlab 1 “male” 2 “female”
Melampirkan (attach lable) label pada variabel
label value sex sexlab
Analisis Deskriptif data Kuantitatif
Statistik
summarize sbp, detail
bysort sex: sum (sbp) atau tab sex, sum (sbp)
Tabel frequency
tab sex
Graph (harus bisa berdiri sendiri -> ada judul, legend, nilai)
histogram sbp
Histogram sbp, normal -> menampilkan curve normal
graph box sbp
More graphs -> help graph atau pilih menu graph
Analisis Deskriptif Data Kualitatif
Statistik frequency dengan tabel tunggal
tab sex
Statistik frequency dengan tabel silang
Tab sex tox, row -> row percentage
Tab sex tox, column -> column percentage
Tab sex tox, row col chi -> row, column % dan chisquare
Grafik batang dan lingkaran -> pilih menu graph
================================= End of Chapter 5 ===================================
F. Teori Probabilitas, Risk, dan Odds
Pengertian Probabilitas/Peluang
Probabilitas adalah peluang terjadinya suatu peristiwa. Konsep dalam probabilitas sering dipakai dalam
dunia kesehatan. Misalnya, “D” adalah kode yang diberikan bagi penderita Diabetes Mellitus (kode bisa
apa saja, pemilihan huruf D hanya untuk mempermudah). Dalam suatu sampel, kita ingin mengetahui
peluang terjadinya Diabetes Mellitus pada laki-laki yang berusia di atas 40 tahun. Pada konsep
probabilitas, kita dapat mengubah kata-kata “peluang terjadinya Diabetes Mellitus pada Laki-laki yang
berusia di atas 40 tahun” dalam notasi P(D). Dalam suatu penelitian kita menetapkan sampel laki-laki
yang berusia di atas 40 tahun sebanyak n. Dari sampel tersebut ada sebanyak x laki-laki yang menderita
x
penyakit DM. Jadi, probabilitas terjadinya DM pada laki-laki yang berusia 40 tahun adalah P(D) =
n
1. Mutually Exclusive Events
Bila A dan B adalah dua peristiwa, maka A dan B dinyatakan sebagai dua peristiwa yang mutually
exclusive bila A dan B tidak pernah terjadi secara bersamaan. Misalnya peristiwa munculnya salah
satu muka dari mata uang atau munculnya salah satu muka dari dadu atau munculnya outcome
suatu penelitian yakni kemungkinan outcomenya adalah mati atau hidup.
Bila E1, E2, E3, ...Ei adalah kemungkinan outcome dari satu percobaan dan E1, E2, E3, ..Ei adalah
mutually exclusive events, maka:
1. Probabilitas munculnya salah satu outcome P(Ei) ≥ 0
2. Jumlah probabilitas munculnya setiap outcome akan sama dengan 1 -> P(E1) + P(E2) + P(E3) + ....+
P(Ei) = 1
3. Probabilitas munculnya outcome E1 atau E2 sama dengan jumlah dari probabilitas masing-masing
outcome -> P(E1 atau E2) = P(E1) + P(E2)
2. Complementary Events
Kemungkinan outcome suatu percobaan disebut komplementer bila jumlah probabilitas dari setiap
outcome = 1. Misalnya outcome suatu percobaan adalah sembuh (E1) atau tidak sembuh (E2). E1
dan E2 disebut dua kejadian yang komplementer, maka probablitas munculnya kejadian E1 +
probabilitas munculnya kejadian E2 sama dengan 1.
P(E1) + P(E2) = 1.
Kejadian yang mutually exclusive juga merupakan kejadian yang komplementer
3. Additional Rule
Probabilitas munculnya “A” atau “B” dimana A dan B adalah peristiwa yang mutually exclusive sama
dengan penjumlahan dari Probabilitas A ditambah Probabilitas B.
P (A or B) = P (A) + P (B)
Probabilitas munculnya salah satu kejadian A atau B jika tidak mutually exclusive
P(A or B or Both)=P(A)+P(B)-Prob(both)
4. Conditional Probability
Pada kenyataan sehari-hari kita dihadapkan kepada keinginan untuk mengetahui probabilitas
sampel dengan kondisi tertentu, misalnya ingin mengetahui probabilitas orang yang minum es
mambo menjadi penderita diare. Probabilitas ini lazim dikenal dengan conditional probability. Bila
kejadian minum es mambo diberi simbol B dan kejadian diare diberi simbol A, maka probabilitas
kondisionalnya diberi simbol P(B|A) yang besarnya dapat dihitung sebagai berikut:
P (B|A) = P (A dan B)/P (A)
Keterangan:
P (B|A) = Prob. kejadian B pada kondisi A
P (A dan B) = Prob. kejadian A dan B bersamaan
P (A) = Prob. kejadian A
Contoh:
Untuk mempelajari sumber penularan suatu wabah diare di Kota Denpasar tahun 1980 dilakukan
studi penelusuran makanan (food hystorical study) dengan rancangan Case-Control. Data yang
didapat adalah sebagai berikut:
Dari data ini dapat dihitung:

P (A) = 30/60
P (A dan B) = 25/60
P (B|A) = P (A dan B) / P (A)
= (25/60) / (30/60)
= 25/30
= 0,83
5. Multiplication Rule
A dan B adalah dua kejadian yang saling berkaitan (dependence events). Besarnya kemungkinan
kedua peristiwa A dan B terjadi secara bersamaan yang disimbulkan dengan P(A dan B) adalah sama
dengan kemungkinan terjadinya B pada kondisi dimana A terjadi, yaitu: P(B|A) dikalikan dengan
kemungkinan kejadian A, yaitu: P( A). Dengan contoh di atas, kemungkinan terjadinya A dan B secara
bersamaan dapat dihitung sebagai berikut.
P (A dan B) = P (B|A) P (A)
= 25/30 x 30/60
= 25/60
Bila peristiwa B tidak berkaitan dengan peristiwa A, maka peristiwa A dan B saling tidak tergantung
atau “independence events”, maka P (B|A) = P (B) atau sebaliknya P (A|B) = P (A). Maka oleh karena
itu, probabilitas terjadinya peristiwa A dan B bersamaan dapat dihitung sebagai berikut:
P (A dan B) = P (B) P (A)
Contoh:
Kalau kejadian diare (A) tidak berkaitan dengan minum es mambo (B), berapa kemungkinan seorang
sampel yang dipilih secara random mimum es mambo (B) dan juga menderita diare (A). Dari data
pada Tabel 3.3, didapatkan probabilitas menderita diare (kasus) atau P(A) = 30/60 dan probabilitas
minum esmambo (B) atau P(B) = 32/60, maka probabilitas sampel minum es mambo dan juga diare
adalah sbb:
P (A dan B) = P(A) P(B)
= 30/60 x 32/60
= 0,267
================================= End of Chapter 6 ===================================
G. Distribusi Data dan Pemanfaatannya

Distribusi Binomial
Distribusi binomial adalah satu distribusi probabilitas munculnya x sukses dari suatu peristiwa yang
hanya memiliki dua kategori (binomial) dari n sampel (kecil). Bila suatu trial menghasilkan luaran (out-
come) dengan dua kemungkinan yang mutually excusive (binomial), seperti misalnya jenis kelamin bayi
yang lahir, dimana jenis kelamin hanya terdapat dua kemungkinan yaitu laki atau perempuan, maka
trial tersebut dinamai Bernoulli Trial.Dalam Bernoulli trial, probabilitas munculnya out-come yang
diharapkan misalnya probabilitas bayi lahir laki-laki disebut p dan probabilitas bayi lahir perempuan
disebut q,
maka q = 1 – p.
Sebagai contoh, misalnya dalam sebuah penelitian dengan jumlah sampel n = 5 akan dipelajari berapa
probabilitas x (x = 0, 1,2 ...5) bayi laki lahir dari 5 sampel tersebut. Dari data sensus penduduk diketahui
bahwa probabilitas bayi laki lahir p = 0,51 dan probabilitas bayi perempuan lahir q = 0,49. Penentuan
probabilitas lahirnya x bayi dengan jenis kelamin laki dari n sampel ditentukan dengan rumus sbb:
f(x) = nCx px q(n-x)
Keterangan:
f(x) = probabilitas xi bayi laki lahir dari n sampel, dimana x = 0, 1, 2 ...n
p = probabilitas bayi laki lahir
q = probabilitas bayi perempua lahir, dimana q = 1 – p
n = jumlah sampel
x = jumlah outcome yang diharapkan terjadi
nCx = koefisien Bernoulli
Koefisien Bernoulli menyatakan jumlah kombinasi yang dapat dibuat dari n objek dengan x jumlah objek
dengan outcome yang diharapkan. Misalnya outcome yang diharapkan adalah bayi laki dan x = jumlah
bayi laki yang lahir serta n adalah jumlah sampel. Berapa kombinasi yang dapat dibuat dari sampel n =
5 dan dari sampel tersebut terdapat bayi laki x = 3. Koefisien Bernoulli untuk x sukses dari n sampel
dihitung dengan formula sbb:
Dari contoh di atas diketahui probabilitas bayi laki lahir p = 0,51 dan bayi peremuan q = 0,49, maka
probabilitas jumlah bayi laki lahir sebanyak 0, 1, 2, 3, 4, dan 5 dari jumlah sampel n = 5 dapat dihitung
sebagai berikut.
Contoh aplikasi distribusi Binomial

1. Dari data survei nasional diketahui bahwa 30% anak memiliki kekebalan terhadap Influensa. Bila
dilakukan survei terhadap 10 anak SD di Denpasar yang dipilih secara random, berapa probabilitas 4
dari 10 anak memiliki kekebalan terhadap influensa?
Penghitungan probabilitas adalah sbb:
F(4) = 10C4 P4Q6
= 10!/(4!6!) x 0,34 x 0,76 = 0,2001
Hasil analisis menunjukan bahwa sekitar 20,01% kemungkinan dari 10 sampel dengan 4 orang
memiliki kekebalan terhadap influensa.
2. Dari data populasi diketahui bahwa sekitar 10% penduduk mengalami kebutaan. Bila sebanyak 25
orang sampel penduduk dipilih secara random, berapa kemungkinan dari mereka 5 atau kurang dari
5 menderita kebutaan atau P(x≤5).
Untuk menghitung P(x≤5) dapat digunakan additional rule yaitu P(x≤5) = P(x=0) + P(x=1) + P(x=2) +
P(x=3) + P(x=4) + P(x=5), sbb:
P(x=0) = 25C0 x P0 x Q25 = 25!/(0!25!) x (0,1)0 x (0,9)25 = 0.07179
P(x=1) = 25C1 x P1 x Q24 = 25!/(1!24!) x (0,1)1 x (0,9)24 = 0.19941
P(x=2) = 25C2 x P2 x Q23 = 25!/(2!23!) x (0,1)2 x (0,9)23 = 0.26588
P(x=3) = 25C3 x P3 x Q22 = 25!/(3!22!) x (0,1)3 x (0,9)22 = 0.22649
P(x=4) = 25C4 x P4 x Q21 = 25!/(4!21!) x (0,1)4 x (0,9)21 = 0.13841
P(x=5) = 25C5 x P5 x Q20 = 25!/(5!20!) x (0,1)5 x (0,9)20 = 0.06459
Total = 0.9666
Distribusi Poisson
Distribusi Poisson adalah distribusi probabilitas waktu atau tempat dengan x kejadian tertentu, dimana
x adalah variabel diskret (misalnya jumlah kasus bunuh diri dalam sebulan). Misalnya ingin diketahui
berapa probabilitas bila dipilih bulan secara random dengan jumlah kasus buhuh diri sebanyak 3. Pada
contoh ini, bulan merupakan kesatuan waktu yang diteliti. Contoh lain, berapa kemungkinan satu
lapang pandang yang dipilih secara acak ditemukan 10 koloni bakteri. Pada contoh ke dua ini, lapangan
pandang sebagai satuan tempat yang diteliti.
Apabila x adalah jumlah kasus yang terjadi dalam interval waktu tertentu misalnya jumlah kasus bunuh
diri dalam satu bulan dan probabilitas waktu dengan x kejadian ditentukan dengan rumus berikut.
Contoh Aplikasi Distribusi Poisson

Sebagai contoh, dalam penelitian bunuh diri diasumsikan bahwa jumlah kasus bunuh diri perbulan
mengikuti distribusi Poisson dengan rerata jumlah kasus perbulan λ = 2,75. Berapa probabilitas bulan
yang dipilih scara random dengan jumlah kasus bunuh diri sebanyak x = 3 orang. Penghitungan
probabilitasnya dilakukan sebagai berikut:
Jadi probabilitas bulan yang dipilih secara random dimana pada bulan tersebut terdapat 3 kasus bunuh
diri adalah 0,2216 atau 22,16%.
Distribusi Normal
Karakteristik penting dari distribusi normal adalah:
1. Bentuknya seperti bell simetris
2. Nilai Mean, Median, dan Modusnya sama
3. Total area di bawah curve distribusi normal dan di atas sumbu X = 100% dan 50% dari area di bawah
curve distribusi normal berada di bawah mean dan 50% lainnya di atas mean.
4. Luas area di bawah curve distribusi normal yang terletak ± 1 SD dari Mean = 68% dari luas curve
keseluruhan; ± 1,96 SD dari Mean = 95% dari luas curve keseluruhan, dan ± 3 SD dari Mean = 99,7%
dari luas curve keseluruhan.
Tinggi dan lebar kaki dari distribusi normal ditentukan oleh mean dan SD. Nilai rerata akan menentukan
letak cuve distribusi normal pada sumbu X, sedangkan nilai SD akan menentukan lebar kaki dan tinggi
puncak curve, dimana makin tinggi SD makin lebar kaki dan makin rendah puncak curve, sebagai contoh
di bawah ini.
Pada uraian sebelumnya telah diuraikan bahwa dilihat dari karakteristik distribusi normal, sebenarnya
terdapat satu keluarga distribusi normal yang dibedakan oleh nilai rerata dan nilai SD dari datanya.
Salah satu dari anggota distribusi normal yang penting adalah distribsi normal standar (standard normal
distribution) adalah distribusi normal dari data standar (standardized data) dan bukan dari raw data.
Data standar juga disebut Z skor dari data. Nilai standar (Zskor) mempunyai nilai rerata nol dan SD = 1.
Nilai standar (Zskor) dari satu data dihitung berdasarkan rumus
Z = (X – Mean)/SD
Tabel Distribusi Normal atau juga disebut Normal Curve Area atau Tabel Z adalah tabel yang berisikan
luas area di bawah curve normal untuk nilai Z tertentu. Pada kolom pertama dari Tabel berisikan nilai Z
dengan gigit pertama di belakang koma, sedangkan pada baris pertama terdapat digit ke dua di
belakang koma dari nilai Z. Sel pada baris ke dua dan seterusnya berisikan luas area di bawah curve
normal sampai nilai Z tertentu. Berikut adalah potongan dari Tabel Z.
Cara menggunakan Tabel Z.
Misalnya akan ditentukan berapa luas area di bawah kurve normal untuk nilai Z ≤ -3,15. Maka untuk
itu, carilah sel dalam tabel Z untuk nilai Z = - 3,15 dan angka yang terdapat pada sel tersebut sama
dengan luas area di bawah kuve untuk nilai Z ≤ - 3,15.
Caranya: cari nilai Z = - 3.1 pada kolom Z dan cari nilai Z = 0,05 pada baris pertama, kemudian dari garis
horizontal dari nilai Z = -3.10 dan garis vertikal ke bawah dari nilai Z = 0,05 (pada baris pertama tabel Z),
sel dari tabel yang menjadi persilangan kedua garis menyatakan luas area di bawah kurve untuk nilai Z
≤ - 3,15. Pada contoh kasus ini didapatkan luas area di bawah kurve normal dengan nulai Z ≤ - 3,15 =
0,0008 atau sebesar 0,08%.
Contoh Aplikasi Distribusi Normal
Kasus 1.
Pada penelitian penyakit Alzeimer didapatkan bahwa berat otak penderita Alzeimer berdistribusi
normal dengan rerata 1076,80 gr dan SD = 105,76 gr. Berapa probabilitas sampel dengan berat otak
kurang dari 800 gr dengan ilustrasi seperti bagan di bawah ini.
Langkah Penyelesaian
1. Kita ingat2 dulu rumus apa yang dipakai……pakai rumus ini Z = (X – Mean)/SD
2. Yang ditanyakan itu kan probabilitas, probabilitas itu berkaitan dengan luas area di bawah kurva.
Luas area di bawah kurva bisa dicari dengan bantuan ultraman tabel Z. Tapi, sebelum ngulik2 tabel
Z alangkah baiknya dicari dulu berapa nilai Z nya pakai rumus di atas
3. Z = (800 – 1076,8)/105,76 ngerti lah ya darimana dapet angka2nya
4. Singkat kata dan cerita Z = -2,62
5. Now, we’ve got the Z score so what’s next? Kita cari deh itu -2,62 nya di tabel Z
6. Setelah ditelusuri ternyata luas area di bawah kurva dengan nilai Z -2,62 itu adalah 0,0044
7. Apa makna dari 0,0044 itu? Ya balik lagi liat pertanyaan dari soalnya probabilitas peneliti untuk
mendapat sampel dengan berat otak kurang dari 800 gram adalah 0,0044 atau kalo dalam
persentasenya sebesar 0,44%. Mantap kan? Yaiyalah masa ga mantap.
Kasus 2
Diketahui bahwa tinggi badan di satu populasi berdistribusi normal dengan nilai rerata 175 cm dengan
SD = 10 cm. Ingin diketahui berapa probabilitas seorang dari populasi tersebut yang dipilih secara
random tingginya antara 160 – 180 cm, seperti bagan di bawah ini.
1. Mulai agak rame nih soalnya, seperti biasa pakai rumus Z = (X – Mean)/SD
2. Naah, gimana nih ada kata2 diantara 160 sampai 180?. Jadi prinsipnya gini kalo luasnya yang dicari
itu diantara something dan something, nanti pasti ada pakai pengurangan. Kalo dari soal di atas, cari
dulu luas area dari paling kiri sampe angka 160 itu dulu. Selanjutnya, cari luas area dari paling kiri
sampe 180 itu. Kebayang?
Awalnya, cari luas di area biru itu….

Gimana caranya? Sama seperti soal sebelumnya, masukkan semua informasi yg ada di soal ke
rumus Z.
Z = (160 – 175)/10
Z = (-15)/10
Z = -1,5
Luas area under curve utk Z = -1,5 -> 0,0668. Oke di keep dulu angkanya, sekarang bahas kurva
yang di bawah
Terus, cari luas area merah tersebut
Caranya sama seperti di atas, pake rumus Z
Z = (180 – 175)/10
Z = (15)/10
Z = 1,5
Luas area under curve utk Z = 1,5 -> 0,9332. Di-keep juga dulu angkanya
3. Okee sudah dapat luas keduanya terus diapakan? Pertanyaanya tadi berapa probabilitas atau bisa
kita bilang luas area di antara 160 sampai 180 gitu ya. Nah biar dapet luas yang tengah-tengahnya
aja itu yaudah luas daerah merah dikurangi luas daerah biru, got it?.
Luas daerah merah (Z=1,5) = 0,9332; Luas daerah biru (Z=-1,5) = 0,0668 langsung hajar deh
dikurangi aja tuh
0,9332 – 0,0668 = 0,8664 atau jika dalam persentase menjadi 86,64%
Jadi, peluang/probabilitas utk dapetin orang yang tingginya 160-180 cm adalah 86,64%
Kasus 3
Kadar gula darah populasi tertetu diketahui berdistribusi normal dengan nilai rerata 100 g/dl dengan
SD = 5 g/dl. Ingin diketahui berapa retangan kadar gula dari 95% populasi disekitar rerata, seperti bagan
di bawah ini.
1. Ramee juga nih soalnya, gimana nih malah pake X1 sama X2 pula. Pasang dulu deh rumusnya Z = (X –
Mean)/SD. Sekarang apa yang bisa dimasukin ke rumusnya? Kayaknya gak ada yg bisa ya gara-gara
X1 sama X2 kampret. Oke informasi yang bisa dimanfaatin utk saat ini cuma angka 95% itu. 95% atau
0,95 ituu adalah luas area di bawah kurva antara X1 dan X2 okey?. Seperti soal sebelumnya, kita harus
tau dulu berapa luas area di sebelah kiri X1 (anggap aja daerah biru kayak tadi) dan sebelah kiri X2
(anggap daerah merah kayak tadi).
2. Sekarang gini, luas area di bawah kurve secara keseluruhan ituu 100% (dari ujung ke ujung). Kalo
95% nya udah kepake jadi tinggal berapa dong sisanya?. Yup sisanya ada 5% yang belum kepake
Jadi, luas yang 5% itu luas gabungan dari daerah biru dan hijau yaaa
3. Udah mulai ada titik terang nih, luas biru dan hijau itu 5% (0,05) kalo luas yang biru saja berapa?
(1 – 0,95)/2 = 0,025.
Kalo luas area di bawah kurva udah dapet, sekarang tinggal nyari berapa Z scorenya di tabel Z.
Ternyata Z score untuk luas area 0,025 itu adalah -1,96. Sekarangg karena dah dapet Z scorenya
bisa deh kita make rumus Z = (X – Mean)/SD.
-1,96 = (X1 – 100)/5
X1 = -1,96 x 5 + 100
X1 = 90,2 g/dL yess dapet X1
4. Sekarang tinggal nyari X2 deh. Nah ini gampang nih, tinggal jumlahin luas area X1 sama 95% nya.
Inget kan tadi kalo nyari luas area X2 (daerah merah) itu mana aja cakupannya hehe.
0,025 + 0,95 = 0,975
Z score untuk 0,975 = 1,96
5. Udah deh jadi, tinggal masukin ke rumus Z = (X – Mean)/SD.
1,96 = (X2 – 100)/5
X2 = 1,96 x 5 + 100
X2 = 109,8 g/dL yess dapet X2
Jadi, 95% dari populasi mempunyai kadar gula darah antara 90,2 g/dl s/d 109,8 g/dl. Mantap soul
================================= End of Chapter 7 ===================================
H. Distribusi Sampel
Setelah memahami pengertian tentang populasi, sampel, cara pengambilan sampel, dan penentuan
besarnya sampel, maka selanjutnya perlu dipahami tentang pengertian distribusi sampel sebagai dasar
untuk memahami konsep statistik inferensial. Yang dimaksud dengan distribusi sampel (sampling
distribution) adalah distribusi rerata atau proporsi semua kemungkinan sampel dari suatu populasi.
Ada beberapa distribusi sampel yang perlu diketahui agar dapat memahami lebih jelas konsep statistik
inferensial, antara lain 1) distribusi nilai rata-rata sampel (distribution of the sample mean, 2) distribusi
perbedaan rata-rata dua sampel (distribution of the difference between two sample means, 3)
distribusi proporsi sample (distribution of the sample proportion), dan 4) distribusi perbedaan proporsi
dari dua sample (distribution of the difference between two sample proportions).
Distribusi Rerata Sampel
Misalnya akan diteliti jumlah anak yang dimiliki populasi daerah X. Jumlah populasi KK di daerah X
adalah 5 KK, yaitu A, B, C, D, dan E. Jumlah anak dari ke 5 populasi KK tersebut adalah 1, 2, 3, 4, dan 5.
Rerata jumlah anak populasi µ = 3 orang.
Apabila penelitian tentang jumlah anak di populasi tersebut menggunakan sampel dengan jumlah
sampel n = 2, maka kemungkinan sampel yang bisa dibuat dari populasi tersebut adalah sebanyak 10
sampel sbb:
Distribusi rerata dari sampel di atas disebut distribusi rerata sampel atau sering disebut dengan
distribusi sampel.
Ciri dari suatu distribusi sampel adalah:
1. Rerata dari nilai rerata sampel akan sama dengan rerata populasi
2. Standar deviasi dari rerata sampel disebut standar error of mean yang disingkat dengan SE of
mean. Secara umum, besarnya SE = SD/√n.
3. Distribusi sampel akan mengikuti distribusi data. Bila data berdistribusi normal, maka distribusi
sampel juga berdistribusi normal. Sebaliknya, bila data tidak berdistribusi normal, maka distribusi
sampel juga akan berdistribusi tidak normal, kecuali bila jumlah sampelnya cukup besar. Kalau
jumlah sampel cukup besar, walaupun data tidak berdistribusi normal, maka distribusi sampelnya
akan berdistribus normal (Central Limit Theorem).
4. Dengan karakteristik tersebut, rerata populasi dapat diestimasi dari rerata sampel. Bila dari n sampel
didapatkan rerata sampel adalah X dengan simpang baku SD, maka 95% kemungkinan rerata
popuasi terletak antara X ± 1,96xSD/ n .
Contoh:
Suatu survei penentuan umur kawin ibu dilakukan pada 200 sampel ibu rumah tangga di Bali. Dari
sampel tersebut didapatkan rata-rata umur kawin ibu adalah 18 th dengan standar deviasi (SD) sama
dengan 2 tahun. Dengan berdasarkan distribusi rerata sampel, kita dapat memperkirakan rata-rata
populasi yang dimaksud hanya dari hasil satu survei.
Misalnya dari hasil survei di atas dapat statistik sampel sebagai berikut:
maka 95% kemungkinan rerata populasi terletak antara 18 – 1,96 x 0,14 sampai 18 + 1,96 x 0,14 atau
antara 17,72 – 18,27 th.
Distribusi Perbedaan Rata-rata Dua Sampel
Distribusi perbedaan rata-rata dua sampel mempunyai karakteristik mirip dengan distribusi normal
dengan perkiraan nilai rata-rata (μ) sama dengan beda rata-rata dari kedua sampel X beda dengan
standar error perbedaan
SE = √(SD12/n1 + SD22/n2)
Bila pengambilan sampel diulang sebanyak tak berhingga, maka dapat diperkirakan 95% dari sampel
tadi akan mempunyai rata-rata perbedaan antara
( X beda – 1,96 SE) sampai ( X beda + 1,96 SE).
Contoh:
Bila jumlah sampel ibu dan bapak masing-masing 120 orang dan rata-rata umur kawin ibu ( X1 ) = 18
th dengan SD2 = 2 tahun dan rata-rata umur kawin bapak ( X2 ) = 22 th dengan SD2 = 3 tahun, maka
selanjutnya dapat dihitung
1. Rata-rata perbedaan (Xb) = X1 – X2 = 18 – 22 = - 4
2. Standar error beda (SEb) = √(SD12/n1 + SD22/n2)
= √(4/120 + 9/120)
= 0,329
3. Estimate beda rata-rata kedua kelompok populasi pada tingkat kemaknaan 95% adalah
(X beda – 1,96 SE) sampai ( X beda + 1,96 SE)
(-4 – 1,96(0,329)) sampai (-4 + 1,96(0,329))
-4,64 sampai -3,36
Distribusi Proporsi Sampel
Misalnya akan diteliti proporsi bayi yang menderita diare. Kalau sampel yang disurvei adalah n dan yang
megalami diare adalah k, maka kejadian diare pada sampel bayi (p) = k/n x 100% dengan standar deviasi
(SD) = √p(1-p). Seandainya survei tersebut dilakukan berkali-kali pada populasi tersebut, maka akan
didapatkan banyak nilai proporsi (p). Distribusi dari nilai p tersebut dinamakan distribusi proporsi
sampel.
Distribusi proporsi sampel (p) mempunyai karakteristik menyerupai distribusi normal dengan estimate
rata-rata proporsi (µp) = p dengan standar error
(SE) = √(pq)/n.
Bila dalam survei tadi besar sampel n = 1000 dan terdapat 12 bayi diare, maka
proporsi bayi diare (p) = 12/1000 = 0,012
SE = √(0,012 x 0,988)/1000 = 0,003.
Dari sampel tersebut dapat diestimasikan bahwa 95% proporsi diare pada populasi bayi antara p +/-
1,96 SE. Dengan demikian 95% proporsi diare pada populasi bayi antara (0,012 – 1,96x0,003) sampai
(0,012 + 1,96x0,003) atau antara 0,0064 sampai 0,0178.
Distribusi Perbedaan Proporsi Dua Sampel
Kalau proporsi diare pada bayi di kota adalah P1 dan proporsi diare pada bayi di desa P2, maka
perbedaan proporsi dari kedua sampel
(Pb) = P1- P2
dengan standar error (SE) = √{P1(1-P1)/n1 + P2(1-P2)/n2}.
Kalau survei ini dilakukan berkali-kali, maka kita akan mendapatkan banyak beda proporsi (Pb).
Distribusi dari Pb ini dinamakan distribusi perbedaan proporsi dari dua sampel.
Distribusi perbedaan proporsi dari dua sampel mempunyai karakteristik menyerupai distribusi normal
dengan perkiraan rata-rata beda proporsi = Pb dengan standar error (SE). Bila pengambilan sampel
dilakukan berulang kali, maka 95% sampel akan mempunyai perbedaan proporsi antara Pb +/- 1,96 SE.
Contoh
Misalnya dari penelitian terhadap 100 sampel bayi di kota dan 100 sampel bayi di desa, didapatkan
bahwa proposi diare pada bayi di kota adalah 0,50 dan di desa 0,33. Berdasarka hasil penelitian tersebut
dapat diperkirakan bahwa perbedaan kejadian diare pada bayi di kota dan di desa sbb:
P1 = 0,50
P2 = 0,33
Pb = 0,50 – 0,33 = 0,17
SE = √{P1(1-P1)/n1 + P2(1-P2)n2} = √{(0,5x0,5/100) + (0,33x0,67/100)}= 0,068
Jadi, 95% Pb terletak antara Pb ± 1,96SE, yaitu antara: (0,17 – 1,96x0,068) s/d (0,17+1,96x0,068) atau
antara 0,037 s/d 0,303
================================= End of Chapter 8 ===================================
I. Confidence Interval (CI)

Pada umumnya kita tidak mengetahui rerata populasi atau proporsi populasi, relatif risk populasi atau
odd ratio populasi dan paramter tersebut nilainya diestimasikan dari statistik sampel. Ada dua metode
yang umum dipakai untuk estimasi paramter populasi dari statistik sampel, yaitu: menggunakan point
estimasi dan interval estimasi. Berikut akan dibahas kedua metode estimasi tersebut.
Point Estimate
Point estimasi menggunakan satu nilai sebagai nilai estimasi parameter populasi yang akan dipelajari.
Misalnya akan diteliti rerata indek masa tubuh (IMT) dari ibu-ibu di Bali. Untuk mengukur rerata IMT
yang sebenarnya (true mean) adalah sangat tidak mungkin karena faktor teknis, waktu dan biaya. Oleh
karena itu, rerata IMT ibu di Bali dapat diperkirakan dari 30 sampel ibu yang dipilih secara random. Dari
hasil pengukuran IMT sampel kemudian dihitung rerata IMT sampel. Misalnya didapatkan 26,86 kg/m2
dimana rerata sampel tersebut merupakan nilai point estimate dari parameter rerata IMT populasi ibu
di Bali.
Point estimasi tidak memberikan banyak informasi bagaimana variasi dari nilai estimasi tersebut karena
hanya satu nilai saja. Kita tidak mengetahui seberapa dekat nilai estimasi tersebut dengan rerata
populasi yang sebenarnya (true mean). Perlu diketahui bahwa rerata sampel belum tentu sama dengan
rerata populasi. Perbedaan rerata sampel dengan rerata populasi tersebut terjadi karena adanya
sampling error atau karena faktor kebetulan (by chance). Oleh karena itu, akan lebih sensitif bila
estimasi rerata populasi (parameter populasi) menggunakan interval disekitas rerata sampel yang
disebut dengan interval kepercayaan (confidence interval of mean).
Interval Estimate
Interval estimasi adalah metode yang dipakai untuk estimasi rerata populasi (true mean) dengan
menggunakan confidence interval (CI). Variabilitas sampel (SE) diperhitungkan dalam proses
penghitungan nilai CI. CI adalah sebuah rentangan nilai disekitar rerata sampel yang dibatasi oleh dua
nilai yang disebut batas bawah (lower limit) dan nilai batas atas (upper limit). Nilai rerata populasi
diperkirakan akan terletak di dalam interval tersebut. Nilai CI ditentukan oleh tingkat kepercayaan yang
akan dipakai, umumnya untuk penelitian sosial, menggunakan tingkat kepercayaan 95% dan untuk
penelitian laboratorium atau klinik menggunakan tingkat kepercayaan 99%. Selain tingkat kepercayaan,
nilai CI juga ditentukan oleh besar sampel. Makin besar jumlah sampel, nilai CI akan bertambah
sempitdan estimasi rerata populasi akan makin akurat.
Penentuan CI untuk sampel besar
Apabila suatu sampel dengan jumlah besar (n>60) dipilih dari suatu populasi, maka 95% nilai rata-rata
sampel besarnya akan berkisaran antara 1,96 SE (standar eror) di bawah rata-rata sampel sampai 1,96
SE di atas rata-rata sampel. Hal ini didasarkan kepada asumsi bahwa distribusi nilai rata-rata sampel
dengan jumlah sampel besar adalah normal dengan SE = ơ/√n. Pada umumnya standar deviasi populasi
sering tidak diketahui, maka SD populasi diestimasikan dengan nilai standar deviasi sampel, sehingga
SE = SD/√n.
Misalnya akan diteliti tekanan sistole mahasiswa. Untuk tujuan tersebut dipilih sebanyak 60 sampel
mahasiswa. Dari data tekanan sistole sampel didapatkan rata-rata sistole X = 120 mmHg dengan SD =
2,5 mmHg. Menggunakan data sampel tersebut dapat diperkirakan bahwa 95% kemungkinan rata-rata
tekanan sistole populasi mahasiswa berkisar antara:
Batas bawah = X -1,96 SD/√n = 120 – (1,96 x 2,5/√60) = 119,37
Batas atas = X +1,96 SD/√n = 120 + (1,96 x 2,5/√60) = 120,63
Penentuan CI untuk sampel kecil -> Bedanya tidak pake Z score, tapi pakai t score
Apabila varian populasi tidak diketahui atau jumlah sampel lebih kecil dari 30 (sampel kecil), distribusi
rerata atau beda rerata sampel akan mengikuti distribusi ‘t’ dengan derajat bebas (df) = n – 1 dan
dengan standar error (SE) = SD/√n.
Penghitungan CI dengan distribusi t adalah sebagai berikut:
Batas bawah = X - (t x SD/√n)
Batas atas = X + (t x SD/√n)
Misalnya sampel mahasiswa yang diperiksa tekanan darah sistolenya 30 orang dan didapat rata-rata (
X ) = 120 mmHg dengan Sd = 2,5 mmHg, maka penghitungan confidence intervalnya adalah sebagai
berikut:
- Hitung nilai derajat bebas (df) = n – 1 = 30 – 1 = 29.
- Lihat nilai t pada tabel t untuk df = 29 dan tingkat kepercayaan (confidence level) = 95% adalah
2,04
- Menghitung nilai batas bawah dan atas:
Batas bawah = X - (t x SD/√n) = 120 – (2,04 x 2,5/√60) = 119,34
Batas atas = X + (t x SD/√n) = 120 + (2,04 x 2,5/√60) = 120,66
Estimasi Rerata (Sampel Kecil)
Suatu penelitian dilakukan untuk mengetahui rerata IMT ibu di Bali. Untuk mengetahui rerata IMT yang
sebenarnya agak sulit, maka rerata populas tersebut akan diestimasikan dari rerata sampel. Untuk
maksud tersebut, sebanyak 30 sampel ibu dipilih secara random dan dari hasil analisis secara deskriptif
didapatkan rerata IMT sampel 26,86 kg/m2 dengan simpang baku (SD) 2,99 kg/m2
Berdasarkan hasil analisis deskriptif data sampel IMT ibu di Bali tersebut selanjutnya dapat dihitung CI
95% dari rerata IMT ibu di Bali dengan langkah sebagai berikut.
Perhitungan:
Hitung standar error SE = SD/√n = 2,99/√30 = 0,5468
Hitung CI dengan rumus: CI = mean ± t x SE, dengan tahapan:
o Menentukan derajat bebas (df) = n – 1 = 30-1=29
o Mencari nilai t untuk α 0,05 pada tabel t, didapatkan tα = 2,0452
o Menghitung batas bawah LL = mean – 2,0452 x SE = 26,86 – 2,0452 x 0,5468 = 25,74
o Menghitung batas atas UL = mean + 2,0452 x SE = 26,86 – 2,0452 x 0,5468 = 27,98
Estimasi Beda Rerata (Sampel Kecil)
Kasus 1 (Data Kedua Sampel Homogen)
*jika kedua sampel homogen maka ada perbedaan cara penentuan nilai SE. Jika data homogen maka
rumus
SE = SDp √(1/n1 + 1/n2).
Dimana nilai SDp dapat diperoleh dengan rumus
SDp = √{(n1-1)SD12 + (n2-1)SD22} / (n1+n2-2)
Suatu penelitian akan mempelajari apakah rerata IMT remaja putri berbeda dengan remaja putra.
Sangat tidak mungkin meneliti semua populasi remaja putri, oleh karena itu, untuk menjawab
pertanyaan tersebut, peneliti melakukan penelitian pada 24 sampel anak sekolah menengah atas laki
dan 20 wanita yang dipilih secara stratified simple random.
Perhitungan:
1. Hitung rerata dan SD masing-masing kelompok
Dari analisis deskritif didapatkan nilai rerata dan standar deviasi sampel sebagai berikut.
2. Hitung homogenitas
Homogenitas data kedua kelompok diuji dengan levene’s test menggunakan statistk F dengan rumus:
F = SD12/SD22 = 1,0588
dengan p > 0,05. Berarti kedua sampel homogen (equal variances).
3. Hitung CI untuk varian ke dua kelompok sama
Hitung beda rerata kedua sampel = 29,2792 – 27,6429 = 1,6363
Hitung SDp = √{(n1-1)SD12 + (n2-1)SD22} / (n1+n2-2) = 4,98
Hitung SE = SDp √(1/n1 + 1/n2) = 1,4935
Nilai tα pada tabel t dengan df = 43. Nilai t adalah 2,0141
Bata bawah LL = beda mean - tα x SE = 1,6363 – 2,0141 x 1,4935 = -1,3757
Batas atas UL = beda mean + tα x SE = 1,6363 – 2,0141 x 1,4935 = 4,6483
4. Kesimpulan
95% kemungkinan beda rerata kedua sampel terletak antara -1,3757 s/d 4,6483
Kasus 2 (data kedua sampel heterogen)
Suatu penelitian akan mempelajari apakah rerata IMT remaja putri berbeda dengan remaja putra.
Untuk menjawab pertanyaan tersebut, peneliti melakukan penelitian pada 20 sampel anak sekolah
menengah atas laki dan 20 wanita yang dipilih secara stratified simple random.
Perhitungan:
1. Hitung rerata dan SD masing-masing kelompok
Dari analisis deskriptif didapatkan nilai rerata dan standar deviasi sampel sebagai berikut.
2. Hitung homogenitas
Homogenitas data kedua kelompok diuji dengan levene’s test menggunakan statistk F dengan rumus:
F = SD12/SD22 = 5,055 dengan p < 0,05. Berarti kedua sampel heterogen (unequal variances).
3. Hitung CI untuk varian ke dua kelompok sama
Hitung beda rerata kedua sampel = 28,8350 – 27,8750 = 0,96
Hitung SE = √(SD12/n1 + SD22/n2) = 2,13067
Nilai tα pada tabel t dengan df = 38. Nilai tα adalah 2,0211
Batas bawah LL = beda mean - tα x SE = 0,96 – 2,0211 x 2,13067 = -3,4177
Batas atas UL = beda mean + tα x SE = 0,96 – 2,0211 x 2,13067 = 5,3377
4. Kesimpulan
95% kemungkinan rerata beda kedua sampel berkisar antara -3,4177 s/d 5,3377
Estimasi Proporsi dan Estimasi Beda Proporsi
Mau sampelnya besar atau kecil, caranya sama seperti pada bab sebelumnya. Intinya yg dibahas
dalam bab ini yaitu kalo sampelnya kecil (60 ke bawah) tidak pakai Z score spt bab sebelumnya, tapi
pake t score jadi perlu tabel t. Prinsip rumusnya sama, tinggal ganti Z score dengan t score. Khusus
kalau nyari estimasi beda rerata perlu uji homogenitas (Levene test) terlebih dahulu. Cara mencari
nilai Standar Error pada data yang homogen atau heterogen berbeda. Sudah dijelaskan di atas
================================= End of Chapter 9 ===================================

Statistik Deskriptif

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Statistik Deskriptif

Diunggah oleh

Hak Cipta:

Format Tersedia

BIOSTATISTIK I (DESKRIPTIF) – SEMESTER 3

================================= End of Chapter 2 ===================================

C. Analisis Deskriptif dan Penyajian Data Numerikal

2. Tabel Distribusi Frekuensi Berkelompok

Frek. Kumulatif Frek. Relatif Kumulatif

Penyajian Data dengan Grafik

5. Box Plot (Box and Whisker Plot)

D. Analisis Deskriptif dan Penyajian Data Kategorikal

Grafik Distribusi Frekuensi Tingkat Pendidikan Bumil (Pie dan Bar)

2. Two Categorical Variable (Jika Hanya Menanyakan Prevalensi)

Districts Anemia Non-Anemia Total

E. Manajemen Data dengan Aplikasi STATA

Dari data ini dapat dihitung:

G. Distribusi Data dan Pemanfaatannya

Contoh aplikasi distribusi Binomial

Contoh Aplikasi Distribusi Poisson

Awalnya, cari luas di area biru itu….

I. Confidence Interval (CI)

================================= End of Chapter 9 ===================================

Anda mungkin juga menyukai