Oleh:
dr. I Wayan Gede Artawan Eka Putra, M.Epid.
dr. Tangking Widarsa, MPH
dr. Putu Ayu Swandewi Astuti, MPH.
1
Daftar Isi
ii
3.2. Tujuan ............................................................................................................... 26
3.3 Pokok Bahasan .................................................................................................. 26
3.4 One Sample T Test ............................................................................................ 26
1. Indikasi ............................................................................................................ 26
2. Persyaratan ...................................................................................................... 26
3. Hipotesis: ......................................................................................................... 26
4. Uji Statistik ...................................................................................................... 26
5. CI Perbedaan rerata ......................................................................................... 27
6. Cara membuat kesimpulan .............................................................................. 27
7. Prosedur One sample T Test dengan STATA ................................................. 27
8. Interpretasi ....................................................................................................... 28
3.3 Paired Samples T Test ....................................................................................... 28
1. Indikasi ............................................................................................................ 28
2. Persyaratan ...................................................................................................... 29
3. Hipotesis: ......................................................................................................... 29
4. Uji Statistik ...................................................................................................... 29
5. CI perbedaan .................................................................................................... 29
6. Cara membuat kesimpulan .............................................................................. 29
7. Prosedur Paired Samples T Test ...................................................................... 30
8. Interpretasi ....................................................................................................... 31
3.4 Independent Samples T Test ............................................................................. 32
1. Indikasi ............................................................................................................ 32
2. Persyaratan ...................................................................................................... 32
3. Hipotesis: ......................................................................................................... 32
4. Uji Statistik Homogenitas Varian .................................................................... 32
5. Uji Statistik Perbedaan Rerata ......................................................................... 32
6. CI perbedaan rerata.......................................................................................... 33
7. Cara membuat kesimpulan .............................................................................. 33
8. Prosedur Independent Samples T Test ............................................................ 33
9. Interpretasi ....................................................................................................... 36
Bagian 4 One-Way ANOVA ....................................................................................... 37
4.1 Pendahuluan ..................................................................................................... 37
4.2 Tujuan ............................................................................................................ 37
4.3 Pokok Bahasan .............................................................................................. 37
iii
4.4 Indikasi .............................................................................................................. 37
4.5 Persyaratan ........................................................................................................ 37
4.6 Hipotesis: ........................................................................................................... 37
4.5 Uji Statistik ........................................................................................................ 38
4.6 Cara membuat kesimpulan uji Anova ............................................................... 39
4.7 Uji Post Hoc ...................................................................................................... 39
4.8 Latihan ............................................................................................................... 39
4.8. Prosedur STATA .............................................................................................. 40
4.9 Interpretasi ......................................................................................................... 41
Bagian 5 Korelasi & Regresi Linear ........................................................................... 42
5.1 Korelasi.............................................................................................................. 42
5.2 Regresi ............................................................................................................... 52
Daftar Pustaka ............................................................................................................. 60
iv
Bagian 1 Managemen Data
1.1 Pendahuluan
Pada bagian ini akan dipelajari proses managemen data yang telah
dikumpulkan. Proses managemen data adalah serangkain proses pengolahan data
mulai dari memasukkan data ke dalam data base sampai siap dianalisis. Prinsip
proses managemen data pada setiap perangkat lunak tidak berbeda dengan kata lain
prinsip dasarnya adalah sama. Pada modul ini menggunkan perangkat lunak STATA
SE 12.1 untuk melakukan manajemen data. Proses akan disampaikan mulai dari cara
memulai dan mengakhiri sesi STATA, cara membuat struktur data, cara merekam
data, cara membuka file data STATA atau file data dengan format bukan STATA
(misalnya dalam format Excel, Dbase, dll). Juga akan dipelajari cara membuat
variabel baru dari data yang sudah ada dengan cara recode atau compute. Selain itu,
juga akan dipelajari cara memilih record tertentu dan cara mengurut data.
1.2 Tujuan
1. Untuk meningkatkan kemampuan mahasiswa semerter VI dalam pengelolaan
data menggunakan STATA sebagai persiapan analisis data selanjutnya.
2. Memberikan contoh aplikasi STATA dalam melakukan manajemen data
hasil penelitian kuantitatif.
3. Mahasiswa mampu melakukan manajemen data terhadap penelitian yang
dilakukan pada proses pembuatan skripsi.
1
1.4 Managemen Data Menggunakan Stata
Memulai program STATA dilakukan dengan meng-klik ikon STATA sehingga
muncul:
Secara garis besar, tampilan utama Stata dibagi dalam 4 bagian, yaitu :
1) Command window, yang berfungsi sebagai tempat untuk memberikan
perintah kepada Stata. Command window dapat juga digunakan sebagai
kalkulator, dengan memasukan rumus-rumus yang kompleks dan fungsi-
fungsi internal Stata. Selain itu dapat juga diberikan perintah sistem operasi,
misalnya perintah Dos pada sistem operasi Windows atau perintah terminal
Unix/Linux pada sistem operasi Unix/Linux.
2) Review window, menampilkan semua perintah-perintah stata yang pernah
diketik pada Command window, beserta kolom _rc yang menampilkan kode
error yang muncul pada saat memproses perintah yang dijalankan.
3) Variable window, menampilkan seluruh variable yang ada pada dataset yang
dibuka, berikut variable tambahan yang dibuat pada saat proses (generate).
Pada window ini ditampilkan secara lengkap label, tipe dan format dari
semua variable yang ada, sehingga memudahkan kita mendapatkan informasi
detail tentang variable yang akan digunakan.
2
4) Result window, menampilkan semua output dari perintah yang diketikan
pada Command Window, kecuali output grafik yang ditampilkan pada
window tersendiri.
3
3. Membuat Strukrur Data
1. Struktur Data
Setiap variabel dalam file data STATA memiliki struktur data sbb:
No Struktur Deskripsi
1 Name Nama menggunakan abjad, tidak ada spasi, tanda baca dan
tanda matematik
2 Label Penjelasan (nama lengkap) dari variabel name
3 Type Numerik (untuk data dalam bentuk angka), string (data dalam
bentuk abjad)
5 Format Format dari type. Untuk numerik bisa diformat jumlah digit,
decimal, date dll. Untuk string bisa diformat total karakter dan
justified.
6 Value Hanya untuk jenis data ketegori, misalnya SEX: 1=laki dan
Label 0=perempuan
1) Tampilkan data editor dengan membuat perintah edit, maka tampak window
data editor:
4
2) Klik bar untuk nama variabel 2 kali, sehingga tampak sbb:
3) Kemudian tentukan variable type, isi variable name dan klik pilihan fill with
missing data, selanjutnya klik OK, maka pada variabel properties akan
tampak sbb:
Perlu diperhatikan bahwa setelah menekan OK maka variable type tidak bisa
diubah dari numerik ke string atau sebaliknya.
Selanjutnya bisa diisi Label, Type dari data numerik, Format dan Value
Label. Untuk Format bisa diklik option diujung kanan.
4) Membuat Value Label
Untuk data kategori seperti SEX dengan kategori 1=laki dan 0=perempuan
dan diare dengan kategori 1=diare dan 0=tidak, maka value dari kedua
variabel tersebut harus didefinisikan dalam struktur datanya. Cara
membuatnya adalah sbb:
a. Klik bagian sebelah kanan (browse) dari value label maka akan muncul
5
b. Kemudian klik Create label maka akan tampak sbb:
c. Isi nama label pada Label name kemudian ketik: 1 pada kotak “Value”
untuk kategori pertama dan ketik: Laki pada kotak “Label”, dan klik
“Add” untuk memindahkan definisi tersebut ke kotak di bawahnya.
Lanjutkan ketik kode 0 dan labelnya perempuan, dan klik “Add”
sehingga kedua definisi kategori sudah ada di kotak seperti berikut.
Klik “OK” untuk kembali ke variabel properties kemudian klik tanda
panah kebawah dan pilih nama label yang sudah dibuat.
4. Merekam Data
Setelah struktur data dibuat, langkah selanjutnya adalah merekam data. Data
hanya dapat direkam pada Data Editor. Oleh karena itu sebelum memulai merekam
maka aktifkan lebih dulu Data Editor dengan mengetik perintah edit atau klik Data
pada menu bar kemudian pilih Data editor kemudian pilih Data Editor (edit). Setelah
muncul data editor buatlah struktur data untuk variabel: id, age, sex, weight, height
dan diare, kemudian rekam data seperti tampak sbb:
6
Catatan:
Gunakanlah titik sebagai pemisah desimal.
7
6. Transformasi Data
1. Recode
0-4 1 = ”1-2”
0 = “3-4”
8
7. Compute
Prosedur Compute dipakai bila variabel baru yang akan dibuat merupakan hasil
komputasi variabel lama, misalnya akan dibuat variabel imt dari variabel weight
dan height dengan rumus imt=weight/(Height/100)2. Maka cara computenya
adalah ketik:
gen imt=weigth/(height/100)^2
9
Bagian 2 Statistik Deskriptif
2.1 Pendahuluan
Setelah data terkumpul dan direkam dalam format STATA, maka langkah selanjutnya
adalah membersihkan data (data cleaning) dan dilanjutkan dengan melakukan analisis
deskriptif sebelum melakukan analisis lebih lanjut. Kegiatan data cleaning dilakukan untuk
mengetahui adanya data yang didak lengkap, adanya data out of range, dan melihat
konsistensi data. Untuk tujuan tersebut, masing-masing data dibuat frekuensi distribusinya.
Dari frekuensi distribusi tersebut akan dapat diketahui adanya data missing (tidak lengkap)
dan data out of range. Selain distribusi frekuensi, tabulasi silang antara data diakai untuk
mengetahui konsistensi datanya. Deskripsi setiap data juga perlu diketahui sebelum
melakukan analisis lebih lanjut. Sering kali peneliti harus membuat variabel baru dari data
yang ada sebelum memebuat analisis lebih lanjut. Pada modul ini akan dipelajari cara
menggunakan STATA untuk analisis deskriptif yang meliputi summarize, summarize by
group, histogram, box plot, uji normalitas dan two-way tables.
2.2 Tujuan
Setelah mempelajari dan mempraktekan materi dari modul ini diharapkan peserta
latihan memiliki kemampuan menggunakan summarize, summarize by group, histogram, box
plot, uji normalitas dan two-way tables.
10
lainnya. Data kategorikal dapat diringkas dalam sebuah tabel distribusi tunggal dan
silang serta dalam grafik balok (bar chart) atau grafik lingkaran (pie chart)
a. Distribusi Frekuensi Tunggal
Penyajian data dalam sebuah tabel distribusi adalah untuk meringkas suatau
data mentah menurut kategori dari data tersebut. Berapa jumlah sampel untuk
kategori pertama, kedua dan seterusnya. Jumlah sampel dari setiap kategori tersebut
dapat disajikan dalam jumlah absolut atau persen. Persentase sampel untuk setiap
kategori terhadap seluruh sampel disebut frekuensi relatif yang dinyatakan dalam
persen. Sebagai contoh, tabel 2.2.1 meyajikan ringkasan data cara persalinan dari 600
persalinan di sebuah rumah sakit. Variabel yang dipelajari adalah cara persalinan,
yang merupakan variabel nominal atau kategorikal dengan tiga kategori, yaitu:
persalinan normal, persalinan dengan forcep, dan persalinan dengan seksio.
Tabel
2.2.1
Cara
persalinan
dari
600
kelahiran
di
Rumah
Sakit
Maria
Cara
persalinan
Jml.
Kelahiran
Persentase
Normal
478
79,7
Forcep
65
10,8
Seksio
57
9,5
Total
600
100,0
Sumber:
Betty
R.
Kirwood;
Medical
Statistics
b. Distribusi Silang
Bila dalam penelitian dikumpulkan dua jenis data dari setiap sampel, yaitu
data kebiasaan merokok dengan kategori merokok dan tidak dan kejadian penyakit
jantung koroner (PJK) dengan kategori ya dan tidak. Bila peneliti ingin menganalisis
hubungan antara merokok dan PJK maka langkah pertama yang harus dilakukan
adalah membuat frekuensi distribusi silang kedua variabel tersebut. Dari distribusi
silang akan diketahui berepa perokok yag menderita PJK dan tidak menderita PJK.
Juga dapat diketahui berapa yang tidak merokok menderita PJK dan yang tidak
menderita. Setiap sel dari tabel distribusi silang menggambarkan jumlah sampel yang
memiliki dua kategori. Seperti contoh tabel distribusi silang di bawah ini, sel pertama
menyatakan jumlah sampel yang memeiliki kebiasaan merokok dan menderita PJK.
Jumlah sampel dari setiap sel dapat dinyatakan dalam jumlah absolut dan juga dalam
% menurut jumlah barias (row persented) atau persen menurut jumlah kolom
(collumn persented).
11
Tabel
2.2.1
Cara
persalinan
dari
600
kelahiran
di
Rumah
Sakit
Maria
12
b. Distribusi Frekuensi Berkelompok
Ditribusi berkelompok adalah distribusi data dalam kelompok tertentu dimana
retangan nilai tertentu dijadikan sebuah kelompok, seperti contoh berikut.
Tabel
2.3.2
Umur
Pasien
Rawat
Jalan
Rumah
Sakit
Maria
Tahun
2010
Kelompok
Umur
Frekuensi
Persentase
0-‐1
185
37,3
1-‐4
109
22,0
5-‐9
38
7,7
10-‐14
31
6,3
15-‐19
15
3,0
20-‐24
6
1,2
25-‐29
5
1,0
30-‐34
3
0,6
35-‐39
7
1,4
40-‐44
21
4,2
45-‐49
25
5,0
50-‐54
30
6,0
55-‐
21
4,2
Total
496
100,0
Data disajikan di dalam sebuah distribusi berkelompok bila range suatu data > 15,
misalnya umur dengan variasi data dari 0 – 89 tahun. Data umur diubah menjadi
kelompok umur yang disebut kelas. Misalnya, untuk meringkas data umur dilakukan
dengan membuat 14 kelompok umur, yaitu 0-1, 1-4, 5-9, 10-14, 15-19, 20-24, 25-29,
30-34, 35-39, 40-44, 45-49, 50-54, 55-59, 60 ke atas. Setiap kelas memiliki rentangan
data yang disebut interval kelas. Untuk contoh di atas, setiap kelas mempunyai
interval 5. Setiap interval kelas memiliki batas bawah dan batas atas kelas. Seperti
contoh di atas, kelompok umur “0-4”, 0 adalah batas bawah kelas dan 4 adalah batas
atas kelas. Setiap kelas juga mempunyai nilai tengah adalah nilai yang terletak di
tengah-tengah. Kelas “0-4” terdiri dari nilai 0, 1, 2, 3, dan 4 dan yang menjadi nilai
tengah kelas adalah 2.
c. Histogram
Histogram merupakan grafik balok dimana setiap balok menyatakan frekuensi
dari setiap nilai data atau kelas untuk distribusi berkelompok. Dalam histogram, tidak
ada spasi diantara balok atau balok yang satu berimpit dengan balok berikutnya.
Berikut adalah contoh sebuah histogram.
13
250
200
Frequency
150
100
50
0
0.00 2.00 4.00 6.00
paritas
Grafik
3.
Paritas
Ibu
Bersalin
di
Rumah
Sakit
Maria
2010
d. Ukuran Sentral (Tendensi Central)
Ada tiga ukuran nilai tendensi sentral untuk suatu data, yaitu nilai rata-rata
(Mean), nilai tengah (Median), dan nilai tersering (Modus). Ketiga ukuran ini nilainya
bisa sama dan bisa pula tidak sama pada suatu grup data. Ketiga nilai tendensi sentral
tersebut sama besarnya bila data tersebut mempunyai distribusi normal. Sedangkan,
nilai tersebut akan berbeda bila distribusi data tersebut tidak normal atau menceng.
Oleh karena itu, penggunaan dari ukuran-ukuran tersebut tergantung dari bentuk
distribusi datanya. Bila distribusi data normal atau mendekati normal, nilai rata-rata,
nilai tengah, dan modus akan sama besarnya atau mendekati, oleh karena itu, ukuran
tendensi sentral yang dipakai adalah nilai rata-rata. Sebaliknya, bila distribusi data
menceng baik menceng ke kanan atau ke kiri, sebaiknya nilai tengah (Median) yang
dipakai untuk menggambarkan tendensi sentral dari data tersebut. Modus dipakai
untuk menunjukkan nilai yang paling sering atau terbanyak ada pada data tersebut.
e. Nilai Rata-Rata (Mean)
Pada buku teks, nilai rata-rata sering disebut “Mean” atau “Average”. Yang dimaksud
dengan nilai rata-rata disini adalah “arithmetic mean” yang diberi simbul x untuk
sampel dan µ untuk populasi. Nilai rata-rata dari suatu observasi dapat dihitung
dengan membagi jumlah semua nilai observasi dengan banyaknya observasi.
Misalnya
ada
sebanyak
n
observasi
dengan
nilai
pengukuran:
x1
x2
x3
x4
....
...
xn
nilai
rata-‐rata
dari
observasi
tersebut
adalah:
n
x + x2 + x3 + x4 + ..... + xn ∑x i
x = 1 = i =1
n n
14
Contoh:
Jumlah anak yang dimiliki daro 5 sampel adalah: 0 1 2 3 4, maka nilai rerata
sampel menjadi = (0 + 1 + 2 + 3 + 4)/5 = 2.
f. Nilai Tengah (Median)
Nilai tengah juga disebut “Median” dari suatu observasi. Nilai tengah merupakan
nilai yang di tengah-tengah dari seluruh nilai observasi setelah diurut dari yang terkecil ke
yang terbesar atau sebaliknya. Bila jumlah observasi ganjil, maka nilai tengahnya adalah nilai
yang ke (n+1)/2. Misalnya ada 7 observasi, maka nilai observasi yang ke 4 merupakan nilai
tengah. Sedangkan, bila jumlah observasi genap, maka mediannya adalah rata-rata dari dua
nilai observasi yang paling di tengah. Misalnya ada 6 observasi, maka nilai observasi yang
paling di tengah adalah nilai dari observasi ke 3 dan ke 4. Maka nilai tengahnya adalah (nilai
observasi ke 3 + nilai ke 4)/2.
Contoh jumlah observasi ganjil:
Ada 7 observasi dan setelah diurut adalah sebagai berikut:
X1 X2 X3 X4 X5 X6 X7
3 5 6 9 11 30 50
maka, nilai tengahnya (Md) = 9
Contoh dengan jumlah observasi genap:
X1 X2 X3 X4 X5 X6
3 5 6 9 11 30
maka nilai tengahnya (Md) = (6 + 9)/2
= 7,5
g. Modus
Modus adalah nilai observasi yang paling banyak dijumpai. Dalam kata lain,
modus dari suatu observasi adalah nilai dimana hasil observasi paling memusat.
Misalnya dari observasi 5 keluarga didapatkan jumlah anak sebagai berikut: 1, 2, 2, 2,
3. Jadi modus jumlah anak dari ke 5 keluarga tersebut adalah 2 anak. Bila hasil
pengamatan dari ke 5 keluarga tersebut sebagai berikut: 1, 2, 3, 4, 5, maka data
tersebut tidak memiliki modus. Kadang kala, suatu observasi dapat mempunyai lebih
dari satu modus, misalnya dua modus (bimodal), tiga modus (tripelmodal), dan
sebagainya. Untuk suatu observasi dimana distribusinya asimetris, modus dapat
dihitung dengan hubungan emperis sebagai berikut:
Modus = 3 x Median – 2 x Mean,
15
h. Ukuran Sebaran
Di samping ke arah mana hasil observasi memusat, kita juga perlu mengetahui
variasi antara nilai observasi yang satu dengan yang lainnya agar kita dapat
menjelaskan karakteristik dari kelompok subjek yang diobservasi dengan lebih jelas.
Nilai tendensi sentral dari suatu data tidak menjelaskan bagaimana variabilitas data
hasil observasi dari kelompok subjek tersebut. Misalnya, dua kelompok anak sekolah
yang terdiri dari 10 anak SD di kota dan 10 anak SD di desa. Kedua kelompok anak
SD tersebut mempunyai rata-rata tinggi badan sama yaitu 100 cm. Apakah variasi
tinggi pada kedua kelompok tersebut sama, tidak bisa kita jawab sebelum kita
mengukur sebarannya atau variasinya.
Ada beberapa ukuran sebaran dari suatu kelompok data, yaitu: range, deviasi terhadap
rata-rata (mean deviation), standar deviasi, dan koefisien variasi (coefficient of
variation). Di bawah ini akan diuraikan keempat jenis ukuran sebaran tersebut secara
lebih rinci.
i. Range
Range dari suatu hasil observasi adalah jarak antara hasil observasi yang
paling kecil sampai yang paling besar. Besarnya range dari suatu hasil observasi
hanya ditentukan oleh dua nilai observasi yang paling ekstrim, yaitu yang paling kecil
dan yang paling besar. Tidak jarang nilai ekstrim tersebut jauh dari nilai observasi
pada umumnya, sehingga range tidak merupakan ukuran sebaran yang baik. Range
dari suatu nilai observasi sangat mudah dibuat. Misalnya suatu observasi terhadap
tekanan darah distole didapatkan data tekanan darah diastole sebagai berikut:
50, 70, 74, 75, 75, 75, 80, 80, 80, 80, 85, 85, 90, 140
Data tekanan diastole dari 14 sampel di atas mempunyai range antara 50 sampai 140
mmHg.
j. Varian (galat) dan Standar Deviasi (simpang baku)
Standar deviasi (SD) merupakan ukuran sebaran yang paling penting. SD
mempunyai hubungan dengan Range dan distribusi frekuensi dari hasil observasi. SD
dengan nilai rata-rata dapat menjelaskan distribusi data secara unik. Misalnya, bila
kelompok data berdistribusi normal, 95% dari data tersebut terdistribusi antara Mean
+/- 1,96 SD dan 99% dari data tersebut terdistribusi antara mean +/- 2,57 SD. Standar
deviasi adalah akar dari jumlah kuadrat beda nilai observasi dengan nilai rata-rata
dibagi dengan derajat bebas (jumlah observasi – 1). Oleh karena itu, SD dapat
dihitung dengan rumus sebagai berikut:
16
A atau
SD = SD =
Sedangkan varian (S) dari hasil suatu observasi adalah kuadrat dari SD dari observasi
tersebut, maka dari itu varian dapat dihitung sebagai berikut: S = SD2
k. Persentil
Persentil menunjukan nilai individu yang ke sekian persen dari sampel setelah
nilainya diurut dari kecil ke besar, misalnya persentil 10 artinya nilai sample yang ke
10%, persentil 25 artinya nilai sampel yang ke 25%, persentil 50 artinya nila sampel
yang ke 50%, persentil 75 artinya nilai sampel yang ke 75%, dan seterusnya.
l. Quartil dan Inter Quartil
Quartil terdiri dari quartil 1, quartil 2, dan quartil 3. Quartil 1 menyatakan nilai
sampel yang ke 25% atau sama dengan nilai persetil 25, quartil 3 menyatakan nilai
sampel yang ke 50% atau sama dengan persentil 50, dan quartil 3 menyatakan nilai
sampel yang ke 75% atau sama dengan nilai persentil 75. Inter Quartil adalah lebar
rentang data antara quartil 1 (Q1) sampai dengan quartil 3 (Q3) atau = Q3 – Q1.
Contoh: didapatkan nilai quartil 1 (Q1) = 38 dan quartil 2 (Q3) = 77,
maka interquartil range Q3 – Q1 = 77 – 38 = 39
m. Box-Plot
Box-Plot merupakan grafik distribusi data yang menggambarkan 99% data
berada di dalam batas bawah dan batas atas grafik dan data yang berada di luar batas
bawah dan batas atas grafik disebut outlier. Di dalam grafik ada BOX dimana batas
bawah Box adalah nilai Q1 dan batas atas Box adalah nilai Q2. Garis tebal yang ada
di dalam Box adalah Median. Berikut adalah contoh sebuah Box Plot.
*3
................................................
outlier
*21
................
batas
atas
(mean
+
3
SD)
...............
batas
atas
BOX
(Q3)
...............
Median
...............
batas
bawah
BOX
(Q1)
Desa
Kota.............
batas
bawah
(mean
–
3
SD)
Garfik
2.5.4
Box-‐Plot
Intake
Protein
penduduk di Kota dan Pedesaan
17
2.5 Latihan Analisis Deskriptif Dengan Stata
Latihan analisis deskriptif akan menggunakan data faktor risiko CHD yang
meliputi age (th), sex (1=laki-laki 0=perempuan), weight (kg), height (m), bmi,
cholesterol (mg/dl), dan CHD (1=CHD 0=Bukan CHD) disimpan dalam file: faktor
risiko CHD.dta
1. Summarize
Summarize dapat dipakai membuat statistik deskriptif, statistik deskriptif yang
disediakan dibagi 4 kelompok, yaitu 1) Percentil Values yang meliputi: quartile dan
percentile, 2) Cenral Tendency yang meliputi: mean, median, dan modus, 3)
Dispersion yang meliputi: SD, Varian, Range, Min, Max, dan SE, dan 4) Distribution
yang meliputi: Skewness dan Kurtosis.
Cara menjalankan summarize adalah klik Menu Toolbar: statistics, pilih summaries
table and test, pilih summary and statistic descrivtive, kemuadian klik: summary and
statistic, maka akan tampak box dialog sbb:
Masukkan nama variabel yang akan dibuat statistik deskriptifnya, pilih option display
additional statistic, kemudian tekan OK. Maka akan tampak result window sbb:
18
Dengan menggunakan perintah hasil yang sama didapat dengan menegtik :
sum age weight_kg, detail
2. Summarize by group
Summarize by group digunakan untuk mendapatkan nilai statistik deskritif
berdasarkan kelompok variabel kategorikal. Prosedur ini sama dengan eksplore pada
SPSS. Caranya dengan mengklik menu by/if/in pada box dialog summary statistic
maka akan muncul:
19
Kemudian centang repeat comand by group dan masukkan variabel data kategorikal
yang akan digunakan untuk mengelompokkan nilai statistik dari suatu variabel data
kontinyu. Setelah itu klik OK maka pada results window akan muncul:
Hasil yang sama didapat dengan mengetik perintah: by sex, sort : summarize
weight_kg, detail
3. Histogram
Cara membuat histogram adalah: pilih menu Graphics pada toolbar kemudian
pilih histogram maka akan muncul box dialog sbb:
20
Kemudian masukkan variabel yang akan dibuatkan histogram kedalam box variable, pilih:
data are continuous dan pilih juga frequency pada Y axis. Untuk menambahkan normal
density plot, klik menu density plots kemudian centang (v) pilihan add normal-density plot
seperti gambar:
Hasil yang sama didapatkan dengan mengetik perintah: histogram age, frequency normal
4. Box plot
Cara membuat box plot hampir mirip dengan histogram: pilih menu Graphics
pada toolbar kemudian pilih box plot maka akan muncul box dialog yang mirip
dengan histogram. Masukkan variabel yang akan dibuatkan box plot kemudian klik
menu categories maka akan muncul:
21
Centang Group 1 kemudian masukkan variabel kategori pada grouping variabel,
setelah itu klik OK maka akan muncul:
Hasil yang sama didapat dengan mengetik perintah: graph box weight_kg, over(sex)
Interpretasi:
1) Sebaran data dapat dilihat dari lebar Box-plot, terlihat sebaran data berat
badan berat badan pada laki-laki dan wanita hampir sama (tidak ada
perbedaan).
2) Distribusi dilihat dari letak median, terlihat bahwa ditribusi data berat badan
pada perempuan menceng ke kanan karena letak median mendekat ke bawah.
Sedangkan distribusi data berat badan pada laki-laki cenderung normal.
3) Median berat badan pada perempuan tidak jauh berbeda dengan laki-laki.
Secara keseluruhan, berat badan laki-laki dan perempuan hampir sama.
22
5. Uji Normalitas Data
Uji normalitas data yang tersedia pada stata adalah uji Shapiro-Wilk dan uji Shapiro-
Francia. Cara melakukan uji normalitas pada Stata adalah: Pilih menu Statistic pada
Toolbar kemudian Summarize, tables and test kemudian distributional plot and test
setelah itu klik Saphiro-Wilk normality test, maka akan muncul box dialog sbb:
Masukkan variabel yang akan diuji normalitas ke box variabel kemudian klik menu
by/if/in dan masukkan pariabel sex sebagai kategori. Setelah itu klik OK. Maka pada
hasil analisis akan tampak pada reslut view sbb:
23
6. Two-way Tables (Crosstabs)
Prosedur Two-way table atau pada SPSS disebut crosstabs dipakai untuk
membuat analisis hubungan dua variabel kategorikal, misalnya hubungan antara jenis
kelamin (Sex) dengan CHD. Untuk membuat two-way tables dimulai dengan
mengklik Statistic pada toolbar menu kemudian pilih summaries, tables and test
selanjutnya pilih Tables kemudian klik Two-way tables with measures of association,
maka akan muncul box dialog sbb:
Masukkan variabel bebas (sex) pada kotak Row variable dan variable tergantung
(CHD) pada Column variable. Bila ingin menampilkan hasil uji Chi Square bisa
dicentang Pearson’s chi-squared. Untuk menjalankan klik OK.
Untuk melakukan prosedur yang sama menggunakan syntax, pada commands window
bisa diketik: tabulate sex CHD, chi2 col row
Tujuan penambahan option col dan row pada syntax (perintah) agar two-way tables
menampilkan juga column dan row percentages. Setelah mengetik syntax (perintah)
diatas diikuti enter maka akan muncul hasil analisis pada results window sbb:
24
Interpretasi:
Interpretasi terhadap Two-way table dapat dilakukan dengan melihat percentages:
1) Berdasarkan Row percentage dapat disimpulkan bahwa risiko kejadian CHD
pada kelompok laki-laki sebesar 38,7%, lebih tinggi dibandingkan pada
perempuan yang sebesar 25,6%. Pembacaan secara row percentage dilakukan
pada penelitian dengan desain kohort atau cross-sectional dengan pendekatan
analisis variabel eksposure.
2) Berdasarkan Column percentage dapat disimpulkan bahwa proporsi laki-laki
pada kelompok CHD sebesar 47,5%,, lebih banyak dibandingkan proporsi
laki-laki pada Bukan CHD yang sebesar 33,1%. Pembacaan secara column
percentage dilakukan pada penelitian dengan desain case control atau cross-
sectional dengan pendekatan analisis berdasarkan variable outcome.
25
Bagian 3 Mean Comparison
3.1 Pendahuluan
Prosedur mean comparison dipakai untuk menganalisis perbedaan rerata satu
sampel, dua sampel berpasangan, dua sampel bebas, dan menganalisis perebdaan
rerata lebih dari dua sampel bebas. Pada modul ini dibahas indikasi, persyaratan,
langkah menjalanan prosedure mean comparison dan cara interpretasi hasilnya.
3.2. Tujuan
Peserta latihan diharapkan dapat menggunakan STATA sebagai alat bantu
analisis perbedaan rerata pada berbagai penelitian kesehatan dan dapat memberikan
interpretasi berbagai output analisis Mean Comparison .
26
5. CI Perbedaan rerata
Nilai interval kepercayaan dihitung dengan rumus sbb;
CI (1-α) = beda ± tα x sd/√n
6. Cara membuat kesimpulan
Ho diterima:
bila nilai p > α, berarti tidak terdapat perbedaan rerata populasi dengan nilai test.
Ho ditolak:
bila nilai p ≤ α, berarti terdapat perbedaan antara populasi dengan nilai test
Contoh Kasus
Untuk menguji hipotesis tersebut, sebanyak 21 sampel diukur tekanan intraocularnya
dan hasilnya adalah sbb:
14,5 12,9 14,0 16,1 12,0 17,5 14,1 12,9 17,9 12,0
16,4 24,2 12,2 14,4 17,0 10,0 18,5 20,8 16,2 14,9 19,6
Apakah dari data sampel ini dapat disimpulkan bahwa tekanan intraocular orang tua
lebih dari 14 mmHg? Cara analisisnya adalah sbb.
7. Prosedur One sample T Test dengan STATA
1) Rekamlah data pada tabel diatas sesuai dengan prosedur yang telah dipelajari
pada Modul 1 bila masih cukup waktu atau bukalah data dengan nama
TIO.dta
2) Lakukan Uji Normalitas Data dengan prosedur yang telah dipelajari pada
Modul 2 atau ketiklah perintah pada command window: swilk TIO maka akan
muncul hasil sbb:
27
Masukkan variabel yang reratanya akan diuji ke box variable name dan
masukkan nilai test ke box “hypothesized mean” kemudian klik OK, maka
pada results window akan muncul hasil analisis sbb:
Hasil yang sama akan didapat dengan mengetik perintah: ttest TIO == 14
8. Interpretasi
Ho diterima (Ha ditolak) bila nilai p>0,05 sebaliknya Ho ditolak (Ha diterima)
bila nilai p ≤ 0,05. Berdasarkan hasil analisis diatas dilihat dari nilai p (Ha: mean!=14
Pr(|T| > |t|) = 0.0398), maka dapat disimpulkan bahwa Ho ditolak , berartinya rerata
tekanan intraoculer 15,62 ± 3,38 mmHg berbeda dengan 14 mmHg. Sehingga dapat
disimpulkan bahwa rerata tekanan intraoculer orang tua lebih tinggi dari 14 mmHg.
28
2. Persyaratan
Paired Samples T Test adalah bagian dari uji parametrik yang memiliki asumsi data
bedistribusi normal.
3. Hipotesis:
Ho. µd = 0 (tidak ada berbeda antar pasangan)
Ha. µd # 0 (ada berbeda antar pasangan)
4. Uji Statistik
Perbedaan rereta dua sampel berpasangan diuji dengan dependent samples T Test
dengan rumus sbb:
d
t=
sd / n
Dimana:
d = rerata beda pasangan
n = jumlah sampel pasangan
5. CI perbedaan
Nilai interval kepercayaan beda rerata pasangan dapat dihitung dengan rumus sbb:
CI(1-α) = d ± t x sd/√n
α
Dimana:
d = rerata beda pasangan
n = jumlah sampel pasangan
t = nilai t tabel untuk α tertentu
α
29
ergonomis (suhu, statasiun kerja, sikap kerja dan manajemen kerja yang ergonomik).
Data hasil pengukuran produktivitas adalah sbb:
Subyek Produktivitas Sebelum Produktivitas Setelah
Perlakauan (Pretest) Perlakuan (Posttest)
1 .308 .33
2 .169 .30
3 .201 .29
4 .215 .35
5 .225 .45
6 .218 .40
7 .326 .53
8 .252 .40
9 .345 .36
10 .227 .35
1) Rekamlah data pada tabel diatas sesuai dengan prosedur yang telah dipelajari
pada Modul 1 bila masih cukup waktu atau bukalah data dengan nama
kinerja_prepost.dta
2) Lakukan Uji Normalitas dengan prosedur yang telah dipelajari pada Modul 2
atau ketik perintah pada command window: swilk p_pre p_post maka akan
muncul hasil sbb:
30
3) Uji perbedaan mean berpasangan
Untuk melakukan uji perbedaan mean berpasangan pilihlah pada toolbar menu
Statistic kemudian “Summaries, tables and tests” kemudian pilih “Classical test of
hypotheses”, selanjutnya : “mean-comparison test paired data”, maka akan muncul:
Masukkan variabel p_pre ke box First variable dan p_post ke Second variable,
kemudian klik OK, maka pada results window akan muncul hasil analisis sbb:
Hasil yang sama akan didapat menggunakan perintah: ttest p_pre == p_post
8. Interpretasi
Hipotesis: Ho: µd = 0 (tidak ada perbedaan rerata kedua sampel)
Ha: µd != 0 (terdapat perbedaan rerata kedua sampel)
Kesimpulan
Ho diterima bila nilai p > α dan Ho ditolak bila nilai p ≤ α
Berdasarkan hasil analisis didapatkan nilai p (Ha: mean(diff) != 0 Pr(|T| > |t|)) =
0,0003 berarti produktivitas setelah intervensi ergonomik lebih tinggi dari sebelum
intervensi. Dari hasil analaisis dapat disimpulkan bahwa intervensi ergonomik pada
pekerja pabrik sepatu dapat meningkatkan produktivitas pekerja dari 0,2486 menjadi
0,376 buah sepatu perjam.
31
3.4 Independent Samples T Test
1. Indikasi
Independent Samples T Test dipakai untuk menguji beda rerata dua sampel
bebas. Contoh, akan diuji efek ekstrak seredelai terhadap serum feritin tikus.
Sebanyak 20 tikus dijadikan binatang percobaan, separunya diberi ekstrak seredelai
dan seperuhnya diberikan aqua (kontrol).
2. Persyaratan
Independent Samples T Test adalah bagian dari uji parametrik yang memiliki
asumsi data bedistribusi normal dan kedua kelompok memiliki varian yang sama
(homogen).
3. Hipotesis:
Ho. µ1 = µ2 (tidak terdapat perbedaan serum Fe antara perlakuan dengan kontrol)
Ha. µ1 # µ2 (terdapat perbedaan rerata serum Fe antara perlakuan dengan kontrol)
4. Uji Statistik Homogenitas Varian
Homogenitas varian kedua kelompok diuji dengan Levene’s Test dengan
menggunakan statistik F sbb:
F =SD12/SD22
Kedua sampel dinyatakan memiliki varian homogen bila uji Levene menunjukan nilai
p > α dan sebaliknya dinyatakan tidak homogen bila nilai p ≤ α.
5. Uji Statistik Perbedaan Rerata
Uji statitik yang dipakai menguji kebenaran hipotesis nol perbedaan rerata dua sampel
bebas adalah Independent Samples T Test. Cara penghitungan nilai Uji T pada
Independent Samples T Test dibedakan antara kedua sampel homogen dan kedua
sampel tidak homogen.
Cara penghitungan nilai statistik T untuk dua sampel homogen
Keterangan:
x1 − x 2
t= SDp = SD gabungan
2 2
SD p SD p
+ SD1 = standar deviasi sampel 1
n1 n2 SD2 = standar deviasi sampel 2
n1 = jumlah sampel 1
2 2 2
SDp = {(n1-1)SD1 + (n2-1)SD2 }/(n1+n2-2) n2 = jumlah sampel 2
Cara penghitungan nilai statistik T untuk dua sampel tidak homogen
x1 − x 2
t=
2 2
SD1 SD2
+
n1 n2
32
6. CI perbedaan rerata
Nilai interval kepercayaan beda rerata pasangan dapat dihitung dengan rumus sbb:
( )
CI(1-α) = x1 − x 2 ± t x se α
Dimana: (x 1 )
− x 2 = beda rerata
se = standar error beda rerata
t = nilai t tabel untuk α tertentu
α
1) Rekamlah data pada tabel diatas sesuai dengan prosedur yang telah dipelajari
pada Modul 1 bila masih cukup waktu atau bukalah data dengan nama
seredele_tt.dta
2) Lakukan Uji Normalitas dengan prosedur yang telah dipelajari pada Modul 2
atau ketik perintah pada command window: by kelompok, sort : swilk
Feritin maka akan muncul hasil sbb:
33
Berdasarkan hasil tersebut dapat diinterpretasikan bahwa sebaran data kadar feritin
pada kelompok kontrol dan seredele berdistribusi normal sehingga syarat untuk
melakukan uji independent sample t test terpenuhi.
Masukkan variabel Feritin pada box variable sebagai variabel yang akan diuji
homogenitas (equal) variannya kemudian masukkan variabel kelompok ke dalam
variable defining comparison groups. Setelah itu klik OK, maka akan muncul hasil
sbb:
34
Berdasarkan hasil analisis didapatkan nilai p (Pr > F) = 0,180 (dibulatkan) yang
berarti asumsi equal variance terpenuhi sehingga jenis uji independent sampel t test
yang dipilih adalah yang asumsi equal variance terpenuhi. Caranya adalah: pilihlah
menu Statistic kemudian “Summaries, tables and tests” kemudian pilih “Classical test
of hypotheses”, selanjutnya klik: “Two group-mean comparison test”, maka akan
muncul sbb:
Masukkan variabel Feritin pada variable name dan kelompok pada Group variable
name, oleh karena asumsi equal variance terpenuhi maka option Unequal variance
tidak usah dicentang. Kemudian klik OK maka akan muncul hasil sbb:
35
Hasil yang sama akan didapat dengan menggunakan perintah:
ttest Feritin, by(kelompok)
9. Interpretasi
Deskriptif:
Rerata serum Fe pada kelompok seredelai lebih tinggi dari kontrol. Rerata
serum Fe kelompok kontrol adalah 31,01±6,03, sedangkan kelompok seredelai
adalah 51,88±22,23
Uji beda mean
Hipotesis perbedaan mean adalah sbb:
Ho: µ1 = µ2 (tida berbeda); Ha: µ1 # µ2 (berbeda)
Didapatkan beda mean = - 20,866 dengan CI 95% (-39,8367 s/d -1,8956) dan
nilai p (Ha: diff != 0 Pr(|T| > |t|)) = 0,034. Ini berarti seredelai meningkatkan
serum Fe secara bermakna.
36
Bagian 4 One-Way ANOVA
4.1 Pendahuluan
Prosedure One-Way ANOVA dipakai untuk menganalisis perebdaan rerata
lebih dari dua sampel bebas. Pada modul ini akan dibahas indikasi, persyaratan,
langkah menjalanan prosedure One-Way ANOVA dan cara interpretasi hasilnya.
4.2 Tujuan
Peserta latihan diharapkan dapat menggunakan STATA sebagai alat bantu
analisis perbedaan rerata pada berbagai penelitian kesehatan dan dapat memberikan
interpretasi berbagai output analisis One-Way ANOVA.
4.3 Pokok Bahasan
Pada modul ini akan dibahas prosedure:
1. Indikasi
2. Persyaratan
3. Hipotesis
4. Uji One-Way ANOVA
5. Uji Post Hoc
4.4 Indikasi
Uji One-way Anova dipakai menganalisis perbedaan rerata lebih dari dua
kelompok sampel bebas. Sebagai contoh, akan menganalisis efek ekstrak seredelai
terhadap serum Fe. Penelitian eksperimen dengan rancangan acak lengkap dimana
terdapat tiga kelompok percobaan, yaitu kelompok kontrol, ekstrak seredelai dosis
50% dan seredelai dosis 75%. Untuk menganalisis perbedaan efek dilakukan dengan
membadingkan rerata serum Fe antara ke tiga kelompok. Analisis perbedaan rerata
serum Fe dari ketiga kelompok dilakukan dengan uji One-way Anova.
4.5 Persyaratan
Uji One-way ANOVA adalah bagian dari uji parametrik yang memiliki
asumsi data bedistribusi normal dan antar kelompok memiliki varian yang sama
(homogen).
4.6 Hipotesis:
Ho. µ1 = µ2 = µ3 (tidak terdapat perbedaan serum Fe antara kelompok)
Ha. Paling sedikit terdapat dua kelompok yang memiliki rerata serum Fe berbeda
37
4.5 Uji Statistik
Uji statistik pada analisis variance menggunakan uji Variance Ratio atau uji F dengan
rumus statistik sbb:
Varian antar kelompok
F = -------------------------------------
Varian dalam kelompok
Varian antar kelompok:
Varian kelompok menggambarkan variasi antar kelompok.
Varian antar kelompok = jumlah kwadrat antar kelompok/db
Berdasarkan uraian di atas, maka resume perhitungan analisis varian pada One-Way
Anova dapat disajikan sebagai berikut.
Sumber Jumlah Kwadrat Derajat Varian Varian Ratio
Variasi (Sum Square) Bebas (Mean Square)
Between k
(k −1) MSG = SSG/(k-1) F= MSG/MSE
groups
SSG= (
∑ nk y k − y
1
)
2
(Error)
∑∑ (y
i j
i. j − y i. )
38
4.6 Cara membuat kesimpulan uji Anova
Kesimpulan dibuat berdasarkan nilai p dari statistik F.
Ho diterima bila nilai p > α, berarti tidak ada kelompok yang berbeda
Ho ditolak bila nilai p ≤ α, berarti ada kelompok yang berbeda
39
4.8. Prosedur STATA
1) Rekamlah data pada tabel diatas sesuai dengan prosedur yang telah dipelajari
pada Modul 1 bila masih cukup waktu atau bukalah data dengan nama
seredele_owa.dta
2) Lakukan Uji Normalitas sesuai prosedur yang dipelajari pd Modul 2 atau ketik
perintah pada command window: by group, sort : swilk Serum_Fe maka
akan muncul hasil sbb:
Berdasarkan hasil tersebut dapat diinterpretasikan bahwa sebaran data kadar feritin
pada kelompok kontrol, seredele 50% dan seredele 70% berdistribusi normal
sehingga syarat untuk melakukan uji One-way ANOVA terpenuhi.
40
Masukkan variabel Serum_Fe pada Response variable dan variabel group pada Factor
variable. Pilihlah salah satu uji Post Hoc dari 3 yang tersedia, misalnya Bonferroni.
Kemudian klik OK maka akan muncul hasil sbb:
4.9 Interpretasi
41
Bagian 5 Korelasi & Regresi Linear
Correlation & Linear Regression
5.1 Korelasi
1. Pendahuluan
Korelasi dipakai untuk menganalisis hubungan dua variabel numerik atau ordinal,
misalnya hubungan antara berat badan (nemerik) dengan tinggi badan (numerik) atau
antara skor kepuasan pasien (ordinal) dengan skor loyalitas pasien (ordinal). Pada
modul ini akan dibahas indikasi, persyaratan, langkah-langkah dalam prosedure
correlation dan cara interpretasi hasilnya.
Peserta latihan diharapkan dapat menggunakan STATA sebagai alat bantu analisis
korelasi pada berbagai penelitian kesehatan dan dapat memberikan interpretasi
berbagai output analisis korelasi.
Pokok Bahasan
Pada modul ini akan dibahas:
1) Indikasi correlation
2) Asumsi
3) Hipotesis
4) Metode analisis
5) Conclussion
6) Prosedur Correlation
7) Output & Interpretasi
2. Indikasi
Analisis korelasi dipakai untuk menganalisis hubungan variabel X dan Y dimana
variabel X dan y berskala pengukuran interval atau ordinal. Misalnya akan
mempelajari hubungan antara panjang tungkai kaki dengan jauh lompatan. Panjang
tungkai bawah (dalam cm) adalah variabel berskala interval dan jauh lompatan (dalam
meter) juga berskala interval.
3. Persyaratan
Uji korelasi terdiri dari tiga jenis yaitu: korelasi Pearson, Spearman Rank, dan
Kendall.
1) Pearson Correlation
Variabel X dan Y merupakan variabel numerik atau interval dan berdistribus
normal.
42
2) Spearman rank Correlation
Variabel X dan Y adalah variabel numerik akan tetapi data dari kedua atau salah
satu dari variabel tersebut tidak berdistribusi normal atau keduanya merupakan
variabel ordinal.
3) Kendall
Variabel X dan Y berskala pengukuran ordinal.
4 Scater Plot
Bila X dan Y adalah variabel yang akan dianalisis hubungannya, maka Scatter Plot
variabel X dan Y adalah grafik koordinat (X,Y) dari setiap sampel. Dari Scatter plot
tersebut akan dapat dilihat kuat dan arah hubungan dari kedua variabel tersebut. Bila
semua koordinat (X,Y) terletak pada satu garis lurus, maka hubungan kedua variabel
tersebut dinyatakan sempurna. Sebaliknya, bila koordinat (X,Y) menyebar disemua
area grafik dan tidak menunjukan bentuk tertentu, maka kedua variabel tersebut
dinyatakan tidak ada hubungan. Kalau koordinat (X,Y) menyebar dalam bentuk elip
maka kedua variabel tersebut dinyatakan memiliki hubungan yang tidak sempurna.
Arah hubungan kedua variabel X dan Y bisa positif atau searah dan bisa negatif atau
berlawanan arah. Kedua variabel dinyatakan memiliki hubungan serarah bila gambar
menunjukan jika nilai X bertambah, nilai Y juga bertambah. Sebaliknya kedua
variabel dikatakan memilki hubungan negatif bila scatter plot menunjukan bila nilai X
bertambah akan diukuti oleh penurunan dari nilai Y. Berikut adalah contoh beberapa
bentuk scatter plot.
14.00
17.50
12.00
15.00
10.00
12.50
8.00
Y
Y
6.00
10.00
4.00
7.50
2.00
5.00 0.00
0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
X X
43
15.00
14.00
12.00
12.00
10.00
9.00
8.00
Y
Y
6.00 6.00
4.00
3.00
2.00
0.00 0.00
0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00 0.00 2.00 4.00 6.00 8.00 10.00 12.00 14.00
X X
15.00
10.00
Y
5.00
0.00
5. Koefisien Korelasi
Apabila variabel X dan Y yang diteliti hubungannnya, maka kuat dan arah hubungan
dari kedua variabel tersebut, selain dapat dilihat secara kasar dari scatter plot, juga
dapat ditentukan dengan koefisien korelasi dari hubungan kedua variabel tersebut.
Koefisien korelasi diberi simbul ‘r’ memiliki rentang nilai absolutnya dari 0 sampai
dengan 1. Nilai r = 0, berarti kedua variabel tersebut sama sekali tidak berhubungan
atau nilai dari variabel yang satu sama sekali tidak berkaitan dengan nilai variabel
yang lainnya. Bila nilai r antara 0,1 – 0,39 dinyatakan ada hubungan yang ringan,
nilai r antara 0,4-0,69 disebut ada hubungan sedang, nilai r 0,7-0,99 dinyatakan ada
hubungan yang kuat dan bila nilai r = 1 menunjukkan adanya hubungan yang
sempurna antara kedua variabel tersebut. Hubungan sempurna artinya setiap kenaikan
satu unit dari variabel yang pertama akan diikuti pula oleh meningkatnya satu unit
dari variabel yang kedua dan scatter plotnya akan berbentuk sebuah garis lurus.
Arah hubungan dari kedua variabel tersebut ditentukan dari tanda +/- dari nilai r. Bila
nilai r bertanda negatif maka kedua variabel tersebut dinyatakan memiliki hubungan
negatif (berlawanan arah). Sebaliknya, bila nilai r bertanda positif maka kedua
variabel tersebut memiliki hubungan positif (searah). Hubungan positif artinya arah
44
perubahan kedua nilai variabel tersebut searah. Bila nilai dari variabel yang satunya
naik akan diikuti pula oleh naiknya nilai variabel yang satu lagi. Misalnya umur dan
berat badan mempunyai hubungan positif artinya bila umur bertambah, maka berat
badan juga bertambah. Sebaliknya, hubungan negatif berarti arah perubahan nilai
kedua variabel tersebut berlawanan. Bila nilai variabel yang satu naik, akan diikuti
oleh menurunnya nilai variabel yang lain. Misalnya hubungan antara bensin dalam
tangki dengan jarak yang ditempuh. Makin jauh jarak yang ditempuh, makin
berkurang jumlah bensin di dalam tangki.
6. Cara Menghitung Koefisien Korelasi (r)
Bila variabel yang akan dipelajari hubungannya adalah variabel X dan Y, maka
koefisien korelasi hubungan dari kedua variabel tersebut dapat dihitung sebagai
berikut:
Rumus:
r=
∑ XY − (∑ X ∑ Y )/ n
{∑ X 2
− (∑ X ) / n}{∑ Y − (∑ Y )
2 2 2
}
/n
Keterangan:
r = koefisien korelasi
ƩXY = jumlah hasil kali nilai var X dengan var Y
ƩX = jumlah nilai var X
ƩY = jumlah nilai var Y
ƩX2 = jumlah nilai var X kwadrat
ƩY2 = jumlah nilai var Y kwadrat
n = jumlah sampel
7. Uji Hipotesa Koefisien Korelasi
Sangatlah tidak mungkin menentukan korelasi variabel X dan Y di populasi, maka
pada banyak penelitian, penentuan korelasi X dan Y dilakukan pada sampel. Untuk
menentukan apakah korelasi yang ditentukan dari sampel benar menggambarkan
korelasi X dan Y di poluasi, maka perlu dilakukan uji hipotesis degan langkah
berikut.
1) Menetapakan hipotesis untuk korelasi
Hipotesis statistik sbb:
Ho: ρ = 0 (tidak ada hubungan)
Ha: ρ # 0 (ada hubungan
2) Metode analisis
45
Koefisien korelasi mempunyai distribusi menyerupai distribusi t, oleh karena
itu, uji Hipotesa koefisien korelasi dilakukan dengan statistik uji “t” dengan
derajat bebas df = n-2 dengan rumus sbb.
r r
t= = ( n − 2)
2
(1 − r ) (1 − r 2 )
(n − 2)
Keterangan:
t = nilai statistik t
r = koefisien korelasi sampel
n = jumlah sampel
8. Cara Pengambilan kesimpulan
Ho diterima bila nilai p > 0,05 dan Ho ditolak bila nilai p ≤ 0,05.
Nilai p dapat dilihat pada tabel distribusi t dan pada semua program paket statsitik
akan mencantumkan nilai p dari hasil uji pada tabel luaran (output) hasil analisnya.
Contoh Kasus: untuk bahan latihan, berikut adalah data sebuah penelitian cross-
sectional karakteristik faktor risiko penderita CHD di Rumah Sakit X.
Tabel 1. Karakteristik faktor risiko CHD di Rumah Sakit X
No. Age Chol BMI No. Age Chol BMI
1 56 292 31.85 16 56 329 20.30
2 48 339 31.06 17 44 349 25.96
3 60 303 30.17 18 29 419 25.40
4 59 269 27.94 19 45 278 26.08
5 58 312 21.43 20 44 354 28.62
6 64 185 32.44 21 34 317 22.67
7 59 303 24.96 22 40 334 24.66
8 47 304 33.05 23 34 345 31.47
9 47 334 23.02 24 39 330 39.54
10 28 328 27.12 25 45 347 25.10
11 54 363 28.46 26 41 339 22.05
12 38 399 26.63 27 57 353 28.59
13 35 321 25.90 28 57 220 25.84
14 64 244 30.83 29 38 385 26.83
15 34 314 24.55 30 45 240 32.73
46
9 Prosedur Correlation
1) Rekamlah data di atas dengan cara seperti yang sudah dilakukan pada modul
sebelumnya atau bukalah data dengan nama korelasi_regresi.dta.
2) Lakukan Uji Normalitas sesuai prosedur yang dipelajari pd Modul 2 atau ketik
perintah pada command window: swilk Age cholesterol BMI maka akan muncul
hasil sbb:
Kemudian klik Create maka akan muncul lagi box dialog sbb:
47
Pastikkan Basic Plot terpilih untuk membuat simple scatter plot kemudian
masukkan variabel cholesterol ke Y variable dan Age ke X variable, kemudian
klik Accept untuk kembali ke box dialog sebelumnya, maka akan tampak, sbb:
Muncul Plot 1 pada box Plot definitions yang menandakan kita sudah merancang
scatter plot. Untuk menambahkan garis linier klik kembali Create maka akan
tampil box dialog:
Untuk menampilkan garis linier prediction, pastikkan Fit plot dan linier
prediction terpilih. Setelah itu masukkan variabel cholesterol ke Y variable dan
48
Age ke X variable, kemudian klik Accept untuk kembali ke box dialog
sebelumnya, maka akan tampak, sbb:
49
“Summarize and descriptive statistic”, selanjutnya klik “Pairwise Correlation”
maka akan muncul sbb:
.
Masukkan semua variabel yang ingin dikorelasikan pada box variables dan ingat
centang Print significance level for each entry untuk menampilkan nilai p.
Selanjutnya klik OK makan akan muncul hasil sbb:
50
Hubungan dinyatakan bermakna bila nilai p ≤ α dan sebaliknya dinyatakan tidak
bermakna bila p > α. Dari hasil analisis di atas dapat disimpulkan bahwa umur
berkorelasi negatif sedang dengan kolesterol (p = 0,0008), tetapi tidak berkorealsi
dengan IMT (nilai p = 0,5510). Kolesterol berhubungan negatif sedang dengan umur
(p = 001), tetapi tidak berkorelasi dengan IMT (p = 0,1709).
51
5.2 Regresi
1. Pendahuluan
Metode korelas dipakai untuk mempelajari hubungan antara variabel numeri X
dengan numerik Y. Korelasi tidak menjelaskan hubungan sebab-akibat atau causal
relationship anatara variabel terhadap Y. Berbeda dengan metode regresi, dimana
tujuan utamanya adalah mempelajari hubungan sebab-akibat antara variabel bebas X
terhadap variabel tergantung Y. Dalam regresi, variabel bebas juga disebut variabel
prediktor karena nilai variabel y dapat dipredikasi dari nilai variabel X berdasarkan
persamaan regresi antara variabel Y dengan X.
Dalam bidang kesehatan, metode regresi umumnya dipakai untuk memprediksi
variabel Y dari variabel X dan kegunaan lainnya adalah untuk mempelajari besar
pengaruh variabel prediktor X terhadap variabel outcome Y.
Peserta latihan diharapkan dapat menggunakan STATA sebagai alat bantu analisis
regresi pada berbagai penelitian kesehatan dan dapat memberikan interpretasi
berbagai output analisis korelasi.
Pokok Bahasan
Sehubungan dengan kegunaan tersebut, pada modul ini akan dibahas tentang:
1) Indikasi
2) Asumsi
3) Metode seleksi variabel prediktor
4) Parameter Regresi
5) Prosedur STATA
6) Interpretasi hasil
2. Indikasi
Prosedur Regresi dipakai untuk menganalisis hubungan dan pengaruh satu atau
beberapa variabel prediktor atau Risk faktor terhadap satu variabel tergantung yang
berskala interval atau numerik. Sebagai contoh misalnya akan dipelajari pengaruh
merokok (ya/tidak), umur (th), kolesterol darah, indek masa tubuh (IMT), tekanan
darah sistole terhadap kadar gula penderita DM type II.
3. Model
Dalam analisa regresi, pengaruh variabel bebas Xi terhadap variabel tergantung Y
diasumsikan linier, sehingga hubungan dari kedua variabel tersebut dapat dinyatakan
dalam suatu persamaan garis lurus yang disebut sebagai Model Regresi Linier sebagai
berikut:
52
Y = a + biXi + ε
Keterangan:
Y = variabel tergantung (dependent variable)
Xi = variabel bebas (independent variable) ke i
bi = koefisien regresi variabel bebas ke i
a = konstan atau intercept
ε = residu (eror)
4. Persyaratan
Validitas hasil analisis regresi diragukan atau bias bila asumsi analisis regresi seperti
berikut tidak terpenuhi.
1. Homoskedastik
Data dari variabel outcome Y, untuk setiap nilai variabel prediktor X, harus
berdistribusi normal dan memiliki varian yang sama (homogen) serta memiliki nilai
rerata yang terletak dalam satu garis lurus atau disebut Homoskedastik.
4. Linearitas
Terdapat hubungan linear dari semua variabel prediktor Xi dengan variabel outcome
Y.
5. Koefisien regresi
Koefisien regresi menyatakan besarnya perubahan yang terjadi pada nilai variabel
tergantung Y sebagai pengaruh dari setiap perubahan satu unit nilai variabel bebas X
dan koefisien regresi diberi simbol “b”. Misalnya dari hasil analisis pengaruh variabel
bebas X terhadap variabel tergantung Y mempunyai nilai b = 3, maka ini berarti kalau
nilai nilai X berubah satu unit maka nilai Y akan berubah 3 unit. Koefisien regresi
dapat dihitung dengan rumus sebagai berikut:
b=
∑ XY − (∑ X )(∑ Y ) / n
2 2
∑ X − (∑ X ) / n
53
Keterangan:
b = koefisien regresi
∑XY = jumlah hasil kali nilai var bebas (X) dengan nilai var tak bebas (Y)
∑X = jumlah nilai variabel bebas (X)
∑Y = jumlah nilai var tak bebas (Y)
∑X2 = jumlah kwadrat nilai var bebas (X)
n = jumlah sampel
6. Koefisien determinasi R2 (explanatory Power)
Besar pengaruh variabel bebas X terhadap variabel tergantung Y dinyatakan dengan
besarnya nilai koefisien determinan R2. Nilai R2 menyatakan proporsi variasi variabel
tergantung Y yang dapat dijelaskan oleh nilai variabel bebas X. Nilai R2 dapat
bervariasi antara 0 sampai 1. Bilai nilai R2 = 1, berarti semua variasi nilai variabel
tergantung Y dapat dijelaskan oleh variabel bebas X berarti tidak ada faktor lain yang
ikut mempengaruhi nilai variabel tergantung Y tersebut. Sebaliknya, bila nilai R2 = 0
menunjukkan bahwa variabel bebas X sama sekali tidak berpengaruh terhadap
variabel tergantung Y. Apabila persamaan regresi linear antara variabel bebas X dan
variabel tergantung Y adalah: Y’ = a + bX, maka besar nilai R2 dapat dihitung
sebagai berikut.
7. Metode seleksi variabel prediktor
Metode seleksi variabel prediktor terdiri dari metode Enter, Backward, Forward, dan
Stepwise. Berikut adalah penjelasan singkat dari masing-masing metode.
1) Method Enter
Pada metode ini, semua variabel dipilih sekaligus sehingga hanya ada satu
model. Pada pilihan ini, hanya R2 gabungan yang dihitung sedangkan R2 dari
masing-masing prediktor tidak dihitung.
2) Method Backward
Pada metode ini seleksi dilakukan secara bertahap. Tahap pertama, semua
variabel dimasukan ke dalam model, kemudian variabel prediktor yang tidak
berhubungan dengan variabel outcome, satu-persatu dikeluarkan dari model.
Pada model ini juga tidak dihitung R2 dari masing-masing variabel yang
berpengaruh.
3) Method Forward
Berlawanan dengan metode Backward, pada metode ini, variabel prediktor
yang berpengaruh akan dimasukan ke dalam model secara bertahap mulai dari
54
yang pengaruhnya paling besar sampai yang paling kecil. Pada model ini akan
dihitung R2 dari masing-masing prediktor yang ada di dalam model.
4) Method Stepwise
Metode ini merupakan gabungan dari Forward dengan Backward. Pada
metode ini, semua prediktor yang ada di dalam model dapat dihitung R2nya.
8. Prosedur Regresi
Sebagai bahan latihan akan dipakai data hasil penelitian cross-sectional hubungan
TNF_α, sTNF-R1, RBP4, HOMa-IR dan imt terhadap kadar gula darah penderita
DM. Data disimpan dalam file: latihan regresi linier.dta
Prosedure Regresi adalah sbb:
55
Hasil yang sama didapat dengan mengetik perintah:
regress gd_puasa tnf_a stnfr1 rbp4 homa_ir imt
Sebelum membaca hasil analisis regresi linier maka terlebih dahulu dilakukan
diagnostik untuk menilai apakah model sudah memenuhi persyaratan (lihat sub
bab 5.2.3).
a. Asumsi yang dapat dinilai dari hasil analisis regresi linier diatas adalah
linearitas. Linearitas hubungan antara variabel prediktor terhadap variabel
outcome Y dapat dilihat dari hasil analisis Anova. Dinyatakan terdapat
hubungan linear bila nilai p (Prob>F) dari analisis Anova < α. Pada hasil
Anova di atas didapatkan nilai p < 0,05 (<0,001), berarti terdapat hubungan
yag linear antara prediktor dengan outcome.
b. Untuk menilai apakah asumsi homoskedastik terpenuhi maka dilakukan test
for heteroskedasticity dengan cara: pilih menu “Statistic”, “Linier models and
related”, kemudian pilih “Regression diagnostic” selanjutnya klik
“Spesification tests and etc”, maka akan muncul box dialog sbb:
56
Pilihlah “Tests for heteroskedasticity (httest), kemudian centang “Use fitted
values of the regression”. Setelah itu klik OK maka akan muncul hasil sbb:
Hasil yang sama akan didapat jika menegtik perintah: estat hettest
Interpretasi: Berdasarkan hasil Tests for heteroskedasticity didapatkan nilai p
(Prob>chi2) < 0,001 maka dapat disimpulkan bahwa model yang dibuat tidak
fit dengan asumsi heteroskedasticity, dengan kata lain asumsi
homoskedasticity terpenuhi.
57
Pilihlah Variance inflation factor for the independent variable (vif) kemudian
klik OK, maka akan muncul hasil sbb:
Hasil yang sama akan didapat jika menegtik perintah: estat vif
Interpretasi: Adanya multikolinearitas antar variabel prediktor ditentukan dari
nilai VIF (Variance Inflation Factors). Dinyatakan terdapat multikoliearitas
bila nilai VIF > 10. Pada output STATA di atas didapatkan nilai VIF untuk
masing-masing predictor ≤ 10, maka dapat disimpulkan bahwa tidak terdapat
multikolinearitas antara variabel prediktor.
d. Otokorelasi atau korelasi berseri hanya mungkin terjadi pada data time series,
oleh karena data penelitian ini bukan data time series maka penilaian terhadap
adanya otokorelasi tidak perlu dilakukan atau dengan kata lain tidak terdapat
otokorelasi.
58
9. Interpretasi
Persyaratan
Berdasarkan hasil regression diagnostic diatas maka dapat dikatakan bahwa semua
persyaratan untuk uji regressi linier telah terpenuhi.
Hasil analisis regresi linier
Apakah variabel prediktor Xi berpengaruh terhadap variabel outcome Y, dilihat dari
hasil analisis Anova. Variabel prediktor dinyatakan ada yang berpengaruh secara
linear bila nilai p dari Anova < 0,05. Pada hasil analisis di atas didapatkan nilai p dari
hasil Anova < 0,05, berarti ada variabel prediktor Xi yang berpengaruh terhadap Y.
Kalau menggunakan metode ENTER dalam seleksi variabel prediktor, dari hasil
analisi Anova belum dapat diketahui variabel prediktor mana saja yang berpengaruh.
Untuk mengetahuinya dapat dilihat dari koefisien regresinya. Sebaliknya, kalau
metode seleksi menggunakan metode Stepwise, forward atau backward, akan
diketahui variabel prediktor mana yang berpengaruh.
Besar pengaruh dari variabel yang terdapat di dalam model regresi dapat dilihat dari
nilai R2 yang terdapat pada model summary. Bila menggunakan metode seleksi
ENTER, nilai R2 yang diberikan merupakan nilai R2 gabungan dari semua variabel
prediktor. Bila menggunakan metode Stepwise atai Forward, R2 dari masing-masing
variabel prediktor yang berpengaruh dapat dilihat dari nilai R2 change.
Analisis di atas menggunakan metode enter dan berdasarkan hasil analisis diketahui
kelima prediktor tersebut memberikan pengaruh sebesar 60,1% terhadap variasi
outcome (kadar gula darah puasa). Hanya 2 prediktor yang berpengaruh secara
bermakna terhadap kadar gula darah puasa, yaitu RBP4 dengan koefesien β sebesar
1,2 dan HOMA IR dengan koefesien β sebesar 14,7.
59
Daftar Pustaka
60