Pengenalan Stata

PENGENALAN
STATA
Johan Harlan
Pengenalan Stata
Penulis : Johan Harlan
ISBN : 978-602-9438-79-6
Cetakan Pertama, Juni 2017
Disain cover : Joko Slameto
Diterbitkan pertama kali oleh Gunadarma

Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id
Hak Cipta dilindungi undang-undang. Dilarang mengutip atau

memperbanyak dalam bentuk apapun sebagian atau seluruh isi
buku tanpa ijin tertulis dari penerbit.
Kata Pengantar
KATA PENGANTAR
Stata adalah program komputer untuk analisis statistik, pertama kali
dibuat oleh StataCorp pada tahun 1985. Stata tersedia untuk Windows, Unix,
dan Mac. Sampai versi 7, Stata masih menggunakan sistem operasi DOS,
tetapi sejak versi 8 ke atas telah berbasis Windows dengan pull-down menu.
Walaupun demikian, pengguna Stata sangat dianjurkan untuk menggunakan
perintah dalam mode interaktif, yang terutama akan dibahas dalam buku ini.
Pembaca buku ini diharapkan telah menguasai dasar-dasar metode dan
analisis statistik, yang tidak akan dibahas lagi secara mendetil dalam buku
ini. Saran dan kritik dari pembaca sangat diharapkan, demi perbaikan isi
buku pada penerbitan selanjutnya.
Jakarta, Juni 2017
Penulis
v
Daftar Isi
DAFTAR ISI
Kata Pengantar v
Daftar Isi vi
Bab 1 Pendahuluan 1
Membuka dan Menutup Program & File Data 1
Membuat File Data Baru Stata 6
Mengimpor File Excel ke dalam Stata 10
Menyimpan Analisis Data Stata dalam File Log 12
Bab 2 Manajemen Data 17

Membuka file data: use, sysuse, dan webuse 17
Membuka dan menyimpan file data dalam format 18
Excel: import dan export
Menampilkan isi dataset: edit dan browse 18
Pembatasan perintah: ekspresi if dan in 19
Menampilkan nilai-nilai variabel dan definisi nilai- 21
nilai label: list dan label list
Deskripsi data: describe 23
Tipe data dan kompresi data dalam memori: data 24
types dan compress
Konversi variabel string menjadi numeric dan 25
sebaliknya: destring dan tostring
Mengurutkan, membuang, dan mempertahankan 25
variabel: order, drop, dan keep
vi
Daftar Isi
Mengurutkan nilai variabel dan penggunaan hasilnya: 26

sort dan by
Membuat variabel baru dan mengganti nilai variabel: 27
generate, replace, dan egen
Bab 3 Statistika Deskriptif 28

Nilai-nilai Deskriptif Variabel Numerik 28
Nilai-nilai Deskriptif Variabel Kategorik 32
Bab 4 Grafik Statistik 39

Histogram dan Densitas Kernel 39
Histogram untuk Variabel Kategorik 46
Diagram Batang 47
Diagram Tebar 49
Diagram Kotak & Titik 52
Diagram Lingkar 55
Grafik Matriks 56
Bab 5 Analisis Statistik Sederhana 59

Uji t 59
Uji Khi-kuadrat 71
Bab 6 Analisis Variansi 80

Analisis Variansi 1-Arah 80
Analisis Variansi 2-Arah Tanpa Interaksi 84
Analisis Variansi 2-Arah Dengan Interaksi 87
vii
Daftar Isi
Bab 7 Analisis Regresi Linear 90

Regresi Linear Sederhana 90
Regresi Linear Sederhana dengan Prediktor Indikator 95
Regresi Linear Ganda 96
Regresi Linear Ganda dengan Prediktor Kategorik 99
Regresi Linear Ganda dengan Interaksi 101
Bab 8 Analisis Regresi Logistik 106

Model Regresi Logistik Sederhana 106
Model Regresi Logistik Ganda 109
Bab 9 Statistika Nonparametrik 114

Uji ranksum Wilcoxon (Mann-Whitney) 114
Uji signrank Wilcoxon 115
Uji Kesamaan Rank Kruskal-Wallis 116
Kepustakaan 119
viii
Bab 1. Pendahuluan
BAB 1
PENDAHULUAN
DAHULUAN
Membuka dan Menutup Program & File

Data
Stata adalah program statistik yang dikeluarkan oleh Stata
Corporation.. Salah satu keunikan Stata yaitu pengguna / organisasi
pengguna dapat mengembangkan perintah
perintah-perintah baru untuk berbagai
eluruh masyarakat pengguna Stata.
aplikasi untuk disumbangkan bagi seluruh
Perintah-perintah Stata dapat diberikan baik melalui menu maupun
secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian
perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela Stata
Command, Variables (terdiri terdiri atas 2 bagian: Name dan Properties),
Review, dan Stata Results (Gambar
Gambar 1.1).
1. Tampilan awal pada saat membuka program Stata

Gambar 1.1.
1
Bab 1. Pendahuluan
Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar

1.1a.
Gambar 1.1a.
1a. Jendela Stata secara terpisah.
Atas Kiri: Jendela Review; Atas Kanan: Jendela Stata Results;
Tengah (Kiri-Kanan):
Kanan): Jendela Variables;
Bawah: Jendela Stata Command
2
Bab 1. Pendahuluan
Menu bar Stata berisi opsi berikut ((Gambar 1.2):
Gambar 1.2.
2. Menu Bar Stata
Gambar 1.2a.
2a. Tool Bar Stata
Selain menu bar,, di bawahnya terdapat tool bar (Gambar 1.2a)
dengan arti masing-masing icon adalah:
dalah:
: Open
: Save
: Print Results
: New Viewer
: Log (begin/close/suspend/resume)
: Bring graph window to front
: New Do-file Editor
: Data Editor (Edit)
: Data Editor (Browse)
: Variables Manager
: Clear “more” condition
: Break
Membuka file data Stata (file dengan extension *.dta) dapat

dilakukan melalui menu (File > Open > . . . ) ataupun dengan menggunakan
perintah “use”.. Misalnya untuk membuka file honolulu.dta yang tersimpan
pada folder D:\Data\Stata\ diketikkan perintah
perintah:
. use "D:\Data\Stata\honolulu.dta"
onolulu.dta"
3
Bab 1. Pendahuluan
Jika sebelumnya ada file data Stata lain yang masih terbuka, maka
ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan
menghapus variabel-variabelnya dari memori komputer:
. use "D:\Data\Stata\honolulu.dta", clear
Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:
. cls
Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan
tombol Enter. Tiap perintah diketik pada jendela Stata Command yang
hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke
atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,
perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp
pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut
harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap
perintah yang telah dieksekusi juga akan muncul secara otomatis pada
jendela Review, yang dapat memuat lebih banyak baris perintah.
Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar
File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara
otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,
walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,
semua variabelnya, baik nama maupun properties-nya secara otomatis akan
muncul pada jendela Variables (gambar 1.3).
4
Bab 1. Pendahuluan
Gambar 1.3.. Contoh penggunaan perintah 'use' untuk membuka

file data Sta
Stata
Untuk memperoleh informasi lebih detil mengenai pengertian dan

penggunaan (dengan contoh) suatu perintah, digunakan perintah “help”,
misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“
atau “clear”, diketikkan perintah “help use” atau “help clear” yang akan
membuka jendela “help use” atau “help clear”:
. help use atau:
. help clear dan seterusnya.
Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan
program Stata, file yang masih terbuka ini harus dihapus dari memori
(ditutup) setelah sebelumnya di-saved
saved jika perlu. Perintah untuk menutup
file, lalu menutup program Stata ialah “clear”, lalu “exit”:
. clear
. exit
5
Bab 1. Pendahuluan
Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika
diberi perintah untuk membuka file data kedua, file data pertama otomatis
akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.
Dengan membuka program Stata kedua, file data kedua dapat dibuka pada
program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada
program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga
dengan file data ketiga, dan seterusnya.
Membuat File Data Baru Stata

Untuk membuat file data baru, cara termudah yaitu membuka jendela
Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 1.4] atau
ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar
1.4a), data dapat diisi dengan diketikkan secara langsung seperti pada
penggunaan spreadsheet biasa (gambar 1.4a).
Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar
6
Bab 1. Pendahuluan
Gambar 1.4a.. Jendela Stata Editor untuk pemasukan data
Nama variabel baru dapat diberikan setelah paling sedikit satu nilai
data diisikan pada kolom tersebut. Stata secara otomatis akan memberi nama
awal variabel berupa var1, var2, dan seterusnya. Setelah ada nilai data yang
diisi pada kolom pertama, dengan klik kiri ganda pada nama var1, jendela
Variable Properties akan ditampilkan dan pengguna dapat mengganti nama
variabel sesuai dengan keinginannya. Nama variabel dalam Stata dianjurkan
diawali dengan huruf kecil, bukan huruf besar
besar, angka ataupun garis bawah.
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
kosong (blank spaces)) di antaranya. Ruang kosong akan memisahkan suatu
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela Edit dan
kembali ke jendela Stata Command dan gunakan sintaks:
rename varname_old varname_new
Tiap variabel dapat diberi label dengan perintah label variable, yaitu
istilah yang memiliki arti jelas dan akan ditampilkan pada hasil analisis
Stata,, misalnya label untuk variabel bb adalah Berat Badan. Pemberian
label dapat dilakukan
ukan melalui jendela Variable Properties ataupun
diketikkan perintahnya pada jendela Stata Command dengan sintaks:
label variable varname ["label"
"label"]
7
Bab 1. Pendahuluan
Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti

tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak
merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,
tiap daftar taraf arti ini disebut nama nilai label (label values) dan nilai-nilai
yang direpresentasikan
irepresentasikan oleh suatu nama nilai label didefinisikan dengan
perintah label define.
Misalnya untuk variabel merokok dapat diberi nama nilai label
(label values) “yatidak“ dengan definisi (label define) “0 tidak 1 ya“.
Untuk variabel tk_pend, dapat diberi nama nilai label “kode_pend“ dengan
definisi “1 primer 2 sekunder 3 tersier”.
Perhatikan bahwa tiap nama nnilai label yang telah didefinisikan dapat
digunakan untuk variabel lain dengan definisi yang sama, misalnya nama
nilai label “yatidak“ dengan definisi “0 tidak 1 ya“ untuk variabel merokok
juga dapat dipakai untuk variabel hhbp yang menyatakan apakah responden
menderita hipertensi atau tidak.
Nama nilai label dan definisinya
finisinya dapat di
dibuat dengan perintah pada
jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan
melalui jendela Variables Manager yang dibuka dengan mengklik icon
Variables Manager pada Tool Bar (Gambar
Gambar 1.5).
Gambar 1.5.
5. Icon Variables Manager pada Tool Bar
Contoh 1.1:
Buka program Stata,, lalu klik ikon Data Editor atau ketikkan
perintah edit. Masukkan nilai-nilai data mahasiswa berikut pada spreadsheet
Data Editor (5 baris pertama dan 6 kolom terkiri):
8
Bab 1. Pendahuluan
1 1 18 1 59 1
2 2 21 1 55 1
3 2 22 0 42 0
4 1 19 1 57 0
5 3 20 0 47 0
Stata secara otomatis memberi nama keenam kolom tersebut dengan

var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut
untuk memberi/mengganti nama-nama variabel:
. rename var1 nores
. rename var2 fak
. rename var3 usia
. rename var 4 seks
. rename var5 bb
. rename var6 nktt
Berikut adalah perintah untuk memberi label bagi tiap variabel:
. label var nores “Nomor Responden”
. label var fak “Fakultas”
. label var usia “Usia”
. label var seks “Jenis Kelamin”
. label var bb “Berat Badan”
. label var nktt “Riwayat Nyeri Kepala”
Variabel pertama nores bukan merupakan variabel sebenarnya.
Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian
nama nilai label untuk variabel kategorik dan definisinya.
. label values fak kode_fak
. label define kode_fak 1 “Ilmu Komputer” 2 “Ekonomi” 3 “Psikologi”
. label values seks kode_seks
. label define kode_seks 1 “pria” 0 “wanita”
. label values nktt yesno
9
Bab 1. Pendahuluan
. label define yesno 1 “ya” 0 “tidak”

Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya
pada contoh ini diperlihatkan pada tabel berikut:
No Variabel Label Nilai label Definisi

1 fak Fakultas kode_fak 1 Ilmu Komputer
2 Ekonomi
3 Psikologi
2 seks Jenis Kelamin kode_seks 1 pria 0 wanita
3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak
Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai
label.
Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat
dilakukan melalui menu bar dengan mengklik “File > Save >
D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat
juga dilakukan dengan mengetikkan perintah:
. save "D:\Data\Stata\latihan1.dta"
file D:\Data\Stata\latihan1.dta saved
Mengimpor File Excel ke dalam Stata

Membuat file data baru Stata dapat juga dilakukan dengan terlebih
dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program
Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-
“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu
jika data juga hendak diolah dengan program komputer statistik lain.
Syarat untuk file Excel agar dapat di-“impor” ke dalam program
Stata (dan juga program komputer statistik lainnya) yaitu:
- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama
atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian
bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga
tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika
10
Bab 1. Pendahuluan
kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam
analisis data.
- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali
dengan huruf kecil.
- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),
baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh
responden termuat datanya, tanpa ada baris kosong yang terselip di antara
baris-baris data.
Prosedur untuk meng-“impor” file Excel ke dalam program Stata
dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata
Command.
Contoh 1.2:
Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file
Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.
Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,
*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela
Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-
“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1
worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai
default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di
depan tulisan “Import first row as variable names”, lalu klik OK., maka
file Excel bankloan.xls tersebut telah terbuka dalam Stata.
Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan
dengan mengetikkan perintah:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa
mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,
tetap harus melalui prosedur “save”:
. save "D:\Data\Stata\bankloan.dta"
file D:\Data\Stata\bankloan.dta saved
11
Bab 1. Pendahuluan
Menyimpan Analisis Data Stata dalam File

Log
Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat
direkam dan disimpan sebagai file log dengan format *.scml yang dapat
dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur
selengkapnya diperlihatkan pada contoh berikut.
Contoh 1.3:
Buka file log exercise1.scml untuk disimpan dalam
“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.
Atau ketikkan perintah:
. log using "D:\Data\Stata\exercise1"
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
opened on: 10 Jul 2015, 15:26:46
Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah
dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa
penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai
perintah-perintah akan diberikan dalam bab-bab berikut.
Misalkan hendak dibuka file data Arctic9.dta.
. use “D:\Data\Stata\Arctic9.dta”, clear
(Arctic September mean sea ice 1979-2011)
Atau klik File > Open > . . . > Arctic9.dta
Untuk melihat deskripsi singkat dataset yang ada dalam memori,
digunakan perintah describe.
. describe
Contains data from D:\Data\Stata\Arctic9.dta

obs: 33 Arctic September mean sea ice 1979-2011
vars: 8 2 Jul 2012 06:11
size: 891
12
Bab 1. Pendahuluan
---------------------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------------------
year int %ty Year
month byte %8.0g Month
extent float %9.0g Sea ice extent, million km^2
area float %9.0g Sea ice area, million km^2
volume float %8.0g Sea ice volume, 1000 km^3
volumehi float %9.0g Volume + 1.35 (uncertainty)
volumelo float %9.0g Volume - 1.35 (uncertainty)
tempN float %9.0g Annual air temp anomaly 64N-90N C
---------------------------------------------------------------------
Sorted by: year
Untuk melihat isi dataset pada record No. 1 s.d. 10:

. list in 1/10
+---------------------------------------------------------+
| year month extent area volume volumehi volumelo tempN |
|---------------------------------------------------------|
1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |
2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |
3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |
4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |
5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |
|---------------------------------------------------------|
6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |
7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |
8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |
9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |
10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |
+---------------------------------------------------------+
Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,
minimum, dan maksimum digunakan perintah summarize.
13
Bab 1. Pendahuluan
. summarize
Variable | Obs Mean Std. Dev. Min Max
---------+--------------------------------------------
year | 33 1995 9.66954 1979 2011
month | 33 9 0 9 9
extent | 33 6.51697 .9691796 4.3 7.88
area | 33 4.850303 .8468452 3.09 6.02
volume | 33 12.04664 3.346079 4.210367 16.9095
---------+--------------------------------------------
volumehi | 33 13.39664 3.346079 5.560367 18.2595
volumelo | 33 10.69664 3.346079 2.860367 15.5595
tempN | 33 .790303 .7157928 -.57 2.22
Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:

. correlate
(obs=33)
| year month extent area volume volumehi volumelo tempN
---------+----------------------------------------------------------
year | 1.0000
month | . .
extent | -0.8446 . 1.0000
area | -0.8732 . 0.9826 1.0000
volume | -0.8999 . 0.9308 0.9450 1.0000
volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000
volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000
tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000
Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan

dalam bentuk grafik:
14
Bab 1. Pendahuluan
. graph twoway connect extent year
8
Sea ice extent, million km^2
5 6 4 7
1980 1990 2000 2010

Year
Jika pengolahan dan analisis data telah selesai, file log dapat ditutup
dan disimpan:
. log close
name: <unnamed>
log type: smcl
closed on: 29 Jun 2014, 15:33:33
Perintah ini sama dengan melalui menu bar File > Log > Close.
Selama file log terbuka pada saat pengolahan dan analisis data, seandainya
program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis
data belum selesai, perekaman dapat dihentikan sementara, kemudian
dilanjutkan dengan sintaks:
log off logname (perintah penghentian sementara)
log on logname (perintah melanjutkan kembali)
File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam
program Stata dengan mengklik File > Log > View. File dalam format
*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan
wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File
> Log > View yang akan membuka jendela “Translate file” atau dengan
mengetikkan perintah:
15
Bab 1. Pendahuluan
. translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”

Selanjutnya file exercise1.log dapat dibuka dengan menggunakan
salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.
Hasil analisis data pada jendela Result juga dapat dipindahkan ke
Word Processor, misalnya MS Word dengan metode “salin-tempel” (copy-
paste). Untuk menjaga kerapian tampilan pada MS Word, gunakan font
Courier New.
Semua file data yang dipergunakan dalam buku ini dapat diunduh
dari http://harlan_johan.staff.gunadarma.ac.id/Publications.
16
Bab 1. Pendahuluan
BAB 1
PENDAHULUAN
DAHULUAN
Membuka dan Menutup Program & File

Data
Stata adalah program statistik yang dikeluarkan oleh Stata
Corporation.. Salah satu keunikan Stata yaitu pengguna / organisasi
pengguna dapat mengembangkan perintah
perintah-perintah baru untuk berbagai
eluruh masyarakat pengguna Stata.
aplikasi untuk disumbangkan bagi seluruh
Perintah-perintah Stata dapat diberikan baik melalui menu maupun
secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian
perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela Stata
Command, Variables (terdiri terdiri atas 2 bagian: Name dan Properties),
Review, dan Stata Results (Gambar
Gambar 1).
Gambar 1. Tampilan awal pada saat membuka program Stata
1
Bab 1. Pendahuluan
Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar 1a.
Gambar 1a. Jendela Stata secara terpisah.

Atas Kiri: Jendela Review; Atas Kanan: Jendela Stata Results;
Tengah (Kiri-Kanan):
Kanan): Jendela Variables;
Bawah: Jendela Stata Command
2
Bab 1. Pendahuluan
Menu bar Stata berisi opsi berikut ((Gambar 2):
Gambar 2. Menu Bar Stata
Gambar 2a. Tool Bar Stata

Selain menu bar,, di bawahnya terdapat tool bar (Gambar 2a) dengan
arti masing-masing icon adalah:
: Open
: Save
: Print Results
: New Viewer
: Log (begin/close/suspend/resume)
: Bring graph window to front
: New Do-file Editor
: Data Editor (Edit)
: Data Editor (Browse)
: Variables Manager
: Clear “more” condition
: Break
Membuka file data Stata (file dengan extension *.dta) dapat

dilakukan melalui menu (File > Open > . . . ) ataupun dengan menggunakan
perintah “use”.. Misalnya untuk membuka file honolulu.dta yang tersimpan
pada folder D:\Data\Stata\ diketikkan perintah
perintah:
. use "D:\Data\Stata\honolulu .dta"
3
Bab 1. Pendahuluan
Jika sebelumnya ada file data Stata lain yang masih terbuka, maka
ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan
menghapus variabel-variabelnya dari memori komputer:
Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:
. cls
Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan
tombol Enter. Tiap perintah diketik pada jendela Stata Command yang
hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke
atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,
perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp
pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut
harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap
perintah yang telah dieksekusi juga akan muncul secara otomatis pada
jendela Review, yang dapat memuat lebih banyak baris perintah.
Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar
File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara
otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,
walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,
semua variabelnya, baik nama maupun properties-nya secara otomatis akan
muncul pada jendela Variables (gambar 3).
4
Bab 1. Pendahuluan
Gambar 3.. Contoh penggunaan perintah 'use' untuk membuka

file data Sta
Stata
Untuk memperoleh informasi lebih detil mengenai pengertian dan

penggunaan (dengan contoh) suatu perintah, digunakan perintah “help”,
misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“
atau “clear”, diketikkan perintah “help use” atau “help clear” yang akan
membuka jendela “help use” atau “help clear”:
. help use atau:
. help clear dan seterusnya.
Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan
program Stata, file yang masih terbuka ini harus dihapus dari memori
(ditutup) setelah sebelumnya di-saved
saved jika perlu. Perintah untuk menutup
file, lalu menutup program Stata ialah “clear”, lalu “exit”:
. clear
. exit
5
Bab 1. Pendahuluan
Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika
diberi perintah untuk membuka file data kedua, file data pertama otomatis
akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.
Dengan membuka program Stata kedua, file data kedua dapat dibuka pada
program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada
program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga
dengan file data ketiga, dan seterusnya.
Membuat File Data Baru Stata

Untuk membuat file data baru, cara termudah yaitu membuka jendela
Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 4] atau
ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar 4a),
data dapat diisi dengan diketikkan secara langsung seperti pada penggunaan
spreadsheet biasa (gambar 4a).
Gambar 4. Icon Data Editor (Edit) pada Tool Bar
6
Bab 1. Pendahuluan
Gambar 4a.. Jendela Stata Editor untuk pemasukan data
Nama variabel baru dapat diberikan setelah paling sedikit satu nilai
data diisikan pada kolom tersebut. Stata secara otomatis akan memberi nama
awal variabel berupa var1, var2, dan seterusnya. Setelah ada nilai data yang
diisi pada kolom pertama, dengan klik kiri ganda pada nama var1, jendela
Variable Properties akan ditampilkan dan pengguna dapat mengganti nama
variabel sesuai dengan keinginannya. Nama variabel dalam Stata dianjurkan
diawali dengan huruf kecil, bukan huruf besar
besar, angka ataupun garis bawah.
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
kosong (blank spaces)) di antaranya. Ruang kosong akan memisahkan suatu
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela Edit dan
kembali ke jendela Stata Command dan gunakan sintaks:
rename varname_old varname_new
Tiap variabel dapat diberi label dengan perintah label variable, yaitu
istilah yang memiliki arti jelas dan akan ditampilkan pada hasil analisis
Stata,, misalnya label untuk variabel bb adalah Berat Badan. Pemberian
label dapat dilakukan melalui jendela Variable Properties ataupun
diketikkan perintahnya pada jendela Stata Command dengan sintaks:
label variable varname ["label"
"label"]
7
Bab 1. Pendahuluan
Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti

tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak
merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,
tiap daftar taraf arti ini disebut nama nilai label (label values) dan nilai-nilai
yang direpresentasikan
irepresentasikan oleh suatu nama nilai label didefinisikan dengan
perintah label define.
Misalnya untuk variabel merokok dapat diberi nama nilai label
(label values) “yatidak“ dengan definisi (label define) “0 tidak 1 ya“.
Untuk variabel tk_pend, dapat diberi nama nilai label “kode_pend“ dengan
definisi “1 primer 2 sekunder 3 tersier”.
Perhatikan bahwa tiap nama nnilai label yang telah didefinisikan dapat
digunakan untuk variabel lain dengan definisi yang sama, misalnya nama
nilai label “yatidak“ dengan definisi “0 tidak 1 ya“ untuk variabel merokok
juga dapat dipakai untuk variabel hhbp yang menyatakan apakah responden
menderita hipertensi atau tidak.
Nama nilai label dan definisinya
finisinya dapat di
dibuat dengan perintah pada
jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan
melalui jendela Variables Manager yang dibuka dengan mengklik icon
Variables Manager pada Tool Bar (Gambar
Gambar 5).
Gambar 5. Icon Variables Manager pada Tool Bar
Contoh 1.1:
Buka program Stata,, lalu klik ikon Data Editor atau ketikkan
perintah edit. Masukkan nilai-nilai data mahasiswa berikut pada spreadsheet
Data Editor (5 baris pertama dan 6 kolom terkiri):
8
Bab 1. Pendahuluan
1 1 18 1 59 1
2 2 21 1 55 1
3 2 22 0 42 0
4 1 19 1 57 0
5 3 20 0 47 0
Stata secara otomatis memberi nama keenam kolom tersebut dengan

var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut
untuk memberi/mengganti nama-nama variabel:
. rename var1 nores
. rename var2 fak
. rename var3 usia
. rename var 4 seks
. rename var5 bb
. rename var6 nktt
Berikut adalah perintah untuk memberi label bagi tiap variabel:
. label var nores “Nomor Responden”
. label var fak “Fakultas”
. label var usia “Usia”
. label var seks “Jenis Kelamin”
. label var bb “Berat Badan”
. label var nktt “Riwayat Nyeri Kepala”
Variabel pertama nores bukan merupakan variabel sebenarnya.
Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian
nama nilai label untuk variabel kategorik dan definisinya.
. label values fak kode_fak
. label define kode_fak 1 Ilmu Komputer 2 Ekonomi 3 Psikologi
. label values seks kode_seks
. label define kode_seks 1 pria 0 wanita
. label values nktt yesno
9
Bab 1. Pendahuluan
. label define yesno 1 ya 0 tidak

Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya
pada contoh ini diperlihatkan pada tabel berikut:
No Variabel Label Nilai label Definisi

1 fak Fakultas kode_fak 1 Ilmu Komputer
2 Ekonomi
3 Psikologi
2 seks Jenis Kelamin kode_seks 1 pria 0 wanita
3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak
Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai
label.
Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat
dilakukan melalui menu bar dengan mengklik “File > Save >
D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat
juga dilakukan dengan mengetikkan perintah:
. save "D:\Data\Stata\latihan1.dta"
file D:\Data\Stata\latihan1.dta saved
Mengimpor File Excel ke dalam Stata

Membuat file data baru Stata dapat juga dilakukan dengan terlebih
dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program
Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-
“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu
jika data juga hendak diolah dengan program komputer statistik lain.
Syarat untuk file Excel agar dapat di-“impor” ke dalam program
Stata (dan juga program komputer statistik lainnya) yaitu:
- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama
atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian
bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga
tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika
10
Bab 1. Pendahuluan
kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam
analisis data.
- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali
dengan huruf kecil.
- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),
baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh
responden termuat datanya, tanpa ada baris kosong yang terselip di antara
baris-baris data.
Prosedur untuk meng-“impor” file Excel ke dalam program Stata
dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata
Command.
Contoh 1.2:
Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file
Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.
Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,
*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela
Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-
“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1
worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai
default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di
depan tulisan “Import first row as variable names”, lalu klik OK., maka
file Excel bankloan.xls tersebut telah terbuka dalam Stata.
Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan
dengan mengetikkan perintah:
File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa
mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,
tetap harus melalui prosedur “save”:
. save "D:\Data\Stata\bankloan.dta"
file D:\Data\Stata\bankloan.dta saved
11
Bab 1. Pendahuluan
Menyimpan Analisis Data Stata dalam File

Log
Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat
direkam dan disimpan sebagai file log dengan format *.scml yang dapat
dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur
selengkapnya diperlihatkan pada contoh berikut.
Contoh 1.3:
Buka file log exercise1.scml untuk disimpan dalam
“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.
Atau ketikkan perintah:
. log using "D:\Data\Stata\exercise1", clear
name: <unnamed>
log type: smcl
opened on: 10 Jul 2015, 15:26:46
Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah
dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa
penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai
perintah-perintah akan diberikan dalam bab-bab berikut.
Misalkan hendak dibuka file data Arctic9.dta.
. use “D:\Data\Stata\Arctic9”, clear
Atau klik File > Open > . . . > Arctic9.dta
Untuk melihat deskripsi singkat dataset yang ada dalam memori,
digunakan perintah describe.
. describe
Contains data from D:\Data\Stata\Arctic9.dta

obs: 33 Arctic September mean sea ice 1979-2011
vars: 8 2 Jul 2012 06:11
size: 891
12
Bab 1. Pendahuluan
---------------------------------------------------------------------
---------------------------------------------------------------------
year int %ty Year
month byte %8.0g Month
extent float %9.0g Sea ice extent, million km^2
area float %9.0g Sea ice area, million km^2
volume float %8.0g Sea ice volume, 1000 km^3
volumehi float %9.0g Volume + 1.35 (uncertainty)
volumelo float %9.0g Volume - 1.35 (uncertainty)
tempN float %9.0g Annual air temp anomaly 64N-90N C
---------------------------------------------------------------------
Sorted by: year
Untuk melihat isi dataset pada record No. 1 s.d. 10:

. list in 1/10
+---------------------------------------------------------+
| year month extent area volume volumehi volumelo tempN |
|---------------------------------------------------------|
1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |
2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |
3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |
4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |
5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |
|---------------------------------------------------------|
6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |
7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |
8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |
9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |
10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |
+---------------------------------------------------------+
Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,
minimum, dan maksimum digunakan perintah summarize.
13
Bab 1. Pendahuluan
. summarize
---------+--------------------------------------------
year | 33 1995 9.66954 1979 2011
month | 33 9 0 9 9
extent | 33 6.51697 .9691796 4.3 7.88
area | 33 4.850303 .8468452 3.09 6.02
volume | 33 12.04664 3.346079 4.210367 16.9095
---------+--------------------------------------------
volumehi | 33 13.39664 3.346079 5.560367 18.2595
volumelo | 33 10.69664 3.346079 2.860367 15.5595
tempN | 33 .790303 .7157928 -.57 2.22
Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:

. correlate
(obs=33)
| year month extent area volume volumehi volumelo tempN
---------+----------------------------------------------------------
year | 1.0000
month | . .
extent | -0.8446 . 1.0000
area | -0.8732 . 0.9826 1.0000
volume | -0.8999 . 0.9308 0.9450 1.0000
volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000
volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000
tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000
Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan

dalam bentuk grafik:
14
Bab 1. Pendahuluan
. graph twoway connect extent year
8
5 6 4 7
1980 1990 2000 2010

Year
Jika pengolahan dan analisis data telah selesai, file log dapat ditutup
dan disimpan:
. log close
name: <unnamed>
log type: smcl
closed on: 29 Jun 2014, 15:33:33
Perintah ini sama dengan melalui menu bar File > Log > Close.
Selama file log terbuka pada saat pengolahan dan analisis data, seandainya
program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis
data belum selesai, perekaman dapat dihentikan sementara, kemudian
dilanjutkan dengan sintaks:
log off logname (perintah penghentian sementara)
log on logname (perintah melanjutkan kembali)
File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam
program Stata dengan mengklik File > Log > View. File dalam format
*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan
wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File
> Log > View yang akan membuka jendela “Translate file” atau dengan
mengetikkan perintah:
15
Bab 1. Pendahuluan
. translate exercise1.scml exercise1.log

Selanjutnya file exercise1.log dapat dibuka dengan menggunakan
salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.
16
Bab 2. Manajemen Data
BAB 2
MANAJEMEN DATA
Dalam bab ini akan dibahas beberapa perintah terpenting Stata dalam
proses manajemen data.
Membuka file data: use, sysuse, dan webuse

Sintaks untuk membuka file data Stata adalah:
use filename [, clear]
Nama file tanpa ekstensi diasumsikan sebagai file *.dta. Opsi [, clear]
diperlukan jika sebelumnya ada file data yang terbuka dalam memori. Jika
membuka file data dilakukan melalui menu bar File > Open > . . . , opsi ini
akan selalu muncul. Contoh:
. use “D:\Data\Stata\honolulu”, clear
Sintaks untuk membuka file data Stata yang terinstalasi bersama
program Stata atau tersimpan dalam ado-path adalah:
sysuse filename [, clear]
Contoh:
. sysuse auto, clear
(1978 Automobile Data)
Sintaks untuk membuka file data yang tersimpan di Web adalah:
webuse filename [, clear]
Secara default, file data untuk Stata 14 diperoleh dari
http://www.stata-press.com/data/r14/. Daftar lengkap datasets yang tersedia
dapat dilihat di http://www.stata-press.com/data/r14/r.html. Contoh:
. webuse lifeexp
(Life expectancy, 1998)
17
Membuka dan menyimpan file data dalam

format Excel: import dan export
Stata dapat membuka atau menyimpan data dalam format data-based
lain, yang terpenting yaitu dalam Excel. Sintaksnya adalah:
import excel filename [, options]
export excel using filename [, options]
Salah satu opsi pada import excel ialah worksheet akan dibuka.
Default-nya ialah “Sheet1”. Pilihan opsi firstrow menyatakan bahwa baris
pertama file Excel akan diperlakukan sebagai nama variabel.
Pada export excel opsi terpenting adalah pilihan antara
firstrow(variables) atau firstrow(varlabels) untuk menentukan yang akan
dijadikan baris pertama pada file Excel.
Contoh:
clear
. use auto, clear
. export excel using "D:\Data\Stata\auto.xls", firstrow(variables)
Menampilkan isi dataset: edit dan browse

Isi seluruh ataupun sebagian dataset dalam tampilan spreadsheet
dapat dilihat pada jendela Data Editor atau jendela Data Browser yang
akan terbuka dengan mengklik icon masing-masing pada tool bar (diagram
1).
Diagram 1. Icon Data Editor dan Data Browser pada Tool Bar
18
Dengan membuka jendela Data Editor, data dapat dilihat dan juga
dapat diedit, sedangkan jika yang dibuka jendela Data Browser, data hanya
dapat dilihat tanpa dapat diedit. Kedua jendela ini juga dapat dibuka dengan
sintaks:
edit varlist [if] [in]
dan: browse varlist [if] [in]
Pembatasan perintah: ekspresi if dan in

Ekspresi [if] dan [in] didapatkan pada sebagian besar sintaks Stata.
Ekspresi [if] menyatakan syarat untuk melaksanakan perintah, sedangkan
ekspresi [in] menyatakan nomor records yang akan menerima perintah Stata.
Dalam ekspresi [if] dan juga sejumlah perintah lain mungkin
diperlukan penggunaan operator, yaitu operator aritmetika (hitung), operator
relasional, dan operator logika.
Operator aritmetika adalah: + (penjumlahan), − (pengurangan), *
(perkalian), / (pembagian), ^ (pangkat), dan prefiks - (negasi/penyangkalan).
Operator relasional adalah: > (lebih daripada), < (kurang daripada),
>= (lebih besar atau sama dengan), <= (kurang atau sama dengan), == (sama
dengan), dan != (atau ~=; tidak sama dengan).
Operator logika adalah:
- dan: &
- atau: |
- tidak: !
Contoh:
. list if income>50000 | income>30000 & age<25
Tanda “&” dikerjakan lebih dulu daripada “|”, yaitu pernyataan
“income>30000” hanya untuk yang “age<25”. Untuk memastikan, perintah
di atas dapat juga dituliskan:
. list if income>50000 | (income>30000 & age<25)
19
Urutan pelaksanaan evaluasi seluruh operator berturut-turut adalah: !

(atau ~), ^, - (negasi/penyangkalan), /, *, − (substraksi/minus), +, != (atau
~=), >, <, <=, >=, ==, &, dan |.
Contoh 2.1:
. use “D:\Data\Stata\honolulu.dta”, clear
. sum glukosa
---------+-----------------------------------
glukosa | 100 152.14 54.75584 58 442
. sum glukosa if merokok==1

---------+-------------------------------------
glukosa | 37 145.5946 65.58686 76 442
. sum tb
---------+-----------------------------------
tb | 100 161.75 5.596491 150 175
. sum tb in 1/50
---------+-----------------------------------
tb | 50 162.26 5.609067 150 175
. sum kolest
---------+-----------------------------------
kolest | 100 216.96 38.85844 134 382
. sum kolest if akt_fisik==2 in 21/80

---------+-------------------------------------
kolest | 32 214.6563 48.86229 134 382
20
Menampilkan nilai-nilai variabel dan

definisi nilai-nilai label: list dan label list
Tampilan data juga dapat dilihat per variabel, dalam interval records
terbatas, atau dengan syarat tertentu pada jendela Stata Results dengan
mengetikkan perintah pada Stata Command. Sintaksnya adalah:
list varnames [if] [in]
Jika yang ingin ditampilkan hanya 1 nilai suatu variabel untuk 1
record (1 orang responden), sintaksnya adalah:
display varname[#]
label list adalah perintah untuk menampilkan nama nilai label
(lbl.name) dalam dataset beserta definisinya.
label list lblnames
Dengan perintah ini, definisi ditampilkan untuk nama nilai label
(lblnames) yang dispesifikasikan. Jika perintahnya hanya label list, maka
semua nama nilai label yang ada dalam dataset akan ditampilkan beserta
definisinya.
Contoh 2.2:
. list no_id usia td_sist if merokok==1 in 51/70
+------------------------+
| no_id usia td_sist |
|------------------------|
53. | 53 50 116 |
55. | 55 50 108 |
61. | 61 54 114 |
63. | 63 50 98 |
65. | 65 53 130 |
|------------------------|
66. | 66 53 122 |
67. | 67 47 112 |
+------------------------+
21
. list no_id usia td_sist if merokok==0 & usia>=50 in 51/70

+------------------------+
| no_id usia td_sist |
|------------------------|
51. | 51 52 118 |
56. | 56 53 134 |
57. | 57 52 124 |
58. | 58 56 124 |
59. | 59 52 114 |
|------------------------|
. display usia[51]
52
. label list kode_pendidikan yatidak
kode_pendidikan:
1 tidak ada
2 SD
3 SMP
4 SMA
5 SMK
6 Universitas
yatidak:
0 tidak
1 ya
. label list
kode_fisik:
1 hampir selalu duduk
2 moderat
3 giat
yatidak:
0 tidak
1 ya
kode_pendidikan:
1 tidak ada
2 SD
3 SMP
4 SMA
5 SMK
6 Universitas
22
Deskripsi data: describe

Perintah describe menampilkan ringkasan keterangan tentang
variabel yang ada dalam dataset. Sintaks-nya adalah:
describe [varlist]
Jika tidak ada nama variabel, perintah describe akan menampilkan
ringkasan keterangan tentang semua variabel yang ada dalam dataset.
Contoh 2.3:
. desc usia glukosa kolest td_sist
---------------------------------------------------------
usia byte %10.0g Usia
glukosa int %10.0g Kadar Glukosa Darah
kolest int %10.0g Kadar Kolesterol Darah
td_sist int %10.0g Tekanan Darah Sistolik
. describe
Contains data from D:\Data\Stata\honolulu.dta
obs: 100
vars: 11 18 Aug 2016 14:16
size: 2,200
---------------------------------------------------------
---------------------------------------------------------
no_id byte %10.0g Nomor Identitas
tk_pend byte %10.0g Tingkat Pendidikan
bb byte %10.0g Berat Badan
tb int %10.0g Tinggi Badan
usia byte %10.0g Usia
merokok byte %10.0g Merokok
akt_fisik byte %10.0g Aktivitas Fisik
glukosa int %10.0g Kadar Glukosa Darah
kolest int %10.0g Kadar Kolesterol Darah
23
td_sist int %10.0g Tekanan Darah Sistolik

bmi double %14.2f Indeks Massa Tubuh
-----------------------------------------------------------
Sorted by:
Tipe data dan kompresi data dalam memori:

data types dan compress
Data dalam dataset Stata dapat tersimpan dalam 2 format, numeric
dan string. Format ketiga ialah untuk dates dan times yang tidak akan
dibahas di sini.
Untuk mengetahui apakah suatu variabel memiliki data numeric atau
string, dapat dilihat dari hasil perintah describe. Data numeric memiliki
tipe penyimpanan (storage type) byte, int, long, float, atau double,
kelimanya ini menurut urutan lebar rentangnya. Misalnya byte untuk
menyimpan rentang nilai dari −127 s.d. 100; int untuk nilai dari −32,767 s.d.
32, 740; dan seterusnya. float dan double dapat menyimpan bilangan pecah.
Data string memiliki tipe penyimpanan str[#], misalnya str5 dapat
menyimpan data dengan maksimum 5 karakter.
Setelah dataset terisi seluruhnya, mungkin ada variabel yang tipe
penyimpanannya terlalu besar bagi nilai-nilai yang tersimpan, misalnya
variabel usia yang disimpan dalam bilangan bulat membutuhkan hanya
tempat penyimpanan maksimum 3 digit, sedangkan tipe penyimpanan yang
semula disiapkan adalah int. Untuk menghemat tempat penyimpanan data
pada basis-data, tipe penyimpanan untuk usia dapat dikompresi dari int
menjadi byte dengan perintah compress. Sintaksnya adalah:
compress [varlist]
Jika perintah compress diberikan tanpa nama variabel, maka Stata
akan mengkompresi semua variabel yang mungkin dikompresi tipe
penyimpanannya.
24
Konversi variabel string menjadi numeric

dan sebaliknya: destring dan tostring
Program Stata hanya dapat mengolah nilai data dalam format
numeric. Jika ada variabel dalam format string, maka nilai datanya perlu
dikonversi terlebih dahulu dengan perintah destring menjadi format
numeric sebelum diolah dengan program Stata. Adakalanya variabel
dengan format numeric perlu diubah menjadi string dengan perintah
tostring. Sintaks-nya adalah:
destring [varlist] , {generate(newvarlist)|replace}
dan: tostring varlist , {generate(newvarlist)|replace}
Jika tidak ada variabel yang dispesifikasikan, dengan perintah
destring semua variabel string akan dikonversi menjadi numeric. Opsi
generate(newvarlist) akan mempertahankan variabel string lama, konversi
numeric-nya tersimpan dalam variabel baru, sedangkan opsi replace akan
membentuk variabel numeric dengan nama variabel string lama.
Mengurutkan, membuang, dan

mempertahankan variabel: order, drop, dan
keep
Perintah order digunakan mengatur kembali urutan variabel dalam
dataset menurut kehendak pengguna. Perintah drop akan menghapuskan
variabel yang dispesifikasikan dalam dataset. Perintah keep akan
mempertahankan variabel yang dispesifikasikan dalam dataset, sedangkan
variabel lain dihapus dari dataset. Sintaks-nya masing-masing adalah:
order varlist
Variabel akan tersusun menurut urutan pada varlist jika varlist
mencakup semua variabel, atau variabel yang ada pada varlist akan
diletakkan pada urutan pertama jika varlist tidak mencakup semua variabel.
drop varlist
keep varlist
Perintah drop dan keep dapat juga digunakan untuk menghapus atau
mempertahankan record dengan spesifikasi ekspresi if dan/atau in:
25
drop if exp
drop in range
keep if exp
keep in range
Mengurutkan nilai variabel dan penggunaan

hasilnya: sort dan by
Perintah sort mengurutkan nilai pengamatan variabel numeric yang
dispesifikasikan dari kecil ke besar. Untuk variabel string, pengamatan akan
diurutkan menurut urutan abjad, huruf besar didahulukan daripada huruf
kecil. Sintaks-nya yaitu:
sort varlist [in] [, stable]
Opsi stable akan mempertahankan keterikatan nilai-nilai dalam suatu
record setelah salah satu variabel di-sort.
Perintah sort juga digunakan bersama by untuk memberikan perintah
summarize, tabulate, dan means (lihat Bab 3) menurut kategori variabel
kategorik yang di- sort. Sintaks-nya adalah:
sort cat_var1
by cat_var1: sum cont_var
atau: by cat_var1: means cont_var
atau: by cat_var1: tab cat_var2
cat_var : variabel kategorik
cont_var : variabel kontinu
Perintah by di sini harus segera mengikuti perintah sort (tidak
diselingi perintah lain dulu).
26
Membuat variabel baru dan mengganti nilai

variabel: generate, replace, dan egen
Perintah generate digunakan untuk membentuk variabel baru.
Sintaks-nya adalah:
generate newvar[:lblname] = exp [if] [in]
Nilai-nilai dispesifikasikan pada pernyataan exp, yang dapat berupa

suatu nilai tertentu ataupun hasil formula menyangkut salah satu variabel
lama lainnya. Contohnya yaitu:
. gen luas = 0
. gen usia2 = usia^2
. gen usia_kat = 1 if usia<20
Nilai-nilai variabel, baik untuk variabel baru dibuat tersebut ataupun

variabel lama, dapat diganti dengan perintah replace. Sintaks-nya yaitu:
replace oldvar = exp [if] [in]
Misalnya:
. replace gaji_kat = 5 if masa_kerja>=10
Perintah egen merupakan ekstensi terhadap perintah generate, yaitu

ekspresi exp pada generate digantikan dengan suatu fungsi argumen.
Sintaks-nya adalah:
egen newvar = fcn(arguments) [if] [in]
Di sini hanya diberikan 2 contoh fungsi argumen, yaitu mean(exp)
dan median(exp), misalnya:
. egen avg = mean(chol)
. egen med_stay = median(los)
27
Bab 3. Statistika Deskriptif
BAB 3
STATISTIKA DESKRIPTIF
Nilai-nilai Deskriptif Variabel Numerik

Untuk menampilkan nilai rerata, dan jika perlu disertai standar deviasi
atau standard error, dapat digunakan perintah summarize, mean, atau
means. Sintaks-nya masing-masing adalah:
. summarize varlist [if] [in]
summarize atau cukup singkatan su saja menampilkan nilai-nilai
ringkasan data, yaitu jumlah pengamatan, rerata (hitung), SD, minimum, dan
maksimum.
Dengan perintah sum akan ditampilkan ringkasan seluruh variabel
yang ada dalam file sekaligus. Ringkasan juga dapat dimintakan untuk satu
variabel saja, misalnya sum bb, sum tb, sum usia, ataupun beberapa (tidak
semua) variabel sekaligus, misalnya sum bb tb usia.
Opsi (, detail) dapat ditambahkan pada perintah sum untuk
memperoleh beberapa nilai persentil, nilai-nilai kuartil, variansi, kemencengan
(skewness) dan kurtosis.
. mean varlist [if] [in]
mean menampilkan rerata (hitung), SE, dan estimasi interval rerata
(interval konfidensi 95% sebagai default).
. means varlist [if] [in]
means menampilkan nilai rerata dan nilai tengah lainnya, yaitu
jumlah pengamatan, rerata hitung, rerata geometrik, dan rerata harmonik,
masing-masing beserta interval konfidensi 95%-nya.
Perintah means akan menampilkan rerata untuk seluruh variabel.
Perintah means dapat diberikan untuk satu variabel saja (means bb, means
tb, dan sebagainya) atau untuk beberapa variabel sekaligus seperti means
usia glukosa kolest bmi.
28
Contoh 3.1:
. sum bb tb usia

---------+-----------------------------------
bb | 100 64.22 8.610048 47 91
tb | 100 161.75 5.596491 150 175
usia | 100 53.67 5.101109 46 67
Untuk menampilkan ringkasan yang lebih rinci, misalnya untuk variabel bmi
diketikkan perintah sum bmi, detail.
. sum bmi, det
Indeks Massa Tubuh

-----------------------------------------------
Percentiles Smallest
1% 18.32308 18.28678
5% 19.91923 18.35938
10% 20.78645 18.87066 Obs 100
25% 22.65625 19.10009 Sum of Wgt. 100
50% 24.24242 Mean 24.54841

Largest Std. Dev. 3.052831
75% 26.33097 30.38502
90% 28.68545 30.86301 Variance 9.319776
95% 30.07813 31.48789 Skewness .3563221
99% 32.54082 33.59375 Kurtosis 2.964489
. means usia glukosa kolest bmi
Variable | Type Obs Mean [95% Conf. Interval]

---------+------------------------------------------------
usia | Arithmetic 100 53.67 52.65783 54.68217
| Geometric 100 53.44146 52.47672 54.42393
| Harmonic 100 53.22408 52.30331 54.17786
---------+------------------------------------------------
glukosa | Arithmetic 100 152.14 141.2753 163.0047
| Geometric 100 143.8674 134.6996 153.6591
| Harmonic 100 136.3451 127.8334 146.0712
---------+------------------------------------------------
29
kolest | Arithmetic 100 216.96 209.2496 224.6704

| Geometric 100 213.6993 206.458 221.1946
| Harmonic 100 210.5651 203.6 218.0236
---------+------------------------------------------------
bmi | Arithmetic 100 24.54841 23.94266 25.15415
| Geometric 100 24.36268 23.77141 24.96865
| Harmonic 100 24.17871 23.59809 24.78861
---------+------------------------------------------------
Contoh 3.2:
. use “D:\Data\Stata\Arctic9”, clear
. sum extent volume

---------+---------------------------------------------------
extent | 33 6.51697 .9691796 4.3 7.88
volume | 33 12.04664 3.346079 4.210367 16.9095
. sum extent volume, det

---------------------------------------------------
1% 4.3 4.3
5% 4.61 4.61
10% 4.9 4.68 Obs 33
25% 6.05 4.9 Sum of Wgt. 33
50% 6.56 Mean 6.51697

Largest Std. Dev. .9691796
75% 7.25 7.54
90% 7.54 7.55 Variance .9393092
95% 7.85 7.85 Skewness -.6647846
99% 7.88 7.88 Kurtosis 2.625661
30
Sea ice volume, 1000 km^3

---------------------------------------------------
1% 4.210367 4.210367
5% 4.586367 4.586367
10% 6.977133 6.527733 Obs 33
25% 10.28357 6.977133 Sum of Wgt. 33
50% 12.81307 Mean 12.04664

Largest Std. Dev. 3.346079
75% 14.63357 15.3609
90% 15.3609 16.08027 Variance 11.19625
95% 16.31937 16.31937 Skewness -.7695098
99% 16.9095 16.9095 Kurtosis 2.7961
. mean extent volume

Mean estimation Number of obs = 33
---------------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
--------+------------------------------------------------
extent | 6.51697 .1687125 6.173314 6.860626
volume | 12.04664 .5824776 10.86017 13.23311
---------------------------------------------------------
. means extent volume
Variable | Type Obs Mean [95% Conf. Interval]

---------+--------------------------------------------------
extent | Arithmetic 33 6.51697 6.173314 6.860626
| Geometric 33 6.440565 6.085412 6.816445
| Harmonic 33 6.357201 5.990513 6.771707
---------+--------------------------------------------------
volume | Arithmetic 33 12.04664 10.86017 13.23311
| Geometric 33 11.46327 10.13751 12.96241
| Harmonic 33 10.70489 9.237083 12.7273
---------+--------------------------------------------------
31
Nilai-nilai Deskriptif Variabel Kategorik

Tabel Satu Arah
Untuk memperoleh tabel satu-arah (one-way table; distribusi
frekuensi), digunakan perintah tabulate:
. tabulate varname [if] [in] [, options]
Perintah tabulate (atau tab saja atau tab1) digunakan untuk
menampilkan distribusi frekuensi variabel kategorik atau variabel numerik
yang dikategorisasikan. Perintah ini selalu harus diikuti dengan nama
variabel, dapat berupa satu variabel saja (misalnya tab tk_pend) ataupun lebih
daripada satu variabel (misalnya tab1 tk_pend akt_fisik).
Beberapa opsi yang tersedia untuk perintah tab yaitu:
- nofreg: tidak menampilkan frekuensi (yang ditampilkan hanya nilai-nilai
persentase.
- nolabel: tidak menggunakan definisi nilai label (jika ada).
- plot: perintah untuk menampilkan diagram batang (bar chart) beserta

tabel distribusi frekuensi.
- sort: perintah untuk meranking isi tabel menurut besarnya frekuensi.
Contoh 3.3:
. tab tk_pend
Tingkat |
Pendidikan | Freq. Percent Cum.
------------+---------------------------
1 | 25 25.00 25.00
2 | 32 32.00 57.00
3 | 24 24.00 81.00
4 | 9 9.00 90.00
5 | 10 10.00 100.00
------------+---------------------------
Total | 100 100.00
32
. tab1 tk_pend akt_fisik
-> tabulation of tk_pend

Tingkat |
Pendidikan | Freq. Percent Cum.
------------+---------------------------
1 | 25 25.00 25.00
2 | 32 32.00 57.00
3 | 24 24.00 81.00
4 | 9 9.00 90.00
5 | 10 10.00 100.00
------------+---------------------------
Total | 100 100.00
-> tabulation of akt_fisik

Aktivitas |
Fisik | Freq. Percent Cum.
------------+---------------------------
1 | 49 49.00 49.00
2 | 51 51.00 100.00
------------+---------------------------
Total | 100 100.00
Contoh 3.4:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. tab drinkfrq
Days |
drinking in |
previous |
week | Freq. Percent Cum.
------------+-----------------------------------
0 | 4 2.04 2.04
.5 | 4 2.04 4.08
1 | 24 12.24 16.33
2 | 52 26.53 42.86
2.5 | 4 2.04 44.90
3 | 40 20.41 65.31
33
3.5 | 12 6.12 71.43

4 | 20 10.20 81.63
4.5 | 4 2.04 83.67
5 | 16 8.16 91.84
6 | 16 8.16 100.00
------------+-----------------------------------
Total | 196 100.00
Tabel Silang
Untuk menampilkan tabel silang digunakan perintah tab2 sebagai
berikut:
tab2 varname1 varname2 [if] [in] [, options]
Perintah tab2 harus diikuti dengan 2 variabel, misalnya tab2 tk_pend

akt_fisik. Opsi nofreq dan nolabel juga dapat digunakan di sini. Selain itu
tersedia juga opsi row (menampilkan persentase di tiap baris), column
(menampilkan persentase di tiap kolom), dan cell (menampilkan persentase di
tiap sel), misalnya tab2 tk_pend akt_fisik, row.
Contoh 3.5:
. tab2 tk_pend akt_fisik
-> tabulation of tk_pend by akt_fisik

Tingkat | Aktivitas Fisik
Pendidikan | 1 2 | Total
-----------+----------------+-------
1 | 13 12 | 25
2 | 17 15 | 32
3 | 11 13 | 24
4 | 4 5 | 9
5 | 4 6 | 10
-----------+----------------+-------
Total | 49 51 | 100
34
. tab2 tk_pend akt_fisik, row
-> tabulation of tk_pend by akt_fisik

+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
Tingkat | Aktivitas Fisik
Pendidikan | 1 2 | Total
-----------+----------------+-------
1 | 13 12 | 25
| 52.00 48.00 | 100.00
-----------+----------------+-------
2 | 17 15 | 32
| 53.13 46.88 | 100.00
-----------+----------------+-------
3 | 11 13 | 24
| 45.83 54.17 | 100.00
-----------+----------------+-------
4 | 4 5 | 9
| 44.44 55.56 | 100.00
-----------+----------------+-------
5 | 4 6 | 10
| 40.00 60.00 | 100.00
-----------+----------------+-------
Total | 49 51 | 100
| 49.00 51.00 | 100.00
Contoh 3.6:
35
. tab2 drinkfrq gender

Days |
drinking |
in |
previous | Gender
week | Male Female | Total
-----------+----------------------+----------
0 | 4 0 | 4
.5 | 4 0 | 4
1 | 8 16 | 24
2 | 32 20 | 52
2.5 | 0 4 | 4
3 | 32 8 | 40
3.5 | 4 8 | 12
4 | 12 8 | 20
4.5 | 4 0 | 4
5 | 16 0 | 16
6 | 12 4 | 16
-----------+----------------------+----------
Total | 128 68 | 196
. tab2 drinkfrq gender, co

+-------------------+
| Key |
|-------------------|
| frequency |
| column percentage |
+-------------------+
36
Days |
drinking |
in |
previous | Gender
week | Male Female | Total
-----------+----------------------+----------
0 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
.5 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
1 | 8 16 | 24
| 6.25 23.53 | 12.24
-----------+----------------------+----------
2 | 32 20 | 52
| 25.00 29.41 | 26.53
-----------+----------------------+----------
2.5 | 0 4 | 4
| 0.00 5.88 | 2.04
-----------+----------------------+----------
3 | 32 8 | 40
| 25.00 11.76 | 20.41
-----------+----------------------+----------
3.5 | 4 8 | 12
| 3.13 11.76 | 6.12
-----------+----------------------+----------
4 | 12 8 | 20
| 9.38 11.76 | 10.20
-----------+----------------------+----------
4.5 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
5 | 16 0 | 16
| 12.50 0.00 | 8.16
-----------+----------------------+----------
6 | 12 4 | 16
| 9.38 5.88 | 8.16
-----------+----------------------+----------
Total | 128 68 | 196
| 100.00 100.00 | 100.00
37
Tabel Nilai Ringkasan Variabel Numerik menurut

Kategori Variabel Kategorik
Jika variabel_1 adalah variabel kategorik dan variabel_2 variabel
kontinu, maka perintah summarize untuk variabel_2 dapat diberikan untuk
masing-masing kategori variabel_1. Sintaks-nya adalah:
tabulate varname_1 [if] [in], summarize(varname_2)
Contoh 3.7:
. tab gender, sum(bac)
| Summary of Blood alchohol content
Gender | Mean Std. Dev. Freq.
------------+------------------------------------
Male | .09340909 .08052148 132
Female | .08111111 .06826947 72
------------+------------------------------------
Total | .08906863 .07647798 204
38
Bab 4. Grafik Statistik
BAB 4
GRAFIK STATISTIK
Histogram dan Densitas Kernel
Histogram adalah representasi grafikal untuk sehimpunan pengamatan
terkategorisasi oleh sejumlah batang, 1 batang untuk tiap kategori, masing-
masing memiliki luas yang sebanding dengan frekuensi kategorinya. Proses
kategorisasi (penentuan jumlah dan lebar batang) dapat dilakukan oleh
program komputer ataupun ditentukan oleh pengguna program. Sintaks untuk
histogram yaitu:
histogram varname [if] [in] [, options]
Densitas kernel (kernel density) adalah fungsi licin (smoothed
function), yang diperoleh dari “geseran” histogram (sliding histogram). Bentuk
histogram tidak konstan, tergantung pada titik awal dan lebar batang yang
dipilih, tetapi bentuk densitas kernel relatif konstan, semata-mata tergantung
pada metode estimasi yang dipilih. Sintaks untuk grafik densitas kernel yaitu:
kdensity varname [if] [in] [, options]
Contoh 4.1:
. use “D:\Data\Stata\auto”, clear
. histogram weight
(bin=8, start=1760, width=385)S
5.0e-04
4.0e-04
2.0e-04 3.0e-04
Density
1.0e-04
0
2,000 3,000 4,000 5,000

Weight (lbs.)
39
. kdensity weight
Kernel density estimate
.0004
.0003
Density
.0002 .0001
0
1000 2000 3000 4000 5000

Weight (lbs.)
kernel = epanechnikov, bandwidth = 295.7504
Perbandingan histogram dan grafik densitas kernel untuk variabel yang

sama (weight) diperlihatkan sebagai berikut:
5.0e-04

.0004
4.0e-04
.0003
2.0e-04 3.0e-04
Density
Density
.0002 .0001
1.0e-04
1000 2000 3000 4000 5000

0
2,000 3,000 4,000 5,000 Weight (lbs.)

Weight (lbs.) kernel = epanechnikov, bandwidth = 295.7504
40
Untuk membandingkan histogram dan grafik densitas kernel dengan

distribusi normal ditambahkan opsi (, normal):
. histogram weight, normal
2.0e-04 3.0e-045.0e-04
4.0e-04
Density
1.0e-04
0
2,000 3,000 4,000 5,000

Weight (lbs.)
. kdensity weight, normal

.0001 .0002 .0003 .0004 .0005
Density
0
1000 2000 3000 4000 5000

Weight (lbs.)

Normal density
41
Penyajian histogram weight menurut kategorisasi foreign (domestic

dan foreign):
. histogram weight, by(foreign)
Domestic Foreign
.0015
.001
Density
5.0e-04
0
1,000 2,000 3,000 4,000 5,0001,000 2,000 3,000 4,000 5,000

Weight (lbs.)
Graphs by Car type
Contoh 4.2:
. histogram bac
(bin=14, start=0, width=.02571429)
10
8
Density
4
2
06
0 .1 .2 .3 .4
Blood alchohol content
42
Pada sumbu X didapatkan nilai bac (blood alcohol content), sedangkan

sumbu Y menyatakan densitasnya. Nilai densitas dapat diganti menjadi
frekuensi dengan perintah:
. histogram bac, frequency

(bin=14, start=0, width=.02571429)
60
40
Frequency
20
0
0 .1 .2 .3 .4
. histogram bac, start(0) width(0.03333333) norm

(bin=11, start=0, width=.03333333)
10
8
6
Density
4
2
0
0 .1 .2 .3 .4
43
. histogram bac, by(gender)
Male Female
15
10
Density
5
0
0 .1 .2 .3 .4 0 .1 .2 .3 .4
Graphs by Gender
. histogram bac, by(gender, total) percent
Male Female
30
20
10
0
Percent
0 .1 .2 .3 .4
Total
30
20
10
0
0 .1 .2 .3 .4
Graphs by Gender
44
. kdensity bac
5
4
3
Density
2
1
0
0 .1 .2 .3 .4
. kdensity bac, norm

5
4
Density
2 1
03
0 .1 .2 .3 .4

Normal density
45
Histogram untuk Variabel Kategorik

Dalam Statistika Umum, variabel kategorik biasanya disajikan dalam
bentuk diagram batang, tetapi dalam Stata perintah yang diberikan adalah
sama dengan untuk penyajian histogram dengan sintaks:
histogram varname [if] [in] [, options]
Contoh 4.3:
. histogram rep78
.8
.6
Density
.4 .2
0
1 2 3 4 5
Repair Record 1978
46
Contoh 4.4:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. histogram live, frequency
80
60
Frequency
40
20
0
1 2 3 4
Year in college
Diagram Batang
Pengertian diagram batang (bar diagram) dalam Stata adalah
penyajian nilai-nilai rerata (ataupun statistik lainnya) suatu variabel kontinu
menurut kategori variabel kategorik lainnya. Sintaks-nya adalah:
graph bar [(stat)] cont_var [if] [in], over(cat_var)
(stat) : Statistik yang diminta (umumnya rerata)

cont_var : Variabel kontinu yang dimintakan statistiknya
cat_var : Variabel kategorik
47
Contoh 4.5:
. graph bar (mean) mpg, over(rep78)
30
20
mean of mpg
10
0
1 2 3 4 5
Contoh 4.6:
. graph bar (mean) aggress, over(gender)
2 1.5
mean of aggress
1 .5
0
Female Male
48
Diagram Tebar
Diagram tebar (scatter diagram) adalah grafik dua dimensi untuk
pengamatan bivariat. Sintaks untuk diagram tebar adalah:
[graph] twoway scatter yvar xvar [if] [in] [, options]
[graph] : Penulisan perintah graph bersifat opsional

yvar : Variabel pada sumbu Y, biasanya adalah respons
xvar : Variabel pada sumbu X, biasanya adalah prediktor
Contoh 4.7:
. graph twoway scatter weight length
5,0004,000
Weight (lbs.)
3,000 2,000
140 160 180 200 220 240

Length (in.)
49
Menyajikan estimasi garis regresi weight (respons) terhadap length

(prediktor):
. graph twoway lfit weight length
5000
4000
Fitted values
3000
2000
1000
140 160 180 200 220 240

Length (in.)
Diagram tebar dapat disajikan secara bersama dengan estimasi garis

regresinya:
. graph twoway scatter weight length || lfit weight length
5,000
4,000
3,000
2,000
1,000
140 160 180 200 220 240

Length (in.)
Weight (lbs.) Fitted values
50
Contoh 4.8:
. graph twoway scatter gpa study
4
3.5
Grade Point Average
2.5 2
1.53
0 10 20 30 40 50
Avg. hours/week studying
. graph twoway lfit gpa study

3.2
3
Fitted values
2.8
2.6
0 10 20 30 40 50
51
. graph twoway lfit gpa study || scatter gpa study
4
3.5
3
2.5
2
1.5
0 10 20 30 40 50
Fitted values Grade Point Average
Diagram Kotak & Titik

Diagram kotak dan titik (box plot) adalah metode penyajian grafik
untuk menampilkan karakteristik penting suatu himpunan pengamatan, yaitu
lima angka ringkasan deskriptif himpunan pengamatan tersebut, berupa nilai
perbatasan bawah (lower adjacent value), kuartil I, median, kuartil III, dan
nilai perbatasan atas (upper adjacent value). Sintaks-nya adalah:
graph box varname [if] [in] [, options]
52
Contoh 4.9:
. graph box mpg
40 30
Mileage (mpg)
20
10
Diagram kotak dan titik juga dapat disajikan secara berdampingan

menurut kategori variabel kategorik lainnya:
. graph box mpg, by(foreign)
Domestic Foreign
40
Mileage (mpg)
30
20
10
Graphs by Car type
53
Contoh 4.10:
. graph box gpa

4
3.5
Grade Point Average
2.5 2
1.5 3
. graph box gpa, over(gender)

4
3.5
Grade Point Average
2.5 2
1.5 3
Female Male
54
Diagram Lingkar
Diagram lingkar (pie diagram) adalah penyajian grafikal untuk data
nominal (kategorik), menggunakan lingkaran yang terbagi sejumlah sektor,
masing-masing berukuran proporsional dengan frekuensi yang
direpresentasikannya. Sintaks-nya adalah:
graph pie [if] [in], over(varname) [options]
Contoh 4.11:
. graph pie, over(rep78)
1 2
3 4
5
55
Contoh 4.12:
. graph pie, over(live)
Dorm Greek
Apartmnt w/Parent
other
Grafik Matriks
Grafik matriks adalah matriks yang tiap selnya memuat diagram tebar
untuk 2 variabel yang berpotongan pada sel itu. Sintaks-nya adalah:
graph matrix varlist [if] [in] [, options]
56
Contoh 4.13:
. graph matrix price mpg weight length, half
Price
40
30
Mileage
20
(mpg)
10
5,000
4,000
Weight
3,000 (lbs.)
2,000
250
200 Length
(in.)
150
5,000 10,000 15,000

10 20 30 402,000 3,000 4,000 5,000
Bandingkan grafik matriks di atas dengan matriks korelasi berikut:

. corr price mpg weight length
(obs=74)
| price mpg weight length

-----------+--------------------------------
price | 1.0000
mpg | -0.4686 1.0000
weight | 0.5386 -0.8072 1.0000
length | 0.4318 -0.7958 0.9460 1.0000
57
Contoh 4.14:
. graph matrix age drink gpa study, half
Age at
last
birthday
40
33-point
20 drinking
scale
0
4
3 Grade
Point
2 Average
1
50
Avg.
hours/week
studying
0
20 30 40 0 20 401 2 3 4
58
Bab 5. Analisis Statistik Sederhana
BAB 5
ANALISIS STATISTIK SEDERHANA
Uji t
Uji t untuk 1 kelompok

Uji t untuk 1 kelompok adalah uji statistik untuk menguji hipotesis
H 0 : µ = µ0 . Sintaks pada uji t untuk 1 kelompok yaitu:
ttest varname == # [if] [in] [, level (#)]
Asumsi-asumsi pada uji t untuk 1 kelompok ini adalah :
- Data berskala kontinu
- Data berdistribusi normal
- Data berasal dari random sampling
Contoh 5.1:
File data yang digunakan adalah auto.dta.
. use “D:\Data\Stata\auto.dta”, clear
(1978 Automobile Data)
. list mpg in 1/10

+-----+
| mpg |
|-----|
1. | 22 |
2. | 17 |
3. | 22 |
4. | 20 |
5. | 15 |
|-----|
6. | 18 |
7. | 26 |
8. | 20 |
59
9. | 16 |
10. | 19 |
+-----+
Untuk pengujian asumsi normalitas terhadap variabel mpg dilakukan
uji normalitas Shapiro-Wilk dengan H 0 : Data berdistribusi normal.
. swilk mpg
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 74 0.94821 3.335 2.627 0.00430
Hipotesis nol ditolak dengan p = 0.0043 (mpg tidak berdistribusi normal,

ditemukan penyimpangan bermakna terhadap distribusi H 0 ), walaupun
demikian uji t di sini diteruskan untuk latihan.
Penilaian normalitas secara kasar dapat dilakukan dengan
menggunakan grafik.
. qnorm mpg, grid
11.781 21.2973 30.8136

40
34
30
Mileage (mpg)
20
20
14
10
10 15 20 25 30 35
Inverse Normal
Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles
Penilaian terhadap grafik di sini bersifat subjektif. Perintah berikut

adalah untuk menguji H 0 : µ = 20.
60
. ttest mpg==20
One-sample t test
-----------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-------------------------------------------------------
mpg | 74 21.2973 .6725511 5.785503 19.9569 22.63769
-----------------------------------------------------------------
mean = mean(mpg) t = 1.9289
Ho: mean = 20 degrees of freedom = 73
Ha: mean < 20 Ha: mean != 20 Ha: mean > 20
Pr(T < t) = 0.9712 Pr(|T| > |t|) = 0.0576 Pr(T > t) = 0.0288
Diperoleh hasil:
untuk H1 : µ < 20 → p = 0.9712
H1 : µ ≠ 20 p = 0.0576
H1 : µ > 20 p = 0.0288
Contoh 5.2:
Pada contoh ini digunakan file data hsb2.dta.
. use "D:\Data\Stata\hsb2.dta", clear
(highschool and beyond (200 cases))
. list write in 1/10
+-------+
| write |
|-------|
1. | 52 |
2. | 59 |
3. | 33 |
4. | 44 |
5. | 52 |
|-------|
6. | 52 |
7. | 59 |
8. | 46 |
9. | 57 |
10. | 55 |
+-------+
61
. swilk write
---------+--------------------------------------------------
write | 200 0.96286 5.540 3.939 0.00004
write tidak berdistribusi normal (p = 0.00004).
. ttest write=50
One-sample t test
------------------------------------------------------------------
---------+--------------------------------------------------------
write | 200 52.775 .6702372 9.478586 51.45332 54.09668
------------------------------------------------------------------
mean = mean(write) t = 4.1403
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000
Hipotesis H 0 : µ = 50 ditolak dengan p = 0.0001.
Uji t untuk 2 kelompok independen

Uji t untuk 2 kelompok independen adalah pengujian statistik
terhadap hipotesis H 0 : µ 1 = µ2 . Sintaks untuk uji hipotesis ini adalah:
ttest varname [if] [in] , by(groupvar) [options]
Options yang tersedia antara lain yaitu:
- unequal untuk uji terhadap 2 kelompok yang tidak sama variansinya
- level(#) untuk mengganti nilai default tingkat signifikansi
Asumsi-asumsi untuk uji hipotesis ini adalah:
- Data berdistribusi normal
- Variansi kedua kelompok sama (jika tidak sama, gunakan uji unequal)
- Kedua kelompok independen (jika tidak independen, gunakan paired t-
test)
62
Contoh 5.3:
File data yang digunakan di sini adalah fuel3.dta.
. webuse fuel3, clear
Mengambil dari Web dan membuka file fuel3.dta.

. list in 1/5
Memperlihat isi (database) file untuk record 1 s.d. 5

+---------------+
| mpg treated |
|---------------|
1. | 20 0 |
2. | 23 0 |
3. | 21 0 |
4. | 25 0 |
5. | 18 0 |
+---------------+
Pada uji t untuk 2 kelompok independen ini, uji normalitas harus
dilakukan untuk masing-masing kelompok:
. swilk mpg if treated==0
---------+--------------------------------------------------
mpg | 12 0.93932 1.014 0.027 0.48937
. swilk mpg if treated==1

---------+--------------------------------------------------
mpg | 12 0.97637 0.395 -1.811 0.96493
Tampak bahwa untuk kedua kelompok tidak ditemukan

penyimpangan yang bermakna dari normalitas. Selanjutnya dilakukan
pengujian kesamaan variansi antar kedua kelompok dengan hipotesis H 0 :
63
σ12 / σ 22 = 1. Pengujian dapat dilakukan dengan uji Bartlett yang sensitif

terhadap asumsi normalitas:
. sdtest mpg, by(treated)

Variance ratio test
------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
0 | 12 21 .7881701 2.730301 19.26525 22.73475
1 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+--------------------------------------------------------
combined | 24 21.875 .6264476 3.068954 20.57909 23.17091
------------------------------------------------------------------
ratio = sd(0) / sd(1) f = 0.7054
Ho: ratio = 1 degrees of freedom = 11, 11
Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1
Pr(F < f) = 0.2862 2*Pr(F < f) = 0.5725 Pr(F > f) = 0.7138
Dari hasil uji Bartlett disimpulkan bahwa variansi kedua kelompok

sama (p = 0.5725). Uji kesamaan variansi juga dapat dilakukan dengan uji
Levene yang bersifat robust terhadap asumsi normalitas:
. robvar mpg, by(treated)
| Summary of mpg
treated | Mean Std. Dev. Freq.
------------+------------------------------------
0 | 21 2.7303013 12
1 | 22.75 3.250874 12
------------+------------------------------------
Total | 21.875 3.0689539 24
W0 = 0.03414971 df(1, 22) Pr > F = 0.8550817
W50 = 0.01376721 df(1, 22) Pr > F = 0.9076602
W10 = 0.02949384 df(1, 22) Pr > F = 0.86521366
W0 : Levene’s F statistic
W50 : Brown and Forsythe’s F statistic (median)
W10 : Brown and Forsythe’s F statistic (trimmed mean)
64
Hasil uji Levene yaitu H 0 tidak ditolak (p = 0.855), sehingga

disimpulkan bahwa variansi kedua kelompok sama.
. ttest mpg, by(treated)
Uji t terhadap rerata mpg antar 2 kelompok, treated = 1 vs treated = 0.

Two-sample t test with equal variances
----------------------------------------------------------------
---------+------------------------------------------------------
0 | 12 21 .7881701 2.730301 19.26525 22.73475
1 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+------------------------------------------------------
combined | 24 21.875 .6264476 3.068954 20.57909 23.17091
---------+------------------------------------------------------
diff | -1.75 1.225518 -4.291568 .7915684
----------------------------------------------------------------
diff = mean(0) - mean(1) t = -1.4280
Ho: diff = 0 degrees of freedom = 22
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0837 Pr(|T| > |t|) = 0.1673 Pr(T > t) = 0.9163
Contoh 5.4:
Digunakan file data hsb2.dta.
. use “D\Data\Stata\hsb2.dta”, clear
. list write female in 1/5
+----------------+
| write female |
|----------------|
1. | 52 male |
2. | 59 female |
3. | 33 male |
4. | 44 male |
5. | 52 male |
+----------------+
65
. ttest write, by(female)

------------------------------------------------------------------
---------+--------------------------------------------------------
male | 91 50.12088 1.080274 10.30516 47.97473 52.26703
female | 109 54.99083 .7790686 8.133715 53.44658 56.53507
---------+--------------------------------------------------------
combined | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------
diff | -4.869947 1.304191 -7.441835 -2.298059
------------------------------------------------------------------
diff = mean(male) - mean(female) t = -3.7341
Pr(T < t) = 0.0001 Pr(|T| > |t|) = 0.0002 Pr(T > t) = 0.9999
Uji t berpasangan (paired t-test)

Uji t berpasangan adalah uji statistik untuk menguji hipotesis H 0 : δ =
0, δ adalah rerata selisih 2 variabel berpasangan X1 dan X 2 . Sintaks uji
statistik adalah:
ttest varname1 == varname2 [if] [in] [, level(#)]
Asumsi-asumsi pada uji statistik ini yaitu:
- Selisih kedua variabel berpasangan berdistribusi normal
66
Contoh 5.5:
File data untuk contoh ini adalah fuel.dta.
. webuse fuel, clear
. list in 1/5
+-------------+
| mpg1 mpg2 |
|-------------|
1. | 20 24 |
2. | 23 25 |
3. | 21 21 |
4. | 25 22 |
5. | 18 23 |
+-------------+
Uji normalitas untuk selisih kedua variabel mpg1 − mpg2 adalah

sebagai berikut:
. gen diff_mpg = mpg1 - mpg2
. swilk diff_mpg
---------+--------------------------------------------------
diff_mpg | 12 0.92077 1.324 0.547 0.29236
Selisih kedua variabel berpasangan mpg1 − mpg2 = diff_mpg

berdistribusi normal (p = 0.29236).
. ttest mpg1==mpg2 (two-sample t test using variables)
Paired t test
---------------------------------------------------------------
---------+-----------------------------------------------------
mpg1 | 12 21 .7881701 2.730301 19.26525 22.73475
mpg2 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+-----------------------------------------------------
diff | 12 -1.75 .7797144 2.70101 -3.46614 -.0338602
---------------------------------------------------------------
67
mean(diff) = mean(mpg1 - mpg2) t = -2.2444

Ho: mean(diff) = 0 degrees of freedom = 11
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Pr(T < t) = 0.0232 Pr(|T| > |t|) = 0.0463 Pr(T > t) = 0.9768
Contoh 5.6:
Digunakan file data hsb2.dta.
. use “D:\Data\Stata\hsb2”, clear
. list read write in 1/10
+--------------+
| read write |
|--------------|
1. | 57 52 |
2. | 68 59 |
3. | 44 33 |
4. | 63 44 |
5. | 47 52 |
|--------------|
6. | 44 52 |
7. | 50 59 |
8. | 34 46 |
9. | 63 57 |
10. | 57 55 |
+--------------+
Berikut diperlihatkan sebagian dari dataset yang digunakan untuk

contoh uji t berpasangan:
pair read write d

1 57 52 +5
2 68 59 +9
3 44 46 −2
4 63 57 +6
... dst.
68
. ttest read==write
Paired t test
------------------------------------------------------------------
---------+--------------------------------------------------------
read | 200 52.23 .7249921 10.25294 50.80035 53.65965
write | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------
diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424
------------------------------------------------------------------
mean(diff) = mean(read - write) t = -0.8673
Ho: mean(diff) = 0 degrees of freedom = 199
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0

Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066
Uji t tanpa dataset

Uji t juga dapat tanpa membuka dataset tertentu, hanya dengan
diberikan data tentang ukuran sampel, rerata, dan standar deviasi.
o Uji t tanpa dataset untuk 1 kelompok:

Yang diuji adalah hipotesis H 0 : µ = µ0 . Sintaks untuk uji ini adalah:
ttesti #obs #mean #sd #val [, level(#)]
Contoh 5.7:
. ttesti 24 62.6 15.8 75
(immediate form; n = 24, x = 62.6, SD = 15.8; test µ = 75)
One-sample t test
-----------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
----+------------------------------------------------------
x | 24 62.6 3.225161 15.8 55.92825 69.27175
-----------------------------------------------------------
69
mean = mean(x) t = -3.8448


Pr(T < t) = 0.0004 Pr(|T| > |t|) = 0.0008 Pr(T > t) = 0.9996
o Uji t tanpa dataset untuk 2 kelompok:

Yang diuji adalah hipotesis H 0 : µ 1 = µ2 . Sintaks untuk uji hipotesis
ini adalah:
ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options]
Options yang tersedia antara lain yaitu unequal (variansi kedua kelompok
tidak sama) dan level(#) (mengubah nilai default tingkat signifikansi).
Contoh 5.8:
. ttesti 12 21.00 0.788 12 22.75 0.938

---------------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-----------------------------------------------------
x | 12 21 .227476 .788 20.49933 21.50067
y | 12 22.75 .2707773 .938 22.15402 23.34598
---------+-----------------------------------------------------
combined | 24 21.875 .2513863 1.231536 21.35497 22.39503
---------+-----------------------------------------------------
diff | -1.75 .3536462 -2.483417 -1.016583
---------------------------------------------------------------
diff = mean(x) - mean(y) t = -4.9484

Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 1.0000
70
Uji khi-kuadrat
Uji Khi-Kuadrat untuk tabel 2×2

Pada uji khi-kuadrat dengan Stata, prediktor akan ditempatkan
sebagai variabel baris dan respons sebagai variabel kolom. Untuk data yang
berasal dari rancangan studi Epidemiologi, prediktor dinamakan sebagai
“exposed” dan respons adalah “case”. Dalam tabel 2×2 ini, prediktor
maupun respons adalah variabel biner dan masing-masing bernilai {0, 1}.
case
1 0
1 a b n1
exposed
0 c d n2
m1 m2 n
o Uji Khi-kuadrat untuk Studi Kasus-Kontrol

Pada data yang berasal dari rancangan studi kasus-kontrol, ukuran
keeratan hubungan prediktor-respons adalah rasio odds (odds ratio; OR),
yaitu:
ad
ORˆ = ψˆ = (5.1)
bc
Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis
H 0 : ψ = 1. Asumsi-asumsi dalam pengujian ini yaitu:
- Pengamatan independen satu sama lain
- Frekuensi harapan tiap sel minimum sama dengan 5.
Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H 0 :
ψ = 1 adalah:
cc var_case var_exposed [if] [in] [, cc_options]
71
Salah satu opsi pada [, cc_options] ialah [, exact], yaitu opsi untuk
meminta uji eksak Fisher.
o Uji Khi-kuadrat untuk Studi Kohort

Pada data yang berasal dari rancangan studi kohort, ukuran keeratan
hubungan prediktor-respons adalah rasio risiko (risk ratio; RR), yaitu:
a n1
RRˆ = (5.2)
c n2
Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis

H 0 : RR = 1. Asumsi-asumsi dalam pengujian ini sama seperti untuk uji
hipotesis H 0 : OR = 1.
Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H 0 :
RR = 1 adalah:
cs var_case var_exposed [if] [in] [, cs_options]
Seperti pada rancangan studi kasus kontrol, di sini juga salah satu
opsi adalah [, exact], yaitu opsi untuk meminta uji eksak Fisher.
o Uji Khi-kuadrat untuk Studi Non-Epidemiologi

Jika data tidak berasal dari salah satu rancangan studi epidemiologi,
sintaksnya adalah:
tab2 varname1 varname2, chi2 exact
o Uji Khi-kuadrat tanpa Dataset

Jika analisis khi-kuadrat hendak dilakukan terhadap nilai-nilai
frekuensi keempat sel pada tabel 2×2 tanpa membuka atau menggunakan file
data tertentu, analogi dengan perintah ttesti pada uji t, sintaks-nya masing-
masing adalah:
cci a b c d
csi a b c d
dan: tabi a b \ c d, chi2 exact
72
Contoh 5.9:
Digunakan file data tt_headache_part-1.dta.
. use “D:\Data\Stata\ tt_headache_part-1”, clear
Membuka file tt_headache_part-1.dta.
. list nktt tpa_kat in 1/5
Memperlihat isi sebagian dataset untuk variabel nktt (respons; variabel baris
pada tabel) dan tpa_kat (prediktor; variabel kolom pada tabel) pada record 1
s.d. 5
+----------------+
| nktt tpa_kat |
|----------------|
1. | 0 1 |
2. | 1 0 |
3. | 1 1 |
4. | 0 0 |
5. | 0 0 |
+----------------+
. tab2 nktt tpa_kat
Perintah untuk melakukan tabulasi silang variabel nktt dengan tpa_kat.
-> tabulation of nktt by tpa_kat
| TPA_kat
NKTT | 0 1 | Total
-----------+----------------------+----------
0 | 86 24 | 110
1 | 44 64 | 108
-----------+----------------------+----------
Total | 130 88 | 218
Selanjutnya dengan asumsi data berasal dari studi kasus-kontrol,
hendak dilakukan pengestimasian nilai rasio odds prediktor tpa_kat
(exposed) dengan respons nktt (case) serta uji hipotesis H 0 : OR = 1.
73
. cc nktt tpa_kat
Proportion
| Exposed Unexposed | Total Exposed
----------------+--------------------+--------------------
Cases | 64 44 | 108 0.5926
Controls | 24 86 | 110 0.2182
----------------+--------------------+--------------------
Total | 88 130 | 218 0.4037
| |
| Point estimate |[95% Conf. Interval]
|--------------------+--------------------
Odds ratio | 5.212121 | 2.770114 9.888089 (exact)
Attr. frac. ex. | .8081395 | .639004 .8988682 (exact)
Attr. frac. pop | .4788975 |
+-----------------------------------------
chi2(1) = 31.74 Pr>chi2 = 0.0000
Diperoleh kesimpulan hipotesis H 0 : OR = 1 ditolak dengan p =

0.0000. Estimasi titik ORˆ adalah 5.21 dengan interval konfidensi 95% [2.77
; 9.89].
Jika data diasumsikan berasal dari rancangan studi kohort, yang
diestimasi adalah nilai rasio risiko dan hipotesis yang diuji adalah H 0 : RR =
1 dengan perintah:
. cs nktt tpa_kat
| TPA_kat |
| Exposed Unexposed | Total
----------------+---------------------+----------
Cases | 64 44 | 108
Noncases | 24 86 | 110
----------------+---------------------+----------
Total | 88 130 | 218
| |
Risk | .7272727 .3384615 | .4954128
| |
74
| Point estimate | [95% Conf. Interval]

|---------------------+---------------------
Risk difference | .3888112 | .2652201 .5124023
Risk ratio | 2.14876 | 1.636615 2.821171
Attr. frac. ex. | .5346154 | .3889827 .6455373
Attr. frac. pop | .3168091 |
+-------------------------------------------
chi2(1) = 31.74 Pr>chi2 = 0.0000
Hipotesis H 0 : RR = 1 ditolak dengan p = 0.0000. Estimasi titik untuk

RRˆ adalah 2.15 dengan interval konfidensi 95% [1.64 ; 2.82].
Jika data tidak diasumsikan berasal dari salah satu rancangan studi
Epidemiologi, uji khi-kuadrat untuk asosiasi antara tpa_kat dengan nktt
dapat dilakukan dengan perintah:
. tab2 nktt tpa_kat, chi2
-> tabulation of nktt by tpa_kat

| TPA_kat
NKTT | 0 1 | Total
-----------+----------------------+----------
0 | 86 24 | 110
1 | 44 64 | 108
-----------+----------------------+----------
Total | 130 88 | 218
Pearson chi2(1) = 31.7354 Pr = 0.000
75
Contoh 5.10:
Digunakan file data ccxmpl.dta.
. webuse ccxmpl
. list
+-----------------------+
| case exposed pop |
|-----------------------|
1. | 1 1 4 |
2. | 1 0 386 |
3. | 0 1 4 |
4. | 0 0 1250 |
+-----------------------+
Berbeda dengan contoh file data terdahulu, pada file ccxmpl ini
hanya ada 4 records, tiap record tidak menyatakan data untuk 1 orang
responden, melainkan nilai-nilai frekuensi pada tabel 2×2. Ada 4 responden
dengan nilai case = 1 dan exposed = 1; 386 responden dengan nilai case =
1 dan exposed = 0; dan seterusnya; sehingga jumlah responden seluruhnya
adalah 4 + 386 + 4 + 1250 = 1644 orang responden. Di sini tidak boleh
dilakukan perintah tabulate case exposed, chi2. Perintah yang dapat
digunakan di sini adalah cci.
. cci 4 386 4 1250

Proportion
| Exposed Unexposed | Total Exposed
----------------+---------------------+---------------------
Cases | 4 386 | 390 0.0103
Controls | 4 1250 | 1254 0.0032
----------------+---------------------+---------------------
Total | 8 1636 | 1644 0.0049
| |
|---------------------+---------------------
Odds ratio | 3.238342 | .5997233 17.45614 (exact)
Attr. frac. ex. | .6912 | -.6674356 .9427136 (exact)
Attr. frac. pop | .0070892 |
+-------------------------------------------
chi2(1) = 3.07 Pr>chi2 = 0.0799
76
Contoh 5.11:
. csi 7 12 9 2
-----------------+-------------------+----------
Cases | 7 12 | 19
Noncases | 9 2 | 11
-----------------+-------------------+----------
Total | 16 14 | 30
| |
Risk | .4375 .8571429 | .6333333
| |
|-------------------+---------------------
Risk difference | -.4196429 | -.7240828 -.1152029
Risk ratio | .5104167 | .2814332 .9257086
Prev. frac. ex. | .4895833 | .0742914 .7185668
Prev. frac. pop | .2611111 |
+-----------------------------------------
chi2(1) = 5.66 Pr>chi2 = 0.0173
. csi 7 12 9 2, exact
-----------------+--------------------+----------
Cases | 7 12 | 19
Noncases | 9 2 | 11
-----------------+--------------------+----------
Total | 16 14 | 30
| |
Risk | .4375 .8571429 | .6333333
| |
|--------------------+---------------------
Risk difference | -.4196429 | -.7240828 -.1152029
Risk ratio | .5104167 | .2814332 .9257086
Prev. frac. ex. | .4895833 | .0742914 .7185668
Prev. frac. pop | .2611111 |
77
+------------------------------------------
1-sided Fisher's exact P = 0.0212
2-sided Fisher's exact P = 0.0259
Uji Khi-kuadrat untuk tabel r × c

(r baris dan c kolom):
Uji khi-kuadrat dilakukan pada tabel r×c untuk menguji hipotesis
H 0 : Tidak asosiasi antara variabel baris dengan variabel kolom. Asumsi-
asumsi yang berlaku sama seperti untuk tabel 2×2. Siktaks untuk uji khi-
kuadrat yaitu:
tabulate varname1 varname2 [if] [in] , chi2
Contoh 5.12:
Digunakan file data citytemp2.dta.

. use "D:\Data\Stata\citytemp2", clear
(City Temperature Data)
. list region agecat in 1/7

+-----------------+
| region agecat |
|-----------------|
1. | NE 19-29 |
2. | NE 19-29 |
3. | NE 19-29 |
4. | NE 19-29 |
5. | NE 19-29 |
|-----------------|
6. | NE 19-29 |
7. | NE 19-29 |
+-----------------+
78
. tabulate region agecat
Census | agecat
Region | 19-29 30-34 35+ | Total
-----------+---------------------------------+----------
NE | 46 83 37 | 166
N Cntrl | 162 92 30 | 284
South | 139 68 43 | 250
West | 160 73 23 | 256
-----------+---------------------------------+----------
Total | 507 316 133 | 956
. tabulate region agecat, chi2
Census | agecat
Region | 19-29 30-34 35+ | Total
-----------+---------------------------------+----------
NE | 46 83 37 | 166
N Cntrl | 162 92 30 | 284
South | 139 68 43 | 250
West | 160 73 23 | 256
-----------+---------------------------------+----------
Total | 507 316 133 | 956
Pearson chi2(6) = 61.2877 Pr = 0.000
Dengan p = 0.000, ditemukan asosiasi yang bermakna antara

kelompok usia responden (agecat) dengan regio sensus mereka (region).
79
Bab 6. Analisis Variansi
BAB 6
ANALISIS VARIANSI
Analisis variansi (analysis of variance; ANOVA) adalah analisis
statistik untuk mengkaji perbedaan rerata antar lebih daripada 2 kategori,
seperti pada uji t, yang mengkaji perbedaan rerata antara 2 kategori.
Analisis Variansi 1-Arah

Pada analisis variansi 1-arah (one-way ANOVA), populasi penelitian
terbagi atas p kategori, yang lazimnya dinamakan juga taraf-taraf suatu
faktor. Analisis variansi mengkaji apakah ada paling sedikit 1 rerata kategori
(taraf faktor) yang berbeda dengan rerata kategori (taraf faktor) lainnya.
Sintaks-nya adalah:
oneway resp_var fact_var [if] [in] [, options]
resp_var : respons, variabel dependen (kontinu)
fact_var : faktor, variabel independen (kategorik)
Model pada analisis variansi adalah:
Yij = µ + τ i + ε ij (6.1)
Hipotesis pada analisis variansi yaitu:

H 0 : τ1 = τ 2 = . . . = τ p (6.1.a)
Asumsi-asumsi pada analisis variansi adalah:

1. Independensi: Galat saling independen
2. Normalitas: Galat berdistribusi normal
3. Homoskedastisitas: Homogenitas variansi (antar kelompok perlakuan)
4. Sampling acak: Data diperoleh dari sampling acak
80
Contoh 6.1:
File data yang digunakan pada contoh ini adalah hsb2.dta, memuat
data tentang 200 siswa yang terbagi atas 3 tipe program (prog), yaitu
general, academic, dan vocation. Akan dikaji apakah ada perbedaan rerata
nilai write antar ketiga tipe program tersebut.
. use “D:\Data\Stata\hsb2”
. tabulate prog, summarize(write)

type of | Summary of writing score
program | Mean Std. Dev. Freq.
------------+---------------------------------
general | 51.333333 9.3977754 45
academic | 56.257143 7.9433433 105
vocation | 46.76 9.3187544 50
------------+---------------------------------
Total | 52.775 9.478586 200
Grafik batang rerata write pada ketiga tipe prog diperlihatkan

sebagai berikut:
. graph bar (mean) write, over(prog)
60 40
mean of write
20
0
general academic vocation
81
Analisis variansi 1-arah adalah:

. oneway write prog
Analysis of Variance
Source SS df MS F Prob > F
-----------------------------------------------------------
Between groups 3175.69786 2 1587.84893 21.27 0.0000
Within groups 14703.1771 197 74.635417
-----------------------------------------------------------
Total 17878.875 199 89.843593
Bartlett's test for equal variances: chi2(2) = 2.6184

Prob>chi2 = 0.270
Kesimpulan yang diperoleh:

- Variansi antar kelompok perlakuan (antar tipa prog) dapat dianggap
sama (uji Bartlett; p = 0.270)
- Rerata antar kelompok perlakuan (nilai write) tidak sama (uji F; p <
0.0000)
Untuk melihat kelompok perlakuan mana yang berbeda, dilakukan
perbandingan ganda (multiple comparisons) dengan cara Bonferroni atau
Scheffe.
. oneway write prog, bonferroni
Comparison of writing score by type of program

(Bonferroni)
Row Mean-|
Col Mean | general academic
---------+----------------------
academic | 4.92381
| 0.005
|
vocation | -4.57333 -9.49714
| 0.032 0.000
Disimpulkan bahwa perbandingan tiap pasangan kelompok (kontras:

vocation vs general; general vs academic; vocation vs academic) ketiganya
menghasilkan perbedaan yang bermakna secara statistik (p = 0.03; p = 0.05;
p = 0.000).
82
Contoh 6.2:
. use “D:\Data\Stata\apple”, clear
(Apple trees)
. oneway weight treatment
Analysis of Variance
Source SS df MS F Prob > F
----------------------------------------------------------
Between groups 5295.54433 3 1765.18144 21.46 0.0013
Within groups 493.591667 6 82.2652778
----------------------------------------------------------
Total 5789.136 9 643.237333
Bartlett's test for equal variances: chi2(3) = 1.3900
Prob>chi2 = 0.708
. oneway weight treatment, tabulate
| Summary of Average weight in grams
Fertilizer | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 111.9 6.7535176 3
2 | 52.733333 5.3928966 3
3 | 78.65 11.667262 2
4 | 77.5 14.424978 2
------------+------------------------------------
Total | 80.62 25.362124 10
83
. graph hbar (mean) weight, over(treatment)
0 50 100
mean of weight
. oneway weight treatment, scheffe
Comparison of Average weight in grams by Fertilizer

(Scheffe)
Row Mean-|
Col Mean | 1 2 3
---------+---------------------------------
2 | -59.1667
| 0.001
|
3 | -33.25 25.9167
| 0.039 0.101
|
4 | -34.4 24.7667 -1.15
| 0.034 0.118 0.999
Analisis Variansi 2-Arah Tanpa Interaksi

Pada analisis variansi 2-arah (two-way ANOVA) tanpa interaksi ini,
populasi penelitian terbagi berdasarkan 2 faktor, masing-masing yaitu faktor
A dengan p taraf dan faktor B dengan q taraf. Sintaks-nya adalah:
anova resp_var fact_A fact_B [if] [in] [, options]
84
resp_var : respons, variabel dependen

fact_A : faktor A, variabel independen pertama
fact_B : faktor B, variabel independen kedua
Model penelitian ini adalah:
Yij = µ + α i + β j + ε ij (6.2)
Hipotesis penelitian adalah:

H 0 : α1 = α 2 = . . . = α p (6.2.a)
H 0 : β1 = β 2 = . . . = β q (6.2.b)
Asumsi-asumsi pada analisis variansi 2-arah ini sama dengan asumsi

pada analisis variansi 1-arah. Perintah anova juga dapat digunakan untuk
analisis variansi 1-arah, namun tak dapat dilanjutkan dengan perbandingan
ganda (Multiple Comparisons) seperti pada oneway.
Contoh 6.3:
. use "D:\Data\Stata\systolic", clear
(Systolic Blood Pressure Data)
. tabulate drug disease, summarize(systolic)
Means, Standard Deviations and Frequencies of Increment in

Systolic B.P.
| Patient's Disease
Drug Used | 1 2 3 | Total
-----------+---------------------------------+----------
1 | 29.333333 28.25 20.4 | 26.066667
| 13.017936 5.85235 13.371612 | 11.677002
| 6 4 5 | 15
-----------+---------------------------------+----------
2 | 28 33.5 18.166667 | 25.533333
| 10.977249 2.081666 12.528634 | 11.61813
| 5 4 6 | 15
-----------+---------------------------------+----------
85
3 | 16.333333 4.4 8.5 | 8.75

| 14.189198 6.9137544 9 | 10.0193
| 3 5 4 | 12
-----------+---------------------------------+----------
4 | 13.6 12.833333 14.2 | 13.5
| 10.549882 10.342469 8.9274856 | 9.3238047
| 5 6 5 | 16
-----------+---------------------------------+----------
Total | 22.789474 18.210526 15.8 | 18.87931
| 13.159614 13.554741 11.302538 | 12.800874
| 19 19 20 | 58
. anova systolic drug disease
Number of obs = 58 R-squared = 0.3803

Root MSE = 10.5503 Adj R-squared = 0.3207
Source | Partial SS df MS F Prob > F

--------+-------------------------------------------
Model | 3552.07225 5 710.414449 6.38 0.0001
|
drug | 3063.43286 3 1021.14429 9.17 0.0001
disease | 418.833741 2 209.41687 1.88 0.1626
|
Residual| 5788.08293 52 111.309287
--------+-------------------------------------------
Total | 9340.15517 57 163.862371
. margins drug disease

Predictive margins Number of obs = 58
Expression : Linear prediction, predict()
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
drug |
1 | 25.8624 2.734004 9.46 0.000 20.37621 31.34858
2 | 25.758 2.731305 9.43 0.000 20.27724 31.23877
3 | 8.866601 3.059402 2.90 0.005 2.727463 15.00574
4 | 13.39343 2.641496 5.07 0.000 8.092878 18.69398
|
86
disease |
1 | 21.79871 2.43044 8.97 0.000 16.92168 26.67575
2 | 19.65957 2.436121 8.07 0.000 14.77113 24.548
3 | 15.36463 2.363042 6.50 0.000 10.62284 20.10642
---------------------------------------------------------------
. quietly: margins drug
. marginsplot
Variables that uniquely identify margins: drug
Predictive Margins of drug with 95% CIs

30
Linear Prediction
10 0 20
1 2 3 4
Drug Used
Analisis Variansi 2-Arah Dengan Interaksi

Pada analisis variansi 2-arah dengan interaksi, selain oleh faktor A
dan faktor B, respons juga dipengaruhi oleh interaksi antara faktor A dan
faktor B. Sintaks-nya adalah:
anova resp_var fact_A fact_B fact_A#fact_B [if] [in] [, options]
Modelnya adalah:
Yijk = µ + α i + β j + (αβ )ij + ε ijk (6.3)
87
Hipotesis penelitian adalah:

H 0 : α1 = α 2 = . . . = α p (6.3.a)
H 0 : β1 = β 2 = . . . = β q (6.3.b)
H 0 : (αβ )ij = 0 untuk i = 1, 2, . . . , p dan j = 1, 2, . . . , q
(6.3.c)
Contoh 6.4:
. use "D:\Data\Stata\systolic", clear
(Systolic Blood Pressure Data)
. anova systolic drug disease drug#disease
Number of obs = 58 R-squared = 0.4560
Root MSE = 10.5096 Adj R-squared = 0.3259
Source | Partial SS df MS F Prob > F
-------------+--------------------------------------------
Model | 4259.33851 11 387.212591 3.51 0.0013
|
drug | 2997.47186 3 999.157287 9.05 0.0001
disease | 415.873046 2 207.936523 1.88 0.1637
drug#disease | 707.266259 6 117.87771 1.07 0.3958
|
Residual | 5080.81667 46 110.452536
-------------+--------------------------------------------
Total | 9340.15517 57 163.862371
Dengan p = 0.3958, berarti tidak ada interaksi antara antara efek drug
dan disease terhadap systolic.
. margins drug disease drug#disease
Predictive margins Number of obs = 58
Expression : Linear prediction, predict()
---------------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-------------+-------------------------------------------------------
drug |
1 | 25.89799 2.750533 9.42 0.000 20.36145 31.43452
2 | 26.41092 2.742762 9.63 0.000 20.89003 31.93181
3 | 9.722989 3.099185 3.14 0.003 3.484652 15.96132
4 | 13.55575 2.640602 5.13 0.000 8.24049 18.871
88
|
disease |
1 | 21.95862 2.442515 8.99 0.000 17.04209 26.87515
2 | 20.4204 2.457703 8.31 0.000 15.4733 25.3675
3 | 15.65 2.360482 6.63 0.000 10.8986 20.4014
|
drug#disease |
1 1 | 29.33333 4.290543 6.84 0.000 20.69692 37.96975
12 | 28.25 5.25482 5.38 0.000 17.6726 38.8274
13 | 20.4 4.700054 4.34 0.000 10.93928 29.86072
21 | 28 4.700054 5.96 0.000 18.53928 37.46072
22 | 33.5 5.25482 6.38 0.000 22.9226 44.0774
2 3 | 18.16667 4.290543 4.23 0.000 9.530252 26.80308
3 1 | 16.33333 6.067744 2.69 0.010 4.119599 28.54707
32 | 4.4 4.700054 0.94 0.354 -5.060718 13.86072
33 | 8.5 5.25482 1.62 0.113 -2.077404 19.0774
41 | 13.6 4.700054 2.89 0.006 4.139282 23.06072
4 2 | 12.83333 4.290543 2.99 0.004 4.196919 21.46975
43 | 14.2 4.700054 3.02 0.004 4.739282 23.66072
----------------------------------------------------------------------
. quietly: margins drug#disease
. marginsplot
Variables that uniquely identify margins: drug disease
Adjusted Predictions of drug#disease with 95% CIs

40 30
Linear Prediction
10 20
0
-10
1 2 3 4
Drug Used
disease=1 disease=2
disease=3
89
Bab 7. Analisis Regresi Linear
BAB 7
ANALISIS REGRESI LINEAR
Regresi Linear Sederhana (Simple Linear

Regression)
Analisis regresi sederhana adalah pemodelan dan analisis statistik
tentang hubungan antara 1 prediktor dengan 1 respons kontinu. Model
hubungan adalah:
Yi = β 0 + β 1 X i + ε i (7.1)
Sintaks-nya untuk pengestimasian model dan garis regresi adalah:
regress depvar indepvar [if] [in] [, options]
Grafik yang dapat dibuat yaitu diagram tebar dan estimasi garis
regresi dengan sintaks:
graph twoway scatter depvar indepvar
twoway lfit depvar indepvar
graph twoway scatter depvar indepvar || lfit depvar indepvar
Pengujian terhadap asumsi analisis regresi linear antara lain yaitu
asumsi normalitas dan homoskedastisitas ditujukan terhadap suku galat,
karena itu harus diawali dengan pembentukan suku galat:
regress depvar indepvar
predict resid, residuals
resid : suku galat
Dilanjutkan dengan:
Uji normalitas Shapiro-Wilk atau uji Shapiro-Francia:
swilk resid (uji Shapiro-Wilk)
francia resid (uji Shapiro-Francia)
Uji Breusch-Pagan dan uji White untuk asumsi homoskedatisitas:
estat hettest (uji Breusch-Pagan)
estat imtest, white (uji White)
90
Contoh 7.1:
. use “D:\Data\Stata\elemapi”
. describe enroll api00
------------------------------------------------------
enroll int %9.0g number of students
api00 int %6.0g api 2000
enroll : Jumlah siswa
api00 : Kinerja akademik sekolah pada tahun 2000
. graph twoway scatter api00 enroll || lfit api00 enroll

1000
800
600
400
0 500 1000 1500

number of students
api 2000 Fitted values
. regress api00 enroll

Source | SS df MS Number of obs = 400
---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03
91
----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------
Hasil dan kesimpulannya yaitu:
- Uji F untuk menguji asumsi bahwa model benar bermakna secara
statistik (p = 0.0000)
- Koefisien determinasi R 2 = 0.1012, menyatakan bahwa prediktor enroll
“menjelaskan” 10.12% variansi respons api00.
- Uji t untuk prediktor enroll bermakna secara statistik (p = 0.000)
- Koefisien regresi adalah enroll −0.1998674 ≈ −0.2
- Konstante adalah 744.2514, yaitu nilai prediksi api00 jika enroll = 0. Ini
adalah kesimpulan statistik yang tidak realistik, karena jika tidak ada
siswa (enroll = 0), tidak akan ada kinerja akademik sekolah (api00).
Perintah berikut adalah untuk menyajikan grafik yang dapat menilai
kebenaran asumsi linearitas secara kasar.
. graph twoway scatter api00 enroll || lfit api00 enroll
1000
800
600
400
0 500 1000 1500

number of students
api 2000 Fitted values
92
Uji asumsi linearitas yang lebih eksak ialah uji lack-of-fit, yang
menguji hipotesis H 0 : Tidak ada “lack of linear fit”
. maxr2
maximum R-square = 0.7917
relative R-square = 0.1279
actual adjusted R-square = 0.0990
relative adjusted R-square = 0.1257
SSLF (df) = 5574305.5 (306) MSLF = 18216.684

SSPE (df) = 1682040.3 (92) MSPE = 18283.046
F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92)

prob > F = 0.5206
number of covariate patterns = 308

as ratio of observations = 0.770
Kesimpulannya yaitu hipotesis nol tidak ditolak (p = 0.5206),

sehingga asumsi linearitas dianggap terpenuhi.
Selanjutnya pengujian asumsi normalitas dilakukan dengan uji
Shapiro-Wilk dan uji Shapiro-Francia terhadap hipotesis H 0 : Suku galat
berdistribusi normal.
. predict e, residuals
. swilk e
---------+------------------------------------------------
e | 400 0.97083 8.030 4.957 0.00000
. sfrancia e
Shapiro-Francia W' test for normal data
Variable | Obs W' V' z Prob>z
---------+------------------------------------------------
e | 400 0.97214 8.263 4.567 0.00001
93
Baik dengan uji Shapiro-Wilk maupun uji Shapiro-Francia, hipotesis

nol ditolak (p = 0.0000)
Pengujian asumsi homoskedastisitas adalah dengan uji Breusch-
Pagan dan uji White, menguji hipotesis H 0 : Homoskedastisitas. Uji
Breusch-Pagan adalah untuk menguji heteroskedastisitas linear, sedangkan
uji White menguji heteroskedastisitas “glasshour”.
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of api00
chi2(1) = 1.91
Prob > chi2 = 0.1665
Tidak ditemukan heteroskedastisitas (p = 0.1665)
. estat imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(2) = 3.78
Prob > chi2 = 0.1514
Cameron & Trivedi's decomposition of IM-test
---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 3.78 2 0.1514
Skewness | 34.11 1 0.0000
Kurtosis | 26.44 1 0.0000
---------------------+-----------------------------
Total | 64.32 4 0.0000
---------------------------------------------------
Tidak ditemukan heteroskedastisitas (glasshour) dengan p = 0.1514.
94
Regresi Linear Sederhana dengan Prediktor

Indikator
Analisis regresi linear sederhana dapat dilakukan jika prediktornya
adalah variabel indikator dengan model:
Yi = β 0 + β 1 X i + ε i ; X = {0, 1} (7.2)
Sintaks-nya untuk pengestimasian model dan garis regresi tetap sama,
yaitu:
regress depvar indepvar [if] [in] [, options]
indepvar : prediktor biner (variabel indikator)
Contoh 7.2:
. use “D:\Data\Stata\elemapi.dta”, clear
. tabulate yr_rnd
year round |
school | Freq. Percent Cum.
-----------+-----------------------------------
No | 308 77.00 77.00
Yes | 92 23.00 100.00
-----------+-----------------------------------
Total | 400 100.00
. tabulate yr_rnd, nolabel

year round |
school | Freq. Percent Cum.
-----------+-----------------------------------
0 | 308 77.00 77.00
1 | 92 23.00 100.00
-----------+-----------------------------------
Total | 400 100.00
95
. regress api00 yr_rnd

--------+------------------------- F( 1, 398) = 116.24
Model |1825000.56 1 1825000.56 Prob > F = 0.0000
Residual|6248671.43 398 15700.1795 R-squared = 0.2260
--------+------------------------- Adj R-squared = 0.2241
Total |8073672 399 20234.7669 Root MSE = 125.3
------------------------------------------------------------
-------+----------------------------------------------------
yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239
_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751
------------------------------------------------------------
Regresi Linear Ganda (Multiple Linear

Regression)
Pada analisis regresi linear ganda, didapatkan prediktor lebih
daripada satu dengan model:
Yi = β 0 + β 1 X1i + β 2 X 2i + . . . + β p X pi + ε i (7.3)
Sintaks-nya adalah:
regress depvar indepvars [if] [in] [, options]
Asumsi yang berlaku di sini adalah sama seperti pada regresi linear
sederhana, dengan tambahan asumsi tidak ada multikolinearitas. Perintah
untuk uji multikolinearitas adalah vif yang menampilkan hasil perhitungan
variance inflation factor.
Contoh 7.3:
. use “ D:\Data\Stata\elemapi”
Variabel-variabel dalam dataset adalah:
api00 : Kinerja akademik sekolah tahun 2000
acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3
meals : Persentase siswa yang mendapat makan gratis (indikator
kemiskinan)
96
full : Persentase guru yang memiliki akreditasi penuh untuk

mengajar
. list api00 acs_k3 meals full in 1/7
+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
Perintah berikut menampilkan matriks grafik diagram tebar untuk
tiap pasangan variabel kontinu:
. graph matrix api00 acs_k3 meals full, half
api
2000
20
avg
class
0 size
k-3
-20
100
pct
50 free
meals
0
100.00
50.00 pct full

credential
0.00
400 600 800 1000
-20 0 20 0 50 100
97
Perintah ini adalah untuk menyajikan matriks korelasi:

. correlate api00 acs_k3 meals full
(obs=313)
| api00 acs_k3 meals full
-------------+------------------------------------
api00 | 1.0000
acs_k3 | -0.0641 1.0000
meals | -0.8184 0.0097 1.0000
full | 0.2328 0.1789 -0.2518 1.0000
Estimasi model dan persamaan garis regresi adalah:
. regress api00 acs_k3 meals full
---------+------------------------------ F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153
--------------------------------------------------------------------------
---------+----------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------------
Kesimpulan yang diperoleh yaitu:
- Rerata ukuran kelas (acs_k3, b = −2.68) tampak tak bermakna (p =
0.055). Koefisien negatif mengindikasikan bahwa ukuran kelas yang
lebih besar terkait dengan kinerja akademik yang lebih rendah.
- Efek meals (b = −3.70, p = 0.000) bermakna. Koefisien negatif
menunjukkan bahwa semakin besar proporsi siswa penerima makanan
gratis, semakin rendah kinerja akademik.
Ini tak berarti bahwa makanan gratis menyebabkan kinerja akademik
yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan
98
berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang

lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.
- Persentase guru dengan akreditasi penuh (full, b = 0.11, p = 0.232) tak
terkait dengan kinerja akademik, mengindikasikan bahwa persentase guru
dengan akreditasi penuh bukan merupakan faktor penting untuk
memprediksi kinerja.
Uji multikolinearitas dilakukan sebagai berikut:

. vif
Variable | VIF 1/VIF
-------------+----------------------
full | 1.11 0.903713
meals | 1.07 0.933517
acs_k3 | 1.04 0.964781
-------------+----------------------
Mean VIF | 1.07
Kesimpulan yaitu tidak ada multikolinearitas. Multikolinearitas

dianggap ada jika ada variabel dengan nilai vif lebih besar dari pada 10.00
atau nilai Tolerance (= 1/ vif) lebih kecil daripada 0.10.
Regresi Linear Ganda dengan Prediktor

Kategorik
Misalkan prediktor X akan diregresikan terhadap respons Y, X adalah
variabel kategorik dengan 3 kategori: X = {1, 2, 3}
Digunakan 2 variabel indikator Z1 dan Z 2 ; masing-masing adalah
variabel biner; Z1 = {0, 1} dan Z 2 = {0, 1}, sehingga model yang digunakan
menjadi:
Yi = β 0 + β 1 Z1i + β 2 Z 2i + ε i (7.4)
Konversi variabel kategorik menjadi variabel indikator pada Stata
dilakukan dengan operator i, yaitu 1 variabel kategorik X dengan p taraf
direpresentasikan oleh (p – 1) indikator Z.
99
Z1 Z2
X=1 0 0
X=2 1 0
X=3 0 1
Misalnya, variabel ses dengan 3 taraf direpresentasikan oleh 2
variabel indikator yang dibentuk oleh i.ses (X = 1 menjadi baseline).
Contoh 7.4:
. use “D:\Data\Stata\hsb2”, clear
. tabulate ses
ses | Freq. Percent Cum.

------------+-----------------------------------
low | 47 23.50 23.50
middle | 95 47.50 71.00
high | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00
. tabulate ses, nolabel
ses | Freq. Percent Cum.

------------+-----------------------------------
1 | 47 23.50 23.50
2 | 95 47.50 71.00
3 | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00
. regress science i.ses

---------+-------------------------- F( 2, 197) = 8.57
Model | 1561.57802 2 780.789008 Prob > F = 0.0003
---------+-------------------------- Adj R-squared = 0.0707
Total | 19507.5 199 98.0276382 Root MSE = 9.5444
100
--------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-----------------------------------------------------
ses |
middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797
high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
|
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
--------------------------------------------------------------
Taraf low pada variabel kategorik ses menjadi baseline untuk

kontras (middle vs low ; high vs low).
Regresi Linear Ganda dengan Interaksi

Pada model regresi linear ini didapatkan interaksi 2 prediktor, yaitu
interaksi antara X1 dan X 2 . Modelnya adalah:
Yi = β 0 + β 1 X1i + β 2 X 2i + β 3 X1i X 2i + ε i (7.5)
Sintaks yang digunakan yaitu:
regress depvar indepvars indepvar1#indepvar2 [if] [in] [, options]
indepvar1#indepvar2 : Suku interaksi
Pada pemodelan regresi linear dengan interaksi pada Stata ini
digunakan operator i. dan c.:
- Prediktor/variabel independen yang tidak dalam suku interaksi dalam
model regresi linear harus merupakan variabel kontinu atau indikator.
Operator i. mengubah variabel kategorik dengan kategori/taraf lebih
daripada 2, yang tidak dalam suku interaksi menjadi variabel indikator
agar dapat dimasukkan ke dalam model regresi linear.
- Prediktor/variabel independen dalam suku interaksi dalam model regresi
linear harus merupakan variabel kategorik atau indikator.
Operator c. mengubah variabel kontinu yang dalam suku interaksi
menjadi variabel kategorik.
Ikhtisar penggunaan operator i. dan c. pada prediktor dalam model
regresi linear diperlihatkan sebagai berikut:
101
Variabel tunggal: Suku Interaksi:

X X1 # X 2
Biner {0, 1} varname varname

Kategorik
i.varname varname
(taraf > 2)
Kontinu varname c.varname
Contoh 7.5:
. use “D:\Data\Stata\honolulu”
. regress tek_darah usia kolesterol

---------+--------------------------- F( 2, 97) = 4.02
Model | 3404.78195 2 1702.39098 Prob > F = 0.0211
---------+--------------------------- Adj R-squared = 0.0574
Total | 44523 99 449.727273 Root MSE = 20.589
-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
-----------------------------------------------------------------
. regress tek_darah usia kolesterol c.usia#c.kolesterol

usia dan kolesterol keduanya adalah variabel kontinu, jika
dimasukkan ke dalam suku interaksi masing-masing memerlukan operator c.
---------+---------------------------- F( 3, 96) = 3.27
Model | 4127.36425 3 1375.78808 Prob > F = 0.0246
---------+---------------------------- Adj R-squared = 0.0643
Total | 44523 99 449.727273 Root MSE = 20.513
102
------------------------------------------------------------------------------
--------------------+---------------------------------------------------------
usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813
kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808
|
c.usia#c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404
|
_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377
------------------------------------------------------------------------------
. regress tek_darah usia rokok

---------+------------------------- F( 2, 97) = 2.87
Model | 2485.12693 2 1242.56346 Prob > F = 0.0617
---------+------------------------- Adj R-squared = 0.0363
Total | 44523 99 449.727273 Root MSE = 20.818
-----------------------------------------------------------------
----------+------------------------------------------------------
usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886
rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724
_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148
-----------------------------------------------------------------
. regress tek_darah usia rokok c.usia#rokok

usia adalah variabel kontinu, jika dimasukkan ke dalam suku
interaksi memerlukan operator c. rokok adalah variabel indikator, sehingga
selalu tidak memerlukan operator.
---------+--------------------------- F( 3, 96) = 1.93
Model | 2531.81794 3 843.939314 Prob > F = 0.1300
---------+--------------------------- Adj R-squared = 0.0274
Total | 44523 99 449.727273 Root MSE = 20.914
103
-----------------------------------------------------------------------
-------------+---------------------------------------------------------
usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343
rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693
|
rokok#c.usia |
1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555
|
_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803
-----------------------------------------------------------------------
. regress tek_darah usia i.pend

pend adalah variabel kategorik, jika digunakan sebagai prediktor
tunggal (tidak dalam suku interaksi), memerlukan operator i.
---------+--------------------------- F( 5, 94) = 1.68
Model | 3658.43513 5 731.687027 Prob > F = 0.1462
---------+--------------------------- Adj R-squared = 0.0333
Total | 44523 99 449.727273 Root MSE = 20.85
-----------------------------------------------------------------
----------+------------------------------------------------------
usia | .8387384 .420814 1.99 0.049 .0032023 1.674275
|
pend |
2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523
3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482
4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877
5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951
|
_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838
-----------------------------------------------------------------
. regress tek_darah usia i.pend c.usia#pend

Dalam suku interaksi, pend sebagai variabel kategorik tidak
memerlukan lagi operator i., sedangkan usia sebagai variabel kontinu dalam
suku interaksi memerlukan operator c.
104

---------+--------------------------- F( 9, 90) = 1.25
Model | 4941.84363 9 549.093736 Prob > F = 0.2762
---------+--------------------------- Adj R-squared = 0.0221
Total | 44523 99 449.727273 Root MSE = 20.971
---------------------------------------------------------------------
-------------+-------------------------------------------------------
usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985
|
pend |
2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652
3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221
4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465
5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399
|
pend#c.usia |
2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588
3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838
4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761
5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478
|
_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776
---------------------------------------------------------------------
105
Bab 8. Analisis Regresi Logistik
BAB 8
ANALISIS REGRESI LOGISTIK
Model Regresi Logistik Sederhana

Model regresi logistik adalah model hubungan antara prediktor
dengan respons biner, sedemikian hingga logit probabilitas respons
merupakan fungsi linear prediktornya:
Yˆ = P [ Y = 1 X ] (8.1)
Yˆ
dan: logit Yˆ = ln = β 0 + β1 X (8.2)
1 − Yˆ
dengan Y biner; Yi = 0, 1.
Estimasinya yang diperoleh dari data sampel adalah:
Yˆ
logit Yˆ = ln = b0 + b1 X (8.2.a)
1 − Yˆ
Perhatikan bahwa:
- Untuk model regresi logistik sederhana, ruas kanan persamaan (2)
hanya memiliki satu prediktor X.
- Pada ruas kanan persamaan (2) tidak didapatkan suku galat seperti
halnya pada model regresi linear dengan respons kontinu.
Prediktor X dapat berupa variabel kontinu ataupun kategorik. Jika
prediktor X kategorik, dalam persamaan (2) dinyatakan dengan satu atau
lebih variabel indikator seperti halnya pada model regresi linear.
Karena nilai Yˆ merupakan sebuah nilai probabilitas, nilai Yˆ dibagi
dengan komplemennya (= 1 − Yˆ ) adalah nilai odds Yˆ :
Yˆ
Odds Yˆ = (8.3)
1 − Yˆ
dan logit Yˆ dinamakan juga ln odds Yˆ :
logit Yˆ = log odds Yˆ
106
1
dan Yˆ = P [ Y = 1 X ] = (8.4)
1 + exp− ( β0 + β1 X )
Estimasinya dari data sampel adalah:
1
Yˆ = P [ Y = 1 X ] = (8.4.a)
1 + exp− ( b0 +b1 X )
Yˆ
Dari persamaan ln = β 0 + β1 X , diperoleh:
1 − Yˆ
Yˆ
Odds Yˆ = = exp− ( β0 + β1 X )
1 − Yˆ
Jika X juga biner, maka:
untuk X = 1 → Odds Ŷ1 = exp− ( β 0 + β1 )
dan untuk X = 0 → Odds Ŷ0 = exp− ( β 0 )

Rasio antara keduanya adalah rasio odds respons Y dengan prediktor
X, yaitu:
OR = exp− β1 (8.5)
dan estimasinya adalah:
ÔR = exp− b1 (8.5.a)
Dalam praktik, ringkasan data sampel yang dikumpulkan dapat

disajikan dalam bentuk tabel 2×2 sebagai berikut:
Y=1 Y=0
X=1 a b
X=0 c d
Di sini estimasi untuk rasio odds dapat dinyatakan sebagai:

ab ad
ÔR = = (8.6)
c d bc
Perhatikan tampilan baku tabel 2×2 untuk perhitungan rasio odds
adalah sebagai berikut:
- Prediktor X pada baris dan respons Y pada kolom.
- Prediktor ada (X = 1) pada baris atas dan prediktor tidak ada (X = 0)
pada baris bawah.
107
- Respons ada (Y = 1) pada kolom kiri dan respons tidak ada (Y = 0) pada
kolom kanan.
Jika X kontinu, maka X = 0 pada tabel di atas diganti dengan X = x
dan X = 1 diganti dengan X = x + 1 (diasumsikan rasio odds konstan untuk
tiap pertambahan nilai X sebesar 1 satuan):
Y=1 Y=0
X=x+1 a b
X=x c d
dengan estimasi rasio odds tetap adalah:

ab ad
ÔR = =
c d bc
Perintah Stata untuk melakukan analisis regresi logistik sederhana
adalah:
logit depvar indepvar [if] [in], [, options]
Jika yang diinginkan adalah estimasi nilai rasio odds, perintahnya
adalah:
logistic depvar indepvar [if] [in], [, options]
Contoh 8.1:
. use "D:\Data\Stata\tension-type headache.dta", clear
. logit nktt hos
Iteration 0: log likelihood = -151.09691

Logistic regression Number of obs = 218

LR chi2(1) = 24.88
Prob > chi2 = 0.0000
Log likelihood = -138.65922 Pseudo R2 = 0.0823
108
-----------------------------------------------------------
nktt | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------
hos | .1537723 .0330478 4.65 0.000 .0889998 .2185448
_cons | -1.918308 .4331991 -4.43 0.000 -2.767363 -1.069253
-----------------------------------------------------------
. logistic nktt hos

LR chi2(1) = 24.88
Prob > chi2 = 0.0000
----------------------------------------------------------
nktt |Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+---------------------------------------------------
hos | 1.166225 .0385412 4.65 0.000 1.09308 1.244265
_cons | .1468553 .0636176 -4.43 0.000 .0628275 .3432648
----------------------------------------------------------
Model Regresi Logistik Ganda

Misalkan untuk model regresi logistik di atas dimiliki p prediktor,
maka model logitnya menjadi:
Yˆ
logit Yˆ = ln = β 0 + β1 X1 + β 2 X 2 + . . . + β p X p (8.7)
1 − Yˆ
dan probabilitas bersyarat responsnya adalah:
1
Yˆ = P [ Y = 1 X ] = (8.8)
(
1 + exp− β 0 + β1 X 1 + β 2 X 2 + . . . + β p X p )
Estimasinya dari data sampel masing-masing adalah:
Yˆ
logit Yˆ = ln = b0 + b1 X1 + b2 X 2 + . . . + b p X p (8.7.a)
1 − Yˆ
dan
1
Yˆ = P [ Y = 1 X ] = (8.8.a)
(
1 + exp − b0 +b1 X1 +b2 X 2 + . . . + bp X p )
109
Di sini didapatkan p nilai rasio odds, masing-masing menyatakan

rasio odds hubungan respons Y dengan prediktor X i ; i = 1, 2, . . . , p.
ORi = exp− βi (8.9)
dan estimasinya adalah:
ˆ = exp− b
OR (8.9.a)
i i
Contoh 8.2:
Dalam contoh ini digunakan file data binary.dta, yang memuat data
penerimaan mahasiswa program pascasarjana (admit) sebagai respons.
Prediktornya adalah nilai-nilai mahasiswa di program sarjana, yaitu gre
(skor Graduate Record Exam), gpa (Grade Point Average), dan rank
(prestise perguruan tinggi asal).
. use "D:\Data\Stata\binary.dta", clear
. summarize gre gpa
gre dan gpa adalah variabel kontinu.

---------+--------------------------------------
gre | 400 587.7 115.5165 220 800
gpa | 400 3.3899 .3805668 2.26 4
. tab rank
rank adalah variabel kategorik.
rank | Freq. Percent Cum.

-------+------------------------------
1 | 61 15.25 15.25
2 | 151 37.75 53.00
3 | 121 30.25 83.25
4 | 67 16.75 100.00
-------+------------------------------
Total | 400 100.00
110
. tab admit
admit sebagai respons, merupakan variabel biner.
admit | Freq. Percent Cum.
-------+------------------------------
0 | 273 68.25 68.25
1 | 127 31.75 100.00
-------+------------------------------
Total | 400 100.00
Berikut ditampilkan tabulasi silang admit dan rank.

. tab2 admit rank
| rank
admit | 1 2 3 4 | Total
------+--------------------------------+----------
0 | 28 97 93 55 | 273
1 | 33 54 28 12 | 127
------+--------------------------------+----------
Total | 61 151 121 67 | 400
Model regresi logistik ganda diperoleh sebagai berikut.

. logit admit gre gpa i.rank
LR chi2(5) = 41.46
Prob > chi2 = 0.0000
-----------------------------------------------------------------
admit | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------
gre | .0022644 .001094 2.07 0.038 .0001202 .0044086
gpa | .8040377 .3318193 2.42 0.015 .1536838 1.454392
|
111
rank |
2 | -.6754429 .3164897 -2.13 0.033 -1.295751 -.0551346
3 | -1.340204 .3453064 -3.88 0.000 -2.016992 -.6634158
4 | -1.551464 .4178316 -3.71 0.000 -2.370399 -.7325287
|
_cons | -3.989979 1.139951 -3.50 0.000 -6.224242 -1.755717
-----------------------------------------------------------------
Perintah test menguji efek menyeluruh (overall effect) prediktor
rank.
. test 2.rank 3.rank 4.rank
( 1) [admit]2.rank = 0
chi2( 3) = 20.90
Prob > chi2 = 0.0001
Tampak bahwa efek menyeluruh rank bermakna secara statistik.
Dalam perintah berikut akan diuji kesamaan koefisien rank=2 dengan
koefisien rank=3.
. test 2.rank = 3.rank
( 1) [admit]2.rank - [admit]3.rank = 0
chi2( 1) = 5.51
Prob > chi2 = 0.0190
. logit , or
Perintah ini adalah untuk mendapatkan estimasi nilai-nilai rasio odds.
LR chi2(5) = 41.46
Prob > chi2 = 0.0000
-----------------------------------------------------------------
admit | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------
gre | 1.002267 .0010965 2.07 0.038 1.00012 1.004418
gpa | 2.234545 .7414652 2.42 0.015 1.166122 4.281877
|
112
rank |
2 | .5089309 .1610714 -2.13 0.033 .2736922 .9463578
3 | .2617923 .0903986 -3.88 0.000 .1330551 .5150889
4 | .2119375 .0885542 -3.71 0.000 .0934435 .4806919
|
_cons | .0185001 .0210892 -3.50 0.000 .0019808 .1727834
-----------------------------------------------------------------
Perintah “logit , or” dapat juga diberikan dalam bentuk “logistic
admit gre gpa i.rank”.
. margins rank, atmeans
Perintah margins adalah untuk menghitung probabilitas prediksi
respons untuk masing-masing prediktor.
Adjusted predictions Number of obs = 400
Model VCE : OIM
Expression : Pr(admit), predict()
at : gre = 587.7 (mean)
gpa = 3.3899 (mean)
1.rank = .1525 (mean)
2.rank = .3775 (mean)
3.rank = .3025 (mean)
4.rank = .1675 (mean)
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. z P>|z| [95% Conf. Interval]
-----+---------------------------------------------------------
rank |
1 | .5166016 .0663153 7.79 0.000 .3866261 .6465771
2 | .3522846 .0397848 8.85 0.000 .2743078 .4302614
3 | .218612 .0382506 5.72 0.000 .1436422 .2935819
4 | .1846684 .0486362 3.80 0.000 .0893432 .2799937
---------------------------------------------------------------
113
Bab 9. Statistika Nonparametrik
BAB 9
STATISTIKA NONPARAMETRIK
Uji ranksum Wilcoxon (Mann-Whitney)

Uji ranksum Wilcoxon (Mann-Whitney) menguji hipotesis bahwa
dua sampel independen berasal dari populasi dengan distribusi yang sama.
Sintaks-nya adalah:
ranksum varname [if] [in], by(groupvar)
Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel
independen pada Statistika Paramerik.
Contoh 9.1:
Hendak diuji efektivitas fuel additive baru dengan 24 mobil, 12
dengan fuel treatment dan 12 tanpa treatment. Dataset memuat variabel mpg
(mileage rating) untuk treat yang bernilai 0 (mobil tanpa treatment) serta
mpg untuk treat bernilai 1 (mobil dengan treatment).
. use “D:\Data\Stata\fuel2”, clear

. ranksum mpg, by(treat)
Two-sample Wilcoxon rank-sum (Mann-Whitney) test

treat | obs rank sum expected
-------------+---------------------------------
untreated | 12 128 150
treated | 12 172 150
-------------+---------------------------------
combined | 24 300 300
unadjusted variance 300.00
adjustment for ties -4.04
----------
adjusted variance 295.96
114
Ho: mpg(treat==untreated) = mpg(treat==treated)

z = -1.279
Prob > |z| = 0.2010
Hasil uji mengindikasikan nilai median kedua populasi tidak berbeda
secara bermakna.
Uji signrank Wilcoxon

Uji signrank Wilcoxon menguji kesamaan distribusi data
berpasangan. Sintaks-nya jika pasangan data berada dalam 2 variabel
terpisah adalah:
signrank var_1 = var_2
Jika pasangan data terpisah dalam 1 variabel yang ditentukan oleh
taraf variabel kategoriknya:
by cat_var: signrank var_name
Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel
berpasangan pada Statistika Paramerik.
Contoh 9.2:
Seperti pada contoh 9.1, tetapi di sini tiap mobil dengan treatment
dipasangkan dengan 1 mobil tanpa treatment. Data mileage rating untuk tiap
pasangan berada dalam variabel mpg1 dan mpg2.
. use "D:\Data\Stata\fuel.dta", clear
. signrank mpg1=mpg2
Wilcoxon signed-rank test
sign | obs sum ranks expected
-------------+---------------------------------
positive | 3 13.5 38.5
negative | 8 63.5 38.5
zero | 1 1 1
-------------+---------------------------------
all | 12 78 78
adjustment for zeros -0.25
115
----------
Ho: mpg1 = mpg2

z = -1.973
Prob > |z| = 0.0485
Didapatkan perbedaan yang bermakna antara distribusi kedua
pasangan data.
Uji Kesamaan Rank Kruskal-Wallis

Uji Kruskal-Wallis menguji bahwa beberapa (lebih daripada 2)
sampel berasal dari populasi yang sama. Uji ini merupakan perluasan uji
ranksum Wilcoxon. Sintaks-nya adalah:
kwallis varname [if] [in] , by(groupvar)
Uji ini dapat dianggap sebagai padanan ANOVA 1-arah pada
Statistika Parametrik.
Contoh 9.3:
. use “D:\Data\Stata\census”, clear
(1980 Census data by state)
. tab region
Census |
region | Freq. Percent Cum.
---------+---------------------------
NE | 9 18.00 18.00
N Cntrl | 12 24.00 42.00
South | 16 32.00 74.00
West | 13 26.00 100.00
---------+---------------------------
Total | 50 100.00
116
. tab region, nolabel

Census |
region | Freq. Percent Cum.
---------+---------------------------
1 | 9 18.00 18.00
2 | 12 24.00 42.00
3 | 16 32.00 74.00
4 | 13 26.00 100.00
---------+---------------------------
Total | 50 100.00
Untuk menguji adanya perbedaan medage pada keempat region:

. kwallis medage, by(region)
Kruskal-Wallis equality-of-populations rank test
+--------------------------+
| region | Obs | Rank Sum |
|---------+-----+----------|
| NE | 9 | 376.50 |
| N Cntrl | 12 | 294.00 |
| South | 16 | 398.00 |
| West | 13 | 206.50 |
+--------------------------+
chi-squared = 17.041 with 3 d.f.
probability = 0.0007
chi-squared with ties = 17.062 with 3 d.f.
probability = 0.0007
Tampak bahwa ada paling sedikit 1 pasang region yang medage -
nya berbeda secara bermakna.
Jika yang hendak diuji hanya perbedaan antara 2 region, misalnya
“NE” dan “N Cntrl”, dapat digunakan uji ranksum Wilcoxon:
117
. ranksum medage if region==1 | region==2, by(region)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test
region | obs rank sum expected
-----------+---------------------------
NE | 9 144 99
N Cntrl | 12 87 132
-----------+---------------------------
combined | 21 231 231
----------
Ho: medage(region==NE) = medage(region==N Cntrl)
z = 3.202
Prob > |z| = 0.0014
Tampak bahwa medage antara kedua region berbeda secara
bermakna.
118
Kepustakaan
KEPUSTAKAAN
Acock AC. A Gentle Introduction to Stata, 4rd Ed. College Station: Stata
Press, 2014.
Baum CF. Introduction to Stata. Faculty Micro Resource Center, Boston

College, August 2011. View 1 June 2017, available from
http://fmwww.bc.edu/GStat/docs/StataIntrp.pdf.
Bhattacharya PK, Burman P. Theory and Methods of Statistics.

Amsterdam: Elsevier, 2016.
Hamilton LC. Statistics with Stata: Updated for Version 12. Boston, MA:
Brooks/Cole, Cenage Learning, 2013.
Kohler U, Kreuter F. Data Analysis Using Stata, 3rd Ed. College Station:
Stata Press, 2012.
Kothari P. Data Analysis with Stata. Birmingham: Packt Publishing, 2015.
Kraska-Miller M. Nonparametric Statistics for Social and Behavioral

Sciences. Boca Raton, FL: CRC Press, 2014.
Long JS, Freese J. Regression Models for Categorical Dependent

Variables Using Stata, 3rd Ed. College Station: Stata Press, 2014.
Longest KC. Using Stata for Quantitative Analysis. Thousand Oaks,

California: Sage Publications, 2012.
Mitchell MN. A Visual Guide to Stata Graphics. College Station: Stata

Press, 2004.
Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression

Analysis, 5th Ed. Hoboken, New Jersey: John Wiley & Sons, 2012.
Rabe-Hesketh S, Everitt B. A Handbook of Statistical Analyses Using

Stata, 4th Ed. Boca Raton: Chapman & Hall/CRC, 2007.
119
Kepustakaan
StataCorp LP. Stata Base Reference Manual: Release 14. College Station,
Texas: Stata Press, 2015.
_______. Stata Data-Management Reference Manual: Release 14.

College Station, Texas: Stata Press, 2015.
_______. Stata Graphics Reference Manual: Release 14. College Station,

Texas: Stata Press, 2015.
_______. Stata User’s Guide: Release 14. College Station, Texas: Stata
Press, 2015.
Suárez EL, Pérez CM, Nogueras GM, Moreno-Gorrín C. Biostatistics in

Public Health Using Stata. Boca Raton, FL: CRC Press, 2016.
120

Pengenalan Stata

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Pengenalan Stata

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGENALAN

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma

Hak Cipta dilindungi undang-undang. Dilarang mengutip atau

Jakarta, Juni 2017

Bab 2 Manajemen Data 17

Mengurutkan nilai variabel dan penggunaan hasilnya: 26

Bab 3 Statistika Deskriptif 28

Bab 4 Grafik Statistik 39

Bab 5 Analisis Statistik Sederhana 59

Bab 6 Analisis Variansi 80

Bab 7 Analisis Regresi Linear 90

Bab 8 Analisis Regresi Logistik 106

Bab 9 Statistika Nonparametrik 114

Membuka dan Menutup Program & File

1. Tampilan awal pada saat membuka program Stata

Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar

Menu bar Stata berisi opsi berikut ((Gambar 1.2):

Membuka file data Stata (file dengan extension *.dta) dapat

Gambar 1.3.. Contoh penggunaan perintah 'use' untuk membuka

Untuk memperoleh informasi lebih detil mengenai pengertian dan

Membuat File Data Baru Stata

Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar

Gambar 1.4a.. Jendela Stata Editor untuk pemasukan data

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti

Stata secara otomatis memberi nama keenam kolom tersebut dengan

. label define yesno 1 “ya” 0 “tidak”

No Variabel Label Nilai label Definisi

Mengimpor File Excel ke dalam Stata

Menyimpan Analisis Data Stata dalam File

Contains data from D:\Data\Stata\Arctic9.dta

Untuk melihat isi dataset pada record No. 1 s.d. 10:

Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:

Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan

. graph twoway connect extent year

1980 1990 2000 2010

. translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”

Membuka dan Menutup Program & File

Gambar 1. Tampilan awal pada saat membuka program Stata

Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar 1a.

Gambar 1a. Jendela Stata secara terpisah.

Menu bar Stata berisi opsi berikut ((Gambar 2):

Gambar 2. Menu Bar Stata

Gambar 2a. Tool Bar Stata

Membuka file data Stata (file dengan extension *.dta) dapat

Gambar 3.. Contoh penggunaan perintah 'use' untuk membuka

Untuk memperoleh informasi lebih detil mengenai pengertian dan

Membuat File Data Baru Stata

Gambar 4. Icon Data Editor (Edit) pada Tool Bar

Gambar 4a.. Jendela Stata Editor untuk pemasukan data

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti

Gambar 5. Icon Variables Manager pada Tool Bar

Stata secara otomatis memberi nama keenam kolom tersebut dengan

. label define yesno 1 ya 0 tidak

No Variabel Label Nilai label Definisi

Mengimpor File Excel ke dalam Stata

Menyimpan Analisis Data Stata dalam File

Contains data from D:\Data\Stata\Arctic9.dta

Untuk melihat isi dataset pada record No. 1 s.d. 10:

Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:

Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan

. graph twoway connect extent year

1980 1990 2000 2010

. translate exercise1.scml exercise1.log