Anda di halaman 1dari 150

PENGENALAN

STATA

Johan Harlan
Pengenalan Stata
Penulis : Johan Harlan
ISBN : 978-602-9438-79-6
Cetakan Pertama, Juni 2017

Disain cover : Joko Slameto

Diterbitkan pertama kali oleh Gunadarma


Jl. Margonda Raya No. 100, Pondokcina, Depok 16424
Telp. +62-21-78881112, 7863819 Faks. +62-21-7872829
e-mail : sektor@gunadarma.ac.id

Hak Cipta dilindungi undang-undang. Dilarang mengutip atau


memperbanyak dalam bentuk apapun sebagian atau seluruh isi
buku tanpa ijin tertulis dari penerbit.
Kata Pengantar

KATA PENGANTAR
Stata adalah program komputer untuk analisis statistik, pertama kali
dibuat oleh StataCorp pada tahun 1985. Stata tersedia untuk Windows, Unix,
dan Mac. Sampai versi 7, Stata masih menggunakan sistem operasi DOS,
tetapi sejak versi 8 ke atas telah berbasis Windows dengan pull-down menu.
Walaupun demikian, pengguna Stata sangat dianjurkan untuk menggunakan
perintah dalam mode interaktif, yang terutama akan dibahas dalam buku ini.
Pembaca buku ini diharapkan telah menguasai dasar-dasar metode dan
analisis statistik, yang tidak akan dibahas lagi secara mendetil dalam buku
ini. Saran dan kritik dari pembaca sangat diharapkan, demi perbaikan isi
buku pada penerbitan selanjutnya.

Jakarta, Juni 2017

Penulis

v
Daftar Isi

DAFTAR ISI

Kata Pengantar v

Daftar Isi vi

Bab 1 Pendahuluan 1
Membuka dan Menutup Program & File Data 1
Membuat File Data Baru Stata 6
Mengimpor File Excel ke dalam Stata 10
Menyimpan Analisis Data Stata dalam File Log 12

Bab 2 Manajemen Data 17


Membuka file data: use, sysuse, dan webuse 17
Membuka dan menyimpan file data dalam format 18
Excel: import dan export
Menampilkan isi dataset: edit dan browse 18
Pembatasan perintah: ekspresi if dan in 19
Menampilkan nilai-nilai variabel dan definisi nilai- 21
nilai label: list dan label list
Deskripsi data: describe 23
Tipe data dan kompresi data dalam memori: data 24
types dan compress
Konversi variabel string menjadi numeric dan 25
sebaliknya: destring dan tostring
Mengurutkan, membuang, dan mempertahankan 25
variabel: order, drop, dan keep

vi
Daftar Isi

Mengurutkan nilai variabel dan penggunaan hasilnya: 26


sort dan by
Membuat variabel baru dan mengganti nilai variabel: 27
generate, replace, dan egen

Bab 3 Statistika Deskriptif 28


Nilai-nilai Deskriptif Variabel Numerik 28
Nilai-nilai Deskriptif Variabel Kategorik 32

Bab 4 Grafik Statistik 39


Histogram dan Densitas Kernel 39
Histogram untuk Variabel Kategorik 46
Diagram Batang 47
Diagram Tebar 49
Diagram Kotak & Titik 52
Diagram Lingkar 55
Grafik Matriks 56

Bab 5 Analisis Statistik Sederhana 59


Uji t 59
Uji Khi-kuadrat 71

Bab 6 Analisis Variansi 80


Analisis Variansi 1-Arah 80
Analisis Variansi 2-Arah Tanpa Interaksi 84
Analisis Variansi 2-Arah Dengan Interaksi 87

vii
Daftar Isi

Bab 7 Analisis Regresi Linear 90


Regresi Linear Sederhana 90
Regresi Linear Sederhana dengan Prediktor Indikator 95
Regresi Linear Ganda 96
Regresi Linear Ganda dengan Prediktor Kategorik 99
Regresi Linear Ganda dengan Interaksi 101

Bab 8 Analisis Regresi Logistik 106


Model Regresi Logistik Sederhana 106
Model Regresi Logistik Ganda 109

Bab 9 Statistika Nonparametrik 114


Uji ranksum Wilcoxon (Mann-Whitney) 114
Uji signrank Wilcoxon 115
Uji Kesamaan Rank Kruskal-Wallis 116

Kepustakaan 119

viii
Bab 1. Pendahuluan

BAB 1
PENDAHULUAN
DAHULUAN

 Membuka dan Menutup Program & File


Data
Stata adalah program statistik yang dikeluarkan oleh Stata
Corporation.. Salah satu keunikan Stata yaitu pengguna / organisasi
pengguna dapat mengembangkan perintah
perintah-perintah baru untuk berbagai
eluruh masyarakat pengguna Stata.
aplikasi untuk disumbangkan bagi seluruh
Perintah-perintah Stata dapat diberikan baik melalui menu maupun
secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian
perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela Stata
Command, Variables (terdiri terdiri atas 2 bagian: Name dan Properties),
Review, dan Stata Results (Gambar
Gambar 1.1).

1. Tampilan awal pada saat membuka program Stata


Gambar 1.1.

1
Bab 1. Pendahuluan

Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar


1.1a.

Gambar 1.1a.
1a. Jendela Stata secara terpisah.
Atas Kiri: Jendela Review; Atas Kanan: Jendela Stata Results;
Tengah (Kiri-Kanan):
Kanan): Jendela Variables;
Bawah: Jendela Stata Command

2
Bab 1. Pendahuluan

Menu bar Stata berisi opsi berikut ((Gambar 1.2):

Gambar 1.2.
2. Menu Bar Stata

Gambar 1.2a.
2a. Tool Bar Stata
Selain menu bar,, di bawahnya terdapat tool bar (Gambar 1.2a)
dengan arti masing-masing icon adalah:
dalah:

: Open
: Save
: Print Results
: New Viewer
: Log (begin/close/suspend/resume)
: Bring graph window to front
: New Do-file Editor
: Data Editor (Edit)
: Data Editor (Browse)
: Variables Manager
: Clear “more” condition
: Break

Membuka file data Stata (file dengan extension *.dta) dapat


dilakukan melalui menu (File > Open > . . . ) ataupun dengan menggunakan
perintah “use”.. Misalnya untuk membuka file honolulu.dta yang tersimpan
pada folder D:\Data\Stata\ diketikkan perintah
perintah:
. use "D:\Data\Stata\honolulu.dta"
onolulu.dta"

3
Bab 1. Pendahuluan

Jika sebelumnya ada file data Stata lain yang masih terbuka, maka
ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan
menghapus variabel-variabelnya dari memori komputer:
. use "D:\Data\Stata\honolulu.dta", clear
Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:
. cls
Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan
tombol Enter. Tiap perintah diketik pada jendela Stata Command yang
hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke
atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,
perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp
pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut
harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap
perintah yang telah dieksekusi juga akan muncul secara otomatis pada
jendela Review, yang dapat memuat lebih banyak baris perintah.
Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar
File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara
otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,
walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,
semua variabelnya, baik nama maupun properties-nya secara otomatis akan
muncul pada jendela Variables (gambar 1.3).

4
Bab 1. Pendahuluan

Gambar 1.3.. Contoh penggunaan perintah 'use' untuk membuka


file data Sta
Stata

Untuk memperoleh informasi lebih detil mengenai pengertian dan


penggunaan (dengan contoh) suatu perintah, digunakan perintah “help”,
misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“
atau “clear”, diketikkan perintah “help use” atau “help clear” yang akan
membuka jendela “help use” atau “help clear”:
. help use atau:
. help clear dan seterusnya.
Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan
program Stata, file yang masih terbuka ini harus dihapus dari memori
(ditutup) setelah sebelumnya di-saved
saved jika perlu. Perintah untuk menutup
file, lalu menutup program Stata ialah “clear”, lalu “exit”:
. clear
. exit

5
Bab 1. Pendahuluan

Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika
diberi perintah untuk membuka file data kedua, file data pertama otomatis
akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.
Dengan membuka program Stata kedua, file data kedua dapat dibuka pada
program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada
program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga
dengan file data ketiga, dan seterusnya.

 Membuat File Data Baru Stata


Untuk membuat file data baru, cara termudah yaitu membuka jendela
Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 1.4] atau
ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar
1.4a), data dapat diisi dengan diketikkan secara langsung seperti pada
penggunaan spreadsheet biasa (gambar 1.4a).

Gambar 1.4. Icon Data Editor (Edit) pada Tool Bar

6
Bab 1. Pendahuluan

Gambar 1.4a.. Jendela Stata Editor untuk pemasukan data

Nama variabel baru dapat diberikan setelah paling sedikit satu nilai
data diisikan pada kolom tersebut. Stata secara otomatis akan memberi nama
awal variabel berupa var1, var2, dan seterusnya. Setelah ada nilai data yang
diisi pada kolom pertama, dengan klik kiri ganda pada nama var1, jendela
Variable Properties akan ditampilkan dan pengguna dapat mengganti nama
variabel sesuai dengan keinginannya. Nama variabel dalam Stata dianjurkan
diawali dengan huruf kecil, bukan huruf besar
besar, angka ataupun garis bawah.
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
kosong (blank spaces)) di antaranya. Ruang kosong akan memisahkan suatu
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela Edit dan
kembali ke jendela Stata Command dan gunakan sintaks:
rename varname_old varname_new
Tiap variabel dapat diberi label dengan perintah label variable, yaitu
istilah yang memiliki arti jelas dan akan ditampilkan pada hasil analisis
Stata,, misalnya label untuk variabel bb adalah Berat Badan. Pemberian
label dapat dilakukan
ukan melalui jendela Variable Properties ataupun
diketikkan perintahnya pada jendela Stata Command dengan sintaks:
label variable varname ["label"
"label"]

7
Bab 1. Pendahuluan

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti


tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak
merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,
tiap daftar taraf arti ini disebut nama nilai label (label values) dan nilai-nilai
yang direpresentasikan
irepresentasikan oleh suatu nama nilai label didefinisikan dengan
perintah label define.
Misalnya untuk variabel merokok dapat diberi nama nilai label
(label values) “yatidak“ dengan definisi (label define) “0 tidak 1 ya“.
Untuk variabel tk_pend, dapat diberi nama nilai label “kode_pend“ dengan
definisi “1 primer 2 sekunder 3 tersier”.
Perhatikan bahwa tiap nama nnilai label yang telah didefinisikan dapat
digunakan untuk variabel lain dengan definisi yang sama, misalnya nama
nilai label “yatidak“ dengan definisi “0 tidak 1 ya“ untuk variabel merokok
juga dapat dipakai untuk variabel hhbp yang menyatakan apakah responden
menderita hipertensi atau tidak.
Nama nilai label dan definisinya
finisinya dapat di
dibuat dengan perintah pada
jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan
melalui jendela Variables Manager yang dibuka dengan mengklik icon
Variables Manager pada Tool Bar (Gambar
Gambar 1.5).

Gambar 1.5.
5. Icon Variables Manager pada Tool Bar

Contoh 1.1:
Buka program Stata,, lalu klik ikon Data Editor atau ketikkan
perintah edit. Masukkan nilai-nilai data mahasiswa berikut pada spreadsheet
Data Editor (5 baris pertama dan 6 kolom terkiri):

8
Bab 1. Pendahuluan

1 1 18 1 59 1
2 2 21 1 55 1
3 2 22 0 42 0
4 1 19 1 57 0
5 3 20 0 47 0

Stata secara otomatis memberi nama keenam kolom tersebut dengan


var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut
untuk memberi/mengganti nama-nama variabel:
. rename var1 nores
. rename var2 fak
. rename var3 usia
. rename var 4 seks
. rename var5 bb
. rename var6 nktt
Berikut adalah perintah untuk memberi label bagi tiap variabel:
. label var nores “Nomor Responden”
. label var fak “Fakultas”
. label var usia “Usia”
. label var seks “Jenis Kelamin”
. label var bb “Berat Badan”
. label var nktt “Riwayat Nyeri Kepala”
Variabel pertama nores bukan merupakan variabel sebenarnya.
Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian
nama nilai label untuk variabel kategorik dan definisinya.
. label values fak kode_fak
. label define kode_fak 1 “Ilmu Komputer” 2 “Ekonomi” 3 “Psikologi”
. label values seks kode_seks
. label define kode_seks 1 “pria” 0 “wanita”
. label values nktt yesno

9
Bab 1. Pendahuluan

. label define yesno 1 “ya” 0 “tidak”


Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya
pada contoh ini diperlihatkan pada tabel berikut:

No Variabel Label Nilai label Definisi


1 fak Fakultas kode_fak 1 Ilmu Komputer
2 Ekonomi
3 Psikologi
2 seks Jenis Kelamin kode_seks 1 pria 0 wanita
3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak

Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai
label.
Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat
dilakukan melalui menu bar dengan mengklik “File > Save >
D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat
juga dilakukan dengan mengetikkan perintah:
. save "D:\Data\Stata\latihan1.dta"
file D:\Data\Stata\latihan1.dta saved

 Mengimpor File Excel ke dalam Stata


Membuat file data baru Stata dapat juga dilakukan dengan terlebih
dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program
Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-
“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu
jika data juga hendak diolah dengan program komputer statistik lain.
Syarat untuk file Excel agar dapat di-“impor” ke dalam program
Stata (dan juga program komputer statistik lainnya) yaitu:
- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama
atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian
bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga
tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika

10
Bab 1. Pendahuluan

kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam
analisis data.
- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali
dengan huruf kecil.
- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),
baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh
responden termuat datanya, tanpa ada baris kosong yang terselip di antara
baris-baris data.
Prosedur untuk meng-“impor” file Excel ke dalam program Stata
dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata
Command.

Contoh 1.2:
Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file
Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.
Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,
*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela
Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-
“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1
worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai
default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di
depan tulisan “Import first row as variable names”, lalu klik OK., maka
file Excel bankloan.xls tersebut telah terbuka dalam Stata.
Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan
dengan mengetikkan perintah:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa
mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,
tetap harus melalui prosedur “save”:
. save "D:\Data\Stata\bankloan.dta"
file D:\Data\Stata\bankloan.dta saved

11
Bab 1. Pendahuluan

 Menyimpan Analisis Data Stata dalam File


Log
Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat
direkam dan disimpan sebagai file log dengan format *.scml yang dapat
dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur
selengkapnya diperlihatkan pada contoh berikut.

Contoh 1.3:
Buka file log exercise1.scml untuk disimpan dalam
“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.
Atau ketikkan perintah:
. log using "D:\Data\Stata\exercise1"
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
opened on: 10 Jul 2015, 15:26:46
Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah
dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa
penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai
perintah-perintah akan diberikan dalam bab-bab berikut.
Misalkan hendak dibuka file data Arctic9.dta.
. use “D:\Data\Stata\Arctic9.dta”, clear
(Arctic September mean sea ice 1979-2011)
Atau klik File > Open > . . . > Arctic9.dta
Untuk melihat deskripsi singkat dataset yang ada dalam memori,
digunakan perintah describe.
. describe

Contains data from D:\Data\Stata\Arctic9.dta


obs: 33 Arctic September mean sea ice 1979-2011
vars: 8 2 Jul 2012 06:11
size: 891

12
Bab 1. Pendahuluan

---------------------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------------------
year int %ty Year
month byte %8.0g Month
extent float %9.0g Sea ice extent, million km^2
area float %9.0g Sea ice area, million km^2
volume float %8.0g Sea ice volume, 1000 km^3
volumehi float %9.0g Volume + 1.35 (uncertainty)
volumelo float %9.0g Volume - 1.35 (uncertainty)
tempN float %9.0g Annual air temp anomaly 64N-90N C
---------------------------------------------------------------------
Sorted by: year

Untuk melihat isi dataset pada record No. 1 s.d. 10:


. list in 1/10
+---------------------------------------------------------+
| year month extent area volume volumehi volumelo tempN |
|---------------------------------------------------------|
1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |
2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |
3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |
4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |
5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |
|---------------------------------------------------------|
6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |
7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |
8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |
9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |
10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |
+---------------------------------------------------------+
Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,
minimum, dan maksimum digunakan perintah summarize.

13
Bab 1. Pendahuluan

. summarize
Variable | Obs Mean Std. Dev. Min Max
---------+--------------------------------------------
year | 33 1995 9.66954 1979 2011
month | 33 9 0 9 9
extent | 33 6.51697 .9691796 4.3 7.88
area | 33 4.850303 .8468452 3.09 6.02
volume | 33 12.04664 3.346079 4.210367 16.9095
---------+--------------------------------------------
volumehi | 33 13.39664 3.346079 5.560367 18.2595
volumelo | 33 10.69664 3.346079 2.860367 15.5595
tempN | 33 .790303 .7157928 -.57 2.22

Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:


. correlate
(obs=33)
| year month extent area volume volumehi volumelo tempN
---------+----------------------------------------------------------
year | 1.0000
month | . .
extent | -0.8446 . 1.0000
area | -0.8732 . 0.9826 1.0000
volume | -0.8999 . 0.9308 0.9450 1.0000
volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000
volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000
tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000

Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan


dalam bentuk grafik:

14
Bab 1. Pendahuluan

. graph twoway connect extent year

8
Sea ice extent, million km^2
5 6 4 7

1980 1990 2000 2010


Year

Jika pengolahan dan analisis data telah selesai, file log dapat ditutup
dan disimpan:
. log close
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
closed on: 29 Jun 2014, 15:33:33
Perintah ini sama dengan melalui menu bar File > Log > Close.
Selama file log terbuka pada saat pengolahan dan analisis data, seandainya
program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis
data belum selesai, perekaman dapat dihentikan sementara, kemudian
dilanjutkan dengan sintaks:
log off logname (perintah penghentian sementara)
log on logname (perintah melanjutkan kembali)

File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam
program Stata dengan mengklik File > Log > View. File dalam format
*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan
wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File
> Log > View yang akan membuka jendela “Translate file” atau dengan
mengetikkan perintah:

15
Bab 1. Pendahuluan

. translate “D:\Data\Stata\exercise1.scml” “D:\Data\Stata\exercise1.log”


Selanjutnya file exercise1.log dapat dibuka dengan menggunakan
salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.
Hasil analisis data pada jendela Result juga dapat dipindahkan ke
Word Processor, misalnya MS Word dengan metode “salin-tempel” (copy-
paste). Untuk menjaga kerapian tampilan pada MS Word, gunakan font
Courier New.
Semua file data yang dipergunakan dalam buku ini dapat diunduh
dari http://harlan_johan.staff.gunadarma.ac.id/Publications.

16
Bab 1. Pendahuluan

BAB 1
PENDAHULUAN
DAHULUAN

 Membuka dan Menutup Program & File


Data
Stata adalah program statistik yang dikeluarkan oleh Stata
Corporation.. Salah satu keunikan Stata yaitu pengguna / organisasi
pengguna dapat mengembangkan perintah
perintah-perintah baru untuk berbagai
eluruh masyarakat pengguna Stata.
aplikasi untuk disumbangkan bagi seluruh
Perintah-perintah Stata dapat diberikan baik melalui menu maupun
secara interaktif, meskipun demikian cara yang dianjurkan ialah pemberian
perintah secara interaktif. Stata memiliki empat jendela, yaitu jendela Stata
Command, Variables (terdiri terdiri atas 2 bagian: Name dan Properties),
Review, dan Stata Results (Gambar
Gambar 1).

Gambar 1. Tampilan awal pada saat membuka program Stata

1
Bab 1. Pendahuluan

Keempat jendela tersebut diperlihatkan secara terpisah pada Gambar 1a.

Gambar 1a. Jendela Stata secara terpisah.


Atas Kiri: Jendela Review; Atas Kanan: Jendela Stata Results;
Tengah (Kiri-Kanan):
Kanan): Jendela Variables;
Bawah: Jendela Stata Command

2
Bab 1. Pendahuluan

Menu bar Stata berisi opsi berikut ((Gambar 2):

Gambar 2. Menu Bar Stata

Gambar 2a. Tool Bar Stata


Selain menu bar,, di bawahnya terdapat tool bar (Gambar 2a) dengan
arti masing-masing icon adalah:

: Open
: Save
: Print Results
: New Viewer
: Log (begin/close/suspend/resume)
: Bring graph window to front
: New Do-file Editor
: Data Editor (Edit)
: Data Editor (Browse)
: Variables Manager
: Clear “more” condition
: Break

Membuka file data Stata (file dengan extension *.dta) dapat


dilakukan melalui menu (File > Open > . . . ) ataupun dengan menggunakan
perintah “use”.. Misalnya untuk membuka file honolulu.dta yang tersimpan
pada folder D:\Data\Stata\ diketikkan perintah
perintah:
. use "D:\Data\Stata\honolulu .dta"

3
Bab 1. Pendahuluan

Jika sebelumnya ada file data Stata lain yang masih terbuka, maka
ditambahkan opsi “[, clear]” menutup file terdahulu yang masih terbuka dan
menghapus variabel-variabelnya dari memori komputer:
. use "D:\Data\Stata\honolulu.dta", clear
Untuk membersihkan jendela Stata Results, perintahnya adalah “cls”:
. cls
Untuk mengeksekusi tiap baris perintah yang telah diketikkan, tekan
tombol Enter. Tiap perintah diketik pada jendela Stata Command yang
hanya memuat 1 baris perintah, dan setelah dieksekusi akan menggulung ke
atas, sehingga perintah itu tidak terlihat lagi, namun jika ingin dilihat,
perintah tersebut dapat diturunkan kembali dengan menekan tombol PgUp
pada papan ketik. Untuk mengetik perintah berikut, perintah lama tersebut
harus digulung kembali ke atas dengan menekan tombol PgDn. Tiap
perintah yang telah dieksekusi juga akan muncul secara otomatis pada
jendela Review, yang dapat memuat lebih banyak baris perintah.
Perhatikan bahwa jika file honolulu.dta dibuka melalui menu bar
File > Open > D:\Data\Stata\, maka pada jendela Stata Command secara
otomatis akan timbul ketikan use "D:\Data\Stata\honolulu.dta", clear,
walaupun pengguna tidak mengetiknya. Setelah file honolulu.dta terbuka,
semua variabelnya, baik nama maupun properties-nya secara otomatis akan
muncul pada jendela Variables (gambar 3).

4
Bab 1. Pendahuluan

Gambar 3.. Contoh penggunaan perintah 'use' untuk membuka


file data Sta
Stata

Untuk memperoleh informasi lebih detil mengenai pengertian dan


penggunaan (dengan contoh) suatu perintah, digunakan perintah “help”,
misalnya untuk mendapatkan informasi tentang penggunaan perintah “use“
atau “clear”, diketikkan perintah “help use” atau “help clear” yang akan
membuka jendela “help use” atau “help clear”:
. help use atau:
. help clear dan seterusnya.
Perintah “help“ dapat digunakan, baik dalam keadaan ada ataupun
tidak ada file data yang sedang terbuka.
Jika sudah ada file data yang terbuka, untuk sebelum meninggalkan
program Stata, file yang masih terbuka ini harus dihapus dari memori
(ditutup) setelah sebelumnya di-saved
saved jika perlu. Perintah untuk menutup
file, lalu menutup program Stata ialah “clear”, lalu “exit”:
. clear
. exit

5
Bab 1. Pendahuluan

Dalam sebuah program Stata hanya dapat dibuka 1 file data. Jika
diberi perintah untuk membuka file data kedua, file data pertama otomatis
akan ditutup. Tetapi program Stata yang dibuka dapat lebih daripada satu.
Dengan membuka program Stata kedua, file data kedua dapat dibuka pada
program Stata kedua tanpa mengakibatkan tertutupnya file data pertama pada
program Stata pertama. Setelah itu masih dapat dibuka program Stata ketiga
dengan file data ketiga, dan seterusnya.

 Membuat File Data Baru Stata


Untuk membuat file data baru, cara termudah yaitu membuka jendela
Stata Editor [klik icon Data Editor (Edit) pada tool bar (Gambar 4] atau
ketikkan perintah “edit”). Setelah jendela Stata Editor terbuka (Gambar 4a),
data dapat diisi dengan diketikkan secara langsung seperti pada penggunaan
spreadsheet biasa (gambar 4a).

Gambar 4. Icon Data Editor (Edit) pada Tool Bar

6
Bab 1. Pendahuluan

Gambar 4a.. Jendela Stata Editor untuk pemasukan data

Nama variabel baru dapat diberikan setelah paling sedikit satu nilai
data diisikan pada kolom tersebut. Stata secara otomatis akan memberi nama
awal variabel berupa var1, var2, dan seterusnya. Setelah ada nilai data yang
diisi pada kolom pertama, dengan klik kiri ganda pada nama var1, jendela
Variable Properties akan ditampilkan dan pengguna dapat mengganti nama
variabel sesuai dengan keinginannya. Nama variabel dalam Stata dianjurkan
diawali dengan huruf kecil, bukan huruf besar
besar, angka ataupun garis bawah.
Panjang nama variabel dianjurkan tidak melebihi 10 karakter, tanpa ruang
kosong (blank spaces)) di antaranya. Ruang kosong akan memisahkan suatu
nama tersebut menjadi 2 nama yang dianggap sebagai nama untuk 2 variabel.
Nama variabel juga dapat diganti dengan menutup jendela Edit dan
kembali ke jendela Stata Command dan gunakan sintaks:
rename varname_old varname_new
Tiap variabel dapat diberi label dengan perintah label variable, yaitu
istilah yang memiliki arti jelas dan akan ditampilkan pada hasil analisis
Stata,, misalnya label untuk variabel bb adalah Berat Badan. Pemberian
label dapat dilakukan melalui jendela Variable Properties ataupun
diketikkan perintahnya pada jendela Stata Command dengan sintaks:
label variable varname ["label"
"label"]

7
Bab 1. Pendahuluan

Untuk variabel kategorik, tiap nilai merepresentasikan taraf arti


tertentu, misalnya pada variabel biner merokok, 1 = merokok dan 0 = tidak
merokok; pada variabel kategorik tk_pend, 1 = pendidikan primer, 2 =
pendidikan sekunder, 3 = pendidikan tersier; dan sebagainya. Pada Stata,
tiap daftar taraf arti ini disebut nama nilai label (label values) dan nilai-nilai
yang direpresentasikan
irepresentasikan oleh suatu nama nilai label didefinisikan dengan
perintah label define.
Misalnya untuk variabel merokok dapat diberi nama nilai label
(label values) “yatidak“ dengan definisi (label define) “0 tidak 1 ya“.
Untuk variabel tk_pend, dapat diberi nama nilai label “kode_pend“ dengan
definisi “1 primer 2 sekunder 3 tersier”.
Perhatikan bahwa tiap nama nnilai label yang telah didefinisikan dapat
digunakan untuk variabel lain dengan definisi yang sama, misalnya nama
nilai label “yatidak“ dengan definisi “0 tidak 1 ya“ untuk variabel merokok
juga dapat dipakai untuk variabel hhbp yang menyatakan apakah responden
menderita hipertensi atau tidak.
Nama nilai label dan definisinya
finisinya dapat di
dibuat dengan perintah pada
jendela Stata Command seperti pada contoh 1 berikut ataupun diisikan
melalui jendela Variables Manager yang dibuka dengan mengklik icon
Variables Manager pada Tool Bar (Gambar
Gambar 5).

Gambar 5. Icon Variables Manager pada Tool Bar

Contoh 1.1:
Buka program Stata,, lalu klik ikon Data Editor atau ketikkan
perintah edit. Masukkan nilai-nilai data mahasiswa berikut pada spreadsheet
Data Editor (5 baris pertama dan 6 kolom terkiri):

8
Bab 1. Pendahuluan

1 1 18 1 59 1
2 2 21 1 55 1
3 2 22 0 42 0
4 1 19 1 57 0
5 3 20 0 47 0

Stata secara otomatis memberi nama keenam kolom tersebut dengan


var1, var2, . . . , var6. Tutup Data Editor, lalu ketikkan perintah berikut
untuk memberi/mengganti nama-nama variabel:
. rename var1 nores
. rename var2 fak
. rename var3 usia
. rename var 4 seks
. rename var5 bb
. rename var6 nktt
Berikut adalah perintah untuk memberi label bagi tiap variabel:
. label var nores “Nomor Responden”
. label var fak “Fakultas”
. label var usia “Usia”
. label var seks “Jenis Kelamin”
. label var bb “Berat Badan”
. label var nktt “Riwayat Nyeri Kepala”
Variabel pertama nores bukan merupakan variabel sebenarnya.
Variabel kategorik adalah fak, seks, dan nktt. Selanjut adalah pemberian
nama nilai label untuk variabel kategorik dan definisinya.
. label values fak kode_fak
. label define kode_fak 1 Ilmu Komputer 2 Ekonomi 3 Psikologi
. label values seks kode_seks
. label define kode_seks 1 pria 0 wanita
. label values nktt yesno

9
Bab 1. Pendahuluan

. label define yesno 1 ya 0 tidak


Ikhtisar variabel kategorik, label, nama nilai label, dan definisinya
pada contoh ini diperlihatkan pada tabel berikut:

No Variabel Label Nilai label Definisi


1 fak Fakultas kode_fak 1 Ilmu Komputer
2 Ekonomi
3 Psikologi
2 seks Jenis Kelamin kode_seks 1 pria 0 wanita
3 nktt Riwayat Nyeri Kepala yesno 1 ya 0 tidak

Untuk variabel kontinu hanya ada labelnya tanpa perlu nama nilai
label.
Simpan file data dengan nama file latihan1.dta. Penyimpanan dapat
dilakukan melalui menu bar dengan mengklik “File > Save >
D:\Data\Stata\“ atau ”File > Save as > D:\Data\Stata\“. Penyimpanan dapat
juga dilakukan dengan mengetikkan perintah:
. save "D:\Data\Stata\latihan1.dta"
file D:\Data\Stata\latihan1.dta saved

 Mengimpor File Excel ke dalam Stata


Membuat file data baru Stata dapat juga dilakukan dengan terlebih
dahulu membuat file Excel-nya, lalu meng-“impor”-nya ke dalam program
Stata. Keuntungan cara ini ialah bahwa file Excel umumnya dapat di-
“impor” ke dalam hampir semua program komputer statistik lainnya, yaitu
jika data juga hendak diolah dengan program komputer statistik lain.
Syarat untuk file Excel agar dapat di-“impor” ke dalam program
Stata (dan juga program komputer statistik lainnya) yaitu:
- File hanya memuat nama variabel dan nilai-nilai datanya, tanpa nama
atau keterangan lain tentang isi file, baik di bagian atas maupun di bagian
bawah isi file. Tidak boleh ada baris jumlah di bagian terbawah. Juga
tidak boleh ada kolom jumlah di bagian terkanan dataset, kecuali jika

10
Bab 1. Pendahuluan

kolom jumlah ini akan diperlakukan sebagai salah satu variabel dalam
analisis data.
- Nama-nama variabel dituliskan pada baris teratas, semuanya diawali
dengan huruf kecil.
- Nilai-nilai data dituliskan pada baris kedua (untuk responden pertama),
baris ketiga (untuk responden kedua), dan seterusnya sampai seluruh
responden termuat datanya, tanpa ada baris kosong yang terselip di antara
baris-baris data.
Prosedur untuk meng-“impor” file Excel ke dalam program Stata
dapat dilakukan melalui menu bar ataupun dengan perintah pada Stata
Command.

Contoh 1.2:
Pada contoh ini akan diperlihatkan prosedur untuk meng-“impor” file
Excel “D:\Data\Stata\bankloan.xls” ke dalam program Stata.
Pada menu bar, klik File > Import > Excel spreadsheet (*.xls,
*xlsx), maka jendela Import Excel akan terbuka. Klik Browse pada jendela
Import Excel untuk mencari lokasi penyimpanan file Excel yang akan di-
“import”, yaitu “D:\Data\Stata\”. Jika file Excel memiliki lebih daripada 1
worksheet, maka Worksheet perlu diisi, jika tidak ataupun tak diisi, nilai
default-nya adalah worksheet pertama (Sheet1). Centang kotak kecil di
depan tulisan “Import first row as variable names”, lalu klik OK., maka
file Excel bankloan.xls tersebut telah terbuka dalam Stata.
Proses meng-“impor” bankloan.xls file di atas dapat juga dilakukan
dengan mengetikkan perintah:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
File yang terbuka tersebut dapat diolah sebagai file data Stata tanpa
mengubah isi file Excel aslinya. Jika ingin disimpan sebagai file data Stata,
tetap harus melalui prosedur “save”:
. save "D:\Data\Stata\bankloan.dta"
file D:\Data\Stata\bankloan.dta saved

11
Bab 1. Pendahuluan

 Menyimpan Analisis Data Stata dalam File


Log
Seluruh pekerjaan (perintah dan hasil) dalam program Stata dapat
direkam dan disimpan sebagai file log dengan format *.scml yang dapat
dibuka dan dilihat kembali dalam program Stata di lain waktu. Prosedur
selengkapnya diperlihatkan pada contoh berikut.

Contoh 1.3:
Buka file log exercise1.scml untuk disimpan dalam
“D:\Data\Stata\” dengan mengklik File > Log > Begin . . . , dan seterusnya.
Atau ketikkan perintah:
. log using "D:\Data\Stata\exercise1", clear
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
opened on: 10 Jul 2015, 15:26:46
Selanjutnya akan diperlihatkan sejumlah pekerjaan berupa perintah
dan hasil dalam Stata untuk disimpan dalam file log exercise1.scml tanpa
penjelasan rinci mengenai perintah-perintah tersebut. Penjelasan mengenai
perintah-perintah akan diberikan dalam bab-bab berikut.
Misalkan hendak dibuka file data Arctic9.dta.
. use “D:\Data\Stata\Arctic9”, clear
(Arctic September mean sea ice 1979-2011)
Atau klik File > Open > . . . > Arctic9.dta
Untuk melihat deskripsi singkat dataset yang ada dalam memori,
digunakan perintah describe.
. describe

Contains data from D:\Data\Stata\Arctic9.dta


obs: 33 Arctic September mean sea ice 1979-2011
vars: 8 2 Jul 2012 06:11
size: 891

12
Bab 1. Pendahuluan

---------------------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------------------
year int %ty Year
month byte %8.0g Month
extent float %9.0g Sea ice extent, million km^2
area float %9.0g Sea ice area, million km^2
volume float %8.0g Sea ice volume, 1000 km^3
volumehi float %9.0g Volume + 1.35 (uncertainty)
volumelo float %9.0g Volume - 1.35 (uncertainty)
tempN float %9.0g Annual air temp anomaly 64N-90N C
---------------------------------------------------------------------
Sorted by: year

Untuk melihat isi dataset pada record No. 1 s.d. 10:


. list in 1/10
+---------------------------------------------------------+
| year month extent area volume volumehi volumelo tempN |
|---------------------------------------------------------|
1. | 1979 9 7.2 5.72 16.9095 18.2595 15.5595 -.57 |
2. | 1980 9 7.85 6.02 16.3194 17.66937 14.96937 .33 |
3. | 1981 9 7.25 5.57 12.8131 14.16307 11.46307 1.21 |
4. | 1982 9 7.45 5.57 13.5099 14.85987 12.15987 -.34 |
5. | 1983 9 7.52 5.83 15.2013 16.5513 13.8513 .27 |
|---------------------------------------------------------|
6. | 1984 9 7.17 5.24 14.6336 15.98357 13.28357 .31 |
7. | 1985 9 6.93 5.36 14.5836 15.93363 13.23363 .3 |
8. | 1986 9 7.54 5.85 16.0803 17.43027 14.73027 -.05 |
9. | 1987 9 7.48 5.91 15.3609 16.7109 14.0109 -.25 |
10. | 1988 9 7.49 5.62 14.988 16.338 13.638 .87 |
+---------------------------------------------------------+
Untuk memperoleh tabel berisi nilai-nilai rerata, standar deviasi,
minimum, dan maksimum digunakan perintah summarize.

13
Bab 1. Pendahuluan

. summarize
Variable | Obs Mean Std. Dev. Min Max
---------+--------------------------------------------
year | 33 1995 9.66954 1979 2011
month | 33 9 0 9 9
extent | 33 6.51697 .9691796 4.3 7.88
area | 33 4.850303 .8468452 3.09 6.02
volume | 33 12.04664 3.346079 4.210367 16.9095
---------+--------------------------------------------
volumehi | 33 13.39664 3.346079 5.560367 18.2595
volumelo | 33 10.69664 3.346079 2.860367 15.5595
tempN | 33 .790303 .7157928 -.57 2.22

Untuk mendapatkan nilai-nilai korelasi antar variabel kontinu:


. correlate
(obs=33)
| year month extent area volume volumehi volumelo tempN
---------+----------------------------------------------------------
year | 1.0000
month | . .
extent | -0.8446 . 1.0000
area | -0.8732 . 0.9826 1.0000
volume | -0.8999 . 0.9308 0.9450 1.0000
volumehi | -0.8999 . 0.9308 0.9450 1.0000 1.0000
volumelo | -0.8999 . 0.9308 0.9450 1.0000 1.0000 1.0000
tempN | 0.7905 . -0.8045 -0.8180 -0.8651 -0.8651 -0.8651 1.0000

Perubahan ice extent dalam perjalanan waktu dapat diperlihatkan


dalam bentuk grafik:

14
Bab 1. Pendahuluan

. graph twoway connect extent year

8
Sea ice extent, million km^2
5 6 4 7

1980 1990 2000 2010


Year

Jika pengolahan dan analisis data telah selesai, file log dapat ditutup
dan disimpan:
. log close
name: <unnamed>
log: D:\Data\Stata\exercise1.smcl
log type: smcl
closed on: 29 Jun 2014, 15:33:33
Perintah ini sama dengan melalui menu bar File > Log > Close.
Selama file log terbuka pada saat pengolahan dan analisis data, seandainya
program Stata akan ditutup untuk dihentikan sementara, sedangkan analisis
data belum selesai, perekaman dapat dihentikan sementara, kemudian
dilanjutkan dengan sintaks:
log off logname (perintah penghentian sementara)
log on logname (perintah melanjutkan kembali)

File log yang telah ditutup dapat dibuka kembali untuk dilihat dalam
program Stata dengan mengklik File > Log > View. File dalam format
*.scml dapat diubah menjadi format *.log yang dapat dibuka dengan
wordprocessor, misalnya untuk exercise1.scml pada menu bar dengan File
> Log > View yang akan membuka jendela “Translate file” atau dengan
mengetikkan perintah:

15
Bab 1. Pendahuluan

. translate exercise1.scml exercise1.log


Selanjutnya file exercise1.log dapat dibuka dengan menggunakan
salah satu wordprocessor dalam MS Office, tanpa melalui program Stata.

16
Bab 2. Manajemen Data

BAB 2
MANAJEMEN DATA
Dalam bab ini akan dibahas beberapa perintah terpenting Stata dalam
proses manajemen data.

 Membuka file data: use, sysuse, dan webuse


Sintaks untuk membuka file data Stata adalah:
use filename [, clear]
Nama file tanpa ekstensi diasumsikan sebagai file *.dta. Opsi [, clear]
diperlukan jika sebelumnya ada file data yang terbuka dalam memori. Jika
membuka file data dilakukan melalui menu bar File > Open > . . . , opsi ini
akan selalu muncul. Contoh:
. use “D:\Data\Stata\honolulu”, clear
Sintaks untuk membuka file data Stata yang terinstalasi bersama
program Stata atau tersimpan dalam ado-path adalah:
sysuse filename [, clear]
Contoh:
. sysuse auto, clear
(1978 Automobile Data)
Sintaks untuk membuka file data yang tersimpan di Web adalah:
webuse filename [, clear]
Secara default, file data untuk Stata 14 diperoleh dari
http://www.stata-press.com/data/r14/. Daftar lengkap datasets yang tersedia
dapat dilihat di http://www.stata-press.com/data/r14/r.html. Contoh:
. webuse lifeexp
(Life expectancy, 1998)

17
Bab 2. Manajemen Data

 Membuka dan menyimpan file data dalam


format Excel: import dan export
Stata dapat membuka atau menyimpan data dalam format data-based
lain, yang terpenting yaitu dalam Excel. Sintaksnya adalah:
import excel filename [, options]
export excel using filename [, options]
Salah satu opsi pada import excel ialah worksheet akan dibuka.
Default-nya ialah “Sheet1”. Pilihan opsi firstrow menyatakan bahwa baris
pertama file Excel akan diperlakukan sebagai nama variabel.
Pada export excel opsi terpenting adalah pilihan antara
firstrow(variables) atau firstrow(varlabels) untuk menentukan yang akan
dijadikan baris pertama pada file Excel.
Contoh:
. import excel "D:\Data\Stata\bankloan.xls", sheet("Sheet1") firstrow
clear
. use auto, clear
. export excel using "D:\Data\Stata\auto.xls", firstrow(variables)

 Menampilkan isi dataset: edit dan browse


Isi seluruh ataupun sebagian dataset dalam tampilan spreadsheet
dapat dilihat pada jendela Data Editor atau jendela Data Browser yang
akan terbuka dengan mengklik icon masing-masing pada tool bar (diagram
1).

Diagram 1. Icon Data Editor dan Data Browser pada Tool Bar

18
Bab 2. Manajemen Data

Dengan membuka jendela Data Editor, data dapat dilihat dan juga
dapat diedit, sedangkan jika yang dibuka jendela Data Browser, data hanya
dapat dilihat tanpa dapat diedit. Kedua jendela ini juga dapat dibuka dengan
sintaks:
edit varlist [if] [in]
dan: browse varlist [if] [in]

 Pembatasan perintah: ekspresi if dan in


Ekspresi [if] dan [in] didapatkan pada sebagian besar sintaks Stata.
Ekspresi [if] menyatakan syarat untuk melaksanakan perintah, sedangkan
ekspresi [in] menyatakan nomor records yang akan menerima perintah Stata.
Dalam ekspresi [if] dan juga sejumlah perintah lain mungkin
diperlukan penggunaan operator, yaitu operator aritmetika (hitung), operator
relasional, dan operator logika.
Operator aritmetika adalah: + (penjumlahan), − (pengurangan), *
(perkalian), / (pembagian), ^ (pangkat), dan prefiks - (negasi/penyangkalan).
Operator relasional adalah: > (lebih daripada), < (kurang daripada),
>= (lebih besar atau sama dengan), <= (kurang atau sama dengan), == (sama
dengan), dan != (atau ~=; tidak sama dengan).
Operator logika adalah:
- dan: &
- atau: |
- tidak: !
Contoh:
. list if income>50000 | income>30000 & age<25
Tanda “&” dikerjakan lebih dulu daripada “|”, yaitu pernyataan
“income>30000” hanya untuk yang “age<25”. Untuk memastikan, perintah
di atas dapat juga dituliskan:
. list if income>50000 | (income>30000 & age<25)

19
Bab 2. Manajemen Data

Urutan pelaksanaan evaluasi seluruh operator berturut-turut adalah: !


(atau ~), ^, - (negasi/penyangkalan), /, *, − (substraksi/minus), +, != (atau
~=), >, <, <=, >=, ==, &, dan |.

Contoh 2.1:
. use “D:\Data\Stata\honolulu.dta”, clear
. sum glukosa
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
glukosa | 100 152.14 54.75584 58 442

. sum glukosa if merokok==1


Variable | Obs Mean Std. Dev. Min Max
---------+-------------------------------------
glukosa | 37 145.5946 65.58686 76 442

. sum tb
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
tb | 100 161.75 5.596491 150 175

. sum tb in 1/50
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
tb | 50 162.26 5.609067 150 175

. sum kolest
Variable | Obs Mean Std. Dev. Min Max
---------+-----------------------------------
kolest | 100 216.96 38.85844 134 382

. sum kolest if akt_fisik==2 in 21/80


Variable | Obs Mean Std. Dev. Min Max
---------+-------------------------------------
kolest | 32 214.6563 48.86229 134 382

20
Bab 2. Manajemen Data

 Menampilkan nilai-nilai variabel dan


definisi nilai-nilai label: list dan label list
Tampilan data juga dapat dilihat per variabel, dalam interval records
terbatas, atau dengan syarat tertentu pada jendela Stata Results dengan
mengetikkan perintah pada Stata Command. Sintaksnya adalah:
list varnames [if] [in]
Jika yang ingin ditampilkan hanya 1 nilai suatu variabel untuk 1
record (1 orang responden), sintaksnya adalah:
display varname[#]
label list adalah perintah untuk menampilkan nama nilai label
(lbl.name) dalam dataset beserta definisinya.
label list lblnames
Dengan perintah ini, definisi ditampilkan untuk nama nilai label
(lblnames) yang dispesifikasikan. Jika perintahnya hanya label list, maka
semua nama nilai label yang ada dalam dataset akan ditampilkan beserta
definisinya.

Contoh 2.2:
. use “D:\Data\Stata\honolulu.dta”, clear
. list no_id usia td_sist if merokok==1 in 51/70
+------------------------+
| no_id usia td_sist |
|------------------------|
53. | 53 50 116 |
55. | 55 50 108 |
61. | 61 54 114 |
63. | 63 50 98 |
65. | 65 53 130 |
|------------------------|
66. | 66 53 122 |
67. | 67 47 112 |
+------------------------+

21
Bab 2. Manajemen Data

. list no_id usia td_sist if merokok==0 & usia>=50 in 51/70


+------------------------+
| no_id usia td_sist |
|------------------------|
51. | 51 52 118 |
56. | 56 53 134 |
57. | 57 52 124 |
58. | 58 56 124 |
59. | 59 52 114 |
|------------------------|
. display usia[51]
52
. label list kode_pendidikan yatidak
kode_pendidikan:
1 tidak ada
2 SD
3 SMP
4 SMA
5 SMK
6 Universitas
yatidak:
0 tidak
1 ya
. label list
kode_fisik:
1 hampir selalu duduk
2 moderat
3 giat
yatidak:
0 tidak
1 ya
kode_pendidikan:
1 tidak ada
2 SD
3 SMP
4 SMA
5 SMK
6 Universitas

22
Bab 2. Manajemen Data

 Deskripsi data: describe


Perintah describe menampilkan ringkasan keterangan tentang
variabel yang ada dalam dataset. Sintaks-nya adalah:
describe [varlist]
Jika tidak ada nama variabel, perintah describe akan menampilkan
ringkasan keterangan tentang semua variabel yang ada dalam dataset.

Contoh 2.3:
. use “D:\Data\Stata\honolulu.dta”, clear
. desc usia glukosa kolest td_sist
storage display value
variable name type format label variable label
---------------------------------------------------------
usia byte %10.0g Usia
glukosa int %10.0g Kadar Glukosa Darah
kolest int %10.0g Kadar Kolesterol Darah
td_sist int %10.0g Tekanan Darah Sistolik

. describe
Contains data from D:\Data\Stata\honolulu.dta
obs: 100
vars: 11 18 Aug 2016 14:16
size: 2,200
---------------------------------------------------------
storage display value
variable name type format label variable label
---------------------------------------------------------
no_id byte %10.0g Nomor Identitas
tk_pend byte %10.0g Tingkat Pendidikan
bb byte %10.0g Berat Badan
tb int %10.0g Tinggi Badan
usia byte %10.0g Usia
merokok byte %10.0g Merokok
akt_fisik byte %10.0g Aktivitas Fisik
glukosa int %10.0g Kadar Glukosa Darah
kolest int %10.0g Kadar Kolesterol Darah

23
Bab 2. Manajemen Data

td_sist int %10.0g Tekanan Darah Sistolik


bmi double %14.2f Indeks Massa Tubuh
-----------------------------------------------------------
Sorted by:

 Tipe data dan kompresi data dalam memori:


data types dan compress
Data dalam dataset Stata dapat tersimpan dalam 2 format, numeric
dan string. Format ketiga ialah untuk dates dan times yang tidak akan
dibahas di sini.
Untuk mengetahui apakah suatu variabel memiliki data numeric atau
string, dapat dilihat dari hasil perintah describe. Data numeric memiliki
tipe penyimpanan (storage type) byte, int, long, float, atau double,
kelimanya ini menurut urutan lebar rentangnya. Misalnya byte untuk
menyimpan rentang nilai dari −127 s.d. 100; int untuk nilai dari −32,767 s.d.
32, 740; dan seterusnya. float dan double dapat menyimpan bilangan pecah.
Data string memiliki tipe penyimpanan str[#], misalnya str5 dapat
menyimpan data dengan maksimum 5 karakter.
Setelah dataset terisi seluruhnya, mungkin ada variabel yang tipe
penyimpanannya terlalu besar bagi nilai-nilai yang tersimpan, misalnya
variabel usia yang disimpan dalam bilangan bulat membutuhkan hanya
tempat penyimpanan maksimum 3 digit, sedangkan tipe penyimpanan yang
semula disiapkan adalah int. Untuk menghemat tempat penyimpanan data
pada basis-data, tipe penyimpanan untuk usia dapat dikompresi dari int
menjadi byte dengan perintah compress. Sintaksnya adalah:
compress [varlist]
Jika perintah compress diberikan tanpa nama variabel, maka Stata
akan mengkompresi semua variabel yang mungkin dikompresi tipe
penyimpanannya.

24
Bab 2. Manajemen Data

 Konversi variabel string menjadi numeric


dan sebaliknya: destring dan tostring
Program Stata hanya dapat mengolah nilai data dalam format
numeric. Jika ada variabel dalam format string, maka nilai datanya perlu
dikonversi terlebih dahulu dengan perintah destring menjadi format
numeric sebelum diolah dengan program Stata. Adakalanya variabel
dengan format numeric perlu diubah menjadi string dengan perintah
tostring. Sintaks-nya adalah:
destring [varlist] , {generate(newvarlist)|replace}
dan: tostring varlist , {generate(newvarlist)|replace}
Jika tidak ada variabel yang dispesifikasikan, dengan perintah
destring semua variabel string akan dikonversi menjadi numeric. Opsi
generate(newvarlist) akan mempertahankan variabel string lama, konversi
numeric-nya tersimpan dalam variabel baru, sedangkan opsi replace akan
membentuk variabel numeric dengan nama variabel string lama.

 Mengurutkan, membuang, dan


mempertahankan variabel: order, drop, dan
keep
Perintah order digunakan mengatur kembali urutan variabel dalam
dataset menurut kehendak pengguna. Perintah drop akan menghapuskan
variabel yang dispesifikasikan dalam dataset. Perintah keep akan
mempertahankan variabel yang dispesifikasikan dalam dataset, sedangkan
variabel lain dihapus dari dataset. Sintaks-nya masing-masing adalah:
order varlist
Variabel akan tersusun menurut urutan pada varlist jika varlist
mencakup semua variabel, atau variabel yang ada pada varlist akan
diletakkan pada urutan pertama jika varlist tidak mencakup semua variabel.
drop varlist
keep varlist
Perintah drop dan keep dapat juga digunakan untuk menghapus atau
mempertahankan record dengan spesifikasi ekspresi if dan/atau in:

25
Bab 2. Manajemen Data

drop if exp
drop in range
keep if exp
keep in range

 Mengurutkan nilai variabel dan penggunaan


hasilnya: sort dan by
Perintah sort mengurutkan nilai pengamatan variabel numeric yang
dispesifikasikan dari kecil ke besar. Untuk variabel string, pengamatan akan
diurutkan menurut urutan abjad, huruf besar didahulukan daripada huruf
kecil. Sintaks-nya yaitu:
sort varlist [in] [, stable]
Opsi stable akan mempertahankan keterikatan nilai-nilai dalam suatu
record setelah salah satu variabel di-sort.
Perintah sort juga digunakan bersama by untuk memberikan perintah
summarize, tabulate, dan means (lihat Bab 3) menurut kategori variabel
kategorik yang di- sort. Sintaks-nya adalah:
sort cat_var1
by cat_var1: sum cont_var
atau: by cat_var1: means cont_var
atau: by cat_var1: tab cat_var2
cat_var : variabel kategorik
cont_var : variabel kontinu
Perintah by di sini harus segera mengikuti perintah sort (tidak
diselingi perintah lain dulu).

26
Bab 2. Manajemen Data

 Membuat variabel baru dan mengganti nilai


variabel: generate, replace, dan egen
Perintah generate digunakan untuk membentuk variabel baru.
Sintaks-nya adalah:
generate newvar[:lblname] = exp [if] [in]

Nilai-nilai dispesifikasikan pada pernyataan exp, yang dapat berupa


suatu nilai tertentu ataupun hasil formula menyangkut salah satu variabel
lama lainnya. Contohnya yaitu:
. gen luas = 0
. gen usia2 = usia^2
. gen usia_kat = 1 if usia<20

Nilai-nilai variabel, baik untuk variabel baru dibuat tersebut ataupun


variabel lama, dapat diganti dengan perintah replace. Sintaks-nya yaitu:
replace oldvar = exp [if] [in]
Misalnya:
. replace gaji_kat = 5 if masa_kerja>=10

Perintah egen merupakan ekstensi terhadap perintah generate, yaitu


ekspresi exp pada generate digantikan dengan suatu fungsi argumen.
Sintaks-nya adalah:
egen newvar = fcn(arguments) [if] [in]
Di sini hanya diberikan 2 contoh fungsi argumen, yaitu mean(exp)
dan median(exp), misalnya:
. egen avg = mean(chol)
. egen med_stay = median(los)

27
Bab 3. Statistika Deskriptif

BAB 3
STATISTIKA DESKRIPTIF

 Nilai-nilai Deskriptif Variabel Numerik


Untuk menampilkan nilai rerata, dan jika perlu disertai standar deviasi
atau standard error, dapat digunakan perintah summarize, mean, atau
means. Sintaks-nya masing-masing adalah:
. summarize varlist [if] [in]
summarize atau cukup singkatan su saja menampilkan nilai-nilai
ringkasan data, yaitu jumlah pengamatan, rerata (hitung), SD, minimum, dan
maksimum.
Dengan perintah sum akan ditampilkan ringkasan seluruh variabel
yang ada dalam file sekaligus. Ringkasan juga dapat dimintakan untuk satu
variabel saja, misalnya sum bb, sum tb, sum usia, ataupun beberapa (tidak
semua) variabel sekaligus, misalnya sum bb tb usia.
Opsi (, detail) dapat ditambahkan pada perintah sum untuk
memperoleh beberapa nilai persentil, nilai-nilai kuartil, variansi, kemencengan
(skewness) dan kurtosis.
. mean varlist [if] [in]
mean menampilkan rerata (hitung), SE, dan estimasi interval rerata
(interval konfidensi 95% sebagai default).
. means varlist [if] [in]
means menampilkan nilai rerata dan nilai tengah lainnya, yaitu
jumlah pengamatan, rerata hitung, rerata geometrik, dan rerata harmonik,
masing-masing beserta interval konfidensi 95%-nya.
Perintah means akan menampilkan rerata untuk seluruh variabel.
Perintah means dapat diberikan untuk satu variabel saja (means bb, means
tb, dan sebagainya) atau untuk beberapa variabel sekaligus seperti means
usia glukosa kolest bmi.

28
Bab 3. Statistika Deskriptif

Contoh 3.1:
. use "D:\Data\Stata\honolulu.dta", clear
. sum bb tb usia

Variable | Obs Mean Std. Dev. Min Max


---------+-----------------------------------
bb | 100 64.22 8.610048 47 91
tb | 100 161.75 5.596491 150 175
usia | 100 53.67 5.101109 46 67

Untuk menampilkan ringkasan yang lebih rinci, misalnya untuk variabel bmi
diketikkan perintah sum bmi, detail.
. sum bmi, det

Indeks Massa Tubuh


-----------------------------------------------
Percentiles Smallest
1% 18.32308 18.28678
5% 19.91923 18.35938
10% 20.78645 18.87066 Obs 100
25% 22.65625 19.10009 Sum of Wgt. 100

50% 24.24242 Mean 24.54841


Largest Std. Dev. 3.052831
75% 26.33097 30.38502
90% 28.68545 30.86301 Variance 9.319776
95% 30.07813 31.48789 Skewness .3563221
99% 32.54082 33.59375 Kurtosis 2.964489

. means usia glukosa kolest bmi

Variable | Type Obs Mean [95% Conf. Interval]


---------+------------------------------------------------
usia | Arithmetic 100 53.67 52.65783 54.68217
| Geometric 100 53.44146 52.47672 54.42393
| Harmonic 100 53.22408 52.30331 54.17786
---------+------------------------------------------------
glukosa | Arithmetic 100 152.14 141.2753 163.0047
| Geometric 100 143.8674 134.6996 153.6591
| Harmonic 100 136.3451 127.8334 146.0712
---------+------------------------------------------------

29
Bab 3. Statistika Deskriptif

kolest | Arithmetic 100 216.96 209.2496 224.6704


| Geometric 100 213.6993 206.458 221.1946
| Harmonic 100 210.5651 203.6 218.0236
---------+------------------------------------------------
bmi | Arithmetic 100 24.54841 23.94266 25.15415
| Geometric 100 24.36268 23.77141 24.96865
| Harmonic 100 24.17871 23.59809 24.78861
---------+------------------------------------------------

Contoh 3.2:
. use “D:\Data\Stata\Arctic9”, clear
(Arctic September mean sea ice 1979-2011)
. sum extent volume

Variable | Obs Mean Std. Dev. Min Max


---------+---------------------------------------------------
extent | 33 6.51697 .9691796 4.3 7.88
volume | 33 12.04664 3.346079 4.210367 16.9095

. sum extent volume, det


Sea ice extent, million km^2
---------------------------------------------------
Percentiles Smallest
1% 4.3 4.3
5% 4.61 4.61
10% 4.9 4.68 Obs 33
25% 6.05 4.9 Sum of Wgt. 33

50% 6.56 Mean 6.51697


Largest Std. Dev. .9691796
75% 7.25 7.54
90% 7.54 7.55 Variance .9393092
95% 7.85 7.85 Skewness -.6647846
99% 7.88 7.88 Kurtosis 2.625661

30
Bab 3. Statistika Deskriptif

Sea ice volume, 1000 km^3


---------------------------------------------------
Percentiles Smallest
1% 4.210367 4.210367
5% 4.586367 4.586367
10% 6.977133 6.527733 Obs 33
25% 10.28357 6.977133 Sum of Wgt. 33

50% 12.81307 Mean 12.04664


Largest Std. Dev. 3.346079
75% 14.63357 15.3609
90% 15.3609 16.08027 Variance 11.19625
95% 16.31937 16.31937 Skewness -.7695098
99% 16.9095 16.9095 Kurtosis 2.7961

. mean extent volume


Mean estimation Number of obs = 33
---------------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
--------+------------------------------------------------
extent | 6.51697 .1687125 6.173314 6.860626
volume | 12.04664 .5824776 10.86017 13.23311
---------------------------------------------------------

. means extent volume

Variable | Type Obs Mean [95% Conf. Interval]


---------+--------------------------------------------------
extent | Arithmetic 33 6.51697 6.173314 6.860626
| Geometric 33 6.440565 6.085412 6.816445
| Harmonic 33 6.357201 5.990513 6.771707
---------+--------------------------------------------------
volume | Arithmetic 33 12.04664 10.86017 13.23311
| Geometric 33 11.46327 10.13751 12.96241
| Harmonic 33 10.70489 9.237083 12.7273
---------+--------------------------------------------------

31
Bab 3. Statistika Deskriptif

 Nilai-nilai Deskriptif Variabel Kategorik


 Tabel Satu Arah
Untuk memperoleh tabel satu-arah (one-way table; distribusi
frekuensi), digunakan perintah tabulate:
. tabulate varname [if] [in] [, options]
Perintah tabulate (atau tab saja atau tab1) digunakan untuk
menampilkan distribusi frekuensi variabel kategorik atau variabel numerik
yang dikategorisasikan. Perintah ini selalu harus diikuti dengan nama
variabel, dapat berupa satu variabel saja (misalnya tab tk_pend) ataupun lebih
daripada satu variabel (misalnya tab1 tk_pend akt_fisik).
Beberapa opsi yang tersedia untuk perintah tab yaitu:
- nofreg: tidak menampilkan frekuensi (yang ditampilkan hanya nilai-nilai
persentase.
- nolabel: tidak menggunakan definisi nilai label (jika ada).

- plot: perintah untuk menampilkan diagram batang (bar chart) beserta


tabel distribusi frekuensi.
- sort: perintah untuk meranking isi tabel menurut besarnya frekuensi.

Contoh 3.3:
. use "D:\Data\Stata\honolulu.dta", clear
. tab tk_pend

Tingkat |
Pendidikan | Freq. Percent Cum.
------------+---------------------------
1 | 25 25.00 25.00
2 | 32 32.00 57.00
3 | 24 24.00 81.00
4 | 9 9.00 90.00
5 | 10 10.00 100.00
------------+---------------------------
Total | 100 100.00

32
Bab 3. Statistika Deskriptif

. tab1 tk_pend akt_fisik

-> tabulation of tk_pend


Tingkat |
Pendidikan | Freq. Percent Cum.
------------+---------------------------
1 | 25 25.00 25.00
2 | 32 32.00 57.00
3 | 24 24.00 81.00
4 | 9 9.00 90.00
5 | 10 10.00 100.00
------------+---------------------------
Total | 100 100.00

-> tabulation of akt_fisik


Aktivitas |
Fisik | Freq. Percent Cum.
------------+---------------------------
1 | 49 49.00 49.00
2 | 51 51.00 100.00
------------+---------------------------
Total | 100 100.00

Contoh 3.4:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. tab drinkfrq
Days |
drinking in |
previous |
week | Freq. Percent Cum.
------------+-----------------------------------
0 | 4 2.04 2.04
.5 | 4 2.04 4.08
1 | 24 12.24 16.33
2 | 52 26.53 42.86
2.5 | 4 2.04 44.90
3 | 40 20.41 65.31

33
Bab 3. Statistika Deskriptif

3.5 | 12 6.12 71.43


4 | 20 10.20 81.63
4.5 | 4 2.04 83.67
5 | 16 8.16 91.84
6 | 16 8.16 100.00
------------+-----------------------------------
Total | 196 100.00

 Tabel Silang
Untuk menampilkan tabel silang digunakan perintah tab2 sebagai
berikut:
tab2 varname1 varname2 [if] [in] [, options]

Perintah tab2 harus diikuti dengan 2 variabel, misalnya tab2 tk_pend


akt_fisik. Opsi nofreq dan nolabel juga dapat digunakan di sini. Selain itu
tersedia juga opsi row (menampilkan persentase di tiap baris), column
(menampilkan persentase di tiap kolom), dan cell (menampilkan persentase di
tiap sel), misalnya tab2 tk_pend akt_fisik, row.

Contoh 3.5:
. use "D:\Data\Stata\honolulu.dta", clear
. tab2 tk_pend akt_fisik

-> tabulation of tk_pend by akt_fisik


Tingkat | Aktivitas Fisik
Pendidikan | 1 2 | Total
-----------+----------------+-------
1 | 13 12 | 25
2 | 17 15 | 32
3 | 11 13 | 24
4 | 4 5 | 9
5 | 4 6 | 10
-----------+----------------+-------
Total | 49 51 | 100

34
Bab 3. Statistika Deskriptif

. tab2 tk_pend akt_fisik, row

-> tabulation of tk_pend by akt_fisik


+----------------+
| Key |
|----------------|
| frequency |
| row percentage |
+----------------+
Tingkat | Aktivitas Fisik
Pendidikan | 1 2 | Total
-----------+----------------+-------
1 | 13 12 | 25
| 52.00 48.00 | 100.00
-----------+----------------+-------
2 | 17 15 | 32
| 53.13 46.88 | 100.00
-----------+----------------+-------
3 | 11 13 | 24
| 45.83 54.17 | 100.00
-----------+----------------+-------
4 | 4 5 | 9
| 44.44 55.56 | 100.00
-----------+----------------+-------
5 | 4 6 | 10
| 40.00 60.00 | 100.00
-----------+----------------+-------
Total | 49 51 | 100
| 49.00 51.00 | 100.00

Contoh 3.6:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))

35
Bab 3. Statistika Deskriptif

. tab2 drinkfrq gender


Days |
drinking |
in |
previous | Gender
week | Male Female | Total
-----------+----------------------+----------
0 | 4 0 | 4
.5 | 4 0 | 4
1 | 8 16 | 24
2 | 32 20 | 52
2.5 | 0 4 | 4
3 | 32 8 | 40
3.5 | 4 8 | 12
4 | 12 8 | 20
4.5 | 4 0 | 4
5 | 16 0 | 16
6 | 12 4 | 16
-----------+----------------------+----------
Total | 128 68 | 196

. tab2 drinkfrq gender, co


+-------------------+
| Key |
|-------------------|
| frequency |
| column percentage |
+-------------------+

36
Bab 3. Statistika Deskriptif

Days |
drinking |
in |
previous | Gender
week | Male Female | Total
-----------+----------------------+----------
0 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
.5 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
1 | 8 16 | 24
| 6.25 23.53 | 12.24
-----------+----------------------+----------
2 | 32 20 | 52
| 25.00 29.41 | 26.53
-----------+----------------------+----------
2.5 | 0 4 | 4
| 0.00 5.88 | 2.04
-----------+----------------------+----------
3 | 32 8 | 40
| 25.00 11.76 | 20.41
-----------+----------------------+----------
3.5 | 4 8 | 12
| 3.13 11.76 | 6.12
-----------+----------------------+----------
4 | 12 8 | 20
| 9.38 11.76 | 10.20
-----------+----------------------+----------
4.5 | 4 0 | 4
| 3.13 0.00 | 2.04
-----------+----------------------+----------
5 | 16 0 | 16
| 12.50 0.00 | 8.16
-----------+----------------------+----------
6 | 12 4 | 16
| 9.38 5.88 | 8.16
-----------+----------------------+----------
Total | 128 68 | 196
| 100.00 100.00 | 100.00

37
Bab 3. Statistika Deskriptif

 Tabel Nilai Ringkasan Variabel Numerik menurut


Kategori Variabel Kategorik
Jika variabel_1 adalah variabel kategorik dan variabel_2 variabel
kontinu, maka perintah summarize untuk variabel_2 dapat diberikan untuk
masing-masing kategori variabel_1. Sintaks-nya adalah:
tabulate varname_1 [if] [in], summarize(varname_2)

Contoh 3.7:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. tab gender, sum(bac)
| Summary of Blood alchohol content
Gender | Mean Std. Dev. Freq.
------------+------------------------------------
Male | .09340909 .08052148 132
Female | .08111111 .06826947 72
------------+------------------------------------
Total | .08906863 .07647798 204

38
Bab 4. Grafik Statistik

BAB 4
GRAFIK STATISTIK
 Histogram dan Densitas Kernel
Histogram adalah representasi grafikal untuk sehimpunan pengamatan
terkategorisasi oleh sejumlah batang, 1 batang untuk tiap kategori, masing-
masing memiliki luas yang sebanding dengan frekuensi kategorinya. Proses
kategorisasi (penentuan jumlah dan lebar batang) dapat dilakukan oleh
program komputer ataupun ditentukan oleh pengguna program. Sintaks untuk
histogram yaitu:
histogram varname [if] [in] [, options]
Densitas kernel (kernel density) adalah fungsi licin (smoothed
function), yang diperoleh dari “geseran” histogram (sliding histogram). Bentuk
histogram tidak konstan, tergantung pada titik awal dan lebar batang yang
dipilih, tetapi bentuk densitas kernel relatif konstan, semata-mata tergantung
pada metode estimasi yang dipilih. Sintaks untuk grafik densitas kernel yaitu:
kdensity varname [if] [in] [, options]

Contoh 4.1:
. use “D:\Data\Stata\auto”, clear
. histogram weight
(bin=8, start=1760, width=385)S
5.0e-04
4.0e-04
2.0e-04 3.0e-04
Density
1.0e-04
0

2,000 3,000 4,000 5,000


Weight (lbs.)

39
Bab 4. Grafik Statistik

. kdensity weight
Kernel density estimate

.0004
.0003
Density
.0002 .0001
0

1000 2000 3000 4000 5000


Weight (lbs.)
kernel = epanechnikov, bandwidth = 295.7504

Perbandingan histogram dan grafik densitas kernel untuk variabel yang


sama (weight) diperlihatkan sebagai berikut:
5.0e-04

Kernel density estimate


.0004
4.0e-04

.0003
2.0e-04 3.0e-04
Density

Density
.0002 .0001
1.0e-04

1000 2000 3000 4000 5000


0

2,000 3,000 4,000 5,000 Weight (lbs.)


Weight (lbs.) kernel = epanechnikov, bandwidth = 295.7504

40
Bab 4. Grafik Statistik

Untuk membandingkan histogram dan grafik densitas kernel dengan


distribusi normal ditambahkan opsi (, normal):
. histogram weight, normal

2.0e-04 3.0e-045.0e-04
4.0e-04
Density
1.0e-04
0

2,000 3,000 4,000 5,000


Weight (lbs.)

. kdensity weight, normal

Kernel density estimate


.0001 .0002 .0003 .0004 .0005
Density
0

1000 2000 3000 4000 5000


Weight (lbs.)

Kernel density estimate


Normal density
kernel = epanechnikov, bandwidth = 295.7504

41
Bab 4. Grafik Statistik

Penyajian histogram weight menurut kategorisasi foreign (domestic


dan foreign):
. histogram weight, by(foreign)

Domestic Foreign
.0015
.001
Density
5.0e-04
0

1,000 2,000 3,000 4,000 5,0001,000 2,000 3,000 4,000 5,000


Weight (lbs.)
Graphs by Car type

Contoh 4.2:
. use “D:\Data\Stata\attract”, clear
(Perceived attractiveness and drinking -- DC Hamilton (2003))
. histogram bac
(bin=14, start=0, width=.02571429)
10
8
Density
4
2
06

0 .1 .2 .3 .4
Blood alchohol content

42
Bab 4. Grafik Statistik

Pada sumbu X didapatkan nilai bac (blood alcohol content), sedangkan


sumbu Y menyatakan densitasnya. Nilai densitas dapat diganti menjadi
frekuensi dengan perintah:

. histogram bac, frequency


(bin=14, start=0, width=.02571429)
60
40
Frequency
20
0

0 .1 .2 .3 .4
Blood alchohol content

. histogram bac, start(0) width(0.03333333) norm


(bin=11, start=0, width=.03333333)
10
8
6
Density
4
2
0

0 .1 .2 .3 .4
Blood alchohol content

43
Bab 4. Grafik Statistik

. histogram bac, by(gender)

Male Female
15
10
Density
5
0

0 .1 .2 .3 .4 0 .1 .2 .3 .4
Blood alchohol content
Graphs by Gender

. histogram bac, by(gender, total) percent

Male Female
30
20
10
0
Percent

0 .1 .2 .3 .4

Total
30
20
10
0

0 .1 .2 .3 .4
Blood alchohol content
Graphs by Gender

44
Bab 4. Grafik Statistik

. kdensity bac

Kernel density estimate

5
4
3
Density
2
1
0

0 .1 .2 .3 .4
Blood alchohol content
kernel = epanechnikov, bandwidth = 0.0238

. kdensity bac, norm

Kernel density estimate


5
4
Density
2 1
03

0 .1 .2 .3 .4
Blood alchohol content

Kernel density estimate


Normal density
kernel = epanechnikov, bandwidth = 0.0238

45
Bab 4. Grafik Statistik

 Histogram untuk Variabel Kategorik


Dalam Statistika Umum, variabel kategorik biasanya disajikan dalam
bentuk diagram batang, tetapi dalam Stata perintah yang diberikan adalah
sama dengan untuk penyajian histogram dengan sintaks:
histogram varname [if] [in] [, options]

Contoh 4.3:
. use “D:\Data\Stata\auto”, clear
. histogram rep78
.8
.6
Density
.4 .2
0

1 2 3 4 5
Repair Record 1978

46
Bab 4. Grafik Statistik

Contoh 4.4:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. histogram live, frequency
80
60
Frequency
40
20
0

1 2 3 4
Year in college

 Diagram Batang
Pengertian diagram batang (bar diagram) dalam Stata adalah
penyajian nilai-nilai rerata (ataupun statistik lainnya) suatu variabel kontinu
menurut kategori variabel kategorik lainnya. Sintaks-nya adalah:
graph bar [(stat)] cont_var [if] [in], over(cat_var)

(stat) : Statistik yang diminta (umumnya rerata)


cont_var : Variabel kontinu yang dimintakan statistiknya
cat_var : Variabel kategorik

47
Bab 4. Grafik Statistik

Contoh 4.5:
. use “D:\Data\Stata\auto”, clear
. graph bar (mean) mpg, over(rep78)
30
20
mean of mpg
10
0

1 2 3 4 5

Contoh 4.6:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph bar (mean) aggress, over(gender)
2 1.5
mean of aggress
1 .5
0

Female Male

48
Bab 4. Grafik Statistik

 Diagram Tebar
Diagram tebar (scatter diagram) adalah grafik dua dimensi untuk
pengamatan bivariat. Sintaks untuk diagram tebar adalah:

[graph] twoway scatter yvar xvar [if] [in] [, options]

[graph] : Penulisan perintah graph bersifat opsional


yvar : Variabel pada sumbu Y, biasanya adalah respons
xvar : Variabel pada sumbu X, biasanya adalah prediktor

Contoh 4.7:
. use “D:\Data\Stata\auto”, clear
. graph twoway scatter weight length
5,0004,000
Weight (lbs.)
3,000 2,000

140 160 180 200 220 240


Length (in.)

49
Bab 4. Grafik Statistik

Menyajikan estimasi garis regresi weight (respons) terhadap length


(prediktor):
. graph twoway lfit weight length
5000
4000
Fitted values
3000
2000
1000

140 160 180 200 220 240


Length (in.)

Diagram tebar dapat disajikan secara bersama dengan estimasi garis


regresinya:
. graph twoway scatter weight length || lfit weight length
5,000
4,000
3,000
2,000
1,000

140 160 180 200 220 240


Length (in.)

Weight (lbs.) Fitted values

50
Bab 4. Grafik Statistik

Contoh 4.8:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph twoway scatter gpa study
4
3.5
Grade Point Average
2.5 2
1.53

0 10 20 30 40 50
Avg. hours/week studying

. graph twoway lfit gpa study


3.2
3
Fitted values
2.8
2.6

0 10 20 30 40 50
Avg. hours/week studying

51
Bab 4. Grafik Statistik

. graph twoway lfit gpa study || scatter gpa study

4
3.5
3
2.5
2
1.5

0 10 20 30 40 50
Avg. hours/week studying

Fitted values Grade Point Average

 Diagram Kotak & Titik


Diagram kotak dan titik (box plot) adalah metode penyajian grafik
untuk menampilkan karakteristik penting suatu himpunan pengamatan, yaitu
lima angka ringkasan deskriptif himpunan pengamatan tersebut, berupa nilai
perbatasan bawah (lower adjacent value), kuartil I, median, kuartil III, dan
nilai perbatasan atas (upper adjacent value). Sintaks-nya adalah:

graph box varname [if] [in] [, options]

52
Bab 4. Grafik Statistik

Contoh 4.9:
. use “D:\Data\Stata\auto”, clear
. graph box mpg

40 30
Mileage (mpg)
20
10

Diagram kotak dan titik juga dapat disajikan secara berdampingan


menurut kategori variabel kategorik lainnya:
. graph box mpg, by(foreign)

Domestic Foreign
40
Mileage (mpg)
30
20
10

Graphs by Car type

53
Bab 4. Grafik Statistik

Contoh 4.10:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))

. graph box gpa


4
3.5
Grade Point Average
2.5 2
1.5 3

. graph box gpa, over(gender)


4
3.5
Grade Point Average
2.5 2
1.5 3

Female Male

54
Bab 4. Grafik Statistik

 Diagram Lingkar
Diagram lingkar (pie diagram) adalah penyajian grafikal untuk data
nominal (kategorik), menggunakan lingkaran yang terbagi sejumlah sektor,
masing-masing berukuran proporsional dengan frekuensi yang
direpresentasikannya. Sintaks-nya adalah:
graph pie [if] [in], over(varname) [options]

Contoh 4.11:
. use “D:\Data\Stata\auto”, clear
. graph pie, over(rep78)

1 2
3 4
5

55
Bab 4. Grafik Statistik

Contoh 4.12:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))
. graph pie, over(live)

Dorm Greek
Apartmnt w/Parent
other

 Grafik Matriks
Grafik matriks adalah matriks yang tiap selnya memuat diagram tebar
untuk 2 variabel yang berpotongan pada sel itu. Sintaks-nya adalah:
graph matrix varlist [if] [in] [, options]

56
Bab 4. Grafik Statistik

Contoh 4.13:
. use “D:\Data\Stata\auto”, clear
. graph matrix price mpg weight length, half

Price

40

30
Mileage
20
(mpg)

10
5,000

4,000
Weight
3,000 (lbs.)
2,000
250

200 Length
(in.)
150

5,000 10,000 15,000


10 20 30 402,000 3,000 4,000 5,000

Bandingkan grafik matriks di atas dengan matriks korelasi berikut:


. corr price mpg weight length
(obs=74)

| price mpg weight length


-----------+--------------------------------
price | 1.0000
mpg | -0.4686 1.0000
weight | 0.5386 -0.8072 1.0000
length | 0.4318 -0.7958 0.9460 1.0000

57
Bab 4. Grafik Statistik

Contoh 4.14:
. use “D:\Data\Stata\student2”, clear
(Student survey (Ward 1990))

. graph matrix age drink gpa study, half

Age at
last
birthday

40

33-point
20 drinking
scale
0
4

3 Grade
Point
2 Average
1
50

Avg.
hours/week
studying
0
20 30 40 0 20 401 2 3 4

58
Bab 5. Analisis Statistik Sederhana

BAB 5
ANALISIS STATISTIK SEDERHANA

 Uji t

 Uji t untuk 1 kelompok


Uji t untuk 1 kelompok adalah uji statistik untuk menguji hipotesis
H 0 : µ = µ0 . Sintaks pada uji t untuk 1 kelompok yaitu:
ttest varname == # [if] [in] [, level (#)]
Asumsi-asumsi pada uji t untuk 1 kelompok ini adalah :
- Data berskala kontinu
- Data berdistribusi normal
- Data berasal dari random sampling

Contoh 5.1:
File data yang digunakan adalah auto.dta.
. use “D:\Data\Stata\auto.dta”, clear
(1978 Automobile Data)

. list mpg in 1/10


+-----+
| mpg |
|-----|
1. | 22 |
2. | 17 |
3. | 22 |
4. | 20 |
5. | 15 |
|-----|
6. | 18 |
7. | 26 |
8. | 20 |
59
Bab 5. Analisis Statistik Sederhana

9. | 16 |
10. | 19 |
+-----+
Untuk pengujian asumsi normalitas terhadap variabel mpg dilakukan
uji normalitas Shapiro-Wilk dengan H 0 : Data berdistribusi normal.

. swilk mpg
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 74 0.94821 3.335 2.627 0.00430

Hipotesis nol ditolak dengan p = 0.0043 (mpg tidak berdistribusi normal,


ditemukan penyimpangan bermakna terhadap distribusi H 0 ), walaupun
demikian uji t di sini diteruskan untuk latihan.
Penilaian normalitas secara kasar dapat dilakukan dengan
menggunakan grafik.
. qnorm mpg, grid

11.781 21.2973 30.8136


40

34
30
Mileage (mpg)
20

20
14
10

10 15 20 25 30 35
Inverse Normal
Grid lines are 5, 10, 25, 50, 75, 90, and 95 percentiles

Penilaian terhadap grafik di sini bersifat subjektif. Perintah berikut


adalah untuk menguji H 0 : µ = 20.

60
Bab 5. Analisis Statistik Sederhana

. ttest mpg==20

One-sample t test
-----------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-------------------------------------------------------
mpg | 74 21.2973 .6725511 5.785503 19.9569 22.63769
-----------------------------------------------------------------
mean = mean(mpg) t = 1.9289
Ho: mean = 20 degrees of freedom = 73
Ha: mean < 20 Ha: mean != 20 Ha: mean > 20
Pr(T < t) = 0.9712 Pr(|T| > |t|) = 0.0576 Pr(T > t) = 0.0288

Diperoleh hasil:
untuk H1 : µ < 20 → p = 0.9712
H1 : µ ≠ 20 p = 0.0576
H1 : µ > 20 p = 0.0288

Contoh 5.2:
Pada contoh ini digunakan file data hsb2.dta.
. use "D:\Data\Stata\hsb2.dta", clear
(highschool and beyond (200 cases))
. list write in 1/10
+-------+
| write |
|-------|
1. | 52 |
2. | 59 |
3. | 33 |
4. | 44 |
5. | 52 |
|-------|
6. | 52 |
7. | 59 |
8. | 46 |
9. | 57 |
10. | 55 |
+-------+
61
Bab 5. Analisis Statistik Sederhana

. swilk write
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
write | 200 0.96286 5.540 3.939 0.00004

write tidak berdistribusi normal (p = 0.00004).

. ttest write=50

One-sample t test
------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
write | 200 52.775 .6702372 9.478586 51.45332 54.09668
------------------------------------------------------------------
mean = mean(write) t = 4.1403
Ho: mean = 50 degrees of freedom = 199
Ha: mean < 50 Ha: mean != 50 Ha: mean > 50
Pr(T < t) = 1.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 0.0000
Hipotesis H 0 : µ = 50 ditolak dengan p = 0.0001.

 Uji t untuk 2 kelompok independen


Uji t untuk 2 kelompok independen adalah pengujian statistik
terhadap hipotesis H 0 : µ 1 = µ2 . Sintaks untuk uji hipotesis ini adalah:
ttest varname [if] [in] , by(groupvar) [options]
Options yang tersedia antara lain yaitu:
- unequal untuk uji terhadap 2 kelompok yang tidak sama variansinya
- level(#) untuk mengganti nilai default tingkat signifikansi
Asumsi-asumsi untuk uji hipotesis ini adalah:
- Data berskala kontinu
- Data berdistribusi normal
- Variansi kedua kelompok sama (jika tidak sama, gunakan uji unequal)
- Kedua kelompok independen (jika tidak independen, gunakan paired t-
test)
- Data berasal dari random sampling
62
Bab 5. Analisis Statistik Sederhana

Contoh 5.3:
File data yang digunakan di sini adalah fuel3.dta.
. webuse fuel3, clear

Mengambil dari Web dan membuka file fuel3.dta.


. list in 1/5

Memperlihat isi (database) file untuk record 1 s.d. 5


+---------------+
| mpg treated |
|---------------|
1. | 20 0 |
2. | 23 0 |
3. | 21 0 |
4. | 25 0 |
5. | 18 0 |
+---------------+
Pada uji t untuk 2 kelompok independen ini, uji normalitas harus
dilakukan untuk masing-masing kelompok:
. swilk mpg if treated==0
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 12 0.93932 1.014 0.027 0.48937

. swilk mpg if treated==1


Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
mpg | 12 0.97637 0.395 -1.811 0.96493

Tampak bahwa untuk kedua kelompok tidak ditemukan


penyimpangan yang bermakna dari normalitas. Selanjutnya dilakukan
pengujian kesamaan variansi antar kedua kelompok dengan hipotesis H 0 :
63
Bab 5. Analisis Statistik Sederhana

σ12 / σ 22 = 1. Pengujian dapat dilakukan dengan uji Bartlett yang sensitif


terhadap asumsi normalitas:

. sdtest mpg, by(treated)


Variance ratio test
------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
0 | 12 21 .7881701 2.730301 19.26525 22.73475
1 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+--------------------------------------------------------
combined | 24 21.875 .6264476 3.068954 20.57909 23.17091
------------------------------------------------------------------
ratio = sd(0) / sd(1) f = 0.7054
Ho: ratio = 1 degrees of freedom = 11, 11
Ha: ratio < 1 Ha: ratio != 1 Ha: ratio > 1
Pr(F < f) = 0.2862 2*Pr(F < f) = 0.5725 Pr(F > f) = 0.7138

Dari hasil uji Bartlett disimpulkan bahwa variansi kedua kelompok


sama (p = 0.5725). Uji kesamaan variansi juga dapat dilakukan dengan uji
Levene yang bersifat robust terhadap asumsi normalitas:
. robvar mpg, by(treated)

| Summary of mpg
treated | Mean Std. Dev. Freq.
------------+------------------------------------
0 | 21 2.7303013 12
1 | 22.75 3.250874 12
------------+------------------------------------
Total | 21.875 3.0689539 24
W0 = 0.03414971 df(1, 22) Pr > F = 0.8550817
W50 = 0.01376721 df(1, 22) Pr > F = 0.9076602
W10 = 0.02949384 df(1, 22) Pr > F = 0.86521366

W0 : Levene’s F statistic
W50 : Brown and Forsythe’s F statistic (median)
W10 : Brown and Forsythe’s F statistic (trimmed mean)
64
Bab 5. Analisis Statistik Sederhana

Hasil uji Levene yaitu H 0 tidak ditolak (p = 0.855), sehingga


disimpulkan bahwa variansi kedua kelompok sama.
. ttest mpg, by(treated)

Uji t terhadap rerata mpg antar 2 kelompok, treated = 1 vs treated = 0.


Two-sample t test with equal variances
----------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+------------------------------------------------------
0 | 12 21 .7881701 2.730301 19.26525 22.73475
1 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+------------------------------------------------------
combined | 24 21.875 .6264476 3.068954 20.57909 23.17091
---------+------------------------------------------------------
diff | -1.75 1.225518 -4.291568 .7915684
----------------------------------------------------------------
diff = mean(0) - mean(1) t = -1.4280
Ho: diff = 0 degrees of freedom = 22
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0837 Pr(|T| > |t|) = 0.1673 Pr(T > t) = 0.9163

Contoh 5.4:
Digunakan file data hsb2.dta.
. use “D\Data\Stata\hsb2.dta”, clear
. list write female in 1/5
+----------------+
| write female |
|----------------|
1. | 52 male |
2. | 59 female |
3. | 33 male |
4. | 44 male |
5. | 52 male |
+----------------+

65
Bab 5. Analisis Statistik Sederhana

. ttest write, by(female)


Two-sample t test with equal variances
------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
male | 91 50.12088 1.080274 10.30516 47.97473 52.26703
female | 109 54.99083 .7790686 8.133715 53.44658 56.53507
---------+--------------------------------------------------------
combined | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------
diff | -4.869947 1.304191 -7.441835 -2.298059
------------------------------------------------------------------
diff = mean(male) - mean(female) t = -3.7341
Ho: diff = 0 degrees of freedom = 198
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Pr(T < t) = 0.0001 Pr(|T| > |t|) = 0.0002 Pr(T > t) = 0.9999

 Uji t berpasangan (paired t-test)


Uji t berpasangan adalah uji statistik untuk menguji hipotesis H 0 : δ =
0, δ adalah rerata selisih 2 variabel berpasangan X1 dan X 2 . Sintaks uji
statistik adalah:
ttest varname1 == varname2 [if] [in] [, level(#)]
Asumsi-asumsi pada uji statistik ini yaitu:
- Data berskala kontinu
- Selisih kedua variabel berpasangan berdistribusi normal
- Data berasal dari random sampling

66
Bab 5. Analisis Statistik Sederhana

Contoh 5.5:
File data untuk contoh ini adalah fuel.dta.
. webuse fuel, clear
. list in 1/5
+-------------+
| mpg1 mpg2 |
|-------------|
1. | 20 24 |
2. | 23 25 |
3. | 21 21 |
4. | 25 22 |
5. | 18 23 |
+-------------+

Uji normalitas untuk selisih kedua variabel mpg1 − mpg2 adalah


sebagai berikut:
. gen diff_mpg = mpg1 - mpg2
. swilk diff_mpg
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+--------------------------------------------------
diff_mpg | 12 0.92077 1.324 0.547 0.29236

Selisih kedua variabel berpasangan mpg1 − mpg2 = diff_mpg


berdistribusi normal (p = 0.29236).

. ttest mpg1==mpg2 (two-sample t test using variables)

Paired t test
---------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-----------------------------------------------------
mpg1 | 12 21 .7881701 2.730301 19.26525 22.73475
mpg2 | 12 22.75 .9384465 3.250874 20.68449 24.81551
---------+-----------------------------------------------------
diff | 12 -1.75 .7797144 2.70101 -3.46614 -.0338602
---------------------------------------------------------------
67
Bab 5. Analisis Statistik Sederhana

mean(diff) = mean(mpg1 - mpg2) t = -2.2444


Ho: mean(diff) = 0 degrees of freedom = 11
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Pr(T < t) = 0.0232 Pr(|T| > |t|) = 0.0463 Pr(T > t) = 0.9768

Contoh 5.6:
Digunakan file data hsb2.dta.
. use “D:\Data\Stata\hsb2”, clear
. list read write in 1/10

+--------------+
| read write |
|--------------|
1. | 57 52 |
2. | 68 59 |
3. | 44 33 |
4. | 63 44 |
5. | 47 52 |
|--------------|
6. | 44 52 |
7. | 50 59 |
8. | 34 46 |
9. | 63 57 |
10. | 57 55 |
+--------------+

Berikut diperlihatkan sebagian dari dataset yang digunakan untuk


contoh uji t berpasangan:

pair read write d


1 57 52 +5
2 68 59 +9
3 44 46 −2
4 63 57 +6
... dst.

68
Bab 5. Analisis Statistik Sederhana

. ttest read==write
Paired t test
------------------------------------------------------------------
Variable | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------
read | 200 52.23 .7249921 10.25294 50.80035 53.65965
write | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------
diff | 200 -.545 .6283822 8.886666 -1.784142 .6941424
------------------------------------------------------------------
mean(diff) = mean(read - write) t = -0.8673
Ho: mean(diff) = 0 degrees of freedom = 199

Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0


Pr(T < t) = 0.1934 Pr(|T| > |t|) = 0.3868 Pr(T > t) = 0.8066

 Uji t tanpa dataset


Uji t juga dapat tanpa membuka dataset tertentu, hanya dengan
diberikan data tentang ukuran sampel, rerata, dan standar deviasi.

o Uji t tanpa dataset untuk 1 kelompok:


Yang diuji adalah hipotesis H 0 : µ = µ0 . Sintaks untuk uji ini adalah:
ttesti #obs #mean #sd #val [, level(#)]

Contoh 5.7:
. ttesti 24 62.6 15.8 75
(immediate form; n = 24, x = 62.6, SD = 15.8; test µ = 75)
One-sample t test
-----------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
----+------------------------------------------------------
x | 24 62.6 3.225161 15.8 55.92825 69.27175
-----------------------------------------------------------

69
Bab 5. Analisis Statistik Sederhana

mean = mean(x) t = -3.8448


Ho: mean = 75 degrees of freedom = 23

Ha: mean < 75 Ha: mean != 75 Ha: mean > 75


Pr(T < t) = 0.0004 Pr(|T| > |t|) = 0.0008 Pr(T > t) = 0.9996

o Uji t tanpa dataset untuk 2 kelompok:


Yang diuji adalah hipotesis H 0 : µ 1 = µ2 . Sintaks untuk uji hipotesis
ini adalah:
ttesti #obs1 #mean1 #sd1 #obs2 #mean2 #sd2 [, options]
Options yang tersedia antara lain yaitu unequal (variansi kedua kelompok
tidak sama) dan level(#) (mengubah nilai default tingkat signifikansi).

Contoh 5.8:
. ttesti 12 21.00 0.788 12 22.75 0.938

Two-sample t test with equal variances


---------------------------------------------------------------
| Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+-----------------------------------------------------
x | 12 21 .227476 .788 20.49933 21.50067
y | 12 22.75 .2707773 .938 22.15402 23.34598
---------+-----------------------------------------------------
combined | 24 21.875 .2513863 1.231536 21.35497 22.39503
---------+-----------------------------------------------------
diff | -1.75 .3536462 -2.483417 -1.016583
---------------------------------------------------------------
diff = mean(x) - mean(y) t = -4.9484
Ho: diff = 0 degrees of freedom = 22

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0


Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0001 Pr(T > t) = 1.0000

70
Bab 5. Analisis Statistik Sederhana

 Uji khi-kuadrat

 Uji Khi-Kuadrat untuk tabel 2×2


Pada uji khi-kuadrat dengan Stata, prediktor akan ditempatkan
sebagai variabel baris dan respons sebagai variabel kolom. Untuk data yang
berasal dari rancangan studi Epidemiologi, prediktor dinamakan sebagai
“exposed” dan respons adalah “case”. Dalam tabel 2×2 ini, prediktor
maupun respons adalah variabel biner dan masing-masing bernilai {0, 1}.

case
1 0
1 a b n1
exposed
0 c d n2
m1 m2 n

o Uji Khi-kuadrat untuk Studi Kasus-Kontrol


Pada data yang berasal dari rancangan studi kasus-kontrol, ukuran
keeratan hubungan prediktor-respons adalah rasio odds (odds ratio; OR),
yaitu:
ad
ORˆ = ψˆ = (5.1)
bc
Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis
H 0 : ψ = 1. Asumsi-asumsi dalam pengujian ini yaitu:
- Pengamatan independen satu sama lain
- Frekuensi harapan tiap sel minimum sama dengan 5.
Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H 0 :
ψ = 1 adalah:

cc var_case var_exposed [if] [in] [, cc_options]

71
Bab 5. Analisis Statistik Sederhana

Salah satu opsi pada [, cc_options] ialah [, exact], yaitu opsi untuk
meminta uji eksak Fisher.

o Uji Khi-kuadrat untuk Studi Kohort


Pada data yang berasal dari rancangan studi kohort, ukuran keeratan
hubungan prediktor-respons adalah rasio risiko (risk ratio; RR), yaitu:
a n1
RRˆ = (5.2)
c n2

Uji hipotesis di sini yaitu uji khi-kuadrat dilakukan terhadap hipotesis


H 0 : RR = 1. Asumsi-asumsi dalam pengujian ini sama seperti untuk uji
hipotesis H 0 : OR = 1.
Sintaks untuk uji khi-kuadrat pada tabel 2×2 terhadap hipotesis H 0 :
RR = 1 adalah:
cs var_case var_exposed [if] [in] [, cs_options]
Seperti pada rancangan studi kasus kontrol, di sini juga salah satu
opsi adalah [, exact], yaitu opsi untuk meminta uji eksak Fisher.

o Uji Khi-kuadrat untuk Studi Non-Epidemiologi


Jika data tidak berasal dari salah satu rancangan studi epidemiologi,
sintaksnya adalah:
tab2 varname1 varname2, chi2 exact

o Uji Khi-kuadrat tanpa Dataset


Jika analisis khi-kuadrat hendak dilakukan terhadap nilai-nilai
frekuensi keempat sel pada tabel 2×2 tanpa membuka atau menggunakan file
data tertentu, analogi dengan perintah ttesti pada uji t, sintaks-nya masing-
masing adalah:
cci a b c d
csi a b c d
dan: tabi a b \ c d, chi2 exact
72
Bab 5. Analisis Statistik Sederhana

Contoh 5.9:
Digunakan file data tt_headache_part-1.dta.
. use “D:\Data\Stata\ tt_headache_part-1”, clear
Membuka file tt_headache_part-1.dta.
. list nktt tpa_kat in 1/5
Memperlihat isi sebagian dataset untuk variabel nktt (respons; variabel baris
pada tabel) dan tpa_kat (prediktor; variabel kolom pada tabel) pada record 1
s.d. 5

+----------------+
| nktt tpa_kat |
|----------------|
1. | 0 1 |
2. | 1 0 |
3. | 1 1 |
4. | 0 0 |
5. | 0 0 |
+----------------+
. tab2 nktt tpa_kat
Perintah untuk melakukan tabulasi silang variabel nktt dengan tpa_kat.
-> tabulation of nktt by tpa_kat

| TPA_kat
NKTT | 0 1 | Total
-----------+----------------------+----------
0 | 86 24 | 110
1 | 44 64 | 108
-----------+----------------------+----------
Total | 130 88 | 218
Selanjutnya dengan asumsi data berasal dari studi kasus-kontrol,
hendak dilakukan pengestimasian nilai rasio odds prediktor tpa_kat
(exposed) dengan respons nktt (case) serta uji hipotesis H 0 : OR = 1.

73
Bab 5. Analisis Statistik Sederhana

. cc nktt tpa_kat

Proportion
| Exposed Unexposed | Total Exposed
----------------+--------------------+--------------------
Cases | 64 44 | 108 0.5926
Controls | 24 86 | 110 0.2182
----------------+--------------------+--------------------
Total | 88 130 | 218 0.4037
| |
| Point estimate |[95% Conf. Interval]
|--------------------+--------------------
Odds ratio | 5.212121 | 2.770114 9.888089 (exact)
Attr. frac. ex. | .8081395 | .639004 .8988682 (exact)
Attr. frac. pop | .4788975 |
+-----------------------------------------
chi2(1) = 31.74 Pr>chi2 = 0.0000

Diperoleh kesimpulan hipotesis H 0 : OR = 1 ditolak dengan p =


0.0000. Estimasi titik ORˆ adalah 5.21 dengan interval konfidensi 95% [2.77
; 9.89].
Jika data diasumsikan berasal dari rancangan studi kohort, yang
diestimasi adalah nilai rasio risiko dan hipotesis yang diuji adalah H 0 : RR =
1 dengan perintah:
. cs nktt tpa_kat

| TPA_kat |
| Exposed Unexposed | Total
----------------+---------------------+----------
Cases | 64 44 | 108
Noncases | 24 86 | 110
----------------+---------------------+----------
Total | 88 130 | 218
| |
Risk | .7272727 .3384615 | .4954128
| |

74
Bab 5. Analisis Statistik Sederhana

| Point estimate | [95% Conf. Interval]


|---------------------+---------------------
Risk difference | .3888112 | .2652201 .5124023
Risk ratio | 2.14876 | 1.636615 2.821171
Attr. frac. ex. | .5346154 | .3889827 .6455373
Attr. frac. pop | .3168091 |
+-------------------------------------------
chi2(1) = 31.74 Pr>chi2 = 0.0000

Hipotesis H 0 : RR = 1 ditolak dengan p = 0.0000. Estimasi titik untuk


RRˆ adalah 2.15 dengan interval konfidensi 95% [1.64 ; 2.82].
Jika data tidak diasumsikan berasal dari salah satu rancangan studi
Epidemiologi, uji khi-kuadrat untuk asosiasi antara tpa_kat dengan nktt
dapat dilakukan dengan perintah:
. tab2 nktt tpa_kat, chi2

-> tabulation of nktt by tpa_kat


| TPA_kat
NKTT | 0 1 | Total
-----------+----------------------+----------
0 | 86 24 | 110
1 | 44 64 | 108
-----------+----------------------+----------
Total | 130 88 | 218
Pearson chi2(1) = 31.7354 Pr = 0.000

75
Bab 5. Analisis Statistik Sederhana

Contoh 5.10:
Digunakan file data ccxmpl.dta.
. webuse ccxmpl
. list
+-----------------------+
| case exposed pop |
|-----------------------|
1. | 1 1 4 |
2. | 1 0 386 |
3. | 0 1 4 |
4. | 0 0 1250 |
+-----------------------+

Berbeda dengan contoh file data terdahulu, pada file ccxmpl ini
hanya ada 4 records, tiap record tidak menyatakan data untuk 1 orang
responden, melainkan nilai-nilai frekuensi pada tabel 2×2. Ada 4 responden
dengan nilai case = 1 dan exposed = 1; 386 responden dengan nilai case =
1 dan exposed = 0; dan seterusnya; sehingga jumlah responden seluruhnya
adalah 4 + 386 + 4 + 1250 = 1644 orang responden. Di sini tidak boleh
dilakukan perintah tabulate case exposed, chi2. Perintah yang dapat
digunakan di sini adalah cci.

. cci 4 386 4 1250


Proportion
| Exposed Unexposed | Total Exposed
----------------+---------------------+---------------------
Cases | 4 386 | 390 0.0103
Controls | 4 1250 | 1254 0.0032
----------------+---------------------+---------------------
Total | 8 1636 | 1644 0.0049
| |
| Point estimate | [95% Conf. Interval]
|---------------------+---------------------
Odds ratio | 3.238342 | .5997233 17.45614 (exact)
Attr. frac. ex. | .6912 | -.6674356 .9427136 (exact)
Attr. frac. pop | .0070892 |
+-------------------------------------------
chi2(1) = 3.07 Pr>chi2 = 0.0799
76
Bab 5. Analisis Statistik Sederhana

Contoh 5.11:
. csi 7 12 9 2
| Exposed Unexposed | Total
-----------------+-------------------+----------
Cases | 7 12 | 19
Noncases | 9 2 | 11
-----------------+-------------------+----------
Total | 16 14 | 30
| |
Risk | .4375 .8571429 | .6333333
| |
| Point estimate | [95% Conf. Interval]
|-------------------+---------------------
Risk difference | -.4196429 | -.7240828 -.1152029
Risk ratio | .5104167 | .2814332 .9257086
Prev. frac. ex. | .4895833 | .0742914 .7185668
Prev. frac. pop | .2611111 |
+-----------------------------------------
chi2(1) = 5.66 Pr>chi2 = 0.0173
. csi 7 12 9 2, exact
| Exposed Unexposed | Total
-----------------+--------------------+----------
Cases | 7 12 | 19
Noncases | 9 2 | 11
-----------------+--------------------+----------
Total | 16 14 | 30
| |
Risk | .4375 .8571429 | .6333333
| |
| Point estimate | [95% Conf. Interval]
|--------------------+---------------------
Risk difference | -.4196429 | -.7240828 -.1152029
Risk ratio | .5104167 | .2814332 .9257086
Prev. frac. ex. | .4895833 | .0742914 .7185668
Prev. frac. pop | .2611111 |
77
Bab 5. Analisis Statistik Sederhana

+------------------------------------------
1-sided Fisher's exact P = 0.0212
2-sided Fisher's exact P = 0.0259

 Uji Khi-kuadrat untuk tabel r × c


(r baris dan c kolom):
Uji khi-kuadrat dilakukan pada tabel r×c untuk menguji hipotesis
H 0 : Tidak asosiasi antara variabel baris dengan variabel kolom. Asumsi-
asumsi yang berlaku sama seperti untuk tabel 2×2. Siktaks untuk uji khi-
kuadrat yaitu:
tabulate varname1 varname2 [if] [in] , chi2

Contoh 5.12:

Digunakan file data citytemp2.dta.


. use "D:\Data\Stata\citytemp2", clear
(City Temperature Data)

. list region agecat in 1/7


+-----------------+
| region agecat |
|-----------------|
1. | NE 19-29 |
2. | NE 19-29 |
3. | NE 19-29 |
4. | NE 19-29 |
5. | NE 19-29 |
|-----------------|
6. | NE 19-29 |
7. | NE 19-29 |
+-----------------+

78
Bab 5. Analisis Statistik Sederhana

. tabulate region agecat

Census | agecat
Region | 19-29 30-34 35+ | Total
-----------+---------------------------------+----------
NE | 46 83 37 | 166
N Cntrl | 162 92 30 | 284
South | 139 68 43 | 250
West | 160 73 23 | 256
-----------+---------------------------------+----------
Total | 507 316 133 | 956

. tabulate region agecat, chi2

Census | agecat
Region | 19-29 30-34 35+ | Total
-----------+---------------------------------+----------
NE | 46 83 37 | 166
N Cntrl | 162 92 30 | 284
South | 139 68 43 | 250
West | 160 73 23 | 256
-----------+---------------------------------+----------
Total | 507 316 133 | 956

Pearson chi2(6) = 61.2877 Pr = 0.000

Dengan p = 0.000, ditemukan asosiasi yang bermakna antara


kelompok usia responden (agecat) dengan regio sensus mereka (region).

79
Bab 6. Analisis Variansi

BAB 6
ANALISIS VARIANSI
Analisis variansi (analysis of variance; ANOVA) adalah analisis
statistik untuk mengkaji perbedaan rerata antar lebih daripada 2 kategori,
seperti pada uji t, yang mengkaji perbedaan rerata antara 2 kategori.

 Analisis Variansi 1-Arah


Pada analisis variansi 1-arah (one-way ANOVA), populasi penelitian
terbagi atas p kategori, yang lazimnya dinamakan juga taraf-taraf suatu
faktor. Analisis variansi mengkaji apakah ada paling sedikit 1 rerata kategori
(taraf faktor) yang berbeda dengan rerata kategori (taraf faktor) lainnya.
Sintaks-nya adalah:
oneway resp_var fact_var [if] [in] [, options]
resp_var : respons, variabel dependen (kontinu)
fact_var : faktor, variabel independen (kategorik)
Model pada analisis variansi adalah:
Yij = µ + τ i + ε ij (6.1)

Hipotesis pada analisis variansi yaitu:


H 0 : τ1 = τ 2 = . . . = τ p (6.1.a)

Asumsi-asumsi pada analisis variansi adalah:


1. Independensi: Galat saling independen
2. Normalitas: Galat berdistribusi normal
3. Homoskedastisitas: Homogenitas variansi (antar kelompok perlakuan)
4. Sampling acak: Data diperoleh dari sampling acak

80
Bab 6. Analisis Variansi

Contoh 6.1:
File data yang digunakan pada contoh ini adalah hsb2.dta, memuat
data tentang 200 siswa yang terbagi atas 3 tipe program (prog), yaitu
general, academic, dan vocation. Akan dikaji apakah ada perbedaan rerata
nilai write antar ketiga tipe program tersebut.
. use “D:\Data\Stata\hsb2”
(highschool and beyond (200 cases))

. tabulate prog, summarize(write)


type of | Summary of writing score
program | Mean Std. Dev. Freq.
------------+---------------------------------
general | 51.333333 9.3977754 45
academic | 56.257143 7.9433433 105
vocation | 46.76 9.3187544 50
------------+---------------------------------
Total | 52.775 9.478586 200

Grafik batang rerata write pada ketiga tipe prog diperlihatkan


sebagai berikut:
. graph bar (mean) write, over(prog)
60 40
mean of write
20
0

general academic vocation

81
Bab 6. Analisis Variansi

Analisis variansi 1-arah adalah:


. oneway write prog
Analysis of Variance
Source SS df MS F Prob > F
-----------------------------------------------------------
Between groups 3175.69786 2 1587.84893 21.27 0.0000
Within groups 14703.1771 197 74.635417
-----------------------------------------------------------
Total 17878.875 199 89.843593

Bartlett's test for equal variances: chi2(2) = 2.6184


Prob>chi2 = 0.270

Kesimpulan yang diperoleh:


- Variansi antar kelompok perlakuan (antar tipa prog) dapat dianggap
sama (uji Bartlett; p = 0.270)
- Rerata antar kelompok perlakuan (nilai write) tidak sama (uji F; p <
0.0000)
Untuk melihat kelompok perlakuan mana yang berbeda, dilakukan
perbandingan ganda (multiple comparisons) dengan cara Bonferroni atau
Scheffe.
. oneway write prog, bonferroni

Comparison of writing score by type of program


(Bonferroni)
Row Mean-|
Col Mean | general academic
---------+----------------------
academic | 4.92381
| 0.005
|
vocation | -4.57333 -9.49714
| 0.032 0.000

Disimpulkan bahwa perbandingan tiap pasangan kelompok (kontras:


vocation vs general; general vs academic; vocation vs academic) ketiganya
menghasilkan perbedaan yang bermakna secara statistik (p = 0.03; p = 0.05;
p = 0.000).

82
Bab 6. Analisis Variansi

Contoh 6.2:
. use “D:\Data\Stata\apple”, clear
(Apple trees)
. oneway weight treatment
Analysis of Variance
Source SS df MS F Prob > F
----------------------------------------------------------
Between groups 5295.54433 3 1765.18144 21.46 0.0013
Within groups 493.591667 6 82.2652778
----------------------------------------------------------
Total 5789.136 9 643.237333
Bartlett's test for equal variances: chi2(3) = 1.3900
Prob>chi2 = 0.708
. oneway weight treatment, tabulate
| Summary of Average weight in grams
Fertilizer | Mean Std. Dev. Freq.
------------+------------------------------------
1 | 111.9 6.7535176 3
2 | 52.733333 5.3928966 3
3 | 78.65 11.667262 2
4 | 77.5 14.424978 2
------------+------------------------------------
Total | 80.62 25.362124 10

83
Bab 6. Analisis Variansi

. graph hbar (mean) weight, over(treatment)

0 50 100
mean of weight

. oneway weight treatment, scheffe

Comparison of Average weight in grams by Fertilizer


(Scheffe)
Row Mean-|
Col Mean | 1 2 3
---------+---------------------------------
2 | -59.1667
| 0.001
|
3 | -33.25 25.9167
| 0.039 0.101
|
4 | -34.4 24.7667 -1.15
| 0.034 0.118 0.999

 Analisis Variansi 2-Arah Tanpa Interaksi


Pada analisis variansi 2-arah (two-way ANOVA) tanpa interaksi ini,
populasi penelitian terbagi berdasarkan 2 faktor, masing-masing yaitu faktor
A dengan p taraf dan faktor B dengan q taraf. Sintaks-nya adalah:
anova resp_var fact_A fact_B [if] [in] [, options]

84
Bab 6. Analisis Variansi

resp_var : respons, variabel dependen


fact_A : faktor A, variabel independen pertama
fact_B : faktor B, variabel independen kedua
Model penelitian ini adalah:
Yij = µ + α i + β j + ε ij (6.2)

Hipotesis penelitian adalah:


H 0 : α1 = α 2 = . . . = α p (6.2.a)

H 0 : β1 = β 2 = . . . = β q (6.2.b)

Asumsi-asumsi pada analisis variansi 2-arah ini sama dengan asumsi


pada analisis variansi 1-arah. Perintah anova juga dapat digunakan untuk
analisis variansi 1-arah, namun tak dapat dilanjutkan dengan perbandingan
ganda (Multiple Comparisons) seperti pada oneway.

Contoh 6.3:
. use "D:\Data\Stata\systolic", clear
(Systolic Blood Pressure Data)

. tabulate drug disease, summarize(systolic)

Means, Standard Deviations and Frequencies of Increment in


Systolic B.P.

| Patient's Disease
Drug Used | 1 2 3 | Total
-----------+---------------------------------+----------
1 | 29.333333 28.25 20.4 | 26.066667
| 13.017936 5.85235 13.371612 | 11.677002
| 6 4 5 | 15
-----------+---------------------------------+----------
2 | 28 33.5 18.166667 | 25.533333
| 10.977249 2.081666 12.528634 | 11.61813
| 5 4 6 | 15
-----------+---------------------------------+----------

85
Bab 6. Analisis Variansi

3 | 16.333333 4.4 8.5 | 8.75


| 14.189198 6.9137544 9 | 10.0193
| 3 5 4 | 12
-----------+---------------------------------+----------
4 | 13.6 12.833333 14.2 | 13.5
| 10.549882 10.342469 8.9274856 | 9.3238047
| 5 6 5 | 16
-----------+---------------------------------+----------
Total | 22.789474 18.210526 15.8 | 18.87931
| 13.159614 13.554741 11.302538 | 12.800874
| 19 19 20 | 58

. anova systolic drug disease

Number of obs = 58 R-squared = 0.3803


Root MSE = 10.5503 Adj R-squared = 0.3207

Source | Partial SS df MS F Prob > F


--------+-------------------------------------------
Model | 3552.07225 5 710.414449 6.38 0.0001
|
drug | 3063.43286 3 1021.14429 9.17 0.0001
disease | 418.833741 2 209.41687 1.88 0.1626
|
Residual| 5788.08293 52 111.309287
--------+-------------------------------------------
Total | 9340.15517 57 163.862371

. margins drug disease


Predictive margins Number of obs = 58
Expression : Linear prediction, predict()
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
--------+------------------------------------------------------
drug |
1 | 25.8624 2.734004 9.46 0.000 20.37621 31.34858
2 | 25.758 2.731305 9.43 0.000 20.27724 31.23877
3 | 8.866601 3.059402 2.90 0.005 2.727463 15.00574
4 | 13.39343 2.641496 5.07 0.000 8.092878 18.69398
|

86
Bab 6. Analisis Variansi

disease |
1 | 21.79871 2.43044 8.97 0.000 16.92168 26.67575
2 | 19.65957 2.436121 8.07 0.000 14.77113 24.548
3 | 15.36463 2.363042 6.50 0.000 10.62284 20.10642
---------------------------------------------------------------
. quietly: margins drug
. marginsplot
Variables that uniquely identify margins: drug

Predictive Margins of drug with 95% CIs


30
Linear Prediction
10 0 20

1 2 3 4
Drug Used

 Analisis Variansi 2-Arah Dengan Interaksi


Pada analisis variansi 2-arah dengan interaksi, selain oleh faktor A
dan faktor B, respons juga dipengaruhi oleh interaksi antara faktor A dan
faktor B. Sintaks-nya adalah:
anova resp_var fact_A fact_B fact_A#fact_B [if] [in] [, options]
Modelnya adalah:
Yijk = µ + α i + β j + (αβ )ij + ε ijk (6.3)

87
Bab 6. Analisis Variansi

Hipotesis penelitian adalah:


H 0 : α1 = α 2 = . . . = α p (6.3.a)
H 0 : β1 = β 2 = . . . = β q (6.3.b)
H 0 : (αβ )ij = 0 untuk i = 1, 2, . . . , p dan j = 1, 2, . . . , q
(6.3.c)

Contoh 6.4:
. use "D:\Data\Stata\systolic", clear
(Systolic Blood Pressure Data)
. anova systolic drug disease drug#disease
Number of obs = 58 R-squared = 0.4560
Root MSE = 10.5096 Adj R-squared = 0.3259
Source | Partial SS df MS F Prob > F
-------------+--------------------------------------------
Model | 4259.33851 11 387.212591 3.51 0.0013
|
drug | 2997.47186 3 999.157287 9.05 0.0001
disease | 415.873046 2 207.936523 1.88 0.1637
drug#disease | 707.266259 6 117.87771 1.07 0.3958
|
Residual | 5080.81667 46 110.452536
-------------+--------------------------------------------
Total | 9340.15517 57 163.862371

Dengan p = 0.3958, berarti tidak ada interaksi antara antara efek drug
dan disease terhadap systolic.
. margins drug disease drug#disease
Predictive margins Number of obs = 58
Expression : Linear prediction, predict()
---------------------------------------------------------------------
| Delta-method
| Margin Std. Err. t P>|t| [95% Conf. Interval]
-------------+-------------------------------------------------------
drug |
1 | 25.89799 2.750533 9.42 0.000 20.36145 31.43452
2 | 26.41092 2.742762 9.63 0.000 20.89003 31.93181
3 | 9.722989 3.099185 3.14 0.003 3.484652 15.96132
4 | 13.55575 2.640602 5.13 0.000 8.24049 18.871
88
Bab 6. Analisis Variansi

|
disease |
1 | 21.95862 2.442515 8.99 0.000 17.04209 26.87515
2 | 20.4204 2.457703 8.31 0.000 15.4733 25.3675
3 | 15.65 2.360482 6.63 0.000 10.8986 20.4014
|
drug#disease |
1 1 | 29.33333 4.290543 6.84 0.000 20.69692 37.96975
12 | 28.25 5.25482 5.38 0.000 17.6726 38.8274
13 | 20.4 4.700054 4.34 0.000 10.93928 29.86072
21 | 28 4.700054 5.96 0.000 18.53928 37.46072
22 | 33.5 5.25482 6.38 0.000 22.9226 44.0774
2 3 | 18.16667 4.290543 4.23 0.000 9.530252 26.80308
3 1 | 16.33333 6.067744 2.69 0.010 4.119599 28.54707
32 | 4.4 4.700054 0.94 0.354 -5.060718 13.86072
33 | 8.5 5.25482 1.62 0.113 -2.077404 19.0774
41 | 13.6 4.700054 2.89 0.006 4.139282 23.06072
4 2 | 12.83333 4.290543 2.99 0.004 4.196919 21.46975
43 | 14.2 4.700054 3.02 0.004 4.739282 23.66072
----------------------------------------------------------------------
. quietly: margins drug#disease
. marginsplot
Variables that uniquely identify margins: drug disease

Adjusted Predictions of drug#disease with 95% CIs


40 30
Linear Prediction
10 20
0
-10

1 2 3 4
Drug Used

disease=1 disease=2
disease=3

89
Bab 7. Analisis Regresi Linear

BAB 7
ANALISIS REGRESI LINEAR

 Regresi Linear Sederhana (Simple Linear


Regression)
Analisis regresi sederhana adalah pemodelan dan analisis statistik
tentang hubungan antara 1 prediktor dengan 1 respons kontinu. Model
hubungan adalah:
Yi = β 0 + β 1 X i + ε i (7.1)
Sintaks-nya untuk pengestimasian model dan garis regresi adalah:
regress depvar indepvar [if] [in] [, options]
Grafik yang dapat dibuat yaitu diagram tebar dan estimasi garis
regresi dengan sintaks:
graph twoway scatter depvar indepvar
twoway lfit depvar indepvar
graph twoway scatter depvar indepvar || lfit depvar indepvar
Pengujian terhadap asumsi analisis regresi linear antara lain yaitu
asumsi normalitas dan homoskedastisitas ditujukan terhadap suku galat,
karena itu harus diawali dengan pembentukan suku galat:
regress depvar indepvar
predict resid, residuals
resid : suku galat
Dilanjutkan dengan:
 Uji normalitas Shapiro-Wilk atau uji Shapiro-Francia:
swilk resid (uji Shapiro-Wilk)
francia resid (uji Shapiro-Francia)
 Uji Breusch-Pagan dan uji White untuk asumsi homoskedatisitas:
estat hettest (uji Breusch-Pagan)
estat imtest, white (uji White)

90
Bab 7. Analisis Regresi Linear

Contoh 7.1:
. use “D:\Data\Stata\elemapi”
. describe enroll api00
storage display value
variable name type format label variable label
------------------------------------------------------
enroll int %9.0g number of students
api00 int %6.0g api 2000
enroll : Jumlah siswa
api00 : Kinerja akademik sekolah pada tahun 2000

. graph twoway scatter api00 enroll || lfit api00 enroll


1000
800
600
400

0 500 1000 1500


number of students

api 2000 Fitted values

. regress api00 enroll


Source | SS df MS Number of obs = 400
---------+---------------------------- F( 1, 398) = 44.83
Model | 817326.293 1 817326.293 Prob > F = 0.0000
Residual | 7256345.70 398 18232.0244 R-squared = 0.1012
---------+---------------------------- Adj R-squared = 0.0990
Total | 8073672.00 399 20234.7669 Root MSE = 135.03

91
Bab 7. Analisis Regresi Linear

----------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+--------------------------------------------------------
enroll | -.1998674 .0298512 -6.70 0.000 -.2585532 -.1411817
_cons | 744.2514 15.93308 46.71 0.000 712.9279 775.5749
----------------------------------------------------------------
Hasil dan kesimpulannya yaitu:
- Uji F untuk menguji asumsi bahwa model benar bermakna secara
statistik (p = 0.0000)
- Koefisien determinasi R 2 = 0.1012, menyatakan bahwa prediktor enroll
“menjelaskan” 10.12% variansi respons api00.
- Uji t untuk prediktor enroll bermakna secara statistik (p = 0.000)
- Koefisien regresi adalah enroll −0.1998674 ≈ −0.2
- Konstante adalah 744.2514, yaitu nilai prediksi api00 jika enroll = 0. Ini
adalah kesimpulan statistik yang tidak realistik, karena jika tidak ada
siswa (enroll = 0), tidak akan ada kinerja akademik sekolah (api00).
Perintah berikut adalah untuk menyajikan grafik yang dapat menilai
kebenaran asumsi linearitas secara kasar.
. graph twoway scatter api00 enroll || lfit api00 enroll
1000
800
600
400

0 500 1000 1500


number of students

api 2000 Fitted values

92
Bab 7. Analisis Regresi Linear

Uji asumsi linearitas yang lebih eksak ialah uji lack-of-fit, yang
menguji hipotesis H 0 : Tidak ada “lack of linear fit”
. regress api00 enroll
. maxr2
maximum R-square = 0.7917
relative R-square = 0.1279
actual adjusted R-square = 0.0990
relative adjusted R-square = 0.1257

SSLF (df) = 5574305.5 (306) MSLF = 18216.684


SSPE (df) = 1682040.3 (92) MSPE = 18283.046

F (dfn, dfd) for lack-of-fit test (MSLF/MSPE) = 0.9964 (306,92)


prob > F = 0.5206

number of covariate patterns = 308


as ratio of observations = 0.770

Kesimpulannya yaitu hipotesis nol tidak ditolak (p = 0.5206),


sehingga asumsi linearitas dianggap terpenuhi.
Selanjutnya pengujian asumsi normalitas dilakukan dengan uji
Shapiro-Wilk dan uji Shapiro-Francia terhadap hipotesis H 0 : Suku galat
berdistribusi normal.
. regress api00 enroll
. predict e, residuals
. swilk e
Shapiro-Wilk W test for normal data
Variable | Obs W V z Prob>z
---------+------------------------------------------------
e | 400 0.97083 8.030 4.957 0.00000
. sfrancia e
Shapiro-Francia W' test for normal data
Variable | Obs W' V' z Prob>z
---------+------------------------------------------------
e | 400 0.97214 8.263 4.567 0.00001

93
Bab 7. Analisis Regresi Linear

Baik dengan uji Shapiro-Wilk maupun uji Shapiro-Francia, hipotesis


nol ditolak (p = 0.0000)
Pengujian asumsi homoskedastisitas adalah dengan uji Breusch-
Pagan dan uji White, menguji hipotesis H 0 : Homoskedastisitas. Uji
Breusch-Pagan adalah untuk menguji heteroskedastisitas linear, sedangkan
uji White menguji heteroskedastisitas “glasshour”.
. regress api00 enroll
. estat hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of api00

chi2(1) = 1.91
Prob > chi2 = 0.1665
Tidak ditemukan heteroskedastisitas (p = 0.1665)
. estat imtest, white
White's test for Ho: homoskedasticity
against Ha: unrestricted heteroskedasticity
chi2(2) = 3.78
Prob > chi2 = 0.1514

Cameron & Trivedi's decomposition of IM-test

---------------------------------------------------
Source | chi2 df p
---------------------+-----------------------------
Heteroskedasticity | 3.78 2 0.1514
Skewness | 34.11 1 0.0000
Kurtosis | 26.44 1 0.0000
---------------------+-----------------------------
Total | 64.32 4 0.0000
---------------------------------------------------
Tidak ditemukan heteroskedastisitas (glasshour) dengan p = 0.1514.

94
Bab 7. Analisis Regresi Linear

 Regresi Linear Sederhana dengan Prediktor


Indikator
Analisis regresi linear sederhana dapat dilakukan jika prediktornya
adalah variabel indikator dengan model:
Yi = β 0 + β 1 X i + ε i ; X = {0, 1} (7.2)
Sintaks-nya untuk pengestimasian model dan garis regresi tetap sama,
yaitu:
regress depvar indepvar [if] [in] [, options]
indepvar : prediktor biner (variabel indikator)

Contoh 7.2:
. use “D:\Data\Stata\elemapi.dta”, clear
. tabulate yr_rnd

year round |
school | Freq. Percent Cum.
-----------+-----------------------------------
No | 308 77.00 77.00
Yes | 92 23.00 100.00
-----------+-----------------------------------
Total | 400 100.00

. tabulate yr_rnd, nolabel


year round |
school | Freq. Percent Cum.
-----------+-----------------------------------
0 | 308 77.00 77.00
1 | 92 23.00 100.00
-----------+-----------------------------------
Total | 400 100.00

95
Bab 7. Analisis Regresi Linear

. regress api00 yr_rnd


Source | SS df MS Number of obs = 400
--------+------------------------- F( 1, 398) = 116.24
Model |1825000.56 1 1825000.56 Prob > F = 0.0000
Residual|6248671.43 398 15700.1795 R-squared = 0.2260
--------+------------------------- Adj R-squared = 0.2241
Total |8073672 399 20234.7669 Root MSE = 125.3
------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------+----------------------------------------------------
yr_rnd | -160.5064 14.8872 -10.78 0.000 -189.7737 -131.239
_cons | 684.539 7.13965 95.88 0.000 670.5028 698.5751
------------------------------------------------------------

 Regresi Linear Ganda (Multiple Linear


Regression)
Pada analisis regresi linear ganda, didapatkan prediktor lebih
daripada satu dengan model:

Yi = β 0 + β 1 X1i + β 2 X 2i + . . . + β p X pi + ε i (7.3)

Sintaks-nya adalah:
regress depvar indepvars [if] [in] [, options]

Asumsi yang berlaku di sini adalah sama seperti pada regresi linear
sederhana, dengan tambahan asumsi tidak ada multikolinearitas. Perintah
untuk uji multikolinearitas adalah vif yang menampilkan hasil perhitungan
variance inflation factor.

Contoh 7.3:
. use “ D:\Data\Stata\elemapi”
Variabel-variabel dalam dataset adalah:
api00 : Kinerja akademik sekolah tahun 2000
acs_k3 : Rerata ukuran kelas dari TK s.d. kelas 3
meals : Persentase siswa yang mendapat makan gratis (indikator
kemiskinan)
96
Bab 7. Analisis Regresi Linear

full : Persentase guru yang memiliki akreditasi penuh untuk


mengajar

. list api00 acs_k3 meals full in 1/7

+---------------------------------+
| api00 acs_k3 meals full |
|---------------------------------|
1. | 693 16 67 76.00 |
2. | 570 15 92 79.00 |
3. | 546 17 97 68.00 |
4. | 571 20 90 87.00 |
5. | 478 18 89 87.00 |
|---------------------------------|
6. | 858 20 . 100.00 |
7. | 918 19 . 100.00 |
+---------------------------------+
Perintah berikut menampilkan matriks grafik diagram tebar untuk
tiap pasangan variabel kontinu:
. graph matrix api00 acs_k3 meals full, half

api
2000

20
avg
class
0 size
k-3
-20
100

pct
50 free
meals
0
100.00

50.00 pct full


credential

0.00
400 600 800 1000
-20 0 20 0 50 100

97
Bab 7. Analisis Regresi Linear

Perintah ini adalah untuk menyajikan matriks korelasi:


. correlate api00 acs_k3 meals full
(obs=313)
| api00 acs_k3 meals full
-------------+------------------------------------
api00 | 1.0000
acs_k3 | -0.0641 1.0000
meals | -0.8184 0.0097 1.0000
full | 0.2328 0.1789 -0.2518 1.0000
Estimasi model dan persamaan garis regresi adalah:
. regress api00 acs_k3 meals full
Source | SS df MS Number of obs = 313
---------+------------------------------ F( 3, 309) = 213.41
Model | 2634884.26 3 878294.754 Prob > F = 0.0000
Residual | 1271713.21 309 4115.57673 R-squared = 0.6745
---------+------------------------------ Adj R-squared = 0.6713
Total | 3906597.47 312 12521.1457 Root MSE = 64.153

--------------------------------------------------------------------------
api00 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+----------------------------------------------------------------
acs_k3 | -2.681508 1.393991 -1.92 0.055 -5.424424 .0614073
meals | -3.702419 .1540256 -24.04 0.000 -4.005491 -3.399348
full | .1086104 .090719 1.20 0.232 -.0698947 .2871154
_cons | 906.7392 28.26505 32.08 0.000 851.1228 962.3555
--------------------------------------------------------------------------
Kesimpulan yang diperoleh yaitu:
- Rerata ukuran kelas (acs_k3, b = −2.68) tampak tak bermakna (p =
0.055). Koefisien negatif mengindikasikan bahwa ukuran kelas yang
lebih besar terkait dengan kinerja akademik yang lebih rendah.
- Efek meals (b = −3.70, p = 0.000) bermakna. Koefisien negatif
menunjukkan bahwa semakin besar proporsi siswa penerima makanan
gratis, semakin rendah kinerja akademik.
Ini tak berarti bahwa makanan gratis menyebabkan kinerja akademik
yang rendah. Variabel meals terkait erat dengan tingkat penghasilan dan

98
Bab 7. Analisis Regresi Linear

berfungsi sebagai proxy untuk kemiskinan. Tingkat kemiskinan yang


lebih tinggi diasosiasikan dengan kinerja akademik yang lebih rendah.
- Persentase guru dengan akreditasi penuh (full, b = 0.11, p = 0.232) tak
terkait dengan kinerja akademik, mengindikasikan bahwa persentase guru
dengan akreditasi penuh bukan merupakan faktor penting untuk
memprediksi kinerja.

Uji multikolinearitas dilakukan sebagai berikut:


. vif
Variable | VIF 1/VIF
-------------+----------------------
full | 1.11 0.903713
meals | 1.07 0.933517
acs_k3 | 1.04 0.964781
-------------+----------------------
Mean VIF | 1.07

Kesimpulan yaitu tidak ada multikolinearitas. Multikolinearitas


dianggap ada jika ada variabel dengan nilai vif lebih besar dari pada 10.00
atau nilai Tolerance (= 1/ vif) lebih kecil daripada 0.10.

 Regresi Linear Ganda dengan Prediktor


Kategorik
Misalkan prediktor X akan diregresikan terhadap respons Y, X adalah
variabel kategorik dengan 3 kategori: X = {1, 2, 3}
Digunakan 2 variabel indikator Z1 dan Z 2 ; masing-masing adalah
variabel biner; Z1 = {0, 1} dan Z 2 = {0, 1}, sehingga model yang digunakan
menjadi:
Yi = β 0 + β 1 Z1i + β 2 Z 2i + ε i (7.4)
Konversi variabel kategorik menjadi variabel indikator pada Stata
dilakukan dengan operator i, yaitu 1 variabel kategorik X dengan p taraf
direpresentasikan oleh (p – 1) indikator Z.

99
Bab 7. Analisis Regresi Linear

Z1 Z2
X=1 0 0
X=2 1 0
X=3 0 1
Misalnya, variabel ses dengan 3 taraf direpresentasikan oleh 2
variabel indikator yang dibentuk oleh i.ses (X = 1 menjadi baseline).

Contoh 7.4:
. use “D:\Data\Stata\hsb2”, clear
(highschool and beyond (200 cases))

. tabulate ses

ses | Freq. Percent Cum.


------------+-----------------------------------
low | 47 23.50 23.50
middle | 95 47.50 71.00
high | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00
. tabulate ses, nolabel

ses | Freq. Percent Cum.


------------+-----------------------------------
1 | 47 23.50 23.50
2 | 95 47.50 71.00
3 | 58 29.00 100.00
------------+-----------------------------------
Total | 200 100.00

. regress science i.ses

Source | SS df MS Number of obs = 200


---------+-------------------------- F( 2, 197) = 8.57
Model | 1561.57802 2 780.789008 Prob > F = 0.0003
Residual | 17945.922 197 91.0960507 R-squared = 0.0801
---------+-------------------------- Adj R-squared = 0.0707
Total | 19507.5 199 98.0276382 Root MSE = 9.5444

100
Bab 7. Analisis Regresi Linear

--------------------------------------------------------------
science | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+-----------------------------------------------------
ses |
middle| 4.003135 1.702093 2.35 0.020 .6464741 7.359797
high | 7.746148 1.873189 4.14 0.000 4.052072 11.44022
|
_cons | 47.70213 1.392197 34.26 0.000 44.9566 50.44765
--------------------------------------------------------------

Taraf low pada variabel kategorik ses menjadi baseline untuk


kontras (middle vs low ; high vs low).

 Regresi Linear Ganda dengan Interaksi


Pada model regresi linear ini didapatkan interaksi 2 prediktor, yaitu
interaksi antara X1 dan X 2 . Modelnya adalah:
Yi = β 0 + β 1 X1i + β 2 X 2i + β 3 X1i X 2i + ε i (7.5)
Sintaks yang digunakan yaitu:
regress depvar indepvars indepvar1#indepvar2 [if] [in] [, options]
indepvar1#indepvar2 : Suku interaksi
Pada pemodelan regresi linear dengan interaksi pada Stata ini
digunakan operator i. dan c.:
- Prediktor/variabel independen yang tidak dalam suku interaksi dalam
model regresi linear harus merupakan variabel kontinu atau indikator.
Operator i. mengubah variabel kategorik dengan kategori/taraf lebih
daripada 2, yang tidak dalam suku interaksi menjadi variabel indikator
agar dapat dimasukkan ke dalam model regresi linear.
- Prediktor/variabel independen dalam suku interaksi dalam model regresi
linear harus merupakan variabel kategorik atau indikator.
Operator c. mengubah variabel kontinu yang dalam suku interaksi
menjadi variabel kategorik.
Ikhtisar penggunaan operator i. dan c. pada prediktor dalam model
regresi linear diperlihatkan sebagai berikut:

101
Bab 7. Analisis Regresi Linear

Variabel tunggal: Suku Interaksi:


X X1 # X 2

Biner {0, 1} varname varname


Kategorik
i.varname varname
(taraf > 2)
Kontinu varname c.varname

Contoh 7.5:
. use “D:\Data\Stata\honolulu”
. regress tek_darah usia kolesterol

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 2, 97) = 4.02
Model | 3404.78195 2 1702.39098 Prob > F = 0.0211
Residual | 41118.218 97 423.899155 R-squared = 0.0765
---------+--------------------------- Adj R-squared = 0.0574
Total | 44523 99 449.727273 Root MSE = 20.589

-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8469443 .408067 2.08 0.041 .0370443 1.656844
kolesterol| .0906782 .0535687 1.69 0.094 -.0156407 .1969972
_cons | 64.97095 23.74061 2.74 0.007 17.85242 112.0895
-----------------------------------------------------------------

. regress tek_darah usia kolesterol c.usia#c.kolesterol


usia dan kolesterol keduanya adalah variabel kontinu, jika
dimasukkan ke dalam suku interaksi masing-masing memerlukan operator c.
Source | SS df MS Number of obs = 100
---------+---------------------------- F( 3, 96) = 3.27
Model | 4127.36425 3 1375.78808 Prob > F = 0.0246
Residual | 40395.6358 96 420.787872 R-squared = 0.0927
---------+---------------------------- Adj R-squared = 0.0643
Total | 44523 99 449.727273 Root MSE = 20.513

102
Bab 7. Analisis Regresi Linear

------------------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------------------+---------------------------------------------------------
usia | 4.383427 2.729183 1.61 0.112 -1.033959 9.800813
kolesterol | .9399724 .6503 1.45 0.152 -.3508628 2.230808
|
c.usia#c.kolesterol | -.0158138 .0120677 -1.31 0.193 -.0397681 .0081404
|
_cons | -124.6174 146.5978 -0.85 0.397 -415.6118 166.377
------------------------------------------------------------------------------

. regress tek_darah usia rokok


Source | SS df MS Number of obs = 100
---------+------------------------- F( 2, 97) = 2.87
Model | 2485.12693 2 1242.56346 Prob > F = 0.0617
Residual | 42037.8731 97 433.380135 R-squared = 0.0558
---------+------------------------- Adj R-squared = 0.0363
Total | 44523 99 449.727273 Root MSE = 20.818

-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .9466804 .4112442 2.30 0.023 .1304745 1.762886
rokok | 3.566772 4.323255 0.83 0.411 -5.013693 12.14724
_cons | 77.97196 22.34209 3.49 0.001 33.6291 122.3148
-----------------------------------------------------------------

. regress tek_darah usia rokok c.usia#rokok


usia adalah variabel kontinu, jika dimasukkan ke dalam suku
interaksi memerlukan operator c. rokok adalah variabel indikator, sehingga
selalu tidak memerlukan operator.
Source | SS df MS Number of obs = 100
---------+--------------------------- F( 3, 96) = 1.93
Model | 2531.81794 3 843.939314 Prob > F = 0.1300
Residual | 41991.1821 96 437.408146 R-squared = 0.0569
---------+--------------------------- Adj R-squared = 0.0274
Total | 44523 99 449.727273 Root MSE = 20.914

103
Bab 7. Analisis Regresi Linear

-----------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+---------------------------------------------------------
usia | 1.040749 .5035781 2.07 0.041 .041154 2.040343
rokok | 18.94451 47.26727 0.40 0.689 -74.88028 112.7693
|
rokok#c.usia |
1 | -.2877643 .8807723 -0.33 0.745 -2.036083 1.460555
|
_cons | 72.89675 27.29671 2.67 0.009 18.7132 127.0803
-----------------------------------------------------------------------

. regress tek_darah usia i.pend


pend adalah variabel kategorik, jika digunakan sebagai prediktor
tunggal (tidak dalam suku interaksi), memerlukan operator i.
Source | SS df MS Number of obs = 100
---------+--------------------------- F( 5, 94) = 1.68
Model | 3658.43513 5 731.687027 Prob > F = 0.1462
Residual | 40864.5649 94 434.729413 R-squared = 0.0822
---------+--------------------------- Adj R-squared = 0.0333
Total | 44523 99 449.727273 Root MSE = 20.85

-----------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
----------+------------------------------------------------------
usia | .8387384 .420814 1.99 0.049 .0032023 1.674275
|
pend |
2 | -1.292157 5.573684 -0.23 0.817 -12.35884 9.774523
3 | -.0548732 6.053667 -0.01 0.993 -12.07457 11.96482
4 | -12.39448 8.182403 -1.51 0.133 -28.64083 3.851877
5 | -7.623154 7.872033 -0.97 0.335 -23.25326 8.006951
|
_cons | 87.38939 23.51743 3.72 0.000 40.69497 134.0838
-----------------------------------------------------------------

. regress tek_darah usia i.pend c.usia#pend


Dalam suku interaksi, pend sebagai variabel kategorik tidak
memerlukan lagi operator i., sedangkan usia sebagai variabel kontinu dalam
suku interaksi memerlukan operator c.

104
Bab 7. Analisis Regresi Linear

Source | SS df MS Number of obs = 100


---------+--------------------------- F( 9, 90) = 1.25
Model | 4941.84363 9 549.093736 Prob > F = 0.2762
Residual | 39581.1564 90 439.790626 R-squared = 0.1110
---------+--------------------------- Adj R-squared = 0.0221
Total | 44523 99 449.727273 Root MSE = 20.971

---------------------------------------------------------------------
tek_darah | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+-------------------------------------------------------
usia | 1.328125 .7005981 1.90 0.061 -.0637355 2.719985
|
pend |
2 | 49.26815 52.90101 0.93 0.354 -55.82895 154.3652
3 | -11.77593 69.6128 -0.17 0.866 -150.0739 126.5221
4 | 17.71206 126.0571 0.14 0.889 -232.7224 268.1465
5 | 155.7896 116.6524 1.34 0.185 -75.96074 387.5399
|
pend#c.usia |
2 | -.9249705 .9623264 -0.96 0.339 -2.8368 .9868588
3 | .2471469 1.303531 0.19 0.850 -2.342544 2.836838
4 | -.5503472 2.392998 -0.23 0.819 -5.304456 4.203761
5 | -3.089319 2.206097 -1.40 0.165 -7.472116 1.293478
|
_cons | 60.47312 38.76049 1.56 0.122 -16.53136 137.4776
---------------------------------------------------------------------

105
Bab 8. Analisis Regresi Logistik

BAB 8
ANALISIS REGRESI LOGISTIK

 Model Regresi Logistik Sederhana


Model regresi logistik adalah model hubungan antara prediktor
dengan respons biner, sedemikian hingga logit probabilitas respons
merupakan fungsi linear prediktornya:
Yˆ = P [ Y = 1 X ] (8.1)


dan: logit Yˆ = ln = β 0 + β1 X (8.2)
1 − Yˆ
dengan Y biner; Yi = 0, 1.
Estimasinya yang diperoleh dari data sampel adalah:

logit Yˆ = ln = b0 + b1 X (8.2.a)
1 − Yˆ
Perhatikan bahwa:
- Untuk model regresi logistik sederhana, ruas kanan persamaan (2)
hanya memiliki satu prediktor X.
- Pada ruas kanan persamaan (2) tidak didapatkan suku galat seperti
halnya pada model regresi linear dengan respons kontinu.
Prediktor X dapat berupa variabel kontinu ataupun kategorik. Jika
prediktor X kategorik, dalam persamaan (2) dinyatakan dengan satu atau
lebih variabel indikator seperti halnya pada model regresi linear.
Karena nilai Yˆ merupakan sebuah nilai probabilitas, nilai Yˆ dibagi
dengan komplemennya (= 1 − Yˆ ) adalah nilai odds Yˆ :

Odds Yˆ = (8.3)
1 − Yˆ
dan logit Yˆ dinamakan juga ln odds Yˆ :
logit Yˆ = log odds Yˆ

106
Bab 8. Analisis Regresi Logistik

1
dan Yˆ = P [ Y = 1 X ] = (8.4)
1 + exp− ( β0 + β1 X )
Estimasinya dari data sampel adalah:
1
Yˆ = P [ Y = 1 X ] = (8.4.a)
1 + exp− ( b0 +b1 X )

Dari persamaan ln = β 0 + β1 X , diperoleh:
1 − Yˆ

Odds Yˆ = = exp− ( β0 + β1 X )
1 − Yˆ
Jika X juga biner, maka:
untuk X = 1 → Odds Ŷ1 = exp− ( β 0 + β1 )

dan untuk X = 0 → Odds Ŷ0 = exp− ( β 0 )


Rasio antara keduanya adalah rasio odds respons Y dengan prediktor
X, yaitu:
OR = exp− β1 (8.5)
dan estimasinya adalah:
ÔR = exp− b1 (8.5.a)

Dalam praktik, ringkasan data sampel yang dikumpulkan dapat


disajikan dalam bentuk tabel 2×2 sebagai berikut:

Y=1 Y=0
X=1 a b
X=0 c d

Di sini estimasi untuk rasio odds dapat dinyatakan sebagai:


ab ad
ÔR = = (8.6)
c d bc
Perhatikan tampilan baku tabel 2×2 untuk perhitungan rasio odds
adalah sebagai berikut:
- Prediktor X pada baris dan respons Y pada kolom.
- Prediktor ada (X = 1) pada baris atas dan prediktor tidak ada (X = 0)
pada baris bawah.

107
Bab 8. Analisis Regresi Logistik

- Respons ada (Y = 1) pada kolom kiri dan respons tidak ada (Y = 0) pada
kolom kanan.
Jika X kontinu, maka X = 0 pada tabel di atas diganti dengan X = x
dan X = 1 diganti dengan X = x + 1 (diasumsikan rasio odds konstan untuk
tiap pertambahan nilai X sebesar 1 satuan):

Y=1 Y=0
X=x+1 a b
X=x c d

dengan estimasi rasio odds tetap adalah:


ab ad
ÔR = =
c d bc
Perintah Stata untuk melakukan analisis regresi logistik sederhana
adalah:
logit depvar indepvar [if] [in], [, options]
Jika yang diinginkan adalah estimasi nilai rasio odds, perintahnya
adalah:
logistic depvar indepvar [if] [in], [, options]

Contoh 8.1:
. use "D:\Data\Stata\tension-type headache.dta", clear
. logit nktt hos

Iteration 0: log likelihood = -151.09691


Iteration 1: log likelihood = -138.66458
Iteration 2: log likelihood = -138.65922
Iteration 3: log likelihood = -138.65922

Logistic regression Number of obs = 218


LR chi2(1) = 24.88
Prob > chi2 = 0.0000
Log likelihood = -138.65922 Pseudo R2 = 0.0823

108
Bab 8. Analisis Regresi Logistik

-----------------------------------------------------------
nktt | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------
hos | .1537723 .0330478 4.65 0.000 .0889998 .2185448
_cons | -1.918308 .4331991 -4.43 0.000 -2.767363 -1.069253
-----------------------------------------------------------

. logistic nktt hos


Logistic regression Number of obs = 218
LR chi2(1) = 24.88
Prob > chi2 = 0.0000
Log likelihood = -138.65922 Pseudo R2 = 0.0823
----------------------------------------------------------
nktt |Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+---------------------------------------------------
hos | 1.166225 .0385412 4.65 0.000 1.09308 1.244265
_cons | .1468553 .0636176 -4.43 0.000 .0628275 .3432648
----------------------------------------------------------

 Model Regresi Logistik Ganda


Misalkan untuk model regresi logistik di atas dimiliki p prediktor,
maka model logitnya menjadi:

logit Yˆ = ln = β 0 + β1 X1 + β 2 X 2 + . . . + β p X p (8.7)
1 − Yˆ
dan probabilitas bersyarat responsnya adalah:
1
Yˆ = P [ Y = 1 X ] = (8.8)
(
1 + exp− β 0 + β1 X 1 + β 2 X 2 + . . . + β p X p )
Estimasinya dari data sampel masing-masing adalah:

logit Yˆ = ln = b0 + b1 X1 + b2 X 2 + . . . + b p X p (8.7.a)
1 − Yˆ
dan
1
Yˆ = P [ Y = 1 X ] = (8.8.a)
(
1 + exp − b0 +b1 X1 +b2 X 2 + . . . + bp X p )

109
Bab 8. Analisis Regresi Logistik

Di sini didapatkan p nilai rasio odds, masing-masing menyatakan


rasio odds hubungan respons Y dengan prediktor X i ; i = 1, 2, . . . , p.
ORi = exp− βi (8.9)
dan estimasinya adalah:
ˆ = exp− b
OR (8.9.a)
i i

Contoh 8.2:
Dalam contoh ini digunakan file data binary.dta, yang memuat data
penerimaan mahasiswa program pascasarjana (admit) sebagai respons.
Prediktornya adalah nilai-nilai mahasiswa di program sarjana, yaitu gre
(skor Graduate Record Exam), gpa (Grade Point Average), dan rank
(prestise perguruan tinggi asal).
. use "D:\Data\Stata\binary.dta", clear
. summarize gre gpa
gre dan gpa adalah variabel kontinu.

Variable | Obs Mean Std. Dev. Min Max


---------+--------------------------------------
gre | 400 587.7 115.5165 220 800
gpa | 400 3.3899 .3805668 2.26 4
. tab rank
rank adalah variabel kategorik.

rank | Freq. Percent Cum.


-------+------------------------------
1 | 61 15.25 15.25
2 | 151 37.75 53.00
3 | 121 30.25 83.25
4 | 67 16.75 100.00
-------+------------------------------
Total | 400 100.00

110
Bab 8. Analisis Regresi Logistik

. tab admit
admit sebagai respons, merupakan variabel biner.
admit | Freq. Percent Cum.
-------+------------------------------
0 | 273 68.25 68.25
1 | 127 31.75 100.00
-------+------------------------------
Total | 400 100.00

Berikut ditampilkan tabulasi silang admit dan rank.


. tab2 admit rank
| rank
admit | 1 2 3 4 | Total
------+--------------------------------+----------
0 | 28 97 93 55 | 273
1 | 33 54 28 12 | 127
------+--------------------------------+----------
Total | 61 151 121 67 | 400

Model regresi logistik ganda diperoleh sebagai berikut.


. logit admit gre gpa i.rank
Iteration 0: log likelihood = -249.98826
Iteration 1: log likelihood = -229.66446
Iteration 2: log likelihood = -229.25955
Iteration 3: log likelihood = -229.25875
Iteration 4: log likelihood = -229.25875
Logistic regression Number of obs = 400
LR chi2(5) = 41.46
Prob > chi2 = 0.0000
Log likelihood = -229.25875 Pseudo R2 = 0.0829
-----------------------------------------------------------------
admit | Coef. Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------
gre | .0022644 .001094 2.07 0.038 .0001202 .0044086
gpa | .8040377 .3318193 2.42 0.015 .1536838 1.454392
|

111
Bab 8. Analisis Regresi Logistik

rank |
2 | -.6754429 .3164897 -2.13 0.033 -1.295751 -.0551346
3 | -1.340204 .3453064 -3.88 0.000 -2.016992 -.6634158
4 | -1.551464 .4178316 -3.71 0.000 -2.370399 -.7325287
|
_cons | -3.989979 1.139951 -3.50 0.000 -6.224242 -1.755717
-----------------------------------------------------------------
Perintah test menguji efek menyeluruh (overall effect) prediktor
rank.
. test 2.rank 3.rank 4.rank

( 1) [admit]2.rank = 0
( 2) [admit]3.rank = 0
( 3) [admit]4.rank = 0
chi2( 3) = 20.90
Prob > chi2 = 0.0001
Tampak bahwa efek menyeluruh rank bermakna secara statistik.
Dalam perintah berikut akan diuji kesamaan koefisien rank=2 dengan
koefisien rank=3.

. test 2.rank = 3.rank

( 1) [admit]2.rank - [admit]3.rank = 0
chi2( 1) = 5.51
Prob > chi2 = 0.0190
. logit , or
Perintah ini adalah untuk mendapatkan estimasi nilai-nilai rasio odds.
Logistic regression Number of obs = 400
LR chi2(5) = 41.46
Prob > chi2 = 0.0000
Log likelihood = -229.25875 Pseudo R2 = 0.0829
-----------------------------------------------------------------
admit | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
------+----------------------------------------------------------
gre | 1.002267 .0010965 2.07 0.038 1.00012 1.004418
gpa | 2.234545 .7414652 2.42 0.015 1.166122 4.281877
|

112
Bab 8. Analisis Regresi Logistik

rank |
2 | .5089309 .1610714 -2.13 0.033 .2736922 .9463578
3 | .2617923 .0903986 -3.88 0.000 .1330551 .5150889
4 | .2119375 .0885542 -3.71 0.000 .0934435 .4806919
|
_cons | .0185001 .0210892 -3.50 0.000 .0019808 .1727834
-----------------------------------------------------------------
Perintah “logit , or” dapat juga diberikan dalam bentuk “logistic
admit gre gpa i.rank”.
. margins rank, atmeans
Perintah margins adalah untuk menghitung probabilitas prediksi
respons untuk masing-masing prediktor.
Adjusted predictions Number of obs = 400
Model VCE : OIM
Expression : Pr(admit), predict()
at : gre = 587.7 (mean)
gpa = 3.3899 (mean)
1.rank = .1525 (mean)
2.rank = .3775 (mean)
3.rank = .3025 (mean)
4.rank = .1675 (mean)
---------------------------------------------------------------
| Delta-method
| Margin Std. Err. z P>|z| [95% Conf. Interval]
-----+---------------------------------------------------------
rank |
1 | .5166016 .0663153 7.79 0.000 .3866261 .6465771
2 | .3522846 .0397848 8.85 0.000 .2743078 .4302614
3 | .218612 .0382506 5.72 0.000 .1436422 .2935819
4 | .1846684 .0486362 3.80 0.000 .0893432 .2799937
---------------------------------------------------------------

113
Bab 9. Statistika Nonparametrik

BAB 9
STATISTIKA NONPARAMETRIK

 Uji ranksum Wilcoxon (Mann-Whitney)


Uji ranksum Wilcoxon (Mann-Whitney) menguji hipotesis bahwa
dua sampel independen berasal dari populasi dengan distribusi yang sama.
Sintaks-nya adalah:
ranksum varname [if] [in], by(groupvar)
Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel
independen pada Statistika Paramerik.

Contoh 9.1:
Hendak diuji efektivitas fuel additive baru dengan 24 mobil, 12
dengan fuel treatment dan 12 tanpa treatment. Dataset memuat variabel mpg
(mileage rating) untuk treat yang bernilai 0 (mobil tanpa treatment) serta
mpg untuk treat bernilai 1 (mobil dengan treatment).

. use “D:\Data\Stata\fuel2”, clear


. ranksum mpg, by(treat)

Two-sample Wilcoxon rank-sum (Mann-Whitney) test


treat | obs rank sum expected
-------------+---------------------------------
untreated | 12 128 150
treated | 12 172 150
-------------+---------------------------------
combined | 24 300 300
unadjusted variance 300.00
adjustment for ties -4.04
----------
adjusted variance 295.96

114
Bab 9. Statistika Nonparametrik

Ho: mpg(treat==untreated) = mpg(treat==treated)


z = -1.279
Prob > |z| = 0.2010
Hasil uji mengindikasikan nilai median kedua populasi tidak berbeda
secara bermakna.

 Uji signrank Wilcoxon


Uji signrank Wilcoxon menguji kesamaan distribusi data
berpasangan. Sintaks-nya jika pasangan data berada dalam 2 variabel
terpisah adalah:
signrank var_1 = var_2
Jika pasangan data terpisah dalam 1 variabel yang ditentukan oleh
taraf variabel kategoriknya:
by cat_var: signrank var_name
Uji ini dapat dianggap sebagai padanan uji t untuk 2 sampel
berpasangan pada Statistika Paramerik.

Contoh 9.2:
Seperti pada contoh 9.1, tetapi di sini tiap mobil dengan treatment
dipasangkan dengan 1 mobil tanpa treatment. Data mileage rating untuk tiap
pasangan berada dalam variabel mpg1 dan mpg2.
. use "D:\Data\Stata\fuel.dta", clear
. signrank mpg1=mpg2
Wilcoxon signed-rank test
sign | obs sum ranks expected
-------------+---------------------------------
positive | 3 13.5 38.5
negative | 8 63.5 38.5
zero | 1 1 1
-------------+---------------------------------
all | 12 78 78
unadjusted variance 162.50
adjustment for ties -1.63
adjustment for zeros -0.25

115
Bab 9. Statistika Nonparametrik

----------
adjusted variance 160.63

Ho: mpg1 = mpg2


z = -1.973
Prob > |z| = 0.0485
Didapatkan perbedaan yang bermakna antara distribusi kedua
pasangan data.

 Uji Kesamaan Rank Kruskal-Wallis


Uji Kruskal-Wallis menguji bahwa beberapa (lebih daripada 2)
sampel berasal dari populasi yang sama. Uji ini merupakan perluasan uji
ranksum Wilcoxon. Sintaks-nya adalah:
kwallis varname [if] [in] , by(groupvar)
Uji ini dapat dianggap sebagai padanan ANOVA 1-arah pada
Statistika Parametrik.

Contoh 9.3:
. use “D:\Data\Stata\census”, clear
(1980 Census data by state)
. tab region
Census |
region | Freq. Percent Cum.
---------+---------------------------
NE | 9 18.00 18.00
N Cntrl | 12 24.00 42.00
South | 16 32.00 74.00
West | 13 26.00 100.00
---------+---------------------------
Total | 50 100.00

116
Bab 9. Statistika Nonparametrik

. tab region, nolabel


Census |
region | Freq. Percent Cum.
---------+---------------------------
1 | 9 18.00 18.00
2 | 12 24.00 42.00
3 | 16 32.00 74.00
4 | 13 26.00 100.00
---------+---------------------------
Total | 50 100.00

Untuk menguji adanya perbedaan medage pada keempat region:


. kwallis medage, by(region)
Kruskal-Wallis equality-of-populations rank test
+--------------------------+
| region | Obs | Rank Sum |
|---------+-----+----------|
| NE | 9 | 376.50 |
| N Cntrl | 12 | 294.00 |
| South | 16 | 398.00 |
| West | 13 | 206.50 |
+--------------------------+
chi-squared = 17.041 with 3 d.f.
probability = 0.0007
chi-squared with ties = 17.062 with 3 d.f.
probability = 0.0007
Tampak bahwa ada paling sedikit 1 pasang region yang medage -
nya berbeda secara bermakna.
Jika yang hendak diuji hanya perbedaan antara 2 region, misalnya
“NE” dan “N Cntrl”, dapat digunakan uji ranksum Wilcoxon:

117
Bab 9. Statistika Nonparametrik

. ranksum medage if region==1 | region==2, by(region)


Two-sample Wilcoxon rank-sum (Mann-Whitney) test
region | obs rank sum expected
-----------+---------------------------
NE | 9 144 99
N Cntrl | 12 87 132
-----------+---------------------------
combined | 21 231 231
unadjusted variance 198.00
adjustment for ties -0.51
----------
adjusted variance 197.49
Ho: medage(region==NE) = medage(region==N Cntrl)
z = 3.202
Prob > |z| = 0.0014
Tampak bahwa medage antara kedua region berbeda secara
bermakna.

118
Kepustakaan

KEPUSTAKAAN

Acock AC. A Gentle Introduction to Stata, 4rd Ed. College Station: Stata
Press, 2014.

Baum CF. Introduction to Stata. Faculty Micro Resource Center, Boston


College, August 2011. View 1 June 2017, available from
http://fmwww.bc.edu/GStat/docs/StataIntrp.pdf.

Bhattacharya PK, Burman P. Theory and Methods of Statistics.


Amsterdam: Elsevier, 2016.

Hamilton LC. Statistics with Stata: Updated for Version 12. Boston, MA:
Brooks/Cole, Cenage Learning, 2013.

Kohler U, Kreuter F. Data Analysis Using Stata, 3rd Ed. College Station:
Stata Press, 2012.

Kothari P. Data Analysis with Stata. Birmingham: Packt Publishing, 2015.

Kraska-Miller M. Nonparametric Statistics for Social and Behavioral


Sciences. Boca Raton, FL: CRC Press, 2014.

Long JS, Freese J. Regression Models for Categorical Dependent


Variables Using Stata, 3rd Ed. College Station: Stata Press, 2014.

Longest KC. Using Stata for Quantitative Analysis. Thousand Oaks,


California: Sage Publications, 2012.

Mitchell MN. A Visual Guide to Stata Graphics. College Station: Stata


Press, 2004.

Montgomery DC, Peck EA, Vining GG. Introduction to Linear Regression


Analysis, 5th Ed. Hoboken, New Jersey: John Wiley & Sons, 2012.

Rabe-Hesketh S, Everitt B. A Handbook of Statistical Analyses Using


Stata, 4th Ed. Boca Raton: Chapman & Hall/CRC, 2007.

119
Kepustakaan

StataCorp LP. Stata Base Reference Manual: Release 14. College Station,
Texas: Stata Press, 2015.

_______. Stata Data-Management Reference Manual: Release 14.


College Station, Texas: Stata Press, 2015.

_______. Stata Graphics Reference Manual: Release 14. College Station,


Texas: Stata Press, 2015.

_______. Stata User’s Guide: Release 14. College Station, Texas: Stata
Press, 2015.

Suárez EL, Pérez CM, Nogueras GM, Moreno-Gorrín C. Biostatistics in


Public Health Using Stata. Boca Raton, FL: CRC Press, 2016.

120

Anda mungkin juga menyukai