Anda di halaman 1dari 55

1

DASAR--DASAR PENGOLAHAN DATA


DASAR
MENGGUNAKAN STATA

Usman Ssi. Msi.

Lembaga Penyelidikan Ekonomi dan Masyarakat


Fakultas Ekonomi Universitas Indonesia
Jl. Salemba Raya No. 4, Jakarta 10430, Telp: 021-3143177
TOPIK PEMBELAJARAN
1. Mengapa Menggunakan STATA
2. Basic: Mengenal STATA
 Window layout
 Managing directory
 Inputing data
 Menyimpan data, command, dan output
 Describing data
3. Data Manajemen
 Generating and replacing variables
 Modifying data (convert data, if command)
 Reshaping and collapsing data
 Combining two or more stata files
4. Ringkasan Statistik dan Tabel
5. Analisis Regresi Logistic
6. Grafik
MANFAAT PEMBELAJARAN
3

Setelah materi ini diberikan, diharapkan para


peserta dapat melakukan pengolahan data
menggunakan Software STATA. Dengan STATA
peserta dapat:
1. Mengatur/manipulasi data
2. Membuat tabulasi data
3. Menerapkan metode standar perhitungan
statistika
4. Membuat analisis model ekonometrika seperti
regresi
Mengapa Menggunakan STATA
4

 Excel: Observasi dan kolom terbatas.


 SPSS: Untuk analisis statistik cukup bagus namun
kurang fleksibel untuk analisa simulasi.
 Eviews: Untuk data makro terutama time series sangat
bagus namun kurang bagus untuk data survey.
 SAS: Useful untuk data makro maupun mikro dengan
daya tampung data sangat besar. Namun harga
software sangat mahal.
 STATA: Useful untuk data makro maupun mikro
dengan daya tampung data yang besar (tapi masih
di bawah SAS) & harga software relatif terjangkau.
Basic: Mengenal STATA
5

Versi terakhir STATA adalah Versi 14. Tampilan Stata terdiri


dari 5 jendela yang sekaligus ditampilkan dalam satu layar,
yaitu: Stata Command, Variables, Properties, Review, dan
Stata Result.
1. Stata Command: jendela yang berfungsi untuk menuliskan
perintah-perintah program dan untuk menjalankan program
makro stata yang sudah ada.
2. Variables: tempat menampilkan seluruh nama variabel dari
file yang sedang aktif dibuka.
3. Properties: keterangan rinci mengenai variabel seperti:
tipe data, format, value label dll.
4. Review: tempat tampilan seluruh syntax program yang
pernah dituliskan pada jendela Stata Command.
5. Stata Result: jendela tampilan baik berupa syntax
program, hasil proses, dan pesan kesalahan.
Basic: Window Layout
6
Basic: Set Working Directory
7

 Di sebelah kiri bawah tampilan window Stata, akan


dituliskan working directory Stata. Working directory
adalah folder di mana Stata “bekerja”, yaitu tempat
di mana Stata akan menyimpan atau mengakses file
secara default.
 Ada baiknya working directory di set ke directory di
mana dataset dan file lain terkait pekerjaan tersebut
disimpan.
 Contoh perintah set Working Direktori yang kita
inginkan:
.cd “D:\Latihan Stata”
Basic: Set Working Directory
8

 File yang ada dalam cd working directory dapat


langsung diakses menggunakan file_name (contohnya
use dataset.dta), sedangkan yang berada di luar
working directory hanya dapat diakses menggunakan
file path lengkap (contohnya: use
“D:\Data\Dataset.dta”).
 Dengan kata lain, memindahkan file-file yang
digunakan dalam Stata ke dalam working directory
akan membantu untuk mengakses file-file tersebut
nantinya.
 Penggunaan nama file dalam Stata perlu
menggunakan tanda petik ”…..” untuk nama file yang
mengandung karakter spasi.
Basic: Inputing Data
9

Data yang akan dianalisis menggunakan Stata


dapat berasal dari tiga sumber:
1. Dari program database lain, seperti Microsoft Excel.
2. File data yang dibuat di program lain yang berformat ASCII.
3. File database Stata yang telah disimpan sebelumnya, yang
memiliki extension “.dta”
Inputing Data: Sumber Data Excel
10

Cara memasukkan data dari excel dapat dilakukan


dengan dua cara:
1. Copy – Paste
Tahapan:
- Copy data dari excel
- Kembali ke Stata, ketikkan “edit” di window Command
untuk membuka data editor
- Paste (Ctrl+V) di data editor
- Simpan data dengan command: save filename
Latihan:
Gunakan file “data_gk2013.xls”. Pindahkan ke dalam STATA
Inputing Data: Sumber Data Excel
11

2. Import
Tahapan:
- Pada menu File, pilih Import
- Pilih “Excel Spreadsheet (*.xls, *.xlsx)
- Klik Browse untuk menunjuk ke file yang akan di impor
- Beri checklist “V” pada pilihan “Import first row as variable names”
Inputing Data: Sumber data ASCII
12

Metode Impor data ASCII ada 4 cara:


1. Text data (delimited, *.scv):
2. Text data in Fixed Format
3. Text data in Fixed Format with
dictionary
4. Unformated text data

Latihan:
Sebagai latihan lakukan impor data
menggunakan file:
- data_gk08_unfix.raw
- data_gk2013.scv
Inputing Data: Stata data set
13

Jika data yang akan dianalisis sudah dalam format stata, maka
cukup dibaca file tersebut dengan perintah:
 Dari menu File: Open…

 Dari window Command: .use filename

Adakalanya data yang dibaca sangat besar. Pada STATA versi


11 atau sebelumnya perlu melakukan set terhadap memory.
Misalnya ingin men-set 500mb maka perintahnya:
. Set memory 500m

Pada STATA versi12 ke atas tidak diperlukan lagi melakukan set


memory karena pada versi baru ini sudah secara otomatis
melakukan memory adjusments.
Basic: Describing Data
14

Berikut perintah-perintah untuk menggambarkan data


- count : jumlah obervasi
- describe : mengeluarkan semua nama variabel
- summarize: ringkasan data (mean stddev min max)
semua variabel
- codebook : ringkasan data lebih lengkap

- list : menampilkan data di window result


- browse : menampilkan data di window data
editor
Basic: Menyimpan data, command,
15
dan output
 Dataset Hasil data yang sudah diolah dengan Stata dapat disimpan
dengan perintah save filename. Bila nama file dataset yang hendak
disimpan sudah ada, kita perlu menambahkan opsi replace ke dalam
perintah save filename,replace.
 Agar data bisa dibaca STATA versi lebih rendah: saveold filename
 “History” perintah-perintah (command) yang dijalankan dalam satu sesi
Stata secara otomatis tersimpan dalam panel Review. Kita dapat
menyeleksi perintah yang kita inginkan dari panel Review dan meng-copy
paste serta mengeditnya dalam Do-file Editor di Stata.
 Do-file Editor dapat dibuat dengan cara mengklik New Do-file Editor pada
menu bar. Seperti gambar di bawah ini:
Basic: Menyimpan data, command,
16
dan output
 Output di jendela Result dapat di copy-paste ke program lain seperti Word
atau Excel, dalam bentuk teks atau tabel.

 Output di jendela Result juga dapat disimpan dalan format .smcl dan .log
dengan cara mengaktifkan perintah log-file. Keduanya mempunya
kelebihan dan kekurangan.

 Format smcl dapat dibuka di STATA, namun jika dibuka di Excel


tampilannya berubah. Sedangkan format log tidak dapat dibuka di STATA,
namun jika dibuka di Excel tampilan tidak berubah sehingga tabel-tabel
output dapat diedit dan dirapihkan.

 Syntax log-file secara detail dapat ditulis sbb:


 Log using file_name: Membuka penyimpanan log -file dengan nama file_name.
 Log off : Menghentikan penyimpanan log secara sementara
 Log on : Melanjutkan kembali penyimpanan log yang sudah di off sebelumnya
 Log close: Menyelesaikan penyimpanan.
Data Management:
Generating, replacing, rename, order, labeling
17

 Membuat variabel dapat menggunakan perintah


generate atau cukup ditulis gen.
 Contoh: . gen jawanon=“Luar Jawa”
 Mengganti variable value dengan perintah replace
 Contoh: . replace jawanon =“Jawa” if 31<=kodeprov &
kodeprov<=36
 Perintahnya bisa dipersingkat:
gen jawanon=cond(31<=kodeprov & kodeprov<=36,”Jawa”,”Luar
Jawa”)
 Merubah variabel dapat menggunakan perintah rename
atau cukup ditulis ren.
 Contoh: . ren prov provinsi; ren kodeprov provi; ren urbrur deskot
 Mengatur urutan variabel dengan perintah order
 Contoh: . order jawanon, first; . order jawanon, before (urbrur)
Data Management:
Generating, replacing, rename, order, labeling
18

 Memberi label pada varabel


 Contoh: . label var provi “Kode provinsi”
. label var provinsi “Nama provinsi”
. label var deskot “Kategori kota dan desa”
. label var gk2013 “Nilai garis kemiskinan thn 2013”
 Memberi label value
 Contoh: . label define deskotval 1 “Kota” 2 “Desa”
. label value deskot deskotval
 Membuang variabel dengan perintah drop
 Contoh: . drop varlist
Data Management: Modifying data
19

 Membuat variabel data Numeric dari var data String: encode


Contoh: . encode jawanon, gen(jwnonnum)
 Membuat var data String dari var data Numeric yang sudah
diberi label: decode
Contoh: . decode deskot, gen(urbrur_str)
 Mengubah variabel Tipe Numeric (byte,float) menjadi
variabel Tipe String : . tostring atau string
Contoh: . tostring provi, gen(kodestr); atau
. gen kodestr=string(provi)
 Mengubah variabel data Tipe String menjadi variabel Tipe
Numeric (byte, float) : destring
Contoh: . destring kodestr, gen(kodenum)
Data Management:
20
Transposing, Reshaping and collapsing
 Penggunaan perintah reshape.
 Untuk merubah struktur data yang cukup kompleks dapat
dilakukan dengan perintah reshape. Perintah ini memiliki 2
bentuk konfigurasi yaitu “wide” dan “long”.
 Jika kita memiliki struktur data “wide” maka bisa dirubah
ke bentuk “long”.
Data Management:
21
Transposing, Reshaping and collapsing
 Bentuk umum perintah reshape:
Reshape wide/long stubname, i(i_var) j(j_var) string
 wide|long — Bentuk yang dituju setelah melakukan perintah, apakah wide atau
long.
 Stubnames — Nama variabel (untuk reshape long) atau bagian umum dari nama
variabel (reshape wide). Stubname harus punya pola nama-nama variabel yang
sama contoh: grow8, grow9,…grow12. Tidak bisa nama variabel yang berbeda
misalnya: cons, investasi, exp. Kecuali diubah lebih dulu menjadi: exp1, exp2,
exp3.
 i(i_var) — Variabel-variabel yang berada dalam bentuk long, yang
mengidentifikasikan observasi secara unik.
 j(j_var) — Variabel lama yang akan di-expand (reshape wide), atau variabel
baru yang akan diciptakan sebagai identifier (reshape long).
 string — Tambahkan opsi string bila j_var berisi huruf. Misalnya variabel-
variabel yang isinya alasan terhadap suatu pilihan: alasan1, alasan2, alasan3,
dst.
Data Management:
22
Transposing, Reshaping and collapsing
 Contoh:
 Ubah/impor file grow0812_prov.xls menjadi data stata
 Save dengan nama grow0812_prov.dta
 Ketikkan perintah:
. reshape long grow, i(province) j(year)
. save grow0812_long

 Untuk mengubah kembali ke bentuk “wide”, ketikkan


perintah:
. reshape wide grow, i(province) j(year)
. save grow0812_wide
Data Management:
23
Transposing, Reshaping and collapsing

 Penggunaan perintah collapse.


Perintah lain yang juga penting adalah collapse, yaitu
perintah untuk mengagregasi data dalam bentuk
ringakasan statistik seperti:
 mean
 median
 sum
 Sd
 Count
 Max
 Min
Data Management:
24
Transposing, Reshaping and collapsing
 Contoh, lakukan perhitungan rata-rata growth
pertahun berdasarkan provinsi:
 Buka file grow_long.dta: . use grow0812_long
 Ketikkan perintah:
. collapse (mean) grow, by(province)
atau dapat juga sekaligus beberapa ringkasan statistik
dengan memberi nama variabel baru
. collapse (mean) mean_grow=grow (min) min_grow=grow
(max) max_grow=grow, by(province)
Data Management:
25
Combining two or more stata files
 Hal penting dalam keterampilan mengolah data
adalah melakukan merging data.
 “merge” adalah perintah untuk menggabung
beberapa file (2 atau lebih) menjadi satu file
gabungan. Tujuannya:
 Menyatukan variabel-variabel penelitian menjadi satu
data set yang terstruktur.
 Menggabung berbagai file menjadi satu data set untuk
kebutuhan pengolahan lanjutan.
Data Management:
26
Combining two or more stata files
 Sebagai latihan, hitunglah jumlah orang miskin berdasarkan provinsi.
Gunakan file ssn13_smpl.dta dan data_gk13.dta
 Langkah-langkah merging file:
1. Pastikan anda bekerja pada folder kerja
 cd “D:\pelatihan STATA”
2. Buka file ke-2 (file using), urutkan berdasarkan “id_key” responden,
kemudian simpan ulang
 use data_gk13
 sort id_key
 save gk13, replace
3. Buka file ke-1 (file master), urutkan berdasarkan “id_key” responden
 use ssn13_smpl
 sort id_key
4. Gabungkan file master (yang sedang aktif) dengan data using, kemudian
urutkan berdasarkan “id_key”
 merge id_key using gk13
5. Simpan data set gabungan dengan nama file berbeda
 save ssn_misk13
Data Management:
27
Combining two or more stata files
 Langkah-langkah merging file:
6. Buat variabel baru untuk identifikasi penduduk miskin
dan menghitung jumlah orang miskin
 gen misk=1
 replace misk=0 if exp_cap>gk13
 gen weind=b2r1*fwt /*weight penduduk*/
 gen jmlmisk=misk*weind
7. Buat agregasi data jumlah peduduk miskin dan jumlah
total penduduk berdasarkan provinsi dan desa/kota
 collapse (sum) jmlmisk jmlpddk=weind, by(provdeskot)
 list
Contoh do-file latihan merging data

28
Data Management:
29
Combining two or more stata files
 Selain melakukan merging (menambah variabel),
Stata juga bisa melakukan penambahan data
dengan perintah append (menambah observasi).
 Contoh:
 Gabungkanlah data grow0107_long.dta dengan data
grow0812_long.dta
 Langkah-langkah append:
 Bukafile ke-1 : . Use grow0107_long
 Gabung dengan file ke-2 : . Append using grow0812_long
Contoh do-file latihan penggunaan perintah append

30
Ringkasan Statistik dan Tabel
31

 describe atau desc: menampilkan variabel yang ada dalam dataset


• describe
 Summarize atau summ: menampilkan ringkasan statistik seluruh variabel
• summarize
 tabulate atau tab: menampilkan frekuensi atau persetase frekuensi dari
satu atau dua variabel (maksimal 2 variabel)
• tabulate provi
• tabulate provi deskot
• tabulate provi deskot, row nofreq
 table: menampilkan statistik deskriptif dari satu atau lebih variabel.
Perintah table menggabung kekuatan tabulate dan summrize.
• table provi misk, contents(mean exp_cap) col
• table provi deskot, contents(mean exp_cap) col
• table deskot misk, contents(mean exp_cap) col by (provi)
Ringkasan Statistik dan Tabel
32

 Mengubah struktur data sebelum melakukan tabulasi agar


menghasilkan tampilan yang ringkas
 Misalnya dari survey diperoleh data multiple choice, alasan
responden ikut serta bpjs kesehatan.

 Jumlah variabel utk pertanyaan 13 di atas ada 8 variabel.


Maka struktur data diubah long agar menjadi 1 vaviabel,
selanjutnya dibuat tabulasi.
Ringkasan Statistik dan Tabel
33

 use data_bpjs, clear


 keep id x131 x132 x133 x134 x135 x136 x137 x138
 reshape long x13,i(id) j(alasan)
 label def alasandef 1 "keluarga saya ada yang sedang sakit "/*
 */2 "Memastikan mendapatkan layanan kesehatan"/*
 */3 "Mengurangi pengeluaran kesehatan ketika sakit"/*
 */4 "Karena keluarga saya sering sakit/berobat "/*
 */5 "Karena ada yang mengajak "/*
 */6 "merupakan bentuk saling membantu"/*
 */7 "Kesehatan prioritas penting dalam keluarga "/*
*/8 "Lainnya “
 label val alasan alasandef
 tab alasan x13
 tab alasan x13, col nofreq
Contoh do-file latihan penggunaan ringkasan statistik dan Tabel

34
Contoh do-file latihan penggunaan ringkasan statistik dan Tabel

35
Contoh Pengolahan Data untuk
36
Analisis Regresi Logistik
 Setelah mempelajari dan memahami data manajemen, maka
hal ini akan sangat membantu kita untuk melakukan analisa
data lebih lanjut misalnya analisa regresi.
 Sebagai latihan lakukan analisa regresi Logit untuk
mengetahui faktor faktor yang mempengaruhi kemiskinan.
 Secara teori kemiskinan dipengaruhi oleh faktor kemampuan
sumberdaya manusianya, aset-aset yang dimiliki, dan akses
terhadap fasilitas ekonomi.
 Gunakan data sampel yang diambil dari susenas kor individu
dan rumah tangga tahun 2013 untuk mengambil variabel
faktor sumberdaya manusia dan faktor aset-aset yang dimiliki.
Variabel akses ekonomi terdapat di data Podes, dimana untuk
latihan ini tidak disediakan.
Contoh Pengolahan Data untuk
37
Analisis Regresi Logistik
 Faktor sumberdaya manusia:
 Pendidikan (b5r17): lama bersekolah
 Jumlah anggota rumah tangga yang bekerja (b5r24a1)
 Lapangan usaha kepala RT (b5r30): pertanian vs non pert
 Jenis pekerjaan Kepala RT (b5r31): formal vs informal

 Faktor aset-aset yang dimiliki:


 Kepemilikan rumah (b6r3): milik sendiri vs bukan
 Kepemilikan lahan (b6r4): milik sendiri vs bukan
 Luas lantai (b6r8)
 Pemasangan istrik (b6r14a): PLN vs no PLN
 Jumlah anggota rumah tangga (b2r1)
38
39
ANALISIS REGRESI LOGIT
40

 Contoh hasil output regresi Logit Kemiskinan


ANALISIS REGRESI LOGIT
41

 Hasil Output Odds Ratio Regresi Logit Kemiskinan


GRAFIK
42

 Stata menyediakan fasilitas grafik yang dapat


dibuat melalui perintah di jendela cammand line
maupun melalui dialog box.
 Bentuk-bentuk grafik dalam stata:
 Histogram
 Boxplot

 Pie Chart

 Twowat graph: Scatterplots

 Kernel Density plot


GRAFIK: HISTOGRAM
43

 Histogram biasa digunakan untuk melihat sebaran data


suatu variabel.
 Syntax umum:
 histogram varname if in [weight],
[continuous_opts|discrete_opts] options
 Contoh (gunakan file “ssn13_smpl.dta”):
 Histogram exp_cap
 Histogram exp_cap, by (deskot)

 hist exp_cap if exp_cap<=4000000 [weight=bobot], freq

 histogram b6r11_a , freq discrete xlabel(1 (1) 15)


GRAFIK: HISTOGRAM
44
GRAFIK: HISTOGRAM
45

1.5e-06
1 2
2.0e-07 4.0e-07 6.0e-07 8.0e-07 1.0e-06

1.0e-06
Density

Density

5.0e-07
0
0 2000000 4000000 6000000 80000000 2000000 4000000 6000000 8000000
0

0 2000000 4000000 6000000 pengeluaran total per kapita sebulan


pengeluaran total per kapita sebulan Graphs by deskot
4000

50
3000

40
Frequency
Frequency

30
2000

20
1000

10
0
0

0 1000000 2000000 3000000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15


pengeluaran total per kapita sebulan sumber air untuk memasak:
GRAFIK: BOXPLOT
46

 Boxplot digunakan untuk bentuk distribusi data (yang


bersifat kuantitatif/bukan kualitatif) dan
mengidentifikasi apakah ada data yang outlier.
 Sintax umum:
 graph box yvars if in [weight], options
 graph hbox yvars if in [weight], options

 Contoh (gunakan file “ssn13_smpl.dta”):


 Graph food_cap nonfood_
 graph box food_cap nonfood_ if nonfood_<=3000000
GRAFIK: BOXPLOT
47

• graph box food_cap nonfood_ if nonfood_<=3000000


2.0e+06
1.5e+06
1.0e+06
500000
0

pengeluaran makanan per kapita sebulan


pengeluaran non makanan per kapita sebul
GRAFIK: PIE
48

 PIE graph digunakan untuk melihat komposisi data


suatu variabel.
 Syntax:
 graph pie [if] [in] [weight], over(varname) [options]
 Contoh:
 Keluarkan komposisi responden berdasarkan Status
penguasaan bangunan tempat tinggal dan
berdasarkan ketegori desa/kota.
 graph pie [weight=bobot], over( b6r3) by(deskot)
Grafik PIE
49

 graph pie [weight=bobot], over( b6r3) by(deskot)


1 2

1 2
3 4
5 6
Graphs by deskot
Grafik Dua Variabel
50

 twoway (scatter food_cap nonfood_)


2000000
pengeluaran makanan per kapita sebulan
500000 1000000 0 1500000

0 1000000 2000000 3000000 4000000 5000000


pengeluaran non makanan per kapita sebul
Scatter and Line
51

 twoway (scatter food_cap nonfood_) (lfitci


food_cap nonfood_) 20000002500000
500000 100000015000002000000
0

0 1000000 2000000 3000000 4000000 5000000


pengeluaran non makanan per kapita sebul

pengeluaran makanan per kapita sebulan 95% CI


Fitted values
Grafik, Regresi dan Confidence Interval
52

 . twoway (scatter food_cap nonfood_) (lfitci


food_cap nonfood_), by (deskot)
3000000

1 2
2000000
1000000
0

0 50000000 5000000
pengeluaran non makanan per kapita sebul
pengeluaran makanan per kapita sebulan 95% CI
Fitted values
Graphs by deskot
Dua Grafik
53
 twoway (scatter read write), by(female)
Kernel density plot
54

 kdensity exp_cap
1.500e-06

Kernel density estimate


1.000e-06
Density
5.000e-07 0

0 2000000 4000000 6000000 8000000


pengeluaran total per kapita sebulan
kernel = epanechnikov, bandwidth = 9.8e+04
55

TERIMA KASIH

Anda mungkin juga menyukai