Anda di halaman 1dari 134

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/358460661

Aplikasi STATA Untuk Statistisi Pemula

Book · February 2022

CITATIONS READS
5 3,845

1 author:

Pardomuan Robinson Sihombing


Statistics Indonesia
132 PUBLICATIONS 94 CITATIONS

SEE PROFILE

All content following this page was uploaded by Pardomuan Robinson Sihombing on 09 February 2022.

The user has requested enhancement of the downloaded file.


Aplikasi Stata Untuk
Statistisi Pemula
Pardomuan Robinson Sihombing, SST, M.Stat
UU No. 19/2002 tentang Hak Cipta
Lingkup Hak Cipta
Pasal 2:
1. Hak Cipta merupakan hak eksklusif bagi Pencipta atau Pemegang Hak Cipta untuk mengumumkan
atau memperbanyak, ciptaannya, yang timbul secara otomatis setelah suatu ciptaan dilahirkan tanpa
mengurangi pembatasan peraturan perundang-undangan yang berlaku.

Ketentuan Pidana
Pasal 72:
1. Barang siapa dengan sengaja dan tanpa hak melakukkan perbuatan sebagaimana dimaksud dalam
pasal 2 ayat (1). Atau pasal 49 ayat (1). Dan ayat (2). Dipidana penjara masing-masing paling singkat
1 (satu) bulan dan/atau denda paling sedikit Rp. 1.000.000,- (satu juta rupiah) atau pidana penjara
paling lama 7 (tujuh) tahun dan/atau denda paling banyak Rp. 5.000.000.000,00- (lima miliar rupiah)
2. Barang siapa dengan sengaja menyiarkan, memamerkan, mengedarkan, atau menjual kepada umum
suatu ciptaan atau barang hasil pelanggaran Hak Cipta atau Hak Terkait sebagaimana dimaksud
dalam ayat (1)., dipidana dengan pidana penjara paling lama 5 (lima) tahun dan/atau denda paling
banyak Rp. 500.000.000,- (lima ratus juta rupiah).
Aplikasi Stata Untuk Statistisi Pemula

Penulis Pardomuan Robinson Sihombing, SST, M.Stat


Editor Pria Sahuri
Desain Sampul @hanipempengco
Desain Isi YT SariPati Virtual
Sumber Gambar Pinterest, Freepik, dan PNG Tree

Katalog Dalam Terbitan (KDT)

Sihombing, Pardomuan Robinson.


Aplikasi Stata Untuk Statistisi Pemula/Penulis: Pardomuan Robinson Sihombing,
SST, M.Stat/Editor: Pria Sahuri. - Depok: Gemala, 2022.
x + 122 hal.: 14 x 21 cm.
ISBN: 978-623-6104-90-3
1. Statistik I. Judul II. Sihombing, Pardomuan Robinson. III. Sahuri, Pria.

Disusun dengan huruf Alegreya Sans, 11 pt


Cetakan ke-1, Februari 2022

Jl. Raya Cilangkap No. 1 RT/RW 006/012 Kel. Cilangkap, Tapos, Depok, Jawa Barat 16458
Telp: 0811-3222-654 | Email: penerbitgemala@gmail.com
Facebook: Penerbit Gemala | Website: www.gemala.co

© Hak cipta dilindungi Undang-Undang No. 28 Tahun 2014


Dilarang mengutip atau memperbanyak sebagian atau seluruh isi buku ini
tanpa izin tertulis dari penerbit.
Kata Pengantar
Puji dan syukur Penulis panjatkan kepada Tuhan Yang Maha
Esa, buku Aplikasi Stata Untuk Statistisi Pemula dapat diterbitkan.
Buku ini merupakan pelengkap dari Buku Corat Coret Catatan
Statistisi Pemula. Buku ini berisikan langkah-langkah pengolahan
statistika dengan aplikasi software Stata. Adapun metode yang
dibahas dalam buku ini adalah model-model standard yang biasa
digunakan peneliti mulai dari analisis deskriptif dan analisis
inferensia. Analisis inferensia mencakup penggunaan statistik
untuk tujuan komparasi, menguji arah dan kekuatan hubungan
antar variabel dan pembentukan model sebab akibat.
Stata merupakan salah satu software statistik yang dianggap
powerfull karena dapat digunakan untuk data primer maupun data
sekunder. Untuk data primer dapat digunakan untuk model SEM
baik berbasais covarian maupun yang berbasis korelasi dengan
menggunakan bootstrapping serta penggunaan General SEM.
Dalam stata juga dapat digunakan untuk model-model univariat
maupun multivariat. Dalam stata juga dapat digunakan untuk
data yang mengandung unsur spasial.
Untuk edisi terbaru stata juga dilengkapi dengan model-model
statistika yang menggunakan berbagai metode estimasi seperti
metode least square, maximum likelihood, method of moment dan
vi Aplikasi Stata Untuk Statistisi Pemula

Bayesian. Untuk pemodelan data dengan data panel, STATA cukup


lengkap karena selain dapat digunakan untuk model regresi panel
standard yang berbasis distribusi normal, juga dapat digunakan
untuk model panel untuk data yang berbasis distribusi keluarga
eksponensial seperti model binary/ bernouli, ordinal, multinomial
dan beta regresi. Dalam stata juga pada model panel dengan
keluarga eksponensial dapat ditambahkan efek korelasi dengan
menggunakan model Generalized Estimating Equation (GEE) dan
efek acak/ random dengan model Generalized LinearMixed Model
(GLMM).
Penulis berharap dengan hadirnya buku ini dapat menambah
khasanah ilmu pengetahuan. Semoga dengan hadirnya buku ini,
statistika yang sering dianggap sebagai suatu ilmu yang kompleks
dan rumit dapat menjadi mudah dipahami dan menjadi sesuatu
yang menarik serta menyenangkan bagi khalayak umum. Penulis
menyadari bahwa buku ini masih jauh dari kata sempurna. Sehingga
penulis, sangat mengharapkan kritik dan saran dari pembaca demi
penyempurnaan buku ini ke depan. Akhir kata penulis berharap,
buku ini dapat menambah referensi dan pemahaman pembaca akan
metode statistika.

Penulis
Daftar Isi
Kata Pengantar _________________________________________ v
Daftar Isi_______________________________________________ vi
Pengenalan STATA_______________________________________ 1
Statistik Deskriptif_______________________________________ 3
1._ Untuk data kuantitatif/ metrik/ numerik_____________ 3
2._ Untuk data kualitatif/ nonmetric/ label/atribut_______ 4
3._ Kombinasi Data Kuantitatif dan Kualitatif____________ 5
4._ Kombinasi Data Kualitatif/ Kategorik dengan Tabulasi
Silang (CossTab)_________________________________ 6
5._ Analisis Cluster__________________________________ 7
6._Biplot __________________________________________ 10
Statistik Inferensia_______________________________________ 11
Uji Komparasi___________________________________________ 13
1._ Uji Varian/ Ragam________________________________ 13
2._ Uji Rata-rata/ Mean Aritmatic dan Uji Median________ 17
3._ Uji Proporsi_____________________________________ 28
Uji Pembeda/ Analisis Diskriminan_________________________ 31
Uji Korelasi_____________________________________________ 33
1._ Korelasi Pearson_________________________________ 33
2._ Korelasi Spearman________________________________ 35
3._ Korelasi Kendall__________________________________ 36
4._ Korelasi Poin Biserial_____________________________ 37
viii Aplikasi Stata Untuk Statistisi Pemula

6._ Korelasi Polychoric_______________________________ 39


7._ Korelasi Phi_____________________________________ 40
8._ Korelasi Cramer V________________________________ 40
9._ Korelasi Kruskal Gamma__________________________ 41
10._Korelasi Kruskal Lamda___________________________ 42
11._ Korelasi Kanonik_________________________________ 43
Regresi Linier Berganda Pada Data Cross Section Gaussian___ 45
Regresi Binary Logistik Pada Data Cross Section ____________ 50
Regresi Ordinal Logistik Pada Data Cross Section ____________ 54
Regresi Multinomial Logistik Pada Data Cross Section _______ 57
Regresi Poisson Pada Data Cross Section ___________________ 60
Regresi Interval Pada Data Cross Section ___________________ 63
Regresi Beta Pada Data Cross Section______________________ 64
Regresi Linier Berganda Pada Data Panel Gaussian__________ 66
Model Difference in Difference (DiD)_______________________ 74
Analisis Survival_________________________________________ 76
Analisis Faktor__________________________________________ 78
Data Envelopment Analysis (DEA) _________________________ 81
Analisis SEM-PLS (Partial Least Square)_____________________ 83
Smoothing Time Series __________________________________ 87
ARIMA dan GARCH Model_________________________________ 89
Analisis Regression Time Series____________________________ 94
Autoregressive Distributed Lag (ARDL)_____________________ 99
Analisis Error Corection Model (ECM)_______________________ 102
Analisis Vector Autoregressive (VAR)________________________ 106
Analisis Simultan________________________________________ 112
Pardomuan Robinson Sihombing, SST, M.Stat ix

Daftar Pustaka__________________________________________ 117


Biodata Penulis__________________________________________ 120
x Aplikasi Stata Untuk Statistisi Pemula
Pengenalan STATA
Software Statistics and Data (Stata) merupakan program
komputer yang dipakai untuk analisis statistika dan awalnya dibuat
oleh perusahaan StataCorp pada tahun 1985. Versi terbaru STATA
saat ini adalah STATA 17 (https://www.stata.com/). STATA dapat
diaplikasikan baik pada OS Windows dan Mac. Berikut tampilan
dari STATA:

Menu bar berisi menu untuk mengolah data berbasis Graphical


User Interface (GUI). Command box digunakan ketika penulis
akan mengetik sintaks yang akan digunakan. Variabel window
menampilkan variabel penelitian yang digunakan.
Untuk memasukkan data pada STATA pada menggunakan
2 AplikAsi stAtA UntUk stAtistisi pemUlA

menu: File > Open (Ctrl O) jika data yang kita gunakan sudah
disimpan dalam bentuk format .dta. Sedangkan untuk format
lainnya dapat menggunakan menu: File > Import > Pilih format
data yang akan dimasukkan dalam STATA misalkan data berasal
dari spss (.sav), dari excel (.xls), SAS dan lainnya.

Selain itu kita juga dapat memasukkan data yang sudah dicopi
dari excel lalu, mengetik sintaks “edit” dan enter untuk
membuka data editor, lalu paste data dengan “varaibel name”
Statistik Deskriptif
Menurut Walpole ( 2012), statistika deskriptif dapat diartikan
sebagai metode yang berkaitan dengan pengumpulan dan penyajian
suatu data sehingga memberikan informasi yang berguna.
Sedangkan menurut Sugiono (2017) statistik deskriptif berfungsi
untuk mendeskripsikan atau memberi gambaran terhadap objek
yang diteliti melalui data sampel atau populasi. Gambaran dapat
berupa ukuran pemusatan/ tendency (rata-rata, median, modus,
proporsi), ukuran letak/ posisi (kuartil, desil, persentil) maupun
ukuran dispersi/ keragaman data (jangkauan/ range, standar deviasi
dan varian/ ragam).

1. Untuk data kuantitatif/ metrik/ numerik


Data kuantitatif merupakan data yang berbentuk angka/ metrik.
Data kuantitatif dapat dibagi atas data interval yang memiliki nilai
nol mutlak seperti data suhu dan data tahun. Selain itu juga dapat
berupa data rasio yang tidak memiliki nilai nol mutlak seperti
data berat, volume, luas dan lainnya. Selain itu data kuantitatif
berdasarkan cara memperoleh dan sifat datanya dapat berupa data
diskrit dan data kontinu. Data diskrit didapat berdasarkan hasil
cacahan (count), dimana nilainya berupa bilangan bulat tanpa
desimal misalnya jumlah orang, jumlah kursi dan lainnya. Data
4 AplikAsi stAtA UntUk stAtistisi pemUlA

kontinu didapat berdasarkan hasil pengukuran (measurement),


dimana nilainya dapat berupa bilangan bulat dengan desimal
misalnya berat badan, tinggi badan dan lainnya. Adapun langkah
pengujian, dengan menggunakan menu stata:
Statistics > Summaries, tables, and tests > Summaries and
Descriptive Statistic > Summary Statistic
Misalkan kita akan melihat ukuran pemusatan dan dispersi
dari data umur dan penghasilan responden

Dengan menggunakan Sintaks:


*summarize varname1 varname2
summarize umur penghasilan
Output:

2. Untuk data kualitatif/ nonmetric/ label/atribut


Data kualitatif merupakan data yang tidak berbentuk angka,
biasanya datanya berupa data kategorik dimana atribut/ labelnya
diberikan kode. Data kuantitatif dapat dibagi atas data nominal
yang berfungsi sebagai label atau pembeda tanpa dapat memberikan
peringkat misalnya data gender/ jenis kelamin, warna pupil mata dan
lainnya. Selain itu juga dapat berupa data ordinal yang tidak hanya
dapat membedakan tetapi juga dapat diurutkan/ diberi peringkat,
hanya saja jarak antar kategori tidak selalu sama, misalnya tingkatan
sekolah, tingkatan jabatan dan lainnya. Adapun langkah pengujian,
dengan menggunakan menu stata:
Pardomuan Robinson Sihombing, SST, M.Stat 5

Statistics > Summaries, tables, and test > Summaries and


Descriptive Statistic > Proportion
Statistics > Summaries, tables, and test > Frequency Table >
Oneway Table
Misalkan kita akan melihat frekuensi dan proporsi dari variabel
pendidikan

Dengan menggunakan Sintaks:


*tabulate varname
tabulate Pendidikan
*proportion varname
proportion pendidikan
Output:

3. Kombinasi Data Kuantitatif dan Kualitatif


Terkadang peneliti juga menggabungkan deskriptif antara
data kuantitatif dengan data kualitatif. Hal ini dilakukan untuk
membandingkan nilai-nilai dari variabel kuantitatif berdasarkan
kategori tertentu. Adapun langkah pengujian, dengan menggunakan
menu stata:
Statistics > Summaries, tables, and tests > Summaries and
Descriptive Statistic > Summary Statistic
6 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan kita akan melihat ukuran pemusatan dan dispersi


dari data umur responden dipisahkan berdasarkan jenis
kelamin

Dengan menggunakan Sintaks:


*by vargroup, sort: summarize varname
by gender, sort: summarize umur
Output:

4. Kombinasi Data Kualitatif/ Kategorik dengan


Tabulasi Silang (CossTab)
Ketika seorang peneliti memiliki banyak data kualitatif maka
dapat dilakukan tabulasi silang/ cross tab sehingga dapat dilihat pola
hubungan antar data kategorik tersebut. Adapun langkah pengujian,
dengan menggunakan menu stata:
Statistics > Summaries, tables, and test > Frequency Table >
Twoway Table and Ascociation
Misalkan kita akan melihat tabulasi silang antara Pendidikan
dengan Gender responden

Dengan menggunakan Sintaks:


*tabulate varname1 varname2, cell
tabulate pendidikan gendera, cell
Pardomuan Robinson Sihombing, SST, M.Stat 7

Output:

5. Analisis Cluster
Analisis cluster (klaster/ gerombol) adalah salah satu metode
dalam analysis multivariat. Analisis ini terkadang dimasukkan
ke dalam analisis deskriptif karena tidak
mengandung unsur hipotesis dan hasilnya tidak unik. Analisis
cluster bertujuan mengelompokkkan unit-unit/ subjek berdasarkan
kemiripan, baik kedekatan jarak maupun kemiripan
korelasi antar variabel. Ada berbagai teknik pengelompokan data
berdasarkan kedekatan jarak seperti jarak cartesian, jarak
mahalanobis, jarak Blok Mahakam,
blok chebychev dan lainnya. Pada umumnya analisis klaster
dibagi dua metode yaitu metode hierarki dan metode non hierarki
(Johnson & Wichern, 1998). Metode hierarki (metode single linkage,
average linkage, complete linkage dan lainnya) akan membentuk
klaster maksimal sebanyak jumlah objek sedangkan pada metode
non hierarki (k-means dan k-median) berdasarkan jumlah yang
diinginkan peneliti (dalam hal ini berdasarkan teori yang ada atau
lanjutan dari uji hierarki). Hal yang perlu diperhatikan dalam
analisis klaster adalah satuan, jika satuan satuan antar variabel terlalu
8 AplikAsi stAtA UntUk stAtistisi pemUlA

berbeda maka sebaiknya gunakan nilai standar dari data yang ada.
Dalam analisis klaster pada umumnya data yang digunakan adalah
data numerik/ kuantitatif, jika terdapat data kategorik/ kualitatif
maka sebaiknya menggunakan teknik two step klaster. Adapun
langkah pengujian, dengan menggunakan menu stata:
Statistics > Multivariate analysis > Cluster analysis > Cluster data
Untuk data contoh pada pengujian klaster dapat didownload
di link berikut:
shorturl.at/duIX1
Misalkan kita akan Output
mengelompokkan kabupaten 1. Cluster Hirarki
Dendrogram for kab_kot cluster analysis
kota di Bali dengan indiaktor
2
1
3
0
L2 dissimilarity measure
7
4
2
1
5
9
8
6
3

sosial ekonomi seperti ipm, gini,


kemiskinan, dan tpt.

Dengan menggunakan Sintaks:


*membuat nilai standar (z score)
graph matrix ipm kemiskinan
gini_ratio tpt pdrb
sum ipm kemiskinan gini_ratio
Dari dendogram yang ada kita
tpt pdrb
dapat menentukan sendiri mau
egen zipm = std(ipm)
berapa kluster yang diinginkan,
egen zkemiskinan =
misal ingin membuat 3 klaster
std(kemiskinan)
maka kelompoknya kab3 (badung),
egen zgini_ratio = std(gini_ratio)
kot 9 (denpasar) dan sisanya
egen ztpt = std(tpt)
menjadi 1 klaster
egen zpdrb = std(pdrb)
sum zipm zkemiskinan zgini_
ratio ztpt zpdrb
Pardomuan Robinson Sihombing, SST, M.Stat 9

*mengggunakn hierarki metode 2. Cluster non hierarki


single linkage a. banyak anggota masing-
cluster singlelinkage zipm
masing cluster
zkemiskinan zgini_ratio ztpt
zpdrb, measure(L2) name(kab_
kot)
*menggambar dendogram
cluster dendrogram kab_kot

*nonhirarki metode kmeans


cluster kmeans zipm zkemiskinan
b. karakteristik masing-
zgini_ratio ztpt zpdrb,k(3)
measure(L2) name(cluster) masing cluster
start(krandom)
table cluster
tabstat zipm zkemiskinan
zgini_ratio ztpt zpdrb, by(cluster)
stat(mean)

Nilai positif menunjukkan nilai


di atas rata-rata dan nilai negatif
menunjukkan nilai di bawah rata-
rata. Pada cluster 3, memiliki IPM
di atas rata-rata sekaligus tertinggi
di banding dua klaster lainnya,
sebaliknya kluster ini memiliki
nilai kemiskinan terendah.
10 AplikAsi stAtA UntUk stAtistisi pemUlA

6. Biplot
Analisis biplot adalah salah satu metode dalam analysis
multivariat, yang digunakan untuk menyajikan secara simultan
n obyek pengamatan dan P variabel dalam ruang bidang datar,
sehingga ciri-ciri variabel dan obyek pengamatan serta posisi relatif
antar obyek pengamatan dengan variabel dapat dianalisis. Analisis
ini terkadang dimasukan ke dalam analisis deskriptif karena tidak
mengandung unsur hipotesis dan hasilnya tidak unik. Adapun
langkah pengujian, dengan menggunakan menu stata:
Statistics > Multivariate analysis > Biplot
Untuk data contoh pada pengujian biplot dapat didownload di
link berikut: shorturl.at/duIX1
Misalkan kita akan menyajikan data kabupaten kota di
Bali dengan indiaktor sosial ekonomi seperti ipm, gini,
kemiskinan, dan tpt.

Dengan menggunakan Sintaks:


• Biplot varlist, rowover(groupvar)
biplot zipm zkemiskinan zgini_ratio ztpt zpdrb, rowover(kab_
kot)
Output
Statistik Inferensia
Statistik inferensia adalah suatu metode yang digunakan
untuk menarik kesimpulan/ generalisasi terhadap populasi dari
data sampel yang ada (Walpole, 2012). Sutau data dapat dilakukan
metode inferensia jika data yang digunakan merupakan data yang
bersifat acak/ random dan diambil dengan menggunakan teknik
probability sampling.
Ada tiga tujuan utama dalam statistik inferensia yaitu analisis
komparasi/ perbandingan, analisis arah dan keeratan hubungan
antar variabel serta analisis model sebab akibat/ pengaruh. Baik untuk
ketiga tujuan tersebut, analisis statistik inferensia dapat
dibagi atas statistik parametrik dan statistik nonparametrik.
Perbedaan utama dalam statistik parametrik dan statistik
nonparametrik untuk kasus uji komparasi adalah berdasarkan
distribusi data yang digunakan, skala data dan jumlah data. Jika data
didasarkan pada asumsi distribusi tertentu (umumnya distribusi
normal), skala data interval atau rasio serta jumlah data yang besar
maka digunakan statistik parametrik. Sebaliknya jika data tidak
didasarkan pada asumsi distribusi tertentu, skala data nominal
atau ordinal serta jumlah data yang kecil maka digunakan statistik
nonparametrik.
12 AplikAsi stAtA UntUk stAtistisi pemUlA

Perbedaan utama dalam statistik parametrik dan statistik


nonparametrik untuk kasus analisis arah dan keeratan hubungan
adalah berdasarkan distribusi data yang digunakan, skala data serta
pola hubungan yang terbentuk. Jika data didasarkan pada asumsi
distribusi tertentu (umumnya distribusi normal), skala data interval
atau rasio serta pola hubungannya linier maka digunakan statistik
parametrik. Sebaliknya jika data tidak didasarkan pada asumsi
distribusi tertentu, skala data nominal atau ordinal serta pola
hubungan yang tidak linier maka digunakan statistik nonparametrik.
Perbedaan utama dalam statistik parametrik dan statistik
nonparametrik untuk kasus analisis pembentukan model adalah
berdasarkan distribusi data yang digunakan, pola hubungan
yang terbentuk serta spesifikasi model yang digunakan. Jika data
didasarkan pada asumsi distribusi tertentu (umumnya distribusi
normal dan keluarga eksponensial, pola hubungannya linier dan
spesifikasi modelnya finit (terbatas) maka digunakan statistik
parametrik. Sebaliknya jika data tidak didasarkan pada asumsi
distribusi tertentu, pola hubungan yang tidak linier serta spesifikasi
model tidak finit maka digunakan statistik nonparametrik.
Uji Komparasi
Dalam statistik untuk tujuan pengujian komparasi pada
umumnya dilakukan pada ukuran data yaitu ragam/ varian, rata-
rata, median dan proporsi. Pengujian ini dapat dilakukan pada
satu populasi, dua populasi dan lebih dari dua populasi. Pengujian
terhadap satu populasi biasanya dibandingkan dengan suatu
nilai sebagai acuan/ standar. Pengujian terhadap dua atau lebih
populasi dapat dibagi lagi menjadi dua atau lebih populasi
dependen/
berpasangan dan dua populasi independen. Populasi dependen
didasarkan pada pengujian suatu populasi terhadap suatu treatment
atau kebijakan yang dilakukan. Pada umumnya adanya efek pre dan
post atau before dan after. Sedangkan pada populasi independen
dilakukan pada populasi yang saling bebas, dimana kejadian atau
peluang sutau populasi tidak mempengaruhi kejadian atau peluang
populasi lainnya. Untuk data contoh pada pengujian komparasi
dapat didownload di link berikut: shorturl.at/muAEP
1. Uji Varian/ Ragam
Pengujian komparasi varian digunakan untuk melihat variasi
suatu data. Uji satu populasi dapat menggunakan uji chi square,
sedangkan uji dua populasi dapat menggunakan ui F dan uji levene.
Untuk uji k populasi dapat menggunakan uji barlet, uji Box M dan
14 AplikAsi stAtA UntUk stAtistisi pemUlA

levene test (Brown & Forsythe, 1974). Adapun langkah pengujian,


dengan menggunakan menu stata:
Statistics > Summaries, tables, and tests > Classical tests of
hypotheses > Variance-comparison test

a. Uji Ragam 1 Populasi


Misalkan akan Output:
diteliti apakah 1. Uji Normalitas Data
keragaman varian
nilai gini rasio 34
Provinsi di Indonesia
tahun 2021 sama
dengan 0.0016 atau Karena nilai sign.prob value=0.71820 > alpha
standar deviasinya (0.05) maka tidak tolak Ho dan disimpulkan
sama dengan 0.04 bahwa data berdistribusi normal
2. Uji Ragam 1 Populasi

Dengan
menggunakan
Sintaks:
* swilk varname Karena nilai sign.prob value=0.5896 > alpha
swilk gini2021 (0.05) maka tidak tolak Ho dan disimpulkan
bahwa variance data=0.0016 atau standar
* sdtest varname == deviasinya=0.04
value, level(value)
sdtest gini2021 ==
0.04, level (95)
Pardomuan Robinson Sihombing, SST, M.Stat 15

b. Uji Ragam 2 Populasi


Misalkan akan diteliti Output:
apakah rata-rata nilai gini 1. Uji Normalitas Data
rasio tahun 2021 pada
daerah Sumatera Jawa
sama dengan daerah selain
Sumatera Jawa

Karena nilai sign.prob value=0.186120 dan


0.42151 > alpha (0.05) maka tidak tolak Ho
dan disimpulkan bahwa data berdistribusi
normal
Dengan menggunakan 2. Uji Ragam 2 Populasi
Sintaks:
*by groupvar, sort: swilk
varname
by kode, sort: swilk
gini2021

* using 2 variable in 2
coloum
* sdtest varname1 == Karena nilai sign.prob value=0.5935 > alpha
varname2 (0.05) maka tidak tolak Ho dan disimpulkan
bahwa varian/ ragam kedua populasi sama/
* using group homogen
* sdtest varname,
by(groupvar) level(value)
sdtest gini2021, by(kode)
16 AplikAsi stAtA UntUk stAtistisi pemUlA

c. Uji Ragam k Populasi


Misalkan akan diteliti Output:
apakah keragaman 1. Uji Normalitas Data
varian nilai persentase
kemiskinaan pada
daerah Sumatera,
Jawa-Bali dan selain
Sumatera-Jawa-Bali
sama atau berbeda

Karena nilai sign.prob value=0.293, 0.261 dan


0.062 > alpha (0.05) maka tidak tolak Ho dan
disimpulkan bahwa data berdistribusi normal
Dengan menggunakan 2. Uji Ragam k Populasi
Sintaks:
*by groupvar, sort:
swilk varname
by type, sort : swilk
miskin2021

*robvar varname,
by(groupvar)
robvar miskin2021, Karena nilai sign.prob value=0.116 > alpha (0.05)
by(type) maka tidak tolak Ho dan disimpulkan bahwa
varian/ ragam ketiga populasi sama/ homogen
Pardomuan Robinson Sihombing, SST, M.Stat 17

2. Uji Rata-rata/ Mean Aritmatic dan Uji Median


Pengujian komparas rata-rata dapat dilakukan pada satu
populasi dengan membandingkan terhadap suatu nilai, dua
populasi yang berbeda maupun lebih dari dua populasi. Jika datanya
mengikuti distribusi normal maka dapat menggunakan uji t untuk
uji 1 dan 2 populasi (Welch, 1947). Jika data tidak normal dapat
menggunakan uji komparasi median dengan uji Wilcoxon (Siegel,
1997). Adapun langkah pengujian, dengan menggunakan menu
stata:
• Jika data memenuhi asumsi distribusi normal maka gunakan
parametrik test
Statistics > Summaries, tables, and tests > Classical tests of
hypotheses > t test (mean-comparison test)
• Jika data tidak memenuhi asumsi distribusi normal dan jumlah
data sedikit maka gunakan nonparametrik test
Statistics > Nonparametric analysis > Tests of hypotheses

a. Uji Rata-rata 1 Populasi Univariat


Misalkan akan Output:
diteliti apakah 1. Uji Normalitas Data
rata-rata nilai
gini rasio 34
Provinsi di
Indonesia tahun
2021 sama
dengan 0.35 Karena nilai sign.prob value=0.71820 > alpha (0.05)
maka tidak tolak Ho dan disimpulkan bahwa data
berdistribusi normal
18 AplikAsi stAtA UntUk stAtistisi pemUlA

2. Uji Rata-rata 1 Populasi

Dengan
menggunakan
Sintaks:
* swilk varname
swilk gini2021
* ttest varname Karena nilai sign.prob value=0.5631 > alpha (0.05)
== value, maka tidak tolak Ho dan disimpulkan bahwa rata-rata
level(value) data=0.35
ttest gini2021
== 0.35, level
(95)
Misalkan akan Output:
diteliti apakah 1. Uji Normalitas Data
median nilai
persentase
kemiskinan
34 Provinsi di
Indonesia tahun
2021 sama Karena nilai sign.prob value=0.001 < alpha (0.05) maka
dengan 10 persen tolak Ho dan disimpulkan bahwa bahwa data belum
berdistribusi normal
Pardomuan Robinson Sihombing, SST, M.Stat 19

Dengan 2. Uji Median 1 Populasi


menggunakan
Sintaks:
* swilk varname
swilk
miskin2021
Karena nilai sign.prob value=0.8042 > alpha (0.05)
maka tidak tolak Ho dan disimpulkan bahwa bahwa
* signrank
median data kemiskianan = 10
varname = value
signrank
miskin2021 = 10

b. Uji Rata-rata 2 Populasi Independen Univariat


Misalkan akan Output:
diteliti apakah 1. Uji Normalitas Data
rata-rata nilai
gini rasio tahun
2021 tahun 2021
pada daerah
Sumatera Jawa
sama dengan
daerah selain
Sumatera Jawa

Karena nilai sign.prob value=0.186120 dan 0.42151


> alpha (0.05) maka tidak tolak Ho dan disimpulkan
bahwa data berdistribusi normal
20 AplikAsi stAtA UntUk stAtistisi pemUlA

Dengan 2. Uji Ra-rata 2 Populasi Independen


menggunakan
Sintaks:
*by groupvar,
sort: swilk
varname
by kode, sort:
swilk gini2021

* sdtest varname,
by(groupvar)
Karena nilai sign.prob value=0.4166 > alpha (0.05)
level(value)
maka tidak tolak Ho dan disimpulkan bahwa rata-rata
sdtest gini2021,
kedua populasi sama
by(kode)

* using 2 variable
in 2 coloum
* ttest varname1
== varname2

* using group
* ttest varname,
by(groupvar)
level(value)
ttest gini2021,
by(kode)
Pardomuan Robinson Sihombing, SST, M.Stat 21

Misalkan akan Output:


diteliti apakah 1. Uji Normalitas Data
median nilai IPM
tahun 2021 pada
daerah Sumatera
Jawa sama dengan
daerah selain
Sumatera Jawa

Dengan Karena nilai salah satu sign.prob value=0.001 pada


menggunakan ipm sumatera jawa < alpha (0.05) maka tolak Ho
Sintaks: dan disimpulkan bahwa data belum berdistribusi
* swilk varname normal
swilk miskin2021 2. Uji Median 2 Populasi

* ranksum
varname,
by(groupvar) Karena nilai sign.prob value=0.0173 < alpha (0.05)
ranksum maka tolak Ho dan disimpulkan bahwa median ipm
ipm2021, by kedua populasi data berbeda
(kode)
22 AplikAsi stAtA UntUk stAtistisi pemUlA

c. Uji Rata 2 Populasi Dependen Univariat


Misalkan akan Output:
diteliti apakah Uji Normalitas Data
rata-rata nilai
gini rasio tahun
2021 dan 2021
pada 34 Provinsi
di Indonesia
sama Karena nilai sign.prob value=0.056 dan 0.058 > alpha
(0.05) maka tidak tolak Ho dan disimpulkan bahwa
data berdistribusi normal

b. Uji Ra-rata 2 Populasi Independen


Dengan
menggunakan
Sintaks:
* swilk varname1
varname2
swilk ipm2021
ipm2020

* ttest varname1
== varname2 Karena nilai sign.prob value=0.000 < alpha (0.05) maka
ttest ipm2021 tolak Ho dan disimpulkan maka dikatakan bahwa rata-
== ipm2020 rata IPM tahun 2021 dan 2020 berbeda
Pardomuan Robinson Sihombing, SST, M.Stat 23

Misalkan akan Output:


diteliti apakah 1. Uji Normalitas Data
median nilai
IPM tahun 2021
pada daerah
Sumatera Jawa
sama dengan
daerah selain
Sumatera Jawa Karena nilai sign.prob value=0.00 pada kedua data <
alpha (0.05) maka tolak Ho dan disimpulkan bahwa
data belum berdistribusi normal

Dengan 2. Uji Median 2 Populasi Dependen


menggunakan
Sintaks:
*swilk varname
swilk
miskin2021 Karena nilai sign.prob value=0.000 < alpha (0.05) maka
tolak Ho dan disimpulkan bahwa median persentase
* signrank kemiskinan data berbeda
varname1 ==
varname2
signrank
miskin2021
=miskin 2020

d. Uji rata-rata k populasi univariat / Analysis of


Variance (ANOVA)
Uji ANOVA digunakan untuk menguji apakah nilai rata-rata
populasi untuk k populasi sama atau berbeda. Adapun asumsi
dalam ANOVA adalah data harus berdistribusi normal dan nilai
varian antar populasi yang homogen (Walpole, 2012). Jika data
24 AplikAsi stAtA UntUk stAtistisi pemUlA

tidak berdistribusi normal dapat menggunakan alternatif uji


nonparametric k populasi seperti uji Kruskal Wallis (Siegel, 1997).
Dengan menggunakan menu stata:
• Jika data memenuhi asumsi distribusi normal maka gunakan
parametrik test
Statistics > Linear models and related > ANOVA/MANOVA >
One Way Anova
• Jika data tidak memenuhi asumsi distribusi normal dan jumlah
data sedikit maka gunakan nonparametrik test
Statistics > Nonparametric analysis > Tests of hypotheses
Misalkan akan diteliti Output:
apakah rata-rata nilai 1. Uji Normalitas Data
persentase kemiskinaan
pada daerah Sumatera,
Jawa-Bali dan selain
Sumatera-Jawa-Bali
sama atau berbeda
Pardomuan Robinson Sihombing, SST, M.Stat 25

Dengan menggunakan Karena nilai sign.prob value=0.293, 0.261 dan


Sintaks: 0.062 > alpha (0.05) maka tidak tolak Ho dan
*by groupvar, sort: disimpulkan bahwa data berdistribusi normal
swilk varname
by type, sort : swilk 2. Uji Ragam k Populasi
miskin2021
Karena nilai sign.prob value=0.0666 > alpha
*oneway varname
(0.05) maka tidak tolak Ho dan disimpulkan
groupvar, bonferroni
bahwa variance ketiga data sama/ homogen
oneway miskin2021
type, bonferroni
3. Uji rata-rata k populasi/ Anova

Karena nilai sign.prob value=0.2497 > alpha


(0.05) maka tidak tolak Ho dan disimpulkan
bahwa tingkat persentase kemiskinan ketiga data
dianggap sama
4. uji pos hoc
26 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan akan Output:


diteliti apakah rata- 1. Uji Normalitas Data
rata nilai persentase
ipm pada daerah
Sumatera,
Jawa-Bali dan selain
Sumatera-Jawa-Bali
sama atau berbeda

Karena terdapat nilai sign.prob value=0.02 pada


daerah jawa bali data < alpha (0.05) maka tolak
Ho dan disimpulkan bahwa data pada kelompok
itu belum berdistribusi normal
Dengan 2. Uji median k populasi/ Kruskal walis
menggunakan
Sintaks:
*by groupvar, sort:
swilk varname
by type, sort : swilk
ipm2021

* kwallis varname
groupvar
kwallis
miskin2021,
by(type)
Pardomuan Robinson Sihombing, SST, M.Stat 27

Karena nilai sign.prob value=0.3807 > alpha


(0.05) maka tidak tolak Ho dan disimpulkan
bahwa tingkat ipm ketiga data dianggap sama

e. Uji rata-rata k populasi multivariat / Multivariat


Analysis of Variance (MANOVA)
Uji Manova digunakan untuk menguji apakah beberapa nilai
rata-rata populasi untuk k kategori secara sekaligus. Adapun asumsi
dalam MAVOVA adalah data harus berdistribusi multivariat normal
dan nilai matrik kovarian yang homogen (Johnson & Wichern,
1998).
Dengan menggunakan menu stata:
• Statistics > Linear models and related > ANOVA/MANOVA >
MANOVA
* mvtest means Output:
varname1… 1. Uji Multivarait Normal Data
varnamek,
by(vargroup)
mvtest means
ipm2021 ipm2020,
Karena nilai sign.prob value=0.0864 > alpha
by(type)
(0.05) maka tidak tolak Ho dan disimpulkan
bahwa data berdistribusi normal multivariat
Misalkan akan 2. Uji Kovarian k Populasi
diteliti apakah rata-
rata nilai IPM pada
daerah Sumatera,
Jawa-Bali dan selain
Sumatera-Jawa-Bali
sama atau berbeda Karena nilai sign.prob value=0.0023 < alpha
sekaligus pada (0.05) maka tolak Ho dan disimpulkan bahwa
tahun 2020 dan kovarian kedua data berbeda (heterogeny)
2021
28 AplikAsi stAtA UntUk stAtistisi pemUlA

3. Uji rata-rata k populasi multivariat/ MANOVA

Dengan
menggunakan
Sintaks:
*mvtest normality
varname1… Karena nilai sign.prob value=0.0010 < alpha
varnamek (0.05) maka tolak Ho dan disimpulkan bahwa
mvtest normality tingkat persentase ipm ketiga data dianggap
ipm2021 ipm2020 tahun 2021 dan 2020 ada yang beda.

*mvtest covariances
4. uji pos hoc selanjutnya menggunakan ANOVA
varname1…
varnamek
mvtest covariances
ipm2021 ipm2020

3. Uji Proporsi
Pengujian proporsi digunakan untuk membandingkan apakah
proporsi suatu kategori sama terhadap nilai yang dihipotiskan
(untuk uji 1 populasi) maupun apakah proporsi suatu kategori sama
terhadap dua populasi yang berbeda. Uji proporsi menggunakan ui
z (Walpole, 2012) .
Dengan menggunakan menu stata:
Statistics > Summaries, tables, and tests > Classical tests of
hypotheses > Proportion test
Pardomuan Robinson Sihombing, SST, M.Stat 29

a. Uji Proporsi 1 Populasi


Misalkan akan Output:
diteliti apakah data
30 data yang ada
proporsi laki-laki
(kode=1) =0.5

Dengan
menggunakan
Sintaks: Karena nilai sign.prob value=0.7150 > alpha
* prtest varname == (0.05) maka tidak tolak Ho dan disimpulkan
value test bahwa proporsi pria =0.5
prtest gendera ==
0.5

b. Uji Ragam 2 Populasi


Misalkan akan diteliti Output:
apakah data 30 data
yang ada proporsi
laki-laki (kode=1)
daerah A = proprosi
laki-laki daerah B

Dengan menggunakan
Sintaks:
Karena nilai sign.prob value=0.2918 > alpha
# prtest varname ==
value test (0.05) maka tidak tolak Ho dan disimpulkan
prtest gendera == 0.5 bahwa proporsi pria di kota A sama dengan di
kota B.
30 AplikAsi stAtA UntUk stAtistisi pemUlA

c. Uji Proporsi k Populasi


Selanjutnya adalah melakukan uji komparasi terhadap k
populasi. Statistik yang digunakan adalah uji chi square (Breiman,
1973).
Misalkan akan diteliti Output:
apakah dari 100
data responden yang
terdiri atas 4 katgeori
Pendidikan (SD, SMP,
SMA dan PT) apakah
Karena nilai sign.prob value=0.003 < alpha
proporsinya sama jika
(0.05) maka tolak Ho dan disimpulkan maka
yang terkumpul masing-
dikatakan bahwa proporsi jumlah responden
masing sebanyak 25, 20,
per kategori pendidikan tidak sama
15, 40

Dengan menggunakan
Sintaks:
* chitesti n1 n2 n4 … nk
chitesti 25 20 15 40
Uji Pembeda/ Analisis Diskriminan
Analisis diskriminan merupakan salah satu jenis analisis
dalam statistic multivariat. Dalam analisis diskriminan bertujuan
mengetahui variabel apa saja yang mampu membedakan kategori
dua atau lebih populasi. Selain itu dalam analisis ini akan terbentuk
persamaan diskriminan yang dapat memprediksi klasifikasi dari
sampel yang ada maupun sampel yang baru. Dalam hal ini variabel
dependennya berupa data kategorik sedangkan variabel independen
berupa data numerik. Adapun syarat dalam analisis diskriminan
adalah variabel independent berdistribusi multivariat normal
(Johnson & Wichern, 1998). Dengan menggunakan menu stata:
Statistics > Multivariate analysis > Discriminant analysis > Linear
(LDA)
Untuk data contoh pada pengujian diskriminan dapat
didownload di link berikut: shorturl.at/muAEP
Misalkan akan diteliti Output:
apakah nilai IPM, Asumsi Multivariat Normal
gini dan kemiskinan
mampu membedakan
karakteristik daerah
Sumatera-Jawa dan
Karena nilai sign.prob value=0.0508 > alpha (0.05)
selain Sumatera-Jawa
maka tidak tolak Ho dan disimpulkan bahwa data
berdistribusi normal multivariat
32 AplikAsi stAtA UntUk stAtistisi pemUlA

Dengan Uji Anova Pembeda


menggunakan
Sintaks:
* mvtest normality
varname
mvtest normality
miskin2021 gini2021
ipm2021
Dari hasil di atas hanya variabel ipm yang mampu
* discrim lda
membedakan kedua daerah tersebut
varname,
group(groupvar) Nilai akurasi/ hit rasio
discrim lda
miskin2021
gini2021 ipm2021,
group(kode)
estat anova
estat classfunctions

Model mampu memprediksi dengan tepat sebesar


(14+9)/334*100= 67.64 persen

Fungsi Diskiriman

Daerah1= -390.834 +5.79miskin2021-246.50


gini2021+11.18 ipm
Uji Korelasi
Pengujian korelasi digunakan untuk melihat arah dan kuat/
besaran hubungan antar variabel. Jika koefisien korelasi bertanda
positif artinya hubungannya searah, dimana kenaikan nilai
satu variabel juga diikuti kenaikan variabel lainnya, sebaliknya
penurunan nilai suatu variabel diikuti penurunan variabel lainnya.
Jika koefisien korelasi bertanda negatif artinya hubungannya
berlawanan arah, dimana kenaikan nilai satu variabel juga diikuti
penurunan variabel lainnya, sebaliknya penurunan nilai suatu
variabel diikuti kenaikan variabel lainnya. Nilai korelasi berkisar
antara -1 sampai 1. Nilai absolut korelasi 0-0.5 besaran korelasinya
dianggap lemah, jika nilai absolut nya diantara 0.51-0.70 besaran
korelasinya dianggap moderat sedangkan jika nilai absolutnya
0.71-0.99 besaran korelasinya dianggap kuat. Korelasi hanya
menyatakan ada tidaknya serta besaran hubungan antar variabel,
tidak menjelaskan hubungan sebab akibat.

1. Korelasi Pearson
Korelasi pearson adalah metode hubungan antar variabel
kuantitatif. Syarat data dalam korelasi pearson adalah data
berdistribusi normal dengan pola hubungan linier (Walpole, 2012).
34 AplikAsi stAtA UntUk stAtistisi pemUlA

Dengan menggunakan menu stata:


Statistics > Summaries, tables, and test > Summaries and
Descriptive Statistic>Pairwise Correlation
Untuk data contoh pada pengujian korelasi pearson dapat
didownload di link berikut: shorturl.at/muAEP
Misalkan akan 1. Uji Normalitas Data
diteliti apakah
ada hubungan
antara ipm dan
gini tahun
2021
Karena nilai sign.prob value=0.056 dan 0.718 >
alpha (0.05) maka tidak tolak Ho dan disimpulkan
bahwa data berdistribusi normal
Dengan
menggunakan
2. Uji Korelasi Pearson
Sintaks:
* swilk
varname1
varname2
swilk ipm2021
gini2021

* pwcorr Besarnya nilai koefisien korelasi 0.1582 (korelasi


varname1 positif lemah), karena nilai sign.prob value=0.3715>
varname2, sig alpha (0.05) maka tidak tolak Ho dan disimpulkan
pwcorr gini2021 belum cukup bukti dikatakan ada hubungan ipm
ipm2021, sig dan gini.
Pardomuan Robinson Sihombing, SST, M.Stat 35

2. Korelasi Spearman
Korelasi spearsman adalah metode hubungan antar
variabel kuantitatif, dimana datanya tidak harus berdistribusi
normal (Siegel, 1997).
Dengan menggunakan menu stata:
Statistics > Nonparametric analysis > Tests of hypotheses >
Spearman’s rank correlation
Untuk data contoh pada pengujian korelasi spearman dapat
didownload di link berikut: shorturl.at/muAEP
Misalkan akan 1. Uji Normalitas Data
diteliti apakah
ada hubungan
antara ipm dan
miskin tahun
2021

Karena nilai sign.prob value persentase kemiskinan=


0.0011 < alpha (0.05) maka tolak Ho dan disimpulkan
Dengan bahwa datanya belum berdistribusi normal
menggunakan
Sintaks:
2. Uji Korelasi Spearman
* swilk varname1
varname2
swilk ipm2021
miskin2021

* spearman
varname1
varname2,
stats(p) Besarnya nilai koefisien korelasi sebesar -0.5458
spearman (negatif moderat). Karena nilai sign.prob value=0.000
ipm2021 < alpha (0.05) maka tolak Ho dan disimpulkan bahwa
miskin2021, hubungan ipm dan persentase kemiskinan yang
stats(p) signifikan
36 AplikAsi stAtA UntUk stAtistisi pemUlA

Untuk data contoh pada pengujian korelasi kendall sampai


korelasi kanonik dapat didownload di link berikut: shorturl.at/fgxS5

3. Korelasi Kendall
Korelasi kendall adalah metode hubungan antar variabel
kualitatif/ ordinal, dimana datanya tidak harus berdistribusi normal
(Siegel, 1997).
Dengan menggunakan menu stata:
Statistics > Nonparametric analysis > Tests of hypotheses >
Kendall’s rank correlation
Misalkan akan 1. Uji Normalitas Data
diteliti apakah ada
hubungan displin
dan kinerja yang
dikukur dengan
skala ordinal likert

Karena nilai sign.prob value disiplin=0.0000 <


alpha (0.05) maka tolak Ho dan disimpulkan bahwa
datanya belum berdistribusi normal.
Dengan
menggunakan
2. Uji Korelasi Kendall Tau
Sintaks:

* swilk varname1
varname2
swilk disiplin
kinerja

* ktau varname1
varname2
ktau disiplin
kinerja
Pardomuan Robinson Sihombing, SST, M.Stat 37

Besarnya nilai korelasi 0.1208 (positif lemah). Karena


nilai sign.prob value=0.0694 > alpha (0.05) maka
tidak tolak Ho dan disimpulkan bahwa belum cukup
bukti ada hubungan antara dispilin dan kinerja.

4. Korelasi Poin Biserial


Korelasi Poin Biserial adalah metode hubungan antar variabel
kategori (dikotomos/ binary) dengan variabel kuantitatif (interval
dan nomimal) (Crocker & Algina, 1986).
Misalkan akan Uji Korelasi Poin Biserial
diteliti apakah
ada hubungan
antara aktivitas
(olah raga dan
tidak olahraga)
Nilai koefisien korelasi sebesar 0.7866 (positif
dengan tingkat
moderat). Karena nilai sign.prob value=0.0024 <
stamina
alpha (0.05) maka tolak Ho dan disimpulkan bahwa
ada hubungan antara jenis aktivitas terhadap tingkat
stamina.

Dengan
menggunakan
Sintaks:

* pbis bvar cvar


ssc install pbis
pbis aktivitas
stamina
38 AplikAsi stAtA UntUk stAtistisi pemUlA

5. Korelasi Tetachoric
Korelasi Tetachoric adalah metode hubungan antar variabel
kategori (dikotomos/ binary) yang berskala ordinal (Edwards &
Edwards, 1984).
Misalkan akan Uji Tetracoric
diteliti apakah ada
hubungan antara
status pekerjaan
(karyawan dan
manajer/ direktur)
dengan status
perumahan yang
Nilai koefisien korelasi sebesar 0.3019 (positif
ditempati (kontrakan
lemah). Karena nilai sign.prob value=0.6084
dan perumahan)
> alpha (0.05) maka tidak tolak Ho dan
disimpulkan maka dikatakan bahwa belum
cukup bukti ada hubungan antara status
pekerjaan dengan status perumahan yang
ditempati.
Dengan menggunakan
Sintaks:

* tetrachoric bvar1
bvar2
ssc install
tetrachoric
tetrachoric status
perumahan
Pardomuan Robinson Sihombing, SST, M.Stat 39

6. Korelasi Polychoric
Korelasi Polikhoric adalah metode hubungan antar variabel
berskala ordinal yang berdistribusi normal (Garson, 2013).
Misalkan akan 1. Uji Normalitas Data
diteliti apakah ada
hubungan penilaian
rangking juri 1 dan
juri 2 terhadap 15
peserta audisi
Karena nilai sign.prob value=0.754 > alpha
(0.05) maka tidak tolak Ho dan disimpulkan
maka dikatakan bahwa data berdistribusi
normal

2. Uji Polychoric

Dengan menggunakan
Sintaks:

* polychoric varname1
Nilai koefisien korelasi sebesar 0.97 (positif
varname2
kuat). Karena nilai sign.prob value=0.00 < alpha
ssc install polychoric
(0.05) maka tolak Ho dan disimpulkan bahwa
polychoric juri1 juri2
ada hubungan antara penilaian peringkat juri1
dan juri2.
40 AplikAsi stAtA UntUk stAtistisi pemUlA

7. Korelasi Phi
Korelasi Phi adalah metode hubungan antar variabel berskala
nominal dikothomus/ binary (Garson, 2013).
Misalkan akan diteliti Korelasi Phi
apakah ada hubungan
antara gender
(perempuan dan
laki-laki) dengan jenis
tontonan (sinetron
dan berita)

Nilai koefisien korelasi sebesar 0.491 (positif


lemah). Karena nilai sign.prob value=0.057
> alpha (0.05) maka tidak tolak Ho dan
disimpulkan belum cukup bukti ada hubungan
Dengan menggunakan
antara gender dengan jenis tontonan.
Sintaks:

* phi varname1
varname2
ssc install phi
phi gender tontonan

8. Korelasi Cramer V
Korelasi Cramer V adalah metode hubungan antar variabel
berskala nominal yang berukuran mxm (Garson, 2013).
Dengan menggunakan menu stata:
Statistics > Summaries, tables, and tests > Frequency tables >
Two-way table with measures of association
Pardomuan Robinson Sihombing, SST, M.Stat 41

Misalkan akan diteliti Korelasi Phi


apakah ada hubungan
antara kepemilikan
TV (mnc, bakery dan
CT) dengan jumlah
acara (sinetron, berita
dan olah raga)

Nilai koefisien korelasi sebesar 0.3652 (positif


Dengan lemah). Karena nilai sign.prob value=0.057
menggunakan > alpha (0.05) maka tidak tolak Ho dan
Sintaks: disimpulkan bahwa belum cukup bukti ada
hubungan antara jenis kepemilikan TV dengan
* tabulate varname1 jumlah penonton jenis acara.
varname2, chi V
tabulate tv acara, chi
V

9. Korelasi Kruskal Gamma


Korelasi Kruskal Gamma adalah metode hubungan antar
variabel berskala ordinal yang berukuran mxn (Goodman &
Kruskal, 1954).
Dengan menggunakan menu stata:
Statistics > Summaries, tables, and tests > Frequency tables >
Two-way table with measures of association
42 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan akan diteliti Korelasi Gamma


apakah ada hubungan
antara tingkat
pendidikan (<=SMA
dan > SMA) dengan
penghasilan (rendah,
sedang dan tinggi)

Nilai koefisien korelasi sebesar 0.0952 (positif


lemah). Karena nilai sign.prob value=0.411
Dengan menggunakan > alpha (0.05) maka tidak tolak Ho dan
Sintaks: disimpulkan belum cukup bukti ada hubungan
antara tingkat Pendidikan dengan tingkat gaji
* tabulate varname1
varname2, gamma
tabulate educ salary,
gamma

10. Korelasi Kruskal Lamda


Korelasi Kruskal Gamma adalah metode hubungan antar
variabel berskala nominal yang berukuran mxn (Goodman &
Kruskal, 1954).
Pardomuan Robinson Sihombing, SST, M.Stat 43

Misalkan akan diteliti Korelasi Lambda


apakah ada hubungan
antara gender
(perempuan dan
laki-laki) dengan jenis
tontonan (sinetron
dan berita)

Dengan menggunakan
Sintaks: Nilai koefisien korelasi sebesar 0.3846 (positif
lemah). Karena nilai sign.prob value=> alpha
* lamda varname1 (0.05) maka tidak tolak Ho dan disimpulkan
varname2, gamma belum cukup bukti ada hubungan antara gender
ssc install lambda dengan jenis tontonan
lamda gender
tontonan

11. Korelasi Kanonik


Korelasi kanonik merupakan salah satu analisis dalam
multivariat data. Korelasi kanonik digunakan untuk melihat
hubungan satu set variabel kuantittaif x dengan satu set variabel
kuantitatif y (Johnson & Wichern, 1998). Asumsi data harus
mengikuti distribusi multivariat normal.
44 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan akan diteliti Uji Multivariat Normal


apakah ada hubungan
satu set variabl y (y1
dan y2) dengan satu
set variabel x (x1, x2,
Karena nilai sign.prob value =0.0845 > alpha
x3 dan x4)
(0.05) maka tidak tolak Ho dan disimpulkan
bahwa datanya sudah berdistribusi multivariat
normal

Dengan menggunakan
Sintaks: Korelasi Kanonik

* mvtest normality
varname varname
mvtest normality y1
y2 x1 x2 x3 x4
*canon (setx) (sety)
canon (x1 x2 x3 x4)
(y1 y2)

Koefisien korelasi sebesar 0.9342 dan 0.3939.


Karena nilai sign.prob value 0.0000 < alpha
(0.05) maka tolak Ho dan disimpulkan bahwa
ada hubungan antar set variabel.
Regresi Linier Berganda Pada Data Cross
Section Gaussian
Salah satu pemodelan sebab akibat yang sering digunakan
adalah model regresi. Jika data yang digunakan merupakan data
cross section (satu periode), dengan jumlah variabel independen
lebih dari 1 dan data diasumsikan berdistibusi normal maka
model regresi dengan teknik estimasi ordinary least square (OLS)
tepat digunakan. Model regresi ini sering disebut model regresi
gaussian, yang memiliki asumsi klasik yaitu normalitas, multikol,
heterokedastisitas dan linearitas (Gujarati, 2004). Adapun langkah
pengujian, dengan menggunakan menu stata:
• Statistics > Linear models and related > Linear regression
• Statistics > Postestimation
Untuk data contoh pada pengujian regresi linier berganda pada
data cross section dapat didownload di link berikut: shorturl.at/
muAEP
Misalkan akan a.Pengujian Asumsi
diteliti pengaruh gini i.normalitas
rasio dan IPM di 34 Ho: data berdistribusi normal
Provinsi di Indonesia H1: data tidak berdistribusi normal
Tahun 2021
46 AplikAsi stAtA UntUk stAtistisi pemUlA

Dengan menggunakan
Sintaks:
set more off
*deskriptive
* sum y x1 x2 ... xp
sum miskin2021
Karena nilai sign.prob value =0.3223 > alpha
gini2021 ipm2021
(0.05) maka tidak tolak Ho dan disimpulkan
bahwa datanya sudah berdistribusi normal
*run model ols
* regress y x1 x2 ... xp
regress miskin2021
gini2021 ipm2021

*simpan error untuk


uji normalitas
predict resid, r

*uji multikol ii. uji heterokedastis


vif Ho: varian data homogen (non heterokedastis)
H1: varian data heterokedastis
*uji normalitas
sktest resid
swilk resid

*uji hetero
hettest

*uji linearitas
estat ovtest
Karena nilai sign.prob value =0.5477 > alpha
(0.05) maka tidak tolak Ho dan disimpulkan
bahwa varian datanya homogen, bebas asumsi
heterokedastisitas
Pardomuan Robinson Sihombing, SST, M.Stat 47

iii. uji linearitas


Ho: model linier
H1: model tidak linier

Karena nilai sign.prob value =0.3226 > alpha


(0.05) maka tidak tolak Ho dan disimpulkan
modelnya linier.

iv. uji multikolinearitas


Ho: tidak ada multikolinearitas yang tinggi
antar variabel independen
H1: ada multikolinearitas yang tinggi antar
variabel independen

Karena nilai VIF < 10 maka tidak tolak Ho


dan disimpulkan modelnya bebas asumsi
multikolinearitas.\
48 AplikAsi stAtA UntUk stAtistisi pemUlA

b. Pengujian Goodness of Fit

i. koefisien determinasi (adjusted r square)


Nilai r adj-0.6271 artinya variasi kemiskinan
tahun 2021 mampu dijelaskan oleh gini dan ipm
sebesar 60.30 persen sisanya 39.70 oleh variabel
lain di luar model.
ii. uji simultan/ anova/uji F
Ho: model tidak fit/ tidak ada variabel yang
berpengaruh
H1: model fit/ minimal 1 variabel
independen yang berpengaruh

Karena nilai sign.prob value F =0.000


< alpha (0.05) maka tolak Ho dan
disimpulkan modelnya fit/ minimal 1
variabel yang berpengaruh.
Pardomuan Robinson Sihombing, SST, M.Stat 49

iii. uji parsial/ uji t


Ho: variabel independen ke-i tidak
berpengaruh
H1: variabtel independen ke-i berpengaruh

Karena nilai sign.prob value t =0.000


< alpha (0.05) maka tolak Ho dan
disimpulkan variabel independent
berpengaruh signifikan.
iv. persamaan regresi
= 63.28-1.009 ipm+55.53 gini
• Nilai koefisien ipm negatif artinya
kenaikan IPM akan menurunkan persentase
kemiskinan dengan asumsi variabel lain
konstan
• Nilai koefisien gini positif artinya
kenaikan gini akan menaikkan persentase
kemiskinan dengan asumsi variabel lain
konstan.
Regresi Binary Logistik Pada Data Cross
Section
Jika seorang peneliti melakukan pemodelan sebab akibat
dengan variabel dependen berupa data kategorik dengan dua kriteria
baik berupa data nominal maupun ordinal maka model regresi
yang tepat adalah model regresi binary (Gujarati, 2004). Model
regresi binary masuk ke dalam model Generalized Linear Model
(GLM). Di dalam model GLM terdapat tiga komponen utama yaitu
komponen distribusi acak, yaitu berdistribusi keluarga
eksponensial; komponen prediktor linier, yaitu ; dan fungsi link
yaitu fungsi monoton dan diferensiabel sehingga .
Fungsi link dapat berupa fungsi logit, probit dan complementari log-
log (Agresti, 2002). Dalam regresi binary logistic perlu diperhatikan
komposisi antar kategori variabel dependennya, jika proporsinya
tidak seimbang (imbalanced), maka dapat menggunakan
imbalanced model untuk data binary, atau dapat menggunakan
model quasy binary logistic maupun skew binary logistic Adapun
langkah pengujian, dengan menggunakan menu stata:
Statistics > Binary outcomes > Logistic regression
Untuk data contoh pada pengujian regresi binary logistik dapat
didownload di link berikut: shorturl.at/rwAD5
Pardomuan Robinson Sihombing, SST, M.Stat 51

Misalkan akan diteliti a. Pengujian Asumsi


pengaruh keadaan i. Uji Hosmer
lahir kembar dan Ho: model fit/ sesuai
jarak antar kelahiran
dengan resiko berat H1: model tidak fit
badan bayi (0=normal,
1=berat bayi lahir
rendah)

Dengan menggunakan
Sintaks:
set more off
*deskriptif
tabulate
kelahirankembar
status, cell
tabulate jarakkelahiran Karena nilai sign.prob value =0.1242 > alpha (0.05)
status, cell maka tidak tolak Ho dan disimpulkan modelnya fit
*logistic y x1 x2 ... xp, ii. Uji Ketepan Model
coef
*logistic y x1 x2 ... xp
logistic status
kelahirankembar
jarakkelahiran
logistic status
kelahirankembar
jarakkelahiran, coef

*uji hosmer : estat gof


estat gof
* confussion matrix :
estat classification
estat classification
*nilai AUC: lroc
lroc
52 AplikAsi stAtA UntUk stAtistisi pemUlA

Model mampu memprediksi dengan tepat sebesar


92.82 persen
iii. Nilai AUC

Nilai AUC di atas 0.5 sehingga modelnya sudah


baik
b. Pengujian Kebaikan Model

i. koefisien determinasi (pseudo r square)


Nilai pseudo r2 0.335 artinya variasi kejadian
bayi lahir rendah mampu dijelaskan oleh kelahiran
kembar dan jarak kelahiran sebesar 3.35 persen
sisanya variabel lain di luar model.
ii. uji simultan/ uji chi2
Ho: tidak ada variabel yang berpengaruh
H1: minimal 1 variabel independen yang
berpengaruh

Karena nilai sign.prob value chi2 =0.000 < alpha


(0.05) maka tolak Ho dan disimpulkan minimal
1 variabel yang berpengaruh.
Pardomuan Robinson Sihombing, SST, M.Stat 53

iii. uji parsial/ uji z/ uji wald


Ho: variabel independen ke-i tidak berpengaruh
H1: variabel independen ke-i berpengaruh

Karena nilai sign.prob value z =0.000 < alpha


(0.05) maka tolak Ho dan disimpulkan variabel
independent berpengaruh signifikan
iv. persamaan regresi
=-5.88+0.2036 jarak lahir+ 2.99 kembar

• Nilai koefisien jarak lahir positif artinya


peluang BBLR lebih tinggi pada bayi yang lahir
kembar dibanding yang tidak kembar dengan
odds sebesar exp (2.99) =19,96 kali, dengan
asumsi variabel lain konstan
• Nilai jarak lahir positif artinya peluang BBLR
lebih tinggi pada kelahiran dengan jarak < 2
tahun dibanding jarak kelahiran > 2 tahun,
dengan odds sebesar exp (0.2036) =1.22 kali,
dengan asumsi variabel lain konstan.
Untuk data contoh pada pengujian regresi ordinal sampai
dengan regresi beta dapat didownload di link berikut: shorturl.at/
axzS7
Regresi Ordinal Logistik Pada Data Cross
Section
Jika seorang peneliti melakukan pemodelan sebab akibat
dengan variabel dependen berupa data kategorik dengan lebih
dari dua kriteria yang dapat diurutkan (ordinal) maka model
regresi yang tepat adalah model regresi ordinal (Gujarati, 2004).
Model regresi ordinal juga masuk ke dalam model Generalized
Linear Model (GLM). Fungsi link dapat berupa fungsi logit, probit
dan complementari log-log (Agresti, 2002). Dalam model ordinal
regression hal yang perlu diperhatikan adalah asumsi/ asas pararel
line/ proportional odss, jika asumsi ini tidak terpenuhi maka dapat
menggunakan model penalized/ regulazation ordinal regression.
Adapun langkah pengujian, dengan menggunakan menu stata:
Statistics > Ordinal outcomes > Ordered logistic regression
Misalkan akan diteliti a. Pengujian Asumsi
pengaruh sosial score dan i. Uji Paralel Line
jenis kelamin terhadap Ho: model paralel/ proportional
kemampuan TPA/ SES H1: model tidak paralel
(1=rendah, 2=sedang,
3=tinggi)
Pardomuan Robinson Sihombing, SST, M.Stat 55

Dengan menggunakan Karena nilai sign.prob value =0.3068 >


Sintaks: alpha (0.05) maka tidak tolak Ho dan
set more off disimpulkan modelnya memenuhi asumsi
*ologit y x1 x2 ... xp paralel line
ologit ses female socst, or
*omodel y x1 x2 ... xp b. Pengujian Kebaikan Model
ssc install omodel
omodel logit ses female
socst

i. koefisien determinasi (pseudo r square)


Nilai pseudo r2 0.0671 artinya variasi nilai
SES mampu dijelaskan oleh gender dan nilai
socst sebesar 6.71 persen sisanya variabel
lain di luar model.
ii. uji simultan/ uji chi2
Ho: tidak ada variabel yang
berpengaruh
H1: minimal 1 variabel independen
yang berpengaruh

Karena nilai sign.prob value chi2 =0.000


< alpha (0.05) maka tolak Ho dan
disimpulkan minimal 1 variabel yang
berpengaruh.
56 AplikAsi stAtA UntUk stAtistisi pemUlA

iii. uji parsial/ uji z/ uji wald


Ho: variabel independen ke-i tidak
berpengaruh
H1: variabel independen ke-i
berpengaruh

Karena nilai sign.prob value z =0.000


< alpha (0.05) maka tolak Ho dan
disimpulkan variabel independen
berpengaruh signifikan
iv. persamaan regresi
=1.84-0.58 female+ 0.066
socst

=4.16-0.58 female+ 0.066


socst

• Nilai koefisien female negatif artin-


ya peluang nilai SES tinggi pada Wani-
ta lebih rendah dibandingkan laki-laki,
dengan asumsi variabel lain konstan
• Nilai koefisien socst positif artinya
semakin tinggi nilai sosst maka pelu-
ang nilai SES juga meningkat, dengan
asumsi variabel lain konstan.
Regresi Multinomial Logistik Pada Data
Cross Section
Jika seorang peneliti melakukan pemodelan sebab akibat
dengan variabel dependen berupa data kategorik dengan lebih dari
dua kriteria yang tidak dapat diurutkan/ dibandingkan (nominal)
maka model regresi yang tepat adalah model regresi multinomial
(Agresti, 2002). Model regresi multinominal juga masuk ke dalam
model Generalized Linear Model (GLM). Fungsi link dapat berupa
fungsi logit, probit dan complementari log-log (Agresti, 2002).
Adapun langkah pengujian, dengan menggunakan menu stata:
Statistics > Categorical outcomes > Multinomial logistic
regression
58 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan akan diteliti Pengujian Kebaikan Model


pengaruh math
dan science score
terhadap pemilihan
program perkuliahan
(1=general,
2=vocational,
3=academic)

Dengan menggunakan
Sintaks:
set more off
* mlogit y x1 x2 ... xp
* mlogit y x1 x2 ... xp,
err

mlogit prog math


science i. koefisien determinasi (pseudo r square)
mlogit prog math Nilai pseudo r2 0.1422 artinya variasi jenis
science, rrr
program, mampu dijelaskan oleh nilai math dan
science sebesar 14.22 persen sisanya variabel lain
di luar model.
ii. uji simultan/ uji chi2
Ho: tidak ada variabel yang berpengaruh
H1: minimal 1 variabel independen yang
berpengaruh
Pardomuan Robinson Sihombing, SST, M.Stat 59

Karena nilai sign.prob value chi2 =0.000 <


alpha (0.05) maka tolak Ho dan disimpulkan
minimal 1 variabel yang berpengaruh.
iii. uji parsial/ uji z/ uji wald
Ho: variabel independen ke-i tidak
berpengaruh
H1: variabel independen ke-i berpengaruh
Karena nilai sign.prob value z =0.000 <
alpha (0.05) maka tolak Ho dan disimpulkan
variabel independen berpengaruh signifikan
iv. persamaan regresi
=1.84-0.58 female+ 0.066 socst
=4.16-0.58 female+ 0.066 socst
Regresi Poisson Pada Data Cross Section
Jika seorang peneliti melakukan pemodelan sebab akibat
dengan variabel dependen berupa data cacahan/ diskrit maka
model regresi yang tepat adalah model regresi poisson (Agresti,
2002). Model regresi multinominal juga masuk ke dalam model
Generalized Linear Model (GLM). Fungsi link dapat berupa fungsi
log (Agresti, 2002). Dalam pemodelan regresi poisson, salah satu
persyaratan adalah model harus memenuhi asas equidispertion
yang artinya nilai harapan/ mean/ expected value sama dengan nilai
ragam/ varian datanya. Jika asumsi ini tidak terpenuhi, dikarenakan
banyaknya nilai nol maka dapat menggunakan model zero inflated
poisson (zip), akan tetapi jika dikarenakan varian data yang tidak
homogen maka dapat menggunkan quasi poisson, general poisson,
maupun negative binomial regression. Jika terjadi kombinasi akibat
adalah banyak nilai nol (excess zero) atau hurdle poisson dan varian
data yang tidak seragam maka dapat menggunakan hurdle poisson
atau zero inflated negative binomial. Adapun langkah pengujian,
dengan menggunakan menu stata:
Statistics > Count outcomes > Poisson regression
Pardomuan Robinson Sihombing, SST, M.Stat 61

Misalkan akan diteliti a. Pengujian Asumsi


pengaruh type rumah Uji Equidispersi
sakit dan jumlah pasien Ho: data equidispersi {E(x)= Var(x)}
terhadap jumlah kasus
H1: data over/under dispersi
operasi cesar

Dengan menggunakan
Sintaks:
set more off
*poisson y x1 x2 ... xp
*estat gof
Karena nilai sign.prob value =0.3864 > alpha
poisson operasicesar (0.05) maka tidak tolak Ho dan disimpulkan
tipe_rumahsakit jumlah modelnya memenuhi asumsi equidispersi
pasien
estat gof
b. Uji Kebaikan Model

i. koefisien determinasi (pseudo r square)


Nilai pseudo r2 0.4388 artinya variasi jumlah
operasicesar, mampu dijelaskan oleh tipe
rumahsakit dan jumlah pasien sebesar 43.88
persen sisanya variabel lain di luar model.
62 AplikAsi stAtA UntUk stAtistisi pemUlA

ii. uji simultan/ uji chi2


Ho: tidak ada variabel yang berpengaruh
H1: minimal 1 variabel independen yang
berpengaruh

Karena nilai sign.prob value chi2 =0.000 <


alpha (0.05) maka tolak Ho dan disimpulkan
minimal 1 variabel yang berpengaruh.
iii. uji parsial/ uji z/ uji wald
Ho: variabel independen ke-i tidak
berpengaruh
H1: variabel independen ke-i berpengaruh

Karena nilai sign.prob value z =0.000 <


alpha (0.05) maka tolak Ho dan disimpulkan
variabel independen berpengaruh signifikan
iv. persamaan regresi
log(operasicesar)=1.35+1.0451tipeRS+0.0003
jumlah pasien.
• Nilai koefisien tipe rumah sakit artinya
peluang jumlah operasi cesar meningkat
pada tipe RS kedua, dengan asumsi variabel
lain konstan
• Nilai koefisien jmlh pasien positif artinya
banyak pasien di RS maka peluang jumlah
operasi cesar akan, dengan asumsi variabel
lain konstan
Regresi Interval Pada Data Cross Section
Jika seorang peneliti melakukan pemodelan sebab akibat
dengan variabel dependen berupa data interval (datanya dapat
berupa nilai minimum dan maksimum dalam suatu interval) maka
model regresi yang tepat adalah model regresi interval (Agresti,
2002). Model regresi interval juga masuk ke dalam model cencored
atau Tobit model (Long, 1997). Adapun langkah pengujian, dengan
menggunakan menu stata:
Statistics > Linear models and related > Censored regression >
Interval regression
Misalkan Uji Kebaikan Model
akan diteliti
kemampuan
matematika dan
jenis program
terhadap nilai IPK
mahasiswa

Dengan
menggunakan
Sintaks:
set more off
*intreg y1 y2 x1 x2
... xp • Nilai koefisien read signifikan negatif
intreg lgpa ugpa sedangkan nilai program menunjukkan belum
read prog cukup bukti mempengaruhi interval IPK
mahasiswa
Regresi Beta Pada Data Cross Section
Jika seorang peneliti melakukan pemodelan sebab akibat
dengan variabel dependen berupa data yang nilainya berupa data
rasio/ fraktional dan nilainya tersensor dari 0 hingga maka model
regresi yang tepat adalah model regresi beta (Cook, Kieschnick,
& McCullough, 2008). Adapun langkah pengujian, dengan
menggunakan menu stata:
Statistics > Fractional outcomes > Beta regression
Misalkan akan Uji Kebaikan Model
diteliti pengaruh
tekanan suhu
dan lokasi batch
terhadap proporsi
zat X pada tanah
(yield)

Dengan
menggunakan
Sintaks:
set more off
*betareg y x1 x2 ...
xp i. uji simultan/ uji chi2
betareg yield Ho: tidak ada variabel yang berpengaruh
pressure temp batch H1: minimal 1 variabel independen yang
berpengaruh
Pardomuan Robinson Sihombing, SST, M.Stat 65

Karena nilai sign.prob value chi2 =0.000 <


alpha (0.05) maka tolak Ho dan disimpulkan
minimal 1 variabel yang berpengaruh.
ii. uji parsial/ uji z/ uji wald
Ho: variabel independen ke-i tidak
berpengaruh
H1: variabel independen ke-i berpengaruh

Karena nilai sign.prob value z =0.000 < alpha


(0.05) maka tolak Ho dan disimpulkan variabel
independen berpengaruh signifikan
iii. persamaan regresi
=-4.71+0.063 pressure+ 0.10 temp –
0.12 batch
• Nilai koefisien pressure positif artinya jika
nilai pressure meningkat peluang komposisi
zat X meningkat, dengan asumsi variabel lain
konstan
• Nilai koefisien temp positif artinya jika nilai
suhu meningkat peluang komposisi zat X
meningkat, dengan asumsi variabel lain
konstan
• Nilai koefisien batch negatif artinya jika
nilai batch meningkat peluang komposisi
zat X menurun, dengan asumsi variabel lain
konstan
Regresi Linier Berganda Pada Data
Panel Gaussian
Salah satu pemodelan sebab akibat yang sering digunakan
adalah model regresi. Jika data yang digunakan merupakan data
panel data gabungan data cross section dan time series (deret
waktu), dengan jumlah variabel independen lebih dari 1 dan data
diasumsikan berdistibusi normal maka model regresi yang tepat
digunakan adalah model regresi data panel. Model regresi ini sering
disebut model regresi gaussian, yang memiliki asumsi klasik yaitu
normalitas, multikol, heterokedastisitas dan linearitas (Gujarati,
2004). Adapun langkah pengujian, dengan menggunakan menu
stata:
Statistics > Longitudinal/panel data > Linear models > Linear
regression (FE, RE, PA, BE)
Statistics > Postestimation
Untuk data contoh pada pengujian regresi data panel dapat
didownload di link berikut: shorturl.at/inA04
Pardomuan Robinson Sihombing, SST, M.Stat 67

Misalkan akan a. Model Panel Yang terbentuk


diteliti pengaruh i. Pooled/ Common Effect Model (PEM)
ipm dan gini rasio
terhadap persentase
kemiskinan di
34 Provinsi di
Indonesia tahun
2019-2021

Dengan
menggunakan
Sintaks: ii. Fixed Effect Model (FEM)
set more off

*model panel
normal
*set data sebagai
panel data
* xtset crosssection
time series
xtset no tahun

*deskriptive
* sum y x1 x2 ... xp
sum miskin ipm gini
xtsum miskin ipm
gini
*run model pooled/
commond/ols
* regress y x1 x2 ...
xp
regress miskin ipm
gini
68 AplikAsi stAtA UntUk stAtistisi pemUlA

*simpam model iii. Random Effect Model (REM)


estimate store
pooled

*simpan error untuk


uji normalitas
predict resid, r
*uji multikol
vif

*uji normalitas
sktest resid

*uji hetero
hettest iv. Generalized Estimating Equation (GEE)

*uji autokol (install


dulu ya)
* y x1 x2 ... xp
xtserial miskin ipm
gini

*run model fixed/


lsdv
* xtreg y x1 x2 ...
xp, fe
xtreg miskin ipm
gini , fe
Pardomuan Robinson Sihombing, SST, M.Stat 69

*simpam model b. Pemilihan Model Panel


estimate store fixed i. Uji LM BP Test
Ho: model PEM lebih baik dari REM
*lihat uji F di bawah, H1: model REM lebih baik dari CEM
disana ada uji chow

*run model random/


gls
* xtreg y x1 x2 ...
xp, re
xtreg miskin ipm
gini , re

*simpam model
estimate store
Karena nilai sign.prob value chi2 =0.000 <
random
alpha (0.05) maka tolak Ho dan disimpulkan
*uji lm bp test model REM lebih baik daripada model CEM
xttest0 ii. Uji Chow Likelihood Ratio Test
Ho: model PEM lebih baik dari FEM
*uji hausman H1: model FEM lebih baik dari CEM
hausman fixed
random
*model gee
*xtreg y x1 x2 ... xp, Karena nilai sign.prob value F =0.000 < alpha
pa (0.05) maka tolak Ho dan disimpulkan model
*simpam model FEM lebih baik daripada model CEM
xtreg miskin ipm
gini
estimate store gee
70 AplikAsi stAtA UntUk stAtistisi pemUlA

**run model fixed/ iii. Uji Hausman Test


lsdv lag Ho: model REM lebih baik dari FEM
* xtreg y x1 x2 ... xp H1: model FEM lebih baik dari REM
l.y, fe
xtreg miskin ipm
gini l.miskin, fe
estimate store fixed_
lag
Karena nilai sign.prob value chi2 =0.000 <
*bandingkan ketiga alpha (0.05) maka tolak Ho dan disimpulkan
model model FEM lebih baik daripada model REM
estimates table Dari ketiga uji maka dikatakan bahwa model
pooled fixed random FEM terbaik dari ketiga model panel
gee , star stats(N
c.Pengujian Asumsi
r2_a F chi2)
i.normalitas
Ho: data berdistribusi normal
H1: data tidak berdistribusi normal

Karena nilai sign.prob value =0.1501 > alpha


(0.05) maka tidak tolak Ho dan disimpulkan
bahwa datanya sudah berdistribusi normal
ii. uji heterokedastis
Ho: varian data homogen (non heterokedastis)
H1: varian data heterokedastis
Pardomuan Robinson Sihombing, SST, M.Stat 71

Karena nilai sign.prob value =0.3311 > alpha


(0.05) maka tidak tolak Ho dan disimpulkan
bahwa varian datanya homogen, bebas asumsi
heterokedastisitas
iii. uji autokorelasi
Ho: model non autokorelasi
H1: model autokorelasi

Karena nilai sign.prob value =0.0028 < alpha


(0.05) maka tolak Ho dan disimpulkan modelnya
mengalami autokorelasi
iv. uji multikolinearitas
Ho: tidak ada multikolinearitas yang tinggi antar
variabel independen
H1: ada multikolinearitas yang tinggi antar
variabel independen
72 AplikAsi stAtA UntUk stAtistisi pemUlA

Karena nilai VIF < 10 maka tidak tolak Ho


dan disimpulkan modelnya bebas asumsi
multikolinearitas.

Dari hasil uji asumsi masih terjadi pelanggaran


asumsi autokorelasi sehingga model fixed dapat
ditambahkan unsur lag data variabel dependen
atau menggunakan model GEE
d. Pengujian Goodness of Fit

i. koefisien determinasi (adjusted r square)


Nilai r adj-0.254 artinya variasi kemiskinan
tahun 2021 mampu dijelaskan oleh gini dan ipm
sebesar 25.4 persen sisanya oleh variabel lain di
luar model.
Pardomuan Robinson Sihombing, SST, M.Stat 73

ii. uji simultan/ anova/chi2


Ho: model tidak fit/ tidak ada variabel yang
berpengaruh
H1: model fit/ minimal 1 variabel
independen yang berpengaruh

Karena nilai sign.prob value chi2 =0.000 <


alpha (0.05) maka tolak Ho dan disimpulkan
modelnya fit/ minimal 1 variabel yang
berpengaruh.
iii. uji parsial/ uji t
Ho: variabel independen ke-i tidak
berpengaruh
H1: variabel independen ke-i berpengaruh

Karena nilai sign.prob value t =0.000 < alpha


(0.05) maka tolak Ho dan disimpulkan
variabel independent berpengaruh signifikan.
iv. persamaan regresi

=49.11-0.656 ipm+23.38 gini


• Nilai koefisien ipm negatif artinya kenaikan
IPM akan menurunkan persentase
kemiskinan dengan asumsi variabel lain
konstan
• Nilai koefisien gini positif artinya kenaikan
gini akan menaikkan persentase kemiskinan
dengan asumsi variabel lain konstan.
Model Difference in Difference (DiD)
Salah satu pemodelan sebab akibat yang sering digunakan
adalah model regresi. Apakah seorang peneliti ingin melihat
pengaruh suatu treatment dan sekaligus efek waktu terhadap suatu
variabel maka model regresi yang tepat digunakan adalah model
DiD. Model DiD dapat digunakan untuk mengetahui perubahan
sutau variable karena efek waktu, efek kebijakan atau interaksi efek
keduanya (Card & Krueger, 1994). Dalam model DiD diperlukan
dummy periode waktu (before and after) serta adanya individu/
subjek yang dijadikan sebagai control (tidak diberikan treatment).
Untuk data contoh pada pengujian model DID dapat
didownload di link berikut: shorturl.at/ryLMQ
Pardomuan Robinson Sihombing, SST, M.Stat 75

Misalkan akan diteliti Output:


pengaruh terhadap
efek waktu (0=Feb
1992 dan 1=Nov
1992) dan treatment
(New Jersey = 1;
Pennsylvania = 0)
terhadap Full Time
Employment (FTE)

Dengan
menggunakan
Sintaks:
set more off Pada periode before (Fen 1992), terdapat
ssc install diff perbedaan jumlah FTE antara New Jersey dan
* diff y, t(treated) Pennsylvania karena prob value T=0.011 < alpa
p(time) (0.05) sehingga tolak Ho. Sedangkan pada periode
diff fte, t(treated) p(t) after belum cukup bukti terdapat perbedaan
jumlah FTE antara New Jersey dan Pennsylvania
karena prob value T=0.979 > alpa (0.05) sehingga
tidak tolak Ho. Interaksi antara treatment dan
periode (efek DiD) signifikan untuk 10 persen.
Analisis Survival
Analisis survival atau terkadang disebut analisis daya tahan
hidup, awalnya digunakan dalam ilmu biomedis di mana tujuannya
mengamati waktu kematian baik pasien atau hewan laboratorium
(Miller, 1997). Perkembangan lebih lanjut digunakan dalam ilmu
sosial untuk menganalisis waktu terjadi suatu peristiwa seperti
perubahan pekerjaan, pernikahan, kelahiran anak, dan sebagainya.
Dalam analisis survival terdapat istilah tersensor. Pengamatan
tersensor didefinisikan sebagai pengamatan dengan informasi
yang tidak lengkap. Ada empat jenis penyensoran yang mungkin:
right truncation, left truncation, right censoring dan left
censoring.
Sebaiknya penulis fokus secara eksklusif pada penyensoran yang
tepat karena sejumlah alasan. Apabila suatu pengamatan disensor
dengan benar berarti informasi tersebut tidak lengkap karena subjek
tidak memiliki suatu peristiwa selama subjek menjadi bagian dari
penelitian. Inti dari analisis kelangsungan hidup adalah mengikuti
subjek dari waktu ke waktu dan mengamati pada saat mana mereka
mengalami peristiwa yang menarik. Adapun langkah pengujian,
dengan menggunakan menu stata:
Statistics > Survival analysis > Regression models > Cox
proportional hazards (PH) model
Pardomuan Robinson Sihombing, SST, M.Stat 77

Untuk data contoh pada pengujian analisis survival dapat


didownload di link berikut: shorturl.at/fjuwR

Misalkan akan diteliti Output:


pengaruh pemberian
obat (1=diberio obat,
0=placebo) dan umur
pasien terhadap
daya tahan hidup
pasien (study time).
Variabel penyensor
adalah died
(1=pasien meninggal
dan 0=pasien
bertahan hingga
periode penelitian
berakhir). Variabel_t
merupakan waktu
analisis saat rekaman • Koefisien drug signifikan positif karena prob value
berakhir sedangkan z=0.000 < alpa (0.05) sehingga tolak Ho. Hal ini
t0 waktu saat analisis berarti pemnberian obat akan meningkatkan daya
rekaman dimulai tahan hidup pasien.

Dengan • Koefisien age signifikan positif karena prob value


menggunakan z=0.000 < alpa (0.05) sehingga tolak Ho. Hal ini
Sintaks: berarti kenaikan umur pasien akan meningkatkan
set more off daya tahan hidup pasien.
stset
stcox drug age
Analisis Faktor
Analisis faktor merupakan salah satu analisis multivariat.
Adapun analisis faktor bertujuan mereduksi sejumlah variabel
menjadi faktor-faktor, sehingga faktor yang terbentuk merupakan
kombinasi linier dari variabel yang terbentuk sehingga fakotr yang
terbentuk akan diberi label baru berdasarkan kriteria variabel
yang membentuknya (Johnson & Wichern, 1998). Analisis faktor
terkadang digunakan sebagai pengujian validitas suatu instrument,
dalam hal ini diharapkan indicator/ pertanyaan yang digunanakan
dalam 1 variabel laten akan membentuk satu faktor. Metode ini
dikenal dengan uji explanatory factor analysis (EFA). Selain itu
analisis faktor juga dapat digunakan sebagai dasar membentuk
suatu indeks, dengan harapan dalam kriteria teori yang ada akan
membentuk suatu factor. Adapun langkah pengujian, dengan
menggunakan menu stata:
Statistics > Multivariate analysis > Factor and principal
component analysis > Factor analysis
Untuk data contoh pada pengujian analisis faktor dapat
didownload di link berikut: shorturl.at/ciqD2
Pardomuan Robinson Sihombing, SST, M.Stat 79

Misalkan akan dilakukan Output:


pengecekan validitas
variabel laten kualitas
sumber daya manusia (sdm)
yang terdiri atas 5 indikator/
pertanyaan

Dengan menggunakan
Sintaks:
set more off
* pengujian korelasi
Hasil uji KMO dengan nilai 0.787 > 0.7
corr sdm1 sdm2 sdm3 sdm4
menunjukkan bahwa sudah memenuhi
sdm5
* analisis factor kriteria kecukupan sampel dalam analisis
* factor var1 var2 … varp factor
factor sdm1 sdm2 sdm3
sdm4 sdm5 sdm6
scree
*uji kmo
estat kmo
*rotasi Uji
1
Number
3
0
Scree Plot
Scree plot of eigenvalues after factor
2
Eigenvalues

ssc install factortest


4
5
2
1
3

factortest sdm1 sdm2 sdm3


sdm4 sdm5
rotate, orthogonal varimax
blanks(.5)

*jika ingin melihat reabilitas


*alpha varlist
alpha sdm1 sdm2 sdm3 Dari hasil scree plot terlihat bahwa kurva
sdm4 sdm5
turun tajam dari number 1, sehingga
dikatakan cukup membentuk 1 faktor.
80 AplikAsi stAtA UntUk stAtistisi pemUlA

Dari hasil di atas nilai eigen value yang >


1 terbentuk pada factor 1 dan, variance
proportion yang terjelaskan sudah
mencapai 0.9957=99.57 persen

Dari kelima indicator semua nilai loading


> 0.6 dan yang terbesar adalah indicator
ke-4

Uji reabilitas

Nilai Cronbach alpha=0.888 artinya


seluruh item sudah reliabel
Data Envelopment Analysis (DEA)
DEA digunakan untuk analisis efesiensi dimana akan di-
bandingkan input dan output dalam suatu kegiatan/ produksi.
Pada pembahasan ini menggunakan data dan sintaks dari jurnal
Ji dan Lee (2010). Dalam keluaran dari sintaks DEA, awalan
DMU: mendahului nama unit pengambilan keputusan (DMU).
Opsi rts(crs|vrs|drs|nirs) menunjukkan the returns to scale. The
defaultnya rts(crs), artinya constant returns to scale sedangkan
opsi rts(vrs), rts(drs), dan rts(nirs) secata berturut-turut
mengindekasikan variable returns to scale, decreasing returns to
scale, dan nonincreasing returns to scale. Untuk opsi ort(in|out)
menindikasikan the orientation. Defaultnya adalah ort(in), artinya
input-oriented sedangkan ort(out) artinya output-oriented DEA.
Untuk data contoh pada pengujian DEA dapat didownload di link
berikut: shorturl.at/ekxCS
82 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan akan Output:


dilihat pengaruh
efisiensi 20 institusi
inputnya berupa
tenaga Pendidikan
dan tenga pengajar
serta outputnya dilihat
dari kelulusan dan
banyaknya publikasi

Sintaks yang
digunakan:
set more off
*dea input = output,
Berdasarkan output di astas terdapat
rts(vrs) ort(out)
beberapa institusi yang belum efisien yaitu
stage(1)
yang masih irs
dea ltp ltk = lkelulusan
lpublikasi, rts(vrs)
ort(out) stage(1)
Analisis SEM-PLS (Partial Least Square)
SEM PLS merupakan suatu metode alternatif dalam SEM.
Model SEM PLS tidak memerlukan sampel besar dan tidak
memerlukan asumsi kenormalan data. Dalam SEM PLS digunakan
metode bootstrapping dalam mengestimasi parameter koefisien
regresinya (Hair, Hult, Ringle, & Sarstedt, 2016). Tiga hal yang diuji
dalam SEM-PLS adalah uji outer model (hubungan antara indikator
dna variabel laten), uji inner model (hubungan antara variabel
laten) dan pengujian hipotesis. Dalam uji outer model mencakup uji
validitas (konvergen validity dengan nilai loading dan diskriminan
validity) serta uji reability. Pada pembahasan ini menggunakan data
dan sintaks dari jurnal oleh Venturini dan Mehmetoglu (2019).
Untuk data contoh pada pengujian analisis faktor dapat
didownload di link berikut: shorturl.at/cqO14
84 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan akan Output:


dilihat pengaruh 1.Outer Model
Attractive terhadap
Appearance, serta
pengaruh Appearance
terhadap Muscle dan
Weight. Selanjutnya
dibandingkan
pengaruh variabel
antar gender

Dengan menggunakan Untuk uji vadilitas terlihat nilai loading setiap


Sintaks: indicator di atas 0,7; nilai AVE > 0,5 serta nilai
set more off akar AVE > dari nilai korelasi antar variabel laten.
plssem (Attractive > Untuk nilai reabilitas terlihat nilai Cronbach
face sexy) /// alpha dan DG > 0.7
(Appearance > body
appear attract) ///
(Muscle > muscle
strength endur) ///
(Weight > lweight
calories cweight), ///
Pardomuan Robinson Sihombing, SST, M.Stat 85

structural(Appearance 2.Uji Inner dan Uji Hipotesis Pengaruh Langsung


Attractive, ///
Muscle Appearance,
///
Weight Appearance)
///
boot(200) seed(123)
stats correlate(lv)

estat indirect, Terlihat masing-masing nilai adjusted r square


effects(Muscle dan pengaruh masing-masing hubungan antar
Appearance Attractive,
variabel signifikan karena prob.value=0.00 < alpa
///
(0.05)
Weight Appearance
Attractive) ///
boot(200) seed(456) 3. Pengaruh Tidak Langsung

*sem multigroup
plssem (Attractive >
face sexy) ///
(Appearance > body
appear attract) ///
(Muscle > muscle
strength endur) ///

Dari hasil menunjukkan bahwa appearance


merupakan variabel intervening (mediasi)
hubungan anatara attractive ke muscle dan
weight
86 AplikAsi stAtA UntUk stAtistisi pemUlA

(Weight > lweight 4. Uji Koefisien Multigroup


calories cweight), ///
structural(Appearance
Attractive, ///
Muscle Appearance, Hasil yang didapat menunjukkan tidak terdapat
/// perbedaan besaran koefisien regresi antara gender
Weight Appearance) pria dan Wanita karena prob.value > alpa(0.05)
///
group(women,
reps(200)
groupseed(123)
method(bootstrap)
alpha(.1))
Smoothing Time Series
Metode smoothing adalah metode dengan prinsip pengenalan
pola data dengan menghaluskan variasi lokal dalam data. Pada
umumnya metode penghalusan hanya cocok untuk pola data
tertentu. Beberapa metode pemulusan di antaranya single moving
average, double moving average, single exponential smoothing, double
exponential smoothing, metode Winter, dan dekomposisi data deret
waktu (Wei, 1990).
Metode moving average digunakan untuk data yang polanya
konstan/stasioner, dan memberikan bobot yang sama dalam
analisisnya. Metode exponential digunakan untuk data yang
mengandung tren. Metode winter biasanya digunakan untuk data
yang memiliki pola musiman baik bersifat aditif maupun multifikatif.
Metode dekomposisi digunakan untuk memisahkan pola trend,
musiman dan siklus pada data. Adapun langkah pengujian, dengan
menggunakan menu stata:
Statistics > Time Series > Smoothers/univariat forcasters
Untuk data contoh pada pengujian smoothing time series dapat
didownload di link berikut:
shorturl.at/oBCQU
88 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan kita akan melihat Output


trend suatu penjualan a. Smoothing Moving Average
Time
1100
1080
1060
1040
1020
1000
dengan moving average dan 10 x(t)= sales: window(2
0
50
40
30
20
Sales
ma: window(1 1 2)
1)

exponensial smoothing
Dengan menggunakan
Sintaks:
set more off

*moving average
tset t
twoway (tsline sales)
tssmooth ma sales_ma111 =
sales, window(1 1 1)
twoway (tsline sales sales_
ma111) b.exponensil
Single
Time
1100
1080
1060
1040
1020
1000
smoothing
exponential forecast with optimal alpha
tssmooth ma sales_ma212 = 010
50
40
30
20
Sales
parms(0.7815) = sales

sales, window(2 1 2)
twoway (tsline sales sales_
ma111 sales_ma212)

*exponential smooting
tssmooth exponential sales_
es1 = sales, forecast(1)
line sales_es1 sales t,
title(“Single exponential
forecast with optimal alpha”)
ssmooth dexponential sales_
des = sales, forecast(2)
line sales_des sales_es1 sales
t, title(“Single dan Double
exponential forecast with
optimal alpha”)
ARIMA dan GARCH Model
Pemodelan dengan satu variabel data deret waktu adalah
metode Autoregressive Integrated Moving Average (ARIMA) dan
Generalized Autoregressive Conditional Heteroscedastic (Garch).
Dalam pemodelan data time series, syarat awal menggunakan model
ARIMA adalah datanya harus sudah stasioner baik dalam rata-rata
maupun dalam varian/ ragam (Wei, 1990). Hal ini dikarenakan
agar tidak menghasilkan model yang superious/lancung/palsu atau
model yang memiliki error yang nilainya besar. Data dan sintaks
digunakan dari Katchova (2013). Adapun langkah pengujian,
dengan menggunakan menu stata:
Statistics > Time series > ARIMA and ARMAX models
Statistics > Time series > ARCH/GARCH > ARCH/GARCH
models
Untuk data contoh pada pengujian ARIMA dan Garch dapat
didownload di link berikut:
shorturl.at/coyHM
90 AplikAsi stAtA UntUk stAtistisi pemUlA

Misalkan kita akan Output:


meneliti data PPI 1. Uji kestationeran pada level
Dengan menggunakan Ho: data tidak stationer pada level
Sintaks: H1: data stationer pada level
set more off

global ylist ppi


global dylist d.ppi
global time t
global lags 40

describe $time $ylist


summarize $time $ylist

* Set data as time series


tset $time
*tset $time, quarterly Karena nilai sign.prob value z =0.707 >
*gen time=_n alpha (0.05) maka tidak tolak Ho dan
disimpulkan data belum stationer pada
* Plotting the data level
twoway (tsline $ylist) 2. Uji Stationeritas Pada Difference
twoway (tsline d.$ylist)
*twoway line $ylist $time
*twoway line d.$ylist
$time

* Dickey-Fuller test for


variable
dfuller $ylist, drift
regress lags(0)
Pardomuan Robinson Sihombing, SST, M.Stat 91

dfuller $ylist, trend Karena nilai sign.prob value t =0.00 < alpha
regress lags(0) (0.05) maka tolak Ho dan disimpulkan data
* dfuller $ylist, regress sudahstationer pada difference 1
lags(2) 3. ACF
0.60
0.40
0.20
0.00
-0.20
Lag
dan PACF
Autocorrelations of D.ppi
Bartlett's formula for MA(q) 95% confidence bands
010
40
30
20

* Dickey-Fuller test for


differenced variable
dfuller d.$ylist, drift
regress lags(0)

* Correlogram, ACF, and


PACF
corrgram $ylist
ac $ylist
pac $ylist -0.20
0.60
0.40
0.20
0.00
Lag
Partial
95%
010
40
30
20
autocorrelations
Confidence bands [se = of D.ppi
1/sqrt(n)]

* pac d.$ylist,
xscale(range(0 $lags))
yscale(range(-1 1))

corrgram d.$ylist
ac d.$ylist
pac d.$ylist

* ARIMA models

* ARIMA(1,0,0) or
AR(1)
arima $ylist, arima(1,0,0)
92 AplikAsi stAtA UntUk stAtistisi pemUlA

* ARIMA(2,0,0) or 4. Dilakuakn pemilihan beberapa


AR(2) alternatif model ARIMA dan
arima $ylist, arima(2,0,0) pengujian asumsi dalam model
ARIMA, misal ARIMA (1,1,1)
* ARIMA(0,0,1) or
MA(1)
arima $ylist, arima(0,0,1)

* ARIMA(1,0,1) or
AR(1) MA(1)
arima $ylist, arima(1,0,1)

* ARIMA on differenced
variable
arima $ylist, arima(1,1,0)
arima $ylist, arima(0,1,1)
arima $ylist, arima(1,1,1)
arima $ylist, arima(1,1,3)
arima $ylist, arima(2,1,3)
Pardomuan Robinson Sihombing, SST, M.Stat 93

*arima d.$ylist, ar(1/2) 5. Jika terjadi pelanggaran asumsi


ma(1/3) heterokedastis maka digunakan model
*arima d.$ylist, ar(1 2) Arch Garch
ma(1 2 3)

* AIC and BIC for model


fit
arima $ylist, arima(1,1,1)
estat ic
arima $ylist, arima(2,1,3)
estat ic
estat aroots

*asumsi
predict error, resid
summarize error
tsline error,
yline(0008469)
wntestq error
corrgram error
regress error
estat archlm, lag(1/10)

*forecast
tsappend, add(10)
predict fppi, y
dynamic(q(2002q3))

*arch garch
arch ppi, arch(1/1)
garch(1/1)

arch ppi, arch(1/1)


garch(1/1) arima(1,1,1)
Analisis Regression Time Series
Apabila seorang peneliti untuk melihat hubungan sebab akibat
tetapi datanya merupakan data time series maka regresi yang tepat
digunakan adalah analisis regresi time series. Apabila seluruh seluruh
data stationer pada level dan asumsi klasik dalam pemodelan yang
dilakukan terpenuhi maka estimasi OLS dianggap masih relevan.
Apakan tetapi jika terjadi pelanggaran asumsi autokorelasi maka
model Newey adalah model yang leih tepat (Bierens, 1994). Adapun
langkah pengujian, dengan menggunakan menu stata:
Statistics > Time series > Regression with Newey-West std.
errors
Untuk data contoh pada pengujian model regresi time series
dapat didownload di link berikut: shorturl.at/dsLR1
Pardomuan Robinson Sihombing, SST, M.Stat 95

Dengan Output:
menggunakan 1. Uji kestationeran pada level
Sintaks: Ho: data tidak stationer pada level
set more off H1: data stationer pada level
*declare data time
series
tsset time
*uji stationeritas
dfuller y
dfuller x
*regresi
regress y x
*asumsi klasik
*uji normalitas
predict resid, r
sktest resid
*uji hetero
hettest
*uji autokol
estat dwatson
estat durbinalt
estat bgodfrey

*model newey Karena nilai sign.prob value z =0.0362 dan prob


newey y x, lag(0) z=0.0029 < alpha (0.05) maka tolak Ho dan
disimpulkan data sudah stationer pada level
96 AplikAsi stAtA UntUk stAtistisi pemUlA

2. Uji Asumsi Klasik


a.Pengujian Asumsi
i.normalitas
Ho: data berdistribusi normal
H1: data tidak berdistribusi normal

Karena nilai sign.prob value =0.0379 < alpha


(0.05) maka tolak Ho dan disimpulkan bahwa
datanya belum berdistribusi normal

ii. uji heterokedastis


Ho: varian data homogen (non heterokedastis)
H1: varian data heterokedastis

Karena nilai sign.prob value =0.5477 > alpha


(0.05) maka tidak tolak Ho dan disimpulkan
bahwa varian datanya homogen, bebas asumsi
heterokedastisitas
Pardomuan Robinson Sihombing, SST, M.Stat 97

iii. uji autokorelasi


Ho: model bebas autokorelasi
H1: model masih mengalami autokorelasi

Karena nilai sign.prob value =0.0457 < alpha


(0.05) maka tolak Ho dan disimpulkan modelnya
belum bebas asumsi autokorelasi.
3. Model Newey

i. uji simultan/ anova/F


Ho: model tidak fit
H1: model fit

Karena nilai sign.prob value F =0.000 <


alpha (0.05) maka tolak Ho dan disimpulkan
modelnya fit/ minimal 1 variabel yang
berpengaruh.
98 AplikAsi stAtA UntUk stAtistisi pemUlA

ii. uji parsial/ uji t


Ho: variabel independen ke-i tidak
berpengaruh
H1: variabel independen ke-i berpengaruh

Karena nilai sign.prob value t =0.000 < alpha


(0.05) maka tolak Ho dan disimpulkan variabel
independent berpengaruh signifikan.
iii. persamaan regresi
=1.92+0.27 x
Nilai koefisien x positoif artinya kenaikan x akan
menaikkan y dengan asumsi variabel lain konstan
Autoregressive Distributed Lag (ARDL)
Alternatif lain dalam model time series adalah ARDL. Model
ini memasukkan lag dari kedua variabel dependen dan independen
secara bersamaan dalam model regresi (Hassler & Wolters,
2006). Dengan menggunakan ARDL, maka penulis menganalisis
hubungan jangka panjang ketika variabel-variabel penjelasnya
campuran antara yang bersifat 1(1) dan 1(0). Untuk data contoh
pada pengujian model regresi time series ARDL dapat didownload
di link berikut: shorturl.at/dsLR1
Dengan Output:
menggunakan 1. Uji kestationeran pada level
Sintaks: Ho: data tidak stationer pada level
set more off H1: data stationer pada level
*declare data time
series
tsset time
*uji stationeritas
dfuller y
dfuller x
*model ardl
* ardl y x,
lag(data)
ardl y x, lag(1))
predict resid, r
sktest resid
100 AplikAsi stAtA UntUk stAtistisi pemUlA

Karena nilai sign.prob value z =0.0362 dan prob


z=0.0029 < alpha (0.05) maka tolak Ho dan
disimpulkan data sudah stationer pada level

3. Model ARDL

Dari hasil tersebut bahwa lag data variabel dependen


signifikan tetapi untuk variabel independen hanya
pada level (x) saja yang signifikan, sedangkan lag
datanya tidak signifikan.
Pardomuan Robinson Sihombing, SST, M.Stat 101

4. Asumsi Normalitas

Karena nilai sign.prob value =06466 > alpha (0.05)


maka tidak tolak Ho dan disimpulkan bahwa datanya
sudah berdistribusi normal
Analisis Error Corection Model
(ECM)
Apabila seorang peneliti untuk melihat hubungan sebab
akibat tetapi datanya merupakan data time series maka regresi
yang tepat digunakan adalah analisis regresi time series. Apabila
seluruh seluruh tidak stationer pada level maka model yang tepat
adalah Error Corection Model (ECM). Dalam model ECM dikenal
dua model yaitu model jangka Panjang dengan menggunakan data
level dan estimasi OLS, selanjutnya model jangka pendek dengan
meregresikan data pada difference dan lag residual pada model
jangka panjang (Gujarati, 2004). Diharapkan residual pada model
jangka Panjang stationer pada level, dan nilai koefisiennya signifikan
negatif pada model jangka pendek.
Untuk data contoh pada pengujian model ECM dapat
didownload di link berikut: shorturl.at/bmvxP
Pardomuan Robinson Sihombing, SST, M.Stat 103

Misalkan peneliti Output:


tertarik meneliti 1. Uji kestationeran pada level
hubungan antara Ho: data tidak stationer pada level
SBI dan Inflasi H1: data stationer pada level
terhadap nilai
ROA
Dengan
menggunakan
Sintaks:
set more off
*declare data time
series
tsset time
*uji stationer data
level
dfuller sbi Karena nilai sign.prob value z =0.4148 > alpha (0.05)
dfuller roa maka tidak tolak Ho dan disimpulkan data belum
dfuller ihk stationer pada level

*bentuk variabel 2. Uji Stationeritas Pada Difference


difference
gen dsbi=d.sbi
gen droa=d.roa
gen dihk=d.ihk

Karena nilai sign.prob value t =0.00 < alpha (0.05)


maka tolak Ho dan disimpulkan data sudahstationer
104 AplikAsi stAtA UntUk stAtistisi pemUlA

*uji stationer data 3. Model Jangka Panjang


difference
dfuller d.sbi
dfuller d.roa
dfuller d.ihk

*uji jangka
Panjang (ols)
regress roa ihk sbi
*pengujian
kointegrasi Hanya ihk yang signifikan dalam jangka panjang
predict resid, r
dfuller resid 4. Uji Cointegrasi
* model jangka
pendek (ECM)
regress droa dihk
dsbi l.resid

Karena nilai sign.prob value t =0.00 < alpha (0.05)


maka tolak Ho dan disimpulkan terjadi kointegrasi
Pardomuan Robinson Sihombing, SST, M.Stat 105

5. Model Jangka Pendek (ECM)

Pada jangka pendek baik ihk dan sbi berpengaruh


signifikan terhadp roa, dan nilai lag residual signifikan
negatif, berarti akan konvergen pada koefisien 0.020.
Analisis Vector Autoregressive
(VAR)
Apabila seorang peneliti untuk melihat hubungan sebab akibat
antara beberapa variabel dalam suatu system dan terjadi hubungan
pengaruh bolak balik antar variabel maka model yang tepat adalah
system regression time series. Apabila seluruh variabel stationer pada
level atau minimal 1 yang stationer pada level maka model yang
tepat adalah Vector Autoregressive (VAR) sementara jika tidak
ada variabel yang stationer pada level tetapi semua stationer pada
difference yang sama maka model yang tepat adalah Vector Error
Corection Model (VECM) (Wei, 1990). Dalam model VAR diawali
dengan pengujian granger causality melihat ada hubungan dan
pengaruh variabel secara bolak balik serta lag data yang optimum.
Dalam model VAR dapat dilihat terkait impulse respon (perubahan
suatu variabel akibat shock/ perubahan variabel lainnya) dan
variable decomposition (komposisi suatu variebel terhadap waktu.
Adapun langkah pengujian, dengan menggunakan menu stata:
Statistics > Multivariate time series > Vector autoregression
(VAR)
Untuk data contoh pada pengujian model ECM dapat
didownload di link berikut: shorturl.at/azLMR
Pardomuan Robinson Sihombing, SST, M.Stat 107

Misalkan peneliti Output:


tertarik meneliti 1. Uji kestationeran pada level
hubungan IHK
Ho: data tidak stationer pada level
perumahan_lga dengan
kesehatan H1: data stationer pada level
Dengan menggunakan
hintaks:
set more off
*declare sebagai data
time series
tsset kode
*statistik deskriptif
sum perumahan_lga
kesehatan
*pastikan bahwa data
stationer pada data
level
dfuller perumahan_lga
dfuller kesehatan
*uji kausalitas
hubungan bolak balik
quietly var
perumahan_lga
kesehatan
vargranger
*uji lag optimal
varsoc perumahan_lga
kesehatan, maxlag(5)
*run var berdasarkan
lag optimal
var perumahan_lga
kesehatan, lags(1/2)
dfk small
108 AplikAsi stAtA UntUk stAtistisi pemUlA

*cek kembbali lag yang Karena nilai sign.prob value t =0.00 < alpha
digunakan (0.05) maka tolak Ho dan disimpulkan data
varsoc sudah stationer
*uji autokol
varlmar 2. Uji Granger Causality
*uji kestabilan model Ho: tidak ada pengaruh dua arah
varstable H1: ada pengaruh dua arah

*impulse respon
quietly var
perumahan_lga
kesehatan, lags(1/2) dfk
small
irf set “VAR1”
irf create VAR1, replace
irf graph irf
Karena nilai sign.prob value chi2 =0.00 < alpha
*variance (0.05) maka tolak Ho dan disimpulkan ada
dekomposition hubungan kausalitas (bolak balik)
irf graph fevd 3. Uji Lag Optimumn

*forecasting
fcast compute m1_,
step(5)
fcast graph m1_
perumahan_lga m1_
kesehatan

Dari data di atas maka lag optimum adalah lag 2


Pardomuan Robinson Sihombing, SST, M.Stat 109

4. Model VAR

Dari model VAR di atas yang mempenagruhi


perumaahn_lga adalah hnya Kesehatan lag
1 (periode sebelumnya), sedangkan yang
mempengaruh IHK Kesehatan adalah IHK
perumhaan lag 1 dan lag 2 , juga IHK Kesehtan
pada lag 1 dan 2
110 AplikAsi stAtA UntUk stAtistisi pemUlA

5. Uji Asumsi
i. Uji autokorelasi

Karena nilai sign.prob value t =0.1845 lag 1 dan


0.522 lag 2 > alpha (0.05) maka tidak tolak Ho
dan disimpulkan model bebas autokorelasi
ii. kestabilan model

6.
Step
Impulse Response
Graphs by irfname,
kesehatan, impulse
kesehatan
VAR1, perumahan_lga, variable, and response variable
perumahan_lga
kesehatan
perumahan_lga
4 95%
8
6
05CI
.--.5
2
1.5
Impulse-response function
Pardomuan Robinson Sihombing, SST, M.Stat 111

7. Variance Decomposition
Step perumahan_lga,
Graphs
VAR1, by irfname,
kesehatan, impulse
kesehatan variable, and response variable
perumahan_lga
kesehatan
perumahan_lga
.95%
42
1
8
6
05 CI of MSE due to impulse
Fraction
Analisis Simultan
Model simultan adalah suatu model yang memiliki lebih dari
satu persamaan, di mana antar persamaan saling kait mengait.
Dalam persamaan simultan, variabel dependen pada suatu
persamaan dapat juga bertindak sebagai variabel independen
dalam persamaan lainnya. Persamaan struktural dapat diperoleh
ke dalam bentuk persamaan reduksi (reduce form) dan koefisien
bentuk reduksi yang berhubungan. Salah satu permasalahan dalam
model simultan adalah identifikasi untuk mengetahui apakah suatu
persamaan dalam persamaan simultan dapat diidentifikasi atau
tidak.
Pengujian identifikasi dapat ditinjau melalui metode pengujian
order condition yang merupakan syarat perlu(necessary condition)
dan rank condition yang merupakan syarat cukup (sufficient
condition). Contoh dalam analisis simultan misalkan peneliti ingin
mengetahui pengaruh pengeluaran rumah tangga dan pengeluaran
pemerintah terhadap nilai PDB. Dalam hal ini, pengeluaran rumah
tangga memiliki persamaan atau fungsi dari tabungan, di sisi lain
pengeluaran pemerintah terdapat persamaan lain yaitu fungsi dari
pajak dan lainnya. Data dan sintaks digunakan dari Katchova (2013).
Adapun langkah pengujian, dengan menggunakan menu stata:
Pardomuan Robinson Sihombing, SST, M.Stat 113

Statistics > Endogenous covariates > Linear regression with


endogenous covariates
Untuk data contoh pada pengujian simultan dapat didownload
di link berikut: shorturl.at/yFHI1
Sintaks yan digunakan Output:
set more off 1. 2sls
* Define dependent
variable y1,
endogenous variable y2
* Define exogenous
variables x1 and
instrumental variables
x2
* Define alternative set
of instruments x2alt for
overidentified case
* Define exogenous
variables x12 for eq2,
instrumental variable
x22 for eq2
global y1list
logmedexpense
global y2list healthinsu
global x1list illnesses
age logincome
global x2list ssiratio
global x2listalt ssiratio
firmlocation
global x1list2 illnesses
global x2list2
firmlocation
114 AplikAsi stAtA UntUk stAtistisi pemUlA

describe $y1list $y2list 2. Uji Endogenitas


$x1list $x2list Ho: tidak ada endogenitas dalam model
summarize $y1list H1: ada endogenitas dalam model
$y2list $x1list $x2list

* 2SLS estimation
ivregress 2sls $y1list
($y2list = $x2list)
$x1list, first

* Durbin-Wu- Karena nilai sign.prob value chi2 =0.00 < alpha


Hausman test of (0.05) maka tolak Ho dan disimpulkan endogenitas
endogeneity dalam model
quietly ivregress 2sls 3. Pengujian Overindentifikasi
$y1list ($y2list =
Ho: tidak ada overidntifikasi dalam model
$x2list) $x1list, first
H1: ada overidntifikasi dalam model
estat endogenous

quietly regress $y2list


$x2list $x1list
quietly predict v1hat,
resid
quietly regress $y1list
$y2list $x1list v1hat
test v1hat
Pardomuan Robinson Sihombing, SST, M.Stat 115

* Test of
overidentifying
restrictions
quietly ivregress
gmm $y1list ($y2list
= $x2listalt) $x1list,
wmatrix(robust)
estat overid Karena nilai sign.prob value chi2 =0.1432 > alpha
(0.05) maka tidak tolak Ho dan disimpulkan tidak
* IV estimation with terjadi overidentifikasi dalam model
binary endogenous
regressor (first step is
probit model)
treatreg $y1list $x1list,
treat($y2list = $x2list
$x1list)

* Weak instruments
* Correlations of
endogenous regressors
with instruments
correlate $y2list
$x2listalt
116 AplikAsi stAtA UntUk stAtistisi pemUlA

* Weak instrument 4. Alternatif model treatment


tests - just-identified
model
quietly ivregress
2sls $y1list ($y2list
= $x2list) $x1list,
vce(robust)
estat firststage,
forcenonrobust

* Weak instrument
tests - two or more
overidentifying
restrictions
quietly ivregress
gmm $y1list ($y2list
= $x2listalt) $x1list,
vce(robust)
estat firststage,
forcenonrobust
Daftar Pustaka
Agresti, A. ( 2002). Categorical Data Analysis. New York: nc. John
Wiley and Son.
Bierens, H. J. (1994). Topics in Advanced Econometrics : Estimation,
Testing, and Specification of Cross-section and Time Series
Models. : . pp.. New York: Cambridge University Press.
Breiman, L. (1973). Statistics: with a view towards applications.
Boston: Houghton Mifflin.
Brown, M. B., & Forsythe, A. B. (1974). Robust test for the equality
of variances. Journal of the American Statistical Association,
69, 364-367.
Card, D., & Krueger, A. (1994). Minimum Wages and Employment:
A Case Study of the Fast-Food Industry in New Jersey and
Pennsylvania. The American Economic Review, 84(4), 772-793.
Cook, D., Kieschnick, R., & McCullough, B. (2008). Regression
analysis of proportions in finance with self selection. Journal
of Empirical Finance, 15, 860–867.
Crocker, L. M., & Algina, J. (1986). Introduction to classical and
modern test theory. New York: Holt, Rinehart and Winston.
Edwards, J. H., & Edwards, A. W. (1984). Approximating the
tetrachoric correlation coefficient. Biometrics, 40, 563.
118 AplikAsi stAtA UntUk stAtistisi pemUlA

Garson, G. D. (2013). Correlation. Asheboro, NC: Statistical


Associates Publishers.
Goodman, L., & Kruskal, W. (1954). Measures of association for
cross classifications. Journal, American Statistical Association,
49, 732-764.
Gujarati, D. ( 2004). Basic Econometrics (Ekonometrika Dasar).
Jakarta: Penerbit Erlangga.
Hair, J. F., Hult, G. T., Ringle, C. M., & Sarstedt, M. (2016). A Primer
on Partial Least Squares Structural Equation Modeling (PLS-
SEM) Second . Los Angeles: SAGE.
Hassler, U., & Wolters, J. (2006). Autoregressive Distributed Lag
Models and Cointegration. Allgemeines Statistisches Archiv,
90, 59-74.
Ji, Y.-b., & Lee, C. (2010). Data Envelopment Analysis in Stata. The
Stata Journal, 10(2), 1-13.
Johnson, R., & Wichern, D. (1998). Applied Multivariate Statistical
Analysis.. Second Edition. New Jersey: Prentice-Hall
International .
Katchova, A. (2013). Time Series ARIMA Models in Stata. Retrieved
from https://sites.google.com/site/econometricsacademy/
econometrics-models/time-series-arima-models
Long, J. S. (1997). Regression Models for Categorical and Limited
Dependent Variables. Thousand Oaks,CA: Sage Publications.
Miller, R. G. (1997). Survival Analysis. New York: John Wiley &
Sons.
Siegel, S. (1997). Statistik Nonparametrik Untuk Ilmu-ilmu
Sosial. Jakarta: Gramedia.
Pardomuan Robinson Sihombing, SST, M.Stat 119

Sugiyono. (2017). Metode Penelitian Kuantitatif, Kualitatif, dan


R&D. Bandung: Alfabeta, CV.
Venturini, S., & Mehmetoglu, M. (2019). plssem: A Stata
Package for Structural Equation Modeling with Partial Least
Squares. Journal of Statistical Software, 88(8), 1-35.
Walpole, R. E. ( 2012). Probability & Statistics for Engineers &
Scientists, Ninth Edition. USA: Pearson.
Wei, W. (1990). Time Series Analysis: Univariate and Multivariate
Methods. USA: Addison-Wesley Publishing Co.
Welch, B. L. ( 1947). The generalization of `student’s’ problem
when several different population variances are involved. Biometrika,
34, 28-35.
Biodata Penulis

Pardomuan Robinson Sihombing,


SST, M.Stat, C.PS adalah Statistisi Muda di
Badan Pusat Statistik (BPS) RI sejak tahun
2013. Menyelesaikan Pedidikan Diploma
IV Statistika Ekonomi pada tahun
2012 di Sekolah Tinggi Ilmu Statistik
(STIS) Jakarta, dan Magister Statistika
Terapan pada tahun 2020 di Universitas
Padjadjaran (Unpad) Bandung. Saat ini
Penulis sedang menempuh Pendidikan
Doktoral Statistika dan Sains Data di IPB University Bogor. Telah
memiliki pengalaman sebagai Konsultan Statististik dan Pengampu
Mata Ajar Statistika sejak tahun 2012.
Topik penelitian yang diminati adalah bidang Statistika
Ekonomi, Statistika Sosial, Machine Learning dan Epidemologi,
serta berperan aktif sebagai anggota Ikatan Statistisi Indonesia (ISI).
Selain itu Penulis juga aktif menjadi editor/ reviewer di beberapa
jurnal ilmiah. Penulis telah menerbitkan artikel ilmiah di bidang
statistika, ekonomi dan social science.
Pardomuan Robinson Sihombing, SST, M.Stat 121

Akun Link
HP/WA 081271095616
Google Scholar https://scholar.google.com/
citations?user=TKeogYQAAAAJ&hl=en
Research Gate Pardomuan-Sihombing
Orchid https://orcid.org/0000-0002-1597-9077
Publon publons.com/researcher/4219441/pardomuan-
robinson-sihombing/
Research ID http://ResearchID.co/rid14715
Sinta ID 6754387/ https://sinta.ristekbrin.go.id/authors/
detail?id=6754387&view=overview
Scopus ID 57223216987/ https://www.scopus.com/authid/
detail.uri?authorId=57223216987
Academica https://independent.academia.edu/
pardomuansihombing
122 Aplikasi Stata Untuk Statistisi Pemula

View publication stats

Anda mungkin juga menyukai