KOMPUTASI STATISTIK
Analisis Regresi Tobit Spasial: Studi Kasus Penggunaan Internet di Pulau Jawa
ANDHIE SURYA MUSTARI dan ISMAINI ZAIN
Generalized Multilevel Linear Model dengan Pendekatan Bayesian untuk Pemodelan Data
Pengeluaran Perkapita Rumahtangga
AZKA UBAIDILLAH, ANANG KURNIA dan KUSMAN SADIK
Faktor-Faktor yang Memengaruhi Foreign Direct Investment (FDI) di Enam Koridor Ekonomi
Indonesia: Market Seeking atau Resource Seeking?
IRIANI TRISNA RAHAYU dan ERNAWATI PASARIBU
Persepsi Masyarakat Kelurahan Bukit Duri terhadap Program Normalisasi Kali Ciliwung di
Jakarta Tahun 2017 serta Variabel-Variabel yang Memengaruhinya
LOVERIA CANDRA PUSPITA dan ACHMAD PRASETYO
Dewan Redaksi :
Ketua: Dr. Hardius Usman
Anggota: Dr. Nasrudin.
Dr. Ernawati Pasaribu
Mitra Bestari: Prof. Dr. Abuzar Asra
Prof. Dr. Irdam Ahmad
Prof. Nur Iriawan, Ph.D.
Dr. Hari Wijayanto
Dr. Erni Tri Astuti
Setia Pramana, Ph.D.
Pelaksana Redaksi: M. Dokhi, Ph.D.
Dr. Tiodora Hadumaon S.
Dr. I Made Arcana
Dr. M. Ari Anggorowati
Novia Budi Parwanto, Ph.D.
Alamat Redaksi:
Sekolah Tinggi Ilmu Statistik
Jl. Otto Iskandardinata 64C
Jakarta Timur 13330
Telp. 021-8191437
Redaksi menerima karya ilmiah atau artikel penelitian mengenai kajian teori statistik dan komputasi
statistik pada bidang ekonomi dan sosial kependudukan, serta teknologi informasi. Redaksi berhak
menyunting tulisan tanpa mengubah makna substansi tulisan. Isi Jurnal Aplikasi Statistika dan
Komputasi Statistik dapat dikutip dengan menyebutkan sumbernya.
Puji syukur kehadirat Allah, Tuhan Yang Maha Esa, “Jurnal Aplikasi Statistika dan
Komputasi Statistik” Volume 9, Nomor 1, Juni 2017 dapat diterbitkan. Jurnal kampus STIS ini
dapat terwujud atas partisipasi semua pihak, internal maupun eksternal STIS yang telah
mengirimkan tulisannya, serta mitra bestari.
Semoga artikel dalam jurnal ini dapat menambah pengetahuan para pembaca tentang
penggunaan metode statistika serta komputasi statistik pada berbagai jenis data. Redaksi terus
menunggu artikel-artikel ilmiah selanjutnya dari Bapak/Ibu guna dapat menghasilkan publikasi
yang menjadi salah satu sarana untuk memberikan sosialisasi statistika bagi masyarakat.
Hardius Usman
DAFTAR ISI
Pengantar Redaksi………………………………………………………..……….…………iii
Daftar Isi……………………………………………………..……………………………….iv
Abstrak..……………………………………………………..…………………………..….v-x
Analisis Regresi Tobit Spasial: Studi Kasus Penggunaan Internet di Pulau Jawa
Andhie Surya Mustari dan Ismaini Zain……………………………………………..…..…1-16
Kata kunci bersumber dari artikel. Lembar abstrak ini boleh diperbanyak tanpa izin dan biaya
DDC: 315.98
Jurnal Aplikasi Statistika & Komputasi
Andhie Surya Mustari dan Ismaini Zain Statistik, Volume 9, Nomor 1, Juni 2017,
hal 17 – 28
Analisis Regresi Tobit Spasial: Studi Kasus
Penggunaan Internet di Pulau Jawa Abstrak
Data pengeluaran perkapita rumahtangga
Jurnal Aplikasi Statistika & Komputasi merupakan salah satu informasi penting
Statistik, Volume 9, Nomor 1, Juni 2017, sebagai pendekatan untuk mengukur tingkat
hal 1 – 16 kemakmuran dan kesejahteraan di suatu
daerah. Data tersebut sangat diperlukan
Abstrak oleh pemerintah baik di pusat maupun
Dibutuhkan metode khusus untuk daerah dalam merumuskan, melaksanakan
menganalisis data tersensor yang memiliki dan mengevaluasi pelaksanaan
korelasi spasial. Jika menggunakan regresi pembangunan. Penelitian ini akan
linier, akan menghasilkan estimasi menganalisis model yang tepat untuk
parameter yang tidak valid, tidak pemodelan data pengeluaran perkapita
terpenuhinya asumsi normalitas dan rumahtangga yang memperhitungkan
mengaburkan interpretasi model. Model kekhususan data BPS yang memiliki
regresi Tobit spasial digunakan untuk struktur hirarki dan pola distribusi data yang
menganalisis data penggunaan internet di memiliki karakteristik skewed kanan.
Pulau Jawa. Estimasi parameter Pemodelan dilakukan dengan
menggunakan metode MCMC Gibbs menggunakan distribusi Log-normal tiga
sampler dengan pendekatan inferensia parameter (LN3P) dan Log-logistik tiga
Bayesian. Hasilnya, penggunaan internet di parameter (LL3P) dengan struktur satu
Pulau Jawa dipengaruhi oleh persentase tingkat (unilevel) dan dua tingkat
penduduk yang tinggal di daerah perkotaan, (multilevel). Proses pendugaan parameter
persentase penduduk lulusan SMA ke atas, dilakukan dengan metode Markov Chain
rata-rata lama sekolah, persentase rumah Monte Carlo (MCMC) dan algoritma Gibbs
tangga yang memiliki telepon genggam, Sampling. Hasil penelitian menunjukkan
dan persentase desa/kelurahan yang bahwa pada model unilevel, model LL3P
mendapatkan sinyal telepon seluler. lebih baik dari model LN3P. Sedangkan
pada model multilevel, model LN3P lebih
Kata kunci: data tersensor, korelasi spasial, baik dari model LL3P. Hasil penelitian juga
Tobit spasial, MCMC, penggunaan internet menunjukkan model terbaik untuk
pemodelan data pengeluaran perkapita
DDC: 315.98 rumahtangga adalah model multilevel
LN3P dengan intercept sebagai komponen
Azka Ubaidillah, Anang Kurnia dan berhirarki dengan nilai Deviance
Kusman Sadik Information Criterion (DIC) terkecil.
Abstrak | vii
viii | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK
(Journal of Statistical Application & Statistical Computing)
ISSN 2086 – 4132 Volume 9, Nomor 1, Juni 2017
Kata kunci bersumber dari artikel. Lembar abstrak ini boleh diperbanyak tanpa izin dan biaya
DDC: 315.98
Jurnal Aplikasi Statistika & Komputasi
Andhie Surya Mustari dan Ismaini Zain Statistik, Volume 9, Nomor 1, Juni 2017,
hal 17 – 28
Analisis Regresi Tobit Spasial: Studi Kasus
Penggunaan Internet di Pulau Jawa Abstract
Household per capita expenditure data is
Jurnal Aplikasi Statistika & Komputasi one of the important information as an
Statistik, Volume 9, Nomor 1, Juni 2017, approach to measure the level of prosperity
hal 1 – 16 in an area. Such data is needed by the
government, both at the central and
Abstract regional levels in formulating,
Special method is required for analyzing implementing and evaluating the
censored data with spatial dependence. implementation of development programs.
Using linear regression will results in This research is aimed at modeling the
invalid parameter estimations, normality household per capita expenditure data
assumption violations, and obscure the which takes into account the specificity of
model interpretation. Spatial Tobit BPS data which has a hierarchical
regression model is used to analize the data structure, and data distribution pattern
of internet usage in Java. MCMC Gibbs which has the right skewed characteristic.
sampler method with Bayesian inference The modeling is done by using the three
approach was used for parameter parameters of Log-normal distribution
estimation. As a result, internet usage in (LN3P) and the three parameters of Log-
Java Island is influenced by the percentage logistics (LL3P) with a single level
of population living in urban areas, the (unilevel) and two levels (multilevel)
percentage of population graduated from structure. The parameter estimation
senior high school, the average length of process is done by Markov Chain Monte
school, the percentage of households with Carlo (MCMC) method and Gibbs
mobile phones, and the percentage of Sampling algorithm. The results showed
villages receiving cell phone signal. that on the unilevel model, the LL3P model
is better than the LN3P model. While in
Keywords: censored data, spatial multilevel model, LN3P model is better than
dependence, spatial Tobit, MCMC, internet LL3P model. The results also show that the
usage best model for modeling household per
capita expenditure data is the LN3P
multilevel model with the smallest Deviance
DDC: 315.98 Information Criterion (DIC) value.
Iriani Trisna Rahayu dan Ernawati Pasaribu Titik Harsanti dan Febri Wicaksono
Abstrak | xi
ANALISIS REGRESI TOBIT SPASIAL :
Studi Kasus Penggunaan Internet di Pulau Jawa
Abstrak
Dibutuhkan metode khusus untuk menganalisis data tersensor yang memiliki korelasi spasial. Jika
menggunakan regresi linier, akan menghasilkan estimasi parameter yang tidak valid, tidak terpenuhinya
asumsi normalitas dan mengaburkan interpretasi model. Model regresi Tobit spasial digunakan untuk
menganalisis data penggunaan internet di Pulau Jawa. Estimasi parameter menggunakan metode
MCMC Gibbs sampler dengan pendekatan inferensia Bayesian. Hasilnya, penggunaan internet di Pulau
Jawa dipengaruhi oleh persentase penduduk yang tinggal di daerah perkotaan, persentase penduduk
lulusan SMA ke atas, rata-rata lama sekolah, persentase rumah tangga yang memiliki telepon genggam,
dan persentase desa/kelurahan yang mendapatkan sinyal telepon seluler.
Kata kunci: data tersensor, korelasi spasial, Tobit spasial, MCMC, penggunaan internet
Abstract
Special method is required for analyzing censored data with spatial dependence. Using linear
regression will results in invalid parameter estimations, normality assumption violations, and obscure
the model interpretation. Spatial Tobit regression model is used to analize the data of internet usage in
Java. MCMC Gibbs sampler method with Bayesian inference approach was used for parameter
estimation. As a result, internet usage in Java Island is influenced by the percentage of population living
in urban areas, the percentage of population graduated from senior high school, the average length of
school, the percentage of households with mobile phones, and the percentage of villages receiving cell
phone signal.
Keywords: censored data, spatial dependence, spatial Tobit, MCMC, internet usage
Model Tobit dibentuk dengan terlebih menggunakan data cross section sebagai
dahulu mengasumsikan adanya hubungan berikut:
linier antara dengan variabel prediktor
yang dinyatakan dengan: (4)
(2) dimana , merupakan vektor
variabel respon yang memiliki korelasi
dimana , , spasial, adalah matriks variabel prediktor,
adalah dan adalah vektor parameter regresi.
vektor variabel prediktor, Adapun adalah koefisien korelasi spasial
adalah vektor lag dari variabel respon, merupakan
parameter, dan merupakan banyaknya koefisien korelasi spasial error, dan
variabel, dengan mengandung variabel merupakan matriks penimbang spasial
latent yang mewakili nilai tersensor2. Nilai dengan elemen diagonalnya bernilai nol.
tersensor tersebut bisa lebih kecil dari suatu Persamaan ini juga biasa disebut sebagai
batas bawah ( ), lebih besar dari model regresi spatial autoregresive moving
batas atas ( ), atau keduanya. average (SARMA).
Ketika tersensor pada batas atas ,
, maka model regresi Tobit ,
dinyatakan dengan persamaan sebagai ,
berikut:
(3) , dan
1 2
Model regresi Tobit pertama kali diperkenalkan oleh Sebagaimana dijelaskan oleh Long (1997) dan
James Tobin (1958), yang dijelaskan kembali oleh Greene (2008).
Long (1997), DeMaris (2004), Greene (2008), dan
Lee (2010).
Analisis Regresi Tobit Spasial…./Mustari AS, Zain I | 3
1992). LeSage (1999) menjelaskan bahwa
algoritma MCMC Gibbs sampler akan
memberi kemudahan estimasi parameter
untuk model regresi Tobit spasial daripada
Persamaan (4) di atas menjadi bentuk model harus memecahkan sejumlah persamaan
regresi spasial lag ketika , yang integral pada metode maksimum likelihood.
menjelaskan terjadinya efek korelasi spasial Metode MCMC Gibbs sampler bertujuan
antar lag variabel respon. Ketika , untuk mencari nilai estimasi dari
persamaan (4) menjadi bentuk model regresi menggunakan suatu distribusi posterior
spasial error, yang menjelaskan terjadinya bersyarat, dimana nilai lainnya
efek korelasi spasial antar lag variabel diasumsikan telah diketahui. Distribusi
respon dan antar lag variabel prediktor. posterior dari parameter ditentukan
Statistik uji Lagrange digunakan untuk melalui prinsip dari teorema Bayes yang
menentukan bentuk dari model regresi dinyatakan oleh:
spasial (Anselin, 1999).
Untuk melihat ada atau tidaknya efek
korelasi spasial lag, digunakan hipotesis (7)
lawan dengan statistik dimana merupakan fungsi likelihood
uji Lagrange Multiplier atau LM-lag Test dari , merupakan distribusi marginal
sebagai berikut: dari yang tidak melibatkan parameter, dan
merupakan distribusi prior dari yang
(5)
diperoleh dari penelitian sebelumnya
Untuk melihat adanya atau tidaknya efek maupun berdasarkan kajian teoritis atas
spasial error, digunakan hipotesis masalah yang sedang diteliti (Casella &
lawan dengan statistik uji LM-err Berger, 2002).
Test sebagai berikut: Hastings (1970) mengembangkan
metode Metropolis untuk mencari estimasi
(6)
parameter melalui suatu nilai inisiasi
dimana , , awal , yang didasari oleh distribusi
kandidat dimana nilai
diketahui. Nilai dari dibangkitkan dari
distribusi kandidat, kemudian terima
, dan . Statistik uji ini sebagai jika .
mengikuti distribusi asimtotik , Dimana dan
sehingga ditolak apabila
atau p-value lebih kecil dari nilai .
Markov Chain Monte Carlo (MCMC)
(8)
MCMC merupakan suatu teknik
metode simulasi yang membangkitkan Penelitian Sebelumnya
sejumlah sampel dari distribusi data yang Penelitian yang menggunakan model
telah diketahui (Chib & Greenberg, 1996). regresi Tobit spasial di antaranya dilakukan
Ide dasar dari teknik MCMC adalah oleh Langyintuo dan Mekuria (2008) yang
daripada menghitung suatu fungsi kepadatan menggunakan metode maksimum likelihood
peluang , lebih baik mengambil untuk membentuk model Tobit SARMA
sampel random dalam jumlah besar dari pada data petani di Mozambique. Kaliba
untuk mengetahui bentuk (2002) mengembangkan model Tobit
probabilitas tersebut secara tepat. Dengan SARMA menggunakan modul aplikasi
ukuran sampel random yang cukup besar, Maximum Likelihood 4 dari paket program
nilai rata-rata dan standar deviasinya dapat GAUSS (dikembangkan oleh Aptech
dihitung secara akurat (Casella & George, Systems, 1995) pada data pedesaan di
4 | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
Tanzania. Sementara LeSage dan Pace tinggal satu rumah, umur, tingkat
(2009) menggunakan data simulasi yang pendidikan, dan status pekerjaan
dibangkitkan oleh Koop untuk membentuk (Michailidis, Partalidou, Nastis,
model Tobit spasial menggunakan Klavdianou, & Charatsari, 2011).
pendekatan Bayesian MCMC (Markov Berdasarkan hasil-hasil pada
Chain Monte Carlo) dengan algoritma penelitian terdahulu, model regresi Tobit
Gibbs Sampling. Adapun penelitian yang spasial yang dibangun pada penelitian ini
menggunakan model Tobit spasial pada data akan menggunakan algoritma MCMC
teknologi informasi dan komunikasi (TIK) sebagai metode estimasi parameternya.
belum pernah ditemukan. Tingkat penggunaan internet di
Pembangunan TIK suatu negara kabupaten/kota di Pulau Jawa digunakan
memiliki hubungan yang positif dengan sebagai variabel respon dengan variabel-
pertumbuhan ekonomi. Artinya, variabel prediktor sebagai berikut;
pembangunan TIK akan memberikan efek persentase penduduk yang tinggal di daerah
berantai kepada meningkatnya pertumbuhan perkotaan, persentase penduduk usia muda,
ekonomi (Kominfo, 2010). Rao dan Pattnaik persentase penduduk lulusan SMA ke atas,
(2006) menyatakan bahwa pertumbuhan rata-rata lama sekolah, persentase rumah
TIK telah membuka kesempatan bagi tangga yang memiliki komputer, persentase
masyarakat untuk lebih memanfaatkan rumah tangga yang memiliki telepon seluler,
fasilitas pembangunan sosial ekonomi dan dan persentase desa/kelurahan yang
budaya secara lebih modern. Pembangunan mendapatkan sinyal telepon seluler.
TIK memberikan pengaruh ekonomi yang b. Metode Analisis
luas, baik secara langsung maupun tidak
langsung, meningkatkan kesejahteraan dan Sumber Data dan Variabel Penelitian
pembangunan fasilitas sosial ekonomi (ITU, Sumber data yang digunakan dalam
2010). Akses internet merupakan indikator penelitian ini adalah data olahan hasil
yang paling merepresentasikan tingkat Susenas 2010 dan Podes 2008 yang
pembangunan TIK suatu negara, selain dikumpulkan oleh Badan Pusat Statistik
pertumbuhan ekonomi sektor (BPS). Matriks penimbang spasial
telekomunikasi, kepemilikan telepon seluler disusun menggunakan metode queen
atau penguasaan komputer. contiguity, yaitu daerah kabupaten/kota
Menggunakan data dari 154 negara, yang saling berbatasan wilayah akan
Howard dan Mazaheri (2009) menemukan memiliki korelasi spasial sedangkan yang
bahwa kesenjangan penggunaan TIK saling terpisah tidak memiliki korelasi. Nilai
(telepon seluler, komputer, dan bandwidth jika daerah dan saling
internet) dipengaruhi oleh; investasi asing,
berbatasan wilayah, menjadi jika
perdagangan, jumlah penduduk, populasi
perkotaan, literacy rate, konsumsi, telepon tidak saling berbatasan. Adapun peta digital
kabel, serta sembilan variabel lain yang yang digunakan berdasarkan hasil kegiatan
menjelaskan regulasi pemerintah. Andonova updating peta Sensus Penduduk 2010.
dan Serrano (2007) menjelaskan bahwa Objek penelitian yang dijadikan
perkembangan TIK dan pertumbuhan sebagai variabel respon adalah tingkat
pemanfaatan internet lebih banyak penggunaan internet di 118 kabupaten/kota
dipengaruhi oleh faktor perhatian di Pulau Jawa, yaitu persentase penduduk
pemerintah dan regulasi yang berlaku di usia 5 tahun ke atas yang pernah mengakses
wilayah tersebut. Michailidis dkk. internet dalam tiga bulan terakhir. Sensor
mengungkapkan bahwa pengguna internet di diberikan kepada wilayah kabupaten/kota
pedesaan Yunani dipengaruhi oleh tingkat dengan persentase penduduk pengguna
pendapatan, harga dari akses internet, internet di atas 16 persen dengan
kepemilikan PC, tempat tinggal, serta menganggap nilai pada nilai
variabel sosial demografi seperti; jenis . Adapun variabel prediktor yang
kelamin, jumlah penduduk muda yang digunakan adalah sebagai berikut:
(11)
Pengujian heteroskedastisitas untuk
menentukan matrik menggunakan
3
Informasi nilai rata-rata dan varians dari variabel
random latent ini dijelaskan pula dalam LeSage
(2000) serta LeSage dan Pace (2009).
Analisis Regresi Tobit Spasial…./Mustari AS, Zain I | 7
Gambar 2. Penggunaan Internet Kabupaten/Kota di Pulau Jawa Tahun 2010
Peta tematik penggunaan internet pada nilai tingkat penggunaan internet yang tidak
Gambar 2 memperlihatkan bahwa diketahui tersebut dianggap sama dengan 16
penggunaan internet kategori tinggi banyak persen, sehingga diperoleh variabel
terdapat pada wilayah perkotaan seperti DKI persentase pengguna internet sebagai data
Jakarta dan sekitarnya, deretan Yogyakarta tersensor. Hal ini sesuai dengan konsep pada
ke arah Surakarta, serta wilayah Bandung, persamaan (1) di atas.
Semarang, Surabaya dan sekitarnya. Deskriptif data tingkat penggunaan
Tingginya penggunaan internet di kota-kota internet sebagai variabel respon yang
pusat pelajar, industri, dan bisnis tersebut tersensor dapat dilihat pada Tabel 1 di bawah
kemudian diikuti oleh wilayah lain di ini. Nilai maksimum dari persentase
sekitarnya. Wilayah yang bersinggungan pengguna internet per kabupaten/kota sama
langsung dengan kota-kota tersebut dengan 16 persen, dengan rata-rata dan
memiliki persentase pengguna internet yang standar deviasi masing-masing sebesar 9,97
sedikit lebih rendah, sementara wilayah persen dan 4,63. Variabel yang memiliki
berikutnya yang bersinggungan secara tidak variasi nilai terbesar adalah persentase
langsung memiliki nilai yang lebih rendah penduduk perkotaan dengan standar deviasi
lagi. sebesar 30,84 dan panjang range data dari
Untuk pemodelan regresi Tobit 9,27 persen hingga 100 persen. Variabel
spasial, nilai persentase pengguna internet rata-rata lama sekolah memiliki variasi
dari 34 kabupaten/kota dianggap tidak terkecil dengan standar deviasi sebesar 1,52.
diketahui. Mereka adalah wilayah dengan Hal itu karena satuan dari variabel tersebut
tingkat penggunaan internet yang lebih besar dalam ukuran tahun, sementara variabel
dari 16 persen, yaitu sebagai batas minimal lainnya dalam satuan persentase.
persentase pengguna internet yang ingin
dicapai oleh suatu kabupaten/kota. Nilai-
Tabel 2. Model Regresi Linier Berganda dan Nilai Variance Inflation Factor (VIF)
Uji Parameter
Parameter Koefisien Statistik VIF
Statistik Uji t p-Value
(1) (2) (3) (4) (5)
Tabel 3. Pengujian Efek Korelasi Spasial, Heteroskedastisitas, dan Hasil Estimasi Parameter
untuk Pemodelan Regresi Tobit Spasial menggunakan Metode Backward Elimination
Variabel prediktor yang tersisih dari normal, sehingga dapat disimpulkan bahwa
model adalah (persentase penduduk usia asumsi normalitas dari error model
muda) dan (persentase rumah tangga terpenuhi secara nyata. Asumsi berikutnya
yang memiliki komputer). Pada tahap akhir terkait masalah varians error yang homogen
backward elimination diperoleh lima dianggap telah terpenuhi, mengingat hasil
variabel prediktor yang secara nyata uji Breusch Pagan sebelumnya yang
mempengaruhi keragaman penggunaan memperlihatkan tidak terpenuhinya kondisi
internet di Pulau Jawa. Berdasarkan heteroskedastisitas serta proses simulasi
persamaan (21) dan hasil estimasi parameter MCMC yang didasari oleh kondisi
yang disajikan pada tabel 3 di atas, model homoskedastisitas. Adapun asumsi tidak
regresi Tobit spasial lag yang terbentuk adanya autokorelasi dalam error juga telah
adalah: terpenuhi, karena model yang terbentuk
n
bukanlah model regresi Tobit spasial error.
−13, 727 − 0,17
wij y j + 0, 012 x1i
j =1, j i
yˆi = +0,144 x + 0, 755 x +0, 093x +0, 083x ; y < 16 Interpretasi Model
3i 4i 6i 7i i
16 ; yi 16
Persamaan (22) di atas menjelaskan
bahwa untuk kabupaten/kota dengan
(22)
persentase pengguna internet yang kurang
Model ini digunakan untuk menjelaskan
dari 16 persen, tingkat penggunaan internet
faktor-faktor dan daerah di sekitarnya yang
di wilayah tersebut dipengaruhi oleh daerah
mempengaruhi tingkat penggunaan internet
lain di sekitarnya serta variabel-variabel
di suatu kabupaten/kota, ketika nilainya
sebagai berikut:
lebih kecil dari 16 persen. Adapun untuk
• Persentase penduduk yang tinggal di
kabupaten/kota dengan tingkat penggunaan
perkotaan ( ). Apabila variabel lain
internet yang tinggi dianggap sebagai tolok
ukur pembangunan TIK yang ingin dicapai. dianggap konstan, maka setiap kenaikan
Probability Plot of Residual persentase penduduk yang tinggal di
Normal
99,9
Mean 1,207
perkotaan sebesar satu persen akan
StDev 1,392
99
N
KS
118
0,052
mengakibatkan kenaikan persentase
95
90
P-Value >0,150
pengguna internet sebesar 0,012 persen.
•
80
70 Persentase penduduk lulusan SMA ke
Percent
60
50
40
30
20
atas ( ). Apabila variabel lain
10
5
dianggap konstan, maka setiap kenaikan
1
0,1
persentase penduduk lulusan SMA ke
-4 -2 0
Residual
2 4 6
atas sebesar satu persen akan
mengakibatkan kenaikan persentase
Gambar 3. Grafik Plot Probabilitas Normal dari
Residual Model Regresi Tobit Spasial pengguna internet sebesar 0,144 persen.
Lag • Rata-rata lama sekolah ( ). Apabila
Grafik plot probabilitas normal dari variabel lain dianggap konstan, maka
residual digunakan untuk menguji asumsi setiap kenaikan rata-rata lama sekolah
normalitas dari error model. Plot residual selama satu tahun akan mengakibatkan
terlihat berada di sekitar garis probabilitas kenaikan penggunaan internet suatu
kabupaten/kota sebesar 0,755 persen.
Analisis Regresi Tobit Spasial…./Mustari AS, Zain I | 11
• Persentase rumah tangga yang memiliki kemudahan akses internet yang disediakan
telepon genggam ( ). Apabila variabel melalui perangkat telepon genggam dan
keluasan jaringan telepon seluler telah
lain dianggap konstan, maka setiap secara nyata mendorong peningkatan tingkat
kenaikan persentase rumah tangga yang penggunaan internet. Di sisi lain,
memiliki telepon genggam sebesar satu penggunaan internet ternyata tidak secara
persen akan mengakibatkan kenaikan nyata diakses melalui komputer atau
persentase pengguna internet sebesar didominasi oleh penduduk usia muda.
0,093 persen. Internet dapat diakses oleh siapapun dan
• Persentase desa/kelurahan yang melalui media apapun, terutama telepon
mendapat sinyal telepon seluler ( ). seluler.
Apabila variabel lain dianggap konstan, Selain dipengaruhi oleh kelima
maka setiap kenaikan persentase variabel di atas, tingkat penggunaan internet
desa/kelurahan yang mendapat sinyal kabupaten/kota di Pulau Jawa juga
telepon seluler sebesar satu persen akan dipengaruhi oleh daerah lain yang
menyebabkan kenaikan penggunaan bersinggungan wilayah. Sebagai contoh,
internet sebesar 0,083 persen. tingkat penggunaan internet di Kabupaten
Nilai koefisien determinasi Kepulauan Seribu dapat dijelaskan melalui
memperlihatkan bahwa sebesar 83,94 persen model regresi Tobit spasial lag berikut ini:
variasi penggunaan internet di Pulau Jawa (23)
dijelaskan oleh lima variabel prediktor
dalam model, sisanya oleh variabel lain. dimana
Pengaruh spasial lag dari daerah lain yang
saling bersinggungan wilayah dapat terlihat
pada model regresi Tobit spasial lag masing- adalah vektor variabel prediktor dari
masing kabupaten/kota, yaitu model Kepulauan Seribu dan
ketika . Adapun untuk
kabupaten/kota dengan kategori penggunaan
internet yang tinggi, maka nilai persentase adalah vektor parameter. Tingkat
peduduk umur 5 tahun ke atas yang pernah penggunaan internet di Kepulauan Seribu
mengakses internet dalam tiga bulan terakhir dipengaruhi pula oleh penggunaan internet
dianggap sama dengan 16 persen atau di Kota Jakarta Utara dan Kabupaten
ketika . Tangerang. Jika variabel lain dianggap
Persentase penduduk yang tinggal di konstan, maka penggunaan internet di
perkotaan mengindikasikan tingkat Kepulauan Seribu adalah sebesar -0,085 kali
kemajuan dan kelengkapan fasilitas umum dari gabungan penggunaan internet di
di daerah tersebut. Adapun presentase Tangerang ( ) dan Kota Jakarta Utara (
penduduk lulusan SMA ke atas dan rata-rata ). Secara detail, masing-masing 84
lama sekolah mencerminkan kualitas model regresi Tobit spasial lag ketika nilai
sumber daya manusia di daerah tersebut. persentase pengguna internet kurang dari 16
Dengan demikian, meningkatkan persentase persen dapat dilihat pada lampiran.
pengguna internet dapat dilakukan melalui KESIMPULAN DAN SARAN
upaya peningkatan kualitas sumber daya
manusia dari aspek pendidikan. Selain itu, Model regresi Tobit spasial
pembangunan kelengkapan fasilitas umum merupakan suatu model regresi spasial yang
di daerah pedesaan juga dapat mendorong diterapkan pada data tersensor, dengan
tingkat penggunaan internet di bentuk model umum dari regresi Tobit
kabupaten/kota. spasial adalah:
Variabel karakteristik perangkat dan
jaringan di daerah mengindikasikan
pentingnya perkembangan teknologi telepon
seluler bagi pertumbuhan internet. Berbagai
12 | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
(
w T y + w T y + W T W
) Development of Telecommunications.
T
y
i i
( )
+ x T β − w T Xβ +
i
Bonn: IZA Discussion Paper.
yi = i i i jika yi <
Anselin, L. 1988. Spatial Econometrics:
jika yi Methods and Models. Dordrecht:
Kluwer Academic Publishers.
(24)
Anselin, L. 1999. Spatial Econometrics.
Metode estimasi parameter yang dapat
Dallas: University of Texas.
digunakan adalah Markov Chain Monte
BPS. 2011. Sensus Penduduk 2010. Hämtat
Carlo (MCMC) yang dilengkapi dengan
från Sensus Penduduk 2010:
algoritma Gibbs sampler dan Metropolis
http://sp2010.bps.go.id/index.php/site
within Gibbs. Metode ini lebih
/index (diakses 4 November 2011)
mengedepankan teknik simulasi komputasi
BPS. 2011. Statistik Komunikasi dan
untuk membangkitkan sejumlah besar
Teknologi Informasi Tahun 2010.
variabel random menggunakan pendekatan
Jakarta: Badan Pusat Statistik.
inferensia Bayesian.
Breusch, T., & Pagan, A. 1979. A Simple
Menggunakan penggunaan internet di Pulau
Test for Heteroscedasticity and
Jawa sebagai studi kasus, diketahui bahwa
Random Coefficient Variation.
model regresi Tobit Spasial lag
Econometrica, Vol. 47, No. 5, 1287-
menghasilkan informasi yang lebih kaya
1294.
daripada model regresi linier berganda.
Casella, G. dan Berger, R. 2002. Statistical
Faktor-faktor yang mempengaruhi
Inference. Duxbury, Thomson
penggunaan internet kabupaten/kota di
Learning.
Pulau Jawa adalah persentase penduduk
Casella, G. dan George, E. I. 1992.
yang tinggal di daerah perkotaan, persentase
Explaining the Gibbs Sampler. The
penduduk lulusan SMA ke atas, rata-rata
American Statistician, Vol. 46, No. 3,
lama sekolah, persentase rumah tangga yang
167-335.
memiliki telepon genggam, dan persentase
Chib, S. dan Greenberg, E. 1996. Markov
desa/kelurahan yang mendapatkan sinyal
Chain Monte Carlo Simulation
telepon seluler. Selain dipengaruhi oleh
Methods in Econometrics.
kelima variabel tersebut, tingkat
Econometrics Theory, Vol. 12, 409-
penggunaan internet kabupaten/kota di
431.
Pulau Jawa juga dipengaruhi oleh daerah
DeMaris, A. 2004. Regression with Social
lainnya yang bersinggungan wilayah.
Data: Modelling Continuous and
Berdasarkan hasil penelitian yang
Limited Response Variable. New
telah diperoleh, pengembangan lebih lanjut
Jersey: John Wiley and Sons, Inc.
dapat dilakukan dengan menggunakan
Draper, N. R. dan Smith, H. 1998. Applied
highest posterior density (HPD) dan Bayes
Regression Analysis. New York: John
Faktor sebagai metode pengujian parameter
Willey and Sons, Inc.
dan model. Penelitian ini masih
Fischer, M. M. dan Getis, A. 2010.
menggunakan matriks penimbang queen
Handbook of Applied Spatial
contiguity, sehingga pada penelitian
Analysis: Software Tools, Methods,
selanjutnya dapat dikembangkan
and Application. New York: Springer.
menggunakan matriks penimbang lain
Greene, W. H. 2008. Econometric Analysis,
misalnya jarak. Lebih lanjut, metode
Sixth Edition. New York: Pearson -
MCMC Gibbs sampler untuk pemodelan
Prentice Hall.
regresi Tobit spasial ini dapat digunakan
Hastings, W. 1970. Monte Carlo Sampling
untuk data dan kasus lain yang lebih
Methods using Markov Chains and
aplikatif.
Their Applications. Biometrika, Vol.
DAFTAR PUSTAKA 57, No. 1, 97-109.
Andonova, V., & Serrano, L. D. 2007. Howard, P. N. dan Mazaheri, N. 2009.
Political Institutions and the Telecommunications Reform, Internet
Use, and Mobile Phone Adoption in
Analisis Regresi Tobit Spasial…./Mustari AS, Zain I | 13
Developing World. World LeSage, J. dan Pace, R. K. 2009.
Development, Vol. 37, No. 7, 1159- Introduction to Spatial Econometrics.
1169. New York: CRC Press.
ITU. 2010. Measuring the Information Long, J. S. 1997. Regression Models for
Society. Geneva: International Categorical and Limited Dependent
Telecommunications Union. Variables. California: Sage
Kaliba, A. R. 2002. Participatory Evaluation Publications, Inc.
of Community Based Water and Marsh, T. L., Mittelhammer, R. C., &
Sanitation Programes: The Case of Huffaker, R. G. 2000. Probit with
Central Tanzania. Dissertation. Spatial Correlation by Field Plot:
Mahattan: Kansas State University. Potato Leafroll Virus Net Necrosis in
Kominfo. 2010. Buku Putih Komunikasi dan Potatoes. Journal of Agricultural,
Informatika Indonesia. Jakarta: Pusat Biological, and Environmental
Data Kementerian Komunikasi dan Statistics, Volume 5, Number 1, Pages
Informatika. 22-36.
Lacombe, D. J. (2008, Juli 24). An Michailidis, A., Partalidou, M., Nastis, S. A.,
Introduction to Bayesian Inference in Klavdianou, A. P.dan Charatsari, C.
Spatial Econometrics. Hämtat från 2011. Who Goes Online? Evidence of
http://ssrn.com/abstract=1244261. Internet Use Patterns from Rural
(diakses 13 November 2011). Greece. Telecommunications Policy,
Langyintuo, A. S. dan Mekuria, M. 2008. Vol. 35, 333-343.
Assessing the Influence of Rao, J. G. dan Pattnaik, S. 2006. Technology
Neighborhood Effects on the for Rural Development Role of
Adoption of Improved Agricultural Telecommunication Media in India.
Technologies in Developing Indian Media Studies Journal, Vol. 1,
Agriculture. AfJARE, Vol. 2, No. 2, No. 1, 85-92.
151-169. Socialbaker. (2011, Agustus 17) . Facebook
Lee, M. J. 2010. Micro-Econometrics: Statistics by Country. Hämtat från
Methods of Moments and Limited www.socialbaker.com:
Dependent Variables, Second Edition. http://www.socialbakers.com/faceboo
New York: Springer. k-statistics/?interval=last-3-
LeSage, J. P. 1999. The Theory and Practice months#chart-intervals.
of Spatial Econometrics. Ohio: Tobin, J. 1958. Estimation of Relationships
University of Toledo. for Limited Dependent Variables.
LeSage, J. P. 2000. Bayesian Estimation of Econometrica, Vol. 26, No. 1, 24-36.
Limited Dependent Variable Spatial
Autoregressive Models. Geographical
Analysis, Vol. 32, No. 1, 19-35.
LAMPIRAN
Model regresi Tobit spasial lag untuk 84 kabupaten/kota dengan nilai :
1. Kepulauan :
Seribu
2. Bogor :
3. Sukabumi :
4. Cianjur :
5. Bandung :
6. Garut :
Abstrak
Data pengeluaran perkapita rumahtangga merupakan salah satu informasi penting sebagai pendekatan
untuk mengukur tingkat kemakmuran dan kesejahteraan di suatu daerah. Data tersebut sangat diperlukan
oleh pemerintah baik di pusat maupun daerah dalam merumuskan, melaksanakan dan mengevaluasi
pelaksanaan pembangunan. Penelitian ini akan menganalisis model yang tepat untuk pemodelan data
pengeluaran perkapita rumahtangga yang memperhitungkan kekhususan data BPS yang memiliki
struktur hirarki dan pola distribusi data yang memiliki karakteristik skewed kanan. Pemodelan dilakukan
dengan menggunakan distribusi Log-normal tiga parameter (LN3P) dan Log-logistik tiga parameter
(LL3P) dengan struktur satu tingkat (unilevel) dan dua tingkat (multilevel). Proses pendugaan parameter
dilakukan dengan metode Markov Chain Monte Carlo (MCMC) dan algoritma Gibbs Sampling. Hasil
penelitian menunjukkan bahwa pada model unilevel, model LL3P lebih baik dari model LN3P.
Sedangkan pada model multilevel, model LN3P lebih baik dari model LL3P. Hasil penelitian juga
menunjukkan model terbaik untuk pemodelan data pengeluaran perkapita rumahtangga adalah model
multilevel LN3P dengan intercept sebagai komponen berhirarki dengan nilai Deviance Information
Criterion (DIC) terkecil.
Kata kunci : Generalized Multilevel Linear Model, LL3P, LN3P, MCMC, Pengeluaran perkapita
rumahtangga.
Abstract
Household per capita expenditure data is one of the important information as an approach to measure
the level of prosperity in an area. Such data is needed by the government, both at the central and
regional levels in formulating, implementing and evaluating the implementation of development
programs. This research is aimed at modeling the household per capita expenditure data which takes
into account the specificity of BPS data which has a hierarchical structure, and data distribution pattern
which has the right skewed characteristic. The modeling is done by using the three parameters of Log-
normal distribution (LN3P) and the three parameters of Log-logistics (LL3P) with a single level
(unilevel) and two levels (multilevel) structure. The parameter estimation process is done by Markov
Chain Monte Carlo (MCMC) method and Gibbs Sampling algorithm. The results showed that on the
unilevel model, the LL3P model is better than the LN3P model. While in multilevel model, LN3P model
is better than LL3P model. The results also show that the best model for modeling household per capita
expenditure data is the LN3P multilevel model with the smallest Deviance Information Criterion (DIC)
value.
Keywords: Generalized Multilevel Linear Model, LL3P, LN3P, MCMC, Household per capita
expenditure.
(7)
Dari persamaan (7) tersebut terlihat
bahwa distribusi LN3P termasuk keluarga (12)
eksponensial. Dengan cara yang sama untuk
distribusi LL3P juga dapat dituliskan dimana adalah fungsi distribusi
persamaan distribusi keluarga eksponensial. kumulatif. Nilai kritis dari uji Anderson-
Selanjutnya, nilai harapan dan varians Darling dirumuskan sebagai berikut:
model dapat dinyatakan sebagai berikut:
(13)
(8)
(9)
dimana CV (Critical Value) adalah nilai
Fungsi nilai harapan model kritis. H0 ditolak jika
merupakan fungsi identitas dengan
4. Analisis Bayesian
persamaan:
Metode Bayesian mengacu nama
(10) ilmuwan Thomas Bayes (1702-1761) yang
menemukan perlakuan matematika untuk
masalah non trivial dari inferensi Bayesian.
Kemudian, untuk pemodelan GLM
Thomas Bayes menemukan suatu
dengan struktur data berhirarki, maka GLM
penyelesaian untuk kasus khusus yang
diperluas menjadi Generalized Multilevel
kemudian dikenal dengan nama Teorema
Linear Model (GMLM) dengan formula
Bayesian. Selanjutnya Teorema Bayesian
fungsi nilai harapan sebagai berikut:
dipopulerkan oleh Matematikawan asal
Prancis, Peirre-Simon Laplace dengan
(11)
istilah peluang Bayesian.
Generalized Multilevel Linear Model… / Ubaidillah A, Kurnia A dan Sadik K | 23
Berbeda dengan teori statistika klasik memungkinkan proses simulasi dengan
(frequentist), analisis bayesian mengambil sampel acak dari model
memperlakukan semua parameter yang tidak stokastik yang sangat rumit.
diketahui sebagai variabel random dan Ide dasar dari MCMC adalah
memiliki distribusi (Boldstad, 2007). membangkitkan data sampel dari distribusi
Teorema bayesian didasarkan pada posterior sesuai proses Markov Chain
distribusi posterior yang merupakan dengan menggunakan simulasi Monte Carlo
perpaduan antara distribusi prior (informasi secara iteratif sehingga diperoleh kondisi
masa lalu sebelum dilakukan observasi) dan yang konvergen terhadap posterior
data observasi yang digunakan untuk (Ntzoufras, 2009). Kondisi tersebut harus
menyusun fungsi Likelihood (Box dan Tiao, memenuhi sifat-sifat Markov Chain yang
1973). Hubungan distribusi posterior strongly ergodic (Boldstad, 2010; Tailor dan
dengan distribusi prior dan Likelihood dapat Carlin, 1998) yaitu:
ditulis sebagai berikut. a. Irreducible, artinya sampel parameter
Distribusi posterior likelihood × yang dibangkitkan melalui proses
Distribusi prior MCMC adalah bersifat random.
Pada teorema Bayes, apabila terdapat b. Aperiodic, artinya sampel parameter yang
parameter yang diberikan oleh data dibangkitkan tersebut tidak memiliki pola
observasi y, maka distribusi probabilitas yang periodik dalam domain nilai
untuk posterior pada data y akan tertentu.
proporsional dengan perkalian antara c. Recurrent, artinya perubahan sampel
distribusi prior dan fungsi Likelihood parameter terjadi secara stabil dalam
yang diberikan oleh data y. Secara domain nilai tertentu.
matematis dapat ditulis sebagai berikut:
5. Hierarchical Bayesian (HB)
Raudenbush dan Byrk (2002)
menyatakan bahwa secara umum proses
(14) pembentukan model HB dua tingkat diawali
dengan membentuk model mikro sesuai
persamaan (2) sebagai Likelihood dari data
dimana merupakan distribusi
observasi yang memiliki parameter dan
posterior yang proporsional dengan , dengan sehingga fungsi
perkalian antara fungsi Likelihood Likelihood adalah . Selanjutnya
ditentukan prior dari parameter-parameter
dan distribusi prior . yang tidak diketahui dan dilakukan secara
bertingkat yaitu two stage prior (untuk
4.1 Markov Chain Monte Carlo model hirarki dua tingkat). Stage-1 prior
berdasarkan model makro sesuai persamaan
Untuk mendapatkan pendugaan (2) yang dinyatakan dalam notasi
parameter dari distribusi posterior melalui dengan adalah matriks koefisien regresi
proses integrasi seringkali sulit dilakukan model makro dan adalah matriks varians
apabila melibatkan persamaan integral yang kovarians dari .
sangat kompleks. Oleh karena itu Tahap selanjutnya adalah menentukan
penyelesaian perhitungan pendugaan stage-2 prior yang dinyatakan dalam notasi
parameter seringkali dilakukan secara . Dengan demikian distribusi
numerik, salah satunya adalah teknik posterior model HB adalah fungsi yang
Markov Chain Monte Carlo (MCMC). proporsional terhadap perkalian Likelihood,
Menurut Carlin (1992) pendekatan MCMC stage-1 prior dan stage-2 prior yang
sangat efektif untuk mengurangi beban dinyatakan dalam notasi sebagai berikut:
komputasi dalam menyelesaikan persamaan
integrasi yang kompleks. Scollnik (2011)
mengemukakan bahwa metode ini
24 | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
tanpa kovariat di model level kedua.
Persamaan modelnya adalah:
(15)
(17) (23)
data pengeluaran perkapita perbulan yang 550000 600000 650000 700000 750000 800000 850000
13.6
13.4
13.2
2. Model GMLM_Int LN3P (model
13.0
12.8
multilevel berdistribusi LN3P dengan
1000 2500 5000 7500 10000 struktur hirarki pada parameter intersep)
iteration
adalah model terbaik untuk pemodelan
Gambar 2. Diagnostic plot model
data pengeluaran perkapita
GMLM_Int distribusi LN3P
rumahtangga dengan nilai DIC terkecil.
untuk parameter γ00
➢ Prediksi Model 2. Saran
Prediksi model GMLM_Int
Dari plot antara data aktual dan hasil
berdistribusi LN3P dan distribusi LL3P
prediksi model ternyata masih didapatkan
ditampilkan dalam Gambar 3 sebagai
gap yang semakin besar untuk persentil
berikut:
menengah ke bawah dan persentil menengah
17
Aktual
ke atas. Selain itu, nilai Deviance dan DIC
Pred GMLM_Int LN3P
16
Pred GMLM_Int LL3P yang diperoleh dari pemodelan GMLM
masih cukup tinggi. Oleh karena itu
15
disarankan untuk penelitian selanjutnya agar
Ln(Y-threshold)
14
menambah level model menjadi tiga level.
Harapannya dengan menambah level model
13
akan memperkecil nilai Deviance dan
12 mengurangi besarnya gap antara data aktual
dan prediksi model.
11
1 10 20 30 40 50 60 70 80 90 100
Percentile
DAFTAR PUSTAKA
Gambar 3 Plot persentil data aktual dan
hasil prediksi model GMLM Anderson, T.W. dan Darling, D.A. 1954. A
berdistribusi LN3P dan LL3P test Goodness of Fit. Journal of
Dari Gambar 4.3 terlihat bahwa hasil American Statistical Association,
prediksi antara model GMLM berdistribusi Volume 49, Issue 268, hal. 765-769.
LN3P dan model GMLM berdistribusi LL3P Anderson, T.W. dan Darling, D.A .1952.
mempunyai kemiripan dimana plot prediksi Asymptotic Theory of Certain
kedua model tersebut berhimpitan. Namun “Goodness of Fit” Criteria Based on
masih terlihat bahwa kemampuan prediksi stochastic Process. The Annals of
kedua model masih perlu ditingkatkan, Mathematical Statistics, Vol. 23, No. 2,
khususnya untuk persentil bawah dan hal. 193-212.
persentil atas yang terdapat gap antara data
aktual dengan hasil prediksi model. Anderson, W., dan Wells, M.T. 2010. A
Bayesian Hierarchical Regression
KESIMPULAN DAN SARAN Approach to Clustered and
Longitudinal Data in Empirical Legal
1. Kesimpulan Studies. Journal of Empirical Legal
Studies, Volume 7, Issue 4, hal. 634-
Dari hasil analisa yang sudah
663.
diuraikan pada bab sebelumnya, maka dapat
diperoleh kesimpulan sebagai berikut: Boldstad, W.M. 2007. Introduction to
1. Model LL3P memberikan hasil Bayesian Statistics. 2nd Edition. Wiley,
pemodelan yang lebih baik daripada New Jersey.
model LN3P untuk pemodelan unilevel.
Box, G.E.P. dan Tiao, G.C. 1973. Bayesian
Sedangkan untuk pemodelan multilevel,
Inference in Statistical Analysis. John
model LN3P memberikan hasil
Willey And Sons, Inc : New York.
pemodelan yang lebih baik dari model
LL3P.
Abstrak
Pembangunan ekonomi suatu negara sangat tergantung pada besarnya penanaman modal asing langsung
atau Foreign Direct Investment (FDI), termasuk di enam koridor ekonomi Indonesia. Kesenjangan
kondisi di koridor ekonomi diperkirakan akan membawa perbedaan yang mempengaruhi arus masuk
FDI ke dalam koridor. Penelitian ini menggunakan regresi data panel untuk menganalisis faktor-faktor
di balik arus masuk FDI di setiap koridor ekonomi dan untuk menentukan karakteristik FDI di setiap
koridor ekonomi. Hasil penelitian menunjukkan bahwa proporsi belanja modal pemerintah, jumlah
angkatan kerja berpendidikan tinggi, keterbukaan perdagangan, dan proporsi ekspor minyak dan mineral
hanya mempengaruhi arus masuk FDI di beberapa koridor ekonomi. Lebih jauh lagi dapat diindikasikan
bahwa sementara “market seeking FDI” terjadi di semua koridor ekonomi Indonesia, “resource seeking
FDI” hanya ditemukan di koridor ekonomi Sulawesi, Maluku dan Papua.
Kata kunci: FDI, Koridor Ekonomi, data panel, market seeking, resource seeking
Abstract
The economic development of a country depends on the amount of foreign direct investment (FDI),
including in the Indonesian six economic corridors. The huge gaps of conditions in economic corridors
are expected to differences infactors affecting the FDI-inflow into the corridors. This study uses a panel
data regression to analyze factors behind the FDI-inflow in each economic corridor and to determine
the FDI characteristic in each economic corridor. It shows that the proportion of government capital
expenditure, number of highly-educated labor force, trade openness, and the proportion of oil and
mineral export affect the FDI-inflow only in some economic corridors. Furthermore, it indicates that,
while market seeking FDI occurred in all Indonesian economic corridors, resource seeking FDI was
only found in Sulawesi, Maluku and Papua economic corridors..
Keywords: Foreign Direct Investment (FDI), Indonesian economic corridors, panel data regression,
market seeking, resource seeking
Faktor – faktor yang Memengaruhi Foreign Direct Investment… / Rahayu IT dan Pasaribu E | 31
PENDAHULUAN MP3EI tersebut tentu membutuhkan sumber
daya dan dana yang tidak sedikit. Sumber
Pasca krisis tahun 1997, pemerintah
daya alam yang berlimpah serta jumlah
mulai memperbaiki diri, terutama untuk
penduduk yang sangat besar mungkin bukan
membangkitkan perekonomian yang
merupakan masalah. Namun dana yang
terpuruk. Hasil dari pembangunan yang
dapat disediakan oleh pemerintah sangatlah
terus digalakkan pemerintah, baik di pusat
terbatas. Oleh sebab itu, dibutuhkan suntikan
maupun di daerah tersebut, dapat terlihat
dana dari swasta, baik dari dalam negeri
dari perkembangan ekonomi Indonesia yang
maupun dari luar negeri.
pada umumnya mengalami pertumbuhan
Salah satu sumber dana yang besar dan
yang positif.
dapat segera digunakan adalah Investasi
Akan tetapi, mulai tahun 2007, tingkat
Asing Langsung atau Foreign Direct
pertumbuhan ekonomi Indonesia semakin
Investment (FDI). Investasi jenis ini lebih
melambat. Hal ini menunjukkan bahwa
menguntungkan dibandingkan dengan
program pembangunan ekonomi yang
investasi yang tidak langsung. Berbeda
selama ini dijalankan oleh pemerintah
dengan investasi tak langsung, seperti
kurang memberikan hasil yang maksimal
investasi porto folio yang bisa tiba-tiba
untuk percepatan pembangunan ekonomi
ditarik oleh investor, FDI lebih bersifat
Indonesia dalam jangka panjang. Oleh
komitmen jangka panjang, sehingga
karena itu, pemerintah mencoba melakukan
dianggap lebih bernilai bagi suatu negara.
transformasi ekonomi, yaitu pengalihan
Namun, realisasi FDI di Indonesia
perekonomian Indonesia yang awalnya
ternyata belum merata di semua koridor
didasari oleh konsumsi menjadi
ekonomi. Selaras dengan pembangunan
perekonomian yang didasari oleh investasi
yang berpusat di Jawa, FDI yang masuk ke
(Bappenas, 2011).
Indonesia pun sebagian besar masih berada
Di sisi lain, dalam upaya menjadikan
di koridor Jawa. Bahkan persentase (share)
Indonesia sebagai negara maju dan sejahtera
FDI di koridor Jawa dalam periode 1997-
tahun 2025, pemerintah menyusun rencana
2014 selalu lebih dari 50% dari total FDI
pembangunan yang difokuskan pada
Indonesia.
pengembangan sejumlah kegiatan ekonomi
utama masing-masing wilayah Indonesia.
Rencana tersebut tertuang dalam Masterplan
Percepatan dan Perluasan Pembangunan
Ekonomi Indonesia (MP3EI) melalui
Peraturan Presiden Nomor 32 tahun 2011.
MP3EI tersebut membagi wilayah Indonesia
menjadi koridor-koridor ekonomi
berdasarkan pada keunggulan dan potensi
sektoral masing-masing wilayah. Sistem
koridor ini mengacu pada kesuksesan sistem
Sumber: Badan Koordinasi Penanaman Modal (BKPM,
koridor ekonomi yang diterapkan negara- diolah)
negara Asia lainnya. Indonesia menetapkan Gambar 1. Persentase Realisasi FDI di
enam koridor ekonomi, yaitu Koridor Indonesia menurut Jawa dan
Sumatera, Koridor Jawa, Koridor Luar Jawa, 1997-2014
Kalimantan, Koridor Bali dan Nusa
Tenggara, Koridor Sulawesi, serta Koridor Oleh karena itu, penelitian ini
Maluku dan Papua. Dengan adanya korodor bertujuan untuk menganalisis faktor-faktor
ini, para investor akan lebih mudah dalam yang memengaruhi FDI di masing-masing
menentukan jenis investasi yang akan koridor ekonomi Indonesia. Penelitian ini
dilakukan, yaitu pada sektor ekonomi apa juga bertujuan untuk menganalisis motivasi
dan di mana. apakah yang melatarbelakangi investor
Transformasi ekonomi yang asing untuk menanamkan modalnya di
digunakan sebagai alat untuk merealisasikan
32 | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
Indonesia, apakah market seeking atau (Asiedu, 2002). Dengan demikian,
resource seeking. Indonesia yang merupakan salah satu negara
dengan jumlah penduduk terbanyak di dunia
KAJIAN PUSTAKA merupakan sebuah pasar besar bagi investasi
asing.
Menurut Todaro & Smith (2003), FDI Meskipun PDB per kapita Indonesia
merupakan investasi yang dilakukan oleh tidak termasuk ke dalam golongan
pihak swasta asing, yang mana dana-dana pendapatan tinggi, namun pola konsumsi
investasinya langsung digunakan untuk masyarakat Indonesia masih cenderung
menjalankan kegiatan bisnis seperti konsumtif. Hal tersebut terbukti dari
mendatangkan mesin-mesin dan membeli besarnya konsumsi masyarakat dilihat dari
bahan baku produksi. Teori elektikal unsur PDB pengeluaran, dibandingkan
Dunning (1993) menyebutkan bahwa dengan pengeluaran untuk investasi.
keunggulan yang harus dimiliki oleh suatu Rendahnya investasi dan tingginya
negara untuk menarik investasi asing adalah konsumsi inilah yang menjadi salah satu
antara lain biaya produksi rendah (termasuk penyebab mengapa pembangunan ekonomi
transportasi), tersedianya pasar yang besar di Indonesia tidak bisa berlangsung pesat.
(market size), sumber daya yang melimpah Tingginya pola konsumsi masyarakat
(meliputi SDA dan tenaga kerja berupah Indonesia dan ditambah dengan upah yang
rendah yang terampil), serta minimnya masih rendah menjadi faktor lain yang dapat
hambatan perdagangan dan tingkat menarik FDI ke Indonesia. Perusahaan
keterbukaan ekonomi. Multinasional bisa saja memberikan upah
Dunning (1993) kemudian yang sedikit lebih tinggi dibandingkan
menyimpulkan bahwa beberapa hal yang dengan upah dari perusahaan dalam negeri,
melatarbelakangi investor asing untuk ataupun perusahaan pesaing, yang mana
menanamkan modalnya di suatu negara sebenarnya jika dibandingkan dengan upah
dapat dikelompokkan ke dalam alasan di negara asalnya masih jauh lebih rendah.
market seeking dan atau resource seeking. Tenaga kerjanya pun mempunyai skill yang
Market seeking merupakan jenis investasi cukup bagus jika dibandingkan dengan
asing yang ditujukan untuk mencari pasar negara berkembang lainnya.
baru atau mempertahankan pasar lama. Selain akses terhadap SDM, akses
Sedangkan resource seeking adalah jenis terhadap Sumber Daya Alam (SDA) di
investasi yang dilakukan untuk Indonesia juga cukup mudah karena masih
mendapatkan faktor-faktor produksi yang melimpahnya SDA di Indonesia. Bagi
berbentuk sumber daya alam atau tenaga negara sedang berkembang,seperti
kerja yang lebih efisien di negara lain Indonesia, ketersediaan SDA merupakan
dibandingkan dengan di negara sendiri. daya tarik bagi investor asing, terutama yang
Penelitian terdahulu menunjukkan bergerak di industri primer (Jadhav, 2012).
adanya beberapa faktor penting yang Sebaliknya, langkanya SDA di negara-
berpengaruh terhadap masuknya FDI ke negara maju memberikan peluangbagi
suatu negara, yaitu market size, ketersediaan produk ekspor negara sedang berkembang
Sumber Daya Alam (SDA) dan Sumber yang bernilai ekonomis.(Asiedu & Lien,
Daya Manusia (SDM), infrastruktur, dan 2010). Investor asing akan lebih memilih
kebijakan perdagangan serta kondisi untuk terjun langsung sebagai pengekspor di
perekonomian negara tujuan (Jadhav, 2012; negara tujuan karena akan memberikan
Hsiao & Hsiao, 2004; Asiedu, 2006, keuntungan yang lebih besar dibandingkan
Rohmana, 2011; Sarwedi, 2002; Setiawan, dengan mengimpor di negaranya sendiri.
2002). Besarnya pasar atau market size akan Faktor lain yang menjadi penarik
memengaruhi keputusan investor untuk investor asing adalah kemudahan akses,
menanamkan modalnya ke negara tujuan, melalui ketersediaan fasilitas umum dan
khususnya bagi investor yang ingin infrastruktur. Kemudahan akses ini menjadi
mengembangkan jangkauan pasarnya faktor penting bagi investor, khususnya di
Faktor – faktor yang Memengaruhi Foreign Direct Investment… / Rahayu IT dan Pasaribu E | 33
Indonesia, tterbukti dari realisasi FDI yang : intersep
lebih dari 50% di koridor Jawa yang : koefisien regresi variabel
disebabkan karena selama ini pembangunan independen
infrastruktur yang masih berpusat di koridor FDIait : nilai realisasi FDI pada
Jawa. Kemudahan akses serta tersedianya koridor a propinsi i tahun t
fasilitas dan infrastruktur akan memudahkan (triliun rupiah)
investor, baik dalam proses produksi BMait : proporsi nilai pengeluaran
maupun dalam pendistribusian produk. belanja modal pemerintah
Akan tetapi, masuknya investasi asing, daerah dibagi dengan nilai
khususnya FDI juga sangat tergantung pada total pengeluaran belanja
kebijakan makroekonomi dan kebijakan pemerintah daerah pada
perdagangan di negara tujuan. Suatu negara koridor a propinsi i tahun t
yang menganut sistem ekonomi tertutup (persen)
tidak akan membuka peluang bagi investor ANGKERait : jumlah angkatan kerja
asing untuk menanamkan modal di negara berpendidikan tinggi pada
tersebut. Semakin terbuka sebuah negara koridor a propinsi i tahun t
dalam perdagangan internasional (ekspor (orang)
dan impor), maka akan semakin banyak FDI OPENait : tingkat keterbukaan
yang masuk ke negara tersebut (Jadhav, perdagangan pada koridor a
2012). propinsi i tahun t (persen)
XMIGASait : proporsi nilai ekspor minyak,
DATA DAN METODE gas, dan mineral terhadap
nilai total ekspor pada koridor
Data a propinsi i tahun t (persen
Data yang digunakan adalah data rupiah)
tahunan 2006-2014 di 32 propinsi di PDRBait : nilai Produk Domestik
Indonesia yang bersumber dari Badan Regional Bruto riil pada
Koordinator Penanaman Modal (BKPM), koridor a propinsi i tahun t
Badan Pusat Statistik (BPS), dan Direktorat (triliun rupiah)
Jenderal Perimbangan Keuangan : error term untuk koridor a
Kementerian Keuangan (DJPK Kemenkeu). propinsi i tahun t
Variabel dependen yang digunakan a : koridor 1,2,…,6 (1=koridor
yaitu realisasi FDI (triliyun rupiah), Sumatera, 2=koridor Jawa,
sedangkan variabel independen adalah 3=koridor Bali-Nusa
proporsi pengeluaran belanja modal Tenggara, 4=koridor
terhadap total belanja pemerintah daerah Kalimantan, 5=koridor
(dalam persen), jumlah angkatan kerja Sulawesi, 6=koridor Maluku-
berpendidikan SMA keatas (dalam Papua)
logaritma natural), tingkat keterbukaan i : Aceh,..., Papua
perdagangan (dalam persen), proporsi t : 2006,..., 2014
ekspor migas dan mineral terhadap total
ekspor (dalam persen), dan PDRB riil tahun
dasar 2000 (dalam triliun rupiah). HASIL DAN PEMBAHASAN
Total FDI yang direalisasikan di
Metode masing-masing koridor ekonomi dari tahun
Penelitian ini menggunakan metode ke tahun terus mengalami peningkatan. Pada
regresi data panel untuk masing-masing koridor Jawa, peningkatan tersebut diiringi
koridor ekonomi Indonesia. dengan share FDI yang semakin menurun.
Artinya, penanaman modal asing pada
koridor di luar Jawa semakin berkembang
dan merata.
di mana:
34 | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
Sumber: Badan Koordinasi Penanaman Modal (BKPM, diolah)
Gambar 5. Nilai PDRB Atas Dasar Harga Konstan Tahun 2000 di Masing-
Masing Koridor Ekonomi Indonesia Tahun 2006-2014
Koefisien:
Faktor – faktor yang Memengaruhi Foreign Direct Investment… / Rahayu IT dan Pasaribu E | 37
Berdasarkan hasil analisis inferensia, koridor Maluku dan Papua. Sedangkan di
proporsi belanja modal, jumlah angkatan koridor Jawa dan koridor Kalimantan,
kerja berpendidikan tinggi, dan tingkat tingkat keterbukaan perdagangan tidak
keterbukaan perdagangan mempunyai berpengaruh signifikan terhadap FDI.
pengaruh yang berbeda-beda di masing- Pengaruh tingkat keterbukaan
masing koridor ekonomi Indonesia. perdagangan terhadap FDI tergantung pada
Proporsi belanja modal pemerintah jenis FDI yang masuk ke wilayah tersebut.
daerah hanya berpengaruh signifikan Pada market seeking FDI, tingkat
terhadap FDI di koridor Sumatera, koridor keterbukaan perdagangan akan cenderung
Jawa, dan koridor Sulawesi. Sedangkan di untuk berpengaruh negatif terhadap FDI.
koridor Bali dan Nusa Tenggara, koridor Hal tersebut biasa terjadi pada negara-negara
Kalimantan, dan koridor Maluku dan Papua, maju, yang mana cenderung memiliki
proporsi belanja modal pemerintah daerah tingkat keterbukaan yang lebih kecil
tidak berpengaruh signifikan terhadap FDI. dibandingkan dengan negara-negara
Sebaliknya, jumlah angkatan kerja berkembang (Briguglio, 2016). Sebaliknya,
berpendidikan tinggi berpengaruh signifikan pada resource seeking FDI, tingkat
dan positif terhadap FDI di koridor keterbukaan perdagangan cederung
Sumatera, koridor Jawa, dan koridor berpengaruh positif terhadap FDI. Akan
Sulawesi. Hal ini kemungkinan terjadi tetapi, tingkat keterbukaan bisa berpengaruh
karena koridor Jawa dan koridor Sumatera terhadap FDI bertipe market seeking apabila
memiliki jumlah angkatan kerja pasar yang dicari oleh investor bukan hanya
berpendidikan tinggi terbanyak. Sedangkan berada di dalam wilayah tersebut, melainkan
koridor Sulawesi memiliki proporsi juga wilayah disekitarnya.
angkatan kerja berpendidikan tinggi terbesar Motivasi market seeking dan resource
dibandingkan dengan koridor-koridor lain. seeking di setiap koridor ekonomi Indonesia
Di samping itu, seperti halnya variabel disimpulkan berdasarkan signifikansi dan
proporsi belanja modal, jumlah angkatan pengaruh variabel-variabel proksi terhadap
kerja berpendidikan tinggi juga tidak FDI. Adanya motivasi market seeking dan
berpengaruh signifikan terhadap FDI di resource seeking adalah apabila variabel-
koridor Bali dan Nusa Tenggara, koridor variabel proksi untuk market size dan natural
Kalimantan, dan koridor Maluku dan Papua. resource availability, yaitu PDRB dan
Tingkat keterbukaan perdagangan proporsi ekspor migas dan mineral,
berpengaruh negatif dan signifikan terhadap berpengaruh signifikan dan positif terhadap
FDI di koridor Sumatera, koridor Bali dan FDI.
Nusa Tenggara, koridor Sulawesi, dan
Gambar 9. Nilai Slope dan Pengaruh PDRB Terhadap FDI di Seluruh Koridoe
Ekonomi Indonesia
Gambar 10. Nilai Slope dan Pengaruh Proporsi Ekspor Migas dan Mineral
Terhadap FDI di Seluruh Koridor Ekonomi Indonesia
Abstrak
Saat ini merokok telah menjadi masalah kesehatan secara global dan menjadi beban ekonomi yang berat.
Di Indonesia, tren merokok cenderung semakin meningkat dan kencenderungan ini tidak hanya terjadi
pada orang dewasa tetapi juga pada remaja. Penelitian ini bertujuan mengidentifikasi faktor-faktor yang
mempengaruhi perilaku merokok bagi kalangan remaja yang bersekolah di Indonesia dengan
menggunakan model logistik multivariat biner. Analisis dilakukan dengan menggunakan 5.986 sampel
siswa dari Global Youth Tobacco Survey 2014 (GYTS) 2014. Hasilnya menunjukkan bahwa 25% siswa
pernah merokok dan 15% siswa saat ini merokok. Peluang siswa untuk merokok lebih tinggi di kalangan
anak laki-laki dibandingkan dengan anak perempuan. Risiko merokok yang lebih tinggi teramati di
antara siswa yang memiliki teman dekat yang merokok dibandingkan dengan siswa yang tidak memiliki
teman dekat yang merokok. Siswa yang salah satu atau kedua orang tuanya merokok lebih cenderung
merokok dibandingkan dengan siswa yang orang tuanya tidak merokok. Siswa yang pernah melihat
gurunya merokok atau pernah melihat orang-orang merokok di rumah mereka dan tempat-tempat umum
lebih cenderung merokok dibandingkan dengan mereka yang tidak pernah melihat gurunya merokok
atau tidak pernah melihat orang merokok di rumah mereka dan tempat umum. Temuan ini menunjukkan
bahwa penegakan peraturan untuk mengurangi aksesibilitas rokok diperlukan untuk mengekang
penggunaan rokok di kalangan siswa. Selain itu, intervensi dan kampanye pendidikan yang menargetkan
siswa sekolah menengah juga diperlukan.
Abstract
Smoking is a global public health concern and it imposes a heavy economic burden. However, the trend
of smoking in Indonesia seems to be increasing and the magnitude of the problem affects not only adults
but also adolescents. This paper identifies cigarette smoking determinants among school adolescents in
Indonesia, using a multivariate binary logistic model. The analysis uses 5,986 samples of students from
the 2014 Indonesia Global Youth Tobacco Survey (GYTS). The results show that 25% of the students
have ever smoked and 15% of students are currently smoking. The students’ odds of smoking are higher
for boys compared to girls. Higher risk of smoking is observed among the students who have closed-
peer smoking compared to students who don’t have closed-peer smoking. Students whose one or both
parents are smoking are more likely to smoke compared to whose parents are not smoking. Students
who have seen their teacher smoking or have seen people smoking in their house and public places are
more likely to smoke compared to who haven’t ever seen their teacher smoking or haven’t ever seen
people smoking in their house and public places. These findings suggest that enforcement of legislations
to decrease accessibility of cigarettes are necessary to curb the cigarette use among students. Beside
that the interventions and education campaigns that target secondary school students are also needed.
Resiko remaja sekolah laki-laki untuk Tobacco Survey Collaborating Group, 2003;
merokok 14,26 kali lebih besar Reda et al., 2012; Ribeiro Sarmento &
dibandingkan dengan remaja sekolah Yehadji, 2015) juga menemukan adanya
perempuan (95%CI: 10,86 – 18,73). Studi di resiko yang lebih besar pada remaja laki-laki
Jakarta, Guangdong (Cina), Nepal, Ethiopia untuk merokok. Dalam konteks Indonesia,
Timur, dan Timor Leste (Global Youth rendahnya resiko perempuan untuk merokok
Abstrak
Salah satu cara menangani masalah banjir adalah melakukan program normalisasi sungai. Namun, tidak
semua masyarakat menerima program ini. Untuk itu, ingin diketahui persepsi masyarakat terhadap
normalisasi Kali Ciliwung dan menganalisa variabel-variabel yang memengaruhinya. Data persepsi
diperoleh melalui survei dengan pendekatan rumahtangga di Kelurahan Bukit Duri yang kemudian
dianalisis dengan regresi logistik. Hasil penelitian menunjukkan bahwa 28 persen rumahtangga sekitar
sungai dan 22 persen rumahtangga bukan sekitar sungai menolak normalisasi. Persepsi rumahtangga
sekitar sungai secara signifikan dipengaruhi oleh jenis kelamin, keikutsertaan organisasi, mendapatkan
sosialisasi, dan pengeluaran perkapita. Sedangkan persepsi rumah tangga yang tinggal bukan di sekitar
sungai dipengaruhi status pekerjaan, keikutsertaan organisasi, dan mendapatkan sosialisasi.
Abstract
River normalization program is one of the ways to handle flood problems. However, not all communities
accept this program. For that, we want to know the public perception towards normalization of Ciliwung
River and analyze the variables that influence it. Perception data was obtained through survey with
household approach in Bukit Duri Village which then analyzed by logistic regression. The results show
that 28 percent of households around the river and 22 percent of households not around the river reject
normalization. Household perceptions around the river are significantly influenced by sex,
organizational participation, socialization, and per capita expenditure. The non-rivers are influenced
by employment status, organizational participation, and socialization.
Siti Mariyah
Abstrak
Judul dapat membantu pembaca untuk mendapatkan sudut pandang universal dari artikel tersebut
sebagai pemahaman awal sebelum membaca konten secara keseluruhan. Pada penelitian teknis, judul
memuat informasi penting. Dalam penelitian ini, kami mengembangkan teknik ekstraksi informasi
untuk mengenali dan mengekstrak masalah, metode, dan domain penelitian yang terdapat dalam judul.
Kami menerapkan pendekatan supervised learning pada 671 judul penelitian dalam bidang ilmu
komputer dari beragam jurnal online dan prosiding seminar internasional. Kami melakukan beberapa
percobaan dengan skema yang berbeda untuk mempelajari pengaruh fitur dan kinerja algoritma. Kami
menguji fitur kontekstual, fitur sintaksis, dan fitur bag of words menggunakan Naïve Bayes dan
Maximum Entropy. Classifier Naïve Bayes yang belajar dari kelompok set fitur pertama berhasil
memprediksi kategori masing-masing token dalam dataset judul. Keakuratan dan nilai f1-score untuk
setiap kelas lebih dari 0,80 karena kelompok pertama set fitur mempertimbangkan lokasi token dalam
sebuah kalimat, memperhatikan token sekitar dan tag POS dari beberapa token sebelum dan sesudah.
Sementara classifier Naïve Bayes yang dipelajari dari kelompok kedua dari rangkaian fitur lebih tepat
mengklasifikasikan token frase daripada token kata.
Kata Kunci: research titles, named entity recognition, information extraction, contextual features,
naïve bayes classifier
Abstract
The title can help the reader to get the universal point of view of the article as the initial understanding
before reading the content as a whole. On technical research papers, the title states essential
information. In this study, we aim to develop information extraction techniques to recognize and extract
problem, method, and domain of research contained in a title. We apply supervised learning on 671
research titles in computer science from various online journals and international conference
proceedings. We conducted some experiments with different schemas to discover the influence of
features and the performance of the algorithm. We examined contextual, syntactic, and the bag of words
feature sets using Naïve Bayes and Maximum Entropy. The Naïve Bayes classifier learned from the first
group of the feature set is successful in predicting category of each token in title dataset. The accuracy
and f1-score for each class are more than 0.80 since the first group of feature sets considers the location
of a token within a sentence, considers the token and POS tag of some tokens before and after and
deliberates the rules of a token. While the Naïve Bayes classifier learned from the second group of the
feature set is more appropriate classifying a phrase token than a word token.
Keywords: research titles, named entity recognition, information extraction, contextual features, naïve
bayes classifier
Figure 2. Learning performance on first group of feature set using Naïve Bayes with
shuffle
Figure 3. Learning performance on first group of feature set using Naïve Bayes with
no shuffle
Named Entity Recognition on A Collection… / Siti Mariyah | 65
Table 1. The comparison of shuffle and no Table 2. The comparison of shuffle and no
shuffle condition on first group of shuffle condition on the second
feature set using Naïve Bayes group of feature set using Naïve
algorithm Bayes algorithm
Without With Without
The measurements The measurements With shuffle
shuffle shuffle shuffle
Classifier accuracy 0.83268 0.86919 Classifier accuracy 0.81323 0.86500
Method precision 0.63519 0.83730 Method precision 0.0 0.92843
Method recall 0.71845 0.89193 Method recall None 0.73472
Method F-Measures 0.67426 0.86376 Method F-Measures None 0.82029
Problem precision 0.70618 0.89711 Problem precision 0.0 0.90636
Problem recall 0.65238 0.85755 Problem recall None 0.77963
Problem F-Measures 0.67821 0.87688 Problem F-Measures None 0.83823
Domain precision 0.39216 0.64047 Domain precision 0.0 0.71909
Domain recall 0.74074 0.87368 Domain recall None 0.98807
Domain F-Measures 0.51282 0.71475 Domain F-Measures None 0.83234
None precision 0.85789 0.94802 None precision 1 0.98609
None recall 0.72444 0.85913 None recall 0.83146 0.95795
None F-Measures 0.78554 0.90139 None F-Measures 0.90798 0.97182
The table shows that the shuffle Table 2 tells the performance of
parameter causes the difference of classifier classifier from the second group of the
accuracy 0.03. It is aligned with the concept feature set without and with the shuffle. The
of fold cross validation which at every result of this experiment is much different
iteration, it divides the data into ten parts with the last experiment. Without shuffle,
with nine parts as training and one as a the classifier failed to detect a problem,
testing set. The repetition is done until all method, and domain tokens. It is explained
elements have been a test set. The shuffle by the values of precision, recall, and f-
can affect the sampling of those parts. Our measures for all categories. If compared with
hypothesis is shuffle will minimize the the same treatment (with shuffle), this
probability a label does not appear in classifier learned from the first group of
training set. It means that with shuffle, the feature set performs almost equal with the
distribution of the existence of each label is classifier acquired from the second group of
equal. Without shuffle, the process building the feature set.
up the members of 10 parts is done
sequentially. Therefore, the probability of Table 3. The comparison of the group of
skewed distribution of category is higher. feature set using Naïve Bayes
Overall, recall values for all categories algorithm with shuffle
are above 0.85, and the difference of recall The First The Second
for each class is not significant. The The classifier Group of Group of
precision values for the method, problem, Feature Set Feature Set
Classifier accuracy 0.86919 0.86500
and domain are 0.83730, 0.89711, and Method F-Measures 0.86376 0.82029
0.64047. The precision for domain category Problem F- 0.87688 0.83823
is lower than others because the true positive Measures
is higher and false positive. After we Domain F-Measures 0.71475 0.83234
evaluated the training set, the number of None F-Measures 0.90139 0.97182
domain examples is more inferior than
method and problem examples. Table 3 shows that the classifiers from
two groups are almost similar. The first
2. The second experiment classifier is accurate for classifying method
On the second experiment, we built and problem tokens, while the second
classification model using the second group classifier is accurate for recognizing domain
of feature set and Naïve Bayes algorithm. and none tokens. Our hypothesis is method
We applied 10-fold cross validation both on and problem tokens are good explained with
shuffled and non-shuffled training data. contextual and syntactic features. It means
66 | Jurnal Aplikasi Statistika & Komputasi Statistik V.9.1.2017, ISSN 2086-4132
that method and problem tokens may have cross validation, the accuracy acquired is
regular tokens previous and after with 0.86919. It means that 86,919% of test set
regular POS tag. will classified correctly. The following
descriptions are the explanation for every
3. The third experiment informative feature.
On this experiment, we examined
Maximum Entropy (MaxEnt) algorithm to
validate the effect of different feature set on
classifier. We trained the model with 10-fold
cross validation and shuffle.
Table 4 tells us that accuracy classifier a. The word ‘for’ appears 243 times on
on the first group around 83.975% is better none class than problem class. It
than on the second group of the feature set. explains the word ‘for’ has high
It is aligned with the f-measures for the probability to be classified as none
method, problem, and none categories. The category and not belongs to problem,
interesting one is MaxEnt fails to classify domain, and domain classes.
domain category using the first group off; we b. PrevWord = ‘for‘ occurs 211 times on
feature set. It is caused by precision value for problem class than on method class. It
domain is 1.0, but the recall is 0.00526. It means that a word or a phrase preceded
means that coverage ability of MaxEnt by the word ‘for’ has high chance to be
classifier for domain category is low. classified as problem class.
MaxEnt also miscarries the second group of c. The third (prevBigram = ’-’), the fifth
the feature set. (prevWord = ‘-’), the twelfth
From three experiments conducted, we (prevBigramTag = ‘-’), and the
concluded that Naïve Bayes classifier is thirteenth information (prevTag = ‘-’)
robust on both the first and the second group explain that a token which does have
of feature sets. Naïve Bayes classifier with any previous token is more frequent
the first group of feature set outperforms classified as method class than domain
than others. It also delivers informative class. It indicates that a word or a phrase
features. The informative feature means that at the beginning of the title sentence has
the feature is the most significant feature in high chance to be classified as method
determining a token belongs to a category. class. It is aligned with the fact. We
The shuffle improves the performance a observed directly some title sentences
classifier than it is not shuffled. which prove this information.
The first group of feature set consists The first title: <m>simple algorithms</m> for
of a word, tag, prevWord, prevTag, <p>complex relation extraction</p> with
applications to <d>biomedical ie</d>
prevBigram, prevBigramTag, nextWord,
The second title: <m>aseed-driven bottom-
nextTag, nextBigram, nextBigramTag. up machine learning</m> framework for
Using Naïve Bayes with shuffle and 10-fold <p>extracting relations of various
complexity</p>
After classification: largep scale p Table 6. The post processing results of naïve
learning p of p relation p extraction p bayes classifier constructed from the
rules p with none distant m supervision second group of feature set
m from none the none web d Predicted
Title Sentence Actual class
class
simple algorithms for ['d', 'd', 'None', ['m', 'm', 'None',
Chunking result: complex relation 'd', 'p', 'p', 'p', 'p', 'p',
Method class: distant supervision extraction with 'None', 'd', 'None', 'None',
applications to 'None', 'd', 'd'] 'None', 'd', 'd']
Problem class: large scale learning of biomedical ie
relation extraction rules a seed-driven bottom-up ['None', 'd', 'd', ['m', 'm', 'm',
Domain class: web machine learning 'd', 'm', 'm', 'm', 'm', 'None',
framework for 'None', 'd', 'p', ‘None', 'p', 'p',
extracting relations of 'p', 'd', 'd'] 'p', 'p', 'p',
To enrich analysis and answer the research various complexity 'None']
a machine learning ['None', 'd', ['None', 'm', 'm',
problem, we examined the Naïve Bayes approach for efficient 'm', 'm', 'm', 'None', 'p',
classifiers constructed from two groups of traffic classification 'None', 'd', 'd', 'p', 'p']
'p']
the feature set. We deliver the chunking ddos attack detection at ['d', 'd', 'p', 'd', ['p', 'p', 'p', 'p',
results from four titles: local area networks 'd', 'd', 'd', 'p', 'p', 'p',
using information 'None', 'p', 'd', 'None', 'm', 'm',
theoretical metrics 'd'] 'm']
Figure 7. The chunking result of the second title using Naïve Bayes classifier learned from
the first group of feature set
Figure 8. The chunking result of the third title using Naïve Bayes classifier learned from
the first group of feature set
Figure 9. The chunking result of the fourth title using Naïve Bayes classifier learned from
the first group of feature set
Figure 10. The chunking result of the first title using Naïve Bayes classifier learned from
the second group of feature set
Figure 11. The chunking result of the second title using Naïve Bayes classifier learned
from the second group of feature set
Figure 13. The chunking result of the fourth title using Naïve Bayes classifier learned
from the second group of feature set
Table 6 tells us that Naïve Bayes classifier classifier learned from the first group of the
learned from the second group of feature set feature set is successful in predicting
also tends to misclassify the domain class. category of each token in title dataset. The
The domain class is mostly classified as the accuracy and f1-score for each class are
method class. This classifier is not more than 0.80 since the first group of
appropriate to predict class of a word instead feature set considers the contextual and
of a phrase. If we examined to classified a syntactic feature of a token. This classifier
phrase such as ‘biomedical ie’ or ‘complex determines the location of a token within a
relation extraction’ then this classifier will sentence, considers the token and POS tag of
predict ‘biomedical ie’ as domain class and some tokens before and after and deliberates
‘complex relation extraction’ as problem the rules of a token. While the Naïve Bayes
class. classifier learned from the second group of
the feature set is more appropriate
RESULTS AND CONCLUSIONS classifying a phrase token than a word token.
This classifier just considering the tokens
There are some aspects we learn from owned by a phrase instead determines the
the experimental study. The first, the characteristics of word token. The definition
labeling process should be consistent since of the token in our experimental study is a
the inconsistent label for tokens can word.
influence the modeling process and might We believe that it is a good idea to try
worse the model itself. The annotated dataset the same information extraction techniques
has to be validated before it is used for we have built on the large title dataset from
modeling to check the consistency of labels various research fields. We also encourage
and the completeness of labeled tokens. to conduct semi-supervised learning in
Shuffle on training set produces more classifier modeling because the cost for
accurate classifier than without shuffle annotation is expensive. The idea is utilizing
because shuffle lets each category/class has the limited annotated titles to construct a
equal data distribution on the dataset. classifier then applying the ensemble
Therefore, each class has its representatives methods to improve the performance of the
on both the training and testing set. classifier.
On the small size dataset, the 10-fold REFERENCES
cross validation is an appropriate method to
construct and validate/test the models Ayan, Necip Fazil, and Bonnie J. Dorr. 2006. A
instead of holdout method. The Naïve Bayes Maximum Entropy Approach to
Combining Word Alignments.
Named Entity Recognition on A Collection… / Siti Mariyah | 71
Proceedings of the Human Language with New Contextual Features. 2008
Technology Conference of the NAACL, International Conference on Natural
Main Conference (June): 96–103. Language Processing and Knowledge
Bodenreider, Olivier, and Pierre Zweigenbaum. Engineering, NLP-KE 2008: 1–6.
2000. Identifying Proper Names in Parallel Rafi, Muhammad, Sundus Hassan, and
Medical Terminologies. Studies in Health Mohammad Shahid Shaikh. 2012. Content-
Technology and Informatics 77: 443–47. Based Text Categorization Using
Chodey, Krishna Prasad, and Gongzhu Hu. Wikitology. International Journal of
2016. Clinical Text Analysis Using Computer Science Issues 9(4): 9.
Machine Learning Methods. Computer and http://arxiv.org/abs/1208.3623.
Information Science (ICIS), 2016 S, Amarappa, and Sathyanarayana S.V. 2015.
IEEE/ACIS 15th International Conference Kannada Named Entity Recognition and
on. Classification (NERC) Based on
Dimililer, Nazife, Ekrem Varoǧlu, and Hakan Multinomial Naïve Bayes (MNB)
Altinçay. 2009. Classifier Subset Selection Classifier. International Journal on
for Biomedical Named Entity Recognition. Natural Language Computing 4(4): 39–52.
Applied Intelligence 31(3): 267–82. http://www.airccse.org/journal/ijnlc/paper
Ek, Tobias, Camilla Kirkegaard, Håkan Jonsson, s/4415ijnlc04.pdf.
and Pierre Nugues. 2011. Named Entity Saha, Sujan Kumar, Sudeshna Sarkar, and
Recognition for Short Text Messages. Pabitra Mitra. 2009. Feature Selection
Procedia - Social and Behavioral Sciences Techniques for Maximum Entropy Based
27(Pacling): 178–87. Biomedical Named Entity Recognition.
Joachims, Thorsten. 1998. Text Categorization Journal of Biomedical Informatics 42(5):
with Support Vector Machines: Learning 905–11.
with Many Relevant Features. In The 10th http://dx.doi.org/10.1016/j.jbi.2008.12.012
European Conference on Machine .
Learning, , 137–42. Sebastiani, Fabrizio. 2001. Machine Learning in
Mao, Xinnian et al. 2007. Using Non-Local Automated Text Categorization. Journal
Features to Improve Named Entity ACM Computing Surveys (CSUR) 34(1):
Recognition Recall. In Proceedings of the 1–47. http://arxiv.org/abs/cs/0110053.
21st Pasific Asia Conference on Language, Suakkaphong, Nichalin, Zhu Zhang, and
Information, and Computation, 303–10. Hsinchun Chen. 2009. Disease Named
http://dspace.wul.waseda.ac.jp/dspace/bits Entity Recognition Using Semisupervised
tream/2065/29132/1/PACLIC_21_00_031 Learning and Conditional Random Fields.
_Mao.pdf. Journal of The American Society for
McKenzie, Amber. 2013. Focused Training Sets Information Science and Technology 3(2):
to Reduce Noise in NER Feature Models. 80–90.
In Proceedings of the 2013 Conference of Wu, Tianhao, William M Pottenger, and
the North American Chapter of the Computer Science. 2005. A Semi-
Association for Computational Linguistics: Supervised Active Learning Algorithm for
Human Language Technologies, , 411–15. Information Extraction from Textual Data.
http://www.aclweb.org/anthology/N13- Journal of the American Society for
1042. Information Science and Technology
Nadeau, D. 2007. A Survey of Named Entity 56(3): 258–71.
Recognition and Classification. http://doi.wiley.com/10.1002/asi.20119.
Linguisticae Investigationes (30): 3–26.
http://nlp.cs.nyu.edu/sekine/papers/li07.pd
f.
Qin, Ying, Taozheng Zhang, and Xiaojie Wang.
2008. Chinese Named Entity Recognition