14 6 PB

JURNAL APLIKASI STATISTIKA &
KOMPUTASI STATISTIK
VOLUME 10, NOMOR 1, JUNI 2018 ISSN 2086 – 4132

AKREDITASI NOMOR: 747/Akred/P2MI-LIPI/04/2016
Pengelompokan Kabupaten/Kota di Pulau Jawa Berdasarkan Faktor-Faktor Kemiskinan

dengan Pendekatan Average Linkage Hierarchical Clustering
SRI WAHYUNI dan YOGO ARYO JATMIKO
Analisis Kinerja, Kualitas Data, dan Usability pada Penggunaan CAPI untuk Kegiatan
Sensus/Survey
TAKDIR
Beras atau Rokok?: Beban Ekonomis Rumah Tangga Miskin di Indonesia 2014
ANDRI YUDHI S dan ARIS RUSYIANA
Pengelompokan Pengguna Situs Web BPS Melalui Teknik Bibliometric dan Analisis
Korespondensi
TOZA SATHIA UTIAYARSIH, JADI SUPRIJADI DAN BERNIK MASKUM
Deteksi Intrusi Jaringan dengan K-Means Clustering pada Akses Log dengan Teknik
Pengolahan Big Data
FARID RIDHO dan ARYA AJI KUSUMA
Pola Fertilitas Wanita Usia Subur di Indonesia: Perbandingan Tiga Survei Demografi dan
Kesehatan Indonesia (2002, 2007 dan 2012)
SUKIM dan RUDI SALAM
PUSAT PENELITIAN DAN PENGABDIAN KEPADA MASYARAKATi

POLITEKNIK STATISTIKA STIS
KOMPUTASI STATISTIK
Jurnal “Aplikasi Statistika dan Komputasi Statistik” memuat karya ilmiah hasil penelitian dan kajian
teori statistik dan komputasi statistik yang diterapkan khususnya pada bidang ekonomi dan sosial
kependudukan, serta teknologi informasi yang terbit dua kali dalam setahun setiap bulan Juni dan
Desember.
Penanggung Jawab: Direktur Politeknik Statistika STIS
Ketua Dewan Redaksi: Setia Pramana, Ph.D

Koordinator Jurnal Ilmiah: Dr. Ernawati Pasaribu
Mitra Bestari: Prof. Abuzar Asra, Ph.D
Dr. Erni Tri Astuti
Dr. Hardius Usman
Setia Pramana, Ph.D
Dr. Tiodora Hadumaon S
Dr. Yunarso Anang
Dr. Timbang Sirait
Dr. M. Ari Angorowati.
Dr. Novia Budi Parwanto
Dr. Nasrudin
Pelaksana Redaksi: Dr. Ernawati Pasaribu
Dr. Nasrudin
Neli Agustina, M.Si
Alamat Redaksi:
Politeknik Statistika STIS
Jl. Otto Iskandardinata 64C
Jakarta Timur 13330
Telp. 021-8191437
Redaksi menerima karya ilmiah atau artikel penelitian mengenai kajian teori statistik dan komputasi
statistik pada bidang ekonomi dan sosial kependudukan, serta teknologi informasi. Redaksi berhak
menyunting tulisan tanpa mengubah makna substansi tulisan. Isi Jurnal Aplikasi Statistika dan
Komputasi Statistik dapat dikutip dengan menyebutkan sumbernya.
ii |
PENGANTAR REDAKSI
Puji syukur kehadirat Allah, Tuhan Yang Maha Esa,
iii
KOMPUTASI STATISTIK
VOLUME 10, NOMOR 1, JUNI 2018
AKREDITASI NOMOR: 747/Akred/P2MI-LIPI/04/2016
DAFTAR ISI
iv |
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK
(Journal of Statistical Application & Statistical Computing)
ISSN 2086 – 4132 Volume 10, Nomor 1, Juni 2018
Kata kunci bersumber dari artikel. Lembar abstrak ini boleh diperbanyak tanpa izin dan biaya
DDC: 315.98 Kota Bekasi, Kabupaten Sidoarjo, Kota

Semarang, Kota Tangerang, Kota
Sri Wahyuni dan Yogo Aryo Jatmiko Surakarta. Sedangkan sebanyak 99
kabupaten/kota lainnya masuk dalam
Pengelompokan Kabupaten/Kota di Pulau kelompok kedua. Kelompok pertama
Jawa Berdasarkan Faktor-Faktor merupakan kota-kota besar di Indonesia
Kemiskinan dengan Pendekatan Average yang tingkat kemiskinannya rendah,
Linkage Hierarchical Clustering sedangkan kelompok kedua sebagian besar
terdiri dari kabupaten/kota yang dicirikan
Jurnal Aplikasi Statistika & Komputasi dengan wilayah perdesaan yang tingkat
Statistik, Volume 10, Nomor 1, Juni 2018, kemiskinannya tinggi.
hal 1 – 8
Kata kunci: Pulau Jawa, faktor kemiskinan,
Abstrak average linkage hierarchical clustering
Pulau Jawa masih merupakan pulau dengan
persentase penduduk miskin terbesar di DDC: 315.98
Indonesia. Dalam menentukan kebijakan
penanggulangan kemiskinan, perlu Takdir
diperhatikan faktor-faktor yang
mempengaruhi kemiskinan.Selain itu, Analisis Kinerja, Kualitas Data, dan
kemiskinan di setiap wilayah memiliki Usability pada Penggunaan CAPI untuk
karakteristik yang berbeda, sehingga perlu Kegiatan Sensus/Survey
adanya pengelompokan wilayah agar
kebijakan yang akan dilaksanakan tepat Jurnal Aplikasi Statistika & Komputasi
sesuai dengan karakteristik wilayah. Tujuan Statistik, Volume 10, Nomor 1, Juni 2018,
dari penelitian ini adalah mengelompokkan hal 9 – 26
kabupaten/kota di Pulau Jawa berdasarkan
faktor-faktor kemiskinan tahun 2017 Abstrak
dengan pendekatan average linkage Pengumpulan data merupakan suatu
hierarchical clustering. Faktor-faktor tahapan pada Sensus/Survey yang sangat
kemiskinan yang digunakan sebagai dasar menentukan keberhasilan Sensus/Survey.
pengelompokan adalah tingkat Prosesnya yang memakan waktu lama akan
pengangguran terbuka, persentase rumah mengakibatkan data yang disajikan tidak
tangga yang bekerja di pertanian, relevan dengan kondisi pada saat
pengeluaran rumah tangga per kapita, dan pelaksanaan. Dengan Computer-Assisted
rata-rata lama sekolah. Hasil penelitian Personal Interview (CAPI), proses entri
menunjukkan ada dua kelompok wilayah data dapat dilakukan pada saat proses
kabupaten/kota di Pulau Jawa. Kelompok interview berlangsung. Hal ini
pertama, terdiri dari Kota Jakarta Barat, mempersingkat tahapan pengumpulan data
Kota Jakarta Selatan, Kota Jakarta Timur, hingga data tersedia pada sistem komputer
Kota Surabaya, Kota Jakarta Pusat, Kota dan siap untuk dianalisis. Pada penelitian
Malang, Kota Bandung, Kota Yogyakarta, ini, indikator-indikator penting penentu
Kota Jakarta Utara, Kota Depok, Kabupaten keberhasilan penerapan CAPI, yakni
Bantul, Kota Salatiga, Kota Tangerang kinerja, kualitas data, dan usability diukur
Selatan, Kota Madiun, Kabupaten Sleman, untuk melihat sejauh mana CAPI
v
memberikan penyempurnaan pada sampel rumah tangga yang memiliki
pengumpulan data. Penelitian ini anggota rumah tangga dewasa yang
memberikan rekomendasi, baik dari segi merokok (NIndonesia = 285.371). Hasil
konsep, maupun teknis, mengenai desain penelitian kami menunjukkan bahwa rumah
CAPI untuk kegiatan sensus/survey. tangga miskin yang memiliki anggota
rumah tangga perokok secara rata-rata
Kata kunci: CAPI, sensus, survey, mengkonsumsi beras relatif lebih sedikit
pengumpulan data dibandingkan rumah tangga yang tidak
memiliki anggota rumah tangga perokok,
DDC: 315.98 baik yang termasuk kategori miskin
maupun tidak. Hal ini mengindikasikan
Andri Yudhi S dan Aris Rusyiana bahwa rumah tangga miskin lebih
memprioritaskan konsumsi rokok
Beras atau Rokok?: Beban Ekonomis dibandingkan konsumsi beras.
Rumah Tangga Miskin di Indonesia 2014
Kata kunci: Susenas, rumah tangga miskin,
Jurnal Aplikasi Statistika & Komputasi konsumsi rokok, regresi linier berganda
Statistik, Volume 10, Nomor 1, Juni 2018,
hal 27 – 38 DDC: 315.98
Abstrak Toza Sathia Utiayarsih, Jadi Suprijadi dan

Fakta bahwa di beberapa negara Bernik Maskun
berkembang, konsumsi rokok
menimbulkan beban ekonomis yang Pengelompokan Pengguna Situs Web BPS
signifikan (Toukan, 2016; Block dan Webb, Melalui Teknik Bibliometric dan Analisis
2009). Juga, untuk konteks Indonesia Korespondensi
kontemporer, Kepala BPS mengatakan
bahwa belanja rokok merupakan Jurnal Aplikasi Statistika & Komputasi
pengeluaran kedua terbesar dan Statistik, Volume 10, Nomor 1, Juni 2018,
memberikan kontribusi nyata terhadap hal 39 – 52
angka kemiskinan nasional. Namun, kajian
kontemporer yang secara komprehensif Abstrak
membahas beras dan rokok terhadap Salah satu upaya pemenuhan program
kemiskinan belum banyak dibahas. Celah percepatan (quick wins) terhadap produk
penelitian tersebut menjadi dasar bagi kami BPS yang benar-benar dapat menyentuh
untuk melakukan kajian mengenai kebutuhan para pengguna data adalah
hubungan konsumsi beras dan pengeluaran dengan melakukan segmentasi terhadap
potensial rokok di antara rumah tangga pengguna data. Segmentasi terhadap
miskin di Indonesia 2014. Untuk keperluan pengguna situs web BPS sebagai salah satu
telaah kajian penelitian ini, kami membagi bentuk segmentasi terhadap pengguna data,
kategori rumah tangga berdasarkan tempat sesuai program percepatan. Ukuran data
tinggal (perdesaan/perkotaan), rumah pengguna web sangat besar dan berupa data
tangga dengan banyak anggota rumah teks sehingga tidak dapat langsung
tangga usia dewasa (di atas 15 tahun), dsb. dianalisis melalui aplikasi statistik yang
Tujuan dari kajian ini adalah untuk tersedia, maka perlu dilakukan suatu teknik
menganalisa apakah rumah tangga miskin untuk data pengguna web dengan
lebih memilih mengurangi konsumsi beras menggunakan teknik bibliometric. Teknik
dibanding mengurangi konsumsi rokok tersebut mengubah data teks menjadi
.Untuk kajian ini, kami menggunakan format numerik, selanjutnya dibuat menjadi
Survei Sosial Ekonomi Nasional tahun matriks distribusi frekuensi. Matriks
2014. Dengan menggunakan Model Regresi digunakan pada analisis korespondensi
Linier Berganda, kami menggunakan untuk pengelompokkan pengguna situs
vi |
web. Hasil dari analisis pengguna situs web sebesar 99.68%. Serta dari hasil
BPS yang diwakili oleh alamat IP dapat perbandingan kedua metode pengolahan
dikelompokkan dengan halaman yang Big Data menggunakan pyspark dan
diakses berdasarkan asal negara, sehingga metode tradisional menggunakan python
didapatkan segmentasi pengguna data situs standar, metode Big Data memiliki
web BPS antara negara dan halaman yang perbedaan yang signifikan dalam waktu
diakses. yang dibutuhkan dalam eksekusi program.
Kata kunci: Data mining, text mining, Kata kunci: IDS, big data, akses log, k-
bibliometric, web mining, analisis means, clustering
korespondensi
DDC: 315.98
DDC: 315.98
Sukim dan Rudi Salam
Farid Ridho dan Arya Aji Kusuma
Pola Fertilitas Wanita Usia Subur di
Deteksi Intrusi Jaringan dengan K-Means Indonesia: Perbandingan Tiga Survei
Clustering pada Akses Log dengan Teknik Demografi dan Kesehatan Indonesia
Pengolahan Big Data (2002, 2007 dan 2012)
Jurnal Aplikasi Statistika & Komputasi Jurnal Aplikasi Statistika & Komputasi
Statistik, Volume 10, Nomor 1, Juni 2018, Statistik, Volume 10, Nomor 1, Juni 2018,
hal 53 – 66 hal 67 – 78
Abstrak Abstrak
Keamanan jaringan, adalah salah satu Tingkat fertilitas merupakan salah satu
aspek penting dalam terciptanya proses faktor demografi yang paling menentukan
komunikasi data yang baik dan aman. dalam penurunan tingkat pertumbuhan
Namun, masih adanya serangan yang penduduk di Indonesia. Salah satu ukuran
efektif membuktikan bahwa sistem fertilitas adalah Total Fertility Rate (TFR).
keamanan yang berlaku belum cukup Selama 20 tahun terakhir diketahui laju
efektif untuk mencegah dan mendeteksi pertumbuhan penduduk di Indonesia
serangan. Salah satu metode yang dapat stagnan pada angka 1,49 persen. Oleh
digunakan untuk mendeteksi serangan ini karenanya, penelitian ini bertujuan untuk
adalah dengan dengan Intrusion Detection mengkaji pola TFR selama periode 20 tahun
System (IDS). Besarnya data (volume), terakhir berdasarkan tiga Survei Demografi
cepatnya perubahan data (velocity), serta dan Kesehatan Indonesia (SDKI) tahun
variasi data (variety) merupakan ciri-ciri 2002, 2007 dan 2012. Metode yang
dari Big Data. Akses log, secara teori digunakan adalah Regresi data count. Hasil
termasuk dalam kategori ini sehingga dapat penelitian menunjukkan bahwa dari ketiga
dilakukan pemrosesan menggunakan SDKI tersebut, tanda koefisiennya adalah
teknologi Big Data dengan Hadoop. Hal sama untuk semua variabel penjelas kecuali
ini mendorong penulis untuk dapat pada SDKI 2007 yaitu pada variabel tempat
menerapkan metode pengolahan baru yang tinggal yang berbeda dengan SDKI 2002
dapat mengatasi perkembangan data dan 2012. Sejalan dengan temuan ini perlu
tersebut, yaitu Big Data. Penelitian ini studi lebih lanjut untuk mencari teori yang
dilakukan dengan menganalisis akses log dapat menjelaskan temuan empirik tersebut.
dengan K-Means Clustering menggunakan
metode pengolahan Big Data. Penelitian Kata kunci: Fertilitas, TFR, SDKI, regresi
menghasilkan satu model yang dapat data count
digunakan untuk mendeteksi sebuah
serangan dengan probabilitas deteksi
vii
viii |
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK
(Journal of Statistical Application & Statistical Computing)
ISSN 2086 – 4132 Volume 10, Nomor 1, Juni 2018
Kata kunci bersumber dari artikel. Lembar abstrak ini boleh diperbanyak tanpa izin dan biaya
DDC: 315.98 group is large cities in Indonesia with a low

poverty rate, while the second group
Sri Wahyuni dan Yogo Aryo Jatmiko consists mostly of districts / cities
characterized by rural areas with high
Pengelompokan Kabupaten/Kota di Pulau poverty levels.
Jawa Berdasarkan Faktor-Faktor
Kemiskinan dengan Pendekatan Average Keywords: Java island, poverty factor,
Linkage Hierarchical Clustering average linkage hierarchical clustering
Jurnal Aplikasi Statistika & Komputasi DDC: 315.98

hal 1 – 8 Takdir
Abstract Analisis Kinerja, Kualitas Data, dan

Java is still an island with the largest Usability pada Penggunaan CAPI untuk
percentage of poor people in Indonesia. In Kegiatan Sensus/Survey
determining poverty reduction policies, it is
necessary to consider the factors that Jurnal Aplikasi Statistika & Komputasi
influence poverty. Moreover, poverty in Statistik, Volume 10, Nomor 1, Juni 2018,
each region has different characteristics, so hal 9 – 26
there needs to be regional grouping so that
the policies that will be implemented are in Abstract
accordance with the characteristics of the Data collection is a phase in census/survey
region. The purpose of this study is to phases which highly affect the success of
classify regencies in Java based on poverty cencus or survey. Using Computer-Assisted
factors in 2017 with the average linkage Personal Interviewing (CAPI), data entry
hierarchical clustering approach. The could be carried out during interview. It
poverty factors that are used as a basis for could shorten the data collection stage until
grouping are level of open unemployment, data were available on a computer system
percentage of agricultural households, and ready for analysis. In this study, the
household expenditure per CAPIta, and essential indicators which determine the
mean years schooling. The results showed success of CAPI implementation, i.e.
that there were two groups of regencies in performance, data quality, and usability are
Java. The first group, consisti of West mesured to undestand the signifacancy of
Jakarta City, South Jakarta City, East CAPI in improving data collection. This
Jakarta City, Surabaya City, Central study proposed recommendation, either in
Jakarta City, Malang City, Bandung City, the aspect of concept, or technical
Yogyakarta City, North Jakarta City, Depok regarding CAPI design for census/survey.
City, Bantul Regency, Salatiga City, South
Tangerang City, Madiun City, Sleman Keywords: CAPI, Census, Survey, Data
Regency, Bekasi City, Sidoarjo Regency, Collection
Semarang City, Tangerang City, Surakarta
City. Whereas 99 other regencies were
included in the second group. The first
ix
DDC: 315.98
Pengelompokan Pengguna Situs Web BPS
Andri Yudhi S dan Aris Rusyiana Melalui Teknik Bibliometric dan Analisis
Korespondensi
Beras atau Rokok?: Beban Ekonomis
Rumah Tangga Miskin di Indonesia 2014 Jurnal Aplikasi Statistika & Komputasi
Jurnal Aplikasi Statistika & Komputasi hal 39 – 52
hal 27 – 38 Abstract
The effort to fulfill one of quick wins
Abstract program for BPS products that really can
Facts that in many developing countries, fulfill the needs of data users is by
cigarettes consumption affects significantly segmenting data users. Segmentation of
toward economic burden (for instances see BPS website users as a form of
Toukan, 2016; Block and Webb 2009). Also, segmentation of data users, according to
for Indonesian recently context, Chief of quick wins program. The size of web user
Statistics Indonesia says that cigarettes data is very large and in the form of text
expenditure pose the second highest shared data so that it cannot be directly analyzed
towards the national poverty rate. through available statistical applications, it
However, the recently comprehensive is necessary to do a technique for web user
Indonesia researches on rice and cigarettes data using bibliometric techniques. This
expenditure are still rare. Regarding those technique converts text data into numeric
research gaps, we examine the linkage of format, then it is made into a frequency
rice consumption expenditure and the distribution matrix. The matrix is used in
potential cost of cigarettes expenditure correspondence analysis for grouping
among poor households in Indonesia website users. The results of the analysis of
(includes the households characteristics: BPS website users represented by IP
residency, social safety net receiver, adults addresses can be grouped with pages
smokers among households, etc). The accessed based on national origin, so that
objectives of this study is to examine segmentation users of BPS website data
whether poor households prefer to consume between the country and the page are
fewer rice rather than consuming fewer accessed can be obtained.
cigarettes. For this study, we use the
National Social Economic Survey of the Keywords: Data mining, text mining,
2014 year dataset. By applying the multiple bibliometric, web mining, correspondence
linear regression analysis, we use sample of analysis
adult smokers (N=285,371). Our results
show that poor smoking-households DDC: 315.98
relatively consume rice less than the non-
smoking-households categories on average. Farid Ridho dan Arya Aji Kusuma
This may indicate that poor households
prioritize to consume more cigarettes Deteksi Intrusi Jaringan dengan K-Means
rather than consuming rice. Clustering pada Akses Log dengan Teknik
Pengolahan Big Data
Keywords: Susenas, poverty rate, cigarettes
consumption, multiple linier regression Jurnal Aplikasi Statistika & Komputasi
DDC: 315.98 hal 53 – 66
Toza Sathia Utiayarsih, Jadi Suprijadi dan Abstract

Bernik Maskun
x|
Good network security planning ensures Indonesia Demographic and Health Survey
the safety and comfort of user data. (SDKI) in 2002, 2007 and 2012. This study
However, the existence of effective attacks used Regression data count method. The
proves that the current security system is results showed that of the three SDKIs, the
not effective to prevent and detect attacks. coefficient values are the same for all
One of methods that can be used to detect explanatory variables except in SDKI 2007
this attack is by using Intrusion Detection i.e. in residential variables that are
System (IDS). The amount of data (volume), different from the 2002, 2012 SDKI. In line
speed of which data change (velocity), and with this finding, further studies are needed
variations in data (variety) are to find a theory that can explain this
characteristics of big data. Log access, empirical finding.
theoretically is also a form of big data so a
new approach in statistical data processing Keywords: Fertility, TFR, IDHS, regression
is needed to overcome big data. This data count
research was conducted by analyzing log
access with K-Means Clustering using the
big data processing technique. The study
produced a model that can be used to detect
an attack with a detection probability of
99.68%. As well as a comparison between
big data using Pyspark and traditional
processing technique using standard
python, which big data technique has a
significant difference in time needed to
execute the program.
Keywords: IDS, big data, log access, k-

means, clustering
DDC: 315.98
Sukim dan Rudi Salam
Pola Fertilitas Wanita Usia Subur di

Indonesia: Perbandingan Tiga Survei
Demografi dan Kesehatan Indonesia
(2002, 2007 dan 2012)
Jurnal Aplikasi Statistika & Komputasi

hal 67 – 78
Abstract
Fertility rate is one of the most decisive
demographic factors in the decline in the
rate of population growth in Indonesia. One
measure of fertility is Total Fertility Rate
(TFR). During the last 20 years, the
population growth rate in Indonesia is
stagnant at 1.49 percent. Therefore, this
study aims to examine TFR patterns over
the last 20 years based on the three
xi
xii |
PENGELOMPOKAN KABUPATEN/KOTA DI PULAU JAWA
BERDASARKAN FAKTOR-FAKTOR KEMISKINAN DENGAN
PENDEKATAN AVERAGE LINKAGE HIERARCHICAL CLUSTERING
Sri Wahyuni1, Yogo Aryo Jatmiko2

Badan Pusat Statistik
e-mail: 1swahyuni@bps.go.id
Abstrak
Pulau Jawa masih merupakan pulau dengan persentase penduduk miskin terbesar di Indonesia. Dalam
menentukan kebijakan penanggulangan kemiskinan, perlu diperhatikan faktor-faktor yang
mempengaruhi kemiskinan.Selain itu, kemiskinan di setiap wilayah memiliki karakteristik yang
berbeda, sehingga perlu adanya pengelompokan wilayah agar kebijakan yang akan dilaksanakan tepat
sesuai dengan karakteristik wilayah. Tujuan dari penelitian ini adalah mengelompokkan kabupaten/kota
di Pulau Jawa berdasarkan faktor-faktor kemiskinan tahun 2017 dengan pendekatan average linkage
hierarchical clustering. Faktor-faktor kemiskinan yang digunakan sebagai dasar pengelompokan adalah
tingkat pengangguran terbuka, persentase rumah tangga yang bekerja di pertanian, pengeluaran rumah
tangga per kapita, dan rata-rata lama sekolah. Hasil penelitian menunjukkan ada dua kelompok wilayah
kabupaten/kota di Pulau Jawa. Kelompok pertama, terdiri dari Kota Jakarta Barat, Kota Jakarta Selatan,
Kota Jakarta Timur, Kota Surabaya, Kota Jakarta Pusat, Kota Malang, Kota Bandung, Kota Yogyakarta,
Kota Jakarta Utara, Kota Depok, Kabupaten Bantul, Kota Salatiga, Kota Tangerang Selatan, Kota
Madiun, Kabupaten Sleman, Kota Bekasi, Kabupaten Sidoarjo, Kota Semarang, Kota Tangerang, Kota
Surakarta. Sedangkan sebanyak 99 kabupaten/kota lainnya masuk dalam kelompok kedua. Kelompok
pertama merupakan kota-kota besar di Indonesia yang tingkat kemiskinannya rendah, sedangkan
kelompok kedua sebagian besar terdiri dari kabupaten/kota yang dicirikan dengan wilayah perdesaan
yang tingkat kemiskinannya tinggi.
Kata kunci: Pulau Jawa, faktor kemiskinan, average linkage hierarchical clustering
Abstract
Java is still an island with the largest percentage of poor people in Indonesia. In determining poverty
reduction policies, it is necessary to consider the factors that influence poverty. Moreover, poverty in
each region has different characteristics, so there needs to be regional grouping so that the policies that
will be implemented are in accordance with the characteristics of the region. The purpose of this study
is to classify regencies in Java based on poverty factors in 2017 with the average linkage hierarchical
clustering approach. The poverty factors that are used as a basis for grouping are level of open
unemployment, percentage of agricultural households, household expenditure per CAPIta, and mean
years schooling. The results showed that there were two groups of regencies in Java. The first group,
consisti of West Jakarta City, South Jakarta City, East Jakarta City, Surabaya City, Central Jakarta
City, Malang City, Bandung City, Yogyakarta City, North Jakarta City, Depok City, Bantul Regency,
Salatiga City, South Tangerang City, Madiun City, Sleman Regency, Bekasi City, Sidoarjo Regency,
Semarang City, Tangerang City, Surakarta City. Whereas 99 other regencies were included in the
second group. The first group is large cities in Indonesia with a low poverty rate, while the second group
consists mostly of districts / cities characterized by rural areas with high poverty levels.
.
Keywords: Java Island, poverty factor, average linkage hierarchical clustering
1
PENDAHULUAN ruang. Faktor-faktor penyebab kemiskinan
perlu terlebih dahulu diketahui agar strategi
1. Latar Belakang
penanggulangan kemiskinan sesuai dengan
Kemiskinan masih menjadi isu dunia kondisi masyarakat di setiap wilayah.
karena jumlahnya yang besar dan dampak Tujuan dari penelitian ini adalah melakukan
yang ditimbulkannya sangat buruk bagi pengelompokan kabupaten/kota di Pulau
kehidupan masyarakat. Sejak 25 September Jawa yang didasari adanya faktor-faktor
2015, seluruh masyarakat dunia secara kemiskinan agar program pengentasan
resmi berkomitmen untuk melaksanakan kemiskinan menjadi lebih terarah, efektif
Agenda 2030 yang tersaji dalam Tujuan dan tepat sasaran. Bararakbah dan Arai
Pembangunan Berkelanjutan atau (2004) menyebutkan metode
Sustainable Development Goals (SDGs) pengelompokan yang baik adalah metode
yang terdiri dari 17 tujuan dan 169 target. yang mempunyai nilai simpangan baku
Dalam SDGs, penanggulangan kemiskinan dalam kelompok yang minimum dan nilai
menjadi tujuan pertama target simpangan baku antar kelompok yang
pembangunan. Target yang ingin dicapai maksimum. Laraswati (2014) menemukan
adalah mengakhiri kemiskinan dalam bahwa metode average linkage dan
segala bentuk dimanapun. complete linkage merupakan metode yang
Keseriusan pemerintah dalam upaya lebih baik diantara metode pengelompokan
mencapai target penurunan kemiskinan K-Means. Laeli (2014) menemukan bahwa
tercantum dalam Rencana Pembangunan metode average linkage mempunyai kinerja
Jangka Menengah (RPJM) 2015-2019 yang yang lebih baik daripada metode Ward.
menunjukkan bahwa salah satu visi Berdasarkan hasil penelitian tersebut dan
pembangunan nasional adalah untuk mencapai tujuan penelitian, maka
mempercepat pemerataan dan keadilan pengelompokan kabupaten/kota dilakukan
(Bappenas, 2014). Menurut Badan Pusat dengan metode analisis cluster average
Statistik (2018), jumlah penduduk miskin di linkage.
Indonesia diperkirakan sebesar 26,58 juta
orang atau sekitar 10,12 persen dari total 2. Tinjauan Pustaka
penduduk pada tahun 2017. Dari total ini Definisi kemiskinan sesungguhnya
sekitar 52 persen penduduk miskin berada luas maknanya, karena faktor penyebab
di Pulau Jawa. Fenomena semacam ini yang kompleks, indikator maupun
mengindikasikan bahwa strategi permasalahan lain yang ada didalamnya.
pengentasan kemiskinan yang telah Kemiskinan tidak hanya dipandang dari
diterapkan belum mampu menciptakan dimensi ekonomi, namun juga pada dimensi
pemerataan pendapatan (redistribution of sosial, kesehatan, pendidikan dan berbagai
income), mengatasi ketimpangan- dimensi lainnya. Menurut Badan Pusat
ketimpangan serta mengurangi kemiskinan, Statistik (BPS), penduduk miskin yaitu
terutama di Jawa. Problematika kemiskinan penduduk hidup di bawah garis kemiskinan,
yang dialami masyarakat Jawa merupakan atau dengan kata lain penduduk yang tidak
penghambat bagi upaya peningkatan mampu memenuhi kebutuhan dasar
kesejahteraan penduduk. Hal ini disebabkan minimum makanan dan non makanan. Garis
oleh pelbagai sisi sosial budaya dan kemiskinan adalah besarnya nilai
ekonomi yang melekat pada kondisi pengeluaran (dalam rupiah) untuk
kemiskinan itu sendiri yang disebut sebagai memenuhi kebutuhan dasar minimum
lingkaran setan kemiskinan (vicious circle makanan dan non makanan. Nilai garis
of poverty). kemiskinan yang digunakan mengacu pada
Untuk merancang penanggulangan kebutuhan minimum 2.100 kilo kalori per
kemiskinan harus memperhatikan beberapa kapita per hari ditambah dengan kebutuhan
aspek di setiap wilayah. Aspek-aspek minimum non makanan yang merupakan
tersebut mencakup aspek sosial, ekonomi, kebutuhan dasar seseorang. Kebutuhan
budaya, politik serta aspek waktu dan dasar tersebut meliputi papan, sandang,
2|
sekolah, transportasi, serta kebutuhan pengangguran terbuka (TPT). Hasil
rumahtangga dan individu yang mendasar penelitian mereka menunjukkan bahwa
lainnya. Pada penelitian ini, konsep yang berpengaruh terhadap kemiskinan di
kemiskinan mengacu pada konsep yang Indonesia adalah IPM, sedangkan
telah dibuat oleh BPS. pertumbuhan ekonomi dan TPT tidak
Penelitan yang terkait dengan berpengaruh.
kemiskinan sudah banyak dilakukan. Terkait dengan penelitian yang
Leasiwal (2013) menyebutkan bahwa menggunakan analisis cluster, Ningsih dkk
kemiskinan di Maluku didominasi oleh (2016) melakukan pengelompokan
penduduk yang tinggal di perdesaan. kabupaten/kota di Provinsi Kalimantan
Adapun variabel yang secara signifikan Timur berdasarkan data produksi palawija.
mempengaruhi kemiskinan yakni daya beli Pendekatan metode yang dipakai adalah
masyarakat, inflasi, rata-rata lama sekolah, complete linkage dan average linkage.
angka melek huruf, angka partisipasi kasar, Hasilnya, terdapat 4 kelompok
angka harapan hidup, dan jumlah sekolah kabupaten/kota, yaitu kelompok pertama
menengah atas. Chandra dan Nafisah kabupaten/kota penghasil palawija sangat
(2017) dalam penelitiannya membagi sedikit, kelompok kedua penghasil palawija
wilayah Provinsi Jawa Timur ke dalam 3 cukup banyak, kelompok ketiga penghasil
kelompok kabupaten/kota. Kelompok palawija terbanyak, dan kelompok keempat
tersebut dikategorikan ke dalam kelompok penghasil palawija sangat sedikit.
tingkat rendah, kelompok tingkat sedang
dan kelompok tingkat tinggi berdasarkan METODE PENELITIAN
faktor-faktor kemiskinan. Faktor-faktor 1. Sumber Data
yang digunakan yakni persentase angka
melek huruf, persentase tingkat Data yang digunakan dalam
pengangguran terbuka, persentase angka penelitian ini adalah data sekunder yang
partisipasi sekolah usia 16-18 tahun, dan bersumber dari Badan Pusat Statistik tahun
persentase pendidikan. 2017 yaitu:
Sementara Bachtiar, dkk (2016) 𝑋1: Persentase rumah tangga yang bekerja
melakukan pengkajian faktor-faktor yang di pertanian
mempengaruhi kemiskinan anak Balita di 𝑋2: Rata-rata lama sekolah
Provinsi Sumatera Barat. Hasil kajiannya 𝑋3: Pengeluaran rumah tangga per kapita
menyebutkan beberapa faktor yang akan 𝑋4: Tingkat pengangguran terbuka
memberikan peluang anak balita jatuh pada Software yang digunakan untuk
kemiskinan, yaitu pendidikan yang rendah, melakukan pengolahan adalah SPSS 22 dan
pekerjaan ibu dan kepala rumah tangga, STATA 13. Software SPSS digunakan
tinggal di wilayah perdesaan, orang tua untuk melakukan analisis faktor dan
memiliki balita lebih dari satu orang. analisis cluster, sedangkan STATA 13
Kemudian Kurniawan (2017) dalam digunakan untuk membuat peta.
penelitiannya menyebutkan bahwa faktor- 2. Langkah-Langkah Analisis Data
faktor penyebab kemiskinan adalah
pendidikan dan pendapatan. Dalam penelitian ini, langkah yang
Zuhdiyati dan Kaluge (2017) meneliti dilakukan dalam menghasilkan
faktor-faktor yang mempengaruhi pengelompokan wilayah adalah sebagai
kemiskinan di Indonesia selama lima tahun berikut:
terakhir yaitu 2011-2015. Penelitian ini 1. Melakukan analisis deskriptif
menggunakan pendekatan kuantitatif dan faktor-faktor kemiskinan
regresi data panel, dengan sumber data dari 2. Mengelompokkan faktor-faktor
Badan Pusat Statistik. Variabel yang kemiskinan. Dalam analisis faktor,
dimasukkan dalam model meliputi Indeks terlebih dahulu dilakukan pengujian
Pembangunan Manusia (IPM), adanya korelasi antar variabel
pertumbuhan ekonomi dan tingkat dengan uji Barlett dan Kaiser-
3
Meyer- Olkin (KMO) untuk 𝑉(𝑢𝑣) : jumlah objek dalam cluster 𝑢𝑣
kelayakan suatu data. 𝑁𝑤 : jumlah objek dalam cluster 𝑤
3. Hasil analisis faktor kemudian
digunakan sebagai input untuk HASIL DAN PEMBAHASAN
melakukan pengelompokan
1. Analisis deskriptif
kabupaten/kota dengan metode
analisis cluster average linkage. Analisis menggunakan 119
kabupaten/kota yang terletak di Pulau Jawa
3. Analisis Cluster Metode Average
sebagai objek observasi. Rata-rata
Linkage
persentase rumah tangga miskin di
Analisis merupakan teknik analisis kabupaten/kota sebesar 10,7 persen dengan
multivariate yang digunakan untuk nilai minimum 1,76 persen dan maksimum
mengelompokkan data observasi atau 23,56 persen. Pertanian masih menjadi mata
variabel-variabel ke dalam cluster pencaharian bagi sebagian rumah tangga di
berdasarkan faktor-faktor yang telah Jawa dengan rata-rata 22,88 persen,
ditentukan. Tujuan analisis cluster adalah minimum 0,19 persen dan maksimum 65,58
mengelompokkan obyek yang mirip ke persen. Tingkat pendidikan kepala rumah
dalam satu cluster yang sama. tangga di Pulau Jawa masih tergolong
Metode pengelompokan (clustering) rendah. Tabel 1 menunjukkan rata-rata lama
dalam analisis cluster ada 2, yaitu metode sekolah kepala rumah tangga sekitar 8,03
hierarki dan metode nonhirarki. Analisis tahun atau setara dengan kelas 2 sekolah
hierarki, pengklusteran datanya dilakukan menengah pertama. Rata-rata lama sekolah
dengan cara mengukur jarak kedekatan minimum 4,12 tahun atau setara dengan
pada setiap objek yang kemudian disajikan kelas 4 SD dan maksimum 11,77 tahun atau
dalam bentuk dendogram. Ada beberapa setara dengan SMA kelas 2 atau 3. Dilihat
macam analisis cluster dengan metode dari pengeluaran per kapita, rata-ratanya
hierarki, antara lain single linkage, 11.053,95 dengan nilai minimum 7.250 dan
complete linkage, dan average linkage. maksimum 23.098. Kecilnya pengeluaran
Single linkage, pembentukan cluster per kapita ini menunjukkan bahwa di Pulau
didasarkan pada jarak terkecil. Jika dua Jawa masih banyak rumah tangga yang
obyek terpisah oleh jarak yang pendek belum mampu memenuhi kebutuhan
maka kedua obyek tersebut akan digabung hidupnya secara layak. Pengangguran di
menjadi satu cluster. Complete linkage, Pulau Jawa memiliki rata-rata 5,45 persen
berlawanan dengan single linkage, dengan nilai minimum 0,85 persen dan
pengelompokkannya berdasarkan jarak maksimum 13 persen. Semakin tingginya
terjauh. Metode average linkage pengangguran akan berdampak pada
menghitung jarak dua cluster yang disebut berkurangnya pendapatan, sehingga rumah
sebagai jarak rata-rata. Keuntungan metode tangga akan sulit untuk hidup secara layak
hierarki antara lain mempercepat proses (lihat Tabel 1)
pengolahan dan menghemat waktu karena
data input akan membentuk hierarki atau
tingkatan sehingga mempermudah dalam
penafsiran.
Dalam metode average linkage, jarak
dihitung pada masing-masing cluster
dengan persamaan sebagai berikut:
∑𝑖 ∑𝑘 𝑑𝑖𝑘
𝑑(𝑢𝑣)𝑤 = ……………….. (1)
𝑉(𝑢𝑣) 𝑁𝑤
Keterangan:
𝑑𝑖𝑘 : jarak objek 𝑖 dalam cluster (𝑢𝑣) dan
objek 𝑘 dalam cluster 𝑤.
4|
Tabel 1. Deskripsi Faktor-Faktor Kemiskinan di Pulau Jawa, 2017
Variabel Observasi Rata-Rata Standar Deviasi Minimum Maksimum
Persentase rumah
119 10,70 4,64 1,76 23,56
tangga miskin
Persentase rumah
tangga yang bekerja di 119 22,88 17,03 0,19 65,58
pertanian
Rata-rata lama sekolah 119 8,03 1,65 4,12 11,77
Pengeluaran rumah
119 11.053,95 2.780,70 7.250 23.098
tangga per kapita (Rp)
Tingkat Pengangguran
119 5,45 2,53 0,85 13,00
Terbuka (TPT)
Sumber: Badan Pusat Statistik, 2017
Gambar 1. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Persentase Penduduk

Miskin, 2017
2. Provinsi Jawa Tengah: Kabupaten
Persentase Penduduk Miskin di Pulau
Grobogan, Kabupaten Demak,
Jawa
Kabupaten Purworejo, Kabupaten
Gambar 1 menunjukkan peta wilayah Cilacap, Kabupaten Sragen, Kabupaten
berdasarkan persentase penduduk miskin di Klaten, Kabupaten Banyumas,
Pulau Jawa. Warna biru tua tua Kabupaten Banjarnegara, Kabupaten
menunjukkan kabupaten/kota dengan Pemalang, Kabupaten Rembang,
persentase penduduk miskin paling rendah. Kabupaten Brebes, Kabupaten
Warna biru muda menunjukkan Kebumen, Kabupaten Purbalingga, dan
kabupaten/kota dengan persentase Kabupaten Wonosobo.
penduduk miskin cukup rendah. Warna 3. Provinsi Yogyakarta: Kabupaten
merah muda menunjukkan kabupaten/kota Bantul, Kabupaten Gunung Kidul, dan
dengan persentase penduduk miskin cukup Kabupaten Kulon Progo.
tinggi dan warna merah tua menunjukkan 4. Provinsi Jawa Timur: Kabupaten
kabupaten/kota dengan persentase Bojonegoro, Kabupaten Lamongan,
penduduk miskin paling tinggi. Kabupaten Bondowoso, Kabupaten
Kabupaten/kota yang memiliki persentase Ngawi, Kabupaten Pacitan, Kabupaten
penduduk miskin tertinggi (dalam peta Pamekasan, Kabupaten Tuban,
ditunjukkan dengan warna merah tua) Kabupaten Sumenep, Kabupaten
adalah sebagai berikut: Probolinggo, Kabupaten Bangkalan,
1. Provinsi Jawa Barat: Kabupaten dan Kabupaten Sampang.
Kuningan, Kabupaten Indramayu, dan
Kota Tasikmalaya. Persentase Penduduk yang Bekerja di
Pertanian
1
Gambar 2. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Persentase Penduduk
yang Bekerja di Pertanian, 2017
Gambar 3. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Rata-Rata Lama Sekolah,
2017
Penduduk yang bekerja di sektor Trenggalek, Kabupaten Ngawi,
pertanian di Pulau Jawa ditunjukkan dalam Kabupaten Bangkalan, Kabupaten
peta pada Gambar 2. Semakin tua warnanya Pamekasan, Kabupaten Pacitan,
semakin tinggi persentase penduduk yang Kabupaten Sumenep dan Kabupaten
bekerja di sektor pertanian. Kabupaten Sampang. Bahkan di Kabupaten
dengan persentase penduduk yang bekerja Bangkalan, Kabupaten Pamekasan,
di sektor pertanian pada kelompok tertinggi Kabupaten Pacitan, Kabupaten
adalah sebagai berikut: Sumenep dan Kabupaten Sampang
1. Provinsi Jawa Banten: Kabupaten lebih dari separuh penduduknya
Lebak. bekerja di sektor pertanian (lihat
2. Provinsi Jawa Tengah: Kabupaten Gambar 2)
Wonosobo, Kabupaten Brebes,
Rata-Rata Lama Sekolah Penduduk di
Kabupaten Wonogiri, Kabupaten
Pulau Jawa
Grobogan, Kabupaten Temanggung,
dan Kabupaten Blora Rata-rata lama sekolah
3. Provinsi Yogyakarta: Kabupaten menggambarkan rata-rata tingkat
Gunung Kidul. pendidikan yang dicapai oleh penduduk di
4. Provinsi Jawa Timur: Kabupaten suatu wilayah. Gradasi warna yang
Jember, Kabupaten Tuban, Kabupaten disajikan dalam peta pada Gambar 3
Malang, Kabupaten Magetan, menggambarkan rata-rata lama sekolah di
Kabupaten Lamongan, Kabupaten kabupaten/kota, dengan penjelasan semakin
Nganjuk, Kabupaten Lumajang, gelap warnanya semakin banyak jumlah
Kabupaten Probolinggo, Kabupaten tahun rata-rata lama sekolah. Jika dicermati
Ponorogo, Kabupaten Madiun, dari peta tersebut, rata-rata lama sekolah di
Kabupaten Situbondo, Kabupaten Pulau Jawa masih rendah. Kabupaten
Blitar, Kabupaten Bondowoso, Sampang memiliki rata-rata lama sekolah
Kabupaten Bojonegoro, Kabupaten terendah (4,12 tahun) dan Kota Tangerang
Selatan memiliki rata-rata lama sekolah
2|
Gambar 4. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Pengeluaran per Kapita,
2017
Gambar 5. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Tingkat Pengangguran

Terbuka, 2017
tertinggi (11,77 tahun). Kabupaten/Kota penduduk. Di Pulau Jawa, rata-rata
dengan warna tua yang artinya memiliki pengeluran per kapita penduduknya sebesar
rata-rata lama sekolah lebih tinggi 11.054 rupiah, artinya setiap penduduk
dibanding kabupaten/kota lainnya, adalah memenuhi kebutuhannya baik makanan
sebagai berikut: maupun non makanan sebesar 11.054
1. Provinsi Banten: Kota Tangerang, Kota rupiah per bulan. Pengeluaran per kapita
Cilegon, dan Kota Tangerang Selatan. terndah di Kabupaten Tasikmalaya (7.250
2. Provinsi DKI Jakarta: Kota Jakarta rupiah), dan yang tertinggi di Kota Jakarta
Barat, Kota Jakarta Utara, Kota Jakarta Selatan (23.098 rupiah). Kabupaten/kota
Selatan, dan Kota Jakarta Timur. dengan pengeluaran per kapita lebih tinggi
3. Provinsi Jawa Barat: Kota Sukabumi, dari kabupaten/kota lainnya ditunjukkan
Kota Cirebon, Kota Bogor, Kota dalam gambar peta yang berwarna paling
Bandung, Kota Depok, Kota Bekasi, tua. Kabupaten/kota tersebut adalah sebagai
dan Kota Cimahi. berikut:
4. Provinsi Jawa Tengah: Kota Salatiga, 1. Provinsi Banten: Kota Cilegon, Kota
Kota Magelang, Kota Surakarta, Kota Serang, Kota Tangerang, dan Kota
Semarang, Tangerang Selatan.
5. Provinsi Yogyakarta: Kabupaten 2. Provinsi DKI Jakarta: Kota Jakarta
Bantul dan Kabupaten Sleman Pusat, Kota Jakarta Timur, Kota
6. Provinsi Jawa Timur: Kota Pasuruan, Jakarta Utara, Kota Jakarta Barat, dan
Kota Blitar, Kota Kediri, Kota Kota Jakarta Selatan.
Mojokerto, Kota Malang, Kabupaten 3. Provinsi Jawa Barat: Kota Depok, Kota
Sidoarjo, dan Kota Surabaya. Bekasi, dan Kota Bandung.
4. Provinsi Jawa Tengah: Kabupaten
Pengeluaran rumah tangga per kapita
Boyolali, Kota Tegal, Kota Surakarta,
Pengeluaran rumah tangga per kapita Kota Semarang, dan Kota Salatiga.
menggambarkan rata-rata pengeluaran 5. Provinsi Yogyakarta: Kabupaten
setiap penduduk di suatu wilayah. Semakin Bantul, Kabupaten Sleman, dan Kota
besar pengeluaran per kapita diartikan Yogyakarta.
semakin tinggi tingkat kesejahteraan
3
Tabel 2. Hasil Uji KMO dan Bartlett
Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .645
Bartlett's Test of Sphericity Approx. Chi-Square 323.367
df 6
Sig. .000
Tabel 3. Total Variance Explained

Initial Eigenvalues Extraction Sums of Squared Loadings
Component
Total % of Variance Cumulative % Total % of Variance Cumulative %
1 2.725 68.135 68.135 2.725 68.135 68.135
2 .923 23.086 91.221
3 .256 6.399 97.620
4 .095 2.380 100.000
Gambar 6. Scree Plot
6. Provinsi Jawa Timur: Kota Batu, sedangkan yang tertinggi di Kabupaten

Kabupaten Mojokerto, Kabupaten Serang. Beberapa kabupaten/kota yang
Gresik, Kota Pasuruan, Kota memilki tingkat pengangguran terbuka
Mojokerto, Kota Blitar, Kabupaten lebih tinggi dibanding kabupaten/kota
Sidoarjo, Kota Madiun, Kota Malang, lainnya digambarkan dalam peta dengan
dan Kota Surabaya. warna yang paling tua. Kabupaten/kota
tersebut adalah:
1. Provinsi Banten: Kabupaten
Tingkat Pengangguran Terbuka
Pandeglang, Kota Serang, Kabupaten
Menurut BPS, pengangguran adalah Lebak, Kabupaten Tangerang, Kota
persentase jumlah pengangguran terhadap Cilegon, dan Kabupaten Serang.
jumlah angkatan kerja. Gambar 5 2. Provinsi DKI Jakarta: Kota Jakarta
menggambarkan peta wilayah berdasarkan Pusat dan Kota Jakarta Utara.
tingkat pengangguran terbuka. Gradasi 3. Provinsi Jawa Barat: Kabupaten
warna menjelaskan bahwa semakin tua Sukabumi, Kabupaten Garut,
warna suatu wilayah maka semakin tinggi Kabupaten Kuningan, Kota Sukabumi,
tingkat pengangguran terbuka di wilayah Kota Cimahi, Kota Bandung,
tersebut. Kabupaten dengan tingkat Kabupaten Indramayu, Kabupaten
pengangguran terendah di Pacitan, Subang, Kabupaten Purwakarta, Kota
4|
Gambar 7. Peta Pengelompokan Wilayah Berdasarkan Faktor-Faktor Kemiskinan
Cirebon, Kota Bekasi, Kabupaten jumlah faktor yang digunakan adalah dua
Bandung Barat, Kabupaten Bogor, (Tabel 3).
Kabupaten Karawang, Kota Bogor, Penentuan jumlah faktor juga bisa
Kabupaten Cirebon, Kabupaten menggunakan scree plot. Scree plot
Cianjur, Kabupaten Bekasi, merupakan nilai plot eigen value terhadap
4. Provinsi Jawa Tengah: Kabupaten jumlah faktor yang diekstraksi. Titik pada
Tegal, Kabupaten Brebes, dan Kota tempat dimana scree mulai terjadi
Tegal. menunjukkan banyaknya faktor yang
5. Provinsi Jawa Timur: Kota Malang. sesuai, dimana scree terlihat mulai
mendatar. Berdasarkan scree plot pada
Gambar 6 dapat disimpulkan bahwa garis
2. Analisis Faktor
mulai mendatar di titik 3 sehingga hanya 2
Sebelum melakukan pengelompokan faktor yang akan digunakan untuk
terlebih dahulu dilakukan uji KMO dan membentuk cluster. Hasil ini sejalan dengan
Bartlett untuk menguji apakah terdapat pembentukan faktor menggunakan PCA
korelasi yang signifikan antar variabel. pada Tabel 3.
Variabel yang memiliki korelasi yang tinggi
akan di reduksi. 3. Analisis Cluster
Dari hasil pengujian KMO dan Hasil dari analisis faktor digunakan
Bartlett, diperoleh p-value sebesar 0,000 sebagai input dalam melakukan analisis
sehingga tolak H0, artinya terdapat korelasi cluster. Hasil analisis cluster dengan
antar variabel. Selanjutnya, dilakukan uji metode average linkage membagi
KMO untuk mengetahui kecukupan data kabupaten/kota di Pulau Jawa menjadi 2
untuk analisis faktor. Hasil uji KMO kelompok. Penentuan kelompok didasarkan
menunjukkan besarnya KMO sebesar 0,645 pada Gambar dendogram seperti yang
sehingga nilai KMO > 0,5 yang artinya tersaji dalam Gambar 8.
analisis faktor cukup baik untuk dilakukan Kelompok I merupakan kelompok
(Sharma, 1996). Tujuan dari analisis faktor kabupaten/kota yang kemiskinannya
ini untuk menyederhanakan kumpulan 4 rendah, terdiri dari:
variabel yang digunakan sebagai faktor- 1. Provinsi Banten: Kota Tangerang dan
faktor kemiskinan (Tabel 2). Kota Tangerang Selatan.
Jumlah faktor yang akan dibentuk 2. Provinsi DKI Jakarta: Kota Jakarta
ditentukan dengan beberapa kriteria agar Barat, Kota Jakarta Selatan, Kota
diperoleh faktor-faktor yang sesuai. Kriteria Jakarta Timur, Kota Jakarta Pusat, dan
pertama yang digunakan sebagai penentu Kota Jakarta Utara.
jumlah faktor adalah eigen value. Faktor 3. Provinsi Jawa Barat: Kota Bandung,
yang memiliki eigen value lebih dari 1 Kota Depok, dan Kota Bekasi.
adalah faktor 1, tetapi karena persentase 4. Provinsi Jawa Tengah: Kota Semarang,
cumulative eigen value yang mencapai Kota Salatiga, dan Kota Surakarta.
lebih dari 90 persen di faktor 2, maka
5
Gambar 8. Dendogram using Average Linkage (Between Group)
Rescaled
5. Distance Cluster
Provinsi Combine Kota
Yogyakarta: 6. Provinsi Jawa Timur: Kota Surabaya,
Yogyakarta, Kabupaten Bantul, dan Kota Malang, Kota Madiun, dan
Kabupaten Sleman. Kabupaten Sidoarjo.
6|
Sedangkan kelompok 2 terdiri dari Tulungagung, Kota Kediri, Kabupaten
kabupaten/kota yang tingkat Banyuwangi, Kabupaten Blitar,
kemiskinannya lebih tinggi, yaitu sebanyak Kabupaten Mojokerto, Kabupaten
99 kabupaten/kota, terdiri dari: Pasuruan, Kabupaten Jombang,
1. Provinsi Banten: Kabupaten Cilegon, Kabupaten Magetan, Kabupaten
Kabupaten Serang, Kabupaten Lumajang, Kabupaten Jember,
Tangerang, Kota Serang, Kabupaten Kabupaten Malang, Kabupaten
Lebak, dan Kabupaten Pandeglang. Ponorogo, Kabupaten Nganjuk,
2. Provinsi DKI Jakarta: Kabupaten Kabupaten Kediri, Kabupaten Madiun,
Kepulauan Seribu. Kabupaten Gresik, Kabupaten
3. Provinsi Jawa Barat: Kabupaten Trenggalek, Kabupaten Situbondo,
Bekasi, Kota Bogor, Kabupaten Kabupaten Bojonegoro, Kabupaten
Bandung, Kota Cimahi, Kabupaten Lamongan, Kabupaten Bondowoso,
Sukabumi, Kabupaten Ciamis, Kota Kabupaten Ngawi, Kabupaten Pacitan,
Sukabumi, Kabupaten Bogor, Kabupaten Pamekasan, Kabupaten
Kabupaten Purwakarta, Kota Cirebon, Tuban, Kabupaten Sumenep,
Kabupaten Pangandaran, Kabupaten Kabupaten Probolinggo, Kabupaten
Karawang, Kabupaten Sumedang, Bangkalan, dan Kabupaten Sampang.
Kabupaten Subang, Kabupaten
Tasikmalaya, Kabupaten Garut, Penyajian kelompok kabupaten/kota
Kabupaten Cianjur, Kabupaten hasil clustering tersaji dalam bentuk peta
Bandung Barat, Kabupaten yang ditunjukkan pada Gambar 7.
Majalengka, Kabupaten Cirebon,
Kabupaten Kuningan, Kabupaten KESIMPULAN DAN SARAN
Indramayu, dan Kota Tasikmalaya. Dari hasil pembahasan diperoleh
4. Provinsi Jawa Tengah: Kota Banjar, kesimpulan bahwa dengan berdasarkan
Kota Pekalongan, Kabupaten Kudus, faktor-faktor kemiskinan, kabupaten/kota di
Kabupaten Semarang, Kota Tegal, Pulau Jawa dapat dibagi ke dalam dua
Kabupaten Jepara, Kabupaten kelompok. Sebanyak 16,8 persen
Sukoharjo, Kota Magelang, Kabupaten kabupaten/kota di Pulau Jawa masuk dalam
Tegal, Kabupaten Batang, Kabupaten kelompok pertama, dan sisanya sebanyak
Kendal, Kabupaten Pati, Kabupaten 83,2 persen masuk ke dalam kelompok
Temanggung, Kabupaten Boyolali, kedua. Kelompok pertama terdiri dari 20
Kabupaten Karanganyar, Kabupaten kabupaten/kota, yaitu:
Magelang, Kabupaten Pekalongan, 1. Provinsi Banten: Kota Tangerang dan
Kabupaten Wonogiri, Kabupaten Kota Tangerang Selatan.
Blora, Kabupaten Grobogan, 2. Provinsi DKI Jakarta: Kota Jakarta
Kabupaten Demak, Kabupaten Barat, Kota Jakarta Selatan, Kota
Purworejo, Kabupaten Cilacap, Jakarta Timur, Kota Jakarta Pusat, dan
Kabupaten Sragen, Kabupaten Klaten, Kota Jakarta Utara.
Kabupaten Banyumas, Kabupaten 3. Provinsi Jawa Barat: Kota Bandung,
Banjarnegara, Kabupaten Pemalang, Kota Depok, dan Kota Bekasi.
Kabupaten Rembang, Kabupaten 4. Provinsi Jawa Tengah: Kota Semarang,
Purbalingga, Kabupaten Brebes, Kota Salatiga, dan Kota Surakarta.
Kabupaten Kebumen, dan Kabupaten 5. Provinsi Yogyakarta: Kota
Wonosobo. Yogyakarta, Kabupaten Bantul, dan
5. Provinsi Yogyakarta: Kabupaten Kabupaten Sleman.
Gunung Kidul, dan Kabupaten Kulon 6. Provinsi Jawa Timur: Kota Surabaya,
Progo. Kota Malang, Kota Madiun, dan
6. Provinsi Jawa Timur: Kota Batu, Kota Kabupaten Sidoarjo.
Mojokerto, Kota Pasuruan, Kota Sedangkan 99 kabupaten/kota lainnya
Probolinggo, Kota Blitar, Kabupaten termasuk dalam kelompok kedua.
7
Kelompok I merupakan kabupaten/kota Matematika dan Ilmu Pengetahuan
yang tingkat kemiskinannya rendah, Alam. Universitas Negeri
sedangkan kelompok II merupakan Yogayakarta. 2014
kabupaten/kota yang tingkat Leasiwal, T.C. (2013). Determinan
kemiskinannya tinggi. Saran, penelitian Kemiskinan dan Karakteristik
berikutnya dapat meneliti lebih lanjut Kemiskinan di Provinsi Maluku.
pengaruh dari masing-masing faktor Jurnal Ekonomi, Cita Ekonomika,
kemiskinan terhadap tingkat kemiskinan di Vol. VII, No. 2, Desember 2013,
setiap kelompok. ISSN: 1978-3612.
Ningsih, S., Wahyuningsih, S., dan
DAFTAR PUSTAKA Nasution, Y.N. (2016). Perbandingan
Bachtiar, N., Rasbi, M.J., dan Fahmi, R. Kinerja Metode Complete Linkage
(2016). Analisis Kemiskinan Anak dan Average Linkage dalam
Balita pada Rumah Tangga di Menentukan Hasil Analisis Cluster.
Provinsi Sumatera Barat. Jurnal Prosiding Seminar Sains dan
Kependudukan Indonesia Vol. 11 No. Teknologi FMIPA Unmul, Vol. 1 No.
1 Juni 2016, hal. 29-38. 1 Juli 2016, Samarinda, Indonesia.
Barakbah, A.R., dan Arai, K. (2004). Sharma, S. (1996). Applied Multivariate
Determining Constrains of Moving Techniques, New York: John Wiley
Variance to Find Global Optimum & Sons, Inc.
and Make Automatic Clustering. Zuhdiyati, N. dan Kaluge, D. (2017).
Proc. Industrial Electronics Seminar Analisis Faktor-Faktor yang
(IES) 2004, pp.409-413, October 12, Mempengaruhi Kemiskinan di
2004, Surabaya, Indonesia Indonesia Selama Lima Tahun
Bappenas. (2014). Penyusunan Rencana Terakhir (Studi Kasus pada 33
Pembangunan Jangka Menengah Provinsi). JIBEKA, Volume 11 No. 2
Nasional 2015–2019. Kementerian Februari 2017: 27-31
Perencanaan Pembangunan
Nasional/Badan Perencanaan
Pembangunan Nasional. Jakarta.
Badan Pusat Statistik. (2017). Data dan
Informasi Kemiskinan
Kabupaten/Kota 2017. Badan Pusat
Statistik. Jakarta. Diakses pada
https://www.bps.go.id/
Chandra, N.E., dan Nafisah, Q. (2017).
Analisis Cluster Average Linkage
Berdasarkan Faktor-Faktor
Kemiskinan di Provinsi Jawa Timur.
Zeta-Math Journal Volume 3 No. 2,
November 2017.
Kurniawan M.DP. (2017). Analisis Faktor-
Faktor Penyebab Kemiskinan di
Kabupaten Musi Banyuasin (Studi
Kasus di Kecamatan Sungai Lilin).
Jurnal Ilmu Ekonomi Global Masa
Kini Volume 8 No. 01 Juli 2017.
Laraswati, T.F., (2014). Perbandingan
Kinerja Metode Complete Linkage,
Metode Average Linkage, dan Metode
K-Means dalam Menentukan Hasil
Analisis Cluster. Skripsi. Fakultas
8|
ANALISIS KINERJA, KUALITAS DATA, DAN USABILITY PADA
PENGGUNAAN CAPI UNTUK KEGIATAN SENSUS/SURVEY
Takdir
e-mail: takdir@stis.ac.id
Abstrak
Pengumpulan data merupakan suatu tahapan pada Sensus/Survey yang sangat menentukan keberhasilan
Sensus/Survey. Prosesnya yang memakan waktu lama akan mengakibatkan data yang disajikan tidak
relevan dengan kondisi pada saat pelaksanaan. Dengan Computer-Assisted Personal Interview (CAPI),
proses entri data dapat dilakukan pada saat proses interview berlangsung. Hal ini mempersingkat
tahapan pengumpulan data hingga data tersedia pada sistem komputer dan siap untuk dianalisis. Pada
penelitian ini, indikator-indikator penting penentu keberhasilan penerapan CAPI, yakni kinerja, kualitas
data, dan usability diukur untuk melihat sejauh mana CAPI memberikan penyempurnaan pada
pengumpulan data. Penelitian ini memberikan rekomendasi, baik dari segi konsep, maupun teknis,
mengenai desain CAPI untuk kegiatan sensus/survey.
Kata kunci: CAPI, sensus, survey, pengumpulan data
Abstract
Data collection is a phase in census/survey phases which highly affect the success of cencus or survey.
Using Computer-Assisted Personal Interviewing (CAPI), data entry could be carried out during
interview. It could shorten the data collection stage until data were available on a computer system and
ready for analysis. In this study, the essential indicators which determine the success of CAPI
implementation, i.e. performance, data quality, and usability are mesured to undestand the signifacancy
of CAPI in improving data collection. This study proposed recommendation, either in the aspect of
concept, or technical regarding CAPI design for census/survey.
Keywords: CAPI, census, survey, data collection
9
Selandia Baru. Indonesia sebagai Negara
PENDAHULUAN dengan peringkat 4 jumlah penduduk
Data yang berkualitas sangat terbesar di dunia (CIA World Factbook
menentukan kebijakan pembangunan 2013) memerlukan solusi untuk
Negara dari berbagai arah, baik melalui memudahkan pengumpulan data agar
kebijakan atau keputusan pemerintah secara kegiatan sensus/survey dapat berjalan lebih
langsung, maupun rekomendasi dari optimal.
kegiatan penelitian. Badan Pusat Statistik Sekolah Tinggi Ilmu Statistik (STIS)
(BPS) merupakan lembaga Negara yang merupakan perguruan tinggi kedinasan
ditugaskan khusus untuk menyediakan data yang didirikan oleh BPS untuk memenuhi
statistik dasar yang dijadikan acuan oleh kebutuhan sumber daya manusia dalam
berbagai kalangan. Oleh karena itu, BPS menjalakan kegiatan perstatistikan di BPS.
dituntut untuk menjamin kualitas data yang Setiap tahunnya STIS mengadakan kegiatan
dihasilkan. Praktil Kerja Lapangan (PKL) bagi
Kegiatan Sensus dan Survey mahasiswa semester ke-5 sebagai miniatur
merupakan kegiatan pokok yang dilakukan kegiatan perstatistikan yang dilakukan BPS.
oleh BPS. Tahapan pengumpulan data (data Penelitian ini bertujuan untuk mengukur
collection) merupakan salah satu tahapan kinerja, kualitas data yang dihasilkan, serta
pada kegiatan Sensus dan Survey yang usability (kemudahan penggunaan)
harus dilaksanakan dan sangat menentukan pengumpulan dan perekaman data dengan
keberhasilan pelaksanaan Sensus dan menggunakan CAPI. PKL Angkatan 54
Survey. Tahapan pengumpulan data STIS yang menggunakan 2 jenis
bertujuan untuk memperoleh data dan metode/alat pengumpulan data, yakni PAPI
informasi dari responden, misalnya dengan (Paper-and-pencil Personal Interview dan
melakukan wawancara secara langsung CAPI, merupakan objek studi kasus yang
kepada responden. Tahapan ini sangat akan diteliti. Untuk melengkapi hasil
mempengaruhi kualitas data yang analisis, dilakukan perbandingan antara
dihasilkan. Sebagai contoh, kesalahan PAPI dan CAPI pada variabel-variabel yang
perekaman data (data entry) akan dapat diperbandingkan, yakni kinerja dan
mengakibatkan analisis data menghasilkan kualitas data. Hasil penelitian menunjukkan
output yang tidak objektif. Selain itu, proses bahwa CAPI memiliki potensi untuk
pengumpulan data yang memakan waktu diterapkan sebagai alat penumpulan dan
yang lama akan mengakibatkan data yang perekaman data pada sensus/survey karena
nantinya disajikan tidak relevan dengan memiliki sejumlah kelebihan dari beberapa
kondisi pada saat pengumpulan data aspek. Aspek-aspek yang perlu menjadi
dilakukan. perhatian utama dalam penerapan CAPI
Computer-Assisted Personal juga disajikan pada hasil penelitian ini.
Interview (CAPI) merupakan sebuah Selain itu, penelitian ini memberikan
terobosan pada tahapan pengumpulan data. rekomendasi desain CAPI yang tepat, baik
Dengan CAPI, proses interview dengan dari segi hardware maupun software, untuk
responden dan entri data dilakukan secara diterapkan untuk di BPS pada survey yang
bersamaan. Hal ini akan mempersingkat memiliki kesamaan karakteristik dengan
tahapan pengumpulan data hingga data objek studi kasus pada penelitian ini, serta
tersedia pada sistem komputer. Dengan bentuk dukungan yang sesuai untuk
demikian, dengan penerapan CAPI yang diberikan kepada pengguna CAPI oleh
tepat, dapat dilakukan efsiensi, baik dari organisasi.
segi biaya, maupun waktu yang dibutuhkan
pada tahapan pengumpulan data. TINJAUAN REFERENSI
Saat ini teknologi pendukung CAPI 1. Sejarah CAPI
telah berkembang pesat dan telah banyak Pada tahun Oktober 1988, Bureau of
diterapkan di berbagai Negara maju, Census Amerika membentuk sub komite
khususnya Amerika, Inggris, Australia, dan
10 |
yang membidangi Computer Assisted berbasis web yang memiliki kemampuan
Survey Information Collection (CASIC) offline storage, hingga dalam bentuk
untuk meneliti potensi kemajuan di bidang aplikasi smartphone native seperti sekarang
teknologi untuk keperluan pengumpulan ini. CAPI yang dikembangkan di STIS terus
data statistik, transmisi data ke pusat data, mengalami pengembangan dari tahun ke
dan masalah (issue) pada proses tahun dan diuji melalui kegiatan PKL.
implementasinya (Bishop et al. 1990). Namun, sayangnya, CAPI belum
Komite tersebut melakuan sejumlah studi dimanfaatkan secara optimal di Indonesia,
mengenai teknologi-teknologi khususnya di BPS. Penelitian mengenai
pengumpulan data yang memungkinkan CAPI di Indonesia juga sangat sedikit
untuk digunakan, khususnya CATI sehingga belum ada rujukan yang
(Computer-Assisted Telephone Interview) meyakinkan pihak yang berkepentingan
dan CAPI. CAPI merupakan pengembangan untuk digunakan sebegai pengganti PAPI.
dari CATI yang sebelumnya telah menjadi Hal tersebut terlihat dari minimnya literatur
standard alat pengumpulan data dalam ilmiah maupun laporan yang dapat diakses
bidang penelitian (Bishop et al. 1990). yang membahas penggunaan CAPI dalam
Kemunculan metode CAPI dikuti dengan melakukan survey. Penelusuran dengan
berbagai produk teknologi sebagai kata kunci terkait CAPI dan “Indonesia”
implementasi dari CAPI, seperti Prepared pada search engine dan repository karya
Data Entry (PDE), Touchtone Data Entry ilmiah online tidak dapat memberikan hasil
(TDE), dan Voice Recognition Entry (VRE) yang relevan dan pembahasan khusus
(Bishop et al. 1990). terkait CAPI, begitu pula dengan daftar
Tahun 1989, Bureau of Census pustaka serta daftar tulisan ilmiah yang
Amerika menggunakan CAPI pada Current melakukan sitasi terhadap artikel-artikel
Population Survey (CPS) (Couper and populer yang membahas CAPI, yang juga
Geraldine Burt 1989). UK Labour Force terdapat pada daftar pustaka tulisan ini.
Survey tahun 1990 merupakan survey
2. Kelebihan dan Kekurangan CAPI
berskala besar yang dilakukan OPCS
(Office of Population Censuses and Penerapan CAPI dengan tepat akan
Surveys), yakni kantor statstik pemerintah memberikan dampak positif berupa kualitas
Inggris, yang pertama kali menggunakan data yang lebih baik (better quality), durasi
laptop untuk wawancara tatap muka yang lebih cepat (improved speed), dan
(Matheson 1991). Pada sektor komersil, biaya operasional yang lebih rendah (lower
British Telecom's juga telah menggunakan cost) dibandingkan dengan metode PAPI
CAPI untuk survey kepuasan pelanggan (Manners 1990).
pada tahun 1990 (Sainsbury, Ditch, and Better Quality
Hutton 1993). Namun, survey di bidang
sosial masih sedikit yang menggunakan 1. Adanya fitur automatic routing pada
CAPI. Hal ini disebabkan karena CAPI kuesioner yang didukung oleh CAPI
masih tergolong baru dan dianggap belum menyebabkan kejadian missing value
matang (mature), serta membutuhkan biaya hanya akan terjadi apabila responden
awal yang tergolong besar (Sainsbury et al. tidak ingin memberikan jawaban,
1993). bukan karena kesalahan interviewer
Beberapa report papers dan yang melewatkan pertanyaan (Manners
penelitian terbaru, misalnya (Shaw, 1990).
Nguyen, and Nischan 2011) dan (Caviglia- 2. Pada CAPI pengecekan konsistensi dan
harris et al. 2012), telah menunjukkan validitas isian dilakukan secara
penggunaan dan pengembangan CAPI otomatis, sedangkan pada PAPI, hal
secara intensif. Di STIS, sistem CAPI telah tersebut dilakukan secara manual yang
digunakan pada kegiatan Praktik Kerja rentan terhadap kesalahan (Manners
Lapangan (PKL) mahasiswa STIS sejak 1990).
tahun 2011. Dimulai dengan aplikasi
11
3. Kalkulasi matematis diikutkan pada Pertanyaan Terbuka
saat pencacahan sehingga CAPI memiliki kesulitan untuk
penghitungan dapat dilakukan dengan menangani pertanyaan terbuka karena
komputer yang memberikan hasil membutuhkan coding tertentu.
akurat (Sainsbury et al. 1993).
4. Kesalahan (error) pada saat perekaman Kualitas Data
data yang diakibatkan oleh program Selain memiliki kelebihan dari sisi
data entri yang terpisah dengan kualitas data, CAPI juga memiliki
kuesioner pada PAPI dapat dihindari kelemahan yang dapat mempengaruhi
(Sainsbury et al. 1993). kualitas data. Apabila tedapat pertanyaan
Improved Speed yang memiliki validasi yang strict (harus
diisi) pada CAPI namun jawabannya tidak
Proses editing dokumen dan data diketahui oleh responden, hal tersebut akan
entry yang membutuhkan alokasi waktu membuat interviewer mengisikan jawaban
tersendiri pada metode PAPI tidak ditemui yang tidak sesuai agar dapat melanjutkan ke
pada penerapan CAPI. Penerapan CAPI pertanyaan selanjutnya.
juga memungkinkan untuk mengirimkan
data ke pusat data secara langsung pada saat Kesalahan Perekaman Data
pencacahan dilakukan sehingga Apabila terjadi kesalahan pencacah
pemrosesan data untuk tahapan selanjutnya dalam menginputkan data, sulit untuk
dapat segera dilakukan (Manners 1990). menelusuri nilai yang benar untuk
Lower Cost memperbaikinya karena dokumen
(kuesioner kertas) tidak tersedia.
Penghematan biaya pada CAPI dapat
dicapai dengan 3 hal (Manners 1990). 3. Issue pada Penerapan CAPI
Pertama, tidak membutuhkan server dan Dalam perkembangannya, dengan
mainframe dalam jumlah yang banyak model dan kebutuhan survey yang beragam,
untuk mendukung infrastruktur pengentrian terdapat berbagai issue pada penerapan
data. Kedua, biaya yang diperlukan untuk CAPI untuk melakukan pengumpulan data
proses editing dokumen dan pengentrian (Matheson, 1991). Issue tersebut
data dapat dihindari. Ketiga, kuesioer yang merupakan hal yang perlu dipertimbangkan
dikonversi ke dalam sistem komputer dapat ketika akan mengimplementasikan CAPI.
diakses dan digunakan langsung dengan
mudah oleh interviewer sehingga Concurrent Interviewing
mengurangi jumlah tenaga spesialis Pada kasus jumlah anggota rumah
komputer dan programmer (Manners 1990). tangga yang akan dicacah cukup banyak,
pencacah memiliki alternatif dengan
Disamping kelebihan tersebut, CAPI membacakan pertanyaan cukup sekali dan
juga memiliki kelemahan-kelemahan yang dijawab bergantian oleh para responden.
secara umum dapat dijelaskan sebagai Perlu alternatif untuk melakukan hal yang
berikut (Matheson 1991). sama pada CAPI.
Biaya Setup Flexibility
Diperlukan biaya yang besar untuk Pencacah terkadang harus kembali ke
investasi awal pada CAPI, khususnya untuk pertanyaan atau blok (kelompok
pengadaan infrastruktur. pertanyaan) sebelumnya untuk mengisi
Keterbatasan Device dan Kompleksitas menanyakan kembali pertanyaan yang
terlewatkan. Desain CAPI yang
Keterbatasan device, misalnya dari menampilkan pertanyaan satu per satu
segi ukuran, yang digunakan pada CAPI secara sequensial dapat menyulitkan
secara langsung juga memberikan dampak melakukan hal ini. Oleh karena itu, desain
keterbatasan pada metode CAPI itu sendiri. yang baik perlu mengantisipasi hal ini.
12 |
Data Quality interviewer pada CAPI sebagai berikut
(Couper and Geraldine Burt 1989).
Automatic routing (mengarahkan
1. Drop-out Rates, yaitu mencatat jumlah
pertanyaan secara otomatis) merupakan
kasus di mana interviewer secara
salah satu fitur CAPI untuk meningkatkan
sepihak memutuskan berhenti untuk
kualitas data. Namun, fitur ini juga dapat
melakukan pencacahan. Indikator ini
berdampak negatif. Misalnya ketika
bertujuan untuk melihat sikap
pencacah salah melakukan input, maka
interviewer dalam menghadapi
akan diarahkan ke pertanyaan yang salah
teknologi terkomputerisasi.
pula. Penggunaan fitur ini perlu
2. Data Quality Indicators, yaitu jumlah
memperhatikan kasus tersebut yang
non-response dan penolakan oleh
mungkin terjadi.
responden terhadap interviewer.
Diary Processing 3. Self-reports of difficulties with CAPI,
Perlu dipertimbangkan untuk yaitu berdasarkan laporan kesulitan
disediakan catatan tersendiri pada saat yang dihadapi oleh interviewer dalam
pencacahan dengan CAPI yang terpisah menggunakan CAPI. Kesulitan dapat
dengan kuesioner untuk mencatat hal-hal berupa aspek hardware, software,
yang tidak dapat ditangani dengan mudah penanganan kasus khusus, dan jaringan
oleh CAPI. komunikasi.
Respondent/Interviewer Acceptability 5. Durasi Interview pada CAPI dan PAPI

Perlu diteliti lebih lanjut apakah Durasi interview merupakan salah
responden bersedia datanya, termasuk data satu pertimbangan penting untuk
pribadi dan sensitif, dientrikan langsung ke menerapkan CAPI. Beberapa penelitian
sistem komputer. Kesediaan dan telah dilakukan untuk membandingkan
kemampuan pencacah untuk menggunakan durasi interview pada metode PAPI dan
device pendukung CAPI juga harus menjadi CAPI. Penelitan-penelitian tersebut
pertimbangan. memberikan hasil yang berbeda-beda.
Beberapa diantara memberikan hasil bahwa
Timetable PAPI memiliki durasi yang lebih lama
Susunan jadwal kegiatan (Baker, 1992; Baker et al, 1994; Lynn and
sensus/survey juga perlu didesain Purdon, 1994), dan ada pula yang
sedemikian rupa menyesuaikan dengan memberikan hasil yang sebaliknya (Martin
CAPI. Sistem komputer mengharuskan and collegues, 1993; Muller and
jadwal yang pasti dan setiap tahapan harus Kesselmann, 1996). Hasil yag
dijabarkan dengan detail. komprehensif ditunjukkan pada penelitian
Fuch (Fuchs, Couper, and Hansen 2000)
4. Indikator Kinerja Interviewer pada dengan mengidentifikasi faktor-faktor yang
CAPI mempengaruhi durasi interview pada
Pada PAPI, pengukuran kinerja metode PAPI dan CAPI. Terdapat 4 poin
interviewer dapat berupa variabel response penting yang menyebabkan perbedaan
rates, accuracy rates, dan production rates durasi interview antara PAPI dan CAPI
(Couper and Geraldine Burt 1989). Namun, (Fuchs et al. 2000), yaitu:
CAPI membutuhkan indikator yang berda Loop Design
untuk mengukur kinerja interviewer karena
beberapa indikator yang dipengaruhi oleh Loop design pada umumnya
keterbatasan interviewer dapat ditangani diterapkan pada CAPI di mana responden
oleh sistem komputer. Couper dan diinterview satu per satu. Tiap responden
Geraldine merupakan peneliti yang harus menyelesaikan sebuah kuesioner
pertamakali mengusulkan 3 indikator yang sebelum menanyakan pertanyaan ke
dapat digunakan untuk mengukur kinerja responden lainnya. Hal yang berbeda bisa
dilakukan pada PAPI untuk rumah tangga
13
yang memiliki banyak jumlah anggota yaitu faktor teknologi/program, kehadiran
rumah tangga di mana setiap anggota rumah (presence) perangkat komputer, dan efek
tangga diinterview secara bersamaan. Loop penggunaan CAPI terhadap situasi pada
design berkaitan degan concurrent saat interview seperti pada Error!
interviewing pada pembahasan Reference source not found..
sebelumnya.
7. Spesifikasi Teknis Software dan
Character Input and Banked Screens Hardware CAPI
Proses input data pada CAPI CAPI merupakan penerapaan
mengharuskan interviewer mengentrikan teknologi komputer untuk memudahkan
data sesuai dengan logic kuesioner CAPI. proses pengumpulan data pada
Hal ini berbeda dengan PAPI yang Survei/Sensus. Oleh karena itu, spesifikasi
memungkinkan interviewer lebih bebas teknis, seperti ukuran dan berat perangkat,
menuliskan data. Misalnya dalam kasus jenis dan mekanisme pengentrian data,
interviewer diharuskan menginputkan nama ketahanan baterai, jenis dna resolusi
depan (first name) dan nama belakang (last monitor, serta pemilihan software yang
name) pada CAPI yang membutuhkan digunakan perlu ditentukan dengan tepat.
waktu bagi interviewer untuk menentukan Berikut adalah beberapa penelitian terkait
kedua fields tersebut. yang mengusulkan spesifikasi teknis untuk
penerapan CAPI (Caviglia-harris et al.
Automated Calculations and Fills
2012).
Salah satu kelebihan CAPI adalah, 1. Couper and Groves (1992)
interviewer dapat melakukan perhitungan menyimpulkan bahwa berat hardware
yang rumit dengan memanfaatkan device yang digunakan merupakan faktor
yang dibawa secara otomatis, misalnya terpenting bagi interviewer. Dari
menghitung umur berdasarkan tanggal lahir pengujian menggunakan beberapa jenis
yang diperoleh. komputer, mereka menemukan bahwa
“Real” Comparison ukuran berat yang nyaman untuk
dibawa adalah 7-8 pounds (kurang
Interviewer terkadang membacakan lebih 3-4 kilogram), sedangkan untuk
list/daftar anggota rumah tangga untuk pencacahan dengan keadaan berdiri
meakukan konfirmasi dan memastikan hanya seberat 3 pounds (kurang lebih
tidak ada anggota rumah tangga yang tidak 1,4 kilogram).
tercatat. Hal ini juga mempengaruhi 2. Studi lain (Baker et al, 1995)
perbedaan durasi waktu interview antara menyebutkan bahwa kesulitan
PAPI dan CAPI. menginput data pada desain CAPI yang
6. Kualitas Data hanya menyertakan satu atau sedikit
pertanyaan dalam satu kali tampilan di
Diperlukan dasar yang kuat untuk monitor, dan kesulitan membaca
megukur kualitas data yang dihasilkan pada monitor di perangkat pada kondisi
CAPI. Ukuran yang digunakan sebisa pencahayaan yang tidak baik
mungkin tidak dipengaruhi oleh faktor merupakan 2 faktor yang menyebabkan
diluar pengaruh penggunaan CAPI itu durasi interview dengan CAPI lebih
sendiri. Model yang dikembangkan De lama daripada PAPI.
Leeuw (De Leeuw, 1992) mengenai efek 3. Penelitian lain meghasilkan CAPI
pengumpulan data terhadap kualitas data memberikan durasi interview yang
merupakan model yang banyak drujuk lebih cepat dibandingkan dengan PAPI
untuk mengukur kualitas data yang ketika interface dan desain survey
dihasilkan dengan menerapkan CAPI. ditetapkan dengan baik. Hal tersebut
Dalam peneitian yang lain meliputi automatic skip, perhitungan
(Sainsbury, Ditch, and Hutton 1995) yang aritmatika, dan desain survey yang
membahasa model De Leeuw, dinyatakan kompleks (Couper 2000).
pula bahwa terdapat 3 faktor pada CAPI,
14 |
Gambar 1. De Leeuw's Conceptual Model of Data Collection Effects on Data Quality
(Randolph et al. 2006)
4. PDA (Personal Digital Assistance) melakukan pengumpulan data dengan

merupakan device yang paling sering CAPI, diperlukan pengukuran kepuasan
dipilih untuk CAPI karena pengguna terhadap desain CAPI yang
peprtimbangan berat, ukuran, dan biaya dibuat. Terdapat berbagai metode yang
(Bernabe-Ortiz et al. 2008). dapat digunakan untuk melakukan
5. Untuk survey dengan desain yang pengukuran tersebut. Salah satu tools yang
kompleks, ukuran layar yang lebih sudah mature dan banyak digunakan adalah
besar (laptop) memberikan keuntungan QUIS (Questionnaire for User Interaction
yang signifikan dibadingkan dengan Satisfaction) (Slaughter, Harper, and
PDA (Childs and Landreth 2006). Norman 1994). QUIS digunakan untuk
assessment kepuasan pengguna secara
Berdasarkan hasil penelusuran subjektif dengan aspek yang spesifik, yakni
penulis terhadap sejumlah aplikasi CAPI dari segi antar-muka (interface).
yang tersedia baik secara gratis maupun
9. Kerangka Pikir
komersial, diperoleh sejumlah produk yang
telah populer dan banyak digunakan oleh Dalam mengkaji penerapan CAPI
berbagai kalangan, baik organisasi swasta, pada survey, sejumlah aspek yang
pemerintah, maupun peneliti. Diantaranya berpengaruh menjadi perhatian dalam
adalah BLAISE yang di-develop oleh penelitian ini. Kerangka pikir yang menjadi
Statistics Netherland, CSPro yang di- acuan dalam penelitian ini dapat dilihat
develop oleh United States Census Bureau, pada Gambar 2 berikut.
Survey Solutions yang di-develop oleh Untuk melihat aspek yang perlu
World Bank, OpenDataKit oleh University diperhatikan dalam melakukan transisi dari
of Washington's Department of Computer survey berbasis PAPI ke CAPI, dilakukan
Science and Engineering, dan studi literatur dengan tema sumber literatur
KoBoToolbox oleh Harvard Humanitarian berupa kajian dan hasil penerapan CAPI
Initiative. OpenDataKit dan KoBoToolbox dari berbagai negara, perusahaan, dan NSO
bersifat opensource, CSPro bersifat (National Statistics Office) dalam kurun
freeware, sedangkan software lainnya waktu 15 tahun terakhir. Dari studi literatur
memiliki model lisensi komersil yang diperoleh sejumlah variabel yang dapat
beragam. dikategorikan menjadi 3 jenis, yakni
performance, data quality, dan usability.
8. Usablity Ketiga variabel tersebut kemudian menjadi
Untuk melihat tingkat kegunaan dan acuan untuk melakukan evaluasi pada pilot
kenyamanan pengguna (interviewer) dalam study yang dilakukan melalui kegiatan PKL
15
Gambar 2. Kerangka Pikir Penelitian
54 dan 55 STIS. Data yang dihasilkan dari sampel, sedangkan pada PKL 55 sebanyak
evaluasi diolah dengan analisis deskriptif 3.406 responden atau 60 persen dari jumlah
dan Technology Acceptance Model (TAM) sampel.
untuk menghasilkan rekomendasi, Perangkat pendukung pencacahan
khususnya untuk BPS, dalam CAPI berupa tablet/smartphone berbasis
mengimplementasikan CAPI. Analisis Android® yang disesuaikan dengan
dengan TAM diluar pembahasan paper ini. kebutuhan aplikasi untuk pencacahan.
Setiap tim pencacah menerima empat buah
METODOLOGI tablet, tiga tablet digunakan oleh Petugas
1. Objek dan Metode Penelitian Cacah Lapangan (PCL) dan satu tablet
untuk koordinator tim yang berfungsi
Penelitian ini merupakan pilot study sebagai perangkat cadangan dan perangkat
dengan objek studi kasus Praktik Kerja pendukung monitoring.
Lapangan (PKL) Angkatan 54 dan 55 Pada PKL 54, aplikasi CAPI yang
Sekolah Tinggi Ilmu Statistik. PKL 54 dan digunakan masih bersifat statis, yaitu
55 STIS menggunakan 2 metode aplikasi didesain untuk tujuan survey yang
pencacahan yaitu pencacahan spesifik pada PKL tersebut saja, sehingga
menggunakan kuesioner kertas (PAPI) dan untuk diterapkan pada survey lain atau PKL
menggunakan kuesioner elektronik (CAPI). selanjutnya harus dilakukan perubahan
Pada PKL 54 jumlah interviewer yang kode program secara menyeluruh
menggunakan CAPI sebanyak 108 orang (hardcode). CAPI yang digunakan pada
atau 26,21 persen dari jumlah interviewer PKL 55 telah mengadopsi sistem kuesioner
pada PKL 54, sedangkan pada PKL 55 dinamis, daimana aplikasi dikembangkan
sebanyak 228 orang atau 49 persen dari berbasis software opensorce OpenDataKit.
jumlah interviewer pada PKL 55. Adapun Dengan demikian, perubahan kuesioner
jumlah sampel yang dicacah dengan CAPI dapat dilakukan dengan cepat tanpa harus
pada PKL 54 adalah sebanyak 1.755 mengubah kode sumber dari aplikasi CAPI.
responden atau 21,49 persen dari jumlah Selain itu, inovasi berupa proses listing
16 |
berbasis CAPI juga diterapkan pada PKL 55 inkonsistensi/kesalahan konsep dan
dengan mengembangkan modul listing pada definisi, nilai tidak valid, kesalahan entri,
aplikasi CAPI. Frame hasil listing serta missing value, dengan penyesuaian
kemudian akan menghasilkan sampel terhadap kondisi studi kasus. Penilaian
responden terpilih secara otomatis dengan terhadap variabel-variabel tersebut
menambahkan fitur penarikan sampel mengasumsikan bahwa faktor penyebab
otomatis pada sisi server. Sampel yang selain akibat implementasi CAPI diabaikan.
terpilih akan didistribusikan ke device Oleh karena itu, dalam merepresentasikan
pencacah berupa kuesioner elektronik yang hasil penelitian, perlu memahami asumsi
siap digunakan untuk mencacah responden. tersebut.
2. Variabel yang Diteliti Usability
Terdapat sejumlah variabel yang Variabel yang digunakan dalam
mempengaruhi kualitas CAPI untuk pengkuran ini berkaitan dengan kemudahan
diterapkan sebagai tools pengumpulan data. pengguna dalam menggunakan sistem
Pada penelitian ini, penulis mengategorikan CAPI untuk pengumpulan data. Aspek user
variabel-variabel yang diteliti menjadi 3 interface (UI) dan user experience (UX)
kategori, yakni performance, data quality, sangat menentukan pada usability.
dan usability. Komponen-komponen visual yang
disajikan oleh aplikasi CAPI, seperti
Performance
kesesuaian dan konsistensi tombol, tulisan,
Dalam dunia teknologi informasi, dan warna, merupakan hal yang dinilai pada
performance memiliki cakupan yang luas. aspek UI, sedangkan aspek UX berkaitan
Namun, untuk memudahkan analisis dan dengan kesan atau hal yang dirasakan oleh
pendalaman masalah, penulis menetapkan pengguna secara emosional dalam
beberapa variabel yang termasuk dalam berinteraksi dengan aplikasi CAPI, seperti
kategori performance yang diperoleh dari reaksi, antusiasme, serta ketertarikan dalam
studi literatur dengan penyesuaian terhadap menggunakan aplikasi CAPI.
kondisi studi kasus, yaitu durasi pencacahan
hingga raw data siap untuk dianalisis, 3. Pengumpulan Data
keluhan/laporan kerusakan, serta kinerja Data mengenai CAPI yang
sistem yang meliputi software dan dibutuhkan untuk analisis dikumpulkan
hardware, baik pada sisi client, maupun dengan tiga jenis pendekatan. Pertama, data
server. empiris mengenai durasi pengisian
kuesioner diperoleh dari log (catatan)
Data Quality
khusus yang di-generate oleh aplikasi
Ukuran kualitas data mengacu pada CAPI. Kedua, data mengenai jumlah non-
hal-hal yang menyebabkan data yang response, total responden yang dicacah,
dikumpulkan tidak valid atau memiliki serta kesalahan pemasukan/entri data
anomali sehingga tidak merepresentasikan diperoleh dari raw data yang dihaslkan oleh
kenyataan sebenarnya. Untuk mengukur aplikasi CAPI. Data mengenai persepsi
kualitas data yang bersifat laten/abstrak pengguna (interviewer) dikumpulkan
secara lengkap perlu memperhatikan dengan cara melakukan pencacahan
berbagai aspek, sehingga tidak mudah lengkap (sensus) kepada pengguna CAPI
untuk menarik kesimpulan absolut (self enumeration), baik mengenai laporan
mengenai kualitas data. Untuk itu, perlu kerusakan dan komplain, maupun kepuasan
dibatasi variabel yang akan dipantau yang terhadap user interface dan user experience
dapat dijadikan representasi terbaik untuk (QUIS). Sedangkan data yang berkaitan
mewakili kualitas data. Pada penelitian ini, dengan PAPI diperoleh dengan pencatatan
kualitas data diwakili oleh beberapa manual, baik berupa durasi pencacahan,
variable yang telah diterapkan pada CAPI durasi batching document, serta durasi
oleh peneliti sebelumnya, yaitu pengentrian data.
17
Waktu pengumpulan data bervariasi sedangkan dengan menggunakan CAPI
sesuai dengan data yang dikumpulkan. Data adalah 1531,229 detik. Adapun waktu yang
mengenai kerusakan dan komplain petugas diperlukan mulai dari pencacahan lapangan
pencacahan dilaporkan setiap hari setelah hingga menghasilkan raw data yang siap
melakukan kegiatan pencacahan di disajikan/ditabulasikan untuk keperluan
lapangan. Pada tahapan batching, editing, analisis ditunjukkan pada Error!
dan coding kuesioner, serta pengentrian Reference source not found. berikut.
data juga dilakukan pencatatan. Statistik Statistik diatas menunjukkan bahwa
dari raw data yang dihasilkan pada saat CAPI memberikan dampak yang efek yang
tabulasi juga dikumpulkan untuk melihat signifikan terhadap durasi survey,
kualitas data. Pengukuran QUIS dilakukan khususnya pada pencacahan dan
dengan menyebarkan kuesioner online pengolahan data. Efek terbesar terdapat
setelah seluruh kegiatan pencacaan di pada proses Batching, Editing, dan Coding
lapangan selesai dilaksanakan. (BEC), di mana CAPI dapat menghemat
Pertanyaan yang harus dijawab oleh waktu selama 16 hari. Hal ini memberikan
interviewer pada QUIS terdiri dari 7 dampak positif dari segi durasi pelaksanaan
kategori, yaitu: survey, namun dapat memberikan dampak
1. Tanggapan umum terhadap kinerja negative terhadap kualitas isian kuesioner
sistem CAPI karena proses BEC tidak dilakukan pada
2. Tampilan Layar Monitor CAPI.
3. Penggunaan Istilah dan Informasi pada Koordinator tim (kortim) memimpin
Aplikasi 2 hingga 3 orang interviewer dalam
4. Kemudahan Mempelajari Aplikasi kegiatan pengumpulan data survey.
5. Kinerja Sistem Konfirmasi ke kortim bertujuan untuk
6. Panduan Penggunaan memeriksa kepastian isian kuesioner yang
7. Saran Terkait Hardware dan Software tidak valid, anomali, atau terdapat
Petanyaan untuk kategori 1 sampai kuesioner yang belum terkirim ke server.
dengan 6 berbentuk skala likert dengan nilai Proses tersebut ditindaklanjuti dengan
berupa 1 (respon negatif) hingga 9 (respon database cleaning untuk memperbaiki data
positif). Skala likert merupakan skala yang yang terkoreksi. Total waktu 5 hari untuk
digunakan untuk mengukur sikap, kedua proses tersebut dapat mengganggu
pendapat, dan persepsi seseorang. kualitas CAPI, di mana data sedapat
mungkin dikoreksi pada saat pencacahan
4. Metode Analisis
berlangsung atau dalam rentang waktu yang
Data yang dikumpulkan dari berbagai seminimal mungkin dengan pencacahan.
sumber diolah, divalidasi, dan disajikan Pada PKL 55 diterapkan mekanisme
secara deskriptif untuk menggambarkan notifikasi di mana setiap pencacah akan
kondisi variabel yang diteliti. Penyajian menerima pesan untuk memeriksa data
dititik beratkan pada niai-nilai yang yang anomali. Pesan tersebut dibuat oleh
membutuhkan perhatian atau berbeda dari Kortim dan dikirimkan ke pencacah yang
nilai rata-rata, misalnya hal-hal yang bersangkutan secara real time (near real
mengurangi performa dan kualitas data time) dengan meggunakan fasilitas yang
pada penerapan CAPI. disediakan oleh sistem CAPI. Dengan
demikian, masalah terkait konfirmasi
HASIL DAN PEMBAHASAN anomali data dapat terselesaikan dalam
1. Performance rentang waktu yang kecil dari proses
interview.
Dari proses pencatatan durasi Laporan kerusakan/keluhan dari
interview, baik pada PAPI maupun CAPI interviewer terkait performa sistem CAPI
diperoleh hasil rata-rata durasi interview yang tercatat pada PKL 54 untuk
setiap responden dengan menggunakan permasalahan software diantaranya adalah
PAPI pada PKL 54 adalah 1819,749 detik, masih seringnya terjadi error dan isian Blok
18 |
Tabel 1. Waktu yang diperlukan dari proses pencacahan hingga
siap ditabulasikan pada PKL 54
Rincian CAPI PAPI
Waktu pencacahan 7 hari 7 hari
Batching, Editing, Coding - 16 hari
Entri Data - 3 hari
Konfirmasi ke koordinator tim 3 hari -
Database cleaning 2 hari -
Total Waktu 12 hari 26 hari
I, yang merupakan kelompok isian identitas masif secara kuantitas terhadap pelaksanaan
responden, yang tidak dapat diedit. Error CAPI.
yang terjadi berupa infinite loop dan force Selain mencatat permasalahan yang
close. Sedangkan untuk permasalahan timbul, saran terkait hardware dari
hardware, terdapat sejumlah laporan terkait interviewer juga dicatat yang disajikan pada
gangguan tablet PC yang tidak terdeteksi Error! Reference source not found.
penyebabnya yang menyebabkan tablet PC berikut ini.
tersebut tidak dapat bekerja secara normal. Dari hasil tersebut, sebanyak 77
Gangguan seperti ini kemungkinan interviewer, atau 69,4%, menyatakan
diakibatkan oleh sistem operasi, atau bahwa ukuran layar tablet yang digunakan,
perangkat keras yang mengalami kegagalan yakni 10.1 inch, sudah sesuai, dan 19.8%
fungsi. Permasalahan lain yang dilaporkan menyatakan ukuran layar perlu diperkecil
adalah kurang sensitifnya touch screen namun tidak sampai diperkecil dua kali
hardware yang digunakan yang lipat. Berdasarkan hasil tersebut, untuk
menyulitkan interviewer mengentrikan pelaksanaan survey sejenis, di mana rata-
jawaban responden. rata interviewer melakukan pencacahan
Pada PKL 55, terdapat 25 kasus dalam keadaan duduk, ukuran layar tersebut
pengiriman kuesioner yang mengalami masih memadai atau dapat diperkecil lagi
software crash (force close) yang menjadi sekitar 8 inch (ukuran layar
menyebabkan kuesioner gagal terkirim, standard smartphone yang tersedia di
atau sekitar 0,51% dari total kuesioner yang pasaran). Pada aspek berat smartphone,
dicacah dengan CAPI. Kegagalan sebagian besar interviewer merasa
pengiriman kuesioner yang diakibatkan smartphone, yakni 560 gram, terlalu berat
oleh jaringan internet sebanyak 42 kasus untuk dibawa sehingga perlu dikurangi.
atau sekitar 0,86%, sedangkan kegagalan Dari segi ketahanan baterai diperlukan
akibat error pada sisi server sebanyak 24 penambahan kapasitas sebesar lebih dari
kasus, atau sekitar 0,5%. Kasus tidak dua kali lipat dari kapasitas tablet PC yang
terdapatnya jaringan internet dapat diatasi digunakan pada PKL 54 dan 55, yaitu 3170
dengan penyimpanan offline yang mAh dengan daya tahan 11 hingga 12 jam
disediakan oleh aplikasi CAPI untuk untuk pemakaian normal.
kemudian dikirimkan ke server apabila Saran terkait software pada umumnya
sudah terkoneksi ke internet/server. terkait dengan tampilan yang akan dibahas
Sedangkan untuk kasus kegagalan akibat pada sub bab usability. Namun, untuk
error pada sisi server pada PKL 55 menghindari kegagalan software yang
merupakan masalah yang diakibatkan oleh diakibatkan oleh sistem operasi, penulis
adanya perbaikan infrastruktur server yang menyarankan agar sistem operasi diupgrade
digunakan pada saat pencacahan sedang ke versi tebaru yang didukung oleh
berlangsung. Server CAPI yang digunakan hardware yang akan digunakan, dan perlu
di-hosting pada kampus STIS. Dari hasil dilakukan instalasi ulang untuk seluruh
tersebut, terlihat bahwa masalah yang device agar environment sistem operasi
timbul tidak memberikan dampak yang yang digunakan seragam.
19
Gambar 3. Hasil survey persepsi interviewer PKL 54 terkait hardware
untuk dibawa sehingga perlu dikurangi.

Dari segi ketahanan baterai diperlukan
penambahan kapasitas sebesar lebih dari
Dari hasil tersebut, sebanyak 77 dua kali lipat dari kapasitas tablet PC yang
interviewer, atau 69,4%, menyatakan digunakan pada PKL 54 dan 55, yaitu 3170
bahwa ukuran layar tablet yang digunakan, mAh dengan daya tahan 11 hingga 12 jam
yakni 10.1 inch, sudah sesuai, dan 19.8% untuk pemakaian normal.
menyatakan ukuran layar perlu diperkecil Saran terkait software pada umumnya
namun tidak sampai diperkecil dua kali terkait dengan tampilan yang akan dibahas
lipat. Berdasarkan hasil tersebut, untuk pada sub bab usability. Namun, untuk
pelaksanaan survey sejenis, di mana rata- menghindari kegagalan software yang
rata interviewer melakukan pencacahan diakibatkan oleh sistem operasi, penulis
dalam keadaan duduk, ukuran layar tersebut menyarankan agar sistem operasi diupgrade
masih memadai atau dapat diperkecil lagi ke versi tebaru yang didukung oleh
menjadi sekitar 8 inch (ukuran layar hardware yang akan digunakan, dan perlu
standard smartphone yang tersedia di dilakukan instalasi ulang untuk seluruh
pasaran). Pada aspek berat smartphone, device agar environment sistem operasi
sebagian besar interviewer merasa yang digunakan seragam.
smartphone, yakni 560 gram, terlalu berat
20 |
2. Data Quality selama masa pengumpulan data di
lapangan. Hal ini disebabkan oleh validasi
Hasil pemantauan variabel kualitas
rentang nilai yang telah ditanamkan pada
data pada PKL 54 menunjukkan pada CAPI
kuesioner yang mengakibatkan nilai diluar
terdapat 13 isian yang tidak konsisten atau
rentang tersebut tidak dapat diterima oleh
kesalahan konsep dan defininsi, sedangkan
aplikai CAPI. Hal ini diakibatkan oleh
pada PAPI terdapat 123 isian. Pada PKL 55
adanya kasus yang tidak terpantau pada saat
kasus yang serupa terjadi sebanyak 87 kasus
survey pendahuluan sehingga tidak
atau sekitar 5,1% dari total kuesioner yang
dihandle oleh desain dan validasi kuesioner.
dicacah dengan CAPI, sedangkan statistik
Pada pencacahan dengan PAPI, hal tersebut
kuesioner yang dicacah dengan PAPI masih
dapat teratasi dengan adanya proses editing,
dalam proses pengolahan ketika laporan
namun pada CAPI hal tersebut
penelitian ini dibuat. Kesalahan tersebut
mengakibatkan data tidak dapat diinputkan
dapat diakibatkan oleh banyak hal, seperti
ke kuesioner digital. Untuk mengatasi hal
kesalahan pemahaman konsep oleh
tersebut, perlu dibuat mekanisme untuk
pencacah, kesalahan entri, ataupun
menangkap nilai-nilai diluar rentang yang
kesalahan validasi data (routing) pada saat
telah ditetapkan, misalnya memungkinkan
mengisi kuesioner. Kesalahan yang dapat
untuk tetap mengisikan nilai diluar rentang
diminimalisir oleh CAPI adalah kesalahan
dengan memunculkan pesan/notifikasi.
entri, yang divalidasi langsung pada saat
Pendekatan ideal yang direkomendasikan
pencacahan di lapangan, dan kesalahan
penulis adalah dengan menerapkan sistem
routing di mana routing dilakukan secara
pelaporan berjenjang nilai yang anomali,
otomatis oleh aplikasi CAPI.
mulai dari pencacah, Kortim, Intruktur
Untuk lebih menekan jumlah
Daerah, Instruktur Nasional, hingga ke
kesalahan pada kasus inkonsistensi atau
subject matter yang diintegrasikan dengan
kesalahan konsep dan definisi, penulis
updating validasi kuesioner secara
merekomendasikan untuk menambahkan
broadcast. Namun, penerapan hal ini perlu
fitur e-learning yang memungkinkan
dirancang dengan baik, karena melibatkan
pencacah untuk mempelajari konsep dan
komunikasi data yang intens antara semua
definisi dengan mudah melalui aplikasi
pihak yang terlibat pada pelaksanaan
CAPI. Fitur dapat bersifat pasif, di mana
survey.
trigger dilakukan oleh interviewer, atau
bersifat pasif di mana aplikasi akan 3. Usability
memantau dan mempelajari isian yang Usability diukur dengan
dientrikan oleh interviewer. Questionnaire of User Interface
Kasus kesalahan pengentrian (wrong Satisfaction. (QUIS). Tanggapan Umum
key) data yang tercatat adalah sebanyak 34 yang diberikan oleh interviewer pada PKL
kasus pada kuesioner CAPI PKL 54. 54 berkisar antara 7 hingga 9 dari skala
Kesalahan pengentrian tersebut berupa likert 1 (negatif) hingga 9 (positif). Hal ini
kesalahan menginputkan Nomor Kode menunjukkan bahwa desain kuesioner
Sampel (NKS). Pada PKL 55, kesalahan dengan CAPI secara keseluruhan (overall)
tersbut dapat dihilangkan dengan sudah sesuai dengan yang diinginkan
menerapkan mekanisme yang berbeda, di interviewer. Error! Reference source not
mana pencacah tidak perlu menginputkan found. menunjukkan contoh salah satu
NKS, tetapi kuesioner yang sudah variable yang dinilai pada Tanggapan
dilengkapi dengan NKS dan biodata Umum. Hasil selengkapnya dapat dilihat
responden akan secara otomatis di-set oleh pada Lampiran 2.
sistem CAPI kepada perangkat masing- Pada bagian Tampilan Layar Monitor
masing interviewer sesuai dengan sampel hasil QIUS, terdapat 3 hal yang
yang akan dicacah. membutuhkan perbaikan tampilan, yaitu:
Pada PKL 55, terdapat 39 kuesioner 1. Penggunaan highlighting, yakni
atau sekitar 2,23% yang mengalami kasus Penggunaan warna, ukuran, ketebalan
missing value setelah interview dilakukan
21
Gambar 4. Hasil survey kemudahan penggunaan CAPI PKL 54
Gambar 5. Penilaian interviewer PKL 54 terhadap informasi yang ditampilkan

aplikasi CAPI pada layar monitor
(bold), dan semacamnya yang bersifat menghasilkan user experience yang lebih
khusus untuk menandai informasi baik terhadap aplikasi CAPI. Karena
penting, keterbatasan jumlah halaman, statistik
2. Perlunya kemudahan navigasi kembali pendukung pembahasan di atas tidak
ke tampilan sebelumnya, dan disertakan dalam tulisan ini.
3. Tampilan progress penyelesaian Keluhan yang juga diutarakan oleh
pekerjaan, yakni Tampilan berapa interviewer adalah fitur auto correct dan
bagian (persen) isian yang sudah dan auto complete yang mengakibatkan tulisan
belum diselesaikan pada aplikasi. yang diinput pencacah diubah secara
Proses yang membutuhkan waktu otomatis oleh sistem sehingga tidak sesuai
tunggu yang lama, seperti upload/download dengan yang diharapkan. Fitur tersebut
kuesioner perlu dilengkapi dengan progress perlu di-non-aktifkan atau menggunakan
bar. Selain itu, interviewer juga merasa field input yang tidak terpangaruh oleh auto
khawatir untuk mengeskplorasi sendiri complete. Informasi yang tercakup pada
fitur-fitur yang ada padi CAPI dengan panduan pengguna juga perlu dibuat lebih
mekanisme trial and error. Hal ini informatif agar mudah dipahami secara
dikarenakan tidak terdapatnya halaman cepat oleh interviewer. Informasi yang
simulasi dan fitur undo/redo. Untuk itu, ditampilkan pada aplikasi CAPI perlu
pada pengembangan CAPI perlu dibedakan dengan buku panduan yang
ditambahkan fitur tersebut untuk digunakan saat pelatihan dengan
22 |
mempertimbangkan efisiensi dan merupakan hambatan yang mengganggu
keterbatasan ukuran layar hardware. performa dan dapat menurunkan kualitas
Keterbatasan dimensi layar monitor data yang dihasilkan dengan CAPI.
pada CAPI membuat desain kuesioner perlu Desain antarmuka pada CAPI yang
disesuaikan sehingga informasi yang tampil dikembangkan oleh STIS secara umum
pada layar monitor dapat terbaca dengan mendapat tanggapan positif dari interviewer
jelas oleh interviewer. Error! Reference yang menggunakan. Adapun beberapa hal
source not found. menunjukkan hasil yang menjadi masukan untuk meningkatkan
QUIS untuk penilaian interviewer terhadap usability dari CAPI STIS, diantara adalah
informasi yang ditampilkan aplikasi CAPI penambahan fasilitas undo/redo serta
pada layar monitor. simulasi aksi yang akan dilakukan pada
Berdasarkan hasil tersebut, ukuran aplikasi, dan menghindari pengaruh fitur
huruf dan jumlah informasi yang auto complete dan auto correct pada saat
ditampilkan pada satu tampilan layar pengentrian isian kuesioner CAPI.
monitor sudah sesuai sehingga bisa terbaca Secara garis besar, desain CAPI yang
dengan jealas oleh interviewer. Adapun diterapkan dan telah diujicoba pada pilot
ukuran huruf yang digunakan berkisar study, dengan jumlah sampel yang cukup
antara 12 hingga 14 point (pt) dan jumlah representatif untuk menguji sistem CAPI,
pertanyaan pada satu kali tampilan berkisar telah siap untuk digunakan dalam survey
antara 4 hingga 7 pertanyaan. skala besar. Pengaruh negative CAPI
terhadap variabel-variabel yang diteliti
KESIMPULAN DAN SARAN tidak signifikan dibandingkan dengan
1. Kesimpulan pengaruh positif yang diberikan
dibandingkan dengan PAPI yang selama ini
Berdasarkan studi literatur yang diterapkan.
dilakukan pada penelitian ini, yakni
mengenai implementasi CAPI di berbagai 2. Saran
negara selama 15 tahun terakhir, terdapat 3 Penelitian ini telah menghasilkan
kelompok variabel yang dapat digunakan sejumlah instrument untuk mengukur
sebagai ukuran keberhasilan penerapan kinerja CAPI dari berbagai aspek. Namun,
CAPI pada kegiatan pengumpulan data, pada penelitian ini masih terdapat beberapa
yakni system performance, data quality, keterbatasan, baik dari segi persiapan
dan usability. Hasil dari pilot study yang pencatatan data yang dibutuhkan, maupun
dilakukan, yakni pada PKL 54 dan 55, jumlah variabel yang diamati. Oleh karena
menunjukkan bahwa CAPI dapat itu, selain mempelajari hasil pengolahan
memberikan performa yang lebih baik data dan analisis dari penelitian ini, hasil
dibandingkan dengan PAPI, khususnya studi literatur pada penelitian ini sebaiknya
dalam hal durasi proses pencacahan hingga dimanfaatkan pembaca sebagai referensi
pengolahan data. Sistem notifikasi hal-hal yang perlu diperhatikan pada
berjenjang antara Kortim dan pencacah penerapan CAPI. Demikian pula untuk
dapat membantu Kortim memonitor penelitian selanjutnya agar dapat meneliti
kesalahan isian oleh pencacah sehingga variabel yang lebih lengkap seperti yang
mengoptimalkan peran Kortim. dipaparkan penulis pada bab studi literatur.
Dari segi kualitas data, penggunaan Penelitian dan beberapa penelitian
CAPI dapat memberikan validasi data yang sebelumnya masih menghasilkan beberapa
lebih baik dengan pengetrian dan validasi issue terkait penerapan CAPI serta masih
data melalui aplikasi di lapangan dan terdapatnya kelemahan pada PAPI yang
adanya fitur automatic routing yang belum teratasi, misalnya untuk kasus
meminimalisir inkonsistensi isian kesalahan konsep oleh pencacah yang
kuesioner. Namun, kendala kesulitan menyebabkan kesalahan isian. Hal tersebut
mengentri data pada device yang memiliki memiliki dampak negatif pada CAPI karena
alat input yang kurang ergonomis akan menghasilkan routing yang salah dan
23
tidak adanya bukti tertulis/analog sebagai Survey Information Collection.”
backup. Tentu hal tersebut perlu diteliti (April).
lebih lanjut untuk menemukan solusinya. Caviglia-harris, Jill et al. 2012. “Improving
Kasus terdapatnya nilai diluar rentang Household Surveys Through
validasi juga merupakan contoh lain yang Computer-Assisted Data Collection:
perlu diperhatikan, misalnya dengan Use of Touch-Screen Laptops in
menerapkan sistem pelaporan dan updating Challenging Environments.”
range validasi berjenjang. Chalmers, Neil, and Joachim De Weerdt.
Meskipun penerapan sistem notifikasi 2010. “A Comparison of CAPI and
dari dan ke Kortim dapat menghasilkan PAPI through a Randomized Field
validasi yang berlapis pada CAPI, namun Experiment.” (November):1–56.
pada studi kasus PKL di STIS, beban Childs, J. H., & Landreth, A. (2006).
Kortim menjadi lebih berat karena memiliki Analyzing interviewer/respondent
tanggung jawab membackup pekerjaan interactions while using a mobile
pencacah. Sebaiknya pada PKL computer-assisted personal interview
selanjutnya, atau kegiatan survey yang device. Field methods, 18(3), 335-
menerapkan sistem ini, tanggungjawab 351.
Kortim sebagai backup dari pencacah perlu Couper, Mick P., and Geraldine Burt. 1989.
dihilangkan, dan digantikan dengan “THE IMPACT OF COMPUTER-
pencacah cadangan selain Kortim. ASSISTED PERSONAL
INTERVIEWING (CAPI) ON
DAFTAR PUSTAKA INTERVIEWER PERFORMANCE:
Baker, R.P. (1992): New Technology in THE CPS EXPERIENCE.” 189–93.
Survey Research: Computer-Assisted Couper, M.P. and Groves, R.M. (1992):
Personal Interviewing (CAPI). Social Interviewer reactions to alternative
Science Computer Review, 10, 145- hardware for computer-assisted
157. personal interviewing. Journal of
Baker, R.P., Bradburn, N., and Johnson, R. Official Sta- tistics, 8, 201-210.
(1994): CAPI: An Experimental Couper, M. P. (2000). Usability evaluation
Evaluation. In American Statistical of computer-assisted survey
Association (Ed.), Proceedings of the instruments. Social Science
Sec- tion on Survey Research Computer Review, 18(4), 384-396.
Methods, 851-855. De Leeuw, E. D. 1993. “Data Quality in
Baker, R. P., Bradburn, N. M., & Johnson, Mail, Telephone, and Face to Face
R. A. (1995). Computer-assisted surveys”.
personal interviewing: an Fuchs, Marek, Mick P. Couper, and Sue
experimental evaluation of data Ellen Hansen. 2000. “Technology
quality and cost. Journal of Official Effects : Interview Duration in CAPI
Statistics, 11(4), 413-431. and Paper and Pencil Surveys.”
Bernabe-Ortiz, A., Curioso, W. H., Lynn, P., & Purdon, S. (1994). Time-series
Gonzales, M. A., Evangelista, W., and lap-tops: the change to computer-
Castagnetto, J. M., Carcamo, C. P., ... assisted interviewing.
& Holmes, K. K. (2008). Handheld INTERNATIONAL SOCIAL
computers for self-administered ATTITUDES, 141-141.
sensitive data collection: a Manners, Tony. 1990. “THE
comparative study in Peru. BMC DEVELOPMENT OF COMPUTER
medical informatics and decision ASSISTED INTERVIEWING ( CAI
making, 8(1), 11. ) FOR HOUSEHOLD SURVEYS :
Bishop, Yvonne M., Warren L. Buckler, THE CASE OF THE BRITISH
Robert P. Parker, and Charles E. LABOUR FORCE SURVEY.”
Caudill. 1990. “Computer Assisted Martin, J. (1993, October). PAPI to CAPI:
the OPCS experience. In Essays on
24 |
Blaise 1993: Proceedings of the
Second International Blaise Users
Conference, Office of Population
Censuses and Surveys, London (pp.
96-117).
Matheson, Jil. 1991. “APPLICATION OF
COMPUTER ASSISTED
INTERVIEWING TO THE FAMILY
EXPENDITURE SURVEY.”
(February):1–48.
Müller, S., & Kesselmann, P. (1996).
Akzeptanz von computergestützten
Erhebungsverfahren. Ein empirischer
Vergleich mit der traditionellen
Fragebogentechnik. Marketing ZFP,
18(3), 191-202.
Randolph, Justus J., Marjo Virnes, Ilkka
Jormanainen, and Pasi J. Eronen.
2006. “The Effects of a Computer-
Assisted Interview Tool on Data
Quality.” 9:195–205.
Sainsbury, Roy, John Ditch, and Sandra
Hutton. 1993. “Computer Assisted
Personal Interviewing.” (3).
Sainsbury, Roy, John Ditch, and Sandra
Hutton. 1995. “The Effect of
Computer-Assisted Interviewing on
Data Quality: A Review.”
Shaw, Arthur, Lena Nguyen, and Ulrike
Nischan. 2011. “Comparative
Assessment of Software Programs for
the Development of Computer-
Assisted Personal Interview ( CAPI )
Applications.” (July).
Slaughter, Laura, Ben Harper, and Kent
Norman. 1994. “Assessing the
Equivalence of the Paper and On-Line
Formats of the QUIS 5 . 5.”
Wensing, Fred, Jane Barresi, David Finlay,
and Australian Bureau. 2003.
“Developing an Optimal Screen
Layout for CAI.” 63–76.
25
26 |
BERAS ATAU ROKOK?:
Beban Ekonomis Rumah Tangga Miskin di Indonesia 2014
Andri Yudhi Supriadi1, Aris Rusyiana2

Badan Pusat Statistik
e-mail: 1andri@bps.go.id
Abstrak
Fakta bahwa di beberapa negara berkembang, konsumsi rokok menimbulkan beban ekonomis yang
signifikan (Toukan, 2016; Block dan Webb, 2009). Juga, untuk konteks Indonesia kontemporer, Kepala
BPS mengatakan bahwa belanja rokok merupakan pengeluaran kedua terbesar dan memberikan
kontribusi nyata terhadap angka kemiskinan nasional. Namun, kajian kontemporer yang secara
komprehensif membahas beras dan rokok terhadap kemiskinan belum banyak dibahas. Celah penelitian
tersebut menjadi dasar bagi kami untuk melakukan kajian mengenai hubungan konsumsi beras dan
pengeluaran potensial rokok di antara rumah tangga miskin di Indonesia 2014. Untuk keperluan telaah
kajian penelitian ini, kami membagi kategori rumah tangga berdasarkan tempat tinggal
(perdesaan/perkotaan), rumah tangga dengan banyak anggota rumah tangga usia dewasa (di atas 15
tahun), dsb. Tujuan dari kajian ini adalah untuk menganalisa apakah rumah tangga miskin lebih memilih
mengurangi konsumsi beras dibanding mengurangi konsumsi rokok .Untuk kajian ini, kami
menggunakan Survei Sosial Ekonomi Nasional tahun 2014. Dengan menggunakan Model Regresi
Linier Berganda, kami menggunakan sampel rumah tangga yang memiliki anggota rumah tangga
dewasa yang merokok (NIndonesia = 285.371). Hasil penelitian kami menunjukkan bahwa rumah tangga
miskin yang memiliki anggota rumah tangga perokok secara rata-rata mengkonsumsi beras relatif lebih
sedikit dibandingkan rumah tangga yang tidak memiliki anggota rumah tangga perokok, baik yang
termasuk kategori miskin maupun tidak. Hal ini mengindikasikan bahwa rumah tangga miskin lebih
memprioritaskan konsumsi rokok dibandingkan konsumsi beras.
Kata kunci: Susenas, rumah tangga miskin, konsumsi rokok, regresi linier berganda
Abstract
Facts that in many developing countries, cigarettes consumption affects significantly toward economic
burden (for instances see Toukan, 2016; Block and Webb 2009). Also, for Indonesian recently context,
Chief of Statistics Indonesia says that cigarettes expenditure pose the second highest shared towards
the national poverty rate. However, the recently comprehensive Indonesia researches on rice and
cigarettes expenditure are still rare. Regarding those research gaps, we examine the linkage of rice
consumption expenditure and the potential cost of cigarettes expenditure among poor households in
Indonesia (includes the households characteristics: residency, social safety net receiver, adults smokers
among households, etc). The objectives of this study is to examine whether poor households prefer to
consume fewer rice rather than consuming fewer cigarettes. For this study, we use the National Social
Economic Survey of the 2014 year dataset. By applying the multiple linear regression analysis, we use
sample of adult smokers (N=285,371). Our results show that poor smoking-households relatively
consume rice less than the non-smoking-households categories on average. This may indicate that poor
households prioritize to consume more cigarettes rather than consuming rice.
Keywords: Susenas, poverty rate, cigarettes consumption, multiple linier regression
27
menunjukkan bahwa orang dewasa yang
PENDAHULUAN merokok di dalam kuantil orang-orang
Beban ekonomis rokok Indonesia termiskin berpeluang merokok dua kali
tidak terlepas dari 5 (lima) fakta penting, lipat dibanding orang-orang dewasa dalam
sebagai berikut. Pertama, Survey Global kuantil orang-orang terkaya.
Adult Tobacco (GAT) (World Health Kusumawardani, dkk (2018) juga
Organization, 2012) menggarisbawahi menemukan dari hasil olah data Riskesdas
bahwa Indonesia merupakan negara bahwa prevalensi orang dewasa yang
produsen tembakau kelima terbesar di merokok di Indonesia adalah 7,2 %, di mana
dunia. Posisi ini menempatkan Indonesia tingkat prevalensi merokok lebih tinggi
dalam 5 negara teratas produsen dan terdapat pada pria dewasa dibandingkan
eksportir tembakau di dunia. Selain itu, dengan wanita dewasa perokok Toukan
Indonesia merupakan negara konsumen (2016) juga menemukan bahwa di
rokok terbesar keempat di dunia. Jumlah Yordania, prevalensi merokok itu tertinggi
laki-laki dewasa yang merokok menempati terdapat pada orang-orang Yordania yang
urutan ketiga teratas, dan perempuan yang termiskin.
merokok termasuk ranking 17 besar dunia. Dengan mempertimbangkan
Sebagai contoh, di tahun 2008, konsumsi kekurangan pustaka yang ada di dalam
rokok di Indonesia mencapai 255 milyar meneliti beban ekonomis rokok di dalam
batang rokok per tahun, dan tahun 2017 kajian pengentasan kemiskinan, kami
telah mencapai lebih dari 400 milyar batang memandang perlu untuk menyajikan sudut
rokok per tahun. Kedua, Jumlah populasi pandang baru di dalam memahami
perokok dewasa di Indonesia relatif banyak. hubungan antara konsumsi beras dengan
Contohnya, GATS (World Health konsumsi rokok di Indonesia. Berdasarkan
Organization, 2012) mencatat terdapat 59,8 data survei sosial ekonomi nasional, kami
juta orang dewasa (34% populasi menguji hipotesis nol mengenai konsumsi
penduduk), yang terdiri dari 67 % perokok rokok yang tinggi di antara rumah tangga
laki laki and 2,7% perokok perempuan. miskin tidak berhubungan erat dengan
Ketiga, rokok membebani anggaran pengurangan konsumsi beras di Indonesia
pemerintah di fungsi kesehatan. Contoh, tahun 2014. Kami menduga bahwa
hasil Riset Kesehatan Dasar tahun 2010 prevalensi konsumsi rokok yang tinggi
yang dimuat di dalam laporan survey GAT tidak berhubungan dengan pengurangan
tahun 2011 mencatat total biaya medis konsumsi beras di Indonesia.
untuk mengobati kasus kesehatan akibat Kajian ini mencoba menjawab 2 (dua)
merokok tahun 2010 adalah Rp 1,85 triliun. pertanyaan penelitian di dalam
Anggaran ini digunakan untuk membiayai mengevaluasi hubungan konsumsi beras
624.000 kasus rawat inap terkait penyakit dan prevalensi rokok yang tinggi di
yang diakibatkan merokok. Masih menurut Indonesia, yaitu:
Riskesdas, di tahun 2010 terjadi 191.000 1. Apakah prevalensi konsumsi rokok
total kasus kematian yang diakibatkan yang tinggi berhubungan dengan
rokok, yang merupakan: 100.680 laki-laki pengurangan konsumsi beras di
dan 89.560 wanita meninggal dengan sebab Indonesia?;
penyakit yang berhubungan dengan rokok 2. Variabel-variabel ekonomis lain dan
(tobacco-related deseases). Jumlah dan karakteristik demografis apa yang
kejadian kematian ini merupakan 12,7 mempengaruhi pengeluaran belanja
persen dari total kejadian kematian di konsumsi rokok rumah tangga di
Indonesia di tahun 2010. Indonesia?
Beberapa pustaka membahas Penelitian ini mempunyai sekurang-
tingginya prevalensi merokok di antara kurangnya 3 (tiga) keterbatasan, antara lain.
orang miskin di negara-negara berkembang Pertama, kajian ini menggunakan dataset 1
(Kusumawardani, dkk, 2018; dan Toukan, (satu) tahun saja, koefisien estimasi di
2016). Kusumawardani, dkk (2018) dalam model bisa jadi belum merupakan
28 |
temuan empiris yang robust untuk konteks penyakit-penyakit yang diakibatkan rokok,
Indonesia. Kedua, model penelitian ini dan kehidupan di usia tua tak sehat dan tak
dapat mengandung masalah endogenitas produktif di negara berkembang dan negara
antara konsumsi beras dan konsumsi rokok. maju (Prasad dan Dhar, 2017; Bergström,
Kita harus berhati-hati mengenai 2004). Contohnya, Korhonen, dkk (2015)
kemungkinan hubungan kausalitas yang menunjukkan kepada kita bahwa di
terjadi. Koefisien estimasi model Finlandia, konsumsi rokok secara
seharusnya dapat dilihat sebagai ukuran signifikan dapat memprediksi usia pensiun
hubungan, bukan ukuran pengaruh. yang tak berkemampuan (disability
Kausalitas dapat menyebabkan bias retirement) atau usia senja yang tak sehat
estimasi antara konsumsi beras rendah (unhealthly elderly). Di dalam konteks
mempengaruhi konsumsi rokok yang tinggi Indonesia kontemporer, kajian kami fokus
atau konsumsi rokok yang tinggi dapat pada konsekuensi negatif dari konsumsi
menyebabkan konsumsi beras yang rendah. rokok pada rumah tangga miskin. Selain itu,
Ketiga, penelitian kami belum secara tegas kajian kami juga mengkaji dampak
mengukur pengeluaran belanja beras dan program keluarga harapan (PKH) dengan
belanja konsumsi rokok. Secara berturutan, pengeluaran konsumsi makanan pokok
kami menggunakan pendekatan rumah tangga penerima PKH.
pengeluaran rumah tangga untuk konsumsi Telaah penelitian ini kami sajikan
makanan pokok per bulan dan pengeluaran dalam susunan pembahasan sebagai
untuk rokok, tembakau dan sirih, masing- berikut. Pertama, di subbab A pendahuluan
masing untuk mengukur belanja beras dan membahas lima fakta penting darurat
beban pengeluaran konsumsi rokok. merokok di Indonesia, dilanjutkan dengan
Penelitian mendatang diharapkan dapat signifikansi penelitian dan celah penelitian
lebih menghadirkan ukuran yang lebih (research gap), serta pertanyaan penelitian.
spesifik untuk pengeluaran rumah tangga Berikutnya, di subbab B (Metodologi),
untuk belanja beras dan rokok. tulisan kami menyajikan ulasan tentang
Meskipun masih memiliki data set, tinjauan referensi serta analisis
kelemahan, penelitian kami ini mempunyai yang digunakan di dalam penelitian ini.
beberapa peranan penting terhadap pustaka Sedangkan, di subbab C, kami menyajikan
hubungan rokok dan beras serta hasil dan pembahasan. Hasil penelitian
konsekuensi negatif rokok yang masih kami sajikan dalam analisis statistik
terbatas (Lee dan Yi, 2016; Papadopoulu, deskriptif menggunakan grafik garis (line
dkk, 2017; Toukan, 2016; Block dan Webb, plot) antara variabel angka kemiskinan
2009; Semba, dkk, 2007; Hu, 2008; Prasad (headcount poverty rate) antar provinsi,
dan Dhar, 2017; Bergström, 2004). pengeluaran konsumsi beras dan makanan
Pertama, kajian penelitian ini pokok, serta belanja konsumsi rokok rumah
menggarisbawahi konsumsi rokok tangga. Selain itu, hasil dan pembahasan
berasosiasi negatif dengan kebiasaan makan kami lengkapi dengan hasil analisis
(Lee dan Yi, 2016; Papadopoulu, dkk, inferensi statistik menggunakan Analisis
2017). Kedua, kajian ini menunjukkan Regresi Linier Berganda. Adapun, di
bahwa pengeluaran belanja rokok subbab D, kami sajikan kesimpulan dan
menimbulkan beban ekonomis terhadap saran dari hasil mengkaji hubungan antara
Produk Domestik Bruto (PDB) di negara- konsumsi beras dan makanan pokok dengan
negara berkembang dan juga negara-negara karakteristik rumah tangga (Ruta),
maju (Toukan, 2016; Sung, dkk, 2006; termasuk Ruta perokok dan miskin, serta
Kang, dkk, 2003). Ketiga, kajian ini karakteristik Ruta lainnya, berserta
menekankan konsekuensi negatif rokok di pengeluaran bulanan Ruta.
antara rumah tangga orang miskin
sementara dalam pustaka-pustaka yang ada
menunjukkan konsekuensi negatif
konsumsi rokok pada resiko kanker dan
29
DATA DAN METODE perumahan. Sementara Susenas modul
konsumsi menyajikan statistik terkait rata-
1. Data dan Tinjauan Referensi
rata pengeluaran rumah tangga yang
Kami menggunakan data survei diperinci untuk jenis makanan dan non
nasional yang representatif di dalam makanan, yang menjadi dasar perhitungan
memahami hubungan antara konsumsi angka kemiskinan dan gini rasio
beras dengan pengeluaran rumah tangga (ketimpangan).
untuk rokok. Kajian kami berdasarkan Untuk analisis inferensi di dalam
Survei Sosial Ekonomi Nasional (Susenas) kajian kami ini, kami menggunakan analisis
tahun 2014. Pemilihan Susenas tahun 2014 Regresi Linier Berganda (RLB) karena
sebagai batasan penelitian karena di tahun sekurang-kurangnya 2 (dua) pertimbangan.
tersebut Susenas terakhir kali dilaksanakan Pertama, analisis RLB merupakan salah
secara triwulan (tahun berikutnya satu metode analisis yang paling populer di
dilaksanakan semesteran). Dengan periode berbagai ranah penelitian (Darlington dan
pendataan yang lebih panjang, informasi Hayes, 2017). Darlington dan Hayes (2017)
yang diperoleh lebih lengkap. berpendapat bahwa sejauh ini analisis RLB
Susenas merupakan salah satu survei merupakan metode analisis paling populer
unggulan yang dilaksanakan Badan Pusat di ranah ilmu sosial, ilmu analisa perilaku,
Statistik (BPS). Survei ini telah kesehatan masyarakat, kedokteran, dan lain
dilaksanakan sejak tahun 1993 untuk lain. Kedua, kajian kami memeriksa
mengumpulkan informasi yang meliputi hubungan antara beberapa variabel
status sosial ekonomi dan akses individu independent dan variabel dependent.
dan rumah tangga terhadap layanan publik Darlington dan Hayes (2017) juga
di seluruh kabupaten/kota di Indonesia. Saat mengatakan bahwa RLB merupakan salah
ini, Susenas meliputi 300.000 rumah tangga satu metode statistik untuk memodelkan
sampel di 497 kabupaten/kota atau setara hubungan antara variabel-variabel
mendekati sejumlah 1,2 juta individu (BPS, independent dengan variabel dependent.
2015). Susenas juga berisi informasi
mengenai karakteristik sosiodemografis 2. Metode Analisis
kepala rumah tangga dan anggota rumah Untuk analisis inferensi di dalam
tangga, termasuk pendidikan, pekerjaan, kajian kami ini, kami menyajikan suatu
dan pengeluaran mereka. Selain itu, model kajian dalam notasi sederhana bila
Susenas berisi informasi mengenai pola menggunakan RLB. Olive (2017)
konsumsi dan pengeluaran rumah tangga menyajikan dalam buku terbarunya
yang meliputi konsumsi makanan dan berjudul “Linier Regression” suatu rumus
nonmakanan. sederhana RLB. Menurut Olive (2017),
Kami menggunakan data Susenas Kor model RLB memiliki sekurang-kurangnya
dan Modul Konsumsi sebagai sumber data 2 variable independent. Olive (2017)
utama penelitian ini karena beberapa menyajikan notasi RLB dengan
alasan, sebagai berikut. Pertama, Susenas menganggap variabel Y merupakan
merupakan survei BPS yang menggunakan variabel skala interval/rasio dan sekurang-
metode pengambilan sampel probabilitas kurangnya ada 2 variable independent yang
yang telah teruji sejak lama. Teknik merupakan variabel kuantitatif.
penarikan sampel probabilitas merupakan Berdasarkan notasi Olive untuk model
standar terbaik di dunia saat ini di dalam RLB, kami menyajikan notasi penelitian
menciptakan sampel representatif karena kami dengan rumus sebagai berikut:
secara matematis dapat memprediksi 𝑌 = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + · · · + 𝑏𝑘 +
sample error (Neuman, 2014, halaman 𝑒 (1)
247). Kedua, Susenas Kor menyajikan dengan 𝑌 merupakan variabel respon,
informasi yang lengkap, yang menjadi dasar 𝑥1,2,...,𝑘 merupakan suatu vektor 𝑘 𝑥 1
penerbitan statistik kesejahteraan rakyat, untuk prediktor nontrivial. Adapun 𝑏𝑜
bidang pendidikan, kesehatan, dan merupakan suatu konstanta tidak diketahui,
30 |
dan 𝑏1 , 𝑏2 , . . 𝑏𝑘 merupakan suatu vektor 𝑘 × Tabel 1 menunjukkan kepada kita
1 dari koefisien-koefisien tidak diketahui, bahwa N=285.371 rumah tangga di
dan e merupakan suatu variabel acak yang Indonesia membayar belanja beras dan
dinamakan error (galat). konsumsi makanan pokok rata-rata sekitar
Berdasarkan notasi rumus Olive, Rp 1,5 juta per bulan (dalam rentang data
model penelitian kami dapat dirumuskan terkecil Rp 60 rb sampai dengan terbesar Rp
secara empiris dalam notasi RLB dengan 20 juta). Berikutnya, rumah tangga perokok
mengakomodir interaksi antar variabel dihitung dengan cara mengkategorikan
independen, sebagai berikut: rumah tangga yang ada anggota rumah
𝑌 = 𝑏0 + 𝑏1𝑖𝑗 𝑋1𝑖 . 𝑋2𝑗 + 𝑏2 𝑋3 + tangga yang perokok sebagai “1”.
𝑏3𝑖 𝑋1𝑖 . 𝑋3 + 𝑏4 𝑋4 + 𝑏5 𝑋5 + 𝑏6 𝑋6 + Sedangkan untuk kategori rumah tangga
𝑒 (2) nonperokok dikategorikan “0” sebagai
di mana : selain rumah tangga perokok.
𝑌 merupakan pengeluaran bulanan rumah Adapun, rumah tangga miskin diukur
tangga untuk konsumsi beras dengan cara mengkategorikan rumah
𝑋1𝑖 merupakan dummy variable rumah tangga yang memiliki pendapatan perkapita
tangga merokok (i=0 jika tidak merokok, kurang dari 1,2 kali garis kemiskinan
i=1 jika merokok) wilayah dibedakan antara desa dan kota.
𝑋2𝑗 merupakan dummy variable rumah Garis kemiskinan yang digunakan mengacu
tangga miskin (j=0 jika tidak miskin, j=1 kepada perhitungan BPS, yakni
jika miskin) pengeluaran makanan dan non makanan
𝑋3 merupakan jumlah anggota rumah minimal setara 2.300 kilokalori per hari.
tangga dewasa Sementara itu, variabel rumah tangga
𝑋4 merupakan dummy variable wilayah dewasa merupakan jumlah anggota rumah
kota/desa tangga yang berusia di atas 15 tahun. Tabel
1 juga menunjukkan kepada kita bahwa
𝑋5 merupakan rumah tangga menerima
Program Keluarga Harapan secara rata-rata, rumah tangga di Indonesia
memiliki jumlah anggota rumah tangga
𝑋6 merupakan total pengeluaran rumah
dewasa berkisar 1 sampai dengan 17 orang
tangga.
(rata-rata terdapat 3 anggota rumah tangga
𝑋1 𝑋2 merupakan variable interaksi untuk
dewasa). Adapun angka ringkasan statistik
melihat perbedaan konsumsi beras antara
lainnya, pengeluaran, perkotaan dan PKH
rumah tangga merokok/tidak merokok dan
secara berturutan menyajikan variabel
miskin/tidak miskin
dummy untuk pengeluaran bulanan rumah
𝑋1 𝑋3 merupakan variable interaksi untuk
tangga, rumah tangga yang tinggal di
melihat perbedaan konsumsi beras antara
perkotaan dan rumah tangga penerima
rumah tangga merokok dengan jumlah
Program Keluarga Harapan (PKH). Susenas
anggota rumah tangga dewasa
2014 menyajikan rata-rata pengeluaran
banyak/sedikit
rumah tangga Rp 2,9 Juta (minimal Rp 115
HASIL DAN PEMBAHASAN rb dan maksimal Rp 212 juta). Selain itu
rumah tangga yang bertempat tinggal di
1. Karakteristik Sampel Penelitian wilayah perkotaan lebih sedikit
Tabel 1 menyajikan ringkasan dibandingkan yang tinggal di wilayah
statistik untuk ukuran-ukuran di dalam perdesaan terlihat dari rata-rata variabel
model asosiasi karakteristik rumah tangga perkotaan yang bernilai 42,76.
dengan pengeluaran belanja beras dan 2. Hasil Analisis Inferensia
rokok. Secara detail, masing-masing ukuran
ringkasan statistik dapat dijabarkan, sebagai Tabel 2 menunjukkan bahwa terdapat
berikut. Pertama, Beras dihitung sebagai N= 285.371 yang dilibatkan di dalam
total belanja rumah tangga untuk beras dan analisa Regresi Linier Berganda pada kajian
makanan pokok selama satu bulan. mengenai hubungan belanja rokok terhadap
pengeluaran belanja beras rumah tangga
31
Tabel 1. Ringkasan Statistik Karakteristik Rumah Tangga dan Pengeluarannya
Variabel Obs Mean Std. Dev. Min Max
Beras 285.371 1.479.532 922.726,2 60.857,1 19.600.000
Rumah Tangga Perokok 285.371 0,60954 0,487853 0 1
Rumah Tangga Miskin 285.371 0,09467 0,292764 0 1
Dewasa 285.371 3 1 1 17
Perkotaan 285.371 0,42764 0,494736 0 1
Program Keluarga Harapan 285.371 0,02429 0,153963 0 1
Pengeluaran 285.371 2.885.034 3123113 115.352 212.000.000
Sumber: Perhitungan penulis menggunakan data Susenas 2014
miskin. Hasil menunjukkan model regresi rata konsumsi beras untuk ruta nonperokok
linier berganda dengan estimasi Ordinary dan tidak miskin, yaitu: (1) Ruta miskin
Least Square (OLS) dengan perhitungan nonperokok; (2) Ruta miskin perokok, (3)
STATA versi 14 autorobust. Dengan Ruta penerima Program Keluarga Harapan,
estimasi autorobust, asumsi dan (4) Ruta Perokok Dewasa. Konsumsi
heteroskedastisitas pada asumsi OLS beras dan makanan pokok lainnya pada ruta
menjadi lebih longgar1. Perhitungan miskin nonperokok dan ruta miskin
menggunakan data N=285.371 Susenas perokok secara signifikan berturut-turut
2014 menunjukkan bahwa model RLB terendah pertama (-313.393) dan terendah
dapat diterima dengan menggunakan kedua (-167.756,20) dibandingkan dengan
goodness of fit R kuadrat 55,77% variabel konsumsi beras dan makanan pokok lainnya
dependen dapat diterangkan oleh variabel- pada rumah tangga nonperokok dan tidak
variabel independennya. miskin (konstanta=303.747,30). Sedangkan
Hasil model regresi berganda Ruta penerima Program Keluarga Harapan
menunjukkan bahwa pola konsumsi beras (PKH) (-46.678) serta Ruta Perokok
serta makanan pokok lainnya bervariasi di Dewasa (-16.983,93) merupakan
antara karakteristik ruta yang berhubungan karakteristik terendah keempat dan kelima
dengan prevalensi konsumsi rokok dan ruta pengkonsumsi beras dan makanan
kategori kemiskinan ruta di Indonesia pokok lainnya bila dibandingkan dengan
(Tabel 2). rata-rata pengeluaran ruta nonperokok dan
Besaran serta arah koefisien parsial tidak miskin. Temuan ini dapat dibaca
variabel pada model regresi linier berganda dengan asumsi variabel penelitian lainnya
(Tabel 2) yang mengandung interaksi antar ceteris peribus.Untuk pengeluaran tertinggi
variabel, dengan salah satunya adalah ruta dibandingkan dengan ruta nonperokok
variabel dummy mempunyai interpretasi dan tidak miskin berturut-turut dilakukan
berbeda dengan interpretasi model dengan oleh karakteristik ruta, sbb: (1) Ruta
variabel non dummy. Untuk yang perokok dan tidak miskin mengkonsumsi
mengandung variabel dummy, kita dapat beras dan makanan pokok tertinggi di
melihat keterbandingan paling rendah atau bandingkan ruta non perokok dan tidak
paling tinggi dibandingkan dengan konstata miskin. (2) Ruta yang tinggal di wilayah
regresinya (nilai konstanta mencerminkan perkotaan mengkonsumsi beras dan
rata-rata pengeluaran untuk variabel dummy makanan pokok kedua terbanyak
yang bernilai ’0”). Dari hasil regresi dapat dibandingkan dengan ruta non perokok dan
terlihat ada 4 (empat) kategori ruta terendah tidak miskin.
yang mengkonsumsi beras serta makanan Sedangkan hubungan pengeluaran
pokok lainnya dibandingkan dengan rata- beras dan makanan pokok lainnya dengan
http://www3.grips.ac.jp/~yamanota/Lecture_Note_
9_Heteroskedasticity
32 |
Tabel 2. Hasil Analisa Regresi Linier Berganda
Variabel Koef Std Error
Ruta nonperokok#miskin -313.393,30* 10.581,31
Ruta perokok#tidakmiskin 341.154,40* 7.952,50
Ruta perokok#miskin -167.756,20* 9.915,61
Dewasa 187.845,50* 5.050,97
Ruta perokok#dewasa -16.983,93* 3.188,24
Perkotaan 73.597,75* 7.147,84
Program Keluarga Harapan (PKH) -46.678* 6.032,92
Pengeluaran 0,17* 0,01
Konstanta 303.747,30* 5.439.552
N observasi 285.371
R squared 0,5577
F hitung 26.169,44
penambahan anggota rumah tangga dewasa (PKH) secara signifikan juga menempati
di atas usia 15 tahun (variabel Dewasa) serta urutan terendah ketiga di dalam belanja
hubungan pengeluaran beras dan makanan pengeluaran beras dan makanan pokok
pokok lainnya dengan pengeluaran rumah lainnya.
tangga (variabel Pengeluaran) dapat dibaca Temuan ketiga ini bila dikaitkan
sebagai arah korelasi parsial, sebagai dengan temuan kajian kedua cukup
berikut: (1) Setiap penambahan 1 (satu) menarik, karena bisa jadi ada
orang dewasa akan menambah pengeluaran kekurangtepatan sasaran di dalam
beras dan makanan pokok lainnya setara Rp penggunaan bantuan sosial pemerintah
187.845,50 per bulan dengan asumsi (social safety net / social protection
variabel lain ceteris peribus. (2) Setiap program). Alih-alih PKH menjadi
penambahan Rp 1 pengeluaran rumah pendukung program pengurangan
tangga berkorelasi dengan penambahan kemiskinan (poverty reduction program),
belanja beras dan makanan pokok lainnya program bantuan sosial pemerintah ini
sebesar Rp 0,17 per bulan. malah disalahgunakan menjadi belanja
Penelitian kami menemukan 3 (tiga) pengeluaran konsumsi rokok. Oleh sebab
fakta menarik, yaitu: (1) Temuan bahwa itu, ke depan pemerintah perlu melakukan
ruta miskin bukan perokok mengeluarkan kajian evalausi dampak kebijakan
belanja konsumsi beras dan makanan pokok komprehensif (impact evaluation) dan
lainnya terendah di banding ruta tidak perbaikan database ruta sasaran penerima
miskin dan tidak merokok, menunjukkan program PKH, atau program bantuan
bahwa kategori rumah tangga ini sebagai pengamanan sosial lainnya. Pemerintah
paling rentan untuk masuk atau keluar dari hendaknya menerbitkan payung hukum
garis kemiskinan absolut (absolute poverty untuk monitoring dan evaluasi dampak
line). (2) Rumah Tangga (ruta) miskin PKH, misalnya dengan menindaklanjuti
perokok menempati urutan kedua terendah diskursus penambahan syarat larangan
di dalam mengkonsumsi beras dan makanan merokok bagi kepala rumah tangga dan
pokok lainnya di bandingkan ruta tidak anggota rumah tangga selama menerima
miskin dan nonperokok. Temuan menarik program, dan ada diskualifikasi bagi ruta
ini dapat merupakan pendugaan awal yang melanggar aturan ini. Sejalan dengan
bahwa di ruta miskin perokok, ada bias evaluasi dampak PKH juga, hendaknya
preferensi dalam hal mendahulukan belanja pemerintah memprioritaskan ruta miskin
beras dan makanan pokok lainnya dengan yang jelas jelas tidak ada anggota rutanya
pengeluaran untuk konsumsi rokok.(3) Ruta yang perokok untuk diberikan PKH, atau
penerima Program Keluarga Harapan program sejenisnya. Daripada memasukkan
33
ruta miskin yang jelas-jelas anggota ruta menunjukkan kebaruan, baik dari data sets
nya ada yang perokok. Hal ini sejalan dan juga beberapa temuan menarik lainnya.
dengan temuan pertama dikaitkan dengan Temuan kami menunjukkan bahwa
temuan kajian ketiga. perokok cenderung membayar beberapa
batang rokok dibandingkan konsumsi beras
3. Pembahasan
dan makanan pokok lainnya. Temuan awal
Pertanyaan mengenai apa hubungan sederhana kami mendukung temuan dalam
antara konsumsi beras, makanan pokok kajian Lee dan Yi (2016) , juga
dengan belanja rokok serta pola Papadopoulu, dkk (2017) bahwa konsumsi
pengeluaran lainnya telah menjadi rokok menunjukkan korelasi negatif
perhatian peneliti ilmu-ilmu sosial sejak terhadap pola makan. Lee dan Yi (2016)
lama. Namun, dalam konteks Indonesia mengatakan bahwa perokok dewasa secara
kontemporer, ranah kajian ini belum banyak signifikan sedikit konsumsi buah buahan,
disentuh apalagi menggunakan data dari sayur-mayur, dan susu/produk susu lainnya,
survei nasional dengan cakupan dan mereka secara nyata lebih menyukai
pengamatan yang luas. Berdasarkan data lebih banyak makanan cepat saji (fast-food)
Susenas 2014, kami menganalisa hubungan dibandingkan bukan perokok. Juga,
antara beras dan makanan pokok dengan Papadopoulu, dkk (2017) berpendapat
pola konsumsi rokok di antara beberapa bahwa perokok dewasa sedikit memilih
karakteristik rumah tangga miskin di makanan sehat dan disajikan secara
Indonesia. higienis, di mana mereka cenderung
Berdasarkan temuan-temuan dari memilih makanan-makanan dengan
hasil penelitian, kajian kami menemukan kandungan lemak yang relatif tinggi. Bila
beberapa fakta menarik bahwa rumah Lee dan Yi (2016) serta Papadopoulu, dkk
tangga miskin yang anggota rutanya (2017) menunjukkan bukti di dalam kajian
merokok, tipe ruta ini mengkonsumsi beras studi kasus lingkup kecil, kami
dan makanan pokok lainnya lebih rendah menunjukkan bukti yang sama
dibandingkan rumah tangga tidak miskin di menggunakan survey sosial ekonomi
kategori tidak merokok. Hal ini nasional yang terbukti bereputasi tinggi. Di
mengindikasikan bahwa rumah tangga dalam konteks Indonesia kontemporer,
miskin di Indonesia cenderung penelitian kami mengindikasikan bahwa
memprioritaskan untuk membeli sebungkus perokok dewasa di rumah tangga miskin
rokok dibandingkan mengkonsumsi beras lebih cenderung tetap merokok dan
dan makanan pokok lainnya. Sedangkan mengirit untuk konsumsi beras dan
pada karakteristik ruta non miskin perokok, makanan pokok lainnya.
konsumsi beras dan makanan pokok tetap
relatif banyak. Meskipun bukti temuan KESIMPULAN DAN SARAN
kami masih lemah dalam kajian 1 (satu) Secara ringkas, kami dapat
tahun ini, temuan ini selaras dengan menyimpulkan 3 (tiga) poin utama dalam
penelitian terdahulu seperti yang dilakukan kajian ini. Pertama, Hasil penelitian kami
oleh Kusumawardani, dkk (2013), Block menunjukkan bahwa rumah tangga miskin
dan Webb (2009), dan Semba, dkk (2007) yang memiliki anggota rumah tangga
yang menemukan bahwa rumah tangga perokok secara rata-rata mengkonsumsi
miskin cenderung membelanjakan lebih
beras relatif lebih sedikit dibandingkan
banyak uang untuk merokok dibandingkan rumah tangga yang tidak memiliki anggota
rumah tangga tidak miskin. Bila rumah tangga perokok, baik yang termasuk
Kusumawardani, dkk (2013), dan Semba, kategori miskin maupun tidak. Hal ini
dkk (2007) menunjukkan bukti berdasarkan mengindikasikan bahwa rumah tangga
data survey nasional lain (Riskesdan dan miskin lebih memprioritaskan konsumsi
Survey Pengawasan Gizi Indonesia), serta rokok dengan konsekuensi mengurangi
Block dan Webb (2009) berdasarkan konsumsi beras dan makanan pokok
Susenas terdahulu, maka temuan kami lainnya. Ini sedikit mencerminkan bahwa
34 |
semboyan orang Jawa “mangan ora pemerintah pusat dan daerah diharapkan
mangan kumpul (makan tidak makan (yang dapat menetapkan kebijakan-kebijakan
penting) kumpul” ternyata kurang efektif yang tepat sehingga dapat menekan tingkat
untuk mencerminkan perilaku rumah konsumsi rokok masyarakat. Selain itu,
tangga miskin perokok. Bagi rumah tangga pemerintah pusat dan daerah diharapkan
miskin, semboyan tersebut di atas bila dapat bersinergi menciptakan kebijakan-
ditinjau dalam konteks konsumsi rokok kebijakan pro pengurangan konsumsi rokok
dapat saja diplesetkan perokok menjadi “ masyarakat sekaligus mengurangi angka
ngudud ora ngudud kumpul (merokok tidak kemiskinan, seperti: pengawasan program
merokok (yang penting) kumpul “. jaring pengaman sosial (social safety net),
Dengan mempertimbangkan cakupan yakni Program Keluarga Harapan, salah
penelitian kami, sepertinya fenomena satunya. Agar program ini memiliki
“merokok atau tidak merokok yang penting dampak positif dan tepat sasaran, misalnya
kumpul “ berlaku di hampir di seluruh dengan membuat payung hukum dan
daerah di Tanah Air, terutama di wilayah memberikan infrastruktur manusia dan
perdesaan. Seperti sudah menjadi kebiasaan sistem di dalam memperketat persyaratan
turun temurun di dalam kultur masyarakat penerima program ini tidak merokok
Indonesia, laki-laki dewasa senang duduk selama jangka waktu tertentu.
bercengkrama di kedai-kedai, baik di pagi, Adapun penelitian mendatang dapat
siang, dan sore hari. Acara kongkow- mempertimbangkan variabel-variabel
kongkow ini ini mendorong untuk penelitian baru dan metode mengukur
mengobrol ngalor ngidul dengan ditemani evaluasi dampak (impact evaluation) di
kebiasaan merokok bareng-bareng. dalam mengukur dampak konsumsi rokok
Terkadang, pengaruh pergaulan seperti ini terhadap kemiskinan, misal dengan
menjadi pemicu seseorang menjadi perokok mempertimbangkan variabel untuk
dengan alasan ketidakenakan menolak mengukur dampak evaluasi perluasan
rokok yang ditawarkan teman-teman kawasan tanpa rokok (non-smoking area),
sepergaulannya (Nitcher, dkk, 2009). perluasan kampanye anti rokok dengan
Kedua, kajian kami menunjukkan gambar-gambar, video, poster mengenai
korelasi negatif yang cukup signifikan bahaya rokok, dan juga ratifikasi regulasi
antara program jaringan pengaman sosial tembakau dan cukai rokok dengan lebih
(social safety net) Program Keluarga realistis. Metode pengukuran dapat
Harapan (PKH) dengan pola konsumsi dipertimbangkan untuk penelitian lanjutan,
beras dan konsumsi makanan pokok misal dengan Prospensity Score Matching
lainnya. Kecenderungan pengurangan (PSM) di dalam mengukur evaluasi dampak
belanja konsumsi ruta penerima PKH dapat (impact evaluation) perluasan kawasan
saja kita artikan sebagai sebuah alarm tanpa rokok diperlukan untuk menekan
kehati-hatian, terhadap salah peruntukan pengaruh lingkungan di dalam peningkatan
bantuan , yang salah satunya bisa saja kebiasaan merokok masyarakat, dan juga
diprioritaskan sebagai belanja konsumsi menjadikan kualitas udara lingkungan lebih
rokok dibandingkan dengan pengeluaran sehat. Juga diharapkan penelitian lanjutan
konsumsi beras dan makanan pokok dapat dilakukan untuk mengukur variabel
lainnya. Meskipun ini tentu saja hanya kebijakan kebijakan lainnya di dalam ranah
dugaan awal yang perlu pembuktian kajian pengurangan konsumsi tembakau
lanjut di penelitian mendatang, tetap saja khususnya, dan pengurangan kemiskinan
kita harus ikut kritis mengevaluasi dampak secara komprehensif, contohnya dampak
kebijakan pemerintah, dalam hal kebijakan ratifikasi regulasi tembakau dan
pengentasan kemiskinan, yang kontra cukai rokok di dalam pengendalian penuh
produktif dengan pengeluaran belanja ruta terhadap pengurangan tingkat konsumsi
yang bukan peruntukan program. roko
Fakta bahwa Indonesia merupakan Ketiga, meskipun belum cukup kuat
negara kelima penghasil tembakau terbesar, bukti penelitian kami dalam menunjukkan
35
konsumsi rokok sebagai salah satu Block, S., & Webb, P. (2009). Up in smoke:
penyebab kemiskinan, pengurangan tingkat Tobacco use, expenditure on food,
konsumsi rokok ke depan nampaknya and child malnutrition in developing
bukan hanya urusan strategi kesehatan countries. Economic Development
masyarakat, tetapi juga dapat and Cultural Change, 58(1), 1-23.
dipertimbangkan sebagai strategi BPS (2013). Pola Pengeluaran dan
pengurangan kemiskinan. Meskipun, Konsumsi 2012. Badan Pusat
temuan awal di dalam penelitian ini masih Statistik.
menunjukkan kurang kuatnya peran BPS. (2015). Indonesia - Survei Sosial
konsumsi rokok dalam memperparah Ekonomi Nasional 2014 [Indonesia's
kemiskinan di Indonesia, tetapi ada indikasi national Socio-Economic Survey].
perbaikan pengurangan konsumsi rokok Indonesia's Central Bureau of
untuk Ruta penerima Program Keluarga Statistics: Jakarta.
Harapan. Program PKH ini sempat Hayes, A. F., & Darlington, R. B. (2017).
digembar-gemborkan sebagai program Regression analysis and linear
keluarga sehat, yang melarang kepala ruta models. Concepts, applications, and
dan anggota ruta merokok. Namun, sampai implementation. New York, London:
saat ini, program anti rokok untuk Guilford Press (Methodology and the
penghargaan (reward)dan hukum social sciences)..
(punishment) ruta PKH belum dikawal Hu, T. W. (2008). Tobacco control policy
dengan ketat. Dan perlu bukti empiris lebih analysis in China: economics and
jauh dalam rentang penelitian lebih lama, health (Vol. 12). World Scientific.
untuk melihat apakah betul-betul efektif K Papadopoulou, S., N Hassapidou, M.,
PKH di dalam mengedukasi ruta penerima Katsiki, N., Fachantidis, P., I
dalam pengentasan kemiskinan, dan Fachantidou, A., Daskalou, E., & P
kampanye anti rokok. Sehingga, Deligiannis, A. (2017). Relationships
pengawasan tersebut bisa jadi cara Between Alcohol Consumption,
pengawasan terhadap perilaku buruk Smoking Status and Food Habits in
anggota rumah tangga yang suka rokok Greek Adolescents. Vascular
cenderung menularkan kebiasaan tersebut Implications for the Future. Current
kepada anggota ruta lainnya. Tentu perlu vascular pharmacology, 15(2), 167-
penelitian lanjutan di dalam melihat secara 173.
detail, peran signifikan konsumsi rokok Kang, H. Y., Kim, H. J., Park, T. K., Jee, S.
sendirian dan konsumsi beras di dalam H., Nam, C. M., & Park, H. W.
sumbangsihnya di dalam memperparah (2003). Economic burden of smoking
kemiskinan di tanah air ini. Penelitian in Korea. Tobacco Control, 12(1), 37-
lanjutan yang menggunakan metode 44.
penelitian lebih robust dan data lebih Korhonen, T., Smeds, E., Silventoinen, K.,
komprehensif, tidak hanya satu tahun, tetapi Heikkilä, K., & Kaprio, J. (2015).
melibatkan panel tahun panjang, 5 sampai Cigarette smoking and alcohol use as
10 tahun, agar hasil kajiannya predictors of disability retirement: a
menghasilkan hasil dan temuan yang population-based cohort study. Drug
robust, sehingga mampu menyumbangkan and alcohol dependence, 155, 260-
sumbangsih bagi kampanye anti rokok dan 266.
sekaligus strategi pemerintah di dalam Kusumawardani, N., Tarigan, I., Suparmi,
pengentasan kemiskinan. E. A., & Schlotheuber, A. (2018).
Socio-economic, demographic and
DAFTAR PUSTAKA geographic correlates of cigarette
Bergström, J. (2004). Tobacco smoking and smoking among Indonesian
chronic destructive periodontal adolescents: results from the 2013
disease. Odontology, 92(1), 1-8. Indonesian Basic Health Research
36 |
(RISKESDAS) survey. Global health
action, 11(sup1), 54-62.
Lee, B., & Yi, Y. (2016). Smoking, physical
activity, and eating habits among
adolescents. Western journal of
nursing research, 38(1), 27-42.
Neuman, W. L. (2014). Social research
methods: Qualitative and quantitative
approaches: Pearson Education.
Nichter, M., Padmawati, S., Danardono, M.,
Ng, N., Prabandari, Y., & Nichter, M.
(2009). Reading culture from tobacco
advertisements in Indonesia. Tobacco
Control, 18(2), 98-107.
Olive, D. J. (2017). Linear regression.
Springer.
Prasad, J. B., & Dhar, M. (2017). Tobacco
use in India and its states: Burden of
smoking and smokeless forms of
tobacco (2015-25) and its
predictors. Journal of Cancer
Policy, 14, 21-26.
Semba, R. D., Kalm, L. M., De Pee, S.,
Ricks, M. O., Sari, M., & Bloem, M.
W. (2007). Paternal smoking is
associated with increased risk of child
malnutrition among poor urban
families in Indonesia. Public Health
Nutrition, 10(1), 7-15.
Sung, H. Y., Wang, L., Jin, S., Hu, T. W., &
Jiang, Y. (2008). Economic burden of
smoking in China, 2000. In Tobacco
control policy analysis in China:
Economics and health (pp. 105-125).
Toukan, A. M. (2016). The Economic
Impact of Cigarette Smoking on the
Poor in Jordan. Value in health
regional issues, 10, 61-66.
World Health Organization. (2012). Global
adult tobacco survey: Indonesia
report 2011. WHO Regional Office
for South-East Asia.
World Health Organization. (2015). WHO
global report on trends in prevalence
of tobacco smoking 2015. World
Health Organization.
37
38 |
PENGELOMPOKAN PENGGUNA SITUS WEB BPS MELALUI TEKNIK
BIBLIOMETRIC DAN ANALISIS KORESPONDENSI
Toza Sathia Utiayarsih1, Jadi Suprijadi2, Bernik Maskun3

1
2,3
Universitas Padjajaran
e-mail: 1toza@stis.ac.id
Abstrak
Salah satu upaya pemenuhan program percepatan (quick wins) terhadap produk BPS yang benar-benar
dapat menyentuh kebutuhan para pengguna data adalah dengan melakukan segmentasi terhadap
pengguna data. Segmentasi terhadap pengguna situs web BPS sebagai salah satu bentuk segmentasi
terhadap pengguna data, sesuai program percepatan. Ukuran data pengguna web sangat besar dan berupa
data teks sehingga tidak dapat langsung dianalisis melalui aplikasi statistik yang tersedia, maka perlu
dilakukan suatu teknik untuk data pengguna web dengan menggunakan teknik bibliometric. Teknik
tersebut mengubah data teks menjadi format numerik, selanjutnya dibuat menjadi matriks distribusi
frekuensi. Matriks digunakan pada analisis korespondensi untuk pengelompokkan pengguna situs web.
Hasil dari analisis pengguna situs web BPS yang diwakili oleh alamat IP dapat dikelompokkan dengan
halaman yang diakses berdasarkan asal negara, sehingga didapatkan segmentasi pengguna data situs
web BPS antara negara dan halaman yang diakses.
Kata kunci: Data Mining, text mining, bibliometric, web mining, analisis korespondensi
Abstract
The effort to fulfill one of quick wins program for BPS products that really can fulfill the needs of data
users is by segmenting data users. Segmentation of BPS website users as a form of segmentation of data
users, according to quick wins program. The size of web user data is very large and in the form of text
data so that it cannot be directly analyzed through available statistical applications, it is necessary to
do a technique for web user data using bibliometric techniques. This technique converts text data into
numeric format, then it is made into a frequency distribution matrix. The matrix is used in
correspondence analysis for grouping website users. The results of the analysis of BPS website users
represented by IP addresses can be grouped with pages accessed based on national origin, so that
segmentation users of BPS website data between the country and the page are accessed can be obtained.
Keywords: Data Mining, text mining, bibliometric, web mining, correspondence analysis
39
instrumen yang dapat menjembatani antara
PENDAHULUAN pengguna dengan pengelola situs web, yaitu
Badan Pusat Statistik (BPS) selalu melalui web usage session, yang
berupaya untuk melakukan perubahan dan merupakan interaksi antara pengguna dan
reformasi yang mendasar terhadap sistem web server dalam satu periode waktu
penyelenggaraan kegiatan statistik, melalui tertentu yang berisi halaman web yang
pembangunan profil dan perilaku aparatur dikunjungi.
BPS yang profesional, berintegritas, Data mining merupakan pendekatan
bertanggung jawab, serta mampu yang sangat berguna pada aspek
memberikan pelayanan prima kepada pengolahan data dan penelaahan penemuan.
publik. BPS sebagai lembaga pemerintah Pada dasarnya, data mining mengacu pada
non-kementerian mempunyai tugas untuk ekstraksi informasi data dalam jumlah
menyediakan data dan informasi statistik besar, yang memiliki berbagai macam
yang berkualitas, serta dituntut untuk bentuk atau jenis data, seperti data transaksi
melayani berbagai kepentingan pengguna pada aplikasi web (pembelian online,
data. Sejalan dengan keinginan reformasi layanan konsumen, dll). Dalam sepuluh
birokrasi, ke depan BPS harus mampu tahun terakhir, menurut Xu (2010), data
menghasilkan data yang berkualitas, yang mining berhasil masuk ke dalam dunia
didukung oleh SDM profesional dan penelitian manajemen data web, seperti
infrastruktur yang lebih modern. dokumen web, struktur tautan web,
Untuk membangun kepercayaan transaksi pengguna web, dan web semantics
masyarakat perlu diupayakan suatu menjadi target penelaahan. Jelas bahwa
program percepatan (quick wins) terhadap informasi yang dapat digali dari berbagai
produk BPS yang benar-benar dapat jenis data web dapat membantu dalam
menyentuh kebutuhan para pengguna data. menemukan hubungan antara berbagai
Program quick wins ini dipilih dengan obyek dalam web sehingga dapat
memperhatikan produk statistik yang meningkatkan manajemen data web.
memiliki daya ungkit tinggi, inovatif, dan Menurut wikipedia, web mining
merupakan terobosan yang terkait dengan merupakan suatu aplikasi bagian dari data
produk utama BPS. Program quick wins mining yang menggali pola-pola yang
yang memenuhi kriteria tersebut di atas tersedia di dalam web itu sendiri. Jadi antara
antara lain: (i). Peningkatan Kepuasan data mining dan web mining hanya berbeda
Pelanggan, (ii). Penyempurnaan Pelayanan dalam hal target data yang dianalisis. Data
Statistik yang terdiri pelayanan Elektronik mining umumnya menganalisis data yang
(e-Services) dan pelayanan statistik terpadu berasal dari OLTP (Online Transactional
yang menggabungkan pelayanan Process) dan data transaksi lainnya.
perpustakaan (digital dan non-digital), Sedangkan web mining target analisisnya
konsultasi statistik, toko buku (e-Shop) dan adalah data dari web, seperti data akses
pelayanan lainnya, dan (iii). Membangunan pengunjung, struktur halaman web, format
Advanced Release Calendar. halaman web dan sebagainya. Berdasarkan
Dalam upaya memenuhi kriteria target analisisnya, web mining dibagi
tersebut muncul salah satu tujuannya yaitu menjadi 3 (tiga) bagian, yaitu: (i). web
segmentasi pengguna data baik melalui content mining, (ii). web structure mining,
pelayanan langsung maupun pelayanan dan (iii). web usage mining.
elektronik (e-Service) seperti situs web BPS Menurut Srivastava (2000), web
(Laporan Reformasi Birokrasi Badan Pusat usage mining merupakan teknik data
Statistik, 2011). Sejalan dengan hal mining yang menggambarkan pola
tersebut, perlu diketahui tentang pola penggunaan dari halaman web, dalam
pengguna situs web itu sendiri dalam rangka memahami dan meningkatkan
rangka mendapatkan segmentasi pengguna pelayanan kebutuhan dari aplikasi berbasis
yang tepat. Untuk menganalisis pola web. Sumber data utama dari web usage
pengguna situs web dibutuhkan suatu mining adalah server logs dan browser logs.
40 |
Tabel 1. Kategori Halaman yang Diberi Label Kode Angka
Nama Nama
Kode Kode
Halaman Web Halaman Web
Beranda 1 Publikasi BPS 9

Tentang BPS 2 Berita Resmi BPS 10
Rencana Strategis BPS 3 Unduh 11
Pusat Layanan 4 Berita 12
Istilah Statistik 5 Info Lelang 13
Jabatan Fungsional 6 Subyek Statistik 14
Sistem Rujukan Statistik 7 Website BPS Provinsi 15
Sekolah Tinggi Ilmu Statistik 8
Teknik server log analysis digunakan jika teks menjadi numerik, sehingga dapat
memiliki akses penuh terhadap suatu situs dilakukan analisis terhadap data tersebut,
web dan server web yang digunakan. dan diketahui pola segmentasi pengguna
Karena data tersimpan di dalam file, maka melalui salah satu analisis statistik. Dengan
data log relatif mudah dikelola. Data yang tahapan mengubah data pengguna situs web
tercatat pada log server memiliki format BPS yang berbentuk teks menjadi format
teks dalam jumlah yamg sangat besar. Data numerik melalui teknik bibliometric yang
tersebut merupakan data tidak terstruktur, dapat menghasilkan matriks kontingensi.
tetapi memungkinkan untuk diubah Kemudian matriks tersebut bisa dilanjutkan
menjadi bentuk bibliografi sehingga bisa dengan analisis statistik menggunakan
diterapkan metode untuk mengolahnya analisis korespondensi. Sehingga
melalui teknik bibliometric. Software didapatkan pola segmentasi pengguna situs
bibliometric sebagai alat untuk analisis web BPS melalui pengelompokkan
informasi dalam jumlah yang besar berdasarkan asal negara.
berkembang dengan output format yang
1. Data Web Usage Situs Web BPS
bervariasi, misalnya, distribusi frekuensi,
matriks, peta, dan network (Supriyadi, Kategori halaman yang digunakan
2011). pada penelitian ini berasal dari peta situs
Ukuran data web sangat besar dan web BPS yang merupakan kerangka dasar
berupa data teks sehingga tidak dapat dalam sebuah situs web yang berisi
langsung dianalisis melalui software informasi mengenai halaman-halaman yang
statistik biasa, maka perlu dilakukan suatu ada dalam situs. Halaman pada situs web
teknik untuk data pengguna web sehingga BPS terdapat 15 kategori, yaitu: “Beranda”,
dapat berubah menjadi format numerik, “Tentang BPS”, “Rencana Strategis BPS”,
seperti matriks distribusi frekuensi yaitu “Pusat Layanan”, “Istilah Statistik”,
melalui teknik bibliometric. Selanjutnya “Jabatan Fungsional”, “Sistem Rujukan
hasil yang didapatkan melalui bibliometric Statistik”, “Sekolah Tinggi Ilmu Statistik”,
dapat digunakan pada analisis statistik “Publikasi BPS”, “Bertita Resmi BPS”,
untuk pengelompokkan pengguna situs web “Unduh”, “Berita”, “Info Lelang”, “Subyek
BPS sehingga dapat dilihat pola segmentasi Statistik”, “Website BPS Provinsi”.
dari pengguna. Setiap kategori halaman
direpresentasikan dengan label integer.
METODE Contohnya, “Beranda” diberi kode 1,
“Tentang BPS” diberi kode 2, “Rencana
Berdasarkan uraian permasalahan
Strategis BPS” diberi kode 3, dan
yang disampaikan pada pendahuluan, dapat
dirumuskan dalam penelitian ini adalah seterusnya, seperti terlihat dalam Tabel 1.
Sumber data sebagian besar web
bagaimana mengolah data pengguna web
usage mining adalah web server log, yang
pada halaman situs web BPS dengan format
menyediakan data mentah untuk
41
Gambar 1. Posisi Dataview dalam Rantai Pengolahan Bibliometric
(Sumber: Rostaing, 2000, dalam Tarapanoff et al, 2001)
mengidentifikasi kumpulan data web atau mudah dikelola dalam proses
web usage session. Web server log berisi bibilometric.
catatan akses dari pengguna. Setiap record 4. Data format bibliometric diolah dengan
mewakili sebuah halaman yang diakses proses bibilometric sehingga
oleh pengguna dan umumnya berisi alamat menghasilkan output tabel kontingensi
IP (Internet Protocol) pengguna, tanggal dengan baris adalah field Internet
dan waktu akses diterima, alamat URL yang Protocol (IP) dan kolom adalah field
diakses, kode balasan dari server yang halaman.
menunjukkan status akses, dan ukuran file 5. Tabel kontingensi disederhanakan
(byte) dari halaman yang diakses sempurna. dengan mengklasifikasikan alamat IP
pengguna/ Internet Protocol (IP)
2. Teknik Bibliometric
berdasarkan negara.
Data text yang didapatkan dianalisis 6. Tabel kontingensi yang telah
dengan menggunakan proses bibliometric. disederhanakan kemudian dianalisis
Tahapan Teknik bibliometric seperti yang dengan menggunakan analisis statistik.
dapat dilihat pada Gambar 1 adalah sebagai
berikut: 3. Analisis Korespondensi
1. Data web berupa text file yang tidak Tabel kontingensi yang dihasilkan
terstruktur diubah menjadi database melalui teknik bibliometric kemudian
terstruktur. Data yang diambil dari web dianalisis dengan menggunakan analisis
log pada server perlu disiapkan statistik, dalam penelitian ini digunakan
sebelum memasuki proses pengolahan analisis korespondensi sederhana. Menurut
atau biasa disebut sebagai Izenman (2008), proses dari analisis
preprocessing. Proses ini terdiri dari 2 sebagai berikut:
(dua) tahapan, yaitu: pemilihan data
Tabel Kontingensi Dua Arah
dan transformasi data menjadi data
yang terstruktur. Hasil dari proses ini Data kategorik adalah data yang
adalah database web server log. dikumpulkan dari hasil hitungan yang
2. Database web server log terdiri dari 5 disusun dalam tabel kontingensi. Sebuah
field, yaitu: Internet Protocol (IP), tabel kontingensi dua arah (r×s) dengan r
waktu, halaman, status, dan ukuran. baris (diberi label A1, A2, ... , Ar) dan s
3. Data Internet Protocol (IP) dan kolom (diberi label B1, B2, ... , Bs) terdiri
halaman ditransformasi menjadi format dari rs sel. Sel ke-ij, nij, mewakili frekuensi
bibliometric. Data format bibliometric yang diamati untuk baris kategori Ai dan
terdiri dari field nomor record (NO), kolom kategori Bj, i = 1, 2, ... , r, j = 1, 2, ...
alamat IP pengguna/Internet Protocol , s. Total marjinal baris ke-i adalah 𝑛𝑖+ =
(IP), dan halaman yang diakses (HAL). ∑𝑠𝑗=1 𝑛𝑖𝑗 , i = 1, 2, ... , r, dan total marjinal
Data ini berupa text file sehingga lebih
42 |
Tabel 2. Tabel Kontingensi Dua Arah yang Menjelaskan Frekuensi Sel Pengamatan, Total
Marjinal Baris & Kolom, dan Jumlah Sampel
Variabel Variabel Kolom

Total Baris
Baris B1 B2 … Bj … Bs
A1 n11 n12 … n1j … n1s n1+
A2 n21 n22 … n2j … n2s n2+
… … … … … …
Ai ni1 ni2 … nij … nis ni+
… … … … … …
Ar nr1 nr2 … nrj … nrs nr+
n+s
Total Kolom n+1 n+2 … n+j … n++
kolom ke-j adalah 𝑛+𝑗 = ∑𝑟𝑖=1 𝑛𝑖𝑗 , j = 1, 2, Pada analisis korespondensi, penting
... , s. Jika 𝑛 = ∑𝑟𝑖=1 ∑𝑠𝑗=1 𝑛𝑖𝑗 individu untuk menggambarkan jarak diantara profil
diklasifikasikan oleh kategori baris dan baris (yaitu baris pada matriks Pr) atau
kolom, kemudian Tabel 3, yang juga diantara profil kolom (yaitu kolom pada
disebut tabel korespondensi, menunjukkan matriks Pc). Untuk mengukur jarak ini
frekuensi sel, total marjinal, dan total digunakan ukuran chi-squared.
ukuran sampel. 1. Jarak Baris
Notasi πij merupakan peluang bahwa Jika profil baris ke-i dan ke-i’ adalah
seorang individu memiliki karakteristik Ai ai dan ai’, maka ai - ai’ adalah s-vektor
𝑛 𝑛
dan Bj, i = 1, 2, ... , r, j = 1, 2, ... , s. Dengan dengan elemen ke-j 𝑖𝑗⁄𝑛𝑖+ − 𝑖′𝑗⁄𝑛𝑖 ′ + .
asumsi bahwa baris variabel A dan kolom Kuadrat dari jarak chi-squared diantara ai
variabel B adalah independen, sehingga πij dan ai’ sebagai berikut:
= πi+π+j, dengan 𝑖+ = ∑𝑗 𝑖𝑗 dan +𝑗 = 𝑑 2 (𝑎𝑖 , 𝑎𝑖′ ) = (𝑎𝑖 − 𝑎𝑖′ )𝑇 𝐷𝑐−1 (𝑎𝑖 − 𝑎𝑖′ )
∑𝑖 𝑖𝑗 , untuk semua i = 1 2, ... , r dan j = 1,
2, ... , s. Secara umum yang ingin dilihat 2
𝑛 𝑛 𝑛𝑖′𝑗
adalah apakah A dan B memang variabel = ∑𝑠𝑗=1 ( 𝑖𝑗 − 𝑛 ) (1)
𝑛+𝑗 𝑛𝑖+ 𝑖′ +
independen. Sebuah pertanyaan dapat Perhatikan Persamaan (1), massa
diajukan sebagai alternatif dalam hal kolom ke-j (𝑛+𝑗 ⁄𝑛) masuk ke dalam
homogenitas dari distribusi peluang baris persamaan tersebut berbanding terbalik
atau kolom, yaitu, apakah semua baris dengan kuadrat jarak dari profil baris.
memiliki distribusi peluang yang sama di Sehingga jumlah observasi (n) berpengaruh
setiap kolom, atau sebaliknya, semua kolom terhadap jarak antar profil baris.
memiliki distribusi peluang yang sama di Perhatikan bahwa c adalah sentroid
setiap baris. baris. Matriks berukuran (r x s) dari titik
Variabel Dummy Baris dan Kolom pusat profil baris Pr – 1rcT dengan Pr = Dr-
1P, memiliki baris ke-I (a – c)T dengan
i
Pada tabel kontingensi dua arah, −1
elemen ke-j 𝑛𝑖+ (𝑛𝑖𝑗 − 𝑛𝑖+ 𝑛+𝑗 ⁄𝑛), i = 1, 2,
dapat melihat hubungan antara kategori
... , r, j = 1, 2, ... , s. Sehingga kuadrat dari
baris dan kategori kolom seperti pada Tabel
jarak chi-squared antara ai dan c adalah:
2.
𝑑 2 (𝑎𝑖 , 𝑐) = (𝑎𝑖 − 𝑐)𝑇 𝐷𝑐−1 (𝑎𝑖 − 𝑐)
Merubah tabel kontingensi N menjadi 1 𝑛 𝑛𝑖+ 𝑛+𝑗 2
“matriks korespondensi” sebagaimana = 𝑛 ∑𝑠𝑗=1 (𝑛𝑖𝑗 − )
𝑖+ 𝑛𝑖+ 𝑛+𝑗 𝑛
Tabel 3 (2)
Jarak Chi-Square
43
Tabel 3. Matriks Korespondensi Menjelaskan Frekuensi Relatif dari Sel Pengamatan, Total
Marjinal Baris, dan Total Marjinal Kolom terhadap n
Variabel Variabel Kolom

Total Baris
Baris B1 B2 … Bj … Bs
A1 p11 p12 … p1j … p1s p1+
A2 p21 p22 … p2j … p2s p2+
… … … … … …
Ai pi1 pi2 … pij … pis pi+
… … … … … …
Ar pr1 pr2 … prj … prs pr+
Total Kolom p+1 p+2 … p+j … p+s 1
Penjumlahan dari semua profil baris 1 𝑛 𝑛𝑖+ 𝑛+𝑗 2

= 𝑛 ∑𝑟𝑖=1 (𝑛𝑖𝑗 − )
pada Persamaan (2) menjadi: +𝑗 𝑛𝑖+ 𝑛+𝑗 𝑛
𝑛 ∑𝑟𝑖=1 𝑝𝑖+ 𝑑 2 (𝑎𝑖 , 𝑐) = (7)
𝑛 𝑛 2 𝑛 𝑛 Penjumlahan dari semua profil kolom
∑𝑟𝑖=1 ∑𝑠𝑗=1 (𝑛𝑖𝑗 − 𝑖+ +𝑗 ) ⁄( 𝑖+ +𝑗) (3)
𝑛 𝑛 pada Persamaan (7) menjadi:
dengan statistik uji Pearson Chi- 𝑛 ∑𝑠𝑗=1 𝑝+𝑗 𝑑 2 (𝑏𝑗 , 𝑟) = 2 (8)
Squared sebagai berikut: dengan 2 seperti pada Persamaan (4).
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2
2 = ∑ 𝑖 ∑ 𝑗 (4) Sehingga rata-rata tertimbang dari
𝐸𝑖𝑗
kuadrat jarak chi-squared pada semua profil
Frekuensi sel hasil observasi Oij dan
baris terhadap sentroid baris atau pada
frekuensi sel harapan Eij (dengan asumsi
semua profil kolom terhadap sentroid
baris dan kolom independen) sebagai
kolom (dengan penimbang massa
berikut: 2
𝑛 𝑛 baris/massa kolom) adalah  /𝑛. Jika baris
𝑂𝑖𝑗 = 𝑛𝑖𝑗 , 𝐸𝑖𝑗 = 𝑖+𝑛 +𝑗 (5) dan kolom independen, maka 2 /𝑛 akan
dengan i = 1, 2, ... , r, j = 1, 2, ... , s. kecil, sejalan dengan 𝑝𝑖+ 𝑑 2 (𝑎𝑖 , 𝑐) dan
Di bawah asumsi sampel acak, 2 pada 𝑝+𝑗 𝑑 2 (𝑏𝑗 , 𝑟).
Persamaan (4) mendekati distribusi chi- Di sisi lain, jika 2 /𝑛 besar, berarti
squared (2) pada sampel besar dengan minimal ada satu dari 𝑝𝑖+ 𝑑 2 (𝑎𝑖 , 𝑐) atau
derajat bebas (r-1)(s-1). 𝑝+𝑗 𝑑 2 (𝑏𝑗 , 𝑟) akan besar. Informasi ini
2. Jarak Kolom
penting untuk menentukan apakah
Sama seperti jarak baris, untuk jarak
independensi dalam tabel terpenuhi atau
kolom, jika profil kolom ke-j dan ke-j’
tidak. Bandingkan matriks tersebut dengan
adalah bj dan bj’, maka bj – bj’ adalah r-
𝑛 matriks N = (Oij).
vektor dengan elemen ke-j 𝑖𝑗⁄𝑛+𝑗 −
𝑛𝑖𝑗′ Total Inersia
⁄𝑛+𝑗′ . Kuadrat dari jarak chi-squared
Dengan menggunakan dummy
diantara bj dan bj’ sebagai berikut: variable untuk mewakili tabel kontingensi
𝑇
𝑑2 (𝑏𝑗 , 𝑏𝑗′ ) = (𝑏𝑗 − 𝑏𝑗′ ) 𝐷𝑟−1 (𝑏𝑗 − dua arah, memungkinkan untuk melihat
𝑏𝑗′ ) suatu masalah sebagai suatu kasus khusus
2 dari analisis kanonik. Bagaimanapun
𝑛 𝑛 𝑛
= ∑𝑟𝑖=1 (𝑛 𝑖𝑗 − 𝑛 𝑖𝑗′ ) (6) situasinya berbeda, bahwa apabila menggali
𝑛𝑖+ +𝑗 +𝑗′
struktur korelasi antara dua set dari vektor
Kuadrat dari jarak chi-squared antara data statistik, akan berhadapan dengan
bj dan r adalah: struktur korelasi dari dua set dummy
𝑇
𝑑2 (𝑏𝑗 , 𝑟) = (𝑏𝑗 − 𝑟) 𝐷𝑟−1 (𝑏𝑗 − 𝑟) variable.
44 |
Tabel 4. Struktur Data Web Server Log Hasil Pemilihan Data
Nama Field Deskripsi Tipe Data
IP Alamat IP Pengguna Text
WAKTU Tanggal dan Jam Akses Date
URL URL yang Diakses Text
STATUS Status Akses Numeric
UKURAN Ukuran Halaman yang Diakses Numeric
Jika nilai dari 2 sangat besar, asumsi baris dan kolom menyimpang dari
independensi dari variansi baris dan kolom independensi.
pada tabel kontingensi tidak terpenuhi
(ditolak). Selanjutnya menentukan dimana HASIL DAN PEMBAHASAN
deviasi dari keindependenan terjadi. Nilai 1. Preprocessing Data
dari 2 /𝑛 mengacu pada nilai total inersia
pada tabel kontingensi. Nilai inersia utama Preprocessing data terdiri dari 2 (dua)
merupakan persentase dari total variansi tahapan, yaitu: pemilihan data dan
yang dijelaskan oleh beberapa komponen transformasi data.
utama, yang biasanya terdiri dari 2 (dua) Pemilihan Data
atau 3 (tiga) komponen utama.
Data web log pada server situs web
Tampilan Grafis BPS memiliki ukuran yang sangat besar dan
Pada analisis korespondensi, dapat berupa text file. Sehingga perlu ditentukan
dipilih hanya dengan menganalisis profil batasan dari segi waktu untuk analisis data
baris atau profil kolom, atau menganalisis pada penelitian ini. Pada penelitian ini, data
keduanya. Tampilan grafis dibentuk dengan yang dianalisis adalah data web server log
membuat plot dari koordinat baris dan bulan November 2011. Karena keterbatas
koordinat kolom yang merupakan software, data yang diproses adalah data 3
scatterplot. Tampilan grafis terdiri dari 2 (tiga) hari pada bulan tersebut, yaitu tanggal
(dua) jenis, yaitu: 1 (satu), 2 (dua) dan 3 (tiga). Data text file
1. Symetric map: Baik koordinat baris dan kemudian dimasukkan ke dalam database
koordinat kolom, keduanya dianggap web server log agar menjadi file yang
sebagai koordinat utama. terstruktur. Pada tahapan ini dilakukan juga
2. Asymetric map: Koordinat baris (atau proses cleaning data untuk menghilangkan
kolom) dianggap sebagai koordinat data yang berulang (redundant) dan
utama, sedangkan yang lainnya pemilihan data yang berstatus berhasil
dianggap sebagai koordinat biasa. melakukan akses. Ukuran database untuk 3
Secara garis besar, titik yang terlihat hari sebanyak 61.759 record. Struktur data
dekat diantara satu sama lain menunjukkan web server log hasil pemilihan data dapat
hubungan antar kategori. Lebih jelasnya dilihat pada Tabel 4.
sebagai berikut: Proses pemilihan data menggunakan
1. Jika titik pada baris dekat, maka baris program yang dirancang dengan
tersebut memiliki distibusi bersyarat menggunakan bahasa pemrograman
yang sama pada setiap kolom. Microsoft Visual Basic.NET yaitu melalui
2. Jika titik pada kolom dekat, maka fasilitas tombol “Cleaning”.
kolom tersebut memiliki distibusi Tranformasi Data
bersyarat yang sama pada setiap baris.
Data web server log yang sudah
3. Jika titik pada baris dan kolom dekat,
dipilih masih belum sesuai dengan struktur
maka hal tersebut menyatakan bahwa
data untuk analisis pada penelitian ini.
deviasi tertentu dari independensi atau
Struktur data yang dimaksud adalah
45
Tabel 5. Struktur Data Hasil Transformasi
Nama Field Deskripsi Tipe Data
IP Alamat IP Pengguna Text
HALAMAN Halaman yang Diakses Text
Tabel 6. Matriks Kontingensi Hasil dari Bibliometric
IP 11 14 1 10 2 9 12 5 13 4 3 6 15 8
193.130.130.153 87 2342 916 280 1 0 0 0 0 0 0 0 0 0

223.255.225.75 2398 0 0 0 0 0 0 0 0 0 0 0 0 0
50.115.185.87 1524 108 499 0 0 2 0 0 0 0 0 0 0 0
66.249.69.24 68 422 10 616 174 40 168 17 6 1 10 1 1 1
69.191.249.202 0 548 132 563 0 0 0 0 0 0 0 0 0 0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
103.10.169.235 1 0 0 0 0 0 0 0 0 0 0 0 0 0
101.255.16.202 1 0 0 0 0 0 0 0 0 0 0 0 0 0
10.5.3.21 1 0 0 0 0 0 0 0 0 0 0 0 0 0
1.113.17.82 0 0 1 0 0 0 0 0 0 0 0 0 0 0
struktur data yang menggambarkan pola server log hasil transformasi data kemudian
akses data berdasarkan halaman yang dirubah lagi menjadi format bibliografi
diakses. Sehingga perlu dilakukan proses yang kemudian akan digunakan dalam
transformasi data, yaitu dengan teknik biblometrik. Data diubah ke dalam
mentransformasi alamat URL yang diakses field-field yang berisi form dalam format
menjadi halaman-halaman yang ada dalam text.
situs. Halaman pada situs web BPS terdapat
2. Penerapan Teknik Bibliometric
15 kategori, yaitu: “Beranda”, “Tentang
BPS”, “Rencana Strategis BPS”, “Pusat Berdasarkan data yang telah dirubah
Layanan”, “Istilah Statistik”, “Jabatan bentuknya menjadi format bibliografi,
Fungsional”, “Sistem Rujukan Statistik”, maka selanjutnya diterapkan teknik
“Sekolah Tinggi Ilmu Statistik”, “Publikasi bibliometric untuk mendapatkan bentuk
BPS”, “Berita Resmi BPS”, “Unduh”, yang dapat dianalisis lebih lanjut, dari
“Berita”, “Info Lelang”, “Subyek Statistik”, format aslinya yang berupa teks. Pada tahap
“Website BPS Provinsi”. Setiap kategori ini, data diolah dengan software khusus
halaman direpresentasikan dengan label untuk format bibliografi. Selanjutnya data
integer. Contohnya, “Beranda” diberi kode dalam dalam format bibliografi diubah
1, “Tentang BPS” diberi kode 2, “Rencana bentuknya oleh software menjadi field “IP”
Strategis BPS” diberi kode 3, dan (alamat IP) dan “HAL” (Halaman yang
seterusnya. Diakses), sedangkan isi dari field tersebut
Struktur data hasil transformasi dapat menjadi form yang kemudian akan
dilihat pada Tabel 5. diekstrak dan dipasangkan (pair) antar field
melalui suatu proses hingga menghasilkan
Data ditransformasi menjadi bentuk matriks kontingensi dua arah berukuran
IP berdasarkan halaman web yang diakses. 2.618 baris yang merepresentasikan
Setelah data terbentuk, diperhatikan bahwa pengguna, dalam hal ini IP, dan 14 kolom
terdapat beberapa pengguna memiliki yang merepresentasikan halaman yang
karakteristik khusus, yaitu pengguna yang diakses, dalam hal ini kategori halaman
mengakses langsung pada halaman tertentu seperti pada Tabel 1. Matriks tersebut dapat
dan mengaksesnya berulangkali. Data web dilihat pada Tabel 6.
46 |
Gambar 2. 10 Negara Tertinggi yang Mengakses Situs Web BPS
Tabel 7. Kode Negara Klasifikasi Alamat IP

Negara Kode Negara Kode
Indonesia 1 Malaysia 6
Australia 2 Jerman 7
USA 3 Jepang 8
Inggris 4 Singapura 9
Cina 5 Lainnya 10
Kategori halaman yang muncul pada unknown adalah alamat IP yang tidak dapat
matriks ini hanya 14 dari keseluruhan 15 ditelusuri asal negaranya, ada beberapa IP
kategori, hal ini disebabkan salah satu berbayar yang dirahasiakan
kategori tersebut, yaitu kode “7” tidak ada kepemilikannya, atau yang dikenal dengan
yang mengakses dalam 3 hari data yang private IP number, dan dimasukkan ke
dimasukkan ke dalam pengolahan. Pada dalam klasifikasi lainnya. Sehingga alamat
software apabila isian kosong, maka IP berdasarkan asal negara terbagi menjadi
otomatis akan hilang. 10 (sepuluh) klasifikasi yang dapat dilihat
pada Tabel 7.
3. Pengklasifikasian Pengguna Data
Berdasarkan klasifikasi tersebut maka
Matriks yang dihasilkan tersebut seluruh alamat IP yang ada pada tabel
memiliki ukuran yang cukup besar. kontingensi yang sudah didapat pada Tabel
Sehingga untuk menyesuaikan dengan 6 ditransformasi berdasarkan asal
tujuan segmentasi yang hendak dicapai, negaranya. Untuk mengklasifikasikan
maka dilakukan pengklasifikasian pada alamat IP digunakan program yang dapat
pengguna data, dalam hal ini IP, dilihat pada Gambar 4 melalui fasilitas
berdasarkan negara asal pemilik IP. Negara tombol “Country Class”. Database asal
yang dimunculkan pada klasifikasi ini negara diperoleh dari situs web tentang
diambil berdasarkan 9 (sembilan) negara lokasi alamat IP, yaitu
yang memiliki frekuensi tertinggi http://www.ipaddresslocation.org. Dari
mengakses situs web BPS di Bulan transformasi tersebut didapat rekapitulasi
November 2011. Negara-negara yang akses web BPS berdasarkan negara pada
memiliki frekuensi kecil masuk ke dalam Tabel 8.
klasifikasi lainnya. Seperti yang terlihat Tabel 8 menunjukkan banyaknya
pada Gambar 2. akses setiap negara ke web BPS, terlihat
Gambar 2 di atas didapat dari statistik bahwa banyaknya akses dari dalam negeri
web pada situs web BPS pada bulan (kode negara 1) sebesar 40,42%. Sedangkan
November 2011. Negara dengan kategori banyaknya akses dari luar negeri (kode
47
Tabel 8. Rekap Negara yang Mengakses Web BPS
Kode Negara Frekuensi Akses Persentase
1 24965 40,42
2 947 1,53
3 11571 18,74
4 4533 7,34
5 3346 5,42
6 626 1,01
7 991 1,60
8 1746 2,83
9 2019 3,27
10 11015 17,84
Total 61759 100
Tabel 9. Tabel Kontingensi Setelah Diklasifikasikan Berdasarkan Negara
Kode H11 H14 H1 H10 H2 H9 H12 H5 H13 H4 H3 H6 H15 H8

1 21307 1049 1383 771 197 57 12 68 93 17 5 6 0 0
2 624 140 126 9 26 12 0 3 0 2 4 0 1 0
3 931 4228 2486 2760 461 175 333 134 24 16 17 3 2 1
4 374 2579 1183 357 26 9 0 3 0 1 1 0 0 0
5 259 1804 961 109 88 64 7 19 3 5 9 17 1 0
6 115 336 116 28 17 6 0 4 1 2 1 0 0 0
7 687 117 99 15 51 8 0 3 0 6 3 2 0 0
8 574 298 563 204 49 43 0 13 0 2 0 0 0 0
9 439 471 928 84 44 36 0 10 0 2 5 0 0 0
10 4571 2427 3085 249 261 145 143 104 4 12 14 0 0 0
negara 2 s/d 10) sebesar 59,58%. Akses luar Data di atas kemudian diolah dengan
negeri paling banyak berasal dari negara software statistik menggunakan analisis
Amerika Serikat (kode 3) sebesar 18,74%. korespondensi. Output pengolahan dari
Hasil transformasi dari tabel frekuensi yang software statistik ditunjukkan pada Gambar
diklasifikasikan menurut negara dapat 3.
dilihat pada Tabel 9. Pada Gambar 3 menunjukkan grafik
Perhatikan Tabel 9, kolom Kode symetric map 2 (dua) dimensi dengan
menunjukkan kode negara. Sedangkan koordinat baris (row coordinates) adalah
kolom H11 s/d H8 menunjukkan halaman kode negara dan koordinat kolom (colomn
yang diakses. coordinates) adalah kode halaman yang
diakses. Sesuai dengan salah satu tujuan
4. Penerapan Analisis Korespondensi
analisis korespondensi, terlihat
Analisis korespondensi dapat pengelompokkan yang dapat diambil pada
digunakan untuk mengetahui kedekatan grafik. Pengambilan kelompok diambil
hubungan antar kategori dari 2 (dua) dengan melihat jarak yang terdekat diantara
variabel. Berdasarkan Tabel 9 terdapat 2 koordinat tersebut secara subyektif.
(dua) variabel yang dianalisis yaitu negara Pertama, dapat dilihat
yang mengakses (Kode) dan halaman yang pengelompokkan dengan batas merah,
diakses (H1 s/d H15). Format data pada negara dengan kode 1, 2, dan 7 (Indonesia,
Tabel 9 diubah terlebih dahulu ke dalam Australia dan Jerman) berkelompok dengan
format data yang sesuai dengan software halaman 11 dan 13 (Unduh dan Info
statistik seperti pada Tabel 10. Lelang). Sehingga dapat digambarkan
48 |
Tabel 10. Format Data Menurut Frekuensi
Klasifikasi Halaman yang Diakses Frekuensi

1 11 21307
1 14 1049
… … …
2 8 0
3 11 931
3 1 2486
3 10 2760
Gambar 3. Output Software Statistik untuk Analisis Koresponden

negara-negara tersebut mengakses untuk mengakses data pada BPS melalui
halaman-halaman tersebut yang paling bentuk selain web. Misalnya melalui
banyak. Bukan berarti negara lain tidak perpustakaan maupun konsultasi statistik
mengakses halaman tersebut ataupun bukan yang ada dalam Pusat Layanan.
berarti negara tersebut tidak mengakses Ketiga, pengelompokkan terjadi pada
halaman lainnya. Jika dilihat pada negara dengan kode 4, 5, 6 dan 9 (Inggris,
pengelompokkan ini, korespondensi antara Cina, Malaysia dan Singapura) dengan
negara kode 1 (Indonesia) dengan halaman halaman berkode 1, 3, 9, dan 14 (Beranda,
kode 11 (Unduh) sangat dekat. Rencana Strategis BPS, Publikasi BPS, dan
Kedua, pengelompokkan terjadi pada Subyek Satistik) yang menggambarkan
negara dengan kode 8 dan 10 (Jepang dan bahwa negara-negara ini mengakses dengan
Lainnya) dengan halaman berkode 2, 5, dan hampir merata terhadap halaman-halaman
4 (Tentang BPS, Pusat Layanan dan Istilah yang ada pada situs web BPS, tetapi paling
Statistik). Sehingga dapat digambarkan berkorespondensi dengan halaman-hlaman
bahwa negara-negara ini berkorespondensi tersebut. Jika dilihat pada pengelompokkan
dengan halaman-halaman tersebut. Dapat ini, negara dengan kode 4 (Inggris) sangat
juga dikatakan negara-negara ini tertarik dekat korepondensinya halaman berkode 14
49
(Subyek Statistik) yang menggambarkan maupun konsultasi statistik yang ada
tingginya akses negara tersebut dalam dalam Pusat Layanan.
membuka halaman Subyek Statistik yang 3. Kelompok ketiga terjadi pada negara
berisi tabel-tabel statistik berdasarkan Inggris, Cina, Malaysia dan Singapura
subyek. dengan halaman “Beranda”, “Rencana
Selanjutnya adalah pengelompokkan Strategis BPS”, “Publikasi BPS”, dan
antara negara dengan kode 3 (USA) dan “Subyek Satistik”. Negara Inggris
halaman dengan kode 10, 12 dan 15 (Berita sangat dekat korepondensinya halaman
Resmi BPS, Berita dan Website BPS “Subyek Statistik” yang
Provinsi). Hal ini menggambarkan negara menggambarkan tingginya akses
tersebut paling banyak mengakses negara tersebut dalam membuka
halaman-halaman tersebut. Sedangkan pada halaman Subyek Statistik yang berisi
halaman berkode 8 (Sekolah Tinggi Ilmu tabel-tabel statistik berdasarkan
Statistik) berada pada posisi yang jauh dari subyek.
kelompok manapun. Hal ini Kesimpulan yang diwakili oleh ketiga
menggambarkan halaman ini yang paling kelompok ini, bukan berarti negara-negara
jarang diakses oleh negara-negara tersebut. tersebut tidak mengakses halaman-halaman
lainnya. Secara korespondensi bisa dilihat
KESIMPULAN DAN SARAN kedekatan yang paling sering diakses. Yang
Berdasarkan hasil dan pembahasan, menarik adalah halaman berkode 8
dapat diambil beberapa kesimpulan bahwa (Sekolah Tinggi Ilmu Statistik) yang berada
pengguna situs web BPS yang diwakili oleh jauh dari kelompok manapun, hal ini bisa
alamat IP dapat dikelompokkan dengan dipelajari lebih lanjut.
halaman yang diakses berdasarkan asal Berdasarkan kesimpulan tersebut,
negara, sehingga didapat segmentasi maka penulis menyarankan beberapa hal,
pengguna data situs web BPS. Secara garis sebagai berikut:
besar menjadi 3 (tiga) kelompok: 1. Hasil pengelompokkan dapat
1. Berdasarkan Gambar 4 terjadi digunakan sebagai bahan pertimbangan
pengelompokkan pada negara dalam mengembangkan situs web BPS,
Indonesia, Australia dan Jerman berhubungan dengan tampilan dan
terhadap halaman “Unduh” dan “Info kemudahan akses dalam membuka
Lelang”, bahkan korespondensi antara halaman-halaman yang sering diakses.
Indonesia dan halaman “Unduh” 2. Penyempurnaan untuk halaman web
sangat dekat. Ini bisa diartikan bahwa berbahasa asing, berhubungan dengan
yang mengunduh halaman web BPS eratnya korespondensi negara luar
paling banyak berasal dari Indonesia. dalam mengakses halaman-halaman
Sedangkan untuk Australia dan Jerman yang ada pada situs web BPS.
juga banyak mengakses unduh dengan
jarak yang hampir sama dengan DAFTAR PUSTAKA
Indonesia mengakses Info Lelang. Almind and Ingwersen. 1997. Informetric
2. Kedua, pengelompokkan terjadi pada analyses on the World Wide Web:
negara Jepang dan Lainnya dengan Methodological Approaches to
halaman “Tentang BPS”, “Pusat Webometrics. E-Journal on-line
Layanan” dan “Istilah Statistik”. Melalui
Sehingga dapat digambarkan bahwa http://www.cindoc.csic.es/cybermetri
negara-negara ini berkorespondensi cs/
dengan halaman-halaman tersebut. Bjorneborn and Ingwersen. 2004. Toward a
Dapat juga dikatakan negara-negara ini Basic Framework for Webometrics.
tertarik untuk mengakses data pada E-Journal on-line Melalui
BPS melalui bentuk selain web. http://www.interscience.wiley.com/c
Misalnya melalui perpustakaan gi-
bin/abstract/109594194/ABSTRACT
50 |
BPS. 2011. Laporan Reformasi Birokrasi http://www.morganclaypool.com/doi
Badan Pusat Statistik. Jakarta: BPS. /abs/10.2200/S001-
Cox, et al. 2001. Multidimensional Scalling 76ED1V01Y200903ICR004
(Second Ed.). New York: CRC Press Web Mining. Melalui
LCC. E-book. http://en.wikipedia.org/wiki/Web_mi
Greenacre, J. 1984. Theory and Application ning
of Correspondence Analysis. London: Xu, et al. 2011. Web Mining and Social
Academic Press. E-book. Networking. New York: Springer. E-
Izenman, A.J. 2008. Modern Multivariate book.
Statistical Techniques. New York:
Springer. E-book.
Khodra, M.L. 2003. Text Mining Kategori
Teks Naive Bayes. E-Journal on-line
Melalui
http://kur2003.if.itb.ac.id/file/TextMi
ningKlasifikasiNB.pdf
Nicholson, S. 2006. The Basis for
Bibliomining: Frameworks for
Bringing Together Usage-Based Data
Mining and Bibliometrics through
Data Warehousing in Digital Library
Services. E-Journal on-line Melalui
http://arizona.openrepository.com/ari
zona/bitstream/10150/106175/1/ni-
cholson2.pdf
Santoso, B. 2007. Data Mining Teknis
Pemanfaatan Data untuk Keperluan
Bisnis. Graha Ilmu.
Srivastava, et al. 2000. Web Usage Mining:
Discovery and Applications of Usage
Patterns from Web Data. E-Journal
on-line Melalui
http://nlp.uned.es/WebMining/Tema
5.Uso/srivastava2000.pdf
Supriyadi, Y. 2011. Aplikasi Teknik
Bibliometric pada Analisis Data
Paten. Seminar Statistik Nasional
2011.
Tarapanoff, K, et al. 2001. Intellegence
Obtained by Applying Data Mining to
a Database of French Theses on The
Subject of Brazil . Information
Research, Vol. 7 No. 1, October 2001.
Thelwall, M. 2007. Bibliometrics to
Webometrics. E-Journal on-line
Melalui http:// www.scit.wlv.ac.uk/
~cm1993/ papers/ JIS-0642-v4-
Bibliometrics-to- Webometrics.pdf
Thelwall, M. 2009. Introduction to
Webometrics: Quantitative Web
Research for the Social Sciences. E-
Journal on-line Melalui
51
52 |
DETEKSI INTRUSI JARINGAN DENGAN K-MEANS CLUSTERING
PADA AKSES LOG DENGAN TEKNIK PENGOLAHAN BIG DATA
Farid Ridho1, Arya Aji Kusuma2

Program Studi Komputasi Statistika
e-mail:, 1faridr@stis.ac.id, 2aryaaku999@gmail.com
Abstrak
Keamanan jaringan, adalah salah satu aspek penting dalam terciptanya proses komunikasi data yang
baik dan aman. Namun, masih adanya serangan yang efektif membuktikan bahwa sistem keamanan
yang berlaku belum cukup efektif untuk mencegah dan mendeteksi serangan. Salah satu metode yang
dapat digunakan untuk mendeteksi serangan ini adalah dengan dengan Intrusion Detection System
(IDS). Besarnya data (volume), cepatnya perubahan data (velocity), serta variasi data (variety)
merupakan ciri-ciri dari Big data. Akses log, secara teori termasuk dalam kategori ini sehingga dapat
dilakukan pemrosesan menggunakan teknologi bigdata dengan Hadoop. Hal ini mendorong penulis
untuk dapat menerapkan metode pengolahan baru yang dapat mengatasi perkembangan data tersebut,
yaitu Big data. Penelitian ini dilakukan dengan menganalisis akses log dengan K-Means Clustering
menggunakan metode pengolahan bigdata. Penelitian menghasilkan satu model yang dapat digunakan
untuk mendeteksi sebuah serangan dengan probabilitas deteksi sebesar 99.68%. Serta dari hasil
perbandingan kedua metode pengolahan bigdata menggunakan pyspark dan metode tradisional
menggunakan python standar, metode bigdata memiliki perbedaan yang signifikan dalam waktu yang
dibutuhkan dalam eksekusi program.
Kata kunci: IDS, big data, akses log, k-means, clustering
Abstract
Good network security planning ensures the safety and comfort of user data. However, the existence of
effective attacks proves that the current security system is not effective to prevent and detect attacks.
One of methods that can be used to detect this attack is by using Intrusion Detection System (IDS). The
amount of data (volume), speed of which data change (velocity), and variations in data (variety) are
characteristics of big data. Log access, theoretically is also a form of big data so a new approach in
statistical data processing is needed to overcome big data. This research was conducted by analyzing
log access with K-Means Clustering using the big data processing technique. The study produced a
model that can be used to detect an attack with a detection probability of 99.68%. As well as a
comparison between big data using Pyspark and traditional processing technique using standard
python, which big data technique has a significant difference in time needed to execute the program.
Keywords: IDS, big data, log access, k-means, clustering
53
sebelumnya, yaitu false-negative. Ditambah
PENDAHULUAN metode ini sering mengklasifikasikan
Komunikasi antar komputer aktifitas atau lalu lintas baru sebagai
merupakan hal sehari – hari yang sering serangan, dapat disebut sebagai false-
ditemui saat ini. Komunikasi ini dapat positive yaitu aktivitas normal yang tercatat
terjadi karena adanya sebuah hubungan sebagai serangan.
dalam jaringan komputer. Peranan jaringan Sedangkan Sistem deteksi intrusi
komputer tidak hanya terletak pada jaringan berbasis anomali
komunikasi antar komputer, akan tetapi mengklasifikasikan aktivitas atau trafik ke
juga terletak pada pertukaran data yang dalam klasifikasi data normal maupun data
terjadi, baik untuk masyarakat, industri anomali. Hal ini dapat dihasilkan dengan
maupun pemerintah. Pada cara statistik. Dengan melihat data secara
implementasinya, perlu diperhatikan tiga statistik, dapat dihasilkan model yang tepat
aspek utama, yaitu performance, reliability, dapat mendeteksi serangan dan dapat selalu
dan security agar kegiatan komunikasi dan terbaharui. Aktivitas dan lalu lintas dalam
pertukaran data dapat berjalan secara cepat, komunikasi antar server dan pengguna
aman dan nyaman baik bagi seluruh tercatat dalam data log (Iversen, 2015).
kalangan. Akses log, merupakan catatan data
Keamanan merupakan aspek utama transaksi pengguna dan server yang
dalam adanya jaringan komputer yang baik. meliputi URL, HTML, gambar, file,
Dalam penerapan keamanan jaringan, dapat browser yang digunakan dalam kejadian
dibagi menjadi empat tahapan yaitu transaksi tersebut. Secara umum, akses log
prediksi, cegah, deteksi, dan tanggapan. dapat dianalisis secara statistik untuk
Empat tahapan ini memberikan proteksi informasi perihal monitoring jaringan,
untuk menjaga data baik untuk server, seperti banyaknya pengunjung, banyaknya
maupun pengguna agar terhindar dari jumlah akses data, maupun melihat
ancaman luar yang dapat merusak maupun popularitas halaman setiap harinya
merugikan pihak terkait. Namun, masih (Valdman, 2001). Karena data tercatat
adanya kasus serangan pada jaringan secara keseluruhan transaksi, maka dapat
membuktikan bahwa proteksi yang dilakukan analisis yang lebih lanjut. Akan
disediakan oleh sistem keamanan jaringan tetapi, perlu diketahui bahwa dengan
belum sempurna (Govscirt, 2018). penggunaan akses log maka dapat
Sistem Deteksi Intrusi Jaringan menimbulkan permasalahan pada saat
merupakan salah satu pendekatan dalam prosesing data karena file akses log
deteksi serangan, metode ini memiliki ukuran yang besar, memiliki
mengklasifikasikan aktivitas jaringan yang perubahan data yang sangat cepat, dan
sedang terjadi ke dalam model yang telah memuat berbagai macam informasi (Grace,
dibangun sistem ke dalam library sehingga 2011).
dapat dikategorikan sebagai aktifitas Besarnya ukuran data, cepatnya
normal atau serangan (Chakraborty, 2017). perubahan data, serta data yang bervariasi
Pada praktiknya, sistem intrusi jaringan merupakan ciri – ciri dari Big Data.
dibagi menjadi dua yaitu berbasis anomali Sehingga, secara teori akses log merupakan
dan berbasis aturan. Pada Sistem Deteksi Big Data maka dapat dilakukan metode
Intrusi jaringan berbasis aturan, aktivitas pengolahan dengan Big Data untuk
atau lalu lintas akan dicek dengan mengatasi permasalahan tersebut.
membandingkan data tersebut dengan Pengolahan dengan teknik Big Data akan
aturan yang telah dicatat sebelumnya melibatkan Hadoop, yaitu aplikasi berbasis
menggunakan pola yang sering ditemukan open-source yang dapat mengatur dan
pada aktivitas serangan. Sistem Akan tetapi, memproses data secara terdistribusi.
metode ini memiliki kekurangan yaitu Dengan arsitektur Hadoop, juga akan
metode ini tidak dapat mendeteksi serangan digunakan Spark yaitu aplikasi pengolahan
tipe baru yang belum pernah tercatat data secara terdistribusi (Scott, 2015).
54 |
Gambar 1. Peta Literatur
Algoritma analisis yang digunakan adalah
1. Peta literatur bahasan
K-Means Clustering. Dimana data akan di
klaster kan menjadi 2 dan lalu akan Peta literatur diatas menjelaskan
diklasifikasikan sebagai cluster normal dan adanya kesinambungan atas beberapa topik
cluster anomali. Dari cluster bentukan itu yang telah dijelaskan sebelumnya. Untuk
akan dibangun sebagai model yang mengatasi permasalahan deteksi intrusi
nantinya dapat digunakan untuk jaringan dapat menggunakan analisis akses
menganalisis aktivitas atau trafik baru yang log, dimana akses log adalah catatan
masuk. seluruh transaksi. Karena besarnya ukuran,
cepatnya perubahan serta data yang
METODOLOGI memiliki variasi, akses log dapat
dikategorikan sebagai bigdata. Maka dalam
Logfile adalah catatan atas seluruh
proses pengolahannya dapat digunakan
kejadian atau transaksi yang terjadi pada
teknik pengolahan Big Data. Pengolahan
suatu sistem. Seiring perkembangan jaman,
Big Data dilakukan dengan tujuan
transaksi antar pengguna terjadi dalam
memeriksa keseluruhan data untuk
hitungan menit bahkan detik. Sehingga
menemukan pola didalamnya (Mukherjee
untuk memenuhi kebutuhan atas
dkk, 2016). Untuk melakukan proses
pengolahan dan prosesing data, diperlukan
komputasi secara cepat untuk data besar
teknik yang tepat yaitu teknik Big Data.
tersebut, tidak dapat menggunakan sistem
Dalam penelitian ini akan digunakan akses
konvensional seperti RDBMS maupun
log dari website www.stis.ac.id dalam
sistem penyimpanan lainnya, karena dapat
periode waktu 27 Februari 2017 hingga 31
memberikan beban yang terlalu besar pada
Oktober 2017. Akses log akan diproses
komputer pengolah. Untuk menanggulangi
menggunakan Big Data dengan K-Means
hal ini dapat digunakan Hadoop sebagai
Clustering sebagai metode analisisnya
arsitektur pengolahan Big Data (Parthiban,
(Chandel, 2017).
2016).
55
Gambar 2. Kerangka Pikir Penelitian
regular expression memanfaatkan pola
2. Kerangka Pikir Penelitian
yang terdapat pada data akses log sendiri.
Dari penjelasan diatas, setiap Proses data preprocessing yang dilakukan
tahapan dan langkah penelitian dapat adalah sebagai berikut:
digambarkan pada kerangka pikir (Gambar 1. Data cleaning: Pembersihan data
2). dengan mengisi missing value, dan
Dari kerangka pikir di atas, dapat mengatasi inkonsistensi data yang ada
dilihat bahwa dari log akses dilakukan pada log.
clustering dengan fitur yang terpilih untuk 2. Data integrasi: Menghilangkan konflik
mendapatkan pusat cluster untuk dibentuk dan menggabungkan data dengan tipe
model yang nantinya akan di evaluasi untuk berbeda
melihat ukuran dari model tersebut (Fink 3. Data selection: Memilih data sesuai
dkk, 2012). Serta dalam proses pengolahan dengan yang dibutuhkan, dalam istilah
menggunakan bigdata, akan diuji lain sering disebut dengan istilah
perbedaannya dengan metode tradisional. feature selection
3. Metode Analisis 4. Data transformation: Data di
normalisasi, agregasi, dan generalisasi
Dalam penelitian ini dilakukan
serangkaian tahapan guna mencapai hasil Ekstraksi dan Pemilihan Fitur
analisis yang representatif. Analisis yang Analisis K-Means dilakukan pada
digunakan adalah dengan metode K-Means beberapa variabel pilihan. Pemilihan
Clustering. K-Means Clustering dilakukan variabel tersebut dilakukan dengan tahapan
pada variabel akses log yang dipilih. Ekstraksi dan Pemilihan Fitur. Ektraksi
Berikut tahapan yang dilewati dalam fitur untuk melakukan transformasi data
pengerjaan penelitian ini : menjadi fitur yang sesuai dengan model.
Data preprocessing Dalam penelitian terkait tentang ekstraksi
fitur pada data log server web, didapatkan
Data akses log berekstensi log akan di 30 fitur yang dapat diambil dari sebuah file
parsing terlebih dahulu menggunakan log untuk deteksi serangan (Nguyen, dkk,
bahasa pemrograman python, hal ini 2011).
dilakukan agar memudahkan sistem untuk
mengolah data tersebut. Parsing data
dilakukan dengan bantuan regex, yaitu
56 |
Gambar 3. Fitur yang Dianggap Relevan pada Deteksi Serangan
Tabel 1. Fitur Spesial
No Serangan Contoh Karakter Spesial
(1) (2) (3) (4)
1 Directory Transversal /admin/./index.html Slash (/), dot (.)
2 Hex-Encode HTTP Evasion /%69%6E%64%65 Persentase (%)
3 Regex Attack ^(([a-z])+.)+$ Semua simbol
Keterangan simbol untuk Gambar 3 transaksi pengguna dan server. Karakter ini
adalah sebagai berikut: ⋆ fitur yang dipilih di ekstraksi dari variabel request yang
oleh CFS dari dataset CSIC-2010, † fitur merupakan halaman yang dituju oleh
yang dipilih oleh mRMR dari dataset CSIC pengguna terkait.
2010; • fitur yang dipilih oleh CFS dari Setelah melakukan ekstraksi fitur
dataset ECML/PKDD 2007 ;  fitur yang kemudian akan dilakukan proses pemilihan
dipilih oleh mRMR dari dataset fitur yang dilakukan untuk memilih fitur
ECML/PKDD 2007. Untuk fitur dalam yang berpengaruh terhadap data dengan
akses log serta melihat faktor yang sering tujuan memberikan hasil analisis yang
muncul pada serangan pada penelitian akurat sesuai masalah yang ada. Sehingga,
terkait, dipilih 6 variabel, yaitu: (a)Panjang setelah proses pemilihan fitur ini
karakter pada request, (b)Panjang karakter didapatkan 8 fitur utama yang akan
pada host, (c)Panjang karakter pada User- digunakan untuk keperluan pengolahan dan
agent, (d)Besaran ukuran byte dalam analisis tujuan penelitian (Tabel 2).
transaksi, (e) panjang karakter pada Dari Tabel 2 terlihat beberapa fitur
Referer, serta (f) Banyaknya karakter yang digunakan untuk keperluan analisis.
spesial pada request. Beberapa karakter Terdapat 8 variabel yang digunakan untuk
spesial merupakan ciri – ciri adanya keperluan analisis, yaitu besaran request
serangan tertentu. Dengan detail pada pengguna, panjang karakter dari host,
karakter spesial mengikuti banyaknya panjang karakter dari request line, panjang
okurensi yang mewakili serangan tersebut karakter dari User-Agent, panjang karakter
seperti yang ditampilkan pada Tabel 1. dari Referer, banyaknya okurensi garis
Dari beberapa karakter spesial, dipilih miring, dot, serta persentase. Variabel
karakter garis miring (/), titik(.), serta tersebut diasumsikan telah dapat mewakili
symbol persen (%). Karakter spesial beberapa karakteristik dari aktivitas
tersebut dipilih karena dianggap dapat jaringan, baik aktivitas normal maupun
mendeteksi anomali yang ada pada anomali.
57
Tabel 2. Fitur Terpilih sebagai Variabel Penelitian
No Feature Name
(1) (2)
1 Panjang dari request line
2 Panjang dari IP Host
3 Panjang header dari User-Agent
4 Besarnya ukuran byte setiap request
5 Panjang header dari Referer
6 Jumlah okurensi garis miring
7 Jumlah okurensi titik
8 Jumlah okurensi persentase
Tabel 3. Confusion Matrix
Predicted value
P N
True
P TP FN
value
N FP TN
negative rate, sensitifitas atas model,

Pengolahan dan Analisis Data
spesifik dari model, classification rate serta
Setelah dilakukannya seleksi fitur presisi atas hasil dari model. Keenam
untuk K-Means, maka hasil olahan akan metrik ini dapat didapatkan dari
siap diolah menggunakan Hadoop dan perhitungan 4 aspek, yaitu True positive,
Spark. Hal ini dilakukan dengan true negative, false positive dan false
menjalankan dua aplikasi yang negative seperti pada confusion matrix
bersangkutan, yaitu Hadoop Distributed (Tabel 3).
File System (HDFS) serta Spark. HDFS Beberapa nilai di atas dapat
adalah media penyimpanan secara menggambarkan kondisi yang sesuai untuk
terdistribusi antar komputer sehingga bahasan keamanan jaringan komputer, baik
memungkinkan Hadoop dan Spark dalam hal ketepatan dan akurasinya.
melakukan tugas pengolahan data secara
terdistribusi. Pada percobaan ini digunakan Spesifikasi yang digunakan
2 komputer, yaitu satu sebagai master node Dalam tahapan pengolahan diatas,
dan satunya sebagai slave node. Master digunakan dua perangkat komputer yang
node merupakan komputer pengatur terhubung dalam virtualBox. Dimana satu
jalannya pengolahan terdistribusi, komputer berperan sebagai master node,
sedangkan slave merupakan komputer dan yang lainnya adalah slave node. Master
pekerja. Dalam pengolahan datanya, node bertugas untuk mengendalikan dan
digunakan PySpark, yaitu Python in Spark. membagi tugas antar komputer yang
Merupakan program yang memungkinkan terhubung. Sedangkan slave node bertugas
untuk menggunakan bahasa pemrograman hanya sebagai penerima perintah dari
python dalam Spark melalui API yang telah master node. Kedua komputer tersebut
disediakan oleh Spark. memiliki spesifikasi yang sama, yaitu
Dari serangkaian proses diatas akan dengan 2GB RAM dan dengan sistem
menghasilkan hasil akhir berupa sebuah operasi Ubuntu 16.04. Perbedaannya
model K-Means dan Bisecting K-Means terletak pada alokasi memori yang
sebagai pembandingnya pada PySpark. diberikan ke ekosistem Hadoop, dimana
Sesuai dengan tujuan penelitian ini, master node memberikan 512MB baik ke
evaluasi model ini dilakukan menggunakan executor serta driver memory, sedangkan
metrik yang sama seperti penelitian – pada slave node hanya 512MB pada
penelitian sebelumnya, yaitu dengan executor memory saja.
menghitung false-positive rate, false-
58 |
Tabel 4. Tabel Waktu Eksekusi Dua Metode Berbeda dalam Detik
Size 1 juta 2 juta 3 juta 4 juta 5 juta 6 juta 7 Juta
Pyspark 201.1 655.7307 841.1226 1140.61 1449.246 1607.348 1920.184
Python 51.78 140.7595 1197.417 2062.988 5011.45 6082.78 7032.3
Waktu Eksekusi dua metode pengolahan (detik)

8000
7000
6000
5000
4000
3000
2000
1000
0
1 juta 2 juta 3 juta 4 juta 5 juta 6juta 7juta
PySpark Python
Gambar 4. Grafik Perbandingan Waktu Eksekusi Dua Metode Pengolahan

Sedangkan piranti lunak yang Big Data dalam memproses sebuah data
digunakan dalam pengolahan dan uji coba dengan ukuran yang berbeda.
bahan penelitian adalah sebagai berikut :
1. Bahasa pemrograman: Python 2.72 Pengukuran waktu eksekusi dalam
2. Hadoop 3.1.0 – Hadoop Distributed percobaan menggunakan bantuan package
File System time yang dimiliki oleh python. Time()
3. Spark 2.3.0, dengan menggunakan memberikan nilai waktu terkini dalam detik
PySpark (Spark Python API) yang dihitung dari awal masa. Perintah ini
dimasukkan saat script dijalankan dan saat
HASIL DAN PEMBAHASAN script selesai berjalan. Dalam
1. Perbandingan antar 2 Metode pengukurannya, waktu eksekusi didapat
dari selisih antara waktu selesai script
Pada bagian sebelumnya telah berjalan dengan waktu script mulai
dijelaskan bahwa dengan penggunaan dijalankan.
teknik pengolahan Big Data dapat Dari Tabel 4 tersebut dapat dilihat
mempersingkat waktu eksekusi yang bahwa setiap ukuran data akan
dibutuhkan untuk tiap data. Pernyataan ini menghasilkan ukuran waktu eksekusi yang
diuji terlebih dahulu menggunakan berbeda. Pada metode tradisional, dapat
beberapa data dummy dengan perbedaan dilihat bahwa pada ukuran data yang kecil
pada banyaknya record yang ada pada data proses eksekusi yang dibutuhkan lebih
tersebut. Data yang digunakan mencakup sedikit. Namun untuk kelipatan berikutnya,
data dengan 1 juta record, 2 juta hingga 7 membutuhkan waktu yang secara drastis
juta record dengan masing – masing naik. Berbeda pada metode bigdata, di mana
memiliki 10 variabel. Data tersebut waktu eksekusi yang dibutuhkan naik
diperlakukan sama seperti data olahan yang secara stabil.
nantinya dipakai, yaitu dengan Dari hasil tersebut juga telah
mengolahnya pada PySpark dengan dilakukan uji T untuk membuktikan kedua
menggunakan algoritma K-Means. Hal ini metode adalah signifikan berbeda. Dengan
ditujukan untuk mencatat waktu yang tingkat signifikansi 5% dan df yaitu 6,
dibutuhkan metode tradisional dan metode didapatkan nilai t tabel sebesar 1,943. Dan
berdasarkan perhitungan, didapat nilai t-
59
Gambar 5. Hasil Parsing Raw Data Akses Log Website Politeknik Statistika STIS
Gambar 6. Hasil Ekstraksi Fitur

hitung sebesar 2.2165, dari kedua nilai ini yang lebih dapat dibaca yaitu .csv. Hal ini
dapat dilihat perbedaan kedua metode. dilakukan dengan menggunakan regex yang
Karena t hitung > t tabel, maka H0 ditolak, telah disediakan pada salah satu script
sehingga dapat diambil kesimpulan bahwa sebelumnya. Script ini akan menghasilkan
terdapat perbedaan signifikan antara waktu file .csv baru yang diambil dari parsing data
yang dibutuhkan untuk eksekusi script atau log.
program pada metode tradisional Data hasil pre-prosesing tidak
menggunakan python dengan metode mengalami penambahan atau pengurangan
pengolahan bigdata. record, di mana hanya terdapat catatan
transaksi pada rentang waktu Februari 2017
2. Clustering pada Big Data
hingga Oktober 2017. Dari data tersebut
Preprocessing dilakukan seleksi dan ekstraksi fitur. Dari
Sesuai yang telah dijelaskan pada fitur yang telah dipilih, dilakukan ekstraksi
sub-bab sebelumnya, tahapan ini terbagi dengan menghitung panjang dari variabel
menjadi 4 bagian yaitu data pre-prosesing, tertentu, serta menghitung banyak okurensi
seleksi fitur dan ekstraksi fitur, pengolahan dari karakter tertentu. Penghapusan
data, serta analisis hasil olahan. Pre- beberapa variabel yang tidak digunakan
prosesing data dilakukan dengan parsing juga dilakukan.
data file berekstensi .log menjadi bentuk
60 |
Gambar 7. Alur Kerja Logical Spark
Sumber: Getting Started with Apache Spark, hal. 38
Gambar 8. Alur Kerja Fisik Spark

cluster manager. Cluster manager lalu akan
Pengolahan data
membagikan tugas dari driver ke slave node
Setelah data siap olah, data tersebut untuk dilakukan pengolahan secara
dimasukkan kedalam ekosistem pengolahan terdistribusi. Pembagian tugas ini melewati
Hadoop dengan melalui HDFS. Hal ini HDFS, karena data yang akan diolah harus
memungkinkan data tersebut dapat diolah masuk kedalam HDFS untuk dapat
secara terdistribusi, agar memenuhi tujuan dilakukan komputasi terdistribusi. Cluster
dari penelitian ini. Pengolahan data manager akan memonitoring tugas yang
dilakukan dengan Spark, yang dapat telah diberikan ke slave node, dengan
dijelaskan dalam Gambar 7 dan Gambar 8. memonitoring secara terus menerus
Pengolahan pada Spark, tidak melihat konsistensi dari pengolahan dapat terjaga.
seluruhnya pada jumlah komputer yang Setelah data selesai diolah, maka akan
digunakan. Namun melihat pada banyaknya diberikan kembali ke cluster manager untuk
node yang digunakan. Komposisi node disatukan kembali dan hasil tersebut akan
pada Spark meliputi 1 master node dan diberikan ke driver untuk dapat ditampilkan
beberapa slave node. Pada penelitian ini, pada layar atau file output.
menggunakan 2 slave node. Pengalokasian
tugas pengolahan dilakukan pada master Hasil pengolahan data
node dengan driver. Alokasi tugas dari 1. K-Means Clustering
driver lalu akan diberikan ke cluster Hasil dari pengolahan data di atas
manager, pada penelitian ini Spark menjadi berupa pusat cluster dan model yang dapat
61
Gambar 9. Hasil Running Algoritma K-Means dengan Pyspark
Gambar 10. Hasil Running Algoritma Bisecting K-Means dengan Pyspark
dipanggil di dalam PySpark. Dari 5.700.375 FPR adalah rasio IDS

record akses log dengan 8 variabel mengklasifikasikan aktivitas normal
menghasilkan dua pusat cluster yaitu: sebagai aktivitas serangan. Pada algoritma
[11.494,147 ; 58,0004 ; 13,257 ; 101,08 ; K-Means Clustering, didapatkan nilai FPR
25,342 ; 4,685 ; 1,997 ; 0,147] serta sebesar 0,0191% sedangkan pada Bisecting
[1.729.124,25 ; 57,677 ; 13,38 ; 109,8 ; K-Means Clustering mendapat 53,58%.
39,744 ; 5,123 ; 2,066 ; 1,465] (Gambar 9). Semakin besarnya nilai FPR, maka model
2. Bisecting K-Means Clustering tersebut dapat dikatakan lebih sensitif
Dari hasil running script terlihat dalam mendeteksi aktivitas jaringan.
bahwa dari 5.700.375 record akses log Namun, semakin tinggi nilai FPR juga
dengan 8 variabel menghasilkan dua pusat menggambarkan bahwa akan terlalu banyak
cluster yaitu: [751,238 ; 67,983 ; 13,099 ; aktivitas normal yang terdeteksi sebagai
89,99 ; 21,475 ; 5,605 ; 1,8864 ; 0,1387] anomali. Maka, dari kedua nilai berikut
serta [3,256 ; 4,469 ; 13,469 ; 115,906 ; dapat menggambarkan bahwa algoritma K-
30,55 ; 3,46 ; 2,144 ; 0,1633] (Gambar 10). Means lebih baik dalam aktivitas.
2. Interpretasi FNR
Evaluasi hasil Cluster terhadap IDS
FNR adalah rasio yang
Dari hasil clustering didapatkan mengklasifikasikan aktifitas serangan
sebuah model yang dapat digunakan untuk sebagai aktifitas normal. Semakin tinggi
mendeteksi suatu data tergolong ke cluster nilai FNR menunjukkan bahwa model akan
normal atau anomali. Untuk menguji coba lebih rentan terhadap serangan. Pada kedua
keefektifan model tersebut, maka dihitung algoritma, mendapatkan nilai FNR yang
serangkaian metrik yaitu false positive rate sama yaitu sebesar 79,51%. Namun,
(FPR), false negative rate (FNR), mengingat nilai FPR K-Means Clustering
sensitifitas, presisi, classification rate, dan lebih rendah daripada Bisecting K-Means
spesifik (Tabel 5, Tabel 6 dan Tabel 7). Clustering maka algoritma K-Means
1. Interpretasi FPR
62 |
Tabel 5. Confusion Matrix dari K-Means
K-Means Predicted value
P N
True value P 76 295
N 19 99.609
Tabel 6. Confusion Matrix dari Bisect K-Means

Bisect Predicted value
P N
True value P 76 295
N 53.390 46.238
Tabel 7. Ukuran Evaluasi Kedua Metode

R.
Algoritma FPR FNR Sensitifitas Spesifikasi Presisi
Klasifikasi
K-Means 0,019% 79,515% 0,205 0,999 99,68% 80%
Bisecting 53,58% 79,515% 0,205 0,464 46,31% 0,14%
Clustering tetap lebih unggul daripada Rasio klasifikasi menggambarkan
Bisecting K-means. seberapa besar akurasi yang dihasilkan dari
3. Interpretasi dari Sensitifitas permodelan data. Dalam kasus deteksi
Yaitu rasio model mengkategorikan intrusi jaringan, maka nilai rasio klasifikasi
aktivitas serangan sebagai serangan atau yang tinggi akan meningkatkan kualitas
juga dapat disebut sebagai True Positive dari model tersebut, didorong dengan
Rate. Semakin tinggi nilai sensitifitas, maka kecilnya nilai FPR dan FNR dari model
semakin tinggi FPR yang ada pada model tersebut. Sehingga dapat disimpulkan
tersebut. Kedua nilai ini memiliki bahwa algoritma K-Means Clustering lebih
keterkaitan satu sama lain. Terlihat bahwa baik dalam memberi gambaran besar atas
dari kedua algoritma, bahwa keduanya aktivitas serangan ataupun normal.
memiliki nilai sensitifitas yang sama. 6. Interpretasi dari Presisi
Namun, K-Means memiliki FPR yang lebih Presisi yang dimaksud adalah
rendah dari pada Bisect K-Means hal ini kemampuan model untuk mendeteksi
menggambarkan bahwa algoritma Bisect sebuah aktivitas serangan. Algoritma K-
K-means lebih sensitif dan akan Means Clustering memiliki nilai yang lebih
memberikan lebih banyak notifikasi kepada besar daripada algoritma Bisect K-Means
administrator. Clustering, sehingga dapat diambil
4. Interpretasi dari Spesifikasi kesimpulan bahwa K-Means Clustering
Seperti halnya sensitifitas, spesifikasi lebih mampu atas mendeteksi aktivitas
menggambarkan nilai True Negative Rate serangan.
(TNR) yaitu mengkategorikan aktivitas Dari hasil evaluasi diatas, dapat
normal sebagai normal. Dapat dilihat pada terlihat bahwa algoritma K-Means
table diatas bahwa nilai spesifikasi dari K- Clustering memiliki keunggulan sebagai
Means memiliki perbedaan yang sangat model pendeteksian intrusi jaringan.
jauh dibanding Bisect K-Means Clustering.
Hal ini menggambarkan bahwa algoritma KESIMPULAN DAN SARAN
K-Means Clustering lebih sanggup untuk Dari hasil pengolahan, analisis,
mengidentifikasi aktifitas normal sebagai hingga evaluasi data di atas maka dapat
normal. diambil kesimpulan berdasarkan tujuan dari
5. Interpretasi dari Rasio Klasifikasi penelitian ini, yaitu :
63
1. Implementasi pengolahan bigdata pada okurensi persentase yang lebih banyak
Deteksi Intrusi Jaringan dengan dari model K-Means Clustering,
memanfaatkan akses log telah memiliki besaran request yang sangat
dilakukan. Hal ini dapat dilakukan kecil, serta panjang karakter request
karena akses log memiliki karakteristik juga yang sedikit.
dari bigdata, sehingga cocok untuk 3. Dari hasil evaluasi yang telah di
dilakukannya teknik pengolahan jabarkan pada Bab Hasil dan
bigdata pada data tersebut, untuk Pembahasan, telah terlihat bahwa
tujuan Deteksi Intrusi Jaringan. Serta algoritma K-Means Clustering
diperkuat dengan adanya hasil uji memiliki keunggulan dibandingkan
perbedaan antara metode tradisional algoritma Bisect K-Means Clustering.
dengan metode pengolahan bigdata Keunggulan yang dimaksud adalah
yang menghasilkan bahwa metode dalam perihal kekuatan dan akurasi
pengolahan bigdata lebih baik dalam dari model bentukan dalam mendeteksi
aspek efisiensi waktu eksekusi. aktivitas normal maupun anomali. Hal
2. Implementasi K-Means Clustering ini dilihat dari interpretasi nilai FPR K-
serta Bisect K-Means Clustering dalam Means Clustering yang lebih kecil
deteksi intrusi jaringan telah dilakukan dengan nilai sebesar 0,019%, serta
dan menghasilkan model yang masing Spesifikasi, Rasio Klasifikasi dan
– masing mewakili algoritmanya. Presisi yang lebih baik dibanding dari
Karakteristik yang muncul dari model hasil Bisect K-Means Clustering
tersebut berbeda untuk kedua algoritma dengan masing – masing nilainya
tersebut, pada model hasil algoritma K- adalah 0,99 untuk spesifikasi , rasio
Means Clustering, aktivitas anomali klasifikasi sebesar 99,68% serta 80%
memiliki besaran request dari presisi model bentukan dari K-Means
pengguna yang besar, berasal dari Clustering.
referrer dengan jumlah karakter yang
lebih banyak, serta memiliki okurensi Dari proses dan hasil penelitian yang
karakter spesial yang lebih banyak telah dilakukan pada data akses log dengan
dibanding aktivitas normal. Aktivitas menggunakan pengolahan bigdata untuk
normal pada model K-Means tujuan deteksi intrusi jaringan, penulis
Clustering memiliki kecenderungan memberikan beberapa poin saran yang
bahwa pada request line, sedikit mungkin dapat dikembangkan lebih lanjut :
ditemukan karakter spesial yaitu 1. Penggunaan metode statistik yang
persentase, berasal dari referrer yang lebih kompleks untuk mendapatkan
memiliki jumlah karakter lebih sedikit, model yang lebih akurat.
serta diakses melalui User-Agent yang 2. Penambahan node dalam ekosistem
hamper sama dengan aktivitas lain. Hadoop dan Spark, untuk
Sedangkan pada algoritma Bisecting memaksimalkan kinerja dan efisiensi
K-Means Clustering, aktivitas anomali dari pengolahan Big Data.
memiliki besaran request dari 3. Menggunakan dataset yang lebih besar.
pengguna yang besar, request 4. Membangun sistem yang dapat
pengguna yang lebih panjang, di akses memanfaatkan hasil penelitian ini
dari User-Agent yang memiliki untuk memberi notifikasi ke
karakter lebih pendek daripada administrator secara streaming.
aktivitas normal, serta memiliki
okurensi garing miring lebih banyak DAFTAR PUSTAKA
dibanding aktivitas normal. Pada Chakraborty, N. (2013). Intrusion
aktivitas normal, memiliki perbedaan Detection System and Intrusion
dibanding dari K-Means Clustering, Prevention System: A Comparative
yaitu pada Bisecting K-Means Study. International Journal of
Clustering aktivitas normal memiliki Computing and Business Research.
64 |
Chandel, S. K. (2017). Intrusion Detection Seyyar, M. B. (2017). Detection of Attack-
System using K-Means Data Mining Targeted Scans from Apache HTTP
and Outlier Detection Approach. Server Access Log. Istanbul: Istanbul
Bangalore: Faculty of Informatics, SEHIR University.
Masaryk University. Suneetha, K., & Krishnamoorthi, R. (2009).
Fink, G., Chappell, B., Turner, T., & Identifying User Behavior by
O'Donoghue, K. (2002). A Metrics- Analyzing Web Server Access Log
Based Approach to Intrusion File. International Journal of
Detection System Evaluation for Computer Science and Network
Distributed Real-Time Systems. Security, 327-332.
Florida: WPDRTS. Troesch, M., & Walsh, I. (2014). Machine
Grace, L. J., Maheswari, V., & Nagamalai, Learning for Network Intrusion
D. (2011). Analysis of Web Logs and Detection. Stanford.
Web User in Web Mining. Ularu, E. G., Puican, F. C., Apostu, A., &
International Journal of Network Velicanu, M. (2012). Perspective on
Security and Its Application, 99-110. Big Data and Big Data Analytics.
GovScirt. (2018). Statistik Insiden Respon Database Systems Journal, 3-14.
Domain .Go.Id. Valdman, J. (2001). Log File Analysis.
govcsirt.kominfo.go.id. 22 Februari Pilsen: Department of Computer
2018. Science and Engineering, University
https://govcsirt.kominfo.go.id/statisti of West Bohemia.
k-insiden-respon-domain-go-id/ Vijayalakshmi, S., Mohan, V., & Raja, S.
Iversen, M. A. (2015). When Logs Become (2010). Mining of Users Access
Big Data. Oslo: Department of Behaviour for Frequent Sequential
Informatics, University of Oslo. Pattern from Web Logs. International
Meyer, R. (2008, January 26). Detecting Journal of Database Management
Attacks on Web Applications from System (IJDMS), 31-45.
Log Files. SANS Institute Infosec Wei, L. (2007, Oktober 23). Evaluation of
Reading Room, pp. 1-42. Intrusion Detection Systems. pp. 1-
Mukherjee, S., & Shaw, R. (2016). Big Data 10.
- Concept, Applications, Challenges, Zhong, S., Khoshgoftaar, T., & Seliya, N.
and Future Scope. International (2007). Clustering-based Network
Journal of Advanced Research in Intrusion Detection. International
Computer and Communication Journal of Reliability, Quality, and
Engginering, 66-74. Safety Engineering.
Nguyen, H. T., Torrano-Gimenez, C.,
Alvarez, G., Petrovic, S., & Franke,
K. (2011). Application of the Generic
Feature Selection Measure in
Detection of Web Attack.
Computatuional Intelligence in
Security for Information Systems, 25-
32.
Parthiban, P., & Selvakumar, S. (2016). Big
Data Architecture for Capturing,
Storing, Analyzing and Visualizing of
Web Server Logs. Indian Journal of
Science and Technology, 1-9.
Scott, J. A. (2015). Getting Started With
Apache Spark. San Jose: MapR
Technologies, Inc.
65
66 |
POLA FERTILITAS WANITA USIA SUBUR DI INDONESIA:
PERBANDINGAN TIGA SURVEI DEMOGRAFI DAN KESEHATAN
INDONESIA (2002, 2007 DAN 2012)
Sukim1, Rudi Salam2

e-mail: 1sukim@stis.ac.id, 2rudisalam@stis.ac.id
Abstrak
Tingkat fertilitas merupakan salah satu faktor demografi yang paling menentukan dalam penurunan
tingkat pertumbuhan penduduk di Indonesia. Salah satu ukuran fertilitas adalah Total Fertility Rate
(TFR). Selama 20 tahun terakhir diketahui laju pertumbuhan penduduk di Indonesia stagnan pada angka
1,49 persen. Oleh karenanya, penelitian ini bertujuan untuk mengkaji pola TFR selama periode 20 tahun
terakhir berdasarkan tiga Survei Demografi dan Kesehatan Indonesia (SDKI) tahun 2002, 2007 dan
2012. Metode yang digunakan adalah Regresi data count. Hasil penelitian menunjukkan bahwa dari
ketiga SDKI tersebut, tanda koefisiennya adalah sama untuk semua variabel penjelas kecuali pada SDKI
2007 yaitu pada variabel tempat tinggal yang berbeda dengan SDKI 2002 dan 2012. Sejalan dengan
temuan ini perlu studi lebih lanjut untuk mencari teori yang dapat menjelaskan temuan empirik tersebut.
Kata kunci: Fertilitas, TFR, SDKI, regresi data count
Abstract
Fertility rate is one of the most decisive demographic factors in the decline in the rate of population
growth in Indonesia. One measure of fertility is Total Fertility Rate (TFR). During the last 20 years, the
population growth rate in Indonesia is stagnant at 1.49 percent. Therefore, this study aims to examine
TFR patterns over the last 20 years based on the three Indonesia Demographic and Health Survey
(SDKI) in 2002, 2007 and 2012. This study used Regression data count method. The results showed that
of the three SDKIs, the coefficient values are the same for all explanatory variables except in SDKI 2007
i.e. in residential variables that are different from the 2002, 2012 SDKI. In line with this finding, further
studies are needed to find a theory that can explain this empirical finding.
Keywords: Fertility, TFR, IDHS, regression data count
67
perhatian. Salah satu cara adalah dengan
PENDAHULUAN mengetahui faktor-faktor yang menjadi
Fertilitas dalam istilah demografi penyebab tingginya fertilitas. Keterkaitan
adalah kemampuan riil seorang wanita faktor-faktor tersebut dengan fertilitas dapat
untuk melahirkan, yang dicerminkan dalam didekati dengan analisis statistika yang
jumlah bayi yang dilahirkan (Yasin, 1981). tepat. Dengan diketahuinya faktor yang
Fertilitas merupakan salah satu faktor mempunyai pengaruh terhadap tingkat
demografi yang paling menentukan di fertilitas diharapkan dapat dibuat kebijakan
dalam penurunan tingkat pertumbuhan yang tepat sasaran dalam upaya
penduduk di Indonesia yang selama 20 menurunkan tingkat fertilitas.
tahun terakhir laju pertumbuhan penduduk Berbagai kerangka teoretis tentang
di Indonesia stagnan pada angka 1,49 perilaku dan penyebab fertilitas telah
persen. Salah satu ukuran fertilitas adalah dikembangkan oleh beberapa ahli
total fertility rate (TFR) dan salah satu diantaranya: Davis dan Blake (1956),
sumber data TFR adalah survei demografi Freedman (1962), Hawthorne (1970),
dan kesehatan Indonesia (SDKI). Survei Leibenstein (1958), dan Becker (1960).
terakhir dilaksanakan tahun 2017 tetapi Becker (1960) melihat bahwa variabel
yang sudah di-release datanya adalah hasil sosial ekonomi mempengaruhi fertilitas
survey tahun 2012. Berdasarkan data SDKI karena pengaruh mereka pada jumlah anak
tahun 2012, secara nasional, tingkat yang diinginkan (demand for children).
fertilitas di Indonesia relatif masih cukup Kemajuan dalam pembangunan
tinggi dan variasi antar provinsi juga cukup menyebabkan kenaikan dalam pendapatan,
besar. dan hal ini akan meningkatkan jumlah anak
Gambar 1.1. menunjukkan TFR yang yang diinginkan, karena mereka kini makin
dihitung dari enam SDKI yang dilakukan mampu membiayai jumlah anak yang lebih
selama periode lebih dari 20 tahun antara banyak. Easterlin (1975) menambahkan
tahun 1991 dan 2012. Hasil SDKI fertilitas alamiah dalam kerangka berpikir
menunjukkan bahwa fertilitas hanya ekonom yang dipelopori oleh Becker
menurun relatif sedang selama dua dekade (1960).
terakhir di Indonesia, dengan perubahan Adanya stagnansi fertilitas di
yang besar terjadi antara tahun 1991 dan Indonesia selama tiga SDKI terakhir
2002. TFR cenderung konstan di angka 2,6 menunjukkan masih ada permasalahan
kelahiran per wanita sejak SDKI 2002 dalam penurunan fertilitas. Fertilitas
sampai tahun 2012. Untuk tahun 2012, TFR didekati dengan jumlah anak pada setiap
terendah adalah 2,1 anak per wanita di rumah tangga. Variabel-variabel yang
Provinsi DI Yogyakarta dan tertinggi diduga mempengaruhi fertilitas diantaranya
adalah 3,7 anak per wanita di Provinsi adalah status bekerja istri, pendidikan istri,
Papua. pendapatan rumah tangga, dan daerah
Berkaitan dengan fertilitas, dalam tempat tinggal.
RPJMN 2015-2019, target pemerintah Dengan jumlah anak sebagai
adalah Indonesia mempunyai tingkat pendekatan untuk fertilitas, maka metode
fertilitas sebesar 2,3 anak per wanita pada statistika yang bisa digunakan untuk
tahun 2019. Dengan kondisi yang sekarang analisis adalah metode regresi poisson.
ada, sepertinya masih berat bagi pemerintah Namun penelitian-penelitan yang sudah
untuk memenuhi target tersebut. Oleh dilakukan menunjukkan bahwa data
karena itu, berbagai upaya harus dilakukan fertilitas adalah under dispersion. Oleh
untuk menurunkan tingkat fertilitas. Lebih karena itu, metode yang lebih tepat untuk
jauh, dengan fakta bahwa TFR Indonesia digunakan adalah metode generalized
yang stagnan pada angka 2,6 kelahiran per poisson regression.
wanita sejak SDKI 2002 menunjukkan Adapun tujuan khusus dalam
masih ada permasalahan serius di bidang penelitian ini adalah:
fertilitas yang harus mendapatkan
68 |
3.02
2.85
2.8
2.6 2.6 2.6
1991 1994 1997 2002 2007 2012
Gambar 1. Tren TFR di Indonesia

1. Mendapatkan gambaran tingkat menyangkut banyaknya bayi yang lahir
fertilitas dilihat dari beberapa hidup. Fertilitas mencakup peranan
karakteristik rumah tangga di Indonesia kelahiran pada perubahan penduduk. Istilah
selama 2002, 2007, dan 2012. fertilitas adalah sama dengan kelahiran
2. Mendapatkan faktor yang berpengaruh hidup (live birth), yaitu terlepasnya bayi
terhadap fertilitas dan dari rahim seorang perempuan dengan ada
kecenderungannya di Indonesia selama tanda-tanda kehidupan; misalnya berteriak,
2002, 2007, dan 2012. bernafas, jantung berdenyut, dan
sebagainya (Mantra, 2003).
METODOLOGI Seorang perempuan yang secara
Metode analisis yang digunakan biologis subur (fecund) tidak selalu
dalam penelitian ini adalah regresi poisson, melahirkan anak-anak yang banyak,
salah satu metode Generalized Linear misalnya dia mengatur fertilitas dengan
Model (GLM). Data yang digunakan adalah abstinensi atau menggunakan alat-alat
data jumlah anak lahir hidup dalam rumah kontrasepsi. Kemampuan biologis seorang
tangga (Y) sebagai variabel terikat yang perempuan untuk melahirkan sangat sulit
bersumber dari hasil Survei Demografi dan untuk diukur. Ahli demografi hanya
Kesehatan Indonesia (SDKI) tahun 2002, menggunakan pengukuran terhadap
2007, dan 2012. Untuk variabel bebas kelahiran hidup (live birth).
digunakan sepuluh variabel yaitu Pengukuran fertilitas lebih kompleks
pendidikan isteri (X1), status bekerja isteri dibandingkan dengan pengukuran
(X2), penggunaan kontrasepsi (X3), umur mortalitas, karena seorang perempuan
kawin pertama (X4), pendidikan suami (X5), hanya meninggal satu kali, tetapi ia dapat
status bekerja suami (X6), keinginan suami melahirkan lebih dari seorang bayi.
terhadap jumlah anak (X7), tempat tinggal Disamping itu seorang yang meninggal
(X8), status ekonomi (X9), dan jumlah anak pada hari dan waktu tertentu, berarti mulai
(X10). Beberapa konsep dan definisi dari saat itu orang tersebut tidak mempunyai
variabel yang berkaitan dengan total resiko kematian lagi. Sebaliknya seorang
fertility rate (TFR), antara lain: perempuan yang telah melahirkan seorang
anak tidak berarti resiko melahirkan dari
1. Fertilitas perempuan tersebut menurun.
Fertilitas sebagai istilah demografi Memperhatikan kompleksnya
diartikan sebagai hasil reproduksi yang pengukuran terhadap fertilitas tersebut,
nyata dari seorang wanita atau kelompok maka memungkinkan pengukuran terhadap
wanita. Dengan kata lain fertilitas ini fertilitas ini dilakukan dengan dua macam
pendekatan: pertama, Pengukuran Fertilitas
69
Gambar 2. Diagram Kerangka Pikir Penelitian
Tahunan (Yearly Performance) dan kedua, sedikit dibandingkan mereka yang tidak
Pengukuran Fertilitas Kumulatif bekerja.
(Reproductive History).
Pendidikan Istri
Yearly Performance (current fertility)
mencerminkan fertilitas dari suatu Pendidikan tertinggi istri diprediksi
kelompok penduduk/berbagai kelompok secara langsung berhubungan dengan
penduduk untuk jangka waktu satu tahun. opportunity cost dari waktu dia dan
Yearly Performance terdiri dari : berhubungan secara berlawanan dengan
1. Angka Kelahiran Kasar atau Crude keputusan fertilitas. Hubungan yang
Birth Ratio (CBR) berlawanan diprediksi lebih kuat untuk istri
2. Angka Kelahiran Umum atau General dengan tingkat pendidikan yang lebih tinggi
Fertility Rate (GFR) (Wang dan Famoye, 1997).
3. Angka Kelahiran menurut Kelompok Pendapatan Rumah Tangga
Umur atau Age Specific Fertility Rate
(ASFR) Pengaruh dari pendapatan rumah
4. Angka Kelahiran Total atau Total tangga terhadap fertilitas agak ambigu. Jika
Fertility Rate (TFR) anak-anak diperlakukan sebagai barang
Yang termasuk Reproductive History tahan lama, maka peningkatan pendapatan
(cummulative fertility), diantaranya adalah rumah tangga akan mempunyai pengaruh
1. Children Ever Born (CEB) atau jumlah positif terhadap fertilitas, akan tetapi
anak yang pernah dilahirkan. pendapatan bisa juga mempunyai pengaruh
2. Child Woman Ratio (CWR). substitusi yang negatif. Pendekatan
Dari beberapa penelitian sebelumnya, kuantitas-kualitas dari Becker dan Lewis
faktor-faktor yang berpengaruh terhadap (1973) memprediksi bahwa terdapat
TFR antara lain: kemungkinan pengaruh substitusi dari
kuantitas ke kualitas anak-anak dengan
Status Bekerja Istri meningkatnya pendapatan. Peningkatan
Status bekerja istri diharapkan kualitas per anak akan berimplikasi pada
berhubungan negatif fertilitas. Menurut peningkatan biaya membesarkan anak di
teori neoklasikal (Becker, 1960), istri yang mana hal ini akan menurunkan fertilitas.
bekerja mempunyai opportunity cost waktu Pengaruh bersih dari pendapatan terhadap
yang lebih tinggi dibandingkan istri yang fertilitas tergantung pada kekuatan relatif
tidak bekerja. Oleh karena itu, rumah pengaruh pendapatan terhadap pengaruh
tangga dengan istri yang bekerja diharapkan substitusi. Becker (1960) beralasan bahwa
memakan mempunyai anak yang lebih pengaruh substitusi akan besar
70 |
dibandingkan dengan pengaruh pendapatan. ln 𝐿(𝛽) = − ∑𝑛𝑖=1 exp(𝑥𝑖𝑇 𝛽) +
Dengan alasan keterbatasan data, variabel ∑𝑛𝑖=1 𝑦𝑖 𝑥𝑖𝑇 𝛽 − ∑𝑛𝑖=1 ln(𝑦𝑖 !) (3)
pendapatan rumah tangga akan diproksi
menggunakan variabel pengeluaran rumah Untuk memperoleh nilai taksiran β
tangga. maka persamaan (3) diturunkan terhadap β
Daerah Tempat Tinggal dan disamadengankan nol menggunakan
metode newton raphson.
Variabel daerah tempat tinggal Salah satu metode yang digunakan
dibedakan menjadi daerah perkotaan (kode untuk menentukan statistik uji dalam
1) dan perdesaan (kode 0). Rumah tangga pengujian parameter model regresi poisson
yang tinggal di kota akan mempunyai anak adalah dengan menggunakan metode
yang lebih sedikit dibandingkan rumah Maximum Likelihood Ratio Test (MLRT)
tangga yang tinggal di daerah perdesaan. dengan hipotesis:
Hal ini karena biaya membesarkan anak H0 : β1 = β2 = · · · − βk = 0
lebih murah di perdesaan. Selain itu, H1 : paling sedikit ada satu βi ≠ 0; i = 1, 2,
informasi mengenai kontrasepsi juga ada ···,k
perbedaan antara desa dan kota. Statistik uji untuk kelayakan model
Berdasarkan penjelasan di atas, maka regresi poisson adalah sebagai berikut.
disusun kerangka pikir apakah status
 
bekerja isteri, tingkat pendidikan isteri, L  ˆ 
tingkat pendapatan rumah tangga, tipe  
D ˆ   2 ln    2  ln L ˆ

   ln L  ˆ  
daerah tempat tinggal berhubungan dengan 
 
 L ˆ 

jumlah anak dalam rumah tangga seperti
pada Gambar 2. Keputusan yang akan diambil adalah
2. Ruang Lingkup Penelitian tolak H0 jika D  ˆ    dengan v adalah
2
v ,
Penelitian ini menggunakan data banyaknya parameter model dibawah

SDKI tahun 2002, 2007, dan 2012 yang populasi dikurangi dengan banyaknya
dilakukan oleh BKKBN dan BPS. Data parameter dibawah H0. Parameter model
pada penelitian ini adalah data individu regresi poisson yang telah dihasilkan dari
wanita yang dikonversikan menjadi data estimasi parameter belum tentu mempunyai
rumah tangga sehingga observasi yang pengaruh yang signifikan terhadap model.
digunakan adalah rumah tangga. Untuk itu perlu dilakukan pengujian
terhadap parameter model regresi poisson
3. Metode Analisis secara individu.
Regresi Poisson Dengan menggunakan hipotesis
sebagai berikut:
Regresi poisson merupakan analisis H0 : βi = 0
regresi nonlinier dari distribusi poisson, (pengaruh variabel ke-i tidak signifikan)
dimana analisis ini sangat cocok digunakan H0 : βi ≠ 0
dalam menganalisis data diskrit (count). (pengaruh variable ke-i signifikan)
Model regresi poisson merupakan Statistik uji yang digunakan adalah:
Generalized Linier Model (GLM) yang data
ˆ i
respon diasumsikan berdistribusi poisson. z 
Model regresi poisson diberikan sebagai  
s e ˆ i
berikut.
yi = Poisson (μi), di mana μi = exp(xTi β) (1) Dengan se  ˆ  adalah nilai standar
i
maka error atau tingkat kesalahan dari parameter

ln(μi) = β0 + β1x1i + β2x2i + · · · + βkxik (2) βi. Keputusan yang akan diambil adalah
Estimasi parameter model regresi tolak H0 jika z  z dimana  adalah
h itu n g 2
poisson menggunakan metode Maximum tingkat signifikansi.

Likelihood Estimator. Fungsi log-
likelihood poisson sebagai berikut.
71
Regresi poisson dikatakan Bab ini merupakan hasil pengolahan
mengandung overdispersi apabila nilai data SDKI 2002, 2007, dan 2012
variansnya lebih besar dari nilai meannya. menggunakan beberapa paket program.
Overdispersi memiliki dampak yang sama Untuk analisis deskriptif digunakan
dengan pelang-garan asumsi jika pada data program Microsoft Excel, dan untuk
diskrit terjadi overdispersi namun tetap inferensia digunakan STATA. Pada bab ini
digunakan regresi poisson, anak dugaan pula akan disajikan karakteristik umum
dari parameter koefisien regresinya tetap fertilitas dari wanita usia subur untuk ketiga
konsisten namun tidak efisien. Hal ini SDKI dan variabel-variabel yang
berdampak pada nilai standar error yang memengaruhinya.
menjadi under estimate, sehingga
1. Gambaran Tingkat Fertilitas Dilihat
kesimpulannya menjadi tidak valid.
dari Beberapa Karakteristik Rumah
Fenomena overdispersi (McCullagh dan
Tangga di Indonesia Selama 2002, 2007,
Nelder [11]) dapat dituliskan var(Y ) > E(Y
Dan 2012
).
Fertilitas merupakan komponen
Generalized Poisson Regression (GPR) pertumbuhan penduduk yang bersifat
Penanganan pelanggaran asumsi menambah jumlah penduduk. Pertumbuhan
equidispersi pada regresi poisson dilakukan penduduk yang terlalu besar akan
pengembangan model menggunakan GPR. mengakibatkan berbagai masalah
Pada model GPR selain terdapat parameter kependudukan seperti pengangguran,
juga terdapat θ sebagai parameter dispersi. kemiskinan, dan masalah lainnya. Untuk itu
Model GPR mirip dengan regresi poisson diperlukan suatu pengendalian kelahiran
yaitu pada persamaan (4) akan tetapi model supaya pertumbuhan penduduk tidak
GPR mengasumsikan bahwa komponen menjadi permasalahan yang besar.
randomnya berdistribusi general poisson. Hasil dari perbandingan tiga SDKI
Dalam analisis GPR, jika θ sama dengan 0 dalam penelitian ini diharapkan dapat
maka model GPR akan menjadi model dengan lebih komprehensif melihat faktor-
poisson. Jika θ lebih dari 0 maka model faktor apa saja yang memengaruhi fertilitas
GPR merepresentasikan data count yang di Indonesia dan dapat menentukan faktor
mengandung kasus overdispersi dan jika θ prioritas jika ada beberapa keterbatasan.
kurang dari 0 merepresentasikan data count
2. Faktor yang Berpengaruh Terhadap
yang mengandung underdispersi.
Fertilitas di Indonesia Selama 2002,
Penaksiran parameter model GPR
2007, dan 2012
menggunakan metode Maximum Likelihood
Estimator (MLE). Fungsi log-likelihood Uji Goodness of Fit untuk Regresi
untuk model GPR adalah. Poisson
ln 𝐿(𝛽, 𝜃) = ∑𝑛𝑖=1 𝑦𝑖 (𝑥𝑖𝑇 𝛽) − 𝑦𝑖 ln(1 + Pada penggunaan regresi Poisson,
𝜃 exp(𝑥𝑖𝑇 ) 𝛽 + (𝑦𝑖 − 1) ln(1 + 𝜃𝑦𝑖 )) − variabel respon pada data memiliki
ln(𝑦𝑖! ) − exp(𝑥𝑖𝑇 𝛽) (1 + 𝜃𝑦𝑖 )(1 + distribusi Poisson dan memiliki nilai mean
𝜃 exp(𝑥𝑖𝑇 𝛽))−1 (4) yang sama dengan nilai varians (𝜇 =
Untuk mendapatkan taksiran 𝜎 2 ) atau dikenal dengan equidispersion.
parameter β dan θ maka persamaan (7) Untuk melihat apakah variabel respons
diturunkan terhadap β dan θ menggunakan berdistribusi Poisson atau tidak, dilakukan
metode numerik, iterasi Newton-Raphson. uji Kolmogorov-Smirnov untuk distribusi
Pengujian parameter model GPR dilakukan Poisson. Selain uji ini, dapat juga digunakan
sama seperti regresi poisson dengan uji Anderson Darling.
menggunakan metode MLRT dan uji Hasil kedua uji menunjukkan bahwa
parsial menggunakan statistik uji z. variabel respon fertilitas untuk ketiga SDKI
mempunyai distribusi Poisson. Hasil kedua
HASIL DAN PEMBAHASAN uji dapat dilihat pada Tabel 1
72 |
Tabel 1. Hasil Pengolahan Uji Kolmogorov-Smirnov dan Uji Anderson Darling
Statistic Uji
Statistik Uji
SDKI Kolmogorov- Keterangan
Anderson-Darling
Smirnov
SDKI 2002 0.1918 1384.8 Berdistribusi Poisson
Tabel 2. Hasil Uji Equidispersion

Nilai Pearson Chi-Square
SDKI Keterangan
dibagi dengan derajat bebas
SDKI 2002 0.9398691 Underdispersion
tiap SDKI. Likelihood ratio adalah suatu

Pendeteksian Equidispersi
statistic uji dari uji simultan apakah variabel
Regresi Poisson bisa digunakan jika bebas secara bersama-sama berpengaruh
bisa memenuhi kondisi equidispersi atau terhadap variabel terikat atau minimal satu
mempunyai nilai mean dan varians yang variabel bebas yang berpengaruh terhadap
sama. Jika kondisi tersebut tidak terpenuhi, terikat. Dari nilai likelihood ratio yang
maka telah terjadi overdispersion atau diperoleh dapat disimpulkan bahwa uji
underdispersion. Suatu nilai yang bisa adalah tolak hipotesis nol atau minimal ada
digunakan untuk menguji kondisi tersebut satu variabel bebas yang berpengaruh
adalah nilai Pearson Chi-Square. Hasil uji terhadap variabel terikat untuk semua tiga
equidispersion dapat dilihat pada Tabel 2. SDKI yang ada.
Berdasarkan hasil pengujian Setelah uji simultan menghasilkan
equidispersi regresi Poisson, dapat keputusan menolak hipotesis nol, maka
disimpulkan bahwa terjadi underdispersi untuk mengetahui variabel mana saja yang
pada model yang digunakan, yang berpengaruh terhadap fertilitas perlu
ditunjukkan dari hasil Pearson’s Chi-Square dilanjutkan dengan pengujian secara
dibagi dengan derajat bebas yang kurang parsial. Untuk SDKI 2002, hasil pengujian
dari satu. Keadaan ini mengakibatkan secara parsial terlihat pada Tabel 4
penggunaan regresi Poisson kurang sesuai Pada SDKI 2002, berdasarkan hasil p-
untuk memodelkan variabel-variabel yang value dari tiap-tiap variabel dapat
memengaruhi jumlah anak lahir hidup dari disimpulkan bahwa dengan tingkat
wanita usia subur di Indonesia. Untuk signifikansi 5 persen estimasi parameter
menangani penggunaan regresi Poisson untuk semua variabel adalah signifikan
yang tidak memenuhi asumsi equidispersi, memengaruhi jumlah anak lahir hidup
dapat diterapkan metode regresi Poisson wanita usia subur kecuali variabel
yang tergeneralisir, yaitu Generalized pendidikan suami. Persamaan GPR yang
Poisson Regression yang dapat menanangi terbentuk adalah
kondisi underdispersi maupun overdispersi
pada regresi Poisson. ln(𝜇̂ ) = 1.6767 − 0.0851𝑥1 + 0.1214𝑥2
3. Model GPR pada Fertilitas WUS di + 0.0834𝑥3 − 0.0405𝑥4
Indonesia + 0.0229𝑥3 − 0.1001𝑥6
− 0.0939𝑥7 + 0.0317𝑥8
Berdasarkan hasil estimasi model − 0.0417𝑥9 + 0.3087𝑥10
GPR, Tabel 3 menampilkan nilai dari Pada SDKI 2007, dengan
likelihood ratio  dan p-value untuk tiap-
2
menggunakan tingkat signifikansi sebesar 5

73

2
Tabel 3. Nilai Likelihood Ratio dan p-value

SDKI likelihood ratio 
2
p-value Keterangan
SDKI 2002 6755.35 0.0000 Signifikan
SDKI 2007 9807.89 0.0000 Signifikan
SDKI 2012 11910.79 0.0000 Signifikan
Tabel 4. Hasil Pengujian Secara Parsial data SDKI 2002

Variabel Coef. Std. Err. p-value Selang Kepercayaan Keputusan
X1 -0.0851 0.0239 0.0000 -0.1318 -0.0383 Tolak H0
X2 0.1214 0.0086 0.0000 0.1045 0.1383 Tolak H0
X3 0.0834 0.0088 0.0000 0.0662 0.1006 Tolak H0
X4 -0.0405 0.0012 0.0000 -0.0429 -0.0382 Tolak H0
X5 0.0229 0.0198 0.2490 -0.0160 0.0617 Tidak Tolak H0
X6 -0.1001 0.0266 0.0000 -0.1522 -0.0480 Tolak H0
X7 -0.0939 0.0104 0.0000 -0.1143 -0.0734 Tolak H0
X8 0.0317 0.0102 0.0020 0.0116 0.0518 Tolak H0
X9 -0.0417 0.0102 0.0000 -0.0616 -0.0217 Tolak H0
X10 0.3087 0.0052 0.0000 0.2985 0.3189 Tolak H0
_cons 1.6767 0.0358 0.0000 1.6066 1.7469 Tolak H0
persen, dapat disimpulkan estimasi

4. Perbandingan Model Fertilitas Tiga
parameter untuk semua variabel adalah
SDKI
signifikan memengaruhi jumlah anak lahir
hidup wanita usia subur kecuali variabel Pada subbab berikut akan dijelaskan
status bekerja suami dan variabel tempat interpretasi untuk tiap-tiap variabel pada
tinggal. tiap-tiap SDKI dan membandingkan
Persamaan GPR yang terbentuk adalah hasilnya pada tiga SDKI terakhir.
Hasil pengolahan dari tiga SDKI
ln(𝜇̂ ) = 1.5420 − 0.0988𝑥𝑖 + 0.0908𝑥2 menunjukkan bahwa untuk tanda dari
+ 0.108𝑥3 + 0.078𝑥4 koefisien adalah sama untuk semua variabel
+ 0.0496𝑥5 − 0.0361𝑥6 kecuali pada SDKI 2007 di mana pada
− 0.0737𝑥7 − 0.0031𝑥8 SDKI 2007 variabel tempat tinggal (X8)
− 0.500𝑥9 + 0.3281𝑥10 mempunyai tanda negatif sedangkan pada
Pada SDKI 2012, berdasarkan hasil SDKI 2002 dan 2012 mempunyai tanda
p-value dari tiap-tiap variabel dapat positif.
disimpulkan bahwa dengan tingkat
signifikansi 5 persen estimasi parameter
untuk semua variabel adalah signifikan
memengaruhi jumlah anak lahir hidup
wanita usia subur kecuali variabel tempat
tinggal Persamaan GPR yang terbentuk
adalah
ln(𝜇̂ ) = 1.4847 − 0.1316𝑥1 + 0.0883𝑥2
+ 0.1579𝑥3 − 0.0364𝑥4
+ 0.0818𝑥5 − 0.0628𝑥6
− 0.1109𝑥7 + 0.0072𝑥8
− 0.0347𝑥9 + 0.3490𝑥10
74 |
Tabel 5. Hasil Pengujian Secara Parsial Data SDKI 2007
X1 -0.0988 0.0203 0.0000 -0.1387 -0.0589 Tolak H0
X2 0.0908 0.0082 0.0000 0.0747 0.1069 Tolak H0
X3 0.1083 0.0083 0.0000 0.0920 0.1245 Tolak H0
X4 -0.0378 0.0011 0.0000 -0.0399 -0.0357 Tolak H0
X5 0.0496 0.0175 0.0040 0.0154 0.0838 Tolak H0
X6 -0.0361 0.0241 0.1340 -0.0834 0.0112 Tidak Tolak H0
X7 -0.0737 0.0097 0.0000 -0.0927 -0.0548 Tolak H0
X8 -0.0031 0.0095 0.7460 -0.0218 0.0156 Tidak Tolak H0
X9 -0.0500 0.0093 0.0000 -0.0683 -0.0317 Tolak H0
X10 0.3281 0.0043 0.0000 0.3198 0.3365 Tolak H0
_cons 1.5420 0.0330 0.0000 1.4773 1.6068 Tolak H0
Tabel 6. Hasil Pengujian Secara Parsial Data SDKI 2012

X1 -0.1316 0.0159 0.0000 -0.1628 -0.1004 Tolak H0
X2 0.0883 0.0076 0.0000 0.0734 0.1032 Tolak H0
X3 0.1579 0.0076 0.0000 0.1430 0.1728 Tolak H0
X4 -0.0364 0.0009 0.0000 -0.0382 -0.0345 Tolak H0
X5 0.0818 0.0146 0.0000 0.0533 0.1104 Tolak H0
X6 -0.0628 0.0232 0.0070 -0.1083 -0.0173 Tolak H0
X7 -0.1109 0.0076 0.0000 -0.1257 -0.0961 Tolak H0
X8 0.0072 0.0082 0.3790 -0.0089 0.0234 Tidak Tolak H0
X9 -0.0347 0.0083 0.0000 -0.0509 -0.0185 Tolak H0
X10 0.3490 0.0043 0.0000 0.3405 0.3574 Tolak H0
_cons 1.4847 0.0296 0.0000 1.4267 1.5426 Tolak H0
Tabel 7. IRR (Incidence Rate Ratio) pada Tiga SDKI

2002 2007 2012
Variabel
Coef. IRR Coef. IRR Coef. IRR
X1 -0.0851 0.9185 -0.0988 0.9059 -0.1316 0.8767
X2 0.1214 1.1291 0.0908 1.0950 0.0883 1.0923
X3 0.0834 1.0869 0.1083 1.1143 0.1579 1.1710
X4 -0.0405 0.9603 -0.0378 0.9629 -0.0364 0.9643
X5 0.0229 1.0231 0.0496 1.0509 0.0818 1.0853
X6 -0.1001 0.9048 -0.0361 0.9645 -0.0628 0.9391
X7 -0.0939 0.9104 -0.0737 0.9289 -0.1109 0.8950
X8 0.0317 1.0322 -0.0031 0.9969 0.0072 1.0073
X9 -0.0417 0.9592 -0.0500 0.9512 -0.0347 0.9659
X10 0.3087 1.3617 0.3281 1.3883 0.3490 1.4176
75
Dari penghitungan IRR (Incidence 3. Untuk penelitian selanjutnya, dapat
Rate Ratio), misalkan Variabel X1 memasukkan variabel kontekstual atau
mempunyai IRR = Exp(β1) = 0.92 artinya spasial karena keberagaman wilayah di
wanita dengan pendidikan lebih dari sltp Indonesia.
akan memiliki jumlah anak lahir hidup
sebesar 0.92 kali dibandingkan dengan yang DAFTAR PUSTAKA
kurang dari atau sama dengan sltp. Badan Kependudukan dan Keluarga
Demikian juga untuk variabel bebas yang Berencana Nasional, Badan Pusat
lain. Statistik, dan Kementerian Kesehatan
Republik Indonesia. 2012. Pedoman
KESIMPULAN DAN SARAN Survei Demografi dan Kesehatan
1. Kesimpulan Indonesia. Agustus 2013.
http://kesga.kemkes.go.id/images/pe
Berdasarkan hasil pembahasan yang
doman/SDKI%202012-Indonesia.pdf
diperoleh dari bab-bab sebelumnya, dapat
Becker Gary S. An Economic Analysis of
ditarik beberapa kesimpulan penelitian
Fertility. In: Roberts George B,
sebagai berikut:
Chairman, Universities-National
1. Tanda dari koefisien adalah sama untuk
Bureau Committee for Economic
semua variabel kecuali pada SDKI
Research , editor. Demographic and
2007 di mana pada SDKI 2007 variabel
Economic Change in Developed
tempat tinggal (X8) mempunyai tanda
Countries. Columbia University
negatif sedangkan pada SDKI 2002 dan
Press. National Bureau of Economic
2012 mempunyai tanda positif
Research; 1960. pp. 209–240.
2. Pada SDKI 2002 hanya variabel
http://www.nber.org/chapters/c2387.
pendidikan suami (X5) yang tidak
Davis, K. and J. Blake. 1956. Social
signifikan.
structure and fertility: an analytic
3. Pada SDKI 2007, variabel yang tidak
framework. Economic and Cultural
signifikan adalah variabel status
Change 4(2):211-235.
bekerja suami (X6) dan variable tempat
Famoye F (1993) Restricted generalized
tinggal (X8).
poisson regression model.
4. Pada SDKI 2012, variable yang tidak
Communications in Statis¬tics —
signifikan hanyalah variabel tempat
Theory and Methods 22:1335-1354
tinggal (X8).
Friedman, Debra, Michael Hetcher, and
2. Saran Sathoshi Kanazawa. 1994. A Theory
Berdasarkan hasil dan kesimpulan of the Value of Children.
yang telah diperoleh, maka peneliti dapat Demography 31: 375-401.
memberikan saran sebagai berikut: Freedman, Ronald. 1962. The Sociology of
1. Badan Kependudukan dan Keluarga Human Fertility: a Trend Report and
Berencana Nasional (BKKBN) Bibliography 11 (2): 35-68
sebaiknya terus mensosialisasikan Gustavo Angeles, David K. Guilkey, and
program KB khususnya penggunaan Thomas A. Mroz. The Effects of
kontrasepsi modern yang efektif. Female Education and Health and
2. Wanita usia subur perlu lebih Family Planning Programs on Child
meningkatkan keterlibatan suami Mortality and Fertility in Indonesia.
dalam penentuan jumlah anak yang MEASURE Evaluation Working
diharapkan untuk lebih meningkatkan Papers No. wp-03-73-en. Carolina
kesehatan anak, sehingga peluang Population Center, 2003
kematian anak menjadi kecil dan dapat Michael Grimm, Robert Sparrow, Luca
mengurangi jumlah anak yang Tasciotti. Does Electrification Spur
dilahirkan the Fertility Transition? Evidence
From Indonesia. Demography 52(5):
1773–1796, 2015.
76 |
Wang S-X, Chen Y-D, Chen CHC, Rochat
R, Chow LP, Rider R. Proximate
determinants of fertility and policy
implications in Beijing. Studies in
Family Planning 18(4):222-228, 198
77
78 |
Petunjuk Penulisan
KOMPUTASI STATISTIK
Naskah dikirim dalam bentuk softcopy ke alamat email pppm@stis.ac.id disertai dengan
daftar riwayat hidup ringkas penulis. Format naskah mengacu pada Petunjuk Penulisan Naskah
berikut:
Naskah dibuat menggunakan Microsot Office Word 2010. Seluruh bagian dalam naskah
diketik dengan huruf Times New Roman, ukuran 12, spasi 1,5, ukuran kertas A4 dan marjin 2
cmuntuk semua sisi, serta jumlah halaman 15-20. Untuk kepentingan penyuntingan naskah,
seluruh bagian naskah (termasuk tabel, gambar dan persamaan matematika) dibuat dalam
format yang dapat disunting oleh editor.
Gaya penulisan naskah untuk Jurnal Aplikasi Statistika dan Komputasi Statistik ditulis
dalam Bahasa Indonesia dengan gaya naratif. Pembabakan dibuat sederhana dan sedapat
mungkin menghindari pembabakan bertingkat. Tabel dan gambar harus mencantumkan sumber
jika dari data sekunder. Tabel, gambar dan persamaan matematika diberi nomor secara berurut
sesuai dengan kemunculannya. Semua kutipan dan referensi dalam naskah harus tercantum
dalam daftar pustaka, dan sebaliknya sumber bacaan yang tercantum dalam daftar pustaka harus
ada dalam naskah. Format sumber: Nama Penulis dan Tahun. Nomor dan judul table diletakkan
di bagian atas table dan dicetak tebal, sedangkan nomor dan judul gambar diletakkan di bagian
bawah gambar dan dicetak tebal.
Bagian naskah berisi:

Judul. Judul tidak melebihi 12 kata dalam Bahasa Indonesia.
Data Penulis. Berisi nama lengkap semua penulis tanpa gelar, asal institusi, dan alamat email.
Abstrak. Ditulis dalam Bahasa Inggris dan Bahasa Indonesia, maksimum 100 kata untuk
masing-masing abstrak dan berisikan tiga hal yaitu topik yang dibahas, metodologi yang
dipergunakan dan hasil yang didapatkan.
Kata Kunci. Berisi kata atau frasa (maksimum 5 subjek) yang sering dipergunakan dalam
naskah dan dianggap mewakili dan atau terkait dengan topik yang dibahas.
Pendahuluan. Memuat latar belakang, studi sebelumnya yang relevan, permasalahan ataupun
hipotesis yang akan diuji dalam penelitian, ruang lingkup penelitian, serta tujuan dari penelitian.
Metodologi terdiri atas:
a. Tinjauan Referensi. Bagian ini menguraikan landasan konseptual dari tulisan dan berisi
alasan teoritis mengapa pertanyaan penelitian dalam artikel diajukan. Di samping itu
penulis dapat mengutip studi yang relevan sebelumnya untuk melengkapi justifikasi
mengenai kerangka pikir penelitian.
b. Metode Analisis. Bagian ini berisi informasi teoritis dan teknis yang cukup memadai untuk
pembaca dapat mereproduksi penelitian dengan baik termasuk di dalamnya uraian
mengenai jenis dan sumber data serta variabel yang digunakan. Dalam hal keperluan
verifikasi hasil, editor dan mitra bestari (reviewer) berhak meminta data mentah (raw data)
yang digunakan penulis.
79
Hasil dan Pembahasan. Tuliskan hasil yang didapat berdasarkan metode yang digunakan
disertai analisis terhadap variabel-variabelnya . Dapat disajikan berupa tabel, gambar, hasil
pengujian hipotesis dengan disertai uraian analitis yang mengangkat poin-poin penting
berdasarkan konsepsi teoritisnya.
Kesimpulan dan Saran. Bagian ini memuat kesimpulan dari hasil dan implikasinya secara
akademis, dan saran yang dapat diberikan berdasarkan temuan dari pembahasan. Bagian ini
juga memuat keterbatasan penelitian dan kemungkinan penelitian lanjutan yang dapat
dilakukan dengan penggunaan/pengembangan variabel, metode analisis ataupun cakupan
wilayah penelitian lainnya.
Daftar Pustaka. Daftar pustaka disusun berdasarkan urutan abjad dengan ketentuan sebagai
berikut:
Publikasi Buku
1. Penulis satu orang
Enders, Walter. 2010. Applied Econometric Time Series, Third Edition. New Jersey: Wiley.
2. Penulis dua orang
Pyndick, Robert. S. dan Rubinfeld, Daniel L. 2009. Microeconomics, Seventh Edition. New
Jersey: Pearson Education.
3. Penulis tiga orang
Fotheringham, A. S., Brunsdon, C, dan Charlton, M. 2002. Geographically Weighted
Regression: The Analysis of Spatially Varying Relationships. West Sussex: John Wiley & Sons.
Artikel dalam jurnal
Romer, P. 1993. Idea Gaps and Object Gaps in Economic Development. Journal of Monetary
Economics, Vol. 32 (3), 543–573.
Artikel online
Woodward, Douglas P. 1992. Locational Determinants of Japanese Manufacturing Start-Ups in the
United States. Southern Economic Journal, Vol. 58 (3), 690-708.
http://www.jstor.org/discover/10.2307/1059836 (Diakses 1 Sepetember, 2014).
Buku yang ditulis oleh lembaga atau organisasi
BPS. 2009. Analisis dan Penghitungan Tingkat Kemiskinan 2008. Jakarta: BPS.
Kertas kerja (working papers)
Edwards, S. 1990. Capital Flows, Foreign Direct Investment, and Debt-Equity Swaps in Developing
Countries. NBER Working Paper, 3497.
Makalah yang direpresentasikan
Zhang, Kevin H. 2006. Foreign Direct Investment and Economic Growth in China: A Panel Data Study
for 1992-2004. Conference of WTO, China, and Asian Economies. Beijing.
Karya yang tidak dipublikasikan
Hartono, Djoni. 2002. Analisis Dampak Kebijakan Harga Energi terhadap Perekonomian dan Distribusi
Pendapatan di DKI Jakarta: Aplikasi Model Komputasi Keseimabangan Umum (Computable General
Equilibrium Model. Tesis. Jakarta.
Artikel di koran, majalah, dan periodik sejenis
Reuters. (2014, September 17). Where is Inflation?. Newsweek.
80 |

14 6 PB

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

14 6 PB

Diunggah oleh

Hak Cipta:

Format Tersedia

JURNAL APLIKASI STATISTIKA &

VOLUME 10, NOMOR 1, JUNI 2018 ISSN 2086 – 4132

Pengelompokan Kabupaten/Kota di Pulau Jawa Berdasarkan Faktor-Faktor Kemiskinan

PUSAT PENELITIAN DAN PENGABDIAN KEPADA MASYARAKATi

Penanggung Jawab: Direktur Politeknik Statistika STIS

Ketua Dewan Redaksi: Setia Pramana, Ph.D

Puji syukur kehadirat Allah, Tuhan Yang Maha Esa,

DDC: 315.98 Kota Bekasi, Kabupaten Sidoarjo, Kota

Abstrak Toza Sathia Utiayarsih, Jadi Suprijadi dan

DDC: 315.98 group is large cities in Indonesia with a low

Jurnal Aplikasi Statistika & Komputasi DDC: 315.98

Abstract Analisis Kinerja, Kualitas Data, dan

Toza Sathia Utiayarsih, Jadi Suprijadi dan Abstract

Keywords: IDS, big data, log access, k-

Sukim dan Rudi Salam

Pola Fertilitas Wanita Usia Subur di

Jurnal Aplikasi Statistika & Komputasi

Sri Wahyuni1, Yogo Aryo Jatmiko2

Gambar 1. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Persentase Penduduk

Gambar 5. Peta Wilayah Kabupaten/Kota di Pulau Jawa Berdasarkan Tingkat Pengangguran

Tabel 3. Total Variance Explained

Gambar 6. Scree Plot

6. Provinsi Jawa Timur: Kota Batu, sedangkan yang tertinggi di Kabupaten

Kata kunci: CAPI, sensus, survey, pengumpulan data

Keywords: CAPI, census, survey, data collection

Respondent/Interviewer Acceptability 5. Durasi Interview pada CAPI dan PAPI

4. PDA (Personal Digital Assistance) melakukan pengumpulan data dengan

untuk dibawa sehingga perlu dikurangi.

Gambar 5. Penilaian interviewer PKL 54 terhadap informasi yang ditampilkan

Andri Yudhi Supriadi1, Aris Rusyiana2

Keywords: Susenas, poverty rate, cigarettes consumption, multiple linier regression

Toza Sathia Utiayarsih1, Jadi Suprijadi2, Bernik Maskun3

Beranda 1 Publikasi BPS 9

Variabel Variabel Kolom

Variabel Variabel Kolom

Total Kolom p+1 p+2 … p+j … p+s 1

Penjumlahan dari semua profil baris 1 𝑛 𝑛𝑖+ 𝑛+𝑗 2

Tabel 6. Matriks Kontingensi Hasil dari Bibliometric

193.130.130.153 87 2342 916 280 1 0 0 0 0 0 0 0 0 0

Tabel 7. Kode Negara Klasifikasi Alamat IP

Tabel 9. Tabel Kontingensi Setelah Diklasifikasikan Berdasarkan Negara

Kode H11 H14 H1 H10 H2 H9 H12 H5 H13 H4 H3 H6 H15 H8

Klasifikasi Halaman yang Diakses Frekuensi

Gambar 3. Output Software Statistik untuk Analisis Koresponden

Farid Ridho1, Arya Aji Kusuma2

Kata kunci: IDS, big data, akses log, k-means, clustering

Keywords: IDS, big data, log access, k-means, clustering

negative rate, sensitifitas atas model,

Waktu Eksekusi dua metode pengolahan (detik)

Gambar 4. Grafik Perbandingan Waktu Eksekusi Dua Metode Pengolahan

Gambar 6. Hasil Ekstraksi Fitur

Gambar 8. Alur Kerja Fisik Spark

Gambar 10. Hasil Running Algoritma Bisecting K-Means dengan Pyspark

dipanggil di dalam PySpark. Dari 5.700.375 FPR adalah rasio IDS

Tabel 6. Confusion Matrix dari Bisect K-Means

Tabel 7. Ukuran Evaluasi Kedua Metode

Sukim1, Rudi Salam2

Kata kunci: Fertilitas, TFR, SDKI, regresi data count

Keywords: Fertility, TFR, IDHS, regression data count

2.6 2.6 2.6

1991 1994 1997 2002 2007 2012

Gambar 1. Tren TFR di Indonesia

Penelitian ini menggunakan data banyaknya parameter model dibawah