Anda di halaman 1dari 57

IMPUTASI MISSING VALUE

PADA DATA YANG MENGANDUNG OUTLIER


Oleh :
HAFTI MARDIAH
140720090012
TESIS
Untuk memenuhi salah satu syarat
Guna memperoleh gelar Magister Statistika Terapan
Program Magister Statistika Terapan
Konsentrasi Statistika Sosial
UNIVERSITAS PADJADJARAN
PROGRAM PASCASARJANA
BANDUNG
2010
IMPUTASI MISSING VALUE
PADA DATA YANG MENGANDUNG OUTLIER
Oleh :
HAFTI MARDIAH
140720090012
TESIS
Untuk memenuhi salah satu syarat ujian
Guna memperoleh gelar Magister Statistika Terapan
Program Magister Statistika Terapan
Telah disetujui oleh Tim Pembimbing pada tanggal
Seperti tertera di bawah ini
Bandung, Agustus 2010
Gandhi Pawitan, Ph.D. Budhi Handoko, M.Si.
Ketua Tim Pembimbing Anggota Tim Pembimbing
PERNYATAAN
Dengan ini saya menyatakan bahwa :
1. Karya tulis saya, tesis ini, adalah asli dan belum pernah diajukan untuk
mendapatkan gelar akademik (sarjana, magister, dan/atau doktor), baik di
Universitas Padjadjaran maupun di perguruan tinggi lain.
2. Karya tulis ini adalah murni gagasan, rumusan, dan penelitian saya sendiri,
tanpa bantuan pihak lain, kecuali arahan Tim Pembimbing.
3. Dalamkarya tulis ini tidak terdapat karya atau pendapat yang telah ditulis atau
dipublikasikan orang lain, kecuali secara tertulis dengan jelas dicantumkan
sebagai acuan dalam naskah dengan disebutkan nama pengarang dan
dicantumkan dalam daftar pustaka.
4. Pernyataan ini saya buat dengan sesungguhnya dan apabila di kemudian
hari terdapat penyimpangan dan ketidakbenaran dalam pernyataan ini, maka
saya bersedia menerima sanksi akademik berupa pencabutan gelar yang telah
diperoleh karena karya ini, serta sanksi lainnya sesuai dengan norma yang
berlaku di perguruan tinggi ini.
Nama : Hafti Mardiah
NPM : 140720090012
Tanda Tangan :
Tanggal : Agustus 2010
ii
ABSTRAK
Judul Tesis : Imputasi Missing Value pada Data yang Mengandung
Outlier.
Kata Kunci : Missing Data, Outlier, Predictive Mean Matching,
Least Trimmed Squares, Robust Estimation
Nama : Hafti Mardiah
NPM : 140720090012
Program Studi : Statistika Terapan
Bidang Kajian Utama : Statistika Sosial
Tim Pembimbing : 1. Gandhi Pawitan, Ph.D.
2. Budhi Handoko, M.Si.
Tahun Kelulusan : 2010
Abstrak
Missing Data merupakan salah satu permasalahan yang sering terjadi pada
sebuah survey. Imputasi adalah pilihan penanganan missing data yang paling bijak
dari pada membuang sebagian observasi atau variabel yang mengandung missing
value, mengingat bahwa data sangat mahal dan berharga. Penanganan missing
value pada sekumpulan data yang terdapat outlier menjadi perhatian khusus karena
sebagian besar metode imputasi dengan mekanisme Missing at Random (MAR)
dan Missing Completely at Random (MCAR) mengasumsikan data berdistribusi
normal multivariat. Asumsi ini menjadi tidak valid ketika terdapat outlier pada
data, sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi yang
robust terhadap outlier. Metode Predictive Mean Matching (PMM) adalah salah
satu alternatif metode imputasi komposit, penggabungan metode imputasi regresi
iii
iv
dengan metode imputasi nearest neighbour, yang mengasumsikan data berasal
dari distribusi normal multivariat. Ketika asumsi normalitas dilanggar, PMM
menghasilkan nilai hasil imputasi yang tidak masuk akal dan statistik Efciency
Relative yang lebih rendah dibandingkan dengan metode imputasi regresi Least
Trimmed Squares (LTS). Metode imputasi regresi LTS merupakan penggabungan
algoritma LTS dan algoritma imputasi regresi.
Abstract
Missing data is the most frequent problem that occurs in a survey. Thus,
imputation is a prudent alternative of handling the missing data instead of reducing
the number of observations or variables due to its cost achieved and value. The
treatment of the missing data in the presence of outlier becomes the major problem
which is the most imputation method based on the Missing at Random (MAR) and
Missing Completely at Random (MCAR) mechanism. Moreover, it assumes data
originated from a multivariate normal distribution, which is no longer valid in the
presence of outliers in the data. For instance, Predictive Mean Matching (PMM),
a combination of regression imputation method and the nearest neighbour method,
assumes the data originated from a multivariate normal distribution. When the
normality assumption is violated, the predictive mean matching method does not
yield plausible imputed values plus the performance of the Efciency Relative (ER)
is below compared to the ER of Least Trimmed Squares (LTS) regression imputation
method. LTS regression imputation method is actually a regression imputation
method which its parameter is the result of LTS regression estimation then combined
with the regression imputation algorithm.
KATA PENGANTAR
Puji syukur penulis panjatkan kehadirat kepada Allah SWT karena rahmat dan
hidayah-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul Imputasi
Missing Value Pada Data Yang Mengandung Outlier ini dapat diselesaikan.
Penyelesaian penulisan tesis ini tidak terlepas dari bantuan moral dan material dari
berbagai pihak. Oleh karena itu penulis mengucapkan terima kasih yang tidak
terhingga kepada:
1. Bapak Gandhi Pawitan, Ph.D., selaku Ketua Tim pembimbing yang selalu
memberikan arahan, bimbingan dan motivasi sehingga penulisan tesis ini
selesai tepat waktu.
2. Bapak Budhi Handoko, M.Si., selaku Co-Pembimbing yang selalu
memberikan arahan, bimbingan dan dengan tangan terbuka membagi
ilmunya.
3. Bapak M. Dokhi, Ph.D. dan Ibu Dr. Lienda Noviyanti,M.Si., selaku penguji
yang banyak memberikan masukan dan arahan dalam penyelesaian tesis ini.
4. Seluruh dosen dan staf di bagian Program Statistika Terapan Universitas
Padjadjaran.
5. Bapak Drs. Aminul Akbar, M.Sc. yang pada masa jabatannya selaku
Kepala BPS Provinsi Kepulauan Riau telah memberikan kesempatan dan ijin
kepada penulis untuk mengikuti pendidikan di Program Magister Statistika
Terapan Universitas Padjadjaran.
6. Bapak Nyoto Widodo, M.Ec, selaku Kapusdiklat BPS yang telah memberikan
kesempatan kepada penulis untuk mengikuti pendidikan di program Magister
Statistika Terapan Universitas Padjadjaran.
v
vi
7. Ibunda Suyati yang tiada hentinya mencurahkan kasih sayangnya kepada
penulis semenjak kecil serta sanak famili di Bandung dan di Jakarta atas
dukungannya.
8. Secara khusus untuk suami tercinta Purwo Astono dan buah hati Hana
yang telah memberikan motivasi serta doanya dari jauh selama mengikuti
pendidikan.
9. Rekan-rekan senasib seperjuangan dalam kuliah Angkatan I Program Kerja
Sama BPS-UNPAD, khususnya rekan-rekan GEROMBOLAN SI BERAT atas
kebersamaannya dalam menyelesaikan studi ini.
10. Seluruh rekan-rekan di BPS Provinsi Kepulau Riau yang telah membantu
kelancaran selama mengikuti kuliah.
11. Rekan-rekan yang nun jauh di Papua Suryana dan di NTB Acul Marucul
yang telah membantu dalam penulisan tesis ini.
12. Semua pihak yang tidak dapat penulis sebutkan satu-persatu yang telah
membantu kelancaran selama mengikuti kuliah dan menyelesaikan tesis ini.
Bandung, Agustus 2010
Hafti Mardiah
DAFTAR ISI
Daftar Isi vii
Daftar Tabel ix
Daftar Gambar x
BAB I PENDAHULUAN 1
1.1 Latar Belakang Masalah . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Identikasi Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Tujuan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Manfaat Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
BAB II TINJAUAN PUSTAKA 6
2.1 Pola Missing Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Mekanisme Missing Data . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Tinjauan Kritis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Metode Predictive Mean Matching . . . . . . . . . . . . . . 11
2.3.2 Metode Imputasi Robust . . . . . . . . . . . . . . . . . . . 12
2.3.3 Outlier . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.4 Survei Industri Besar dan Sedang (Survei IBS) . . . . . . . . . . . . 14
BAB III IMPUTASI MISSING VALUE PADA DATA YANG
MENGANDUNG OUTLIER 16
3.1 Pendeteksian Outlier . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.1.1 Pendeteksian Outlier pada Dimensi X . . . . . . . . . . . . 17
3.1.2 Pendeteksian Outlier pada Dimensi Y . . . . . . . . . . . . 17
vii
viii
3.1.3 Outlier yang Berkaitan dengan Inuential Cases . . . . . . . 17
3.2 Metode Imputasi PMM . . . . . . . . . . . . . . . . . . . . . . . . 18
3.3 Metode Imputasi Regresi LTS . . . . . . . . . . . . . . . . . . . . 20
3.3.1 Ide Dasar dan C-steps . . . . . . . . . . . . . . . . . . . . . 21
3.3.2 Algoritma FAST-LTS . . . . . . . . . . . . . . . . . . . . . 21
3.3.3 Tahapan Imputasi Regresi . . . . . . . . . . . . . . . . . . 22
3.4 Esiensi dari Imputasi Berganda . . . . . . . . . . . . . . . . . . . 23
3.5 Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6 Variabel Penelitian . . . . . . . . . . . . . . . . . . . . . . . . . . 26
BAB IV HASIL DAN PEMBAHASAN 29
4.1 Eksplorasi Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4.2 Pendeteksian Outlier . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Pendeteksian Outlier pada Dimensi X . . . . . . . . . . . . 33
4.2.2 Pendeteksian Outlier pada Dimensi Y . . . . . . . . . . . . 33
4.2.3 Pendeteksian Outlier yang Berkaitan dengan Inuential Cases 33
4.3 Imputasi dengan Menggunakan Metode PMM . . . . . . . . . . . . 33
4.4 Imputasi dengan Menggunakan Metode Regresi LTS . . . . . . . . 36
4.5 Perbandingan Esiensi Relatif Metode Imputasi PMM dan Regresi
LTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
BAB V KESIMPULAN DAN SARAN 41
5.1 Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 Saran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Daftar Pustaka 43
DAFTAR TABEL
Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi . . 10
Tabel 4.1. Tabel Pola Missing Data . . . . . . . . . . . . . . . . . . . . 29
Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM . . . . . . . . . 35
Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM . . . . 36
Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS . . . . . . 37
Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS 38
Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM . . . . . . . 39
Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS . . . . 39
Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode
Imputasi PMM dan Regresi LTS . . . . . . . . . . . . . . . . 40
ix
DAFTAR GAMBAR
Gambar 2.1. Pola Missing Data, baris menyatakan observasi dan kolom
menyatakan variabel . . . . . . . . . . . . . . . . . . . . . 7
Gambar 3.1. Tahapan Penelitian . . . . . . . . . . . . . . . . . . . . . . 28
Gambar 4.1. Boxplot Variabel X
1
. . . . . . . . . . . . . . . . . . . . . . 30
Gambar 4.2. Boxplot Variabel X
2
. . . . . . . . . . . . . . . . . . . . . . 30
Gambar 4.3. Boxplot Variabel X
3
. . . . . . . . . . . . . . . . . . . . . . 31
Gambar 4.4. Boxplot Variabel X
4
. . . . . . . . . . . . . . . . . . . . . . 31
Gambar 4.5. Boxplot Variabel X
5
. . . . . . . . . . . . . . . . . . . . . . 32
Gambar 4.6. Plot Laju ER PMM dan Regresi LTS . . . . . . . . . . . . . 40
x
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Tugas pokok Badan Pusat Statistik (BPS) seperti tertuang pada Undang-
undang Nomor: 16 tahun 1997 tentang statistik Bab VI pasal 11 menyatakan BPS
sebagai satu-satunya lembaga yang berhak menyelenggarakan kegiatan statistik
dasar, berkewajiban memberi masukan berupa data statistik kepada pemerintah,
seperti tertuang dalam tugas pokok BPS pada Undang-undang Nomor: 16 tahun
1997 tentang statistik Bab VI pasal 11. Salah satu tugas pokok BPS adalah
melakukan kegiatan statistik di bidang perindustrian yaitu menyelenggarakan
Survei Tahunan Industri Pengolahan Besar dan Sedang (Survei IBS). Permasalahan
yang biasa ditemui dalam Survei IBS adalah missing data karena nonrespons.
Pencegahan dan penanganan nonrespons seperti dua sisi mata uang pada
sebuah koin. Pencegahan adalah hal pertama yang harus dilakukan untuk
mengurangi nonrespons. Nonrespons tidak sepenuhnya dapat dicegah sehingga
penanganan nonrespons menjadi penting pada saat akan dilakukan analisis (Leeuw
et al., 2003).
BPS telah melakukan beberapa cara untuk meminimalkan nonrespons, yaitu:
1. Menyederhanakan kuesioner hanya terdiri dari 4 lembar pertanyaan.
2. Membuat kuesioner lebih menarik dengan jenis huruf yang menarik dan
mudah dibaca, juga sedikit warna, didalamnya juga terdapat instruksi
pengisian kuesioner dalam bahasa Indonesia dan bahasa Inggris.
3. Di bagian sampul kuesioner disebutkan RAHASIA, untuk menjamin
kerahasiaan responden yang dijamin dalam Undang-undang Nomor: 16 tahun
1997 tentang statistik.
1
2
4. Memberikan souvenir atau leaet yang berisi informasi mengenai hasil dari
pengumpulan data secara agregat.
5. Melakukan follow up, baik melalui kunjungan ulang ataupun telepon untuk
mengingatkan responden.
6. Mengantar kuesioner dan mengambilnya kembali setelah selesai diisi.
Meskipun langkah-langkah tersebut telah dilakukan, tetapi nonrespons tetap tidak
dapat dihindarkan. Beberapa alasan yang menyebabkan nonrespons dalam Survei
IBS di Provinsi Kepulauan Riau adalah perlindungan dari pihak kawasan industri
yang sangat ketat dan dinamisnya pergantian manajemen dalam perusahaan
sehingga personel yang baru terkendala dalam pengisian kuesioner dan bahkan
menolak untuk mengisi kuesioner.
Penanganan missing data menurut Little and Rubin (1987) ada tiga macam,
yaitu:
1. Complete case analysis dengan membuang observasi yang terdapat missing
value maka estimasi mengarah kepada standard error yang lebih besar
dikarenakan jumlah sampel yang berkurang.
2. Available case analysis terjadi ketika satu atau lebih gugus variabel yang
terdapat missing value dibuang dari pengamatan untuk kemudahan analisis.
Penghilangan satu variabel yang penting ketika akan menganalisa hubungan
sebab akibat akan menyebabkan salah penafsiran.
3. Membuang beberapa observasi atau variabel bukanlah solusi yang baik
berkaitan dengan bias dan presisi. Pendekatan lainnya adalah mengganti
missing value dengan suatu nilai, metode ini disebut metode imputasi.
Lessler and Kalsbeek (1992) menggunakan istilah incomplete data yang sama
maknanya dengan missing data. Missing data berhubungan dengan permasalahan
3
noncoverage, unit nonresponse dan item nonresponse. Pada Survei IBS non-
coverage diminimalisir dengan melakukan updating Direktori perusahaan IBS
setiap tahunnya sebelum pencacahan dengan kuesioner dilakukan, yaitu dengan
cara menghapus perusahaan yang tutup permanen dari daftar dan menambahkan
perusahaan baik yang baru beroperasi secara komersil pada tahun pencacahan atau
sudah beroperasi komersil sebelumnya tetapi belum tercatat di dalam Direktori.
Daftar nama calon perusahaan baru yang akan dimasukkan ke dalam Direktori
biasanya diambil dari pencatatan oleh instansi lain atau sumber lain. Kemudian
dilakukan pengecekan awal seperti melihat keberadaan perusahaan, kesesuaian
jumlah tenaga kerja, status permodalan perusahaan dan jenis produksi utama.
Permasalahan unit nonresponse dan item nonresponse terjadi di dalam Survei
IBS, tetapi penelitian ini difokuskan kepada permasalahan item nonresponse. BPS
melakukan estimasi untuk setiap unit nonresponse dengan menggunakan informasi
pertumbuhan nilai tambah dan rasio antar variabel pada unit observasi yang respons
dan melakukan imputasi untuk setiap item nonresponse dengan memperhatikan
rasio antar variabel pada unit observasi respons yang terdekat.
Survey IBS termasuk mail survey, hanya tidak dikirim lewat pos tetapi
diantar dan diambil kembali oleh petugas BPS, jarang sekali terdapat proses
wawancara pada pelaksanaannya. Hal tersebut menjadi salah satu penyebab
terjadinya item nonresponse. Penafsiran yang berbeda dengan maksud pertanyaan,
pihak manajemen perusahaan menganggap establishmentnya adalah jasa industri
(makloon) sehingga pertanyaan bahan baku dan bahan penolong yang dipakai
selama tahun 2008 (dalam 000 Rupiah) tidak terisi tetapi dapat mengisi
pertanyaan barang-barang yang dihasilkan (dalam 000 Rupiah). Item nonresponse
menyebabkan lubang dalam kumpulan data yang disebut missing value, oleh
karena itu dibutuhkan metode imputasi untuk memperoleh kumpulan data yang
lengkap sehingga analisis data dapat dilakukan. Keadaan lain yang nyata terjadi
4
pada Survei IBS adalah outlier. Outlier terjadi karena cakupan Survei IBS itu
sendiri yaitu perusahaan berskala sedang dan besar, status permodalan perusahaan
berasal dari dalam negri (PMDN) dan dari luar negri (PMA).
1.2 Identikasi Masalah
Pertanyaan-pertanyaan mengenai struktur pengeluaran dan pendapatan pada
akhirnya diperlukan untuk menghitung nilai tambah (value added) suatu produk
barang ataupun jasa. Terjadinya item nonresponse pada salah satu dari komponen
pengeluaran akan mengakibatkan perhitungan nilai tambah menjadi over estimate
apabila permasalahan ini tidak ditangani.
BPS mengelompokan unit-unit observasi berdasarkan klasikasi
industri yang disebut Klasikasi Baku Lapangan Usaha Indonesia (KBLI).
Pengelompokkan unit-unit observasi ke dalam KBLI tidak dapat mencegah
kehadiran outlier dengan asumsi bahwa jawaban responden adalah benar, karena
responden sendiri yang menjawab pertanyaan-pertanyaan di dalam kuesioner.
Sebagian besar metode imputasi dengan mekanisme Missing Completely at
Random (MCAR) dan Missing at Random (MAR) mengasumsikan multivariat
normal, jika data mengandung outlier maka asumsi ini menjadi tidak valid.
Langkah selanjutnya yang harus dihadapi adalah:
1. Bagaimana mengatasi missing value melalui metode imputasi pada data yang
terdapat outlier? Metode apa yang sesuai dengan masalah ini?
2. Bagaimana esiensi hasil imputasi antara metode imputasi PMM
dibandingkan dengan imputasi Regresi LTS bila terdapat outlier?
5
1.3 Tujuan Penelitian
Berdasarkan latar belakang dan identikasi masalah diatas, maka tujuan
penelitian ini adalah untuk mengetahui metode terbaik dalam mengatasi missing
value pada Survei IBS ketika data yang digunakan terdapat outlier.
1.4 Manfaat Penelitian
1. Manfaat dari penelitian ini adalah sebagai kontribusi wawasan keilmuan dan
pengetahuan mengenai metode imputasi yang robust terhadap outlier.
2. Metode yang dihasilkan menjadi salah satu alternatif yang dapat digunakan
oleh BPS untuk mengatasi missing data pada Survei IBS.
1.5 Batasan Masalah
1. Permasalahan dibatasi dengan cakupan data Survei IBS Provinsi Kepulauan
Riau tahun 2008 pada KBLI 32100 yaitu kelompok perusahaan yang
memproduksi tabung, katup elektronik dan komponen elektronik lainnya
dengan jumlah unit observasi terbanyak dari seluruh KBLI 5 digit yang ada.
2. Metode yang digunakan terkait hasil eksplorasi data dengan pola missing data
univariat dan asumsi mekanisme missing data yaitu Missing At Random.
BAB II
TINJAUAN PUSTAKA
Lessler and Kalsbeek (1992) menjabarkan tentang noncoverage, unit
nonresponse dan item nonresponse dilihat dari penyebabnya. Item nonresponse
terjadi ketika ada pertanyaan di dalam kuesioner yang seharusnya dijawab tetapi
tidak dijawab atau terhapus ketika proses editing dan data entry. Unit nonresponse
terjadi jika tidak ada tanggapan dari unit observasi yang terpilih sebagai sampel.
Penyebab terjadinya unit nonresponse adalah diantaranya karena sampel terpilih
tidak berada di tempat, kendala bahasa antara pewawancara dengan sampel terpilih,
kesulitan pengaturan jadwal pertemuan atau karena sampel terpilih memang
menolak untuk memberi jawaban dan lain sebagainya. Noncoverage adalah
kesalahan tidak memasukkan beberapa unit observasi ke dalam target populasi.
2.1 Pola Missing Data
Matriks Y adalah sebuah matriks berukuran n x k, data tanpa missing value
dengan elemen y
i j
, yaitu nilai variabel ke- j pada unit ke-i. Matriks M adalah
matriks missing data, m
i j
=1 jika y
i j
adalah missing value dan m
i j
=0 jika y
i j
bukan
missing value. Selanjutnya M akan menggambarkan pola missing data. Gambar
2.1. menunjukkan contoh dari pola missing data (Little and Rubin, 2002 dalam
Chaimongkol (2005)).
1. Pola (a) disebut missing data univariat yaitu dimana hanya satu variabel yang
terdapat missing data.
2. Pola (b) adalah bentuk dimana satu blok missing data untuk kasus yang sama
dan variabel lainnya komplit. Hal ini terjadi pada survei sampel yang terdapat
unit nonresponse sehingga kuesioner tidak terisi dan terdapat beberapa unit
6
7
nonresponse lainnya.
Gambar 2.1. Pola Missing Data, baris menyatakan observasi dan kolom
menyatakan variabel
3. Pola (c) disebut monotone missing data, terjadi ketika observasi variabel
Y
1
lebih banyak dari Y
2
dan observasi variabel Y
2
lebih banyak dari Y
3
dan seterusnya. Missing data univariat adalah kasus khusus dari monotone
missing data yang terjadi pada penelitian longitudinal dimana subjek
penelitian keluar dari penelitian sebelum penelitian berakhir dan tidak per-
nah kembali.
4. Pola (d) adalah pola umum missing data, dikenal juga dengan item
nonresponse pada kuesioner, missing value dapat terjadi pada variabel
manapun. Item non response biasanya ditangani dengan metode imputasi.
8
5. Pola (e) dinamakan le matching pattern, ketika dua buah kumpulan variabel
tidak pernah terobservasi secara bersama-sama maka parameter dari kedua
variabel ini tidak dapat diestimasi, jika dipaksakan akan berakibat pada
penafsiran yang salah.
6. Pola (f) disebut faktor analisis. Terjadi ketika X adalah variabel laten
dan terdapat variabel pengukuran Y, pola seperti ini adalah analisis regresi
multivariat Y terhadap X, dan dibutuhkan beberapa asumsi.
2.2 Mekanisme Missing Data
Terdapat tiga macam mekanisme missing data:
1. Missing Completely at Random (MCAR)
Sebuah variabel dikatakan MCAR bila peluang hilangnya sama untuk semua
unit. Sebagai contoh, jika setiap responden memutuskan untuk menjawab
pertanyaan tentang pendapatan dengan mengundi sebuah dadu, menolak
menjawab jika muncul dadu mata enam. Jika data MCAR, maka membuang
observasi dari kumpulan data tidak akan menyebabkan bias pada inferensi
statistik.
2. Missingness at Random (MAR)
Kebanyakan missing data bukanlah MCAR. MAR terjadi jika peluang
hilangnya data bergantung pada ketersediaan informasi. Pola missing data
dapat dilacak atau dapat diprediksi dari variabel-variabel lain. Sebuah
variabel yang hilang dipengaruhi oleh nilai-nilai dari variabel lainnya.
Sebagai contoh pertanyaan tentang jenis kelamin, umur, suku bangsa,
pendidikan, dan pendapatan ditanyakan untuk semua orang yang terkena
sampel. Maka pertanyaan pendapatan adalah MAR, karena tidak semua orang
9
mempunyai pendapatan.
3. Nonignorable Missing at Random (NMAR)
Mekanisme hilangnya data bergantung pada missing value itu sendiri. Pola
dari data yang hilang tidak random dan tidak dapat diprediksi dari variabel-
variabel lain. Contoh, misalkan orang yang mempunyai pendapatan tinggi
cenderung untuk menolak menjawab pertanyaan mengenai pendapatan.
2.3 Tinjauan Kritis
Metode penanganan missing data berkembang dari masa ke masa.
Chaimongkol (2005) dalam disertasinya memperkenalkan tiga jenis kombinasi
imputasi antara regresi dan nearest neighbour, yaitu Nearest Neighbour Regression
Imputation (NNR), Weighted Nearest Neighbour Regression Imputation (WNR)
dan Distance Regression Imputation (DRI). Meskipun metode ini menghasilkan
estimator yang bias tetapi dapat diabaikan dan akan menuju nol bila persentase data
hilang kurang dari lima belas persen.
Carpenter and Kenward (2006) melakukan perbandingan regresi Least
Squares (LS), doubly robust, multiple imputation dan inverse probabilty weighting
(IPW) pada 2.000 data hasil simulasi berdistribusi normal yang mempunyai empat
dimensi. Dari penelitiannya Carpenter and Kenward (2006) menyimpulkan bahwa
doubly robust sangat sensitif bila digunakan pada multivariate response model.
Kemudian diperkenalkan doubly robust IPW untuk variabel kategorik dan jika
peluang hilangnya data ekstrim. Metode ini merupakan salah satu metode alternatif
untuk melakukan analisis pada ilmu-ilmu sosial jika terdapat observasi yang hilang.
Perangkat lunak untuk teori tersebut masih terus dikembangkan.
Hron et al. (2008) mengelompokkan teknik imputasi ke dalamempat kategori:
1. Metode univariat, contoh: imputasi mean. Metode imputasi mean berguna
10
jika mekanisme missing data adalah MCAR atau jumlah missing data sedikit
dan bila tidak terdapat variabel prediktor. Ini merupakan cara termudah untuk
mengimputasi yaitu mengganti missing data dengan nilai tengah tetapi hal
ini dapat menyebabkan estimasi varians dari populasi menjadi underestimate
(Chaimongkol, 2005).
2. Metode imputasi berdasarkan jarak, contoh: imputasi k-nearest neighbour
3. Metode imputasi berdasarkan kovarians, contoh: imputasi Algoritma
Expectation Maximization (EM). Metode ini merupakan metode iterasi
penggabungan antara complete data analysis dan penaksiran statistik yang
esien. Proses iterasinya slow konvergen karena perbedaan antara iterasi ke
iterasi berikutnya sangat kecil sehingga kita tidak tahu kapan harus berhenti
dari proses iterasi dan EM tidak dapat memberikan informasi mengenai
varians.
4. Metode imputasi berdasarkan model, contoh: imputasi regresi.
Berdasarkan pola missing data dan tipe variabel yang akan diimputasi,
diberikan rekomendasi seperti pada Tabel 2.1. (SAS/STAT 9.2 Users Guide).
Tabel 2.1. Metode Imputasi berdasarkan tipe variabel yang diimputasi
Pola Missing Data Tipe variabel Metode
yang akan diimputasi
Monoton Kontinyu Regresi
Komposit (PMM)
Propensity Score
Monoton Klasikasi (Ordinal) Regresi Logistik
Monoton Klasikasi (Nominal) Metode Fungsi Diskriminan
Arbitary Kontinyu MCMC Full-Data Imputation
MCMC Monotone-Data Imputation
Metode propensity score pada awalnya digunakan untuk percobaan pada
pengukuran variabel response yang berulang. Setiap variabel dengan missing data
11
dibuat propensity score pada setiap observasi untuk mengestimasi peluang observasi
tersebut hilang. Observasi dikelompokkan berdasarkan propensity score kemudian
imputasi dengan menggunakan approximate bayesian bootstrap diterapkan pada
setiap kelompok. Metode propensity score tidak menggunakan korelasi antar
variabel dan tidak cocok untuk analisis hubungan antar variabel, seperti regresi.
2.3.1 Metode Predictive Mean Matching
Metode komposit pertama kali diperkenalkan oleh Rubin (1987) kemudian
dikembangkan oleh Little (1988) untuk mengatasi multivariat nonrespons. Little
(1988) memperkenalkan metode komposit yang disebut Predictive Mean Matching.
Pada dasarnya metode ini adalah sama dengan metode regresi, yang membedakan
adalah untuk setiap nilai yang hilang diimputasikan dari nilai observasi yang
terdekat dari model (Rubin, 1987). Metode PMM menjamin bahwa nilai-nilai
yang diimputasikan adalah lebih masuk akal dan kemungkinan akan lebih tepat
dibandingkan metode regresi apabila asumsi kenormalan tidak terpenuhi (Horton &
Lipsitz, 2001).
Basuki (2009) mendukung pernyataan Horton and Lipsitz (2001), dalam
penelitiannya digunakan data Survei IBS tahun 2007 Provinsi Jawa Timur untuk
KBLI 17115 (kain tenun ikat) dengan asumsi kenormalan dipenuhi, dan KBLI
19201 (alas kaki) dengan asumsi kenormalan tidak dipenuhi. Pola missing data
nya univariat pada variabel Y (nilai Produksi).
Thibaudeau et al. (2006) dalam laporan penelitian tentang penggunaan PMM
untuk assets dan liabilities pada Survey of Income and Program Participation,
menyebutkan salah satu alternatif metode imputasi yang dilakukan untuk X
(Mortgage Amount) dan Y (Property Value) sebagai variabel-variabel kontinyu, jika
Y response dan X hilang dapat menggunakan PMM dengan syarat nilai Y > 0.
Metode imputasi PMM dan regresi adalah yang paling memungkinkan untuk
12
digunakan dalam penelitian ini karena metode tersebut termasuk metode imputasi
berdasarkan model.
2.3.2 Metode Imputasi Robust
Metode imputasi yang dapat menangani missing data dengan mekanisme
MCAR dan MAR sebagian besar mengasumsikan data berasal dari distribusi
normal multivariat. Asumsi ini menjadi tidak valid ketika terdapat outlier pada data,
sehingga sebaiknya menggunakan metode imputasi berdasarkan estimasi robust
(Hron et al., 2008). Hron et al. (2008) dalam penelitiannya membandingkan
beberapa metode imputasi yaitu geometric mean, k-nn dengan jarak Aitchison,
regresi LS dengan isometric logratio transformation (ilr), regresi LTS dengan
ilr, imputasi mean, EM, k-nn dengan jarak Euclidian, regresi LS dan LTS
tanpa transformasi. Hron et al. (2008) menyarankan untuk menggunakan regresi
LTS karena robust regresi dapat mengurangi pengaruh kehadiran outlier terhadap
penaksiran parameter regresi (Maronna et al., 2006). Rousseeuw and Driessen
(2006) dalam kajiannya tentang penggunaan Regresi LTS untuk sampel besar
yaitu n = 100, 500, 1.000, 10.000 dan 50.000 dengan data hasil simulasi dan
sampel kecil n = 12, 18, 20, 23, 25 dan 28, menyimpulkan bahwa regersi LTS
sangat robust terhadap outlier dan cepat dalam penghitungannya. Rousseeuw and
Driessen (2006) mengembangkan Algoritma FAST-LTS kemudian dibandingkan
dengan Feasible Subsets Algorithm (FSA). Algoritma FAST-LTS dua kali lebih
cepat dari pada FSA pada sampel kecil dan sepuluh kali lebih cepat pada sampel
besar.
2.3.3 Outlier
Sembiring (1995) mendenisikan outlier sebagai pengamatan yang tidak
mengikuti pola umum data, ditunjukkan dari residualnya yang besar, yang
13
mungkin berpengaruh besar terhadap koesien regresi. Barnett and Lewis (1994)
mendenisikan outlier sebagai sebuah observasi (atau subset dari observasi)
yang memperlihatkan inkonsistensi dengan sisa data yang lain, pengamatan yang
memperlihatkan penyimpangan sangat mencolok dari anggota sampel lainnya.
Lebih lanjut Barnett and Lewis (1994) membedakan antara observasi ekstrim,
outlier dan contaminant. Observasi ekstrim adalah observasi yang berada di batas
atas atau batas bawah sebuah distribusi. Contaminants adalah irisan observasi dari
dua buah distribusi. Outlier belum tentu contaminants dan contaminants belum
tentu outlier. Outliers sudah pasti observasi ekstrim sedangkan observasi ekstrim
belum tentu outlier.
Secara umum terdapat tiga buah cara penanganan outlier, yaitu:
1. Menyisihkan outlier dari kumpulan data sebelum dilakukan analisis.
Alternatif pertama bukan lah keputusan yang bijak mengingat data sangat
berharga dan mahal.
2. Menganggap outlier sebagai missing value, lalu menggantikan nilai yang
dianggap hilang dengan suatu nilai dari hasil estimasi. Elliott (2006)
melakukan hal ini dalam penelitiannya, akan tetapi outlier yang terjadi
karena kesalahan pencatatan clerical errors. Perlu diwaspadai ketika data
sudah terdapat missing value, dengan menggantikan outlier sebagai missing
value maka akan menambah jumlah missing value. Chaimongkol (2005)
menyatakan bahwa jumlah missing value yang dapat ditangani oleh suatu
metode imputasi adalah sebesar kurang dari 15%.
3. Mengakomodir outlier dengan menggunakan metode yang robust terhadap
outlier. Alternatif ke-3 yang akan dilakukan dalam penelitian ini.
14
2.4 Survei Industri Besar dan Sedang (Survei IBS)
Istilah-istilah yang berkaitan dengan Survei IBS (BPS (2006)):
1. Kuesioner II-A adalah jenis kuesioner yang digunakan untuk mengumpulkan
informasi mengenai jumlah perusahaan, status penanaman modal, jumlah
tenaga kerja, pengeluaran untuk pekerja, tenaga listrik, bahan bakar yang
digunakan, biaya input, nilai output, nilai tambah dan jual beli barang modal
tetap.
2. KBLI diadopsi dari International Standard Industrial Classication (ISIC)
yang disesuaikan dengan kondisi di Indonesia. KBLI suatu perusahaan
industri ditentukan berdasar pada produksi utamanya, yaitu jenis komoditi
yang dihasilkan dengan nilai paling besar.
3. Industri pengolahan adalah suatu kegiatan ekonomi yang melakukan kegiatan
mengubah suatu barang dasar secara mekanis, kimia atau dengan tangan
sehingga menjadi barang jadi atai setengah jadi dan atau barang kurang
nilainya menjadi barang yang lebih tinggi nilainya, dan sifatnya lebih dekat
kepada pemakai akhir.
4. Jasa Industri adalah kegiatan industri yang melayani keperluan pihak
lain. Pada kegiatan ini bahan baku disediakan oleh pihak lain sedangkan
pihak pengolah hanya melakukan pengolahannya dengan mendapat imbalan
sejumlah uang atau barang sebagai balas jasa (upah makloon).
5. Perusahaan atau usaha industri adalah suatu unit (kesatuan) usaha yang
melakukan kegiatan ekonomi, bertujuan menghasilkan barang atau jasa,
terletak pada suatu bangunan atau lokasi tertentu, dan mempunyai catatan
administrasi tersendiri yang bertanggung jawab atas usaha tersebut.
15
6. Perusahaan atau usaha industri menurut jumlah tenaga kerja nya dibedakan
menjadi perusahaan besar (> 100 orang), perusahaan sedang (20-99 orang),
perusahaan kecil (5-19 orang) dan usaha industri rumah tangga (1-4 orang).
BAB III
IMPUTASI MISSING VALUE PADA DATA YANG MENGANDUNG
OUTLIER
Eksplorasi data merupakan langkah pertama yang harus dilakukan sebelum
melakukan analisis. Cara termudah yaitu dengan memplot data. Terkait dengan
permasalahan imputasi jika terdapat outlier maka pendeteksian outlier menjadi
bagian dari eksplorasi data. Pemilihan metode imputasi juga didasarkan kepada
hasil eksplorasi data secara keseluruhan mencakup data lengkap dan missing value.
Pendekatan yang digunakan dalam penelitian ini adalah pendekatan
superpopulasi yaitu nilai dari karakteristik dalam populasi dengan N elementer
dinotasikan sebagai y = {y
1
, y
2
, ..., y
N
} dianggap sebagai realisasi dari variabel
acak {Y
1
,Y
2
, ...,Y
N
} yang melalui suatu proses stokastik. Proses stokastik biasanya
dinyatakan dalam suatu model yang melibatkan variabel-variabel acak dengan
fungsi distribusi peluang tertentu (Pawitan, 2001). Jika seluruh komponen
dari vektor y diketahui maka
N
(y) adalah sebuah perkiraan dari parameter
superpopulasi . Jika survei populasi yaitu vektor y tidak diketahui seluruhnya,
maka
N
(y) adalah sebuah parameter untuk survei populasi (Godambe &
Thompson, 1986).
3.1 Pendeteksian Outlier
Neter et al. (1989) menyatakan identikasi outlier dengan boxplots, steam
and leaf plots, scatter plots, dan residual plots untuk regresi dengan lebih dari dua
variabel tidaklah memadai. Beberapa univariate outlier belum tentu merupakan
nilai ekstrim pada model regresi berganda dan beberapa multipel outliers belum
tentu dapat terdeteksi pada analisis satu atau dua variabel.
16
17
3.1.1 Pendeteksian Outlier pada Dimensi X
Nilai Laverage (h
ii
) menampilkan nilai pengaruh terpusat, diperoleh dari nilai
diagonal utama hat matriks (H) yang berukuran n x n. Hat matriks juga dikenal
sebagai matriks prediksi karena memetakan nilai Y menjadi nilai taksiran

(Y).
Formulasi hat matriks:
H = X
_
X

X
_
1
X

. (3.1)
Nilai Laverage > 2p/n diindikasikan sebagai outlier, dengan p adalah banyaknya
parameter dan n adalah banyaknya unit observasi.
3.1.2 Pendeteksian Outlier pada Dimensi Y
Studentized deleted residual merupakan nilai residual yang distandarkan
dengan menghilangkan pengamatan ke-i dari perhitungan. Studentized deleted
residual diperoleh dengan menggunakan rumus sebagai berikut:
t
i
= e
i
_
np1
SSE(1h
ii
) e
2
i
_
1/2
, i = 1, 2, ..., n, (3.2)
dengan e
i
adalah residual, SSE adalah jumlah kuadrat residu dan h
ii
adalah nilai
laverage. Bandingkan nilai | t
i
| dengan nilai t
(1;np1)
, jika | t
i
|> t
(1;np1)
maka unit observasi ke-i adalah outlier.
3.1.3 Outlier yang Berkaitan dengan Inuential Cases
Untuk mendeteksi outlier yang berkaitan dengan inuential cases digunakan
ukuran Cooks distance (D
i
). Ukuran Cooks distance (D
i
) diformulasikan dengan:
D
i
=
X
_
X

X
_
1
X

(p+1)(1h
ii
)
_
e
2
i
s
2
(1h
ii
)
_
, (3.3)
18
dengan e
i
adalah residual, s
2
adalah rata-rata kuadrat residu, (p + 1)
adalah banyaknya parameter, dan h
ii
adalah nilai laverage. Suatu data
dianggap berpengaruh jika nilai D
i
> 1, atau bisa menggunakan kriteria D
i
>
F
((;(p+1),n(p+1)))
.
3.2 Metode Imputasi PMM
Pada dasarnya metode ini sama dengan metode regresi, yang membedakan
adalah setiap nilai yang hilang diimputasikan dari nilai observasi yang terdekat
dari model (Rubin, 1987). Model yang digunakan pada tahapan ini adalah model
regresi linier normal dengan

Y N
_
X

,
2
_
. Vektor

=
_

0

1

2
. . .
q
_
adalah vektor komponen q +1 dengan q adalah banyaknya variabel prediktor dan
diasumsikan juga bahwa n
l
> q+1 dengan n
l
jumlah responden yang memberikan
data lengkap.
Bilangan skalar
2
didapatkan dengan membagi
2
l
(n
l
q1) dengan
bilangan acak g yang dibangkitkan dari distribusi Chi Square dengan derajat
bebas n
l
q 1. Selain itu, given
2
adalah berdistribusi normal dengan rata-
rata sebesar

l
dan matriks varians kovarians
2
V (Box & Tiao, 1973). Dalam
terminologi statistik kuadrat terkecil berdasarkan pada n
l
dapat dituliskan sebagai
berikut:

2
l
=
Y

l
X

Y
n
l
q1
(3.4)

l
= V
_
X

Y
_
(3.5)
V =
_
X

X
_
1
(3.6)
Tahap-tahap berikut dilakukan untuk menghasilkan nilai yang akan diimputasikan
19
pada setiap imputasi:
1. Hitung nilai
2

dengan menggunakan persamaan:

=
2
l
(n
l
q1)/g, (3.7)
dengan

2
l
adalah varian dari data lengkap
n
l
jumlah responden yang memberikan data lengkap
g adalah variabel random yang dibangkitkan dari distribusi Chi Square
dengan derajat bebas n
l
q1 (
2
n
l
q1
)
2. Tentukan q +1 buah variabel independen berdistribusi Normal (0,1) untuk
membuat q+1 komponen vektor

Z, kemudian hitung nilai

menggunakan
persamaan:

l
+

[V]
1/2

Z, (3.8)
dengan [V]
1/2
adalah akar ciri dari V yang merupakan matriks segitiga atas
yang diperoleh dengan menggunakan dekomposisi Cholesky.
3. Y
mis
(data yang hilang) diprediksi menggunakan persamaan:
Y
i
= X
i

, (3.9)
dengan i adalah anggota item nonresponden (unit observasi yang terdapat
missing data). Untuk setiap Y
i
dengan i adalah anggota item nonresponden,
ambil responden yang mempunyai nilai Y
i
dengan i adalah anggota responden
yang nilainya paling dekat dengan nilai

Y
i
, kemudian nilai tersebut
diimputasikan pada data yang hilang.
20
3.3 Metode Imputasi Regresi LTS
Asumsi Gaus-Markov harus dipenuhi sehingga dengan metode OLS akan
diperoleh estimator yang bersifat unbias dan variansnya minimum yang biasa
disebut dengan Best Linier Unbiased Estimator (BLUE). Asumsinya adalah rata-
rata residual model adalah nol untuk semua pengamatan, tidak terdapat korelasi
antar kekeliruan, setiap residual mempunyai varians yang sama, residual dan
variabel bebas saling independen. Analisis regresi multipel dengan menggunakan
OLS rentan terhadap outlier karena kehadirannya dapat menyebabkan varians
residual tidak lagi homogen atau menjadi besar. Akibatnya selang kepercayaan
melebar, taksiran parameter tidak lagi konsisten dan pengujian statistik terhadap
taksiran parameter regresi dan pembuatan selang kepercayaan yang didasarkan
kepada distribusi normal tidak dapat dilakukan. Estimator LTS diusulkan oleh
Rousseeuw (1984) sebagai alternatif robust untuk mengatasi kelemahan estimator
OLS. LTS merupakan suatu metode pendugaan parameter regresi robust untuk
meminimumkan jumlah kuadrat h residual (fungsi objektif):

= argmin

i=1
e
2
(i:n)
, (3.10)
dengan
h =
_
n+ p+1
2
_
n adalah banyaknya pengamatan
p adalah banyaknya parameter regresi
Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif
terkecil. Nilai h akan membangun breakdown value yang besar sebanding dengan
50 persen. Breakdown value yaitu jumlah pengamatan minimal yang dapat
menggantikan sejumlah pengamatan mula-mula yang berakibat pada nilai taksiran
21
yang dihasilkan sangat berbeda dari taksiran sebenarnya. Algoritma FAST-LTS
menurut Rousseeuw and Driessen (2006) adalah gabungan LTS dan C-steps.
3.3.1 Ide Dasar dan C-steps
Sebuah kumpulan data (x
1
, y
1
), ..., (x
n
, y
n
) terdiri dari p variabel prediktor x
i
dan satu variabel respons y
i
. H
1
{1, ..., n} dengan | H
1
|=h dan Q
1
:=

iH
1
(e
1
(i))
2
dengan e
1
(i) = y
i

1
1
x
i1
+
1
2
x
i2
+... +
1
p
x
ip
_
untuk semua i = 1, ..., n.

1
=
_

11
,

21
, ...,

p1
_
adalah vektor px1. Selanjutnya H
2
sedemikian rupa sehingga
{| e
1
(i) |; i H
2
} := {| e
1
|
1:n
, ..., | e
1
|
h:n
} dengan | e
1
|
1:n
| e
1
|
2:n
... | e
1
|
n:n
adalah order dari nilai absolut residual, kemudian hitung

2
dengan LS dari h
observasi dalamH
2
. Dihasilkan e
2
(i) untuk semua i =1, ..., n dan Q
2
=

iH
2
(e
2
(i))
2
.
Tahapan algoritma C-steps adalah sebagai berikut:
1. Terdapat h-subsets H
old
, lalu hitung

old
dengan LS berdasarkan H
old
2. Hitung residual e
old
(i) untuk semua i = 1, ..., n
3. Urutkan nilai absolut residual dari terkecil sampai terbesar yang
menghasilkan permutasi untuk | e
old
((1)) || e
old
((2)) | . . . |
e
old
((n)) |
4. Ambil H
new
:={(1), (2), . . . , (h)}
5. Hitung

new
dengan LS berdasarkan H
new
.
6. Lakukan sampai Q
m
= Q
m1
dengan urutan Q
1
Q
2
Q
3
. . . nilai yang
nonnegatif dan konvergen.
3.3.2 Algoritma FAST-LTS
Tahapan algoritma FAST-LTS adalah sebagai berikut:
22
1. Nilai h = [(n+ p+1)/2] yang sudah default, tetapi boleh memilih
suatu bilangan integer h dengan (n+ p+1)/2 h n. Jika yakin
terdapat contaminant kurang dari dua puluh lima persen pada data,
untuk mendapatkan breakdown value dan esiensi sekaligus maka dapat
menggunakan h = [0, 75n].
2. Jika p = 2 dan n kecil (sebut saja n=600) maka:
a. Ulangi sampai beberapa kali (sebut saja 500 kali). Bangun sebuah inisial
h-subset H
1
, kemudian lakukan dua langkah C-steps.
b. 10 hasil dengan Q
3
terendah lakukan C-steps sampai konvergen
3.3.3 Tahapan Imputasi Regresi
Tahapan imputasi regresi:
1. Hitung nilai
2

dengan menggunakan persamaan:

=
2
l
(n
l
q1)/g, (3.11)
dengan

2
l
adalah varian dari data lengkap
n
l
banyak responden yang memberikan data lengkap
g adalah variabel random yang dibangkitkan dari distribusi Chi Square
dengan derajat bebas n
l
q1 (
2
n
l
q1
)
2. Tentukan q+1 buah variabel independen berdistribusi Normal (0,1) untuk
membuat q+1 komponen vektor

Z, kemudian hitung nilai

menggunakan
persamaan:

l
+

[V]
1/2

Z, (3.12)
23
dengan [V]
1/2
adalah akar ciri dari V yang merupakan matriks segitiga atas
yang diperoleh dengan menggunakan dekomposisi Cholesky.
3. Y
mis
(data yang hilang) diprediksi dengan:
Y
i
= X
i

+z
i

, (3.13)
dengan i adalah anggota nonresponden (unit observasi yang terdapat missing
data) dan z
i
adalah nilai berdistribusi normal (0,1) hasil simulasi.
Nilai yang akan diimputasikan pada Y
mis
dilakukan dengan mengambil nilai
yang baru bagi parameter
2

. Apabila ingin dilakukan imputasi sebanyak m


kali, maka ketiga langkah diatas diulang sebanyak m kali secara independen
(Rubin 1987: 166-167).
3.4 Esiensi dari Imputasi Berganda

Q
i
adalah estimasi titik dan

W
i
estimasi varians dari data set hasil imputasi
ke-i dimana i = 1, 2, 3, ..., m. Rata-rata

Q
i
dari m buah imputasi adalah:
Q =
1
m
m

i=1

Q
i
, (3.14)
dengan m adalah banyaknya pengulangan imputasi. Rata-rata

W
i
adalah rata-rata
varians dalam imputasi ke i, yaitu:
W =
1
m
m

i=1

W
i
. (3.15)
B adalah varians antar imputasi, formulasi nya adalah sebagai berikut:
B =
1
m1
m

i=1
_

Q
i
Q
_
2
(3.16)
24
T adalah total dari varians, formulasi nya adalah sebagai berikut:
T =W +
_
1+
1
m
_
B (3.17)
Statistik dari
_
QQ
_
T
1/2
mengikuti distribusi t dengan derajat bebas v
m
(Rubin,
1987), dengan formulasi v
m
adalah sebagai berikut:
v
m
= (m1) +
_
1+
W
(1+m
1
)B
_
2
(3.18)
Besarnya derajat bebas v
m
tergantung pada m dan rasio r. Statistik r didenisikan
sebagai pertambahan relatif dari varians akibat nonrespons (Rubin, 1987).
Formulasi v
m
adalah sebagai berikut:
r =
_
1+m
1
_
B
W
(3.19)
Nilai r = 0 karena jika tidak ada informasi Q maka B adalah nol. Nilai m yang
besar mengakibatkan nilai r yang kecil dan derajat bebas dari v
m
akan menjadi besar
sehingga distribusinya akan mendekati normal. Statistik lain yang sangat berguna
berkaitan dengan nonrespons adalah fraction dari informasi Q. Fraction merupakan
sebuah nilai yang berpengaruh terhadap kecepatan konvergensi terhadap suatu nilai.
Semakin besar fraction pada informasi Q maka konvergensinya semakin lambat.
Fraction dapat dicari dengan menggunakan persamaan:

=
r +(2/(v
m
+3))
r +1
(3.20)
Esiensi relatif (ER) adalah esiensi yang diperoleh dengan menggunakan m buah
imputasi terbatas (nite) dibandingkan dengan jumlah tidak terbatas (innite). Pada
kasus dengan hanya sedikit informasi yang hilang, hanya diperlukan sejumlah kecil
25
pengulangan imputasi. Menurut Yuan (2001), nilai esiensi relatif biasanya berkisar
antara 80 sampai 100 persen. Esiensi Relatif diperoleh dari fungsi m dan

,
formulasinya adalah:
ER =
_
1+

m
_
1
x 100% (3.21)
Nilai ER yang tinggi menunjukkan bahwa metode imputasi yang digunakan
memiliki esiensi yang besar yang artinya dengan tidak terlalu banyak melakukan
pengulangan, nilai imputasi yang dihasilkan sudah mendekati hasil imputasi yang
dilakukan dengan jumlah tidak terbatas (innite).
3.5 Tahapan Penelitian
Tahapan-tahapan penelitian adalah sebagai berikut:
1. Mengelompokkan perusahaan industri menjadi dua kelompok, unit
nonresponse dan unit response (nonresponden dan responden). Dari
kelompok responden dikelompokkan menjadi dua kelompok yaitu kelompok
yang menjawab semua pertanyaan dan kelompok yang terdapat item
nonresponse.
2. Melakukan analisa pola missing data kelompok yang terdapat item
nonresponse. Melakukan analisa deskriptif pada variabel yang digunakan
dalam penelitian.
3. Penanganan missing data
a. Memodelkan variabel pada kelompok responden yang menjawab semua
pertanyaan sebagai berikut X
5
=
0
+
1
X
1
+
2
X
2
+
3
X
3
+
4
X
4
+
menggunakan regresi LS, dengan X
1
adalah nilai pendapatan, X
2
adalah
banyaknya upah gaji yang dibayarkan, X
3
adalah bahan bakar, pelumas
26
dan tenaga listrik yang digunakan; X
4
adalah banyaknya pengeluaran
lain dan X
5
adalah banyaknya bahan baku yang digunakan.
b. Melakukan pendeteksian outlier.
c. Melakukan imputasi dengan metode imputasi PMM
d. Memodelkan variabel menggunakan regresi LTS
e. Melakukan imputasi dengan metode imputasi regresi
4. Membandingkan hasil imputasi yang didapat dari kedua metode imputasi
dengan Esiensi Relatif
3.6 Variabel Penelitian
Variabel yang digunakan adalah sebagai berikut:
1. Pendapatan (X
1
) yaitu nilai (dalam ribuan rupiah) dari semua barang yang
dihasilkan baik yang diekspor maupun tidak diekspor, termasuk di dalamnya
jasa industri, selisih nilai stok barang produksi setengah jadi, listrik yang
dijual dan pendapatan lainnya yang berasal dari keuntungan penjualan barang
yang tidak diproses, jasa-jasa non industri lainnya, penjualan limbah/sampah
produksi.
2. Upah gaji pekerja/karyawan (X
2
) yaitu nilai (dalam ribuan rupiah) upah
gaji pekerja/karyawan yang dibayarkan selama tahun 2008. Termasuk di
dalamnya insentif lain yang dibayarkan baik untuk pekerja produksi dan
pekerja lainnya.
3. Bahan bakar, pelumas dan tenaga listrik yang digunakan (X
3
) yaitu nilai
(dalam ribuan rupiah) dari seluruh bahan bakar dan pelumas yang betul-betul
dipakai selama tahun 2008 seperti bensin, solar, minyak tanah, batu bara dan
27
bahan bakar lainnya + banyaknya tenaga listrik yang dibeli dari PLN dan atau
nonPLN.
4. Pengeluaran lain selama tahun 2008 (X
4
) nilai (dalam ribuan rupiah)
untuk pengeluaran sewa gedung, mesin, serta alat-alat dan tanah, pajak
tidak termasuk pajak upah dan pajak perseorangan, biaya jasa industri
yang digunakan, bunga atas pinjaman, hadiah, sumbangan, derma dan
sejenisnya, pengeluaran lainnya termasuk biaya representasi, royalti, man-
agement fee, promosi/iklan, air, pos, telepon, fax, perjalanan dinas, pencega-
han pencemaran lingkungan, biaya penelitian, biaya peningkatan SDM.
5. Banyaknya bahan baku dan penolong (X
5
) yaitu nilai (dalam ribuan rupiah)
dari seluruh bahan baku serta bahan penolong yang digunakan dalam proses
produksi selama tahun 2008.
28
Gambar 3.1. Tahapan Penelitian
BAB IV
HASIL DAN PEMBAHASAN
Tahapan analisis dimulai dengan eksplorasi data kemudian dilakukan
imputasi dengan metode PMM dan metode regresi LTS. Hasil dari kedua metode
tersebut dibandingkan dengan statistik Efciency Relative (ER). Suatu metode
dikatakan esien jika ER nya bernilai sama dengan satu.
4.1 Eksplorasi Data
Hasil Survei Industri Besar Sedang di Provinsi Kepulauan Riau tahun
2008 tidak mencapai seratus persen. Tingkat pemasukan dokumen nya hanya
mencapai 83 persen dari total 534 perusahaan. Dari 83 persen terdapat missing
data. Pengelompokkan perusahaan-perusahaan berdasarkan KBLI mempermudah
tahapan eksplorasi data. Pada KBLI 32100 terdapat missing value dan outlier.
Responden (unit observasi yang respons) dikumpulkan ke dalam dua kelompok
yaitu kelompok n
0
yang menjawab semua pertanyaan dan kelompok n
1
yang
terdapat item nonresponse. Dari 53 responden yang termasuk ke dalam KBLI
32100 n
0
=47 responden dan n
1
=6 responden. Tabel 4.1 memperlihatkan bahwa
pola missing data pada penelitian ini adalah pola univariat.
Tabel 4.1. Tabel Pola Missing Data
Responden Variabel
X
1
X
2
X
3
X
4
X
5
1 0 0 0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n
0
= 47 0 0 0 0 0
1 0 0 0 0 1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
n
1
= 6 0 0 0 0 1
29
30
Gambar 4.1. Boxplot Variabel X
1
Gambar 4.2. Boxplot Variabel X
2
31
Gambar 4.3. Boxplot Variabel X
3
Gambar 4.4. Boxplot Variabel X
4
32
Gambar 4.5. Boxplot Variabel X
5
Dari gambar 4.1 - 4.5 terlihat bahwa semua variabel terdeteksi terdapat
outlier. Pada variabel X
1
terdeteksi observasi ke-13, 15, 18, 23 dan 47 sebagai
outlier. Pada variabel X
2
terdeteksi observasi ke-4, 15, 17 dan 49 sebagai outlier.
Pada variabel X
3
terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.
Pada variabel X
4
terdeteksi observasi ke-1, 9, 18, 23 dan 49 sebagai outlier. Pada
variabel X
5
terdeteksi observasi ke-4, 6, 15, 17, 18 dan 50 sebagai outlier.
4.2 Pendeteksian Outlier
Terkait dengan permasalahan bahwa data yang akan diimputasi mengandung
outlier maka perlu dilakukan pendeteksian outlier untuk melihat secara jelas
observasi mana saja yang dianggap sebagai outlier. Pada dasarnya imputasi PMM
diawali dengan membuat persamaan regresi dengan metode OLS antara variabel
yang mengandung missing value sebagai variabel respons dengan variabel yang
memiliki data lengkap sebagai variabel prediktornya. Oleh karena itu tahapan
eksplorasi berikutnya adalah melakukan pendeteksian outlier dilakukan dengan
33
cara melihat nilai laverage, deleted studentized residual dan Cooks Distance dari
masing-masing observasi. Nilai laverage, deleted studentized residual dan Cooks
Distance masing-masing observasi lihat pada lampiran.
4.2.1 Pendeteksian Outlier pada Dimensi X
Pengecekan outlier pada dimensi X dilakukan dengan melihat laverage untuk
setiap observasi. Sebuah observasi dikatakan outlier jika nilai laveragenya >
2p/n. Pembentukan persamaan regresi antara variabel materi dengan variabel
pendapatan, gaji, bahan bakar pelumas dan pengeluaran lainnya menghasilkan
parameter sebanyak 5 (p=5) dengan observasi sebanyak 47 buah. Oleh karena itu,
didapatkan 2p/n = (2x5)/47 = 0, 21276. Observasi ke 6, 13, 15, 17, 23, 40 dan 47
mempunyai laverage lebih besar dari pada 0,21276.
4.2.2 Pendeteksian Outlier pada Dimensi Y
Pengecekan outlier pada dimensi Y dilakukan dengan membandingkan nilai
absolut dari studentized deleted residual terhadap nilai t
(1;np1)
. Dari tabel
distribusi t didapatkan nilai t
(0.95;4751)
= 1, 683. Observasi ke 10, 13, 17 dan
23 mempunyai nilai |t
i
| yang lebih besar dari pada 1,683.
4.2.3 Pendeteksian Outlier yang Berkaitan dengan Inuential Cases
Pengecekan outlier berkaitan dengan data berpengaruh menggunakan ukuran
Cooks Distance. Suatu data dianggap berpengaruh jika nilai Di > 1. Observasi ke
13, 15, 17 dan 23 adalah data yang berpengaruh.
4.3 Imputasi dengan Menggunakan Metode PMM
PROC MI pada paket program SAS 9.2 digunakan untuk melakukan imputasi
data hilang sebanyak 5 kali. Ulangan imputasi umumnya cukup dilakukan tiga
34
sampai lima kali (Rubin, 1996). Output dan sintaks pada lampiran. Algoritma
imputasi PMM yaitu sebagai berikut:
1. Langkah pertama yang dilakukan adalah meregresikan data lengkap
(sebanyak 47 buah observasi) dengan metode OLS sehingga menghasilkan
persamaan regresi sebagai berikut:
y
i
= 5663635+0.622x
1
1.62x
2
+2.49x
3
0.893x
4
(4.1)
2. Langkah kedua yaitu mencari nilai
2

dengan menggunakan persamaan:

=
2
l
(4741)/g, (4.2)
dengan

2
l
= SSE/d f = 1.07490E16
g adalah variabel random yang dibangkitkan dari distribusi Chi Square
dengan derajat bebas 47-4-1 (
2
4741
)
3. Langkah ketiga yaitu mencari

=
_

_
5663635
0.622
1.62
2.49
0.893
_

_
+

_
V
_
1/2

Z dengan
V =
_
X

X
_
1
Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi
normal baku N(0,1) dan
_
V
_
1/2
adalah adalah matriks segitiga atas yang diperoleh dari dekomposisi
Cholesky.
35
4. Y
mis
(data yang hilang) diprediksi menggunakan persamaan:
y
i
=
0
+
1
x
1
+
2
x
2
+
3
x
3
+
4
x
4
, (4.3)
Model pada setiap imputasi dihasilkan sebagai berikut:
Tabel 4.2. Tabel Parameter pada Metode Imputasi PMM
Parameter Imputasi ke-
1 2 3 4 5
Intercept 0.031278 -0.13543 0.143468 -0.09983 -0.09802
PENDAPATAN(X
1
) 1.061884 1.108503 1.167132 1.163257 1.198147
GAJI(X
2
) 0.167279 -0.14848 -0.23702 -0.27967 -0.34579
BHNBKRPLMS(X
3
) 0.028362 0.004218 0.082983 0.135629 0.272966
PENGSEWA(X
4
) -0.91679 -0.59553 -0.69056 -0.8019 -0.75984
Pada imputasi ke-1 untuk variabel Gaji dihasilkan nilai parameter yg positif
tetapi tidak pada ulangan imputasi ke-2 ,3, 4, dan 5. Parameter hasil imputasi
ke-1 tidak konsisten dengan parameter hasil imputasi ke-2 sampai ke-5.
5. Hitung prediksi untuk setiap nilai yang hilang menggunakan persamaan 4.3
dengan nilai-nilai dari parameternya tertera pada tabel 4.2.
6. Ambil responden yang memiliki data lengkap dengan nilai y
i
yang tedekat
dengan y
i
7. Lakukan imputasi missing value dengan menggunakan nilai dari tahap ke 6.
Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang
dihasilkan dari tabel 4.4. Sekilas bila dilihat secara kasat mata, maka nilai
hasil imputasi PMM masih masuk akal karena tidak terdapat nilai minus, dalam
penelitian ini variabel pengeluaran bahan baku dan penolong tidak boleh bernilai
minus. Akan tetapi ada beberapa nilai pada imputasi ke-i dan ke-i +1 yang sangat
berbeda jauh. Hal tersebut menunjukkan bahwa metode imputasi PMM tidak cocok
digunakan pada data.
36
Tabel 4.3. Tabel Nilai Hasil Imputasi pada Metode Imputasi PMM
Observasi Imputasi ke-
1 2 3 4 5
1 15,855,718 0 0 326,000 326,000
2 240,000,000 240,000,000 131,869,926 5,706,271 36,314,705
3 136,297,463 13,625,576 36,314,705 13,057,100 28,662,200
4 124,409,480 36,314,705 7,553,811 13,057,100 7,553,811
5 0 5,053,463 1,532,377 326,000 0
6 28,662,200 15,855,718 24,646,582 5,598,720 47,215,925
4.4 Imputasi dengan Menggunakan Metode Regresi LTS
Paket program SAS 9.2 menyediakan paket LTS dengan perintah call LTS.
Koesien dari hasil regresi LTS selanjutnya digunakan untuk imputasi dengan
metode regresi. Langkah-langkah nya adalah sebagai berikut:
1. Langkah pertama yang dilakukan menentukan subset h = (47 +4 +1)/2 =
26 setelah dilakukan iterasi dengan PROC IML didapatkan 26 subset terbaik
yaitu observasi ke-3, 5, 11, 15, 16, 20, 21, 23, 24, 25, 27, 28, 29, 30, 31,
33, 35, 36, 37, 38, 39, 40, 41, 43, 44 dan 45. Menggunakan metode OLS
didapatkan persamaan regresi sebagai berikut:
y
i
=284561.6438+0.99217x
1
1.24224x
2
0.67622x
3
1.08837x
4
(4.4)
2. Langkah kedua yaitu mencari nilai
2

dengan menggunakan persamaan:

=
2
l
(4741)/g, (4.5)
dengan

2
l
= SSE/d f = 3.08717E +13
g adalah variabel acak yang dibangkitkan dari distribusi Chi Square dengan
37
derajat bebas 47-4-1 (
2
4741
)
3. Langkah ketiga yaitu mencari

=
_

_
284561.6438
0.9921733911
1.242240211
0.676226402
1.088368064
_

_
+

_
V
_
1/2

Z
dengan V =
_
X

X
_
1
Z adalah variabel bebas sebanyak q+1 yang dibangkitkan dari distribusi
normal baku N(0,1) dan
_
V
_
1/2
adalah adalah matriks segitiga atas yang
diperoleh dari dekomposisi Cholesky.
4. Y
mis
(data yang hilang) diprediksi menggunakan persamaan:
y
i
=
0
+
1
x
1
+
2
x
2
+
3
x
3
+
4
x
4
+z
i

, (4.6)
dengan z
i
adalah nilai yang dibangkitkan dari distribusi normal baku N(0,1)
Model pada setiap imputasi dihasilkan sebagai berikut:
Tabel 4.4. Tabel Parameter pada Metode Imputasi Regresi LTS
Parameter Imputasi ke-
1 2 3 4 5
Intercept -751,642.50 -669,582.90 578,671.68 -547,058.00 -778,612.00
PENDAPATAN(X
1
) 0.9921734 0.9921734 0.9921734 0.9921734 0.9921734
GAJI(X
2
) -1.24224 -1.24224 -1.24224 -1.24224 -1.24224
BHNBKRPLMS(X
3
) -0.676226 -0.676226 -0.676226 -0.676226 -0.676226
PENGSEWA(X
4
) -1.088368 -1.088368 -1.088368 -1.088368 -1.088368
5. Lakukan imputasi missing value dengan menggunakan persamaan 4.6 dengan
nilai-nilai dari parameternya tertera pada tabel 4.4..
Berikut ini adalah nilai-nilai hasil imputasi berdasarkan paramater-parameter yang
dihasilkan dari tabel 4.2.
38
Tabel 4.5. Tabel Nilai Hasil Imputasi pada Metode Imputasi Regresi LTS
Observasi Imputasi ke-
1 2 3 4 5
1 7,140,577 3,258,824 9,135,643 4,832,130 7,506,269
2 226,459,817 231,826,775 238,445,408 238,645,486 221,926,623
3 21,700,364 18,381,884 31,784,957 22,217,785 25,321,659
4 75,954,984 71,064,833 63,981,323 70,044,146 70,541,831
5 18,376,697 11,111,621 12,725,039 20,056,442 17,323,727
6 35,455,594 31,510,268 33,595,911 44,415,840 35,616,538
Nilai hasil imputasi regresi LTS saling berdekatan pada setiap ulangan
imputasi.
4.5 Perbandingan Esiensi Relatif Metode Imputasi PMM dan Regresi LTS
Esiensi Relatif dari metode imputasi PMM dan regresi LTS diperoleh
melalui langkah-langkah berikut ini:
1. Hitung estimasi titik untuk Q menggunakan persamaan 3.14
2. Hitung varian within imputation (W) dan between imputation (B) seperti pada
persamaan 3.15 dan 3.16
3. Hitung derajat bebas (v
m
) menggunakan persamaan 3.18
4. Hitung besarnya nilai (r) menggunakan persamaan 3.19
5. Hitung

yaitu fraction dari informasi hilang Q menggunakan persamaan 3.20
6. Hitung besar ER menggunakan persamaan 3.21
Hasil penghitungan secara simultan diperoleh ERuntuk metode PMMsebesar
99.5109 persen dan ER untuk metode regresi LTS sebesar 99.9999 persen. Artinya
metode imputasi regresi LTS lebih esien dibandingkan metode imputasi PMM,
39
karena tidak perlu melakukan banyak pengulangan untuk menghasilkan nilai
imputasi. Hasil dari penghitungan ER ditampilkan pada lampiran.
Hasil penghitungan ER untuk setiap parameter dapat dilihat pada tabel 4.6
dan tabel 4.7. Setiap parameter yang dihasilkan pada metode imputasi regresi LTS
mempunyai ER yang lebih tinggi dibandingkan dengan paramater yang dihasilkan
dari metode imputasi PMM. Hal ini sejalan dengan kesimpulan yang didapatkan
dari perbandingan ER secara simultan antara kedua metode.
Tabel 4.6. Tabel ER Parameter pada Metode Imputasi PMM
Parameter Relative Fraction Relative
Increase Missing Efciency
in Variance Information
Intercept 0.011771 0.011701 0.997665
PENDAPATAN(X
1
) 0.044906 0.043859 0.991304
GAJI(X
2
) 0.565362 0.399123 0.926076
BHNBKRPLMS(X
3
) 0.384237 0.303892 0.942704
PENGSEWA(X
4
) 0.038608 0.037837 0.992489
Tabel 4.7. Tabel ER Parameter pada Metode Imputasi Regresi LTS
Parameter Relative Fraction Relative
Increase Missing Efciency
in Variance Information
Intercept 0.000207 0.000207 0.999959
PENDAPATAN(X
1
) 0.00017 0.00017 0.999966
GAJI(X
2
) 0.002439 0.002436 0.999513
BHNBKRPLMS(X
3
) 0.002021 0.002019 0.999596
PENGSEWA(X
4
) 0.0002 0.000199 0.99996
Laju kekonvergenan ER menuju nilai 100 persen dari kedua metode dapat dil-
ihat pada gambar 4.2. Metode imputasi regresi LTS lebih cepat konvergen daripada
metode imputasi PMM. Oleh karena itu secara jelas metode imputasi regresi LTS
mempunyai kinerja yang lebih baik untuk imputasi ketika data terdapat outlier.
Tidak ada aturan khusus dalam pemilihan hasil imputasi mana yang akan dipakai
dari berbagai macam pilihan nilai yang dihasilkan dari hasil pengulangan imputasi.
40
Merujuk kepada laju kekonvergenan ER suatu metode menuju 100 persen maka
dapat digunakan nilai rata-rata hasil pengulangan imputasi, nilai median atau nilai
modusnya sebagai nilai akhir hasil imputasi untuk menggantikan missing value.
Tabel 4.8. Tabel Nilai ER Hasil Imputasi ke-2 ,3, 4 dan 5 pada Metode Imputasi
PMM dan Regresi LTS
Imputasi ke- ER LTS ER PMM
2 99.9998178041061 93.9282583002513
3 99.9999785790541 98.7333000686382
4 99.9999864200791 99.1747642887182
5 99.9999950275297 99.5109469219189
Gambar 4.6. Plot Laju ER PMM dan Regresi LTS
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan penelitian yang telah dilakukan dapat diambil beberapa
kesimpulan sebagai berikut:
1. Pada beberapa kali ulangan, metode PMM menghasilkan nilai imputasi
sama dengan nol. Hasil imputasi sama dengan nol pada kenyataannya
mungkin terjadi untuk perusahaan makloon tetapi tidak pada perusahaan
bukan makloon. Nilai nol pada metode PMM terjadi karena proses estimasi
menghasilkan nilai negatif maka kemudian akan dipilih nearest neighbour
dari nilai estimasi. Dalam hal ini, nilai nol adalah nilai yang paling dekat
dengan estimasi bernilai minus. Walaupun cukup baik dilihat dari statistik
ERnya, tetapi melalui beberapa kali ulangan nilai imputasi yang dihasilkan
tidak masuk akal.
2. Penggunaan metode imputasi yang robust terhadap outlier mempunyai
kinerja yang lebih baik dari pada metode imputasi PMM. Metode imputasi
regresi LTS sangat cepat konvergen menuju nilai imputasi yang esien.
Metode imputasi regresi LTS menghasilkan nilai imputasi yang robust
terhadap outlier.
5.2 Saran
1. Penelitian ini hanya difokuskan kepada penanganan missing value dengan
pola univariat, seyogyanya bila memungkinkan dapat dikembangkan untuk
pola missing value yang lain.
41
42
2. Sebelum melakukan imputasi missing value pada data yang mengandung
outlier sebaiknya harus dipastikan bahwa outlier yang ada terjadi bukan
karena kesalahan pengetikan atau penulisan (clerical errors) tetapi lebih
karena fenomena yang memang benar-benar terjadi.
DAFTAR PUSTAKA
Barnett, V., & Lewis, T. (1994). Outliers in statistical data. New York: John Wiley
& Sons, Inc.
Basuki, R. (2009). Imputasi berganda menggunakan metode regresi dan metode
predictive mean matching untuk menangani missing data. Naskah tesis yang
tidak dipublikasikan, Institut Teknologi Sepuluh Nopember, Surabaya.
Box, G. E. P., & Tiao, G. C. (1973). Bayesian inference in statistical analysis.
Reading Mass: Addison-Wesley.
Carpenter, J., & Kenward, M. (2006). A comparison of multiple imputation and
doubly robust estimation for analysis with missing data. Journal of Royal
Statistics Society, 0964-1998/06/169000.
Chaimongkol, W. (2005). Three composite imputation method for item nonresponse
estimation in sample survey. Unpublished doctoral dissertation, National
Institute of Development Administration, Thailand.
Chambers, R., & Skinner, C. (2003). Analysis of survey data. New York: John
Wiley & Sons, Inc.
Elliott, M. (2006). Multiple imputation in the presence of outliers (Tech. Rep.
No. 59). University of Michigan School of Public Health. Available from
http://www.bepress.com/umichbiostat/paper59
Godambe, V., & Thompson, M. (1986). Parameters of superpopulation and survey
population: Their relationships and estimation. Internal Statistical Review,
54, 127-138.
Horton, N., & Kleinman, K. (2007). Much ado about nothing: A comparison of
missing data method and software to t incomplete data regression models.
Journal of the American Statistical Association, 61, 79-90.
Horton, N., & Lipsitz, S. (2001). Multiple imputation in practice: Comparison of
software package for regression model with missing variables. Journal of the
American Statistical Association, 55, 244-255.
Hron, K., Templ, M., & Filzmoser, P. (2008, Desember). Imputation of missing
value for compositional data using classical and robust methods (Research
report sm-2008-4, Departement of Statistics and Probability Theory). Austria:
Vienna University of Technology. Available from http://www.statistik
.tuwien.ac.at/forschung/SM/SM-2008-4complete.pdf.
Huber, P. (1981). Robust statistics. New York: John Wiley & Sons, Inc.
43
44
Inc., S. I. (2008). Sas/stat 9.2 users guide. Cary, NC: SAS Institute Inc.
Leeuw, E. de, Hox, J., & Huisman, M. (2003). Prevention and treatment of item
nonresponse. Journal of Ofcial Statistics, 19, 153-176.
Lessler, J., & Kalsbeek, W. (1992). Nonsampling error in surveys. New York: John
Wiley & Sons, Inc.
Little, R., & Rubin, D. (1987). Statistical analysis with missing data. Cambridge:
John Wiley & Sons, Inc.
Longford, N. (2005). Missing data and small-area estimation. NewYork: Springer.
Maronna, R., Martin, R., & Yohai, V. (2006). Robust statistics: Theory and
methods. New York: John Wiley & Sons, Inc.
Neter, J., Wasserman, W., & Kutner, M. (1989). Applied linier regression. Boston:
Irwin.
Pawitan, G. (2001). Analysis of aggregated spatial social data. Naskah disertasi
yang tidak dipublikasikan, University of Wollongong, Australia.
Rousseeuw, P. J., & Driessen, K. V. (2006). Computing lts regression for large data
sets. Data Mining and Knowledge Discovery, 12, 29-45.
Rousseeuw, P. J., & Leroy, A. M. (1987). Robust regression and outlier detection.
Canada: John Wiley & Sons, Inc.
Rubin, D. (1987). Multiple imputation for nonresponse in surveys. New York: John
Wiley & Sons, Inc.
Sembiring, R. (1995). Analisis regresi. Bandung: Institut Teknologi Bandung.
Statistik, B. P. (2006). Statistik industri besar sedang. Jakarta: BPS.
Thibaudeau, Y., Gottschalck, A., & Palumbo, T. (2006). The predictive-mean
method of imputation for preserving coupling between assets and liabilities
(Research report series of Statistical Research Division). U.S. Census
Bureau.
Yuan, Y. C. (2001). Multiple imputation for missing data: Concept and new
development sas/stat 8.2. Cary NC: SAS Institute Inc. Available from
http://www.sas.com/statistics
LAMPI R AN
LAMPIRAN
44