Anda di halaman 1dari 36

MISSING DATA

AMALIA, ST, MT
MISSING DATA

 Yaitu informasi yang tidak tersedia untuk sebuah objek (kasus)


 Terjadi karena informasi untuk sesuatu tentang objek tidak
diberikan, sulit dicari, atau memang informasi tersebut tidak ada.
 Contoh:
 Dalam survey, terdapat yang tidak menjawab pertanyaan
 Beberapa hasil hilang (missing) akibat kesalahan mekanis
 Missing data mengakibatkan incomplete data
Factor Non Sampling Error

 Interviewer recording error


 terjadi akibat kealpaan petugas pengumpul data (pewawancara)
 Respondent inability error
 terjadi akibat ketidakmampuan responden dalam memberikan jawaban
akurat
 Unwillingness respondent error
 terjadi karena responden tidak berkenan memberikan jawaban yang
akurat.
POLA MISSING DATA (Little & Rubin, 2002) - 1

 Pola Missing Data Univariat (Univariate Nonresponse)


 Hanya satu variabel yang terdapat missing data
POLA MISSING DATA (Little & Rubin, 2002) - 2

 Pola Missing Data Multivariat


(Multivariate Nonresponse)
 Satu blok missing data untuk kasus yang
sama dan variabel lainnya komplit
 Terjadi pada survei sampel yang terdapat
unit nonresponse sehingga kuesioner
tidak terisi dan terdapat beberapa unit
nonresponse lainnya.
POLA MISSING DATA (Little & Rubin, 2002) - 3

 Pola Missing Data Monoton


(Monotone missing data)
 terjadi ketika observasi variabel
Y1 lebih banyak dari Y2 dan
observasi variabel Y2 lebih
banyak dari Y3 dan seterusnya
POLA MISSING DATA (Little & Rubin, 2002) - 4

 Pola Missing Data Umum


(General)
 dikenal juga dengan item
nonresponse pada kuesioner,
missing value dapat terjadi
pada variabel manapun
POLA MISSING DATA (Little & Rubin, 2002) - 5

 Pola Missing Data File Matching


Pattern
 ketika dua buah kumpulan
variabel tidak pernah
terobservasi secara bersama-
sama maka parameter dari
kedua variabel ini tidak dapat
diestimasi, jika dipaksakan akan
berakibat pada penafsiran
yang salah
POLA MISSING DATA (Little & Rubin, 2002) - 6

 Pola Missing Data Factor


Analysis
 Terjadi ketika X adalah
variabel laten dan terdapat
variabel pengukuran Y, pola
seperti ini adalah analisis
regresi multivariat Y terhadap
X, dan dibutuhkan beberapa
asumsi.
MEKANISME MISSING DATA (Little & Rubin, 1976)-1

 Missing Completely at Random (MCAR)


 Terjadi missing data tidak berkaitan dengan nilai semua variabel (terjadi secara
acak)
 jika mekanisme data hilang yang terdistribusi secara acak untuk seluruh unit
observasi.
 Missing at Random (MAR)
 Terjadi missing data hanya berkaitan dengan variabel respon / pengamatan.
 jika mekanisme data hilang terdistribusi secara acak untuk sebagian unit observasi
 Contoh: responden yang memiliki rasa waswas cenderung tidak melaporkan data
mereka
MEKANISME MISSING DATA (Little & Rubin, 1976)-2

 Not Missing at Random (NMAR)


 Terjadi missing data pada suatu variabel berkaitan dengan variabel itu sendiri,
sehingga tidak bisa diprediksi dari variabel lain pada suatu dataset
 mekanisme data hilang yang tidak terdistribusi secara random.
Metode untuk Menangani Missing Data
(Little & Rubin, 1987) - 1

 Prosedur Berbasis Unit Lengkap (Completely Recorder Unit)


 Pada prosedur ini analisis hanya dilakukan terhadap unit (sebanyak n1 case, baris
pada matriks data n x m) dimana untuk seluruh m variabel nilainya tercatat atau
memiliki data yang lengkap. Sedangkan sebanyak n2 cases yang
terdapat missing data pada variabel-variabelnya diabaikan, atau dikeluarkan
dari analisis.
 Prosedur Berbasis Imputasi
 Dalam prosedur ini, missing value diisi baik dengan menduga langsung atau
menggunakan penduga berbasis korelasi.
Metode untuk Menangani Missing Data
(Little & Rubin, 1987) - 2

 Prosedur Berbasis Weighting


 Pada prosedur ini estimasi biasanya didasarkan pada design weight, yaitu
proporsional secara terbalik terhadap peluang pemilihan sampelnya.
 Prosedur Berbasis Model
 Suatu prosedur yang dibentuk dengan menentukan suatu model sebagian data
yang hilang (missing data) tersebut dan selanjutnya melakukan inferensi berbasis
pada likelihood dibawah model tersebut. Parameter diestimasi dengan suatu
prosedur iteratif maximum likelihood dimulai dengan unit atau cases yang
lengkap.
Metode untuk Menangani Missing Data

 Mengabaikan dan membuang missing data


Contoh metode yang sering digunakan pada kategori ini adalah metode listwise
deletion dan pairwise deletion (Gary dkk, 2000)
 Estimasi parameter
Contohnya algoritma Expectation Maximization (EM Algorithm) yang digunakan
untuk mengestimasi parameter dari missing data (Dempster dkk, 1976);
 Imputasi
Proses pengisian atau penggantian nilai-nilai yang hilang (missing values) pada
sekumpulan data (dataset) dengan nilai-nilai yang mungkin (plausible values)
berdasarkan informasi yang didapatkan pada dataset tersebut (Myrtveit,
Stensrud dan Olsson, 2001).
DELETION METHODS

 Delete all cases with incomplete data and conduct analysis using only
complete cases.
 Advantage: Simplicity
 Disadvantage: loss of data if we discard all incomplete cases. So, in
efficient
 NOTE: If you use complete case analysis, then change summary
statistics for other variables, too.
16
DELETION METHODS: Listwise Deletion
(Complete case analysis)

 Only analyze cases with available data on each


variable
 Advantage: simplicity and comparability across
analyses
 Disadvantage: reduces statistical power (due to
sample size), not use all information, estimates
may be biased if data not MCAR
 Listwise deletion often produces unbiased
regression slope estimates as long as missingness
is not a function of outcome variable.
17
DELETION METHODS: Pairwise Deletion
(Available case analysis)

 Analysis with all cases in which the variables of interest


are present
 Advantage: keeps as many cases as possible for each
analysis, uses all information possible with each analysis
 Disadvantage: cannot compare analyses because
sample is different each time, sample size vary for each
parameter estimation, can obtain nonsense results
 Compute the summary statistics using ni observations
not n.
 Compute correlation type statistics using complete pairs
for both variables.
18
DELETION METHODS
Example: n=19,p=4, only 15% missing values
Individua Case 1 Case 2 Case 3
l y1 y2 y3 y4 y1 y2 y3 y4 y1 y2 y3 y4
1 NA NA NA NA NA NA
2 NA NA NA NA
3 NA NA
4 NA NA
5 NA NA
6 NA NA
7
8
9
10
Eliminate individual 1 and 2. Eliminate variable 1. Eliminate individual 1 -6.
Keep 8*4=32 data. 20% loss Keep 10*3=30 data. 25% loss Keep 4*4=16 data. 60% loss
Imputasi

 Imputasi yaitu proses pengisian atau penggantian missing values


pada dataset dengan nilai-nilai yang mungkin berdasarkan informasi
yang didapatkan pada dataset tersebut:
 Metode Imputasi
 Metode Cold Deck Imputation
 Metode Hot Deck Imputation
 Metode Regression (Correlation) Imputation
 Metode EM (Expectation Maximisation)
 Multiple Imputation
Imputasi:
Cold Deck Imputation

 Mengganti data hilang dengan suatu nilai konstan.


 Pada data numerik digunakan cara mengganti missing data dengan nilai rata-
rata
 Pada data kategorik digunakan cara mengganti missing data dengan nilai
modus.
 Keunggulan: mengisi nilai missing data dengan nilai harapan yang secara relatif
mempunyai tingkat kestabilan yang tinggi.
 Kelemahan: ragam yang diperoleh dengan metode ini tidak sesuai dengan
data yang sebenarnya dan korelasi antar peubah dapat memberikan informasi
yang menyesatkan, menyebabkan pendugaan error yang selalu lebih rendah
dari sebenarnya (underestimate error).
Imputasi:
Hot Deck Imputation

 Metode ini merupakan penyempuranaan dari metode mengganti missing data


dengan nilai rata-rata khususnya pada pendugaan standar error yang
underestimate.
 Sebelumnya data diurutkan berdasarkan variabel yang dinilai terkait dengan
variabel yang terdapat item missing data. Individu yang berada pada kluster
yang sama maka ditempatkan pada file yang sama.
 Proses metode ini yaitu pertama menetapkan nilai demografi yang terpilih atau
peubah lainnya. Nilai yang hilang akan diganti dengan nilai data sebelumnya
setelah data disusun urut dan ditetapkan nilai pencirinya (demografinya).
 Kelemahan : jika missing data banyak mengakibatkan dalam pengisian nilainya
akan berulang-ulang sehingga pendugaannya akan berbias
Imputasi:
Regression (Correlation) Imputation

 Missing value dari suatu variabel diestimasi menggunakan nilai penduga dari
regresi atau korelasi variabel tersebut pada variabel lainnya yang diketahui.
 Missing data diperoleh dengan melakukan prediksi menggunakan regresi.
 Advantage: Uses information from the observed data, gives better results
than previous ones
 Disadvantage: over-estimates model fit and correlation estimates,
weakens variance
Imputasi:
Regression (Correlation) Imputation
Imputasi:
Metode EM (Expectation Maximisation)

 Metode yang digunakan untuk memperkirakan parameter populasi yang tidak


diketahui.
 Menggunakan prosedur iterative untuk menghitung statistik cukup dan
menduga parameter.
 Algoritma EM dirumuskan untuk membuat model yang sesuai dengan
maksimum likelihood (ML).
 Keuntungan: menggunakan informasi lengkap (lengkap dan tidak lengkap)
untuk menghitung kemungkinan log, estimasi parameter tidak bias dengan
data MCAR / MAR
 Kerugian: Kesalahan standar bias ke bawah tetapi ini dapat disesuaikan
dengan menggunakan matriks informasi yang diamati.
Imputasi:
Metode EM (Expectation Maximisation)

Imputasi:
Metode EM (Expectation Maximisation)

Imputasi:
Multiple Imputation

 Pada metode ini setiap missing data tidak diduga melalui nilai tiruan,
tetapi diperoleh dengan merepresentasikan sampel random dari nilai-
nilai hilang. Pada metode ini diperoleh m dataset yang lengkap,
kemudian masing-masing data set dianalisis dengan metode data
lengkap. Kemudian, hasil yang diperoleh dari m dataset ini
digabungkan. Proses ini menghasilkan inferensi yang valid secara statistik
yang mencerminkan ketidakpastian akibat nilai-nilai yang hilang
tersebut
Imputasi:
Multiple
Imputation
KORELASI DATA HILANG

Jika koefisien korelasi antar variable diatas |0.5| maka missing value suatu variable
berpengaruh besar terhadap missing value pada variable lain. Sehingga
menimbulkan tingkat keacakan yang rendah (teratur) dan menyebabkan antar
variabel tidak bagus jika terjadi data yang hilang sehingga harus dilakukan
pengecekan kembali pada data.

Jika koefisien korelasi antar variable dibawah |0.5| maka missing value suatu
variable sedikit berpengaruh terhadap missing value pada variable lain. Sehingga
menimbulkan tingkat keacakan yang tinggi (random) dan menyebabkan antar
variabel perlu dilakukan penanganan tertentu jika terjadi data yang hilang.
Jenis Kelamin
Contoh ID Jam Belajar IPK (1 = Pria,
2 = Wanita)
Screening Data 1 32 3,6 1
2 16 3,5 2
Bantulah Udin dengan 3 21 2,8 1
melakukan screening data 4 23 3,7 3
untuk mengecek apakah
5 8 7,0 2
terdapat kesalahan input
pada data kuesioner yang 6 4 3,7 5
telah dia ringkas! 7 10 6,0 1
8 15 2,3 2
9 31 3,0 2
10 40 3,9 1
11 5 3,1 2
12 28 2,7 1
13 15 2,3 2
Listwise Correlation Pairwise Correlation
Hanya kasus yang semua Data yang lengkap dan
datanya ada yang ditampilkan berpasangan yang ditampilkan

Kriteria pengaruh nilai hilang serta tingkat keacakan berdasarkan koefisien


korelasi:

rij  0.5  Maka tingkat keacakan rendah dan memiliki pengaruh antar variabel

rij  0.5  Maka tingkat keacakan tinggi dan harus dilakukan koreksi pada data
EM Correlations merupakan metode dalam menduga nilai data
yang hilang.

Pada EM Correlations apabila:


Sig (P-Value MCAR Test) > Taraf Nyata = Missing Value bersifat
Random (Terima H0)
Sig (P-Value MCAR Test) < Taraf Nyata = Missing Value bersifat
Teratur (Tolak H0)

Jika Missing Value bersifat Random maka perlu dilakukan koreksi


pada data.

Kesimpulan:
Berdasarkan uji little’s MCAR didapat bahwa nilai P-Value =
0.123 lebih besar dari Taraf Nyata = 0.05. Sehingga dapat
disimpulkan bahwa missing value pada data yang diperoleh
UDIN bersifat Random
Solusi bagi UDIN Contoh Screening Data
1. Menggantikan sampel yang salah Jenis Kelamin
dengan angka yang sesuai dengan ID Jam Belajar IPK (1 = Pria,
data yang semestinya (Asumsi sendiri). 2 = Wanita)
2. Melakukan kuesioner ulang. 1 32 3.6 1
3. Menghilangkan sampel yang salah dan 2 16 3.5 2
menghitung data apa adanya. 3 21 2.8 1
4. Mengkoreksi sampel yang salah dan 4 23 3.7
digantikan dengan angka dengan 5 8 2
menggunakan metode tertentu.
6 4 3.7
7 10 1
8 15 2.3 2
9 31 3.0 2
10 40 3.9 1
11 5 3.1 2
12 28 2.7 1
13 15 2.3 2
Nilai yang sudah digantikan Nilai yang sudah digantikan
dengan metode Series Mean dengan metode Median of
Nearby Points

Anda mungkin juga menyukai