AMALIA, ST, MT
MISSING DATA
Delete all cases with incomplete data and conduct analysis using only
complete cases.
Advantage: Simplicity
Disadvantage: loss of data if we discard all incomplete cases. So, in
efficient
NOTE: If you use complete case analysis, then change summary
statistics for other variables, too.
16
DELETION METHODS: Listwise Deletion
(Complete case analysis)
Missing value dari suatu variabel diestimasi menggunakan nilai penduga dari
regresi atau korelasi variabel tersebut pada variabel lainnya yang diketahui.
Missing data diperoleh dengan melakukan prediksi menggunakan regresi.
Advantage: Uses information from the observed data, gives better results
than previous ones
Disadvantage: over-estimates model fit and correlation estimates,
weakens variance
Imputasi:
Regression (Correlation) Imputation
Imputasi:
Metode EM (Expectation Maximisation)
Pada metode ini setiap missing data tidak diduga melalui nilai tiruan,
tetapi diperoleh dengan merepresentasikan sampel random dari nilai-
nilai hilang. Pada metode ini diperoleh m dataset yang lengkap,
kemudian masing-masing data set dianalisis dengan metode data
lengkap. Kemudian, hasil yang diperoleh dari m dataset ini
digabungkan. Proses ini menghasilkan inferensi yang valid secara statistik
yang mencerminkan ketidakpastian akibat nilai-nilai yang hilang
tersebut
Imputasi:
Multiple
Imputation
KORELASI DATA HILANG
Jika koefisien korelasi antar variable diatas |0.5| maka missing value suatu variable
berpengaruh besar terhadap missing value pada variable lain. Sehingga
menimbulkan tingkat keacakan yang rendah (teratur) dan menyebabkan antar
variabel tidak bagus jika terjadi data yang hilang sehingga harus dilakukan
pengecekan kembali pada data.
Jika koefisien korelasi antar variable dibawah |0.5| maka missing value suatu
variable sedikit berpengaruh terhadap missing value pada variable lain. Sehingga
menimbulkan tingkat keacakan yang tinggi (random) dan menyebabkan antar
variabel perlu dilakukan penanganan tertentu jika terjadi data yang hilang.
Jenis Kelamin
Contoh ID Jam Belajar IPK (1 = Pria,
2 = Wanita)
Screening Data 1 32 3,6 1
2 16 3,5 2
Bantulah Udin dengan 3 21 2,8 1
melakukan screening data 4 23 3,7 3
untuk mengecek apakah
5 8 7,0 2
terdapat kesalahan input
pada data kuesioner yang 6 4 3,7 5
telah dia ringkas! 7 10 6,0 1
8 15 2,3 2
9 31 3,0 2
10 40 3,9 1
11 5 3,1 2
12 28 2,7 1
13 15 2,3 2
Listwise Correlation Pairwise Correlation
Hanya kasus yang semua Data yang lengkap dan
datanya ada yang ditampilkan berpasangan yang ditampilkan
rij 0.5 Maka tingkat keacakan rendah dan memiliki pengaruh antar variabel
rij 0.5 Maka tingkat keacakan tinggi dan harus dilakukan koreksi pada data
EM Correlations merupakan metode dalam menduga nilai data
yang hilang.
Kesimpulan:
Berdasarkan uji little’s MCAR didapat bahwa nilai P-Value =
0.123 lebih besar dari Taraf Nyata = 0.05. Sehingga dapat
disimpulkan bahwa missing value pada data yang diperoleh
UDIN bersifat Random
Solusi bagi UDIN Contoh Screening Data
1. Menggantikan sampel yang salah Jenis Kelamin
dengan angka yang sesuai dengan ID Jam Belajar IPK (1 = Pria,
data yang semestinya (Asumsi sendiri). 2 = Wanita)
2. Melakukan kuesioner ulang. 1 32 3.6 1
3. Menghilangkan sampel yang salah dan 2 16 3.5 2
menghitung data apa adanya. 3 21 2.8 1
4. Mengkoreksi sampel yang salah dan 4 23 3.7
digantikan dengan angka dengan 5 8 2
menggunakan metode tertentu.
6 4 3.7
7 10 1
8 15 2.3 2
9 31 3.0 2
10 40 3.9 1
11 5 3.1 2
12 28 2.7 1
13 15 2.3 2
Nilai yang sudah digantikan Nilai yang sudah digantikan
dengan metode Series Mean dengan metode Median of
Nearby Points