Pembersihan data adalah proses memperbaiki atau menghapus data yang salah, rusak,
formatnya salah, duplikat, atau tidak lengkap dalam kumpulan data. Saat menggabungkan
beberapa sumber data, ada banyak peluang data diduplikasi atau diberi label yang salah. Jika
data salah, hasil dan algoritme tidak dapat diandalkan, meskipun mungkin terlihat benar.
Tidak ada satu cara mutlak untuk menentukan langkah pasti dalam proses pembersihan data
karena prosesnya akan bervariasi dari satu kumpulan data ke kumpulan data lainnya. Namun
sangat penting untuk membuat template untuk proses pembersihan data sehingga Anda tahu
bahwa Anda melakukannya dengan cara yang benar setiap saat.
4. Tangani data yang hilang,bila data hilang kurang 10 % masih tidak berpengaruhi
terhadap hasil penilitian ,tapi kalau lebih maka harus ditangan dengan benar.
Anda tidak dapat mengabaikan data yang hilang karena banyak algoritma tidak akan
menerima nilai yang hilang. Ada beberapa cara untuk mengatasi data yang hilang.
Tidak ada yang optimal, namun keduanya bisa dipertimbangkan.
a. Sebagai opsi pertama, Anda dapat membuang observasi yang nilainya hilang,
namun melakukan hal ini akan menghilangkan atau kehilangan informasi, jadi
berhati-hatilah sebelum Anda menghapusnya.
b. Sebagai pilihan kedua, Anda dapat memasukkan nilai yang hilang berdasarkan
observasi lain; sekali lagi, ada kemungkinan kehilangan integritas data karena
Anda mungkin beroperasi berdasarkan asumsi dan bukan observasi aktual.
c. Sebagai opsi ketiga, Anda dapat mengubah cara data digunakan untuk menavigasi
nilai null secara efektif.
5. Validasi dan QA
Di akhir proses pembersihan data, Anda seharusnya bisa menjawab pertanyaan
berikut sebagai bagian dari validasi dasar:
Secara definisi cleaning data adalah proses pembersihan data penilitian karena
kesalahan entri sehingga bisa menyebabkan kesalahan penganalisa data penilitian .
PENDIDIKAN JUMLAH
1 40
2 30
3 20
4 6
7 4
TOTAL 100
Dari tampilan diatas kendati jumlah data sudah benar 100, naming terlihat ada data yang
salah kode Pendidikan 7 berjumlah 4 pasien, seharusnya variasi variabel Pendidikan 1, 2,3,4,
maka harus ditelusuri lagi datanya yang missingnya
Bila antara dua variabel datanya ada yang tidak konsisten berate kesalaha entri ,caranya
dengan membandingkan distribusi variabel yang dicek.
Tabel Keikutsertaan Kb
KB JUMLAH
YA 20
TIDAK 80
TOTAL 100
Tabel 5 Jenis Alat Kontrasepsi Yang Dipakai
Suntik 5
pil 5
kondom 4
IUD 10
TOTAL 24
Dari kedua table tersebut terlihat bahwa ada tiadk konsistensi antara jumlah peserta kb (20
orang) dengan total alat kb yang dipakai(24) seharusnya sesuai dengan table pertama pemakai
kontrasepsi 20.
3. Mengejek kewajaran isi data, dinilai dua variabel yang disilangkan( crosstabel)
didapatkan niali yang tak wajar berarti ada data salah data entri,caranya dengan
melakukan analisis crosstab pada dua variabel yang ada relevansinya.
Mengecek Tabel Silang
Contoh menghubungkan variabel umur dan jumlah anak
umur 0 1 2 3 4 5 6 7 8 9 10
15 1 2 2*
16 1 2
19 2 4 2
20 3
24
25
35
40
Keterangan :
= ada 2 responden dengan umur 15 tahun dan anaknya ada 10 orang ( ada
kesalahan antry data!!!)
Contoh cleaning
Misal kita akan mengecek data umur ibu menyusui, harusnya umur ibu berkisar 15-
45,bila ada data diluar kisaran tsb berarti salah entri.
Caranya:-keluarkan distribusi frekwensi umur ibu,cek variasi datanya, cek data yang
aneh,deteksi nomor responden yang salah data umur,byka kuesner, betulkan data dispssnya,
kemudian disimpan data difilenya.
Scoring Data
Tujuan analisis ini adalah untuk mendeskripsikan karakteristik masing-masing variabel yang
diteliti. Bentuknya tergantung dari jenis datanya. Untuk data numerik digunakan nilai mean
(rata-rata), median, standar deviasi dan lain-lain. Sedangkan untuk data kategorik tentunya
hanya dapat menjelaskan angka/nilai jumlah dan persentase masing- masing kelompok.
Berikut akan dipelajari cara mengeluarkan analisis deskriptif di SPSS, dimulai untuk variabel
kategorik (sebagai latihan digunakan variabel 'pendidikan') dan kemudian dilanjutkan
variabel numerik (variabel umur).
1. Data Kategorik
Untuk menampilkan tabulasi data kategorik digunakan tampilan frekuensi. Sebagai contoh
kita akan menampilkan tabel distribusi frekuensi untuk variabel pendidikan dari file
'ASI.SAV'.
2. Data Numerik
Pada data numerik, peringkasan data dapat dilakukan dengan melaporkan ukuran tengah dan
sebarannya. Ukuran yang digunakan adalah rata-rata, median dan modus. Sedangkan ukuran
sebarannya (variasi) yang digunakan adalah range, standar deviasi, minimal dan maksimal.
Pada SPSS ada dua cara untuk mengeluarkan analisis deskriptif yaitu dapat melalui perintah
Frequencies atau perintah 'Explore'. Biasanya yang digunakan adalah Frequencies oleh
karena ukuran statistik yang dapat dihasilkan pada menu 'Frequencies' sangat lengkap (seperti
mean, median, varian dan lain-lain), selain itu pada perintah ini juga dapat ditampilkan grafik
histogram dan kurva normalnya. Berikut akan dicoba mengeluarkan analisis deskriptif untuk
variabel umur dengan menggunakan perintah frequencies.
b. Pilih 'Analyze'.
e. Sorot variabel yang akan dianalisis, sorot umur, dan klik tanda panah sehingga umur
masuk ke kotak variable (s).
a. Dilihat dari grafik histogram dan kurva normalbila bentuk menyerupai bel shape
berarti distribusinya normal.
b. Menggunakan nilai skewensi standar errornya bilanilai standar erorr
menghasilkan angka<= 2 maka distribusinya normal
c. Uji kologorov Smirnov bila hasil ujinya tidak signifikan( pvalue>0,05) maka
distribusinya normal. Namun uji Kolmogorov sensitive dengan jumlah sampel
maksudnya sampel yang besar uji kologorov cenderung menghasilkan uji yang
signifikan yang artinya bentuk distribusinya tidak normal maka berdasarkan
kelemahan diatas dianjurkan menggunakan kenormalan data pendekatan angka
skewness.
5. Metode Deskriptif
Metode yang digunakan dalam penelitian ini adalah metode penelitian deskriptif.
Metode deskriptif bertujuan untuk membuat gambaran atau lukisan secara sistematis faktual
dan akurat mengenai fakta, sifat-sifat serta hubungan antara fenomena yang diselidiki atau
untuk memperoleh informasi-informasi mengenai keadaan saat ini dan melihat kaitan antara
variabel-variabel yang ada (Risanty, 2015 dalam Mardinal, 2006).