Anda di halaman 1dari 11

Cleaning Data/Pembersihan Data

Pembersihan data adalah proses memperbaiki atau menghapus data yang salah, rusak,
formatnya salah, duplikat, atau tidak lengkap dalam kumpulan data. Saat menggabungkan
beberapa sumber data, ada banyak peluang data diduplikasi atau diberi label yang salah. Jika
data salah, hasil dan algoritme tidak dapat diandalkan, meskipun mungkin terlihat benar.
Tidak ada satu cara mutlak untuk menentukan langkah pasti dalam proses pembersihan data
karena prosesnya akan bervariasi dari satu kumpulan data ke kumpulan data lainnya. Namun
sangat penting untuk membuat template untuk proses pembersihan data sehingga Anda tahu
bahwa Anda melakukannya dengan cara yang benar setiap saat.

Langkah-langkah membersihkan data

1. Hapus observasi duplikat atau tidak relevan


Hapus observasi yang tidak diinginkan dari kumpulan data Anda, termasuk observasi
duplikat atau observasi yang tidak relevan. Pengamatan duplikat paling sering terjadi
selama pengumpulan data. Saat Anda menggabungkan kumpulan data dari beberapa
tempat, mengikis data, atau menerima data dari klien atau beberapa departemen, ada
peluang untuk membuat data duplikat. De-duplikasi adalah salah satu bidang terbesar
yang harus dipertimbangkan dalam proses ini. Pengamatan yang tidak relevan adalah
ketika Anda melihat pengamatan yang tidak sesuai dengan masalah spesifik yang
ingin Anda analisis. Misalnya, jika Anda ingin menganalisis data mengenai pelanggan
milenial, namun kumpulan data Anda mencakup generasi yang lebih tua, Anda dapat
menghapus pengamatan yang tidak relevan tersebut. Hal ini dapat membuat analisis
menjadi lebih efisien dan meminimalkan gangguan dari target utama Anda—serta
menciptakan kumpulan data yang lebih mudah dikelola dan berkinerja lebih baik.

2. Perbaiki kesalahan struktural


Kesalahan struktural terjadi ketika Anda mengukur atau mentransfer data dan melihat
konvensi penamaan yang aneh, kesalahan ketik, atau penggunaan huruf besar yang
salah. Ketidakkonsistenan ini dapat menyebabkan kategori atau kelas diberi label
yang salah. Misalnya, Anda mungkin menemukan “T/A” dan “Tidak Berlaku”
keduanya muncul, namun keduanya harus dianalisis sebagai kategori yang sama.
3. Filter outlier yang tidak diinginkan
Seringkali, akan ada observasi yang hanya dilakukan satu kali saja, yang sekilas
tampak tidak sesuai dengan data yang Anda analisis. Jika Anda memiliki alasan yang
sah untuk menghapus outlier, seperti entri data yang tidak tepat, hal itu akan
membantu kinerja data yang Anda kerjakan. Namun, terkadang kemunculan outlierlah
yang membuktikan teori yang sedang Anda kerjakn. Ingat: hanya karena ada outlier,
bukan berarti outlier tersebut salah. Langkah ini diperlukan untuk mengetahui
keabsahan nomor tersebut. Jika outlier terbukti tidak relevan untuk analisis atau
merupakan kesalahan, pertimbangkan untuk menghapusnya.

4. Tangani data yang hilang,bila data hilang kurang 10 % masih tidak berpengaruhi
terhadap hasil penilitian ,tapi kalau lebih maka harus ditangan dengan benar.
Anda tidak dapat mengabaikan data yang hilang karena banyak algoritma tidak akan
menerima nilai yang hilang. Ada beberapa cara untuk mengatasi data yang hilang.
Tidak ada yang optimal, namun keduanya bisa dipertimbangkan.

a. Sebagai opsi pertama, Anda dapat membuang observasi yang nilainya hilang,
namun melakukan hal ini akan menghilangkan atau kehilangan informasi, jadi
berhati-hatilah sebelum Anda menghapusnya.
b. Sebagai pilihan kedua, Anda dapat memasukkan nilai yang hilang berdasarkan
observasi lain; sekali lagi, ada kemungkinan kehilangan integritas data karena
Anda mungkin beroperasi berdasarkan asumsi dan bukan observasi aktual.
c. Sebagai opsi ketiga, Anda dapat mengubah cara data digunakan untuk menavigasi
nilai null secara efektif.

5. Validasi dan QA
Di akhir proses pembersihan data, Anda seharusnya bisa menjawab pertanyaan
berikut sebagai bagian dari validasi dasar:

 Apakah datanya masuk akal?


 Apakah data mengikuti aturan yang sesuai dengan bidangnya?
 Apakah hal tersebut membuktikan atau menyangkal teori kerja Anda, atau
memberikan pencerahan?
 Dapatkah Anda menemukan tren dalam data untuk membantu Anda
membentuk teori selanjutnya?
Jika tidak, apakah hal tersebut disebabkan oleh masalah kualitas data?
Kesimpulan yang salah karena data yang salah atau “kotor” dapat
mempengaruhi strategi bisnis dan pengambilan keputusan yang buruk.
Kesimpulan yang salah dapat menimbulkan momen yang memalukan dalam
rapat pelaporan ketika Anda menyadari bahwa data Anda tidak dapat diperiksa
dengan cermat. Sebelum Anda mencapainya, penting untuk menciptakan
budaya data berkualitas di organisasi Anda. Untuk melakukan hal ini, Anda
harus mendokumentasikan alat yang mungkin Anda gunakan untuk
menciptakan budaya ini dan apa arti kualitas data bagi Anda.

Komponen data berkualitas


Menentukan kualitas data memerlukan pemeriksaan terhadap karakteristiknya,
kemudian menimbang karakteristik tersebut berdasarkan apa yang paling
penting bagi organisasi Anda dan aplikasi yang akan digunakan.

Ada 5 karakteristik data berkualitas dipertimbangkan


1. Keabsahan. Sejauh mana data Anda mematuhi aturan atau batasan bisnis
yang ditentukan.
2. Ketepatan. Pastikan data Anda mendekati nilai sebenarnya.
3. Kelengkapan. Sejauh mana semua data yang diperlukan diketahui.
4. Konsistensi. Pastikan data Anda konsisten dalam kumpulan data yang
sama dan/atau di beberapa kumpulan data.
5. Keseragaman. Sejauh mana data ditentukan menggunakan satuan ukuran
yang sama.
Keuntungan dan manfaat pembersihan data

Memiliki data yang bersih pada akhirnya akan meningkatkan produktivitas


secara keseluruhan dan memungkinkan informasi berkualitas tertinggi dalam
pengambilan keputusan Anda. Manfaatnya meliputi:
 Penghapusan kesalahan ketika berbagai sumber data berperan.
 Lebih sedikit kesalahan membuat klien lebih bahagia dan karyawan
tidak terlalu frustrasi.
 Kemampuan untuk memetakan berbagai fungsi dan tujuan data Anda.
 Memantau kesalahan dan pelaporan yang lebih baik untuk melihat dari
mana kesalahan berasal, sehingga memudahkan perbaikan data yang
salah atau rusak untuk aplikasi di masa mendatang.
 Penggunaan alat untuk pembersihan data akan membuat praktik bisnis
lebih efisien dan pengambilan keputusan lebih cepat.

Alat dan perangkat lunak pembersihan data untuk efisiensi


dapat membantu Anda mendorong budaya data berkualitas dengan
menyediakan cara visual dan langsung untuk menggabungkan dan
membersihkan data Anda. Tableau Prep memiliki dua produk: Tableau
Prep Builder untuk membangun aliran data Anda dan Tableau Prep
Conductor untuk menjadwalkan, memantau, dan mengelola aliran di
seluruh organisasi Anda. Menggunakan alat penggosok data dapat
menghemat banyak waktu bagi administrator basis data dengan
membantu analis atau administrator memulai analisis mereka lebih
cepat dan lebih percaya diri pada data. Memahami kualitas data dan
alat yang Anda perlukan untuk membuat, mengelola, dan mengubah
data merupakan langkah penting dalam membuat keputusan bisnis
yang efisien dan efektif. Proses penting ini akan semakin
mengembangkan budaya data di organisasi Anda. Untuk melihat
bagaimana Tableau Prep dapat memengaruhi organisasi Anda, baca
tentang bagaimana agen pemasaran Tinuiti memusatkan lebih dari 100
sumber data di Tableau Prep dan menskalakan analisis pemasaran
mereka untuk 500 klien.

Secara definisi cleaning data adalah proses pembersihan data penilitian karena
kesalahan entri sehingga bisa menyebabkan kesalahan penganalisa data penilitian .

Ada 3 cara untuk mengetahui kesalahan entry data:


1. Mengecek variasi data pada variabel:jika variasi data tidak sesuai dengan yang
seharus ,misalnya terlalu rendah atau terlalu tinggi berarti terjadi kesalahan
entrynya.hal ini bisa menggunakan spss cek di distribusi frekwensi variabel yang
dicek spss
Contoh mengecek variasi data
JENIS PENDIDIKAN IBU

PENDIDIKAN JUMLAH

1 40

2 30

3 20

4 6

7 4

TOTAL 100

Dari tampilan diatas kendati jumlah data sudah benar 100, naming terlihat ada data yang
salah kode Pendidikan 7 berjumlah 4 pasien, seharusnya variasi variabel Pendidikan 1, 2,3,4,
maka harus ditelusuri lagi datanya yang missingnya

2. Mengecek konsistensi isi data pada 2variabel atau lebih

Bila antara dua variabel datanya ada yang tidak konsisten berate kesalaha entri ,caranya
dengan membandingkan distribusi variabel yang dicek.

Contoh mengecek konsistensi

Tabel Keikutsertaan Kb

KB JUMLAH

YA 20

TIDAK 80

TOTAL 100
Tabel 5 Jenis Alat Kontrasepsi Yang Dipakai

JENIS ALAT JUMLAH


KONTRASEPSI KB

Suntik 5

pil 5

kondom 4

IUD 10

TOTAL 24

Dari kedua table tersebut terlihat bahwa ada tiadk konsistensi antara jumlah peserta kb (20
orang) dengan total alat kb yang dipakai(24) seharusnya sesuai dengan table pertama pemakai
kontrasepsi 20.

3. Mengejek kewajaran isi data, dinilai dua variabel yang disilangkan( crosstabel)
didapatkan niali yang tak wajar berarti ada data salah data entri,caranya dengan
melakukan analisis crosstab pada dua variabel yang ada relevansinya.
Mengecek Tabel Silang
Contoh menghubungkan variabel umur dan jumlah anak

umur 0 1 2 3 4 5 6 7 8 9 10

15 1 2 2*

16 1 2

19 2 4 2

20 3

24

25
35

40

Keterangan :
 = ada 2 responden dengan umur 15 tahun dan anaknya ada 10 orang ( ada
kesalahan antry data!!!)

Contoh cleaning

Misal kita akan mengecek data umur ibu menyusui, harusnya umur ibu berkisar 15-
45,bila ada data diluar kisaran tsb berarti salah entri.

Caranya:-keluarkan distribusi frekwensi umur ibu,cek variasi datanya, cek data yang
aneh,deteksi nomor responden yang salah data umur,byka kuesner, betulkan data dispssnya,
kemudian disimpan data difilenya.

Scoring Data

1.Analisis Deskriptif (Univariabel)

Tujuan analisis ini adalah untuk mendeskripsikan karakteristik masing-masing variabel yang
diteliti. Bentuknya tergantung dari jenis datanya. Untuk data numerik digunakan nilai mean
(rata-rata), median, standar deviasi dan lain-lain. Sedangkan untuk data kategorik tentunya
hanya dapat menjelaskan angka/nilai jumlah dan persentase masing- masing kelompok.
Berikut akan dipelajari cara mengeluarkan analisis deskriptif di SPSS, dimulai untuk variabel
kategorik (sebagai latihan digunakan variabel 'pendidikan') dan kemudian dilanjutkan
variabel numerik (variabel umur).

1. Data Kategorik

Untuk menampilkan tabulasi data kategorik digunakan tampilan frekuensi. Sebagai contoh
kita akan menampilkan tabel distribusi frekuensi untuk variabel pendidikan dari file
'ASI.SAV'.

2. Data Numerik
Pada data numerik, peringkasan data dapat dilakukan dengan melaporkan ukuran tengah dan
sebarannya. Ukuran yang digunakan adalah rata-rata, median dan modus. Sedangkan ukuran
sebarannya (variasi) yang digunakan adalah range, standar deviasi, minimal dan maksimal.
Pada SPSS ada dua cara untuk mengeluarkan analisis deskriptif yaitu dapat melalui perintah
Frequencies atau perintah 'Explore'. Biasanya yang digunakan adalah Frequencies oleh
karena ukuran statistik yang dapat dihasilkan pada menu 'Frequencies' sangat lengkap (seperti
mean, median, varian dan lain-lain), selain itu pada perintah ini juga dapat ditampilkan grafik
histogram dan kurva normalnya. Berikut akan dicoba mengeluarkan analisis deskriptif untuk
variabel umur dengan menggunakan perintah frequencies.

a. Aktifkan data "susu.sav".

b. Pilih 'Analyze'.

C. Pilih 'Descriptive Statistic'.

d. Pilih 'Frequencies', terlihat kotak frequencies.

e. Sorot variabel yang akan dianalisis, sorot umur, dan klik tanda panah sehingga umur
masuk ke kotak variable (s).

Untuk mengetahui uji kenormalan data ada tiga cara:

a. Dilihat dari grafik histogram dan kurva normalbila bentuk menyerupai bel shape
berarti distribusinya normal.
b. Menggunakan nilai skewensi standar errornya bilanilai standar erorr
menghasilkan angka<= 2 maka distribusinya normal
c. Uji kologorov Smirnov bila hasil ujinya tidak signifikan( pvalue>0,05) maka
distribusinya normal. Namun uji Kolmogorov sensitive dengan jumlah sampel
maksudnya sampel yang besar uji kologorov cenderung menghasilkan uji yang
signifikan yang artinya bentuk distribusinya tidak normal maka berdasarkan
kelemahan diatas dianjurkan menggunakan kenormalan data pendekatan angka
skewness.

2. Analisa Metode Skoring Pembobotan


Pembobotan merupakan teknik pengambilan keputusan pada suatu proses yang
melibatkan berbagai faktor secara bersama-sama dengan cara memberi bobot pada masing-
masing faktor tersebut. Pembobotan dapat dilakukan secara objektif dengan perhitungan
statistik maupun secara subyektif dengan menetapkan berdasarkan pertimbangan tertentu.
Namun penentuan bobot secara subyektif harus dilandasi pemahaman yang kuat mengenai
proses tersebut. Scoring adalah pemberian skor pada masing-masing kode/simbol. Skoring
memudahkan hitungan, maka setiap alternatif pertanyaan responden diberikan skor seperti
skor (1) untuk kelas rendah, skor (2) untuk kelas sedang dan skor (3) untuk kelas tinggi
(Risanty, 2015).
Metode skoring adalah suatu metode pemberian skor atau nilai terhadap masing -
masing value parameter untuk menentukan tingkat kemampuannya. penilaian ini berdasarkan
kriteria yang telah ditentukan. Sedangakan metode pembobotan atau disebut juga weighting
adalah suatu metode yang digunakan apabila setiap karakter memiliki peranan berbeda atau
jika memiliki beberapa parameter untuk mementukan kemampuan lahan atau sejenisnya
(Sholahuddin, 2010).

3. Metode AHP (Analytical Hierarchy Process)


Analytical Hierarchy Process (AHP) pertama kali dikembangkan oleh Saaty tahun 1984
seorang ahli matematika dari Universitas Pitsburg, Amerika Serikat. Metode ini melibatkan
perbandingan untuk menciptakan suatu matriks rasio (Malczewski, 1999). AHP
mengabstraksikan struktur suatu sistem untuk mempelajari hubungan fungsional antara
komponen dan akibatnya pada sistem secara keseluruhan. Pada dasarnya sistem ini dirancang
untuk menghimpun secara rasional persepsi orang yang berhubungan erat dengan
permasalahan tertentu melalui suatu prosedur untuk sampai pada suatu skala prefensi diantara
berbagai alternatif. Metode ini ditujukan untuk permasalahan yang tidak mempunyai struktur,
biasanya ditetapkan untuk memecahkan masalah terukur (kuantitatif), masalah yang
memerlukan pendapat (judgement) maupun situasi kompleks, pada
situasi ketika data dan informasi statistik sangat minim (Oktriadi, 2009).

4 Metode K-Means Cluster


Algoritma K-Means merupakan metode yang umum digunakan pada teknik clustering atau
pengelompokan data. Metode ini mempartisi data ke dalam cluster atau kelompok sehingga
data yang memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama.
Dalam analisis cluster ada dua metode pengelompokan yaitu Hirarhical Method dan Non
hirarhical Method. Metode pengelompokan hirarki digunakan apabila ada informasi jumlah
kelompok, sedangkan metode pengelompokan non hirarki bertujuan untuk mengelompokan
objek ke dalam k kelompok (k<n). Salah satu pengelompokan pada non hirarki adalah
metode K-Means. K-Means yaitu salah satu metode data clustering non hirarki yang berusaha
mempartisi data ke dalam bentuk satu atau lebih cluster atau kelompok sehingga data yang
memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama dan data yang
memiliki karakteristik berbeda dikelompokkan ke dalam kelompok lainnya. Dengan analisis
cluster, data heterogen dapat dikelompokkan ke dalam cluster-cluster
tertentu sehingga data lebih sederhana (Ristya, 2012 dalam Getut, 2011).

Secara umum metode K-Means ini melakukan proses pengelompokan dengan


menentukan jumlah cluster, kemudian data dialokasikan secara random ke cluster yang ada,
kemudian hitung ratarata cluster dari data yang tergabung didalamnya. Objek terlihat mirip
dikelompokan dan kelompok awal ini digabungkan sesuai dengan kemiripannya, semua
subkelompok digabungkan menjadi satu cluster tunggal, sedangkan yang tidak berada dalam
satu cluster tidak memiliki kemiripan. Ukuran kedekatan data yang biasa digunakan adalah
jarak euclidius (eueclidean distance) antara dua obyek, maka perhitungan jarak dengan
menggunakan eueclidean distance (Bezdek dalam Saepulloh, 2009): Penelitian ini
menggunakan metode K-Means Cluster dengan maksud mengelompokan tingkat kerentanan
wilayah terhadap banjir. Dengan begitu didapatkan kelompok tingkat kerentanan wilayah
terhadap banjir di daerah penelitian.

5. Metode Deskriptif
Metode yang digunakan dalam penelitian ini adalah metode penelitian deskriptif.
Metode deskriptif bertujuan untuk membuat gambaran atau lukisan secara sistematis faktual
dan akurat mengenai fakta, sifat-sifat serta hubungan antara fenomena yang diselidiki atau
untuk memperoleh informasi-informasi mengenai keadaan saat ini dan melihat kaitan antara
variabel-variabel yang ada (Risanty, 2015 dalam Mardinal, 2006).

6. Metode SIG (System Information Geographic)


SIG adalah sistem yang berbasiskan komputer yang digunakan untuk menyimpan dan
memanipulasi informasi geografi. SIG dirancang untuk mengumpulkan, menyimpan,dan
menganalisis objekobjek dan fenomena dimana lokasi geografi merupakan karakteristik yang
penting atau kritis untuk dianalisis. Dengan demikian SIG, merupakan sistem komputer yang
memiliki empat kemampuan berikut dalam menangani data yang bereferensi geografi :
masukan, manajemen data (penyimpanan dan pemanggilan data), analisis dan manipulasi
data, dan keluaran (Aronoff, 1989 dalam Riduwan, 2008).

Anda mungkin juga menyukai