Data Cleansing
Data Cleansing
Abstrak
Beberapa masalah yang sering ditemukan pada data adalah ketidakkonsistenan data, duplikasi
data, human errors, atau mungkin data telah rusak pada penyimpanan data. Hal ini menyebabkan
overlapping atau data yang tumpang tindih. Untuk itu diperlukan cara untuk meminimalisir
masalah pada data, salah satu caranya adalah data cleaning. Data cleaning adalah sebuah
langkah untuk mendeteksi dan mengkoreksi (atau menghapus) sejumlah record, tabel, dan
database yang kurang atau tidak akurat, setelah itu masalah – masalah yang ditemukan akan
diganti, dimodifikasi atau dihapus dari database
Pada tugas akhir ini dikembangkan suatu sistem untuk melakukan data cleaning dalam meng
identifikasi duplikasi pada data. Dengan menggunakan metoda Multi-Pass Neighborhood, akan
mengidentifikasi record yang duplikat pada database lalu record tersebut akan dibandingkan
record lain untuk mendapatkan record yang konsisten. Pengujian dilakukan untuk melihat
kualitas hasil identifikasi berdasarkan nilai recall dan nilai false-positive.
Kata Kunci : Kata kunci : Data Cleaning, Multi-Pass Neighborhood, identifikasi data duplikat
Abstract
Problems that are often found in the data is data inconsistency, duplication of data, human
errors, or data that is broken when storing the data. This results in overlapping data. Therefore a
way is needed to minimize problems with data, one way is to perform data cleaning. Data Cleaning
is the act of detecting and correcting (or removing) a number of records, tables, and databases
that are less or not accurate. then those problems that was found is going to be replaced,
modified or deleted from the database.
In this final task, a system is developed to do data cleaning to identify duplication in data. By
using the Multi-Pass Neighborhood, the records which are duplicate will be identified, then those
pairs of duplicate record would be compared with another records, to get the consistent data,
which are called clean data. The testing phase was done to see the quality of the identification
based on the value of recall and false-positive value.
Based on the testing that was done, the methods of the Multi-Pass Neighborhood can generate a
good recall and false-positive value based on the window width parameter, the combination rule
and the number of passes used in this final task
1. Pendahuluan
1.3 Tujuan
Hal – hal yang ingin dicapai dalam tugas akhir kali ini adalah:
1. Mengimplementasikan metoda Multi-Pass Neighborhood dalam
mengidentifikasi duplikasi data pada data cleaning.
2. Mengevaluasi dan menganalisa pengaruh ukuran lebar window, jumlah
passes yang digunakan, dan kombinasi rule untuk mendapatkan nilai recall
dan false-positive yang optimal.
1. Studi Literatur
Pada tahap ini akan dilakukan pendalaman materi tentang data
warehouse itu sendiri, Multi-Pass Neighborhood (MPN), proses cleaning
dan software-software untuk implementasi melalui jurnal, skripsi,
makalah, buku, dokumen dan beberapa sumber lainnya.
Dari apa yang didapatkan dari studi literatur, pada tahap ini dilakukan
analisis bagaimana melakukan penerapan ilmu-ilmu yang sudah didapat
ke dalam implementasi tugas akhir.
3. Implementasi
Mengimplementasikan Data-Cleaning dengan Menggunakan Metode
Multi-Pass Neighborhood
5.1 Kesimpulan
Kesimpulan yang dapat diambil pada tugas akhir ini antara lain:
1. Metoda Multi-Pass Neighborhood dapat diterapkan pada pengidentifikasian
record yang duplikat. Hal ini terbukti pada sub bab 4.3 dimana pada
pengidentifikasian duplikat menghasilkan nilai recall tertinggi yaitu 92,64%
dan nilai false-positive terbaik yaitu 0%.
2. Kombinasi rule yang dibentuk terhadap nilai recall dan false-positive cukup
berpengaruh pada proses merging sebagai inputan awal dalam metoda Multi-
Pass Neighborhood. Semakin sulit tingkat kompleksitas rule yang dibentuk,
maka dalam mengidentifikasi record yang duplikat akan semakin sulit.
Sebaliknya jika semakin mudah kompleksitas rule yang dibentuk, maka dalam
mengidentifikasi record yang duplikat semakin mudah.
3. Ukuran lebar window cukup berpengaruh terhadap nilai recall dan false-
positive. Untuk mendapatkan nilai recall dan false-positive yang optimal,
ukuran lebar window dapat ditentukan dari rata-rata jarak record yang
duplikat pada setiap dataset.
4. Jumlah passes yang digunakan pada metoda cukup berpengaruh terhadap nilai
recall dan false-positive dalam pengimplementasian metoda ini. Jumlah
passes juga dipengaruhi juga oleh pemilihan key yang dibentuk. Semakin baik
pembentukan key, maka semakin tinggi nilai recall dan semakin baik nilai
false-positive.
5. Dari percobaan diatas, hasil pembentukan key cukup berpengaruh didalam
metoda Multi-Pass Neighborhood. Hal ini dikarenakan pembentukan key akan
mempengaruhi pengidentifikasian data yang duplikat.
6. Hasil identifikasi duplikasi record yang duplikat pada metoda Multi-Pass
Neighborhood bergantung pada ketiga nilai paramter, yaitu kombinasi rule,
ukuran lebar window dan jumlah passes yang digunakan sehingga perlu
dilakukan pemilihan ketiga nilai parameter tersebut secara tepat untuk
mendapatkan hasil identifikasi record yang duplikat yang optimal.
40
5.2 Saran
Saran-saran untuk pengembangan tahap selanjutnya antara lain:
1. Diperlukan analisis lebih lanjut dengan record yang lebih banyak dan dengan
kesalahan typographical yang berbeda-beda sebab sistem yang telah
diimplemantasikan belum mampu menangani kesalahan seperti kesalahan
Phonetic-distance, dan type-writer distance.
2. Diperlukan pengujian pengujian parameter terhadap key yang digunakan.
Sehingga dapat terihat key mana yangpembentukannya sudah baik.
3. Diperlukan analisa terhadap waktu eksekudi atau run-time sehingga sehingga
dapat melihat perilaku sistem terhadap dataset yang lebih banyak dan
mempunyai banyak kesalahan typograpical.
41
Daftar Pustaka
42