Data Cleansing

Tugas Akhir - 2011
ANALISIS DAN IMPLEMENTASI DATA-CLEANING DENGAN MENGGUNAKAN

METODE MULTI-PASS NEIGHBORHOOD (MPN)
Anandary Riezka¹, Imelda Atastina ², Kiki Maulana³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Beberapa masalah yang sering ditemukan pada data adalah ketidakkonsistenan data, duplikasi
data, human errors, atau mungkin data telah rusak pada penyimpanan data. Hal ini menyebabkan
overlapping atau data yang tumpang tindih. Untuk itu diperlukan cara untuk meminimalisir
masalah pada data, salah satu caranya adalah data cleaning. Data cleaning adalah sebuah
langkah untuk mendeteksi dan mengkoreksi (atau menghapus) sejumlah record, tabel, dan
database yang kurang atau tidak akurat, setelah itu masalah – masalah yang ditemukan akan
diganti, dimodifikasi atau dihapus dari database
Pada tugas akhir ini dikembangkan suatu sistem untuk melakukan data cleaning dalam meng
identifikasi duplikasi pada data. Dengan menggunakan metoda Multi-Pass Neighborhood, akan
mengidentifikasi record yang duplikat pada database lalu record tersebut akan dibandingkan
record lain untuk mendapatkan record yang konsisten. Pengujian dilakukan untuk melihat
kualitas hasil identifikasi berdasarkan nilai recall dan nilai false-positive.
Berdasarkan pengujian yang sudah dilakukan, metoda Multi-Pass Neighborhood dapat

menghasilkan nilai recall dan false-positive yang cukup baik dengan parameter ukuran lebar
window, kombinasi rule dan jumlah passes yang digunakan.
Kata Kunci : Kata kunci : Data Cleaning, Multi-Pass Neighborhood, identifikasi data duplikat
Abstract
Problems that are often found in the data is data inconsistency, duplication of data, human
errors, or data that is broken when storing the data. This results in overlapping data. Therefore a
way is needed to minimize problems with data, one way is to perform data cleaning. Data Cleaning
is the act of detecting and correcting (or removing) a number of records, tables, and databases
that are less or not accurate. then those problems that was found is going to be replaced,
modified or deleted from the database.
In this final task, a system is developed to do data cleaning to identify duplication in data. By
using the Multi-Pass Neighborhood, the records which are duplicate will be identified, then those
pairs of duplicate record would be compared with another records, to get the consistent data,
which are called clean data. The testing phase was done to see the quality of the identification
based on the value of recall and false-positive value.
Based on the testing that was done, the methods of the Multi-Pass Neighborhood can generate a
good recall and false-positive value based on the window width parameter, the combination rule
and the number of passes used in this final task
Keywords : Keyword : Data Cleaning, Multi-Pass Neighborhood, Identification duplicate data
Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2011
1. Pendahuluan
1.1 Latar belakang

Data-Cleaning adalah suatu proses mendeteksi dan memperbaiki (atau
menghapus) data set, tabel, dan database yang korup atau tidak akurat. Istilah ini
mengacu pada identifikasi data yang tidak lengkap, tidak benar, tidak tepat, dan tidak
relevan, yang kemudian dirty data tersebut akan diganti, dimodifikasi atau dihapus.
Proses data Cleaning ini cukup penting dalam pembangunan data warehouse untuk
mencegah terjadinya duplikat data, ambigu pada data dan konflik penamaan. Konflik
yang sering muncul adalah ketika nama yang sama digunakan untuk objek yang
berbeda (Homonyms) atau nama yang berbeda digunakan untuk objek yang sama
(sinonim), dan hal ini menyebabkan overlapping atau data yang tumpang tindih.
Overlapping sering terjadi pada data-data identitas seperti data mahasiswa, data
pegawai atau data customer.
Ada beberapa fokus area didalam data cleaning, yaitu Missing values,
Outliers, Inconsistent Codes, Schema Integration, dan Duplicates. Pada tugas akhir
ini difokuskan pada masalah Duplicates.
Dalam tugas akhir ini penulis akan fokus menganalisa tingkat akurasi dalam
mengidentifikasi duplikasi pada data cleaning, tingkat akurasi akan direpresentasikan
dengan nilai recall dan false-positive rate dalam data cleaning dengan menggunakan
metoda Multi-Pass Neighborhood.
Diharapkan identifikasi duplikasi pada database dapat dilakukan pada dataset
yang telah disiapkan.
1.2 Rumusan masalah

Berdasarkan latar belakang diatas, permasalahan yang menjadi fokus pada
tugas akhir ini diantaranya yaitu :
a. Apakah algoritma algoritma Multi-Pass Neighborhood dapat
membersihkan dirty data pada proses data cleaning khususnya
duplikasi data?
b. Bagaimana analisa pengaruh ukuran lebar window, jumlah passes
yang digunakan, dan kombinasi rule sehingga nilai recall dan false-
positive terbaik?
Batasan masalah dalam penelitian ini adalah:
a. Distance funtion yang digunakan dalam mengidentifikasian data
pada tahapan merging adalah edit-distance.

Tugas Akhir - 2011
1.3 Tujuan
Hal – hal yang ingin dicapai dalam tugas akhir kali ini adalah:
1. Mengimplementasikan metoda Multi-Pass Neighborhood dalam
mengidentifikasi duplikasi data pada data cleaning.
2. Mengevaluasi dan menganalisa pengaruh ukuran lebar window, jumlah
passes yang digunakan, dan kombinasi rule untuk mendapatkan nilai recall
dan false-positive yang optimal.
1.4 Metodologi penyelesaian masalah

Pendekatan sistematis/metodologi yang akan digunakan dalam merealisasikan
tujuan dan pemecahan masalah di atas adalah dengan menggunakan langkah-
langkah sebagai berikut :
1. Studi Literatur
Pada tahap ini akan dilakukan pendalaman materi tentang data
warehouse itu sendiri, Multi-Pass Neighborhood (MPN), proses cleaning
dan software-software untuk implementasi melalui jurnal, skripsi,
makalah, buku, dokumen dan beberapa sumber lainnya.
2. Analisa dan Perancangan
Dari apa yang didapatkan dari studi literatur, pada tahap ini dilakukan
analisis bagaimana melakukan penerapan ilmu-ilmu yang sudah didapat
ke dalam implementasi tugas akhir.
Gambar 1.1 Perancangan Sistem

Tugas Akhir - 2011
3. Implementasi
Mengimplementasikan Data-Cleaning dengan Menggunakan Metode
Multi-Pass Neighborhood
4. Pengujian dan Analisis Hasil

Pengujian dilakukan terhadap perangkat lunak yang telah dibangun pada
tahap implementasi. Pengujian dilakukan untuk mengetahui apakah web
yang dibangun sudah dapat memberikan nilai recall yang baik .
5. Penyusunan Laporan Tugas Akhir

Membuat dokumentasi dari semua tahapan proses diatas berupa laporan
yang berisi tentang dasar teori, hasil tugas akhir ini, dan kesimpulan.

Tugas Akhir - 2011
5. Kesimpulan dan Saran
5.1 Kesimpulan
Kesimpulan yang dapat diambil pada tugas akhir ini antara lain:
1. Metoda Multi-Pass Neighborhood dapat diterapkan pada pengidentifikasian
record yang duplikat. Hal ini terbukti pada sub bab 4.3 dimana pada
pengidentifikasian duplikat menghasilkan nilai recall tertinggi yaitu 92,64%
dan nilai false-positive terbaik yaitu 0%.
2. Kombinasi rule yang dibentuk terhadap nilai recall dan false-positive cukup
berpengaruh pada proses merging sebagai inputan awal dalam metoda Multi-
Pass Neighborhood. Semakin sulit tingkat kompleksitas rule yang dibentuk,
maka dalam mengidentifikasi record yang duplikat akan semakin sulit.
Sebaliknya jika semakin mudah kompleksitas rule yang dibentuk, maka dalam
mengidentifikasi record yang duplikat semakin mudah.
3. Ukuran lebar window cukup berpengaruh terhadap nilai recall dan false-
positive. Untuk mendapatkan nilai recall dan false-positive yang optimal,
ukuran lebar window dapat ditentukan dari rata-rata jarak record yang
duplikat pada setiap dataset.
4. Jumlah passes yang digunakan pada metoda cukup berpengaruh terhadap nilai
recall dan false-positive dalam pengimplementasian metoda ini. Jumlah
passes juga dipengaruhi juga oleh pemilihan key yang dibentuk. Semakin baik
pembentukan key, maka semakin tinggi nilai recall dan semakin baik nilai
false-positive.
5. Dari percobaan diatas, hasil pembentukan key cukup berpengaruh didalam
metoda Multi-Pass Neighborhood. Hal ini dikarenakan pembentukan key akan
mempengaruhi pengidentifikasian data yang duplikat.
6. Hasil identifikasi duplikasi record yang duplikat pada metoda Multi-Pass
Neighborhood bergantung pada ketiga nilai paramter, yaitu kombinasi rule,
ukuran lebar window dan jumlah passes yang digunakan sehingga perlu
dilakukan pemilihan ketiga nilai parameter tersebut secara tepat untuk
mendapatkan hasil identifikasi record yang duplikat yang optimal.
40

Tugas Akhir - 2011
5.2 Saran
Saran-saran untuk pengembangan tahap selanjutnya antara lain:
1. Diperlukan analisis lebih lanjut dengan record yang lebih banyak dan dengan
kesalahan typographical yang berbeda-beda sebab sistem yang telah
diimplemantasikan belum mampu menangani kesalahan seperti kesalahan
Phonetic-distance, dan type-writer distance.
2. Diperlukan pengujian pengujian parameter terhadap key yang digunakan.
Sehingga dapat terihat key mana yangpembentukannya sudah baik.
3. Diperlukan analisa terhadap waktu eksekudi atau run-time sehingga sehingga
dapat melihat perilaku sistem terhadap dataset yang lebih banyak dan
mempunyai banyak kesalahan typograpical.
41

Tugas Akhir - 2011
Daftar Pustaka
[1] Data Cleaning definition, http://en.wikipedia.org/wiki/Data_warehouse diakses pada

tanggal 15 Januari 2011
[2] Rahm, Erhard, and Hai D, Hong, Data Cleaning : Problems and Current Approaches,
Germany: University of Leipzig.
[3] Hernandez, Mauricio and Stolfo, Salvatore. 1998. “Real-world Data is Dirty: Data
Cleansing and The Merge/Purge Problem”. New York, USA : Department of
Computer Science, Columbia University
[4] Algoritma Levenshtein Distance http://en.wikipedia.org/wiki/Levenshtein distance
diakses tanggal 20 Desember 2010
[5] Low, Wai Lup; Lee, Mong Li and Ling, Tok Wang. 2001. “A Knowledge-Based
Approach for Duplicate Elimination in Data Cleaning”. Singapore : School of
computing, National University of Singapore
[6] False-positive definision, http://en.wikipedia.org/wiki/Type_I_and_type_II_errors
diakses pada tanggal 15 Januari 2011
[7] Algoritma Levenshtein Distance http://en.wikipedia.org/wiki/Levenshtein distance
diakses tanggal 20 Desember 2010
[8] False-positive,
http://www.cs.toronto.edu/vldb04/protected/eProceedings/contents/pdf/RS5P3.PDF
diakses pada tanggal 15 Januari 2011
[9] Fowler, Martin. “UML Distilled Edisi 3, Paduan Singkat Bahasa Pemodelan Objek
Standar”. Penerbit Andi
[10] Zhao, Li dkk 2010, “New Efficient Data Cleaning Method”, Computer Engineering
Department, Yıldız Technical University. Singapore : School of computing, National
University of Singapore.
[11] T. Raisinghani, Vijay. 1999. “Cleaning Methods in Data Warehousing”. Bombay,
India : KR. School of Information Technology, ITT
[12] Galhardas, Helena; Florescu, Daniela; Shasha, Dennis; Simon,Eric and Saita, Cristian-
Augustin. “Declarative Data Cleaning : Language, Model, and Algotithms”. France
[13] Li, Mong; Hongjun, Lee; Tok, Lu; Wang Ling ; Yee Teng Ko. 1999. “data
cleansing for data mining and data warehousing”.
42


Data Cleansing

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Cleansing

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Akhir - 2011

ANALISIS DAN IMPLEMENTASI DATA-CLEANING DENGAN MENGGUNAKAN

Anandary Riezka¹, Imelda Atastina ², Kiki Maulana³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Berdasarkan pengujian yang sudah dilakukan, metoda Multi-Pass Neighborhood dapat

Keywords : Keyword : Data Cleaning, Multi-Pass Neighborhood, Identification duplicate data

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

1.1 Latar belakang

1.2 Rumusan masalah

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

1.4 Metodologi penyelesaian masalah

2. Analisa dan Perancangan

Gambar 1.1 Perancangan Sistem

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

4. Pengujian dan Analisis Hasil

5. Penyusunan Laporan Tugas Akhir

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

5. Kesimpulan dan Saran

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

[1] Data Cleaning definition, http://en.wikipedia.org/wiki/Data_warehouse diakses pada

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika

Anda mungkin juga menyukai