Data PreProcessing
Data PreProcessing
Data Warehouse
Data Preprocessing
Association Rule
K-Nearest Neighbor
DATA PREPROCESSING
Topik 04
Data selalu kotor
• Tidak komplet tidak ada nilainya (null value)
– Contoh :
• Pekerjaan = “ ”
• Noisy ada error atau outliers
– Contoh :
• Gaji = “-10”
• Tidak konsisten ada perbedaan
– Contoh :
• Umur = “42”
• TglLahir = “03/07/1997”
• Tadinya kode ditulis “1,2,3”, berubah jadi “A, B, C”
• Kode_Pelanggan ada yang Kd_Pel
• Hal yang lumrah pada database yang sangat besar
Mengapa data kotor?
• Data tidak komplet karena:
– Data tidak tersedia saat pengumpulan data
• Responden tidak mau mengisi data atau tidak punya data
– Saat pengumpulan data dianggap tidak penting
– Masalah pada manusia atau alat
• Noise (data yang salah) karena:
– Kesalahan pada instrumen
– Kesalahan manusia atau komputer saat data entri
– Kesalahan saat transmisi data
• Data tidak konsisten karena:
– Sumbernya berbeda
Mengapa harus dilakukan
Preprocessing Data ?
• Teknik data preprocessing dapat
meningkatkan kualitas pola yang
dihasilkan dan/atau waktu yang
dibutuhkan untuk menambang
• Tidak ada data yang berkualitas dan
tidak ada hasil quality mining!
• Jadi data preprocessing harus dilakukan
sebelum melakukan penambangan
Tugas Utama Dalam Pengolahan Data
/Cara PreProcessing Data
1. Data cleaning (Pembersihan data)
– Mengisi data yang kosong
– Smooth noisy data (Supaya data lebih
bagus/smooth)
– Mengidentifikasi atau menghilangkan outliers
– Membetulkan ketidakkonsistenan
2. Data integration (Penggabungan data)
– Menggabungkan beberapa database atau file
– Bisa tidak konsisten: Kode_Pelanggan dan
Kd_Pel
– Redundant: umur dan tanggal lahir
Tugas Utama Dalam Pengolahan Data
/Cara PreProcessing Data
3. Data Transformation (Perubahan data)
– Normalization: nilai pada semua atribut dinormalisasi
– Aggregation: nilai total penjualan per kota bukan per
toko
4. Data reduction
– Mengurangi jumlah data tapi tetap mendapat hasil yang
sama
– Caranya:
1. Data aggregation : total penjumlahan
2. Attribut selection : membuang atribut yang tidak berguna
3. Data discretization : mengubah data continous menjadi
interval
mis: umur diubah jadi 10-15, 16-20, dsb.
Bentuk Preprocessing Data
1. Data Cleaning (Pembersihan Data)
• Mengapa data cleaning?
– “Data cleaning is the number one problem in
data warehousing”—DCI survey
• Tugas dalam Data cleaning
– Mengisi data yang kosong
– Mengidentifikasi outliers (pencilan) dan
kelancaran data yang noisy
– Membenarkan data yang tidak konsisten
– Menyelesaikan masalah redundancy yang
disebabkan oleh data integration
1. Data Cleaning
a. Missing Data (Tidak ada data)
• Data tidak selalu tersedia
– Data kosong (null value) terdapat pada beberapa
atribut
• Missing data karena
– Alatnya rusak
– Tidak konsisten dengan data lain sehingga
dihapus
– Data tidak dicatat karena salah paham
– Data tertentu tidak dianggap penting saat
pengumpulan data
• Missing data bisa diisi dengan nilai perkiraan
Bagaimana menangani Missing Data?
• Datanya dihapus:
– biasanya dilakukan jika label kelas kosong (pada metoda
klasifikasi)
– Jika banyak atribut yang datanya kosong
• Mengisi data secara manual:
– banyak makan waktu dan tidak layak kalau datanya sangat
banyak
• Mengisi secara otomatis dengan
– konstan global :
• mis. “tdk diketahui” jadi kelas baru
– rata-rata atribut: misal rata-rata income 10 jt/bln
– rata-rata atribut tapi hanya untuk data yang termasuk pada
kelas yang sama
– nilai yang paling mungkin:
• diperkirakan menggunakan regresi atau decision tree
Bagaimana menangani Missing Data?
• Soal :
Data: 15, 27, 35, 22, 24, 13, 39, 32, 17,
30, 28, 8
– Lakukan pembagian bin
– Lakukan smoothing menggunakan:
a. Rata-rata bin (bin mean)
b. Batas bin (bin boundaries)
1.b.2. Regression/Regresi
1.b.2. Regresi