Anda di halaman 1dari 43

Knowledge Discovery (KDD) Process

Data Preprocessing

 Why preprocess the data?


 Data cleaning
 Data integration
 Data transformation
 Data reduction
 Data Discretization
 Summary
2/4/21 Data Mining: Concepts and Techniques 2
Why Data Preprocessing?
 Data pada kenyataannya tidak bersih
 Tdk Lengkap: kurang nilai pada atribut

hanya berisi data agregate.


 misl., jabatan=“”,PendapatanTahunan=“”
 noisy: berisi errors /outliers
 misl., Gaji=“-1.000.000”
 Tdk Konsisten: berisi kodes /nama yang
berbeda
 misl., Umur=“42”, TglLhr=“03/07/1997”
 misl., peringkat “1,2,3”, “A, B, C”
 misl., beda pada duplicate records

2/4/21 Data Mining: Concepts and Techniques 3


Why Is Data Dirty?
 data tdk Lengkap:
 Nilai data yg “Not applicable” ketika dikumpulkan
 Beda pertimbangan antara ketika data dikumpulkan dan ketika
dianalisis.
 Kesalahan Human/hardware/software
 data Noisy :
 Instrumen pengumpulan data yang salah
 Kesalahan Human/computer pada saat entry data
 Kesalahan dalam transmisi data
 Data tdk konsisten:
 Sumber data yang berbeda

2/4/21 Data Mining: Concepts and Techniques 4


Alasan penggunaan Data Preprocessing

 Data tdk berkwalitas , hasil mining menjadi tdk


berkwalitas!
 Keputusan-keputusan yg berkwalitas harus
berdasarkan pada data yang berkwalitas
 misl., duplicate / missing data mungkin bisa menyebabkan
statistik yang salah/menyesatkan.
 Data warehouse memerlukan integrasi yang konsisten
dari data yang berkwalitas
 Kebutuhan untuk mendapatkan dataset yang dapat diolah
dengan cepat dan menghasilkan kesimpulan yang tepat.

2/4/21 Data Mining: Concepts and Techniques 5


Ukuran dari Kualitas Data

 Accuracy
 Completeness
 Consistency
 Timeliness
 Believability
 Value added
 Interpretability
 Accessibility

2/4/21 Data Mining: Concepts and Techniques 6


Tugas Utama dlm Data
Preprocessing
 Pembersihan Data/Data Cleaning
 Pengisian pd data yg missing values, smoothing data noisy,
identifikasi/membuang outliers, dan mengatasi ketidak-
konsistenan data
 Integrasi Data
 Integrasi dari berbagai databases, data cubes, atau files
 Transformasi Data
 Normalsasi & Agregasi
 Reduksi Data
 Mengurangi volume data namun tetap bisa menghasilkan analis
sama/mirip
 Diskretisasi Data
 Bagian dari reduksi data namun kusus pada data numerik

2/4/21 Data Mining: Concepts and Techniques 7


Forms of Data Preprocessing

2/4/21 Data Mining: Concepts and Techniques 8


Data Preprocessing

 Why preprocess the data?


 Data cleaning
 Data integration and transformation
 Data reduction
 Summary

2/4/21 Data Mining: Concepts and Techniques 9


DATA CLEANING
 Remove Noise and Inconsistent Data

2/4/21 Data Mining: Concepts and Techniques 10


Data Cleaning
 Importance
 “Data cleaning is one of the three biggest problems

in data warehousing”—Ralph Kimball


 “Data cleaning is the number one problem in data

warehousing”—DCI survey
 Tugas-tugas Data Cleaning
 Melengkapi data missing values
 Mengidentifikasi outliers dan smoothing data noisy
 Mengatasi data yang tidak konsisten
 mengatasi redudansi karena integrasi data

2/4/21 Data Mining: Concepts and Techniques 11


Missing Data

 Data tidak selalu tersedia


 Banyak record tdk memiliki nilai pada beberapa atributnya,
misl pendatan pelanggan pada data penjualan
 Penyebab Missing data :
 Kerusakan pada peralatan
 Dihapus krn tdk konsisten dengan data lainnya.
 Tdk dimasukkan krn misunderstanding
 data dianggap tdk penting pada saat entry data
 Missing data perlu untuk dilengkapi.

2/4/21 Data Mining: Concepts and Techniques 12


Mengatasi Missing Data
 Mengabaikan Record: utk dataset yg tdk memiliki class label (dlm
kasus klasifikasi)
 Mengisi missing value secara manual
 Mengisi missing value secara otomatis
 Menggunakan konstanta : “unknown”
 Nilai rata-rata dari atribut
 Nilai didapatkan dari inference-based spt formula Bayesian
/decision tree

2/4/21 Data Mining: Concepts and Techniques 13


Noisy Data
 Noise: random error atau variance dlm variabel
(measured variable)
 Penyebab nilai atribut yang tdk benar:
 Kesalahan pada Perangkat pengumpulan Data

 Kesalahan pada data entry

 Kesalahan transmisi data

 Keterbatasan teknologi

 Ketidak konsistenan pada konvensi penamaan

2/4/21 Data Mining: Concepts and Techniques 14


Mengatasi Noisy Data
 Binning
 Urutkan data dan bagi menjadi beberapa bagian (dg

frekwensi yg sama)
 Lakukan Data smooth dengan menentukan rata-rata,

smooth dengan nilai median, smooth dengan nilai


boundaries, dsb.
 Regression
 Lakukan smooth dengan menggunakan fungsi-fungsi regresi

 Clustering
 Mendeteksi dan menghilangkan outliers

 Kombinasi pemeriksaan manusia dan komputer


 Memdeteksi nilai yg di dianggap noisy dan dilakukan

pengecekan scr manual.

2/4/21 Data Mining: Concepts and Techniques 15


Methods Binning untuk Smoothing Data
 Urutkan data harga (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,
29, 34
* Bagi shg memiliki frekwensi yg sama (equi-depth) :
- class 1: 4, 8, 9, 15
- class 2: 21, 21, 24, 25
- class 3: 26, 28, 29, 34
* Smoothing dg rata2 (means):
- class 1: 9, 9, 9, 9
- class 2: 23, 23, 23, 23
- class 3: 29, 29, 29, 29
* Smoothing deg nilai batas:
- class 1: 4, 4, 15, 15
- class 2: 21, 21, 25, 25
- class 3: 26, 26, 34, 34

2/4/21 Data Mining: Concepts and Techniques 16


Data Preprocessing

 Why preprocess the data?


 Data cleaning
 Data integration and transformation
 Data reduction
 Summary

2/4/21 Data Mining: Concepts and Techniques 17


DATA INTEGRATION
 Where multiple data sources may be combined

2/4/21 Data Mining: Concepts and Techniques 18


Integrasi Data
 Integrasi Data:
 Menggabungkan data dari berbagai sumber data ke dlm

suatu media penyimpanan.


 Permasalahan identifikasi Entitas:
 Mengidentifikasi entitas-entitas riel dari berbagai data

source, e.g., Bill Clinton = William Clinton


 Mendeteksi dan menyelesaikan konflik nilai data
 Alasan: representasi yg berbeda, skala yg berbeda,

e.g., meter vs. inch

2/4/21 Data Mining: Concepts and Techniques 19


mengatasi Redudansi dalam Integrasi Data

 Redudansi data terjadi ketika melakukan integrasi dari


berbagai database
 Identifikasi Obyek: obyek/atribut yang sama mungkin
memiliki nama berbeda didalam database lain.
 Derivable data: Satu atribut mungkin merupakan

“derived” attribute dari tabel lain, e.g., annual


revenue
 Atribut yg redudan dpt diditeksi menggunakan analisis
korelasi
 Integrasi data dari berbagai database bila dilakukan dg
cara hati-hati dapat mengurangi redudansi &
inkonsisternsi dan memperbaiki kecepatan dan kualitas
2/4/21 mining. Data Mining: Concepts and Techniques 20
DATA TRANSFORMATION
 Where data are transformed and consolidated
into forms appropriate for mining by performing
summary or aggregation operation

2/4/21 Data Mining: Concepts and Techniques 21


Transformasi Data

 Aggregation: summarization
 Normalization: membuat skala menjadi lebih kecil,
dengan range spesifik.
 min-max normalization
 z-score normalization

2/4/21 Data Mining: Concepts and Techniques 22


Aggregation/Pengumpulan
 Mengkombinasikan atribut-atribut/obyek-obyek
ke dlm satu atribut tunggal/obyek.
Cabang IDTX Tgl Total
Kudus 102 29-9-2014 250,000
Kudus 103 29-9-2014 300,000
Smg 201 29-9-2014 500,000
Smg 202 29-9-2014 450,000
Smg 203 30-9-2014 350,000

Cabang Tgl Total


Kudus 29-9-2014 550,000
Smg 29-9-2014 950,000
Smg 30-9-2014 350,000

2/4/21 Data Mining: Concepts and Techniques 23


Alasan Agregasi

 Dataset yang lebih kecil membutuhkan memory


lebih kecil dan waktu pemrosesan yang lebih
cepat.
 Agregasi berperan mengubah cara pandang thd
data dari level rendah menjadi level tinggi.

2/4/21 Data Mining: Concepts and Techniques 24


Transformasi Data: Normalisasi
 Normalisasi Min-max : to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA

 Ex. Let income range $12,000 to $98,000


73,600  12,normalized
000 to [0.0,
(1.0  0)  0  0.716
1.0]. Then $73,000 is mapped to 98,000  12,000
 Normalisasi Z-score (μ: mean, σ: standard deviation):
v  A
v'
A
73,600  54,000
 1.225
 Ex. Let μ = 54,000, σ = 16,000. Then 16,000

2/4/21 Data Mining: Concepts and Techniques 25


Data Preprocessing

 Why preprocess the data?


 Data cleaning
 Data integration and transformation
 Data reduction
 Data Discretization
 Summary

2/4/21 Data Mining: Concepts and Techniques 26


Strategi Reduksi Data

 Alasan reduksi data?


 database/data warehouse menampung data dg besaran

terabytes
 Analisis/Mining data kompleks membutuhkan waktu yg terlalu

lama utk diproses pada dataset lengkap.


 Data reduction
 Mengurangi volume dataset namun tetap harus memproduksi

hasil analisis yang sama/mirip dengan dataset lengkap


 Strategi Data reduction

 Reduksi Dimensi— e.g., menghapus atribut-atribut yang tidak penting


 Kompresi Data

2/4/21 Data Mining: Concepts and Techniques 27


Pengurangan Dimensi
 Metode reduksi dimensi bekerja dengan cara menangkap
karakateristik data dengan memetakan dataset dari
dimensi semula ke dimensi baru yang relatif lebih rendah.
 Hasil dr pemetaan tsb berupa principal component yg
kemudian dpt diambil komponen/fitur dari dimensi baru
tsb yg mempunyai pengaruh besar thd dataset dan
membuang komponen/fitur yg tdk
berpengaruh(berpengaruh kecil)
 Teknik yang digunakan
 Principal Component Analysis (PCA)
 Single Value Decomposition

2/4/21 Data Mining: Concepts and Techniques 28


DATA SELECTION
 Where data relevant to the analysis task are
retrieved from the data base

2/4/21 Data Mining: Concepts and Techniques 29


Sampling
 Teknik utama dalam seleksi data
 Proses ini sering digunakan utk persiapan penyelidikan
awal dan analisis data akhir
 Alasan digunakan sampling: karena pengolahan dataset
secara keseluruhan sangat mahal dan menghabiskan
waktu.

2/4/21 Data Mining: Concepts and Techniques 30


Teknik Sampling
 Random Sampling (kemungkinan ada suatu pemilihan
item yang sama)
 Sampling without replacement (setiap item yg telah
dipilih dikeluarkan dari populasinya)
 Sampling with replacement (obyek yang sama dpt
terambil lebih dari satu kali)
 Stratified Sampling (membagi data menjadi beberapa
partisi, kemudian menarik sampel dari tiap-tiap
partisi )

2/4/21 Data Mining: Concepts and Techniques 31


Feature subset selection

 Salah satu cara untuk mengurangi dimensi


adalah dengan memilih fitur yg tepat/hanya
menggunakan fitur-fitur yang diperlukan saja.
 Menghilangkan fitur-fitur yang redundan dan
fitur-fitur yang tidak relevan

2/4/21 Data Mining: Concepts and Techniques 32


Feature subset selection
 Teknik utk memilih subset fitur
 Brute-force approach: mencoba semua kemungkinan fitur subset
sbg input pada algoritma datamining
 Embeded approach: terjadi scr alamai sbg bagian dari algoritma
data mining
 Fitler approach: Fitur-fitur dipilih sblm algoritma datamining
dijalankan
 Wrapper aproach: menggunakan algoritma datamining sebagai
sebuah blackbox utk mendapatkan subset fitur yg paling baik
 Metode Heuristic :
 Step-wise forward selection
 Step-wise backward elimination
 Combining forward selection and backward elimination
 Decision-tree induction

2/4/21 Data Mining: Concepts and Techniques 33


Contoh Induksi Decision Tree

Initial attribute set:


{A1, A2, A3, A4, A5, A6}

A4 ?

A1? A6?

Class 1 Class 2 Class 1 Class 2

> Reduced attribute set: {A1, A4, A6}

2/4/21 Data Mining: Concepts and Techniques 34


Feature Creation

 Merupakan proses membuat fitur/atribut baru yang dpt


menangkap informasi penting dalam sebuah himpunan
data yang lebih efisien daripada atribut-atribut yang ada.
 Metode membuat fitur baru :

 Feature Extraction
 Feature Mapping using fourier/wavelet transformation
 Feature Construction (dg cara menggabungkan fitur-fitur yang
ada)

2/4/21 Data Mining: Concepts and Techniques 35


Data Preprocessing

 Why preprocess the data?


 Data cleaning
 Data integration and transformation
 Data reduction
 Data Discretization
 Summary

2/4/21 Data Mining: Concepts and Techniques 36


Data Discretization

 Beberapa algoritma datamining kususnya


klasifikasi membutuhkan data dalam bentuk
kategorikal, sedangkan algoritma asosiasi
memerlukan data dalam bentuk atribut biner.
 Transformasi dari atribut continue kedalam
bentuk kategorikal disebut discretization
 Transformasi dari atribut continue maupun diskrit
kedalam bentuk biner disebut binerization

2/4/21 Data Mining: Concepts and Techniques 37


Discretization
 Menentukan berapa banyak kategori
 Menentukan bgmn memetakan nilai-nilai dari
atribut continue menjadi atribut kategorikal
ID Pajak
{ equal-width: ID Pajak
1 125
 range data[60 - 220] 1 Sedang
2 100
 } 2 Rendah
3 70
3 Rendah
4 120
4 Sedang
5 95
Kategori range 5 Rendah
6 60
Rendah 60 – 113 6 Rendah
7 220
Sedang 114 – 167 7 Tinggi
8 85
Tinggi 168 - 220 8 Rendah
9 75
9 Rendah
10 90
10 Rendah
2/4/21 Data Mining: Concepts and Techniques 38
Discretization
Equal-frequency:
Sort data: 60,70,75,…,220

ID Pajak Kategori range ID Pajak


1 125 Rendah 60,70,75 1 Tinggi
2 100 2 Tinggi
Sedang 85,90,95
3 70 3 Rendah
Tinggi 100,120,125,220
4 120 4 Tinggi
5 95 5 Sedang
6 60 6 Rendah
7 220 7 Tinggi
8 85 8 Sedang
9 75 9 Rendah
10 90 10 Sedang
2/4/21 Data Mining: Concepts and Techniques 39
Binerization

 Jml bit yg dibutuhkan utk binerisasi


N= Log2(M)
Kategori Int Nilai Biner
Kategori Int Nilai Biner
X1 X2 X3
X1 X2 X3 X4 X5
Rusak 0 0 0 0
Rusak 0 1 0 0 0 0
Jelek 1 0 0 1
Jelek 1 0 1 0 0 0
Sedang 2 0 1 0
Sedang 2 0 0 1 0 0
Bagus 3 0 1 1
Bagus 3 0 0 0 1 0
Sempurna 4 1 0 0
Sempurna 4 0 0 0 0 1

N=Log2(5)=3

2/4/21 Data Mining: Concepts and Techniques 40


Data Preprocessing

 Why preprocess the data?


 Data cleaning
 Data integration and transformation
 Data reduction
 Data Discretization
 Summary

2/4/21 Data Mining: Concepts and Techniques 41


Summary
 Data preparation / preprocessing merupakan isu utama
bagi data warehousing dan data mining
 Data preparation
 Data cleaning dan data integration
 Data reduction dan feature selection
 Discretization
 beberapa methods telah dikembangkan namun data
preprocessing masih menjadi area riset yang aktif.

2/4/21 Data Mining: Concepts and Techniques 42


References
 D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications
of ACM, 42:73-78, 1999
 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
 T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk. 
Mining Database Structure; Or, How to Build a Data Quality Browser. SIGMOD’02. 
 H.V. Jagadish et al., Special Issue on Data Reduction Techniques. Bulletin of the Technical
Committee on Data Engineering, 20(4), December 1997
 D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999
 E. Rahm and H. H. Do. Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the
Technical Committee on Data Engineering. Vol.23, No.4
 V. Raman and J. Hellerstein. Potters Wheel: An Interactive Framework for Data Cleaning and
Transformation, VLDB’2001
 T. Redman. Data Quality: Management and Technology. Bantam Books, 1992
 Y. Wand and R. Wang. Anchoring data quality dimensions ontological foundations. Communications
of ACM, 39:86-95, 1996
 R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans.
Knowledge and Data Engineering, 7:623-640, 1995

2/4/21 Data Mining: Concepts and Techniques 43

Anda mungkin juga menyukai