Data Pre Processing

Knowledge Discovery (KDD) Process
Data Preprocessing
 Why preprocess the data?

 Data cleaning
 Data integration
 Data transformation
 Data reduction
 Data Discretization
 Summary
2/4/21 Data Mining: Concepts and Techniques 2
Why Data Preprocessing?
 Data pada kenyataannya tidak bersih
 Tdk Lengkap: kurang nilai pada atribut
hanya berisi data agregate.

 misl., jabatan=“”,PendapatanTahunan=“”
 noisy: berisi errors /outliers
 misl., Gaji=“-1.000.000”
 Tdk Konsisten: berisi kodes /nama yang
berbeda
 misl., Umur=“42”, TglLhr=“03/07/1997”
 misl., peringkat “1,2,3”, “A, B, C”
 misl., beda pada duplicate records

Why Is Data Dirty?
 data tdk Lengkap:
 Nilai data yg “Not applicable” ketika dikumpulkan
 Beda pertimbangan antara ketika data dikumpulkan dan ketika
dianalisis.
 Kesalahan Human/hardware/software
 data Noisy :
 Instrumen pengumpulan data yang salah
 Kesalahan Human/computer pada saat entry data
 Kesalahan dalam transmisi data
 Data tdk konsisten:
 Sumber data yang berbeda

Alasan penggunaan Data Preprocessing
 Data tdk berkwalitas , hasil mining menjadi tdk

berkwalitas!
 Keputusan-keputusan yg berkwalitas harus
berdasarkan pada data yang berkwalitas
 misl., duplicate / missing data mungkin bisa menyebabkan
statistik yang salah/menyesatkan.
 Data warehouse memerlukan integrasi yang konsisten
dari data yang berkwalitas
 Kebutuhan untuk mendapatkan dataset yang dapat diolah
dengan cepat dan menghasilkan kesimpulan yang tepat.

Ukuran dari Kualitas Data
 Accuracy
 Completeness
 Consistency
 Timeliness
 Believability
 Value added
 Interpretability
 Accessibility

Tugas Utama dlm Data
Preprocessing
 Pembersihan Data/Data Cleaning
 Pengisian pd data yg missing values, smoothing data noisy,
identifikasi/membuang outliers, dan mengatasi ketidak-
konsistenan data
 Integrasi Data
 Integrasi dari berbagai databases, data cubes, atau files
 Transformasi Data
 Normalsasi & Agregasi
 Reduksi Data
 Mengurangi volume data namun tetap bisa menghasilkan analis
sama/mirip
 Diskretisasi Data
 Bagian dari reduksi data namun kusus pada data numerik

Forms of Data Preprocessing

Data Preprocessing

 Data cleaning
 Data integration and transformation
 Data reduction
 Summary

DATA CLEANING
 Remove Noise and Inconsistent Data

Data Cleaning
 Importance
 “Data cleaning is one of the three biggest problems
in data warehousing”—Ralph Kimball

 “Data cleaning is the number one problem in data
warehousing”—DCI survey
 Tugas-tugas Data Cleaning
 Melengkapi data missing values
 Mengidentifikasi outliers dan smoothing data noisy
 Mengatasi data yang tidak konsisten
 mengatasi redudansi karena integrasi data

Missing Data
 Data tidak selalu tersedia

 Banyak record tdk memiliki nilai pada beberapa atributnya,
misl pendatan pelanggan pada data penjualan
 Penyebab Missing data :
 Kerusakan pada peralatan
 Dihapus krn tdk konsisten dengan data lainnya.
 Tdk dimasukkan krn misunderstanding
 data dianggap tdk penting pada saat entry data
 Missing data perlu untuk dilengkapi.

Mengatasi Missing Data
 Mengabaikan Record: utk dataset yg tdk memiliki class label (dlm
kasus klasifikasi)
 Mengisi missing value secara manual
 Mengisi missing value secara otomatis
 Menggunakan konstanta : “unknown”
 Nilai rata-rata dari atribut
 Nilai didapatkan dari inference-based spt formula Bayesian
/decision tree

Noisy Data
 Noise: random error atau variance dlm variabel
(measured variable)
 Penyebab nilai atribut yang tdk benar:
 Kesalahan pada Perangkat pengumpulan Data
 Kesalahan pada data entry
 Kesalahan transmisi data
 Keterbatasan teknologi
 Ketidak konsistenan pada konvensi penamaan

Mengatasi Noisy Data
 Binning
 Urutkan data dan bagi menjadi beberapa bagian (dg
frekwensi yg sama)
 Lakukan Data smooth dengan menentukan rata-rata,
smooth dengan nilai median, smooth dengan nilai

boundaries, dsb.
 Regression
 Lakukan smooth dengan menggunakan fungsi-fungsi regresi
 Clustering
 Mendeteksi dan menghilangkan outliers
 Kombinasi pemeriksaan manusia dan komputer

 Memdeteksi nilai yg di dianggap noisy dan dilakukan
pengecekan scr manual.

Methods Binning untuk Smoothing Data
 Urutkan data harga (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,
29, 34
* Bagi shg memiliki frekwensi yg sama (equi-depth) :
- class 1: 4, 8, 9, 15
- class 2: 21, 21, 24, 25
- class 3: 26, 28, 29, 34
* Smoothing dg rata2 (means):
- class 1: 9, 9, 9, 9
- class 2: 23, 23, 23, 23
- class 3: 29, 29, 29, 29
* Smoothing deg nilai batas:
- class 1: 4, 4, 15, 15
- class 2: 21, 21, 25, 25
- class 3: 26, 26, 34, 34

Data Preprocessing

 Data cleaning
 Data reduction
 Summary

DATA INTEGRATION
 Where multiple data sources may be combined

Integrasi Data
 Integrasi Data:
 Menggabungkan data dari berbagai sumber data ke dlm
suatu media penyimpanan.

 Permasalahan identifikasi Entitas:
 Mengidentifikasi entitas-entitas riel dari berbagai data
source, e.g., Bill Clinton = William Clinton

 Mendeteksi dan menyelesaikan konflik nilai data
 Alasan: representasi yg berbeda, skala yg berbeda,
e.g., meter vs. inch

mengatasi Redudansi dalam Integrasi Data
 Redudansi data terjadi ketika melakukan integrasi dari

berbagai database
 Identifikasi Obyek: obyek/atribut yang sama mungkin
memiliki nama berbeda didalam database lain.
 Derivable data: Satu atribut mungkin merupakan
“derived” attribute dari tabel lain, e.g., annual

revenue
 Atribut yg redudan dpt diditeksi menggunakan analisis
korelasi
 Integrasi data dari berbagai database bila dilakukan dg
cara hati-hati dapat mengurangi redudansi &
inkonsisternsi dan memperbaiki kecepatan dan kualitas
2/4/21 mining. Data Mining: Concepts and Techniques 20
DATA TRANSFORMATION
 Where data are transformed and consolidated
into forms appropriate for mining by performing
summary or aggregation operation

Transformasi Data
 Aggregation: summarization
 Normalization: membuat skala menjadi lebih kecil,
dengan range spesifik.
 min-max normalization
 z-score normalization

Aggregation/Pengumpulan
 Mengkombinasikan atribut-atribut/obyek-obyek
ke dlm satu atribut tunggal/obyek.
Cabang IDTX Tgl Total
Kudus 102 29-9-2014 250,000
Kudus 103 29-9-2014 300,000
Smg 201 29-9-2014 500,000
Smg 202 29-9-2014 450,000
Smg 203 30-9-2014 350,000
Cabang Tgl Total

Kudus 29-9-2014 550,000
Smg 29-9-2014 950,000
Smg 30-9-2014 350,000

Alasan Agregasi
 Dataset yang lebih kecil membutuhkan memory

lebih kecil dan waktu pemrosesan yang lebih
cepat.
 Agregasi berperan mengubah cara pandang thd
data dari level rendah menjadi level tinggi.

Transformasi Data: Normalisasi
 Normalisasi Min-max : to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA
 Ex. Let income range $12,000 to $98,000

73,600  12,normalized
000 to [0.0,
(1.0  0)  0  0.716
1.0]. Then $73,000 is mapped to 98,000  12,000
 Normalisasi Z-score (μ: mean, σ: standard deviation):
v  A
v'
A
73,600  54,000
 1.225
 Ex. Let μ = 54,000, σ = 16,000. Then 16,000

Data Preprocessing

 Data cleaning
 Data reduction
 Summary

Strategi Reduksi Data
 Alasan reduksi data?

 database/data warehouse menampung data dg besaran
terabytes
 Analisis/Mining data kompleks membutuhkan waktu yg terlalu
lama utk diproses pada dataset lengkap.

 Data reduction
 Mengurangi volume dataset namun tetap harus memproduksi
hasil analisis yang sama/mirip dengan dataset lengkap

 Strategi Data reduction
 Reduksi Dimensi— e.g., menghapus atribut-atribut yang tidak penting

 Kompresi Data

Pengurangan Dimensi
 Metode reduksi dimensi bekerja dengan cara menangkap
karakateristik data dengan memetakan dataset dari
dimensi semula ke dimensi baru yang relatif lebih rendah.
 Hasil dr pemetaan tsb berupa principal component yg
kemudian dpt diambil komponen/fitur dari dimensi baru
tsb yg mempunyai pengaruh besar thd dataset dan
membuang komponen/fitur yg tdk
berpengaruh(berpengaruh kecil)
 Teknik yang digunakan
 Principal Component Analysis (PCA)
 Single Value Decomposition

DATA SELECTION
 Where data relevant to the analysis task are
retrieved from the data base

Sampling
 Teknik utama dalam seleksi data
 Proses ini sering digunakan utk persiapan penyelidikan
awal dan analisis data akhir
 Alasan digunakan sampling: karena pengolahan dataset
secara keseluruhan sangat mahal dan menghabiskan
waktu.

Teknik Sampling
 Random Sampling (kemungkinan ada suatu pemilihan
item yang sama)
 Sampling without replacement (setiap item yg telah
dipilih dikeluarkan dari populasinya)
 Sampling with replacement (obyek yang sama dpt
terambil lebih dari satu kali)
 Stratified Sampling (membagi data menjadi beberapa
partisi, kemudian menarik sampel dari tiap-tiap
partisi )

Feature subset selection
 Salah satu cara untuk mengurangi dimensi

adalah dengan memilih fitur yg tepat/hanya
menggunakan fitur-fitur yang diperlukan saja.
 Menghilangkan fitur-fitur yang redundan dan
fitur-fitur yang tidak relevan

Feature subset selection
 Teknik utk memilih subset fitur
 Brute-force approach: mencoba semua kemungkinan fitur subset
sbg input pada algoritma datamining
 Embeded approach: terjadi scr alamai sbg bagian dari algoritma
data mining
 Fitler approach: Fitur-fitur dipilih sblm algoritma datamining
dijalankan
 Wrapper aproach: menggunakan algoritma datamining sebagai
sebuah blackbox utk mendapatkan subset fitur yg paling baik
 Metode Heuristic :
 Step-wise forward selection
 Step-wise backward elimination
 Combining forward selection and backward elimination
 Decision-tree induction

Contoh Induksi Decision Tree
Initial attribute set:

{A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 1 Class 2 Class 1 Class 2
> Reduced attribute set: {A1, A4, A6}

Feature Creation
 Merupakan proses membuat fitur/atribut baru yang dpt

menangkap informasi penting dalam sebuah himpunan
data yang lebih efisien daripada atribut-atribut yang ada.
 Metode membuat fitur baru :
 Feature Extraction
 Feature Mapping using fourier/wavelet transformation
 Feature Construction (dg cara menggabungkan fitur-fitur yang
ada)

Data Preprocessing

 Data cleaning
 Data reduction
 Summary

Data Discretization
 Beberapa algoritma datamining kususnya

klasifikasi membutuhkan data dalam bentuk
kategorikal, sedangkan algoritma asosiasi
memerlukan data dalam bentuk atribut biner.
 Transformasi dari atribut continue kedalam
bentuk kategorikal disebut discretization
 Transformasi dari atribut continue maupun diskrit
kedalam bentuk biner disebut binerization

Discretization
 Menentukan berapa banyak kategori
 Menentukan bgmn memetakan nilai-nilai dari
atribut continue menjadi atribut kategorikal
ID Pajak
{ equal-width: ID Pajak
1 125
 range data[60 - 220] 1 Sedang
2 100
 } 2 Rendah
3 70
3 Rendah
4 120
4 Sedang
5 95
Kategori range 5 Rendah
6 60
Rendah 60 – 113 6 Rendah
7 220
Sedang 114 – 167 7 Tinggi
8 85
Tinggi 168 - 220 8 Rendah
9 75
9 Rendah
10 90
10 Rendah
Discretization
Equal-frequency:
Sort data: 60,70,75,…,220
ID Pajak Kategori range ID Pajak

1 125 Rendah 60,70,75 1 Tinggi
2 100 2 Tinggi
Sedang 85,90,95
3 70 3 Rendah
Tinggi 100,120,125,220
4 120 4 Tinggi
5 95 5 Sedang
6 60 6 Rendah
7 220 7 Tinggi
8 85 8 Sedang
9 75 9 Rendah
10 90 10 Sedang
Binerization
 Jml bit yg dibutuhkan utk binerisasi

N= Log2(M)
Kategori Int Nilai Biner
Kategori Int Nilai Biner
X1 X2 X3
X1 X2 X3 X4 X5
Rusak 0 0 0 0
Rusak 0 1 0 0 0 0
Jelek 1 0 0 1
Jelek 1 0 1 0 0 0
Sedang 2 0 1 0
Sedang 2 0 0 1 0 0
Bagus 3 0 1 1
Bagus 3 0 0 0 1 0
Sempurna 4 1 0 0
Sempurna 4 0 0 0 0 1
N=Log2(5)=3

Data Preprocessing

 Data cleaning
 Data reduction
 Summary

Summary
 Data preparation / preprocessing merupakan isu utama
bagi data warehousing dan data mining
 Data preparation
 Data cleaning dan data integration
 Data reduction dan feature selection
 Discretization
 beberapa methods telah dikembangkan namun data
preprocessing masih menjadi area riset yang aktif.

References
 D. P. Ballou and G. K. Tayi. Enhancing data quality in data warehouse environments. Communications
of ACM, 42:73-78, 1999
 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
 T. Dasu, T. Johnson, S. Muthukrishnan, V. Shkapenyuk.
Mining Database Structure; Or, How to Build a Data Quality Browser. SIGMOD’02.
 H.V. Jagadish et al., Special Issue on Data Reduction Techniques. Bulletin of the Technical
Committee on Data Engineering, 20(4), December 1997
 D. Pyle. Data Preparation for Data Mining. Morgan Kaufmann, 1999
 E. Rahm and H. H. Do. Data Cleaning: Problems and Current Approaches. IEEE Bulletin of the
Technical Committee on Data Engineering. Vol.23, No.4
 V. Raman and J. Hellerstein. Potters Wheel: An Interactive Framework for Data Cleaning and
Transformation, VLDB’2001
 T. Redman. Data Quality: Management and Technology. Bantam Books, 1992
 Y. Wand and R. Wang. Anchoring data quality dimensions ontological foundations. Communications
of ACM, 39:86-95, 1996
 R. Wang, V. Storey, and C. Firth. A framework for analysis of data quality research. IEEE Trans.
Knowledge and Data Engineering, 7:623-640, 1995

Data Pre Processing

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data Pre Processing

Diunggah oleh

Hak Cipta:

Format Tersedia

Knowledge Discovery (KDD) Process

 Why preprocess the data?

hanya berisi data agregate.

2/4/21 Data Mining: Concepts and Techniques 3

2/4/21 Data Mining: Concepts and Techniques 4

 Data tdk berkwalitas , hasil mining menjadi tdk

2/4/21 Data Mining: Concepts and Techniques 5

2/4/21 Data Mining: Concepts and Techniques 6

2/4/21 Data Mining: Concepts and Techniques 7

2/4/21 Data Mining: Concepts and Techniques 8

 Why preprocess the data?

2/4/21 Data Mining: Concepts and Techniques 9

2/4/21 Data Mining: Concepts and Techniques 10

in data warehousing”—Ralph Kimball

2/4/21 Data Mining: Concepts and Techniques 11

 Data tidak selalu tersedia

2/4/21 Data Mining: Concepts and Techniques 12

2/4/21 Data Mining: Concepts and Techniques 13

 Kesalahan pada data entry

 Kesalahan transmisi data

 Ketidak konsistenan pada konvensi penamaan

2/4/21 Data Mining: Concepts and Techniques 14

smooth dengan nilai median, smooth dengan nilai

 Kombinasi pemeriksaan manusia dan komputer

pengecekan scr manual.

2/4/21 Data Mining: Concepts and Techniques 15

2/4/21 Data Mining: Concepts and Techniques 16

 Why preprocess the data?

2/4/21 Data Mining: Concepts and Techniques 17

2/4/21 Data Mining: Concepts and Techniques 18

suatu media penyimpanan.

source, e.g., Bill Clinton = William Clinton

e.g., meter vs. inch

2/4/21 Data Mining: Concepts and Techniques 19

 Redudansi data terjadi ketika melakukan integrasi dari

“derived” attribute dari tabel lain, e.g., annual

2/4/21 Data Mining: Concepts and Techniques 21

2/4/21 Data Mining: Concepts and Techniques 22

Cabang Tgl Total

2/4/21 Data Mining: Concepts and Techniques 23

 Dataset yang lebih kecil membutuhkan memory

2/4/21 Data Mining: Concepts and Techniques 24

 Ex. Let income range $12,000 to $98,000

2/4/21 Data Mining: Concepts and Techniques 25

 Why preprocess the data?

2/4/21 Data Mining: Concepts and Techniques 26

 Alasan reduksi data?

lama utk diproses pada dataset lengkap.

hasil analisis yang sama/mirip dengan dataset lengkap

 Reduksi Dimensi— e.g., menghapus atribut-atribut yang tidak penting

2/4/21 Data Mining: Concepts and Techniques 27

2/4/21 Data Mining: Concepts and Techniques 28

2/4/21 Data Mining: Concepts and Techniques 29

2/4/21 Data Mining: Concepts and Techniques 30

2/4/21 Data Mining: Concepts and Techniques 31

 Salah satu cara untuk mengurangi dimensi

2/4/21 Data Mining: Concepts and Techniques 32

2/4/21 Data Mining: Concepts and Techniques 33

Initial attribute set:

Class 1 Class 2 Class 1 Class 2

> Reduced attribute set: {A1, A4, A6}

2/4/21 Data Mining: Concepts and Techniques 34

 Merupakan proses membuat fitur/atribut baru yang dpt

2/4/21 Data Mining: Concepts and Techniques 35