Data PreProcessing

DATA WAREHOUSE
3 SKS By : Sri Rezeki Candra Nursari

Materi Pengantar Data Mining
Data Warehouse
Online Analytical Processing (OLAP)
Data Preprocessing
Association Rule
Classification, Decision Tree, Rule Based Classifier
K-Nearest Neighbor
Naïve Bayesian, Neural Networks
SVM, Genetic Algorithm
Regression, Cluster Analysis

Literatur :
1. Berson, Data Warehousing, Data Mining, & Olap,
McGraw-Hill Education, 2004
2. Eko Prasetyo, Data Mining – Konsep dan Aplikasi
Menggunakan Matlab, Andi Offset, 2012
Tim Teaching
Ir.Iman Paryudi,Msc
Sri Rezeki Candra Nursari, Dra., M.Kom
DATA PREPROCESSING
Topik 04
Data selalu kotor
• Tidak komplet  tidak ada nilainya (null value)
– Contoh :
• Pekerjaan = “ ”
• Noisy  ada error atau outliers
– Contoh :
• Gaji = “-10”
• Tidak konsisten  ada perbedaan
– Contoh :
• Umur = “42”
• TglLahir = “03/07/1997”
• Tadinya kode ditulis “1,2,3”, berubah jadi “A, B, C”
• Kode_Pelanggan ada yang Kd_Pel
• Hal yang lumrah pada database yang sangat besar
Mengapa data kotor?
• Data tidak komplet karena:
– Data tidak tersedia saat pengumpulan data
• Responden tidak mau mengisi data atau tidak punya data
– Saat pengumpulan data dianggap tidak penting
– Masalah pada manusia atau alat
• Noise (data yang salah) karena:
– Kesalahan pada instrumen
– Kesalahan manusia atau komputer saat data entri
– Kesalahan saat transmisi data
• Data tidak konsisten karena:
– Sumbernya berbeda
Mengapa harus dilakukan
Preprocessing Data ?
• Teknik data preprocessing dapat
meningkatkan kualitas pola yang
dihasilkan dan/atau waktu yang
dibutuhkan untuk menambang
• Tidak ada data yang berkualitas dan
tidak ada hasil quality mining!
• Jadi data preprocessing harus dilakukan
sebelum melakukan penambangan
Tugas Utama Dalam Pengolahan Data
/Cara PreProcessing Data
1. Data cleaning (Pembersihan data)
– Mengisi data yang kosong
– Smooth noisy data (Supaya data lebih
bagus/smooth)
– Mengidentifikasi atau menghilangkan outliers
– Membetulkan ketidakkonsistenan
2. Data integration (Penggabungan data)
– Menggabungkan beberapa database atau file
– Bisa tidak konsisten: Kode_Pelanggan dan
Kd_Pel
– Redundant: umur dan tanggal lahir
Tugas Utama Dalam Pengolahan Data
/Cara PreProcessing Data
3. Data Transformation (Perubahan data)
– Normalization: nilai pada semua atribut dinormalisasi
– Aggregation: nilai total penjualan per kota bukan per
toko
4. Data reduction
– Mengurangi jumlah data tapi tetap mendapat hasil yang
sama
– Caranya:
1. Data aggregation : total penjumlahan
2. Attribut selection : membuang atribut yang tidak berguna
3. Data discretization : mengubah data continous menjadi
interval
mis: umur diubah jadi 10-15, 16-20, dsb.
Bentuk Preprocessing Data
1. Data Cleaning (Pembersihan Data)
• Mengapa data cleaning?
– “Data cleaning is the number one problem in
data warehousing”—DCI survey
• Tugas dalam Data cleaning
– Mengisi data yang kosong
– Mengidentifikasi outliers (pencilan) dan
kelancaran data yang noisy
– Membenarkan data yang tidak konsisten
– Menyelesaikan masalah redundancy yang
disebabkan oleh data integration
1. Data Cleaning
a. Missing Data (Tidak ada data)
• Data tidak selalu tersedia
– Data kosong (null value) terdapat pada beberapa
atribut
• Missing data karena
– Alatnya rusak
– Tidak konsisten dengan data lain sehingga
dihapus
– Data tidak dicatat karena salah paham
– Data tertentu tidak dianggap penting saat
pengumpulan data
• Missing data bisa diisi dengan nilai perkiraan
Bagaimana menangani Missing Data?
• Datanya dihapus:
– biasanya dilakukan jika label kelas kosong (pada metoda
klasifikasi)
– Jika banyak atribut yang datanya kosong
• Mengisi data secara manual:
– banyak makan waktu dan tidak layak kalau datanya sangat
banyak
• Mengisi secara otomatis dengan
– konstan global :
• mis. “tdk diketahui”  jadi kelas baru
– rata-rata atribut: misal rata-rata income 10 jt/bln
– rata-rata atribut tapi hanya untuk data yang termasuk pada
kelas yang sama
– nilai yang paling mungkin:
• diperkirakan menggunakan regresi atau decision tree
Bagaimana menangani Missing Data?
Berapa nilai pengganti untuk data kosong bila dihitung dengan:

a. Nilai rata-rata atribut?
b. Nilai rata-rata atribut dalam satu kelas?
1. Data Cleaning
b. Noisy Data
• Noise adalah error/data yang salah
• Kesalahan nilai atribut disebabkan karena:
– Alat rusak saat pengumpulan data
– Masalah saat data entry
– Masalah saat transmisi data
• Masalah lain yang membutuhkan data
cleaning
– data ganda
– data tidak komplet
– data tidak konsisten
Bagaimana menangani Noisy Data?
• 1.b.1. Binning
– melakukan smoothing pada data yang sudah berurutan
dengan cara melihat data disekitarnya (local smoothing)
– pertama urutkan data dan bagilah menjadi beberapa bin
dengan jumlah data yang sama (equal-frequency)
– Kemudian kita bisa melakukan smooth by bin means,
smooth by bin median, smooth by bin boundaries, dsb.
• 1.b.2. Regression
– smooth dengan cara menyesuaikan data dengan fungsi
regresi
• 1.b.3. Clustering
– mendeteksi dan membuang outliers
1.b.1. Binning Methods for Data Smoothing
• Data yang sudah diurutkan: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,29, 34
* Pembagian bin dengan jumlah data yang sama (equal-frequency
(equi-depth)) :
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing menggunakan rata-rata bin (bin means):
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing menggunakan batas bin (bin boundaries):
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 21, 25
- Bin 3: 26, 26, 26, 34
1.b.1. Binning Methods for Data Smoothing
• Soal :
Data: 15, 27, 35, 22, 24, 13, 39, 32, 17,
30, 28, 8
– Lakukan pembagian bin
– Lakukan smoothing menggunakan:
a. Rata-rata bin (bin mean)
b. Batas bin (bin boundaries)
1.b.2. Regression/Regresi
1.b.2. Regresi
• Regresi : merupakan proses identifikasi relasi dan

berpengaruh terhadap nilai-nilai objek
• Regresi bertujuan untuk menemukan fungsi yang
memodelkan data dengan meminimalkan galat
atau selisih antara nilai prediksi dengan nilai
sebenarnya
• Regresi digunakan untuk :
– Prediksi / prediction
• Memperkirakan nilai-nilai data bertipe apa saja dan kapan saja
(masa lalu, sekarang atau masa depan)
– Peramalan / forecasting
• Memperkirakan nilai-nilai data time series di masa depan
1.b.2. Regresi
• Regresi : merupakan proses identifikasi relasi dan

berpengaruh terhadap nilai-nilai objek
• Regresi bertujuan untuk menemukan fungsi yang
memodelkan data dengan meminimalkan galat
atau selisih antara nilai prediksi dengan nilai
sebenarnya
• Regresi digunakan untuk :
– Prediksi / prediction
• Memperkirakan nilai-nilai data bertipe apa saja dan kapan saja
(masa lalu, sekarang atau masa depan)
– Peramalan / forecasting
• Memperkirakan nilai-nilai data time series di masa depan
1.b.2. Regresi
• Model Persamaan Regresi terdiri dari 2
macam yaitu :
– Regresi Linear Sederhana
• Tujuan :
– untuk mendapatkan hubungan matematis dalam
bentuk suatu persamaan antara variabel tak bebas
tunggal dengan variabel bebas tunggal
– Regresi Linear Berganda
• Tujuan :
– untuk mengukur intensitas hubungan antara dua
variabel atau lebih dan membuat prediksi perkiraan
nilai Y atas X
1.b.2. Regresi
1. Model Persamaan Regresi Linear Sederhana :

Y = a + bX
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent)
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor
Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :

a = (Σy) (Σx²) – (Σx) (Σxy)
n(Σx²) – (Σx)²
b = n(Σxy) – (Σx) (Σy)
n(Σx²) – (Σx)²
1.b.2. Regresi
• Tahapan melakukan analisa regresi linier sederhana
1. Tentukan Tujuan melakukan Analisis Regresi Linear
Sederhana
2. Identifikasi Variabel Faktor Penyebab (Predictor) dan
Variabel Akibat (Response)
3. Lakukan Pengumpulan Data
4. Hitung X², Y², XY dan total dari masing-masing
5. Hitung nilai (a) dan nilai (b)
6. Buatkan Model Persamaan Regresi Linear Sederhana.
Y=a+bX
7. Lakukan Prediksi atau Peramalan terhadap Variabel
Faktor Penyebab atau Variabel Akibat.
1.b.2. Regresi
• Soal :
– Seorang dokter mempelajari hubungan antara NOSP
dan FSI, sehingga dapat memprediksi atau meramalkan
FSI jika NOSP tidak terkendali. Dokter mengambil data
sembilan pasien
• Jawab :
1. Menentukan Tujuan melakukan Analisis Regresi Linear
Sederhana
– Memprediksi FSI jika NOSP tidak terkendali
– Varibel Faktor Penyebab (X) : NOSP
Variabel Akibat (Y) : FSI
1.b.2. Regresi
• Jawab- cont :
3. Melakukan Pengumpulan Data
Umur NOSP FSI
Umur Y X
18 4 15
18 4 15
15 1 14
15 1 14
34 1
52 5 16
52 5 16
46 3 21
46 3 21
Abaikan atribut 42 3 23
42 3 23 kosong
51 3 17
51 3 17
26 1 26
26 1 26
45 1 20
45 1 20
44 3 15
44 3 15
1.b.2. Regresi

berikutnya
4. Hitung X², Y², XY dan total dari masing-masing
5. Hitung nilai (a) dan nilai (b)
6. Buatkan Model Persamaan Regresi Linear Sederhana.
Y=a+bX
1.b.2. Regresi
2. Model Persamaan Regresi Linear Berganda :

Y’ = a + b1X1 + b2X2
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent) atau variabel Tak Bebas
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent) /Variabel Bebas
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor
Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :

1.b.2. Regresi
• Tahapan melakukan analisa regresi linier berganda
1. Tentukan Tujuan melakukan Analisis Regresi Linear Berganda
2. Identifikasi Variabel Faktor Penyebab (Predictor)/variabel bebas
dan Variabel Akibat (Response)/variabel tidak bebas
3. Lakukan Pengumpulan Data
4. Menentukan nilai konstanta dan koefisien regresi (X1², X2², Y²,
X1X2, X1Y, X2Y dan total dari masing-masing)
5. Hitung nilai (a) dan nilai (b1 dan b2)
6. Buatkan Model Persamaan Regresi Linear berganda. Y’=a+b1X1+
b 2X 2
7. Lakukan Prediksi atau Peramalan terhadap Variabel Faktor
Penyebab atau Variabel Akibat.
1.b.2. Regresi
• Soal :
– Permintaan suatu produk ditentukan oleh harga barang dan
pendapatan seseorang. Hasil pengamatan terhadap 12 sampel
atas permintaan suatu barang dalam hal ini beras diperoleh data
harga beras dan pendapatan konsumen
• Jawab :
1. Menentukan Tujuan melakukan Analisis Regresi Linear
Berganda
– Memprediksi Permintaan beras berdasarkan harga beras
dan pendapatan konsumen
– Var. Faktor Penyebab (X):Hrg beras,pendapatan,konsumen
Variabel Akibat (Y) : Permintaan Beras
1.b.2. Regresi
• Jawab- cont : Konsumen Y X1 X2
3. Melakukan 1 4 5 100
Pengumpulan Data 2 10 24 125
(dalam satuan ribuan) 3 5 6 100
4 3 1 75
5 3 3 85
6 3 7 90
7 10 16 120
8 10 18 120
9 3 5 90
10 8 9 115
11 9 12 115
12 6 5 105
1.b.2. Regresi

berikutnya
4. Menentukan nilai konstanta dan koefisien regresi (X1²,
X2², Y², X1X2, X1Y, X2Y dan total dari masing-masing)
5. Hitung nilai (a) dan nilai (b1 dan b2)
6. Buatkan Model Persamaan Regresi Linear Berganda.
Y’=a+ b1X1 + b2X2
1.b.3. Cluster Analysis  next dicussion

Data PreProcessing

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Data PreProcessing

Diunggah oleh

Hak Cipta:

Format Tersedia

DATA WAREHOUSE

3 SKS By : Sri Rezeki Candra Nursari

Online Analytical Processing (OLAP)

Classification, Decision Tree, Rule Based Classifier

Naïve Bayesian, Neural Networks

SVM, Genetic Algorithm

Regression, Cluster Analysis

Berapa nilai pengganti untuk data kosong bila dihitung dengan:

• Regresi : merupakan proses identifikasi relasi dan

• Regresi : merupakan proses identifikasi relasi dan

1. Model Persamaan Regresi Linear Sederhana :

Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :

• Tahapan melakukan analisa regresi linier sederhana

2. Model Persamaan Regresi Linear Berganda :

Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :

• Tahapan melakukan analisa regresi linier sederhana

Anda mungkin juga menyukai