Anda di halaman 1dari 33

DATA WAREHOUSE

3 SKS By : Sri Rezeki Candra Nursari


Materi Pengantar Data Mining

Data Warehouse

Online Analytical Processing (OLAP)

Data Preprocessing

Association Rule

Classification, Decision Tree, Rule Based Classifier

K-Nearest Neighbor

Naïve Bayesian, Neural Networks

SVM, Genetic Algorithm

Regression, Cluster Analysis


Literatur :
1. Berson, Data Warehousing, Data Mining, & Olap,
McGraw-Hill Education, 2004
2. Eko Prasetyo, Data Mining – Konsep dan Aplikasi
Menggunakan Matlab, Andi Offset, 2012
Tim Teaching
Ir.Iman Paryudi,Msc
Sri Rezeki Candra Nursari, Dra., M.Kom

DATA PREPROCESSING

Topik 04
Data selalu kotor
• Tidak komplet  tidak ada nilainya (null value)
– Contoh :
• Pekerjaan = “ ”
• Noisy  ada error atau outliers
– Contoh :
• Gaji = “-10”
• Tidak konsisten  ada perbedaan
– Contoh :
• Umur = “42”
• TglLahir = “03/07/1997”
• Tadinya kode ditulis “1,2,3”, berubah jadi “A, B, C”
• Kode_Pelanggan ada yang Kd_Pel
• Hal yang lumrah pada database yang sangat besar
Mengapa data kotor?
• Data tidak komplet karena:
– Data tidak tersedia saat pengumpulan data
• Responden tidak mau mengisi data atau tidak punya data
– Saat pengumpulan data dianggap tidak penting
– Masalah pada manusia atau alat
• Noise (data yang salah) karena:
– Kesalahan pada instrumen
– Kesalahan manusia atau komputer saat data entri
– Kesalahan saat transmisi data
• Data tidak konsisten karena:
– Sumbernya berbeda
Mengapa harus dilakukan
Preprocessing Data ?
• Teknik data preprocessing dapat
meningkatkan kualitas pola yang
dihasilkan dan/atau waktu yang
dibutuhkan untuk menambang
• Tidak ada data yang berkualitas dan
tidak ada hasil quality mining!
• Jadi data preprocessing harus dilakukan
sebelum melakukan penambangan
Tugas Utama Dalam Pengolahan Data
/Cara PreProcessing Data
1. Data cleaning (Pembersihan data)
– Mengisi data yang kosong
– Smooth noisy data (Supaya data lebih
bagus/smooth)
– Mengidentifikasi atau menghilangkan outliers
– Membetulkan ketidakkonsistenan
2. Data integration (Penggabungan data)
– Menggabungkan beberapa database atau file
– Bisa tidak konsisten: Kode_Pelanggan dan
Kd_Pel
– Redundant: umur dan tanggal lahir
Tugas Utama Dalam Pengolahan Data
/Cara PreProcessing Data
3. Data Transformation (Perubahan data)
– Normalization: nilai pada semua atribut dinormalisasi
– Aggregation: nilai total penjualan per kota bukan per
toko
4. Data reduction
– Mengurangi jumlah data tapi tetap mendapat hasil yang
sama
– Caranya:
1. Data aggregation : total penjumlahan
2. Attribut selection : membuang atribut yang tidak berguna
3. Data discretization : mengubah data continous menjadi
interval
mis: umur diubah jadi 10-15, 16-20, dsb.
Bentuk Preprocessing Data
1. Data Cleaning (Pembersihan Data)
• Mengapa data cleaning?
– “Data cleaning is the number one problem in
data warehousing”—DCI survey
• Tugas dalam Data cleaning
– Mengisi data yang kosong
– Mengidentifikasi outliers (pencilan) dan
kelancaran data yang noisy
– Membenarkan data yang tidak konsisten
– Menyelesaikan masalah redundancy yang
disebabkan oleh data integration
1. Data Cleaning
a. Missing Data (Tidak ada data)
• Data tidak selalu tersedia
– Data kosong (null value) terdapat pada beberapa
atribut
• Missing data karena
– Alatnya rusak
– Tidak konsisten dengan data lain sehingga
dihapus
– Data tidak dicatat karena salah paham
– Data tertentu tidak dianggap penting saat
pengumpulan data
• Missing data bisa diisi dengan nilai perkiraan
Bagaimana menangani Missing Data?
• Datanya dihapus:
– biasanya dilakukan jika label kelas kosong (pada metoda
klasifikasi)
– Jika banyak atribut yang datanya kosong
• Mengisi data secara manual:
– banyak makan waktu dan tidak layak kalau datanya sangat
banyak
• Mengisi secara otomatis dengan
– konstan global :
• mis. “tdk diketahui”  jadi kelas baru
– rata-rata atribut: misal rata-rata income 10 jt/bln
– rata-rata atribut tapi hanya untuk data yang termasuk pada
kelas yang sama
– nilai yang paling mungkin:
• diperkirakan menggunakan regresi atau decision tree
Bagaimana menangani Missing Data?

Berapa nilai pengganti untuk data kosong bila dihitung dengan:


a. Nilai rata-rata atribut?
b. Nilai rata-rata atribut dalam satu kelas?
1. Data Cleaning
b. Noisy Data
• Noise adalah error/data yang salah
• Kesalahan nilai atribut disebabkan karena:
– Alat rusak saat pengumpulan data
– Masalah saat data entry
– Masalah saat transmisi data
• Masalah lain yang membutuhkan data
cleaning
– data ganda
– data tidak komplet
– data tidak konsisten
Bagaimana menangani Noisy Data?
• 1.b.1. Binning
– melakukan smoothing pada data yang sudah berurutan
dengan cara melihat data disekitarnya (local smoothing)
– pertama urutkan data dan bagilah menjadi beberapa bin
dengan jumlah data yang sama (equal-frequency)
– Kemudian kita bisa melakukan smooth by bin means,
smooth by bin median, smooth by bin boundaries, dsb.
• 1.b.2. Regression
– smooth dengan cara menyesuaikan data dengan fungsi
regresi
• 1.b.3. Clustering
– mendeteksi dan membuang outliers
1.b.1. Binning Methods for Data Smoothing
• Data yang sudah diurutkan: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28,29, 34
* Pembagian bin dengan jumlah data yang sama (equal-frequency
(equi-depth)) :
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing menggunakan rata-rata bin (bin means):
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing menggunakan batas bin (bin boundaries):
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 21, 25
- Bin 3: 26, 26, 26, 34
1.b.1. Binning Methods for Data Smoothing

• Soal :
Data: 15, 27, 35, 22, 24, 13, 39, 32, 17,
30, 28, 8
– Lakukan pembagian bin
– Lakukan smoothing menggunakan:
a. Rata-rata bin (bin mean)
b. Batas bin (bin boundaries)
1.b.2. Regression/Regresi
1.b.2. Regresi

• Regresi : merupakan proses identifikasi relasi dan


berpengaruh terhadap nilai-nilai objek
• Regresi bertujuan untuk menemukan fungsi yang
memodelkan data dengan meminimalkan galat
atau selisih antara nilai prediksi dengan nilai
sebenarnya
• Regresi digunakan untuk :
– Prediksi / prediction
• Memperkirakan nilai-nilai data bertipe apa saja dan kapan saja
(masa lalu, sekarang atau masa depan)
– Peramalan / forecasting
• Memperkirakan nilai-nilai data time series di masa depan
1.b.2. Regresi

• Regresi : merupakan proses identifikasi relasi dan


berpengaruh terhadap nilai-nilai objek
• Regresi bertujuan untuk menemukan fungsi yang
memodelkan data dengan meminimalkan galat
atau selisih antara nilai prediksi dengan nilai
sebenarnya
• Regresi digunakan untuk :
– Prediksi / prediction
• Memperkirakan nilai-nilai data bertipe apa saja dan kapan saja
(masa lalu, sekarang atau masa depan)
– Peramalan / forecasting
• Memperkirakan nilai-nilai data time series di masa depan
1.b.2. Regresi
• Model Persamaan Regresi terdiri dari 2
macam yaitu :
– Regresi Linear Sederhana
• Tujuan :
– untuk mendapatkan hubungan matematis dalam
bentuk suatu persamaan antara variabel tak bebas
tunggal dengan variabel bebas tunggal
– Regresi Linear Berganda
• Tujuan :
– untuk mengukur intensitas hubungan antara dua
variabel atau lebih dan membuat prediksi perkiraan
nilai Y atas X
1.b.2. Regresi

1. Model Persamaan Regresi Linear Sederhana :


Y = a + bX
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent)
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent)
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor

Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :


a = (Σy) (Σx²) – (Σx) (Σxy)
n(Σx²) – (Σx)²
b = n(Σxy) – (Σx) (Σy)
n(Σx²) – (Σx)²
1.b.2. Regresi
• Tahapan melakukan analisa regresi linier sederhana
1. Tentukan Tujuan melakukan Analisis Regresi Linear
Sederhana
2. Identifikasi Variabel Faktor Penyebab (Predictor) dan
Variabel Akibat (Response)
3. Lakukan Pengumpulan Data
4. Hitung X², Y², XY dan total dari masing-masing
5. Hitung nilai (a) dan nilai (b)
6. Buatkan Model Persamaan Regresi Linear Sederhana.
Y=a+bX
7. Lakukan Prediksi atau Peramalan terhadap Variabel
Faktor Penyebab atau Variabel Akibat.
1.b.2. Regresi
• Soal :
– Seorang dokter mempelajari hubungan antara NOSP
dan FSI, sehingga dapat memprediksi atau meramalkan
FSI jika NOSP tidak terkendali. Dokter mengambil data
sembilan pasien
• Jawab :
1. Menentukan Tujuan melakukan Analisis Regresi Linear
Sederhana
– Memprediksi FSI jika NOSP tidak terkendali
2. Identifikasi Variabel Faktor Penyebab (Predictor) dan
Variabel Akibat (Response)
– Varibel Faktor Penyebab (X) : NOSP
Variabel Akibat (Y) : FSI
1.b.2. Regresi
• Jawab- cont :
3. Melakukan Pengumpulan Data
Umur NOSP FSI
Umur Y X
18 4 15
18 4 15
15 1 14
15 1 14
34 1
52 5 16
52 5 16
46 3 21
46 3 21
Abaikan atribut 42 3 23
42 3 23 kosong
51 3 17
51 3 17
26 1 26
26 1 26
45 1 20
45 1 20
44 3 15
44 3 15
1.b.2. Regresi

• Tahapan melakukan analisa regresi linier sederhana


berikutnya
4. Hitung X², Y², XY dan total dari masing-masing
5. Hitung nilai (a) dan nilai (b)
6. Buatkan Model Persamaan Regresi Linear Sederhana.
Y=a+bX
7. Lakukan Prediksi atau Peramalan terhadap Variabel
Faktor Penyebab atau Variabel Akibat.
1.b.2. Regresi

2. Model Persamaan Regresi Linear Berganda :


Y’ = a + b1X1 + b2X2
Dimana :
Y = Variabel Response atau Variabel Akibat (Dependent) atau variabel Tak Bebas
X = Variabel Predictor atau Variabel Faktor Penyebab (Independent) /Variabel Bebas
a = konstanta
b = koefisien regresi (kemiringan); besaran Response yang ditimbulkan oleh Predictor

Nilai-nilai a dan b dapat dihitung dengan menggunakan Rumus dibawah ini :


1.b.2. Regresi
• Tahapan melakukan analisa regresi linier berganda
1. Tentukan Tujuan melakukan Analisis Regresi Linear Berganda
2. Identifikasi Variabel Faktor Penyebab (Predictor)/variabel bebas
dan Variabel Akibat (Response)/variabel tidak bebas
3. Lakukan Pengumpulan Data
4. Menentukan nilai konstanta dan koefisien regresi (X1², X2², Y²,
X1X2, X1Y, X2Y dan total dari masing-masing)
5. Hitung nilai (a) dan nilai (b1 dan b2)
6. Buatkan Model Persamaan Regresi Linear berganda. Y’=a+b1X1+
b 2X 2
7. Lakukan Prediksi atau Peramalan terhadap Variabel Faktor
Penyebab atau Variabel Akibat.
1.b.2. Regresi
• Soal :
– Permintaan suatu produk ditentukan oleh harga barang dan
pendapatan seseorang. Hasil pengamatan terhadap 12 sampel
atas permintaan suatu barang dalam hal ini beras diperoleh data
harga beras dan pendapatan konsumen
• Jawab :
1. Menentukan Tujuan melakukan Analisis Regresi Linear
Berganda
– Memprediksi Permintaan beras berdasarkan harga beras
dan pendapatan konsumen
2. Identifikasi Variabel Faktor Penyebab (Predictor) dan
Variabel Akibat (Response)
– Var. Faktor Penyebab (X):Hrg beras,pendapatan,konsumen
Variabel Akibat (Y) : Permintaan Beras
1.b.2. Regresi
• Jawab- cont : Konsumen Y X1 X2
3. Melakukan 1 4 5 100
Pengumpulan Data 2 10 24 125
(dalam satuan ribuan) 3 5 6 100
4 3 1 75
5 3 3 85
6 3 7 90
7 10 16 120
8 10 18 120
9 3 5 90
10 8 9 115
11 9 12 115
12 6 5 105
1.b.2. Regresi

• Tahapan melakukan analisa regresi linier sederhana


berikutnya
4. Menentukan nilai konstanta dan koefisien regresi (X1²,
X2², Y², X1X2, X1Y, X2Y dan total dari masing-masing)
5. Hitung nilai (a) dan nilai (b1 dan b2)
6. Buatkan Model Persamaan Regresi Linear Berganda.
Y’=a+ b1X1 + b2X2
7. Lakukan Prediksi atau Peramalan terhadap Variabel
Faktor Penyebab atau Variabel Akibat.
1.b.3. Cluster Analysis  next dicussion

Anda mungkin juga menyukai