DM - P5 - Preprocessing Data (Lanjutan)

FAKULTAS TEKNOLOGI INFORMASI
PENAMBANGAN DATA
[ KP368 / 3 SKS ]
FAKULTAS
TEKNOLOGI INFORMASI
Pertemuan 4
DATA PRE-PROCESSING - LANJUTAN
FAKULTAS
TEKNOLOGI INFORMASI
Tujuan Pembelajaran
Mahasiswa mampu memahami berbagai bentuk
data dan proses mempersiapkan data (data
preprocessing)
FAKULTAS
TEKNOLOGI INFORMASI
Topik Pembahasan
3.1 Data
3.2 Data Preprocessing
3.3 Data Cleaning
3.4 Data Reduction
3.5 Data Transformation and Data Discretization
3.6 Data Integration
FAKULTAS
TEKNOLOGI INFORMASI
3.4 DATA REDUCTION

FAKULTAS
TEKNOLOGI INFORMASI
Data Reduction Strategies

Data Reduction
 Dapatkan representasi tereduksi dari kumpulan data yang volumenya jauh lebih kecil
tetapi menghasilkan hasil analitik yang sama.
 Merupakan Konversi semua informasi dalam dataset ke dalam dimensi yang lebih
sedikit untuk tujuan tertentu, seperti, ukuran tunggal intuk mengukur kehandalan.
Why Data Reduction?
 Database/data warehouse dapat menyimpan terabyte data
 Analisis data yang kompleks membutuhkan waktu yang sangat lama untuk dijalankan
pada kumpulan data yang lengkap
FAKULTAS
TEKNOLOGI INFORMASI
Data Reduction Strategies

 Data Reduction Strategies
1. Dimensionality reduction
 Feature Selection  Membuang feature-feature yang ada hubungan, dan feature-feature yg
redundant
 Feature Extraction  Membuat features baru agar model machine learning dapat bekerja
lebih akurat
 Transformation  Mengubah fitur ke dalam bentuk yang lebih mudah dipakai oleh
algoritma/model
 Dimensionality Reduction  Mengurangi dimensi fitur.
2. Numerosity reduction (Data Reduction)
 Regression and Log-Linear Models
 Histograms, clustering, sampling
 Model Regresi dan Log-Linear
 Histogram, pengelompokan, pengambilan sampel
FAKULTAS
TEKNOLOGI INFORMASI
1. Dimensionality Reduction
Curse of dimensionality (fenomena ukuran data)
Ketika dimensi meningkat, data menjadi semakin jarang
Kepadatan dan jarak antar titik, yang sangat penting untuk
pengelompokan, analisis outlier, menjadi kurang bermakna
Kemungkinan kombinasi subruang akan tumbuh secara eksponensial
Dimensionality reduction
Hindari peningkatan dimensi
Membantu menghilangkan fitur yang tidak relevan dan mengurangi
kebisingan
Kurangi waktu dan ruang yang dibutuhkan dalam penambangan data
Izinkan visualisasi yang lebih mudah
FAKULTAS
TEKNOLOGI INFORMASI
1. Dimensionality Reduction
 Feature Extraction (mendapatkan atribut baru)
1. Wavelet transforms 
2. Principal Component Analysis (PCA)  adalah teknik yang digunakan untuk
menyederhanakan suatu data, dengan cara mentransformasi data secara linier
sehingga terbentuk sistem koordinat baru dengan varians maksimum.
 Feature Selection (dipilih)
1. Filter  Metode filter melakukan proses seleksi fitur terlebih dahulu kemudian
melakukan algoritma learningnya. Pemilihan fitur tidak bergantung pada algoritme
pembelajaran mesin apa pun. Sebaliknya, fitur dipilih berdasarkan skornya dalam
berbagai uji statistik untuk korelasinya dengan variabel hasil.
2. Wrapper  melakukan seleksi fitur dengan menggunakan kinerja dari algoritma
learning. Proses seleksi dilakukan saat awal algorima learning jalan.
3. Embedded  seleksi atribut sudah ada dalam algoritma learning (cont. Decision
Tree)
FAKULTAS
TEKNOLOGI INFORMASI
Principal Component Analysis (Steps)

 Given N data vectors from n-dimensions, find k ≤ n
orthogonal vectors (principal components) that can be
best used to represent data
1. Menormalkan data input: Setiap atribut berada dalam rentang yang sama
2. Hitung k vektor ortonormal (satuan), yaitu, komponen utama
3. Setiap data masukan (vektor) merupakan kombinasi linier dari k vektor komponen
utama
4. Komponen utama diurutkan berdasarkan penurunan "signifikansi" atau kekuatan
5. Karena komponen diurutkan, ukuran data dapat dikurangi dengan menghilangkan
komponen yang lemah, yaitu komponen dengan varians rendah.
 Works for numeric data only
FAKULTAS
TEKNOLOGI INFORMASI
Principal Componen Analysis

FAKULTAS
TEKNOLOGI INFORMASI
Feature/Attribute Selection
Cara lain untuk mengurangi dimensi data
Redundant attributes
Banyaknya kerangkapan atau semua informasi yang terkandung
dalam satu atau lebih atribut lainnya
Misalnya, harga pembelian suatu produk dan jumlah pajak
penjualan yang dibayarkan
Irrelevant attributes
Tidak mengandung informasi yang berguna untuk tugas
penambangan data yang ada
Misalnya, ID siswa sering tidak relevan dengan tugas memprediksi
IPK siswa
FAKULTAS
TEKNOLOGI INFORMASI
Feature Selection Approach

Sejumlah pendekatan yang diusulkan untuk
pemilihan fitur secara luas dapat dikategorikan ke
dalam tiga klasifikasi berikut: wrapper, filter, and
hybrid (Liu & Tu, 2004)
1. Dalam pendekatan filter, analisis statistik dari kumpulan fitur
diperlukan, tanpa menggunakan model pembelajaran apa pun (Dash
& Liu, 1997)
2. Dalam pendekatan wrapper, model pembelajaran yang telah
ditentukan diasumsikan, di mana fitur dipilih yang membenarkan
kinerja pembelajaran dari model pembelajaran tertentu (Guyon &
Elisseeff, 2003)
3. Pendekatan hybrid mencoba memanfaatkan kekuatan komplementer
dari pendekatan wrapper dan filter (Huang, Cai, & Xu, 2007)
FAKULTAS
TEKNOLOGI INFORMASI
Wrapper Approach vs Filter Approach

FAKULTAS
TEKNOLOGI INFORMASI
Feature Selection Approach

1. Filter Approach:
 information gain
 chi square
 log likehood ratio
2. Wrapper Approach:
 forward selection
 backward elimination
 randomized hill climbing
3. Embedded Approach:
 decision tree
 weighted naïve bayes
FAKULTAS
TEKNOLOGI INFORMASI
2. Numerosity Reduction
Reduce data volume by choosing alternative, smaller forms of
data representation
1. Parametric methods (e.g., regression)

Asumsikan data cocok dengan beberapa model, perkirakan parameter
model, simpan hanya parameter, dan buang data (kecuali
kemungkinan outlier)
Contoh: Model log-linier—mendapatkan nilai pada suatu titik dalam
ruang m-D sebagai produk pada subruang marginal yang sesuai
2. Non-parametric methods
Jangan berasumsi model
kelompok utama: histogram, pengelompokan, pengambilan sampel, ...
FAKULTAS
TEKNOLOGI INFORMASI
Parametric Data Reduction: Regression and Log-Linear Models

 Linear regression
Variabel dependen Y dimodelkan (ditentukan) satu variabel
independen X.
Data dimodelkan agar sesuai dengan garis lurus
Sering menggunakan metode kuadrat terkecil agar sesuai dengan
garis
 Multiple regression
Variabel dependen Y dimodelkan oleh satu set variabel
independen (X1, X2, .... Xn).
 Log-linear model
Perkiraan distribusi probabilitas multidimensi diskrit
Digunakan untuk menganalisa hubungan antar variabel-variabel
kategori
FAKULTAS
TEKNOLOGI INFORMASI
Regression Analysis
 Regression analysis: Nama kolektif untuk
teknik pemodelan dan analisis data numerik
yang terdiri dari nilai variabel dependen (juga
disebut variabel respons atau pengukuran)
dan satu atau lebih variabel independen (alias Y1
variabel penjelas atau prediktor)
 Digunakan untuk prediksi (termasuk Y1’
y=x+1
peramalan data deret waktu), inferensi,
pengujian hipotesis, dan pemodelan
hubungan sebab akibat x
X1
FAKULTAS
TEKNOLOGI INFORMASI
Regress Analysis and Log-Linear Models

 Linear regression: Y = w X + b
 Dua koefisien regresi, w dan b, menentukan garis dan akan diestimasi dengan
menggunakan data yang ada
 Menggunakan kriteria kuadrat terkecil untuk nilai yang diketahui dari Y1, Y2, …, X1, X2,
….
 Multiple regression: Y = b0 + b1 X1 + b2 X2
 Banyak fungsi nonlinier dapat diubah menjadi di atas
 Log-linear models:
 Perkiraan distribusi probabilitas multidimensi diskrit
 Perkirakan probabilitas setiap titik (tupel) dalam ruang multidimensi untuk sekumpulan
atribut yang didiskritisasi, berdasarkan subset kombinasi dimensi yang lebih kecil
 Berguna untuk pengurangan dimensi dan pemulusan data
FAKULTAS
TEKNOLOGI INFORMASI
Histogram Analysis
Bagi data ke dalam 40
keranjang dan simpan rata- 35

30
rata (jumlah) untuk setiap 25
keranjang 20
15
Partitioning rules (aturan 10

5
partisi): 0
10000 30000 50000 70000 90000
Equal-width: kisaran kerancang

yang sama
Equal-frequency (sama atau
lebih delam)
FAKULTAS
TEKNOLOGI INFORMASI
Clustering
Mempartisi kumpulan data ke dalam klaster berdasarkan
kesamaan, dan menyimpan representasi klaster (mis., centroid dan
diameter) saja
Bisa sangat efektif jika data dikelompokkan"
Dapat memiliki pengelompokan hierarkis dan disimpan dalam
struktur pohon indeks multi-dimensi
Ada banyak pilihan definisi clustering dan algoritma clustering
FAKULTAS
TEKNOLOGI INFORMASI
Sampling
Sampling: memperoleh sampel kecil s untuk
mewakili seluruh kumpulan data N
Key principle: Pilih subset representatif dari data
 Pengambilan sampel acak sederhana mungkin memiliki kinerja yang sangat buruk
dengan adanya kemiringan
 Kembangkan metode pengambilan sampel adaptif, misalnya, pengambilan sampel
bertingkat
Catatan: Pengambilan sampel mungkin tidak
mengurangi I/O basis data (halaman demi halaman)
FAKULTAS
TEKNOLOGI INFORMASI
Types of Sampling
 Simple random sampling
Ada kemungkinan yang sama untuk memilih item tertentu
 Sampling without replacement
Setelah objek dipilih, objek tersebut akan dihapus dari populasi
 Sampling with replacement
Objek yang dipilih tidak dihapus dari populasi
 Stratified sampling
Partisi kumpulan data, dan ambil sampel dari setiap partisi (secara
proporsional, yaitu, persentase data yang kira-kira sama)
Digunakan bersama dengan data miring
FAKULTAS
TEKNOLOGI INFORMASI
Sampling: With or without Replacement
Raw Data
FAKULTAS
TEKNOLOGI INFORMASI
Sampling: Cluster or Stratified Sampling
Raw Data Cluster/Stratified Sample

FAKULTAS
TEKNOLOGI INFORMASI
Stratified Sampling
 Stratifikasi adalah proses membagi anggota populasi menjadi
subkelompok yang homogen sebelum pengambilan sampel
 Misalkan di sebuah perusahaan ada staf berikut:
 Male, full-time: 90
 Male, part-time: 18
 Female, full-time: 9
 Female, part-time: 63
 Total: 180
 Kami diminta untuk mengambil sampel 40 staf, dikelompokkan
sesuai dengan kategori di atas
 Cara mudah untuk menghitung persentase adalah dengan
mengalikan setiap ukuran kelompok dengan ukuran sampel dan
membaginya dengan total populasi:
 Male, full-time = 90 × (40 ÷ 180) = 20
 Male, part-time = 18 × (40 ÷ 180) = 4
 Female, full-time = 9 × (40 ÷ 180) = 2
 Female, part-time = 63 × (40 ÷ 180) = 14
FAKULTAS
TEKNOLOGI INFORMASI
3.5 DATA TRANSFORMATION AND

DATA DISCRETIZATION
FAKULTAS
TEKNOLOGI INFORMASI
Data Transformation
 Fungsi yang memetakan seluruh rangkaian nilai dari atribut yang
diberikan ke rangkaian nilai pengganti yang baru
 Setiap nilai lama dapat diidentifikasi dengan salah satu nilai baru
 Methods:
 Smoothing: Remove noise from data
 Attribute/feature construction
Atribut baru dibangun dari yang diberikan
 Aggregation: Summarization, data cube construction
 Normalization: Diskalakan agar berada dalam rentang yang lebih kecil dan ditentukan
 min-max normalization
z-score normalization
normalization by decimal scaling
 Discretization: Concept hierarchy climbing
FAKULTAS
TEKNOLOGI INFORMASI
Normalization
 Min-max normalization: to [new_minA, new_maxA]
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA
 Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,000 is
mapped to 73,600  12,000 (1.0  0)  0  0.716
98,000  12,000
 Z-score normalization (μ: mean, σ: standard deviation):
v  A
v' 
 A
73,600  54,000
 Ex. Let μ = 54,000, σ = 16,000. Then  1.225
16,000
 Normalization by decimal scaling
v
v' j Where j is the smallest integer such that Max(|ν’|) < 1
10
FAKULTAS
TEKNOLOGI INFORMASI
Discretization
 Three types of attributes
 Nominal —nilai-nilai dari set yang tidak berurutan, misalnya, warna, profesi
 Ordinal —nilai-nilai dari himpunan terurut, misalnya pangkat militer atau akademik
 Numeric —bilangan real, misalnya bilangan bulat atau bilangan real
 Diskritisasi: Bagilah rentang atribut kontinu ke dalam
interval
 Label interval kemudian dapat digunakan untuk menggantikan nilai data aktual
 Kurangi ukuran data dengan diskritisasi
 Diawasi vs. tidak diawasi
 Pisahkan (atas-bawah) vs. gabungkan (bawah-atas)
 Diskritisasi dapat dilakukan secara rekursif pada sebuah atribut
 Siapkan untuk analisis lebih lanjut, misalnya, klasifikasi
FAKULTAS
TEKNOLOGI INFORMASI
Data Discretization Methods

Typical methods: All the methods can be
applied recursively
Binning: Top-down split, unsupervised
Histogram analysis: Top-down split, unsupervised
Clustering analysis: Unsupervised, top-down split or bottom-up merge
Decision-tree analysis: Supervised, top-down split
Correlation (e.g., 2) analysis: Unsupervised, bottom-up merge
FAKULTAS
TEKNOLOGI INFORMASI
Simple Discretization: Binning

Equal-width (distance) partitioning
Membagi rentang menjadi N interval dengan ukuran yang sama: grid
seragam
jika A dan B adalah nilai atribut terendah dan tertinggi, lebar intervalnya
adalah: W = (B –A)/N.
Yang paling mudah, tetapi outlier dapat mendominasi presentasi
Data miring tidak ditangani dengan baikl
Equal-depth (frequency) partitioning
Membagi rentang menjadi N interval, masing-masing berisi jumlah sampel
yang kira-kira sama
Penskalaan data yang bagus
Mengelola atribut kategoris bisa jadi rumit
FAKULTAS
TEKNOLOGI INFORMASI
Binning Methods for Data Smoothing

Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25,
26, 28, 29, 34
 Partition into equal-frequency (equi-depth) bins:

 Bin 1: 4, 8, 9, 15
 Bin 2: 21, 21, 24, 25
 Bin 3: 26, 28, 29, 34
 Smoothing by bin means:
 Bin 1: 9, 9, 9, 9
 Bin 2: 23, 23, 23, 23
 Bin 3: 29, 29, 29, 29
 Smoothing by bin boundaries:
 Bin 1: 4, 4, 4, 15
 Bin 2: 21, 21, 25, 25
 Bin 3: 26, 26, 26, 34
FAKULTAS
TEKNOLOGI INFORMASI
Discretization Without Using Class Labels (Binning vs. Clustering)
Data Equal interval width (binning)
Equal frequency (binning) K-means clustering leads to better results

FAKULTAS
TEKNOLOGI INFORMASI
Discretization by Classification & Correlation Analysis

Classification (e.g., decision tree analysis)
 Supervised: Given class labels, e.g., cancerous vs. benign
 Using entropy to determine split point (discretization point)
 Top-down, recursive split
Correlation analysis (e.g., Chi-merge: χ2-based
discretization)
 Supervised: use class information
 Bottom-up merge: find the best neighboring intervals (those having similar
distributions of classes, i.e., low χ2 values) to merge
 Merge performed recursively, until a predefined stopping condition
FAKULTAS
TEKNOLOGI INFORMASI
3.6 DATA INTEGRATION

FAKULTAS
TEKNOLOGI INFORMASI
Data Integration
 Data integration:
 Menggabungkan data dari berbagai sumber ke dalam penyimpanan yang
koheren
 Schema Integration: e.g., A.cust-id  B.cust-#
 Integrasikan metadata dari berbagai sumber
 Entity Identification Problem:
 Identifikasi entitas nyata dari berbagai sumber data, misalnya, Bill Clinton =
William Clinton
 Detecting and Resolving Data Value Conflicts
 Untuk entitas nyata yang sama, nilai atribut dari sumber yang berbeda berbeda
 Kemungkinan alasan: representasi berbeda, skala berbeda, mis., metrik vs.
satuan Inggris
FAKULTAS
TEKNOLOGI INFORMASI
Penanganan Redundancy pada Data Integration

Data yang berlebihan sering terjadi ketika integrasi
beberapa database
Identifikasi objek: Atribut atau objek yang sama mungkin memiliki nama
yang berbeda di database yang berbeda
Data turunan: Satu atribut mungkin merupakan atribut "turunan" di tabel
lain, mis., pendapatan tahunan
Atribut redundan mungkin dapat dideteksi dengan
analisis korelasi dan analisis kovarians
Integrasi data yang cermat dari berbagai sumber
dapat membantu mengurangi/menghindari
redundansi dan inkonsistensi serta meningkatkan
kecepatan dan kualitas penambangan
FAKULTAS
TEKNOLOGI INFORMASI
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine
Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use
Cases and Business Analytics Applications, CRC Press Taylor & Francis
Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to
Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press,
2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques,
Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery
Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in
Data Mining of Enterprise Data: Algorithms and Applications, World
Scientific, 2007
FAKULTAS
TEKNOLOGI INFORMASI
Kesimpulan
1. Data reduction
Dimensionality reduction
Numerosity reduction
2. Data transformation and data discretization
Normalization
3. Data integration from multiple sources:
Entity identification problem
Remove redundancies
Detect inconsistencies
FAKULTAS
TEKNOLOGI INFORMASI
KESIMPULAN
SELESAI

DM - P5 - Preprocessing Data (Lanjutan)

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

DM - P5 - Preprocessing Data (Lanjutan)

Diunggah oleh

Hak Cipta:

Format Tersedia

FAKULTAS TEKNOLOGI INFORMASI

3.4 DATA REDUCTION

Data Reduction Strategies

Data Reduction Strategies

Principal Component Analysis (Steps)

Principal Componen Analysis

Feature Selection Approach

Wrapper Approach vs Filter Approach

Feature Selection Approach

1. Parametric methods (e.g., regression)

Parametric Data Reduction: Regression and Log-Linear Models

Regress Analysis and Log-Linear Models

keranjang dan simpan rata- 35

rata (jumlah) untuk setiap 25

Partitioning rules (aturan 10

Equal-width: kisaran kerancang

Sampling: With or without Replacement

Sampling: Cluster or Stratified Sampling

Raw Data Cluster/Stratified Sample

3.5 DATA TRANSFORMATION AND

Data Discretization Methods

Simple Discretization: Binning

Binning Methods for Data Smoothing

 Partition into equal-frequency (equi-depth) bins:

Discretization Without Using Class Labels (Binning vs. Clustering)

Data Equal interval width (binning)

Equal frequency (binning) K-means clustering leads to better results

Discretization by Classification & Correlation Analysis

3.6 DATA INTEGRATION

Penanganan Redundancy pada Data Integration

Anda mungkin juga menyukai