PENAMBANGAN DATA
[ KP368 / 3 SKS ]
FAKULTAS
TEKNOLOGI INFORMASI
Pertemuan 4
DATA PRE-PROCESSING - LANJUTAN
FAKULTAS
TEKNOLOGI INFORMASI
Tujuan Pembelajaran
Mahasiswa mampu memahami berbagai bentuk
data dan proses mempersiapkan data (data
preprocessing)
FAKULTAS
TEKNOLOGI INFORMASI
Topik Pembahasan
3.1 Data
3.2 Data Preprocessing
3.3 Data Cleaning
3.4 Data Reduction
3.5 Data Transformation and Data Discretization
3.6 Data Integration
FAKULTAS
TEKNOLOGI INFORMASI
1. Dimensionality Reduction
Curse of dimensionality (fenomena ukuran data)
Ketika dimensi meningkat, data menjadi semakin jarang
Kepadatan dan jarak antar titik, yang sangat penting untuk
pengelompokan, analisis outlier, menjadi kurang bermakna
Kemungkinan kombinasi subruang akan tumbuh secara eksponensial
Dimensionality reduction
Hindari peningkatan dimensi
Membantu menghilangkan fitur yang tidak relevan dan mengurangi
kebisingan
Kurangi waktu dan ruang yang dibutuhkan dalam penambangan data
Izinkan visualisasi yang lebih mudah
FAKULTAS
TEKNOLOGI INFORMASI
1. Dimensionality Reduction
Feature Extraction (mendapatkan atribut baru)
1. Wavelet transforms
2. Principal Component Analysis (PCA) adalah teknik yang digunakan untuk
menyederhanakan suatu data, dengan cara mentransformasi data secara linier
sehingga terbentuk sistem koordinat baru dengan varians maksimum.
Feature Selection (dipilih)
1. Filter Metode filter melakukan proses seleksi fitur terlebih dahulu kemudian
melakukan algoritma learningnya. Pemilihan fitur tidak bergantung pada algoritme
pembelajaran mesin apa pun. Sebaliknya, fitur dipilih berdasarkan skornya dalam
berbagai uji statistik untuk korelasinya dengan variabel hasil.
2. Wrapper melakukan seleksi fitur dengan menggunakan kinerja dari algoritma
learning. Proses seleksi dilakukan saat awal algorima learning jalan.
3. Embedded seleksi atribut sudah ada dalam algoritma learning (cont. Decision
Tree)
FAKULTAS
TEKNOLOGI INFORMASI
Feature/Attribute Selection
Cara lain untuk mengurangi dimensi data
Redundant attributes
Banyaknya kerangkapan atau semua informasi yang terkandung
dalam satu atau lebih atribut lainnya
Misalnya, harga pembelian suatu produk dan jumlah pajak
penjualan yang dibayarkan
Irrelevant attributes
Tidak mengandung informasi yang berguna untuk tugas
penambangan data yang ada
Misalnya, ID siswa sering tidak relevan dengan tugas memprediksi
IPK siswa
FAKULTAS
TEKNOLOGI INFORMASI
2. Wrapper Approach:
forward selection
backward elimination
randomized hill climbing
3. Embedded Approach:
decision tree
weighted naïve bayes
FAKULTAS
TEKNOLOGI INFORMASI
2. Numerosity Reduction
Reduce data volume by choosing alternative, smaller forms of
data representation
Regression Analysis
Regression analysis: Nama kolektif untuk
teknik pemodelan dan analisis data numerik
yang terdiri dari nilai variabel dependen (juga
disebut variabel respons atau pengukuran)
dan satu atau lebih variabel independen (alias Y1
variabel penjelas atau prediktor)
Digunakan untuk prediksi (termasuk Y1’
y=x+1
peramalan data deret waktu), inferensi,
pengujian hipotesis, dan pemodelan
hubungan sebab akibat x
X1
FAKULTAS
TEKNOLOGI INFORMASI
Histogram Analysis
Bagi data ke dalam 40
keranjang 20
15
Clustering
Mempartisi kumpulan data ke dalam klaster berdasarkan
kesamaan, dan menyimpan representasi klaster (mis., centroid dan
diameter) saja
Bisa sangat efektif jika data dikelompokkan"
Dapat memiliki pengelompokan hierarkis dan disimpan dalam
struktur pohon indeks multi-dimensi
Ada banyak pilihan definisi clustering dan algoritma clustering
FAKULTAS
TEKNOLOGI INFORMASI
Sampling
Sampling: memperoleh sampel kecil s untuk
mewakili seluruh kumpulan data N
Key principle: Pilih subset representatif dari data
Pengambilan sampel acak sederhana mungkin memiliki kinerja yang sangat buruk
dengan adanya kemiringan
Kembangkan metode pengambilan sampel adaptif, misalnya, pengambilan sampel
bertingkat
Catatan: Pengambilan sampel mungkin tidak
mengurangi I/O basis data (halaman demi halaman)
FAKULTAS
TEKNOLOGI INFORMASI
Types of Sampling
Simple random sampling
Ada kemungkinan yang sama untuk memilih item tertentu
Sampling without replacement
Setelah objek dipilih, objek tersebut akan dihapus dari populasi
Sampling with replacement
Objek yang dipilih tidak dihapus dari populasi
Stratified sampling
Partisi kumpulan data, dan ambil sampel dari setiap partisi (secara
proporsional, yaitu, persentase data yang kira-kira sama)
Digunakan bersama dengan data miring
FAKULTAS
TEKNOLOGI INFORMASI
Raw Data
FAKULTAS
TEKNOLOGI INFORMASI
Stratified Sampling
Stratifikasi adalah proses membagi anggota populasi menjadi
subkelompok yang homogen sebelum pengambilan sampel
Misalkan di sebuah perusahaan ada staf berikut:
Male, full-time: 90
Male, part-time: 18
Female, full-time: 9
Female, part-time: 63
Total: 180
Kami diminta untuk mengambil sampel 40 staf, dikelompokkan
sesuai dengan kategori di atas
Cara mudah untuk menghitung persentase adalah dengan
mengalikan setiap ukuran kelompok dengan ukuran sampel dan
membaginya dengan total populasi:
Male, full-time = 90 × (40 ÷ 180) = 20
Male, part-time = 18 × (40 ÷ 180) = 4
Female, full-time = 9 × (40 ÷ 180) = 2
Female, part-time = 63 × (40 ÷ 180) = 14
FAKULTAS
TEKNOLOGI INFORMASI
Data Transformation
Fungsi yang memetakan seluruh rangkaian nilai dari atribut yang
diberikan ke rangkaian nilai pengganti yang baru
Setiap nilai lama dapat diidentifikasi dengan salah satu nilai baru
Methods:
Smoothing: Remove noise from data
Attribute/feature construction
Atribut baru dibangun dari yang diberikan
Aggregation: Summarization, data cube construction
Normalization: Diskalakan agar berada dalam rentang yang lebih kecil dan ditentukan
min-max normalization
z-score normalization
normalization by decimal scaling
Discretization: Concept hierarchy climbing
FAKULTAS
TEKNOLOGI INFORMASI
Normalization
Min-max normalization: to [new_minA, new_maxA]
v minA
v' (new _ maxA new _ minA) new _ minA
maxA minA
Ex. Let income range $12,000 to $98,000 normalized to [0.0, 1.0]. Then $73,000 is
mapped to 73,600 12,000 (1.0 0) 0 0.716
98,000 12,000
Z-score normalization (μ: mean, σ: standard deviation):
v A
v'
A
73,600 54,000
Ex. Let μ = 54,000, σ = 16,000. Then 1.225
16,000
Normalization by decimal scaling
v
v' j Where j is the smallest integer such that Max(|ν’|) < 1
10
FAKULTAS
TEKNOLOGI INFORMASI
Discretization
Three types of attributes
Nominal —nilai-nilai dari set yang tidak berurutan, misalnya, warna, profesi
Ordinal —nilai-nilai dari himpunan terurut, misalnya pangkat militer atau akademik
Numeric —bilangan real, misalnya bilangan bulat atau bilangan real
Diskritisasi: Bagilah rentang atribut kontinu ke dalam
interval
Label interval kemudian dapat digunakan untuk menggantikan nilai data aktual
Kurangi ukuran data dengan diskritisasi
Diawasi vs. tidak diawasi
Pisahkan (atas-bawah) vs. gabungkan (bawah-atas)
Diskritisasi dapat dilakukan secara rekursif pada sebuah atribut
Siapkan untuk analisis lebih lanjut, misalnya, klasifikasi
FAKULTAS
TEKNOLOGI INFORMASI
Data Integration
Data integration:
Menggabungkan data dari berbagai sumber ke dalam penyimpanan yang
koheren
Schema Integration: e.g., A.cust-id B.cust-#
Integrasikan metadata dari berbagai sumber
Entity Identification Problem:
Identifikasi entitas nyata dari berbagai sumber data, misalnya, Bill Clinton =
William Clinton
Detecting and Resolving Data Value Conflicts
Untuk entitas nyata yang sama, nilai atribut dari sumber yang berbeda berbeda
Kemungkinan alasan: representasi berbeda, skala berbeda, mis., metrik vs.
satuan Inggris
FAKULTAS
TEKNOLOGI INFORMASI
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and
Techniques Third Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine
Learning Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use
Cases and Business Analytics Applications, CRC Press Taylor & Francis
Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to
Data Mining, John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press,
2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques,
Springer, 2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery
Handbook Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in
Data Mining of Enterprise Data: Algorithms and Applications, World
Scientific, 2007
FAKULTAS
TEKNOLOGI INFORMASI
Kesimpulan
1. Data reduction
Dimensionality reduction
Numerosity reduction
2. Data transformation and data discretization
Normalization
3. Data integration from multiple sources:
Entity identification problem
Remove redundancies
Detect inconsistencies
FAKULTAS
TEKNOLOGI INFORMASI
KESIMPULAN
SELESAI