DATA PREPROCESSING
KONSEP PEMBELAJARAN DATA MINING
Pertemuan 8
susandian@binadarma.ac.id
BAHAN KAJIAN
KONSEP DATA PREPROCESSING
TAHAP PREPROCESSING
TEKNIK PREPROCESSING
APA ITU PEPROCESSING
DALAM DATA MINING?
Data preprocessing ini digunakan karena dalam data realtime database
seringkali tidak lengkap dan tidak konsisten sehingga mengakibatkan hasil
data mining tidak tepat dan kurang akurat. Oleh karena itu, untuk
meningkatkan kualitas data yang akan dianalisis, perlu dilakukan langkah-
langkah preprocessing data
Preprocessing data merupakan teknik awal data mining untuk mengubah
data mentah atau biasa dikenal dengan raw data yang dikumpulkan dari
berbagai sumber menjadi informasi yang lebih bersih dan bisa digunakan
untuk pengolahan selanjutnya
MENGAPA PERLU DATA PREPROCESSING
Tidak komplit
• Berisi data yang hilang/kosong
• Kekurangan atribut yang sesuai Data mentah yang ada sebagian besar kotor
• Hanya berisi data aggregate
Data yang tidak berkualitas, akan
menghasilkan kualitas mining yang tidak
baik pula.
Tidak konsisten Banyak “noise”
• Berisi nilai yang • Berisi data yang
berbeda dalam suatu Outlier
kode atau nama • Berisi error
KRITERIA KUALITAS DATA
Accuracy and Precision Legitimacy and Validity
Menurut Mark Mosley (2008), dalam bukunya
Reliability dan consistency “Dictionary of Data Management”, pengertian
Kualitas data adalah level data yang menyatakan
data tersebut akurat (accurate), lengkap
Timeliness and Relevance
(complete), timely (update),
konsisten(consistent) sesuai dengan semua
Completeness and kebutuhan peraturan bisnis dan relevan.
Comprehensiveness
Availability and Accessibility
Granularity and Uniqueness.
TEKNIK DATA PREPROCESSING
Data Cleaning Data integration Data Reduction Data Transformation
Memperkecil noise Analisis korelasi Data Cube Aggregation, Smoothing
Membetulkan data yang Atribut redudan Attribute Subset Selection, Attribute (feature)
tidak konsisten duplikasi Numerosity Reduction, construction
Mengisi missing value Dimensionality Reduction. Aggregation
Mengidentifikasi atau Normalization
membuang outlier Discretization
DATA CLEANING – MISSING VALUES
Mengabaikan record
Mengisikan secara manual
Menggunakan mean/median dari atribut yang
mengandung missing value
Menggunakan nilai global
Menggunakan nilai termungkin
DATA CLEANING: MISSING VALUES
Contoh untuk missing value IPK diisi
dengan rata- rata IPK atau diisi dengan
Angkatan IPK Pekerjaan Jenis
nilai IPK yang paling mungkin untuk Kelamin
angkatan 2012 dan Perempuan 2010 3.50 IT Konsultan L
serta menjadi ibu rumah tangga.
2011 2.75 ? P
Contoh untuk missing value Pekerjaan,
2012 ? Wirausaha P
dapat diisi dengan pekerjaan yang paling
banyak muncul.
DATA CLEANING: NOISY DATA
Noise data adalah suatu kesalahan acak atau variasi
dalam variabel terukur.
Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries
Regression
Outlier Analysis
METODE BINNING
Metode ini akan melakukan pengelompokan
terhadap kumpulan data.
Metode binning merupakan salah satu pendekatan
dicretization.
Urutan proses:
• Urutkan data secara ascending
• Lakukan partisi ke dalam bins
• Kemudian dapat di-smoothing: smooth by means, smooth by
median, smooth by boundaries, dsb.
PARTISI DALAM METODE
BINNING
Algoritma membagi data ke dalam k interval
Partisi ukuran yang sama. Lebar interval adalah w =
Equal- (max-min)/k
Batasan interval adalah min+w, min+2w, ...,
Width min+(k-1)w
Partisi Membagi data ke dalam k kelompok
Equal- dimana tiap
depth kelompok berisi jumlah yang sama
INTEGRASI DATA
Integrasi data:
• Mengkombinasikan data dari banyak sumber kedalam suatu simpanan
terpadu
Integrasi skema
• Mengintegrasikan metadata dari sumber-sumber berbeda
• Problem identifikasi entitas: mengenali entitas dunia nyata dari banyak
sumber-sumber data, misal A.cust-id B.cust-#
Pendeteksian dan pemecahan konflik nilai data
• Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari sumber-
sumber berbeda adalah berbeda
• Alasan yang mungkin: representasi berbeda, skala berbeda, misal berat
bisa dalam pound atau kilogram
Integrasi Data
Problem: integrasi skema heterogen
Nama-nama tribut berbeda
cid name byear Customer-ID state
1 Jones 1960 1 NY
2 Smith 1974 2 CA
3 Smith 1950 3 NY
Atribut turunan: Annual salary versus monthly salary
cid monthlySalary cid Salary
1 5000 6 50,000
2 2400 7 100,000
8 40,000
3 3000
Integrasi Data
Problem: Data tidak konsisten karena redundansi
Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4
anak dalam relation2
cid numChildren cid numChildren
1 3 1 4
Komputasi annual salary dari monthly salary dalam relation1 tak cocok
dengan atribut “annual-salary” dalam relation2
PENANGANAN REDUDANSI
DALAM INTEGRASI DATA
Data redudan sering terjadi saat integrasi dari banyak database
• Atribut yang sama bisa memiliki nama berbeda dalam database berbeda
• Atribut yang satu bisa merupakan suatu atribut “turunan” dalam tabel lainnya,
misal, annual revenue
Data redundan mungkin bisa dideteksi dengan analisis korelasi
Integrasi data hati-hati dari banyak sumber bisa membantu
mengurangi/mencegah redundansi dan ketak-konsistenan dan
memperbaiki kecepatan dan kualitas mining
TRANSFORMASI DATA
Normalisasi:
Penghalusan:
Agregasi: ringkasan, Generalisasi: konsep diskalakan agar jatuh Konstruksi
menghilangkan noise
konstruksi kubus data hierarchy climbing didalam suatu range atribut/fitur
dari data
kecil yang tertentu
Atribut-atribut baru
Normalisasi dengan
Normalisasi min-max Normalisasi z-score dibangun dari atribut-
penskalaan desimal
atribut yang ada
STRATEGI REDUKSI DATA
Suatu data warehouse bisa menyimpan terabytes data
• Analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk
dijalankan pada data set komplit (tak efisien)
Reduksi data
• Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir
sama)
Strategi reduksi data
• Agregasi kubus data
• Reduksi dimensionalitas—menghilangkan atribut tak penting
• Kompresi data
• Reduksi Numerosity reduction—mencocokkan data kedalam model
• Diskritisasi dan pembuatan konsep hierarki
TERIMA KASIH