Anda di halaman 1dari 62

Data Preprocessing

Agenda

Review Pertemuan Sebelumnya

Konsep Data

Data preprocessing

Contoh Implementasi (Studi kasus: Titanic Dataset)


Big Data Ecosystem

Data Analytics
Review
Big Data Analytics Workflow
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020

DATA SOURCES DATA MANAGEMENT DATA ANALYTICS


• Privat (Internal), public • Integrasi • Metodologi
(eksternal) • Penyimpanan • Laporan / Visualisasi
• Terstruktur, tidak terstruktur • Pemrosesan • Aplikasi
• Apa yang sudah terjadi?
• Mengapa terjadi?
• Apa yang akan terjadi?
• Apa yang harus dilakukan?
• Apa yang kita tidak tahu? (Cognitive) *)

Analytics

*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Big Data Analytics Workflow
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
Pengertian

• Dataset
• Data object
Konsep • Atribut dan pengukuran
Data • Jenis dataset
• Karakteristik Dataset
• Statistik Dasar untuk
Deskripsi Data
Pengertian

Data object (objek data), disebut


Dataset, merupakan kumpulan dari juga record, point, vector, pattern,
objek data yang merepresentasikan event, case, sample, observasi, atau
sebuah entitas entity. Data object dijelaskan oleh
sejumlah atribut

Atribut, properti atau karakteristik


suatu objek yang dapat berbeda- Atribut disebut juga variabel,
beda, baik dari satu objek ke objek karakteristik, field, kolom, fitur,
lainnya maupun dari satu waktu ke atau dimensi
waktu lainnya.
Dataset Iris
Atribut dan Pengukuran
Pada tingkat paling dasar, atribut bukanlah tentang angka atau simbol. Namun, untuk
menganalisis karakteristik objek, diberikan angka atau simbol padanya. Untuk melakukan
ini dibutuhkan skala pengukuran.

Skala pengukuran adalah aturan (fungsi) yang mengaitkan nilai numerik atau simbolik
dengan atribut suatu objek.
Contoh: timbangan untuk mengukur berat badan, klasifikasi untuk membedakan
laki-laki dan perempuan, menghitung jumlah kursi di ruang rapat
Tipe Atribut
Tipe Atribut Deskripsi Contoh

Nominal Berupa kategori, membedakan satu Jenis kelamin, status perkawinan,


Categorical

objek dari yang lain kode pos, NPM, dll


(Kualitatif)

Ordinal Nilai yang merepresentasikan urutan Grade nilai, ukuran kualitas (baik,
lebih baik, sangat baik), dll

Interval Untuk atribut interval, perbedaan antara Temperatur (suhu), tanggal, dll
(Kuantitatif)

nilai memiliki arti, yaitu ada unit


Numeric

pengukuran.
Ratio Hasil pengukuran yang sebenarnya Harga, jumlah, usia, berat badan,
panjang, dll
Diskrit
Nilai Atribut • Nilainya terbatas atau dapat dihitung tanpa
batas. Dapat bersifat kategorikal seperti
kode pos, maupun numerik seperti jumlah.
• Binary (biner), adalah kasus khusus untuk
nilai diskrit. Hanya memiliki dua nilai.
Contoh: benar/salah, ya/tidak, 0/1.

Kontinu
• Nilainya adalah bilangan real. Seperti berat,
tinggi, temperature (suhu).
• Biasanya direpresentasikan dengan bilangan
floating point dengan presisi terbatas.
Jenis Dataset

RECORD GRAPH ORDERED


Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


Record 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Record
Projection Projection Distance Load Thickness
• Data Matrix of x Load of y load

10.23 5.27 15.22 2.7 1.2


12.65 6.25 16.22 2.2 1.1
Record
• Data Matrix
• Document Data
Record TID Items
1 Bread, Coke, Milk
• Data Matrix 2 Beer, Bread
• Document Data
3 Beer, Coke, Diaper, Milk
• Transaction Data
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Graph
• World wide web
• Social networks
• Molecular structures
Ordered Items/Events

• Sequences of transactions

An element of
the sequence
Ordered
GGTTCCGCCTTCAGCCCCGCGCC
• Sequences of transactions CGCAGGGCCCGCCCCGCGCCGTC
• Genomic sequence data GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data

Average Monthly
Temperature of
land and ocean
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data
• Multimedia
• Spatial (maps)
• Image data
• Voice data
• Video data
Dimentionality (Dimensi)

• Dimensi dari suatu dataset adalah jumlah


atribut yang dimiliki oleh objek dalam
dataset tersebut. Jika dimensi terlalu
tinggi maka sulit dianalisis.
• Issue: Dimentionality reduction
Karakteristik (mengurangi dimensi)

Dataset Sparsity (Ketersebaran)

• Hanya yang ada nilainya yang terhitung

Resolution (Resolusi)

• Pola bergantung pada skala


Statistik Dasar untuk
Deskripsi Data
• Agar dapat memahami data terkait pusat distribusi, variasi, dan sebaran data
• Pengukuran tendensi sentral: mean, median, mode

positively skewed negatively skewed


Data Preprocessing
Data Quality

Accuracy: benar atau Completeness: ada


Consistency: tidak
salah, akurat atau yang tidak tercatat,
konsisten
tidak tidak tersedia, …

Believability: seberapa Interpretability:


Timeliness: apakah
dipercaya data itu seberapa mudah data
terupdate?
benar? dapat dipahami?
Data Quality Problem

Noise and outliers Missing values Duplicate data


Data Preprocessing
Imputasi (missing value), smoothing (noisy
data), identifikasi atau penghapusan
Data Cleaning (outliers), dan penanganan (data
inconsistencies)

Integrasi dari multiple databases, data


Data Integration cube, atau files

Dimentionality reduction
Data Reduction Numerosity reduction
Data compression

Data Transformation and Normalisasi

Data Discretization Diskretisasi data


Data Preparation 2) Data Reduction 2)
• Data riil umumnya ‘kotor’, berpotensi adanya incorrect data
• Bisa disebabkan karena kesalahan instrument pengukuran,
human or computer error, dan transmission error
Beberapa • Noisy: berisi noise atau error
• Contoh: tinggi badan= “-120”
contoh • Outliers: anomali
• Incomplete (missing value)
kesalahan • Contoh: pekerjaan = “ ”
• Inconsistent: ada perbedaan pada beberapa atribut
data • Contoh: usia = “31”, tanggal lahir = “28/03/2000”
• Contoh: sebelumnya rating “1, 2, 3”, sekarang
rating “A, B, C”
• Intentional
• Default tanggal lahir: 1 Jan
• Duplicate data
• Contoh: Orang yang sama dengan 2 alamat email
yang berbeda
Menghapus objek data
atau atribut
Menangani
Mengestimasi nilai
Missing yang hilang
Value
Diabaikan (ignore)
Estimasi Missing Value
(Imputasi)
Imputasi nilai secara manual

Imputasi nilai secara otomatis menggunakan


• Nilai mean, median, mode dari atribut yang ada
missing value
• Nilai mean, median, mode untuk semua sampel yang
memiliki kelas yang sama
• Nilai estimasi menggunakan metode Bayesian, Decision
tree, Regresi, k-Nearest Neighbor, Expectation
Maximization,…
Menangani Noise

• Binning
• Mengurutkan data dan membagi
menjadi beberapa bins berdasarkan
frequency (equal-frequency)
• Kemudian melakukan
• smooth by bin means,
• smooth by bin median,
• smooth by bin boundaries,
• dsb.
Menangani Noise

• Regression
• Melakukan smooth by fitting data ke
fungsi regresi
• Clustering
• Mendeteksi dan menghapus outliers
• Combined computer and human inspection
• Mendeteksi nilai yang meragukan dan
dicek secara manual
Data Integration

• Integrasi data dari beberapa sumber data


• Identifikasi: Atribut sama namun mempunya nama yang berbeda
• Derivasi: Satu atribut bisa diderivasi dari atribut lain pada database lain,
misalnya: total gaji setahun
• Redundansi attribut bisa dideteksi menggunakan analisis
korelasi dan kovarian
• Chi square test untuk tipe nominal
• Pearson correlation untuk tipe numerik
• Mengurangi representasi data menjadi lebih
kecil
• Motivasi: Analisis data yang kompleks
memerlukan waktu komputasi yang lama
• Strategi
• Dimensionality reduction (menghapus
atribut tidak penting)
• Wavelet transforms
Data Reduction • Principal Components Analysis (PCA)
• Feature subset selection, feature
creation
• Numerosity reduction (Data Reduction)
• Regression and Log-Linear Models
• Histograms, clustering, sampling
• Data cube aggregation
• Data compression
Data Transformation
• Proses yang mentransformasi nilai asli ke nilai baru
• Metode atau Pendekatan
• Smoothing: menghapus noise
• Attribute/feature construction
• Membuat atribut baru dari atribut yang sudah ada
• Aggregation
• Normalization
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Studi Kasus (Data Titanic)
Atribut Numeric

Atribut Categorical
Kelas
Outliers?
Penutup
• Konsep Data → Data Preprocessing → Menangani missing value
• Kunci: Data Understanding (pemahaman terhadap data)
• Pahami atribut datanya.
• Meringkas data dengan mengidentifikasi karakteristik utama, seperti volume
data dan jumlah variabel dalam data.
• Pahami masalah dengan data, seperti nilai yang hilang, ketidakakuratan, dan
outliers.
• Visualisasikan data untuk memvalidasi karakteristik utama data atau gali
masalah dengan ringkasan statistik.
Referensi
1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson,
2014
2. Jiawei Han, Micheline, Kamber, and Jian Pei, Data Mining: Concepts and Techniques (3
rd Edition), University of Illinois at Urbana-Champaign & Simon Fraser University, 2011
3. Salvador García, Julián Luengo, Francisco Herrera, Data Preprocessing in Data Mining,
Springer, 2015
4. Chastine Fatichah, Pengertian Data, Jenis dan Tipe Data, Deskripsi Data, Data
Preprocessing, Modul Pelatihan Microcredential Artificial Intelligence, 2021
5. Understanding The Data in Data Science, 3 Pillar Global,
https://www.3pillarglobal.com/insights/blog-posts/understanding-data-data-science/

Anda mungkin juga menyukai