Agenda
Konsep Data
Data preprocessing
Data Analytics
Review
Big Data Analytics Workflow
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020
Analytics
*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Big Data Analytics Workflow
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
Pengertian
• Dataset
• Data object
Konsep • Atribut dan pengukuran
Data • Jenis dataset
• Karakteristik Dataset
• Statistik Dasar untuk
Deskripsi Data
Pengertian
Skala pengukuran adalah aturan (fungsi) yang mengaitkan nilai numerik atau simbolik
dengan atribut suatu objek.
Contoh: timbangan untuk mengukur berat badan, klasifikasi untuk membedakan
laki-laki dan perempuan, menghitung jumlah kursi di ruang rapat
Tipe Atribut
Tipe Atribut Deskripsi Contoh
Ordinal Nilai yang merepresentasikan urutan Grade nilai, ukuran kualitas (baik,
lebih baik, sangat baik), dll
Interval Untuk atribut interval, perbedaan antara Temperatur (suhu), tanggal, dll
(Kuantitatif)
pengukuran.
Ratio Hasil pengukuran yang sebenarnya Harga, jumlah, usia, berat badan,
panjang, dll
Diskrit
Nilai Atribut • Nilainya terbatas atau dapat dihitung tanpa
batas. Dapat bersifat kategorikal seperti
kode pos, maupun numerik seperti jumlah.
• Binary (biner), adalah kasus khusus untuk
nilai diskrit. Hanya memiliki dua nilai.
Contoh: benar/salah, ya/tidak, 0/1.
Kontinu
• Nilainya adalah bilangan real. Seperti berat,
tinggi, temperature (suhu).
• Biasanya direpresentasikan dengan bilangan
floating point dengan presisi terbatas.
Jenis Dataset
• Sequences of transactions
An element of
the sequence
Ordered
GGTTCCGCCTTCAGCCCCGCGCC
• Sequences of transactions CGCAGGGCCCGCCCCGCGCCGTC
• Genomic sequence data GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data
Average Monthly
Temperature of
land and ocean
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data
• Multimedia
• Spatial (maps)
• Image data
• Voice data
• Video data
Dimentionality (Dimensi)
Resolution (Resolusi)
Dimentionality reduction
Data Reduction Numerosity reduction
Data compression
• Binning
• Mengurutkan data dan membagi
menjadi beberapa bins berdasarkan
frequency (equal-frequency)
• Kemudian melakukan
• smooth by bin means,
• smooth by bin median,
• smooth by bin boundaries,
• dsb.
Menangani Noise
• Regression
• Melakukan smooth by fitting data ke
fungsi regresi
• Clustering
• Mendeteksi dan menghapus outliers
• Combined computer and human inspection
• Mendeteksi nilai yang meragukan dan
dicek secara manual
Data Integration
Atribut Categorical
Kelas
Outliers?
Penutup
• Konsep Data → Data Preprocessing → Menangani missing value
• Kunci: Data Understanding (pemahaman terhadap data)
• Pahami atribut datanya.
• Meringkas data dengan mengidentifikasi karakteristik utama, seperti volume
data dan jumlah variabel dalam data.
• Pahami masalah dengan data, seperti nilai yang hilang, ketidakakuratan, dan
outliers.
• Visualisasikan data untuk memvalidasi karakteristik utama data atau gali
masalah dengan ringkasan statistik.
Referensi
1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson,
2014
2. Jiawei Han, Micheline, Kamber, and Jian Pei, Data Mining: Concepts and Techniques (3
rd Edition), University of Illinois at Urbana-Champaign & Simon Fraser University, 2011
3. Salvador García, Julián Luengo, Francisco Herrera, Data Preprocessing in Data Mining,
Springer, 2015
4. Chastine Fatichah, Pengertian Data, Jenis dan Tipe Data, Deskripsi Data, Data
Preprocessing, Modul Pelatihan Microcredential Artificial Intelligence, 2021
5. Understanding The Data in Data Science, 3 Pillar Global,
https://www.3pillarglobal.com/insights/blog-posts/understanding-data-data-science/