Surya Wijaya
1. culture
5. Research 2. Mining
Data Science
Trends 2022
1. Culture
Manusia memproduksi beragam data yang jumlah dan ukurannya besar dalam dunia astronomi,
bisnis, kedokteran, ekonomi, olahraga, cuaca, financial.
Pertumbuhan data dari bidang atronomi:
- Sloan Digital Sky Survey
- Large Synoptic Survey Telescope
Bidang biologi dan kedokteran:
- European Bioinformatics Institue (EBI)
Social media:
Datangnya tsunami data dari pasar digital, web & social network (google proses 100 PB per
day (3 juta server), facebook memiliki 300 PB user data per hari, youtube memiliki 1000 PB
video tempat penyimpanan). Kita kebanjiran data tetapi miskin pengetahuan.
Mengubah data menjadi pengetahuan. Data harus kita olah menjadi pengetahuan supaya
bermanfaat bagi manusia, dengan pengetahuan tersebut manusia dapat:
- melakukan estimasi dan prediksi apa yang terjadi di depan
- melakukan analisis tentang asosiasi, korelasi dan pengelempokan antar data dan
atribur
- membantu pengambil keputusan dan pembuatan kebijakan
Data – Informasi – Pengetahuan - Kebijakan
Kebijakan Kebijakan
Pengetahuan Pola
Informasi
Informasi & Statistik
Data Data
2. Data Mining
Disiplin ilmu yang mempelajari metode untuk menemukan pola, pengetahuan, formula,
aturan, ataupun insight dari suatu data yang volumenya besar dan jenisnya beraneka ragam.
Proses Data Mining
Data Mining
Himpunan Data Knowledge
Metode
Decision
Making End User
Data Presentation
Visualzation Business
Techniques Analyst
Data Mining
Infromation discovery and
modeling Data
Data Exploration Scientist
Statistical summary, metadata,
description
Variety
Different
formt of
data
Volume
4
Veracity
Scale of Masalah Uncertanity
data of data
Big Data
Velocity
Analysis of
streaming
data
1. estimasi
2.
5. asosiasi
forecasting
Data mining roles
(larose, 2005)
4. 3.
klastering klasifikasi
1. Estimation (estimasi)
Linear regression (LR), Neural Network (NN), Deep learning (DL), Support vector
mechine (SVM), Generalized linear model (GLM), etc
2. Forecasting (prediksi/peramalan)
Linear regression (LR), Neural Network (NN), Deep learning (DL), Support vector
mechine (SVM), Generalized linear model (GLM), etc
3. Classification (klasifikasi)
Decision tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptiative Credal C4.5,
Naïve bayes (NB), K-Nearest neigbor (KNN), Linear discriminant analysis (LDA),
Logistic regression (LogR), etc
4. Clustering (klastering)
K-Means, K-medoids, Sef-Organizing Map (SOM), Fuzzy C-Means (FCM), etc
5. Association (asosiasi)
FP-Growth, apriori, coefficient of correlation, chi square, etc