Data Science
(Data Science World)
Mirza Miftanula
Sr. Analyst | Sr. Data Scientist
Bachelor of Engineering
Linkedin:
https://id.linkedin.com/in/mirza-miftanula-ab241ab5
Email :
m.miftanula@gmail.com
Apa yang Mau Kita Bahas?
1. Apa itu data science?
2. Mengapa jadi data scientist?
3. Skill yang dibutuhkan data scientist
4. Apa metodologi yang dilakukan oleh data scientist
What is
Data Science?
Data Science: Data Scientist:
Ilmu yang khusus Profesi yang
mempelajari DATA, bertugas membuat
khususnya data solusi dari sebuah
kuantitatif (numerik) permasalahan
menggunakan
DATA
Singkatnya :
Analogi Proses yang dilakukan oleh Data Scientist adalah
seperti menyusun kepingan puzzle
Analyst Scientist
Transaksi kartu kredit mengalami peningkatan “Apakah nasabah kebanyakan membayar penuh
namun revenue bank cenderung stabil tagihan kartu kreditnya?”
ML Pipeline
• Ingestion, Transformation
• Model
cvDeployment
• Model response
Contoh Hasil Kerjaan Data Scientist:
Machine Learning Models (Advanced)
The Sexiest Job of the 21st Century Demand Tinggi, Supply Masih Rendah
(menurut Harvard Business Review) (banyak dicari perusahaan)
Bisa Dipelajari Siapa Saja
Visualization
Right Plot for The Right Purpose (i.e know
when to use boxplot, barchart, histogram,
stacked chart, scatter plot, etc)
Collection & Preparation
Statistical Knowledge
SQL, Python
Data Uni/Bi/Multi Variate Analysis
Information Extraction Understanding
(especially if the data is not in Hypothesis Testing
the standardized form 🡪 Data distribution (outlier analysis)
mostly they are !!!)
Keep updated with latest trend
Data
Business Data Deployment &
Understanding & Modelling
Understanding Mining Evaluation
Preparation
Understand the
what data are How to make Are the model
Problems and the Data inspection
needed predictive and good enough?
goals (Visual and prescriptive
where is the data Statistical analytics What is the
Define the
source properties of the feedback from the
hypothesis
data) users?
Set KPI Do we need to
ITERATIVE
measurement clean, transform, PROCESS
adjust the data
Contoh Kasus : Food Inspection Prediction
Saat ini demand untuk proses food inspection sangat tinggi, dan dengan BAU perusahaan
banyak request terpending atau tercancel.
[1] Business Understanding
Problem : Bagaimana membantu tim inspector untuk melakukan aktivitas food grading?
Goals : Meningkatkan SLA proses inspeksi dengan hasil yang cukup representative
Objective : Membuat tools / alat bantu yang akan digunakan oleh inspector sebagai alternative
opinion dalam melakukan inspeksi
KPI Measurement :
• Jumlah incoming application yang diproses dalam 1 periode tertentu
• Lead time (SLA) untuk menerbitkan grading certificate
• Prosentase Override yang dilakukan oleh inspector terhadap output tools tersebut
Proposed Solution
Membuat predictive analytics untuk dapat memprediksi apakah suatu perusahaan akan lolos dan
mendapatkan sertifikat inspeksi (PASS) atau gagal (FAIL)
Output = PASS and FAIL. 🡪 Binary Classification Problem
[2] Data Mining
WHAT HOW
Data apa saja yang Internal Data
dibutuhkan dan Relevan We are the owners of the data
terhadap case ini ? External Data
• Public / Repository Data
Penting untuk berdiskusi Data dikonsumsi public secara terbuka
secara intensif dengan Contoh : Data BPS, Data Lelang
product manager / expert • 3rd Party Data
untuk menentukan data yang Untuk mengakses data biasanya perlu
agreement
relevan?
Contoh : Data Telco, Data Vendor (Bloomberg,
Moody’s Analytics)
• Social media data
Communication Data dapat dilihat secara visual, namun utk
Business Acumen mengaksesnya memerlukan credential (API)
Contoh : Facebook, Google,Linkedin
[3] Data Understanding (1)
Extra :
Khusus untuk tipe data categorical perlu
dilihat apakah sudah dilakukan binning /
pengelompokan yang optimal)
[3] Data Understanding (3)
Hubungan Antar Kualitas data
Distribusi Data
y Variable
Outlier
Information Extraction
menggunakan regular expression
[4] Modelling
What’s the suitable domain of ML What is the characteristics
to solve the problem? of your client?
Majority in many Industries
Very Detail
SUPERVISED
Risk Averse Result oriented
Predict Next Value
Process Oriented Risk Takers
Concern with Outcome
REINFORCEMENT
LEARNING Optimize the
performance
Learn from (Variable Selection,
Mistakes Hyperparameter opt, etc )
[5] Evaluation
Step membuat Model ML sama Banyak metrics evaluasi
dengan kalo kita belajar (Disesuaikan kebutuhan & client)
data data data data Paling umum dan mudah dipahami
salah satunya adalah Confusion Matrix
Actual
Positive Negative
ML MODEL
Positive
Type I - error
Predicted
True Positive False Positive Type II - error
Makin bervariasi datanya,
Makin sering modelnya dilatih, Type I – hit rate
Negative
makin pinter juga modelnya Type II – hit rate
Evaluasi model False Negative True Negative
sampai
Data dianggap bagus
baru Pertimbangan untuk memilih performance
model yang paling baik juga disesuaikan
business metrics yang dituju
HASIL
Deploy
Mari kita recall problem food inspection di depan
MODEL 1 MODEL 2
Dari 80 perusahaan yang diinspeksi,
Objective Membuat tools / hasil model PASS = 50 Fail = 30.
Dari 80 perusahaan yang diinspeksi,
hasil model PASS = 30 Fail = 50
alat bantu yang akan Sementara inspector melakukan
override menjadi PASS = 60 Fail = 20
Sementara inspector melakukan
override menjadi PASS = 60 Fail = 20
digunakan oleh inspector
Actual
sebagai alternative opinion Actual
Positive Negative Positive Negative
dalam melakukan inspeksi
Positive
Positive
Predicted
Predicted
35 15 50 23 7 30
Negative
Negative
mengeluarkan hasil 25 5 30 37 13 50
Understand the Problems and What Data to be obtained Build model solution
the goals
Where to gather the Data Evaluate
Define the hypothesis
How to make the available Gain the feedback
Set KPI measurement data are more useful
(transform, modify, etc)
Terima Kasih!