Anda di halaman 1dari 38

Introduction to

Data Science
(Data Science World)
Mirza Miftanula
Sr. Analyst | Sr. Data Scientist

Master of Analytics & Data Science

Bachelor of Engineering

Linkedin:
https://id.linkedin.com/in/mirza-miftanula-ab241ab5

Email :
m.miftanula@gmail.com
Apa yang Mau Kita Bahas?
1. Apa itu data science?
2. Mengapa jadi data scientist?
3. Skill yang dibutuhkan data scientist
4. Apa metodologi yang dilakukan oleh data scientist
What is
Data Science?
Data Science: Data Scientist:
Ilmu yang khusus Profesi yang
mempelajari DATA, bertugas membuat
khususnya data solusi dari sebuah
kuantitatif (numerik) permasalahan
menggunakan
DATA
Singkatnya :
Analogi Proses yang dilakukan oleh Data Scientist adalah
seperti menyusun kepingan puzzle

Massive Constructing Insightful


Scatter the Puzzles

Less Valuable More Valuable


"A data scientist is someone who is better at statistics than
any programmer and better at programming than any
statistician"
Scope Pekerjaan Terkait Data
Data Engineer

Analyst Scientist

• Business Knowledge • Data processing


• Diagnostic • Statistical Analysis
• Data Storytelling • Predictive Analysis
• Descriptive Analysis • Optimization
• and so on ….. • and so on …..

Past / Current Future


Analysis Analysis
ML/AI Engineer
Business Analyst / BI / Data Analyst
“Mostly to Diagnose Business Questions ”
Business Problem Diagnosing with Data

Transaksi kartu kredit mengalami peningkatan “Apakah nasabah kebanyakan membayar penuh
namun revenue bank cenderung stabil tagihan kartu kreditnya?”

“Customer dengan profile seperti apa yang


menghasilkan revenue tinggi dari transaksi kartu
kredit ?”

“Apakah nasabah memiliki preferensi pada merchant


tertentu untuk berbelanja menggunakan kartu kredit?

”After diagnosing then what’s next"
Data Scientist
“Tackle the problems using data”
Predictive Analysis Prescriptive Analysis
From the diagnosis (What to do)
(What’s next)

“Apakah nasabah kebanyakan membayar “Suatu model untuk memprediksi


penuh tagihan kartu kreditnya?” nasabah yang akan membayar penuh
kartu kreditnya?” 🡪 CLASSIFICATION Menyusun suatu
personalize campaign
ditujukan meretensi
nasabah agar tidak
“Customer dengan profile seperti apa yang “Profiling / segmentasi nasabah kartu
membayar penuh kartu
menghasilkan revenue tinggi dari kredit menjadi beberapa grup yang
kreditnya melalui promo
transaksi kartu kredit ?” memiliki karakteristik tertentu 🡪
terhadap merchant –
CLUSTERING
merchant favorit dari
nasabah (recommender
“Apakah nasabah memiliki preferensi “Pembuatan model untuk mengukur system)
pada merchant tertentu untuk berbelanja index stickiness / preferensi nasabah
menggunakan kartu kredit? “ terhadap merchant tertentu 🡪 USER
ITEM MATRIX
Data / ML / AI Engineer
“Provide supporting environment for analyst and scientist”
Data / ML / AI Engineer
Bank’s Datawarehouse
Ronaldo membuka • Raw
rekening tabungan online • As it is form Used by Analyst &
• Mostly use id instead of
description
Scientist

Bank’s Datamart (ready to consume)


• Customer Demography
• Product
cv (No rekening,
kartu,dll)
• Balance & Transaction

ML Pipeline

• Ingestion, Transformation
• Model
cvDeployment
• Model response
Contoh Hasil Kerjaan Data Scientist:
Machine Learning Models (Advanced)

object detection text summarization route optimizer

search engine recommender system


Data Science = Programming + Statistics + Business Domain
Why
Data Scientist?
Kekuatan Data Terbukti Ampuh

Data Dapat Dimanfaatkan untuk Menyelesaikan Berbagai Problem


Perkembangan Teknologi Big Data

Data yang Super Banyak dan Kompleks Sudah Gampang Diakses


Prospek Karir yang Bagus

The Sexiest Job of the 21st Century Demand Tinggi, Supply Masih Rendah
(menurut Harvard Business Review) (banyak dicari perusahaan)
Bisa Dipelajari Siapa Saja

Banyak Sarana Belajar yang Terjangkau


(salah satunya ya Rakamin Academy ini ^^ )
Data Scientist
Skills
Understanding the Problems

Data Science is all about solving the business questions.


Understanding the problems will eventually lead to the right
solution
Be Comfortable with Data
Data Scientists spend 60-70 % their time to collect , prepare,
and understand the Data

Visualization
Right Plot for The Right Purpose (i.e know
when to use boxplot, barchart, histogram,
stacked chart, scatter plot, etc)
Collection & Preparation
Statistical Knowledge
SQL, Python
Data Uni/Bi/Multi Variate Analysis
Information Extraction Understanding
(especially if the data is not in Hypothesis Testing
the standardized form 🡪 Data distribution (outlier analysis)
mostly they are !!!)
Keep updated with latest trend

Always updated with latest ML/AI technique will make you


keep up with the market

Keep Learning and Practicing

Online Media Stack overflow, Medium, Machine Learning


Mastery, Git, etc
Offline Media Rakamin Academy
Machine Learning Academics Arxiv.org, Springer, Amazon Science (you can get
Supervised/Unsupervised, Literature the free e-paper research if you are lucky)
Optimization, Reinforcement
Learning Follow Hackathon if you have spare time !!
Data Science
Methodology
Cross Industry Standard Process for Data
Mining (CRISP-DM)
The Data Science Methodology : Langkah – langkah yang dilakukan oleh Data Scientist untuk menjawab
business problems

Data
Business Data Deployment &
Understanding & Modelling
Understanding Mining Evaluation
Preparation

Understand the
what data are How to make Are the model
Problems and the Data inspection
needed predictive and good enough?
goals (Visual and prescriptive
where is the data Statistical analytics What is the
Define the
source properties of the feedback from the
hypothesis
data) users?
Set KPI Do we need to
ITERATIVE
measurement clean, transform, PROCESS
adjust the data
Contoh Kasus : Food Inspection Prediction

• Perusahaan ABC bergerak di bidang


Food Inspection (Quality Control)
• Selama ini food inspection dilakukan
oleh personel tersertifikasi
• Proses grading dilakukan secara
manual sehingga SLA penerbitan
sertifikat inspeksi cukup bervariasi

Saat ini demand untuk proses food inspection sangat tinggi, dan dengan BAU perusahaan
banyak request terpending atau tercancel.
[1] Business Understanding
Problem : Bagaimana membantu tim inspector untuk melakukan aktivitas food grading?
Goals : Meningkatkan SLA proses inspeksi dengan hasil yang cukup representative
Objective : Membuat tools / alat bantu yang akan digunakan oleh inspector sebagai alternative
opinion dalam melakukan inspeksi
KPI Measurement :
• Jumlah incoming application yang diproses dalam 1 periode tertentu
• Lead time (SLA) untuk menerbitkan grading certificate
• Prosentase Override yang dilakukan oleh inspector terhadap output tools tersebut

Proposed Solution
Membuat predictive analytics untuk dapat memprediksi apakah suatu perusahaan akan lolos dan
mendapatkan sertifikat inspeksi (PASS) atau gagal (FAIL)
Output = PASS and FAIL. 🡪 Binary Classification Problem
[2] Data Mining

WHAT HOW
Data apa saja yang Internal Data
dibutuhkan dan Relevan We are the owners of the data
terhadap case ini ? External Data
• Public / Repository Data
Penting untuk berdiskusi Data dikonsumsi public secara terbuka
secara intensif dengan Contoh : Data BPS, Data Lelang
product manager / expert • 3rd Party Data
untuk menentukan data yang Untuk mengakses data biasanya perlu
agreement
relevan?
Contoh : Data Telco, Data Vendor (Bloomberg,
Moody’s Analytics)
• Social media data
Communication Data dapat dilihat secara visual, namun utk
Business Acumen mengaksesnya memerlukan credential (API)
Contoh : Facebook, Google,Linkedin
[3] Data Understanding (1)

Berikut contoh data pada studi kasus kita :


External Data
• Data Demographic
Menunjukkan profil customer Name, License, Facility
Type, Address, City, State, ZIP Code, Location (Latitude,
Longitude)
• Data Inspection Related
Inspection date : Tanggal Inspeksi
Inspection Type : Tipe Inspeksi yang dilakukan
Violations : Catatan inspector terkait jenis
pelanggaran
• Target Variable
Inspection Results

Double check kewajaran tipe


data dengan sample data
[3] Data Understanding (2)

EXPLORATORY DATA ANALYSIS

Cek Distribusi Data


mean, median, mode, min, max, stdev, q1,q3 etc

Cek Hubungan Antar Variable Tujuan:


● Memastikan sampel datanya sudah
pairwise correlation, drop highly correlated variables
representatif dan relevan
● Mendeteksi adanya data yang bermasalah
Cek kualitas data ● Menemukan pola dan insight yang bisa
Anomali (outlier), missing values, tidak standar, duplikasi antar column, etc dimanfaatkan untuk menyusun strategi
dalam modelling

Extra :
Khusus untuk tipe data categorical perlu
dilihat apakah sudah dilakukan binning /
pengelompokan yang optimal)
[3] Data Understanding (3)
Hubungan Antar Kualitas data
Distribusi Data
y Variable
Outlier

Distance based ML Algorithm


(K-Nearest Neighbour, K-means)
cukup sensitive terhadap data
outlier
x
Pada umumnya ada beberapa
High Correlation pilihan untuk menghandle outlier
Symmetric : Mean = Median = Mode
a.l remove data, transformasi data
Positive Skew : Mean > Median > Mode (log transformation,
Negative Skew : Mean < Median < Mode Algoritma ML yang bersifat linear
normalization, standardization)
(ex : Linear / logistic regression)
sangat sensitive terhadap isu
Data yang terlalu skew berpotensi multicollinearity
mempengaruhi model performance - BEWARE
[4] Data Preparation 🡪 modifikasi, transformasi,dll
Variabel Violations 🡪 Catatan inspector terkait jenis pelanggaran … free text .. Bagaimana membuat
variable ini useful?

Kita lihat ada pattern Membuat fitur baru (feature


berulang dari data engineering) menghitung jumlah
violations per perusahaan

[No Pelanggaran][.] [String]


[ - ] [ “Comments :”] [String]
[|]
[No Pelanggaran][.] [String] Variabel baru yang dibuat sangat
[ - ] [ “Comments :”] [String] baik dalam memisahkan nasabah
[|] yang Pass & Fail
dst…..c

Information Extraction
menggunakan regular expression
[4] Modelling
What’s the suitable domain of ML What is the characteristics
to solve the problem? of your client?
Majority in many Industries
Very Detail
SUPERVISED
Risk Averse Result oriented
Predict Next Value
Process Oriented Risk Takers
Concern with Outcome

Start with Interpretable


UNSUPERVISED Model
(Linear / Logistic
Let data decide Regression, Discriminant
themselves Analysis, Decision Tree) Harus up to date dan
rajin cari referensi model
yang populer digunakan

REINFORCEMENT
LEARNING Optimize the
performance
Learn from (Variable Selection,
Mistakes Hyperparameter opt, etc )
[5] Evaluation
Step membuat Model ML sama Banyak metrics evaluasi
dengan kalo kita belajar (Disesuaikan kebutuhan & client)
data data data data Paling umum dan mudah dipahami
salah satunya adalah Confusion Matrix

Actual
Positive Negative
ML MODEL

Positive
Type I - error

Predicted
True Positive False Positive Type II - error
Makin bervariasi datanya,
Makin sering modelnya dilatih, Type I – hit rate

Negative
makin pinter juga modelnya Type II – hit rate
Evaluasi model False Negative True Negative
sampai
Data dianggap bagus
baru Pertimbangan untuk memilih performance
model yang paling baik juga disesuaikan
business metrics yang dituju

HASIL

Deploy
Mari kita recall problem food inspection di depan
MODEL 1 MODEL 2
Dari 80 perusahaan yang diinspeksi,
Objective Membuat tools / hasil model PASS = 50 Fail = 30.
Dari 80 perusahaan yang diinspeksi,
hasil model PASS = 30 Fail = 50
alat bantu yang akan Sementara inspector melakukan
override menjadi PASS = 60 Fail = 20
Sementara inspector melakukan
override menjadi PASS = 60 Fail = 20
digunakan oleh inspector
Actual
sebagai alternative opinion Actual
Positive Negative Positive Negative
dalam melakukan inspeksi

Positive
Positive

Predicted
Predicted
35 15 50 23 7 30

Berarti alat bantu itu harus

Negative
Negative
mengeluarkan hasil 25 5 30 37 13 50

semirip mungkin dengan 60 20 60 20


yang diputuskan inspector Model Presisi = 35 / (35+15) = 70 % Model Presisi =23/ (20+10) = 77 %
Model Akurasi = (35+5) / 80 = 50 % Model Akurasi = (23+13) / 80 = 45%

Model mana yang lebih baik dipilih jika?


Perusahaan concern dengan SLA proses, sehingga tidak banyak override yang akan
dilakukan inspector?
Feedback

Feedback bisa dari mana saja…


● Dari monitoring dashboard (performance dengan data real-time)
● Dari end user
● Dari business stakeholders
● Dari engineering
● etc.
Summary & Recap

Understand the Problems and What Data to be obtained Build model solution
the goals
Where to gather the Data Evaluate
Define the hypothesis
How to make the available Gain the feedback
Set KPI measurement data are more useful
(transform, modify, etc)
Terima Kasih!

Anda mungkin juga menyukai