WEEK 7
Digital Skola Data Science Batch 18
TABLE OF CONTENTS
INTRODUCTION TO ML DATA PROCESSING FOR ML
1. Data Mining and Machine
Learning 1. What is Data Preprocessing
2. Data Mining Steps. 2. Missing Values Handling
3. Data Mining Task Types 3. Label Encoder
4. Machine Learning 4. One Hot Encoder
Fundamentals 5. Scaling (Standardization,
5. Machine Learning Steps Normalization)
6. Bias and Variance Tradeoff 6. Train-Test Split
OUR TEAM!
ANDIRA D. CLARA
(https://www.linkedin.co (https://www.linkedin.c
m/in/andzlkrn) om/in/palupiclr)
Data
Data Cleaning Data Integration Data Selection Transformation
Pattern
Presentation Evaluation Data Mining
DATA MINING TASK TYPES
Task Task Prediksi Analisa Time Series
Klasifikasi
Untuk memprediksi suatu variabel atau nilai
Untuk mengekstrak pola, tren, aturan, dan
yang tidak diketahui melalui beberapa
Untuk memprediksi suatu variabel atau nilai statistik yang berguna
atribut/variabel lain.
yang tidak diketahui melalui beberapa
atribut/variabel lain.
● Predicting
● Sentiment analysis
● Segmenting
● Scoring
● Filtering
Scheme of
Example of Non-ML Cases
Machine Learning ● Get average thing
● Non- reply email
Machine Learning Application
HEALTHCARE & LIFE
MANUFACTURING SCIENCES
FINANCIAL SERVICES
● Predictive maintenance ● Alerts & diagnostics data
● Risk analysis & regulations
● Warranty estimation ● Disease identification
● Segmentation of customer
● Propensity to buy ● Risk stratifications
● Cross & Up selling
● Forecasting ● Optimize patient triage
● Marketing campaign
● Optimization ● management health
● Credit evaluation
● Telematics ● Analysis healthcare provider
Benefit of ML
● Realtime decision making
process
● Increase effectiveness &
eficiency
● Optimize marketing
strategy
● Improve process
● Improve security
Types Of ML - Supervised
Learning
Supervised Learning adalah kelas dari sistem algoritma yang
menentukan model prediksi menggunakan data yang diketehui
outputnya. Model belajar dengan berlatih menggunakan algoritma yang
sesuai (seperti linear regression, random forests, or neural networks).
Implementasi Supervised Learning:
Regression - Model menemukan output angka (bisa desimal) yang cocok
dengan input.
Classification - Model menemukan kelas yang cocok untuk input.
Types Of ML - Unsupervised
Learning
Dalam Unsupervised Learning, hanya data input yang disediakan di
dataset. Tidak ada data label/taget. Tapi mungkin akan mengejutkan
kita jika bisa melihat banyak penemuan yang menarik dari pola
kompleks yang tersembunyi dalam data tanpa label. Tujuannya untuk
menemukan struktur/informasi yang menarik.
Example of Unsupervised ML
● Clustering
Clustering adalah kegiatan membagi
titik-titik data ke dalam beberapa
kelompok sehingga titik-titik data
dalam kelompok yang sama lebih mirip
dengan titik-titik data lain dalam
kelompok yang sama daripada yang ada
di kelompok lain.
Tujuannya adalah untuk memisahkan
kelompok-kelompok dengan
sifat-sifat yang sama.
Application of Unsupervised ML
CEK DATA
DATA TYPES
SAMPLE
Dalam data
feature (fitur)
juga bisa disebut
kolom atau
atribut atau
variabel
● independent variable
● feature
● variabel penjelas
● simbol (x)
sedangakn target:
● respn
● dependent variable
● simbol (y)
Missing Value Handling
contoh missing value
Handling:
1. Hapus baris/kolom 2. Isi missing value 3. Isi missing value
4. Cara kompleks:
dengan numerikal dengan kategorikal
(+) tidak perlu (+) mencegah kehilangan (+) mencegah 1. Diisi menggunakan
melakukan manipulasi informasi (isi kehilangan informasi
algoritma bantuan (k
dari menggunakan (di isi dengan
data asli mean/median) menggunakan modus) imputation)
(-) Kehilangan (-) Bisa membuat data (-) Terlalu asumtif
2. Memprediksi nilai d
informasi, jika terlalu menjadi bias jika dalam (Untuk
banyak yang data banyak pengisian dengan missing values
dihapus “pecilan”/”outlier” mode)
Label Encoding & One Hot Encoding
Label Encoding One Hot Encoding
Digunakan merubah fitur object menjadi Digunakan merubah fitur object menjadi fitur
fitur kategorikal ordinal (kategori kategorikal nominal di isi 1 atau 0( 1
memiliki urutan) 0,1,2,3.. dst menandakan bahwa kategori tersebut pada
baris tersebut ada sedangkan 0 berarti tidak
Feature Scaling
merupakan teknik untuk mengubah skala dari
feature, yang dapat dilakukan dengan: