Anda di halaman 1dari 30

LEARNING PROGRESS REVIEW

WEEK 7
Digital Skola Data Science Batch 18
TABLE OF CONTENTS
INTRODUCTION TO ML DATA PROCESSING FOR ML
1. Data Mining and Machine
Learning 1. What is Data Preprocessing
2. Data Mining Steps. 2. Missing Values Handling
3. Data Mining Task Types 3. Label Encoder
4. Machine Learning 4. One Hot Encoder
Fundamentals 5. Scaling (Standardization,
5. Machine Learning Steps Normalization)
6. Bias and Variance Tradeoff 6. Train-Test Split
OUR TEAM!

ANDIRA D. CLARA
(https://www.linkedin.co (https://www.linkedin.c
m/in/andzlkrn) om/in/palupiclr)

DERYL B. S. C. NABIILAH WAHYU I.


(https://www.linkedin.c (https://www.linkedin.c (https://www.linkedin.c
om/in/derylbaharudin) om/in/schanabiilah05) om/in/wahyu-illah01)
Data Mining &
Machine Learning
DATA MINING AND MACHINE LEARNING
DATA MINING MACHINE LEARNING
Data mining hanyalah proses mengumpulkan
informasi dari database yang sebelumnya Machine Learning adalah cabang dari
tidak dapat dipahami dan tidak diketahui kecerdasan buatan, merupakan disiplin ilmu
yang mencakup perancangan dan
Kemudian menggunakan informasi tersebut pengembangan algoritma yang
untuk membuat keputusan bisnis yang memungkinkan komputer untuk
relevan. mengembangkan perilaku yang didasarkan
kepada data empiris, seperti dari sensor data
Tujuan utama dari proses data mining adalah pada basis data.
untuk mengekstrak informasi dari berbagai
rangkaian data dalam upaya untuk Fokus besar penelitian Machine Learning
mengubahnya dalam struktur yang tepat dan adalah bagaimana mengenali secara otomatis
mudah dimengerti untuk penggunaan pola kompleks dan membuat keputusan
akhirnya. cerdas berdasarkan data.
DATA MINING STEPS

Data
Data Cleaning Data Integration Data Selection Transformation

Pattern
Presentation Evaluation Data Mining
DATA MINING TASK TYPES
Task Task Prediksi Analisa Time Series
Klasifikasi
Untuk memprediksi suatu variabel atau nilai
Untuk mengekstrak pola, tren, aturan, dan
yang tidak diketahui melalui beberapa
Untuk memprediksi suatu variabel atau nilai statistik yang berguna
atribut/variabel lain.
yang tidak diketahui melalui beberapa
atribut/variabel lain.

Task Task Clustering Task Association


Summarization
digunakan untuk manajemen komoditas,
Satu set data yang relevan diringkas yang
Untuk mengidentifikasi objek data yang periklanan, desain katalog,
menghasilkan set yang lebih kecil yang
mirip satu sama lain pemasaran langsung.
memberikan informasi agregat dari data
Introduction to
Machine Learning
05
Machine
Learning
Fundamentals
Scheme of
Traditionals Computing
Example of ML Cases

● Predicting
● Sentiment analysis
● Segmenting
● Scoring
● Filtering
Scheme of
Example of Non-ML Cases
Machine Learning ● Get average thing
● Non- reply email
Machine Learning Application
HEALTHCARE & LIFE
MANUFACTURING SCIENCES
FINANCIAL SERVICES
● Predictive maintenance ● Alerts & diagnostics data
● Risk analysis & regulations
● Warranty estimation ● Disease identification
● Segmentation of customer
● Propensity to buy ● Risk stratifications
● Cross & Up selling
● Forecasting ● Optimize patient triage
● Marketing campaign
● Optimization ● management health
● Credit evaluation
● Telematics ● Analysis healthcare provider

RETAIL TRAVEL & HOSPITALITY ENERGY, FEEDSTOCK &


UTILITIES
● Predictive inventory plan ● Analysis power usage
● Recommendation engines ● Processing data seismic ● Aircraft scheduling
● Upsell & cross-channel ● Carbon emissions ● Dynamic pricing
marketing ● Trading ● Social media analysis
● Market segmentation & ● Pricing specific customer ● Customer compaint
targeting ● Smart grid management resolution
● Customer ROI ● Energy demand ● traffic patterns
● Lifetime value ● Supply optimization ● Congestion management
ML Algorithms

Benefit of ML
● Realtime decision making
process
● Increase effectiveness &
eficiency
● Optimize marketing
strategy
● Improve process
● Improve security
Types Of ML - Supervised
Learning
Supervised Learning adalah kelas dari sistem algoritma yang
menentukan model prediksi menggunakan data yang diketehui
outputnya. Model belajar dengan berlatih menggunakan algoritma yang
sesuai (seperti linear regression, random forests, or neural networks).
Implementasi Supervised Learning:
Regression - Model menemukan output angka (bisa desimal) yang cocok
dengan input.
Classification - Model menemukan kelas yang cocok untuk input.
Types Of ML - Unsupervised
Learning
Dalam Unsupervised Learning, hanya data input yang disediakan di
dataset. Tidak ada data label/taget. Tapi mungkin akan mengejutkan
kita jika bisa melihat banyak penemuan yang menarik dari pola
kompleks yang tersembunyi dalam data tanpa label. Tujuannya untuk
menemukan struktur/informasi yang menarik.
Example of Unsupervised ML
● Clustering
Clustering adalah kegiatan membagi
titik-titik data ke dalam beberapa
kelompok sehingga titik-titik data
dalam kelompok yang sama lebih mirip
dengan titik-titik data lain dalam
kelompok yang sama daripada yang ada
di kelompok lain.
Tujuannya adalah untuk memisahkan
kelompok-kelompok dengan
sifat-sifat yang sama.
Application of Unsupervised ML

Customer Identify Fraud Identify Spam


Segmentations Activity Email
GENERAL STEPS MACHINE LEARNING
DATA PROFILING DATA EXPLORATION
Data Profiling adalah pengolahan, Data Exploration adalah proses
analisis, dan menarik simpulan dari menganalisis kumpulan data besar
data yang tersedia untuk memperoleh dengan cara yang tidak terstruktur
informasi yang bermanfaat bagi pihak untuk mengungkap pola awal,
yang memproses data tersebut karakteristik, dan pola yang menarik

● cek missing values dan


cek imputation
CEK DATA
DATA TYPES ● deteksi anomali dan
SAMPLE
outlier serta pembersihan
● pembuatan correlation
DATA ROW X NUMERICAL/
COLOUMNS CATEGORICAL heatmap
DATA
MODELLING EVALUATION

CEK DATA
DATA TYPES
SAMPLE

DATA ROW X NUMERICAL/


COLOUMNS CATEGORICAL
DATA
BIAS DAN VARIAN TRADE-OFF
Bias adalah perbedaan antara nilai prediksi dan
nilai yang diharapkan. Untuk menjelaskan lebih
lanjut, dalam membuat model harus dibuat asumsi
tertentu ketika melatih sekumpulan data.

Varians Trade Off adalah ketika model


memperhitungkan fluktuasi data, misalnya seperti
noise.
Data Preprocessing
for Machine Learning
(with Python)
What is data preprocessing?
pemrosesan data dalam rangka
WE ARE HERE mempersiapkan data yang
dibutuhkan dengan tujuan agar
data bisa digunakan untuk melatih
model, meningkatkan efisiensi
model, dan meningkatkan performa
model

Pada tahap ini biasanya dilakukan


untuk menangani missing value,
menangani fitur kategorikal,
scaling/normalisasi, dan membagi
data menjadi train data dan test
data
What is feature?

Dalam data
feature (fitur)
juga bisa disebut
kolom atau
atribut atau
variabel

tipe-tipe fitur ini


dapat berupa
numerik ataupun
kategorikal
Predictor and Target
Variable
Nama lain predictor
biasanya disebut :

● independent variable
● feature
● variabel penjelas
● simbol (x)

sedangakn target:

● respn
● dependent variable
● simbol (y)
Missing Value Handling
contoh missing value

Handling:
1. Hapus baris/kolom 2. Isi missing value 3. Isi missing value
4. Cara kompleks:
dengan numerikal dengan kategorikal
(+) tidak perlu (+) mencegah kehilangan (+) mencegah 1. Diisi menggunakan
melakukan manipulasi informasi (isi kehilangan informasi
algoritma bantuan (k
dari menggunakan (di isi dengan
data asli mean/median) menggunakan modus) imputation)
(-) Kehilangan (-) Bisa membuat data (-) Terlalu asumtif
2. Memprediksi nilai d
informasi, jika terlalu menjadi bias jika dalam (Untuk
banyak yang data banyak pengisian dengan missing values
dihapus “pecilan”/”outlier” mode)
Label Encoding & One Hot Encoding
Label Encoding One Hot Encoding
Digunakan merubah fitur object menjadi Digunakan merubah fitur object menjadi fitur
fitur kategorikal ordinal (kategori kategorikal nominal di isi 1 atau 0( 1
memiliki urutan) 0,1,2,3.. dst menandakan bahwa kategori tersebut pada
baris tersebut ada sedangkan 0 berarti tidak
Feature Scaling
merupakan teknik untuk mengubah skala dari
feature, yang dapat dilakukan dengan:

standardization : mengubah nilai feature


sehingga nilai mean = 0 dan standar deviasi =1
normalization : mengubah nilai suatu feature
menjadi skala tertentu
Feature Scaling
why should it be done? when to use it?
1. data dengan skala sama akan 1. jika model ML terpengaruhi skala
menjamin algoritma data (kNN, logistic regression,
memperlakukan semua variabel SVM)
sama rata 2. standardization jika diketahui
2. data dengan skala sama dan data distribusi normal (gaussian)
centered lebih mempercepat atau jika model yang digunakan
algoritma memiliki asumsi normalitas
3. data dengan skala sama (regresi linier)
mempermudah interpretasi 3. normalization jika tidak
model machine learning memenuhi kriteria nomor 2
TRAINT TEST SPLIT
Train data digunakan untuk fit model machine learning,
sedangkan test data digunakan untuk mengevaluasi hasil fit
model tersebut.

Evaluasi model machine learning dengan train/test split


cocok digunakan untuk dataset yang berukuran besar.
Seperti yang kita ketahui, train/test split membagi dataset
menjadi train set dan test set, atau dengan kata lain, data
yang digunakan untuk proses training dan testing
merupakan kumpulan data yang berbeda.
THANK
YOU
by KUDA TINTA

Anda mungkin juga menyukai