dengan Menggunakan
Python
FK
HELLO!
FIGARRI KEISHA
Data Scientist
2
MATERI
1 2 3
4
Sumber
JUPYTER NOTEBOOK
▰ Web-based interface
▰ Live code and
visualization
5
Sumber
1. Download Anaconda
2. Install dan ikuti langkah pada
▰ Melalui Anaconda* halaman download
3. Jalankan jupyter notebook
▰ Melalui pip install dengan menggunakan
command line : jupyter
notebook
6
*sangat direkomendasikan untuk pengguna baru
Sumber
7
*alternatif untuk menginstal jupyter notebook
PENGENALAN DATA SCIENCE
8
gambar
9
gambar
LINGKUP KERJA
Recommender
system
10
tambahan
TAMBAHAN
11
2
Data Analisis dan
Visualisasi
EDA dan Visualisasi
12
EXPLORATORY DATA
ANALYSIS
Cara paling sederhana tapi cukup kuat untuk
membangun hubungan awal dengan suatu
data, sebelum membuat model kompleks.
13
EXPLORATORY DATA ANALYSIS (EDA)
Sumber
15
BAGAIMANA MEMILIH
VISUALISASI?
▰ Tentukan tujuan yang ingin
diperlihatkan dari visualisasi
tersebut
▰ Untuk lebih mudah menentukan
tipe visualisasi, dapat
menggunakan panduan di samping
Sumber
16
3
Pengenalan Machine
Learning
Regresi dan Klasifikasi
17
MACHINE LEARNING
18
sumber
KATEGORI MACHINE LEARNING
19
Selengkapnya klik disini
Supervised Learning Unsupervised Learning
▰ Data berlabel ▰ Data tak berlabel
▰ Regresi, ▰ Clustering,
Prediksi harga rumah Segmentasi pembeli
▰ Klasifikasi, ▰ Deteksi Anomali
Gambar anjing & kucing Deteksi fraud
Additional blog
20
Bekerja dengan
scikit-learn
1. Pilih kategori model yang
akan digunakan
2. Masukkan
hyperparameters model
3. Bentuk data dalam matrix
4. Fit model ke data
5. Gunakan trained model ke
data baru
Instalasi
Dokumentasi
21
MODEL REGRESI
yi = α + βxi
Regresi Linear
x : predictor
β : coefficient (slope)
Sederhana
α : intercept 1. Cara untuk memodelkan
y : estimator hubungan antara dua set variabel.
2. Hasilnya adalah persamaan
Residual
regresi linier yang dapat
digunakan untuk membuat
prediksi tentang data.
3. Konsepnya adalah menemukan
garis lurus yang paling pas
β Fitted value melalui titik-titik. Garis yang
EVALUATION paling pas disebut garis regresi.
Mean-squared-error
Observed value Error perbedaan antara
α observed value dan fitted
value (prediksi)
sumber
R-squared Seberapa baik predictor
yang kita pilih
menjelaskan variabilitas 22
dalam estimator
KLASIFIKASI
MODEL x : predictor
β1 : coefficient (slope)
Regresi Logistik
β0 : intercept 1. Untuk klasifikasi biner
y : estimator 2. Menggunakan fungsi sigmoid,
kurva berbentuk S yang dapat
mengambil angka bernilai nyata
dan memetakannya menjadi nilai
antara 0 dan 1
Sumber
23
Gambar
Evaluasi Klasifikasi
Penggunaan evaluasi ini bergantung
pada kasus yang sedang kita hadapi,
contoh penggunaan recall adalah
memprediksi fraud.
Sumber
24
Data Preprocessing
Feature Scaling Label Encoding
adalah metode yang digunakan untuk adalah metode yang mengonversi label
menormalkan berbagai variabel ke dalam bentuk angka sehingga dapat
independen atau fitur data. mengubahnya menjadi bentuk yang
dapat dibaca model.
1. Standardization* / Mean Removal
2. Min-Max or Scaling Features to a 1. Label Encoder
Range 2. One Hot Encoder
3. Normalization
4. Binarization
*Standardisasi merupakan persyaratan umum bagi banyak model
machine learning yang diterapkan dalam scikit-learn; mereka
mungkin berperilaku buruk jika fitur individual tidak lebih atau
kurang terlihat seperti data terdistribusi normal standar Gaussian
dengan rata-rata 0 dan standar deviasi 1.
ilustrasi
25
THANKS!
Ada pertanyaan?
Bisa tanya ke grup facebook!
Script jupyter notebook dapat diakses di github
26
CREDITS
27