8 VK2 NHV XRJ 8 Oy MDIGWHQHb QYVMzs M4 Ps J2 QL IAKd

Pengenalan Data Science
dengan Menggunakan
Python
FK
HELLO!
FIGARRI KEISHA
Data Scientist
2
MATERI
Persiapan, Instalasi dan Pengenalan Machine

Pengenalan Data Science Learning
1 2 3
Analisis Data dan

Visualisasi 3
1
Persiapan, Instalasi dan
Pengenalan Data Science
Jupyter Notebook and Python
4
Sumber
JUPYTER NOTEBOOK
▰ Web-based interface
▰ Live code and
visualization
5
Sumber
INSTALASI JUPYTER NOTEBOOK
1. Download Anaconda
2. Install dan ikuti langkah pada
▰ Melalui Anaconda* halaman download
3. Jalankan jupyter notebook
▰ Melalui pip install dengan menggunakan
command line : jupyter
notebook
6
*sangat direkomendasikan untuk pengguna baru
Sumber
INSTALASI JUPYTER NOTEBOOK
1. Install Python versi 3

2. Pada command line gunakan:
▰ Melalui Anaconda python3 -m pip install --upgrade pip
python3 -m pip install jupyter
▰ Melalui pip install*
1. Jalankan jupyter notebook dengan
menggunakan command line
jupyter notebook
7
*alternatif untuk menginstal jupyter notebook
PENGENALAN DATA SCIENCE
Data science is the discipline

of making data useful.
8
gambar
9
gambar
LINGKUP KERJA
Recommender
system
10
tambahan
TAMBAHAN
Apa perbedaan data analyst, Mengapa banyak data scientist

data science dan machine yang meninggalkan
learning? pekerjaannya?
Klik disini untuk baca Klik disini untuk baca
11
2
Data Analisis dan
Visualisasi
EDA dan Visualisasi
12
EXPLORATORY DATA
ANALYSIS
Cara paling sederhana tapi cukup kuat untuk
membangun hubungan awal dengan suatu
data, sebelum membuat model kompleks.
13
EXPLORATORY DATA ANALYSIS (EDA)
Apa yang kita lakukan ketika melakukan exploratory

data analysis?
Melakukan investigasi awal terkait dengan,
▰ Mencari pola
▰ Mencari anomali
▰ Menguji hipotesis dan memeriksa asumsi
14
VISUALISASI
Visualisasi dan EDA sangat

berkaitan erat, visualisasi
digunakan untuk mempermudah
memahami EDA dan juga
menjadi bentuk laporan (report)
atas pekerjaan yang telah kita
lakukan.
Sumber
15
BAGAIMANA MEMILIH
VISUALISASI?
▰ Tentukan tujuan yang ingin
diperlihatkan dari visualisasi
tersebut
▰ Untuk lebih mudah menentukan
tipe visualisasi, dapat
menggunakan panduan di samping
Sumber
16
3
Pengenalan Machine
Learning
Regresi dan Klasifikasi
17
MACHINE LEARNING
“Machine learning is like farming or

gardening. Seeds is the algorithms,
nutrients is the data, the gardner is
you and plants is the programs.”
18
sumber
KATEGORI MACHINE LEARNING
19
Selengkapnya klik disini
Supervised Learning Unsupervised Learning
▰ Data berlabel ▰ Data tak berlabel
▰ Regresi, ▰ Clustering,
Prediksi harga rumah Segmentasi pembeli
▰ Klasifikasi, ▰ Deteksi Anomali
Gambar anjing & kucing Deteksi fraud
Additional blog
20
Bekerja dengan
scikit-learn
1. Pilih kategori model yang
akan digunakan
2. Masukkan
hyperparameters model
3. Bentuk data dalam matrix
4. Fit model ke data
5. Gunakan trained model ke
data baru
Instalasi
Dokumentasi
21
MODEL REGRESI
yi = α + βxi
Regresi Linear
x : predictor
β : coefficient (slope)
Sederhana
α : intercept 1. Cara untuk memodelkan
y : estimator hubungan antara dua set variabel.
2. Hasilnya adalah persamaan
Residual
regresi linier yang dapat
digunakan untuk membuat
prediksi tentang data.
3. Konsepnya adalah menemukan
garis lurus yang paling pas
β Fitted value melalui titik-titik. Garis yang
EVALUATION paling pas disebut garis regresi.
Mean-squared-error
Observed value Error perbedaan antara
α observed value dan fitted
value (prediksi)
sumber
R-squared Seberapa baik predictor
yang kita pilih
menjelaskan variabilitas 22
dalam estimator
KLASIFIKASI
MODEL x : predictor
β1 : coefficient (slope)
Regresi Logistik
β0 : intercept 1. Untuk klasifikasi biner
y : estimator 2. Menggunakan fungsi sigmoid,
kurva berbentuk S yang dapat
mengambil angka bernilai nyata
dan memetakannya menjadi nilai
antara 0 dan 1
e adalah basis dari logaritma natural dan x adalah

nilai yang ingin Anda ubah melalui fungsi logistik.
Sumber
23
Gambar
Evaluasi Klasifikasi
Penggunaan evaluasi ini bergantung
pada kasus yang sedang kita hadapi,
contoh penggunaan recall adalah
memprediksi fraud.
Sumber
24
Data Preprocessing
Feature Scaling Label Encoding
adalah metode yang digunakan untuk adalah metode yang mengonversi label
menormalkan berbagai variabel ke dalam bentuk angka sehingga dapat
independen atau fitur data. mengubahnya menjadi bentuk yang
dapat dibaca model.
1. Standardization* / Mean Removal
2. Min-Max or Scaling Features to a 1. Label Encoder
Range 2. One Hot Encoder
3. Normalization
4. Binarization
*Standardisasi merupakan persyaratan umum bagi banyak model
machine learning yang diterapkan dalam scikit-learn; mereka
mungkin berperilaku buruk jika fitur individual tidak lebih atau
kurang terlihat seperti data terdistribusi normal standar Gaussian
dengan rata-rata 0 dan standar deviasi 1.
ilustrasi
25
THANKS!
Ada pertanyaan?
Bisa tanya ke grup facebook!
Script jupyter notebook dapat diakses di github
26
CREDITS
Special thanks to all the people who made and

released these awesome resources for free:
▰ Presentation template by SlidesCarnival
▰ Photographs by Startup Stock Photos
27

8 VK2 NHV XRJ 8 Oy MDIGWHQHb QYVMzs M4 Ps J2 QL IAKd

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

8 VK2 NHV XRJ 8 Oy MDIGWHQHb QYVMzs M4 Ps J2 QL IAKd

Diunggah oleh

Hak Cipta:

Format Tersedia

Pengenalan Data Science

Persiapan, Instalasi dan Pengenalan Machine

Analisis Data dan

INSTALASI JUPYTER NOTEBOOK

INSTALASI JUPYTER NOTEBOOK

1. Install Python versi 3

Data science is the discipline

Apa perbedaan data analyst, Mengapa banyak data scientist

Apa yang kita lakukan ketika melakukan exploratory

Visualisasi dan EDA sangat

“Machine learning is like farming or

e adalah basis dari logaritma natural dan x adalah

Special thanks to all the people who made and

Anda mungkin juga menyukai