Anda di halaman 1dari 27

Pengenalan Data Science

dengan Menggunakan
Python

FK
HELLO!
FIGARRI KEISHA
Data Scientist

figarrikeisha@gmail.com
2
MATERI

Persiapan, Instalasi dan Pengenalan Machine


Pengenalan Data Science Learning

1 2 3

Analisis Data dan


Visualisasi 3
1
Persiapan, Instalasi dan
Pengenalan Data Science
Jupyter Notebook and Python

4
Sumber

JUPYTER NOTEBOOK

▰ Web-based interface
▰ Live code and
visualization

5
Sumber

INSTALASI JUPYTER NOTEBOOK

1. Download Anaconda
2. Install dan ikuti langkah pada
▰ Melalui Anaconda* halaman download
3. Jalankan jupyter notebook
▰ Melalui pip install dengan menggunakan
command line : jupyter
notebook

6
*sangat direkomendasikan untuk pengguna baru
Sumber

INSTALASI JUPYTER NOTEBOOK

1. Install Python versi 3


2. Pada command line gunakan:
▰ Melalui Anaconda python3 -m pip install --upgrade pip
python3 -m pip install jupyter
▰ Melalui pip install*
3. Jalankan jupyter notebook dengan
menggunakan command line
jupyter notebook

7
*alternatif untuk menginstal jupyter notebook
PENGENALAN DATA SCIENCE

Data science is the discipline


of making data useful.

8
gambar
9
gambar
LINGKUP KERJA

Recommender
system

10
tambahan
TAMBAHAN

Apa perbedaan data analyst, Mengapa banyak data scientist


data science dan machine yang meninggalkan
learning? pekerjaannya?
Klik disini untuk baca Klik disini untuk baca

11
2
Data Analisis dan
Visualisasi
EDA dan Visualisasi

12
EXPLORATORY DATA
ANALYSIS
Cara paling sederhana tapi cukup kuat untuk
membangun hubungan awal dengan suatu
data, sebelum membuat model kompleks.
13
EXPLORATORY DATA ANALYSIS (EDA)

Apa yang kita lakukan ketika melakukan exploratory


data analysis?
Melakukan investigasi awal terkait dengan,
▰ Mencari pola
▰ Mencari anomali
▰ Menguji hipotesis dan memeriksa asumsi
14
VISUALISASI

Visualisasi dan EDA sangat


berkaitan erat, visualisasi
digunakan untuk mempermudah
memahami EDA dan juga
menjadi bentuk laporan (report)
atas pekerjaan yang telah kita
lakukan.

Sumber

15
BAGAIMANA MEMILIH
VISUALISASI?
▰ Tentukan tujuan yang ingin
diperlihatkan dari visualisasi
tersebut
▰ Untuk lebih mudah menentukan
tipe visualisasi, dapat
menggunakan panduan di samping

Sumber

16
3
Pengenalan Machine
Learning
Regresi dan Klasifikasi

17
MACHINE LEARNING

“Machine learning is like farming


or gardening. Seeds is the
algorithms, nutrients is the data,
the gardner is you and plants is the
programs.”

18
sumber
KATEGORI MACHINE LEARNING

19
Selengkapnya klik disini
Supervised Learning Unsupervised Learning
▰ Data berlabel ▰ Data tak berlabel
▰ Regresi, ▰ Clustering,
Prediksi harga rumah Segmentasi pembeli
▰ Klasifikasi, ▰ Deteksi Anomali
Gambar anjing & kucing Deteksi fraud

Additional blog

20
Bekerja dengan
scikit-learn
1. Pilih kategori model yang
akan digunakan
2. Masukkan hyperparameters
model
3. Bentuk data dalam matrix
4. Fit model ke data
5. Gunakan trained model ke
data baru

Instalasi
Dokumentasi

21
MODEL
yi = α + βxi
REGRESI
Regresi Linear
x : predictor
β : coefficient (slope)
Sederhana
α : intercept 1. Cara untuk memodelkan hubungan
y : estimator antara dua set variabel.
2. Hasilnya adalah persamaan
Residual
regresi linier yang dapat digunakan
untuk membuat prediksi tentang
data.
3. Konsepnya adalah menemukan
garis lurus yang paling pas melalui
β Fitted value
titik-titik. Garis yang paling pas
EVALUATION disebut garis regresi.
Mean-squared-error
Observed value Error perbedaan antara
α observed value dan fitted
value (prediksi)
sumber
R-squared Seberapa baik predictor
yang kita pilih
menjelaskan variabilitas 22
dalam estimator
KLASIFIKASI
MODEL x : predictor
β1 : coefficient (slope)
Regresi Logistik
β0 : intercept 1. Untuk klasifikasi biner
y : estimator 2. Menggunakan fungsi sigmoid,
kurva berbentuk S yang dapat
mengambil angka bernilai nyata
dan memetakannya menjadi nilai
antara 0 dan 1

e adalah basis dari logaritma natural dan x adalah


nilai yang ingin Anda ubah melalui fungsi logistik.

Sumber

23
Gambar
Evaluasi Klasifikasi
Penggunaan evaluasi ini bergantung
pada kasus yang sedang kita hadapi,
contoh penggunaan recall adalah
memprediksi fraud.

Sumber

24
Data Preprocessing
Feature Scaling Label Encoding
adalah metode yang digunakan untuk adalah metode yang mengonversi label
menormalkan berbagai variabel independen ke dalam bentuk angka sehingga dapat
atau fitur data. mengubahnya menjadi bentuk yang
dapat dibaca model.
1. Standardization* / Mean Removal
2. Min-Max or Scaling Features to a 1. Label Encoder
Range 2. One Hot Encoder
3. Normalization
4. Binarization
*Standardisasi merupakan persyaratan umum bagi banyak model
machine learning yang diterapkan dalam scikit-learn; mereka
mungkin berperilaku buruk jika fitur individual tidak lebih atau
kurang terlihat seperti data terdistribusi normal standar Gaussian
dengan rata-rata 0 dan standar deviasi 1.

ilustrasi
25
THANKS!
Ada pertanyaan?
Bisa tanya ke grup facebook!
Script jupyter notebook dapat diakses di github
26
CREDITS

Special thanks to all the people who made and


released these awesome resources for free:
▰ Presentation template by SlidesCarnival
▰ Photographs by Startup Stock Photos

27

Anda mungkin juga menyukai