Siapapun dapat menjadi data scientist karena ilmu data science tidak mengenal
background pendidikan dan era transformasi digital saat ini seorang data scientist
dibutuhkan dalam semua bisnis. di Indonesia sendiri banyak perusahaan dan startup
menjadikan data scientist sebuah jabatan yang penting dalam manajemennya.
Analisa seorang data scientist akan mempengaruhi keputusan usaha dan bisnis.
dengan banyaknya kebutuhan data science, profesi data scientist sangat menarik
untuk dipelajari dan dikembangkan. selain itu, prospek penghasilan untuk seorang
data scientist yang sangat baik membuat data science semakin diincar.
Data science merupakan kegiatan mendapatkan pengetahuan dari data, dengan cara
menghilangkan noise dari data yang tidak relevan, dan menemukan pola dari data.
1
Kegiatan Data science juga untuk mengembangkan model data tersebut untuk
digunakan dalam keperluan bisnis. Misalnya, dengan mengembangkan model data
pembelian, kita dapat memprediksi pembelian bulan depan sehingga bisa
mempersiapkan supply untuk memenuhi demand.
Penggunaan data science dalam bisnis meliputi:
a. Forecasting, menebak apa yang akan terjadi
b. Optimization, menghasilkan yang terbaik dari yang ada
c. Recommendation, menyarankan yang terbaik
d. Natural Language Proses, memproses bahasa manusia
e. Experimentation, AB Test/ eksperimen, memilih yang terbaik
f. Anomali Detection, menemukan yang tidak biasa
g. Chatbot, DLL
2
3. Berkarir di Bidang Data Science
Sebuah tim data science tidak hanya berisi data scientist saja, tapi juga ada business
expert, data engineer, dan ML engineer. Seorang data scientist Mengumpulkan data
dari berbagai sumber, membersihkan data, menyediakannya dalam format yang
mudah digunakan (data lake, data warehouse, atau data mart). Data scientist
membutuhkan pengetahuan di bidang matematika dan statistik, dasar programming,
dan domain bisnis.
3
4. Mementukan Objektif Bisnis Untuk Proyek Data Science
A. Memahami Bisnis Perusahaan
Dalam memahami bisnis perusahan yang disebut juga domain expertise, seorang
data scientist harus memahami:
a. Business Model
b. Business Process
c. Business Glossary
d. Business context, e.g challengers, competition
Setiap organisasi biasanya memiliki tujuan, seringkali diukur setiap quarter atau
setiap tahun. Dalam beberapa organisasi, istilahnya berbeda tapi pada dasarnya
sama; KPI (key performance indicator), OKR (objective-key result), target, dan lain-
lain. Ketika kita hendak memulai proyek data science, perlu kita pahami kita bekerja
dengan divisi mana dan apa objektif divisi tersebut saat ini.
B. SMART Framework
a. Specific: Jelas apa yang masuk scope, apa yang tidak.
b. Measurable: Bisa dihitung, tangible, jelas apakah achieved atau tidak.
c. Attainable: Realistis, tidak mengawang-awang
d. Relevant: Sesuai dengan OKR divisi dan perusahaan secara keseluruhan.
e. Time-bound: Ada deadline yang jelas.
Langkah berikutnya, kita perlu menerjemahkan objektif bisnis menjadi metriks
model. Metriks model adalah bagaimana kita akan mengukur model yang dibuat
sudah baik atau belum. Memahami bisnis membantu proyek Data Science untuk
tepat sasaran dan tepat guna.
5. Pemahaman data
A. Berkenalan dengan google colab
Google Colab merupakan interactive editor code yang bisa ditulis, dieksekusi dan
dibagi dengan google drive. Google colab bisa dipandang sebagai jupyter notebook
yang disimpan di google drive. Notebook document terdiri dari berbagai cells,
dimana setiap cells bisa mengandung kode, teks, gambar dan lain-lain.
4
Bisa di akses pada : https://colab.research.google.com/
Terdapat beberapa keuntungngan menggunakan Google Colab antara lain:
a. Tidak perlu instalasi dan configurasi
b. Gratis pemakaian, termasuk ke penggunaan GPU
c. Mudah berbagi akses
B. Menentukan data awal untuk analisis data
a. Langkah awal memahami data:
1. Penentuan data awal
2. Melihat deskripsi dan isi data
b. Penentuan data awal: Mengumpulkan data yang diperlukan sesuai dengan
masalah bisnis yang ingin diselesaikan
1. Kriteria dalam menentukan data
Data yang relevan
Data yang up-to-date
2. Sumber data yang dapat dipakai
Internal database
Data Survey
Data eksternal yang didapat dengan API atau crawling
3. Melihat isi dan deskripsi data: Membiasakan diri dengan data dan
Memahami konten pada data.
4. Data yang sudah terkumpul umumnya berbentuk seperti sebuah tabel,
dimana setiap baris merepresentasikan sebuah observasi dan setiap
kolomnya merepresentasikan atribut / variabel.
5. Tipe-tipe variabel pada data
5
Numerik (Kuantitatif).
Kontinu: contoh data tinggi badan, data nilai mata pelajaran
Kontinu: contoh data tinggi badan, data nilai mata pelajaran
Categorik (Kualitatif)
Ordinal: contoh: data jenjang pendidikan (SD, SMP, SMA)
Nominal: contoh: jenis kelamin, kota tempat tinggal
6. Menggunakan pandas untuk mengolah data
C. Menggunakan pandas untuk mengolah data
Pandas merupakan pustaka (library) di python yang dirancang untuk keperluan
analisis data
a. Jenis-jenis struktur data di pandas
Series: vektor 1 dimensi yang mempunyai tepat 1 jenis tipe data
dataframe merepresentasikan struktur data tabular yang berisikan
kumpulan kolom/ series, yang masing-masing bisa memiliki tipe data
yang berbeda (numerik, string, boolean, object)
D. Memvalidasi data
Validasi data merupakan hal yang penting sebelum melakukan analisis terhadap data.
hal ini dilakukan untuk menjamin bahwa kualitas data yang digunakan itu sudah valid
dan akurat
a. Beberapa Verifikasi yang diperlukan
Pengecekan nilai atribut yang kosong / tidak ada
Pengecekan kesalahan penentuan tipe data
Pengecekan nilai atribut yang tidak konsisten
b. Jika ditemukan atribut yang tidak valid, akan dilakukan proses pembersihan
data sedemikian rupa sehingga data tersebut menjadi valid
c. Proses teknik pembersihan data ini akan dijelaskan di pembahasan
selanjutnya
E. Karakteristik data berdasarkan statistika deskriptif
Statistika deskriptif merupakan metode untuk mengumpulkan, menggolongkan dan
menganalisis data yang untuk mendapatkan informasi karakteristik pada data.
Dalam statistika deskriptif, umumnya ada 2 jenis ukuran yang perlu dilihat:
a. Ukuran pemusatan data: ukuran yang merangkum posisi “sentral” pada data
6
Rata-rata (mean),
modus,
nilai tengah (median)
b. Ukuran penyebaran data:ukuran yang merangkum variabilitas pada data
Jarak (range)
Ragam (variance)
Standar deviasi
quartil
F. Karakteristik data dengan visualisasi
Visualisasi data merupakan representasi secara grafik dari informasi dan data.
Dengan visualisasi, kita dapat melihat dan memahami tren, outlier ataupun pola
dalam data. Berikut Dengan visualisasi, kita dapat melihat dan memahami tren,
outlier ataupun pola dalam data seperti:
a. Table
b. Histogram plot
c. Scatter plot
d. Bar chart
e. Line plot
G. Menggunakan matplotlib dan seaborn untuk visualisasi data
a. Matplotlib merupakan pustaka (library) di python untuk membuat visualisasi
statis, animasi dan interaktid dengan python.
b. Seaborn merupakan pustaka visualisasi python yang berdasarkan matplotlib.
Seaborn menyediakan high-level interface untuk menggambar grafik dan
terintegrasi dengan pandas
H. Menentukan hubungan antar variabel dengan korelasi
Korelasi menjelaskan bagaimana hubungan antara dua buah variabel pada data.
Korelasi dapat merangkum pola tren pada dua variabel: positif atau negatif. Cara
melihat kemungkinan adanya korelasi bisa menggunakan scatter plot.
a. Koefisien Korelasi
Suatu nilai di antara interval -1 sampai 1, yang menjelaskan Arah dari
sebuah tren
Nilai Keeratan hubungan dua variabel secara linear
7
Salah satu perhitungannya dengan korelasi pearson
6. Data Preparation
A. Membersihkan data
Membersihkan data merupakan tahap yang penting sebelum melakukan tahap
processing. Pentingnya membersihkan data karena data hampir tidak sepenuhnya
bersih dan ada indikasi pada data yang perlu diperbaiki, mendiagnosis data untuk
memperbaiki kekurangan data dan menyiapkan data untuk analisis. Dimana adanya
data yang sudah bersih, semakin mudah dan akurat untuk dianalisis.
a. Cara membersihkan data
Membuang data duplikat
Imputasi data kosong
Membuat value yang konsisten pada attribut kategorik
Membuang outlier (jika diperlukan)
B. Melakukan transformasi data untuk fitur numerik
Dalam membentuk sebuah model diperlukan kreativitas tertentu untuk mebuat
variabel baru yang bertujuan untuk meningkatkan akurasi dari model. Terdapat
empat teknik transformasi data untuk fitur numerik antara lain
a. Scaling Data
b. Standarisasi data
c. Normalisasi data
d. Transformasi dengan fungsi matematika
C. Melakukan transformasi data untuk fitur kategorik
Pada umumnya metode machine learning mengharuskan variabel input dan target
berupa numerik. Variabel kategorik perlu ditransformasi ke numerik agar bisa
dipakai untuk membentuk model. Terdapat dua teknik transformasi data untuk fitur
kategorik yaitu:
a. Label Encoding
b. One Hot Encoding
8
D. Cara melakukan seleksi fitur
Seleksi fitur merupakan proses mengurangi jumlah fitur dengan memilih fitur-fitur
pada data yang berkontribusi paling besar terhadap variabel target. Mengapa perlu
dilakukan? Umumnya, tidak semua fitur yang ada pada data diperlukan untuk
membangun sebuah model dan sebagian Fitur mungkin tidak begitu mempunyai
kontribusi yang kuat pada variabel target. Keuntungan melakukan seleksi fitur yaitu
mengurangi overfitting, meningkatkan akurasi, dan mengurangi waktu dalam
training model. Terdapat dua teknik umum seleksi fitur sebagai berikut:
a. Univariate Selection
b. Recursive Feature Elimination
9
b. Anomaly detection
c. Dimensionality reduction
d. Association rule learning
D. Evaluasi Model
Di bagian sebelumnya kita telah membahas bagaimana data digunakan untuk
melatih model machine learning. Untuk supervised learning, model yang cukup baik
berarti bahwa data label yang dihasilkan dari latihan model mendekati label aktual.
Untuk unsupervised learning, model yang cukup baik berarti bahwa data fitur
digunakan untuk merepresentasikan informasi secara optimal.
E. Skenario Pengujian
Saat melatih model machine learning, tidak dianjurkan untuk menggunakan semua
data sekaligus. Model yang sudah dilatih harus cukup fleksibel dalam menghadapi
data fitur yang belum pernah dihadapi. Dengan demikian, tidak akan didapati
perbedaan evaluasi model yang berarti antara saat latihan dan saat pengujian di
dunia nyata.
10
Setelah mendapatkan persetujuan dari pihak-pihak terkait, model dapat dirilis ke
lingkungan production. Artinya, siap digunakan oleh penggunanya. Tapi ada
beberapa hal yang perlu dibicarakan dengan stakeholder:
a) Rollback Condition, Sebelum melakukan rilis, perlu disepakati apakah ada
kondisi yang tidak dapat diterima yang membuat model ini perlu ditarik
kembali (rollback).
b) Release Strategy, Dalam release strategy, ada beberapa opsi: Big Bang,
langsung 100%, Bertahap, misal 10% user dahulu & monitor, AB Test
treatment & control misal 50:50
B. Rilis dan Monitor Data Science Model
Hal pertama yang harus dilakukan adalah implement system. Sebelum rilis model
sebaiknya membangun sebuah sistem yang sesuai dengan kebutuhan. Dalam aspek
ini software engineering best practice dibutuhkan. Selanjutnya Release Strategy
dengan beberapa opsi seperti Big Bang langsung 100%, bertahap misal 10% user
dahulu & monitor, atau AB Test ada treatment & control misal 50:50. Tahapan
terakhir adalah monitoring after release. Setelah rilis, model tetap perlu dimonitor
dari waktu ke waktu. Hal ini karena mungkin terjadi “data drifting” atau pergeseran
data.
C. Retrospektif Proyek
Retrospektif adalah sebuah langkah untuk melihat kembali keseluruhan proyek. Apa
yang bisa diperbaiki, apa yang sudah berjalan dengan baik, apa yang sebaiknya tidak
diulangi lagi.
11